Volltextrecherche

aus Wikipedia, der freien Enzyklopädie

Du hast neue Nachrichten auf deiner Diskussionsseite.

Eine Volltextrecherche ist das Auffinden von Texten in einer Vielzahl gleicher oder verschiedenartiger Dateien auf einem Computer, einem Server und/oder im Internet. Oftmals wird hierfür auch der Begriff Volltextsuche verwendet. Die Suchbereiche werden mit entsprechenden programminternen oder programmunabhängigen Index-Werkzeugen zuvor indiziert.

Zur schnellen Informationsgewinnung und dem Auffinden aus bekannten wie auch nicht bekannten (aber auf den Medien vorhandenen) Dokumenten ist die Volltextrecherche unverzichtbar.

Die Volltextrecherche dient daher dem Auffinden, Entdecken und Extrahieren unbekannter, nicht trivialer und wichtiger Informationen aus großen Mengen von unstrukturierten Texten/Dateien und ist somit auch ein wichtiger Teilbereich des Textmining.

[Bearbeiten] Entstehung & Geschichte

Die Volltextsuche ist in der Mitte der 1970er Jahre aufgekommen. Vorher wurden oft Systeme eingesetzt, in denen ein Mensch Schlüsselbegriffe in den später aufzufindenden Text oder in Meta-Dateien aufnehmen musste (Katalogsystem). Dieses Verfahren ist für viele Bereiche größtenteils nicht mehr durchführbar, da solche Kosten- und zeitintensiven Arbeiten eher schlecht für größere Datenbeständen funktionieren. Unter anderem ist die Suchmaschine Yahoo! in der Mitte der 1990er Jahre mit einem solchen Ansatz gescheitert.

Als Lösung für dieses Problem, begann man damit den gesamten Originaltext zum Zwecke des späteren schnellen Wiederauffindens aufzubereiten und in der aufbereiteten Form zu speichern. Damit kann theoretisch jedes Dokument, welches nur mindestens ein Wort der Suchanfrage enthält, aufgefunden werden. Somit ist der oben geschilderte händische Indexierungsprozess nicht nur umgangen worden, man erhält auch ein vollständigeres Suchergebnis. In der Praxis gibt es einige Probleme. Da eventuell auch Dokumente Wörter aus der Suchanfrage enthalten, die nicht dem gesuchten Thema entsprechen, werden diese ebenfalls gefunden und der Benutzer stellt sich vor das Problem einer gewaltigen Ergebnissliste mit oftmals irrelevanten Dokumenttreffern gegenüber. Demgegenüber werden außerdem Dokumente nicht gefunden, die zwar zum gesuchten Themenkomplex passen, aber andere Wörter z.B. Synonyme benutzen. Dieses Problem wird heutzutage mittels Ontologien bearbeitet. In der Mitte der 1970er wurden allerdings neue Sucharten neben der klassischen Wortsuche wie Phrasensuche oder Platzhaltersuche sowie Rankingverfahren eingeführt, um das obige Problem abzumildern.

[Bearbeiten] Grundlegende Sucharten

Je nach verwendetem Suchsystem gibt es folgende Suchmöglichkeiten:

Wortsuche
beliebige Wörter
Phrasensuche: "Mit Wikipedia kann man"
Boolesche Operatoren: "und/ oder/nicht"
Umfeldsuche: Wörter oder Phrasen die "n" Wörter voneinander entfernt sind (bei PDF-Index kleiner als 3 Seiten)
Platzhaltersuche:
- für einzelne Buchstaben "?" wie Ma?er = Mayer/Maier/Mauer...
- für beliebig viele Buchstaben "*"
Unscharfe Suche Fuzzy-Suche
Thesaurus-/Synonym-Suche
Natürlichsprachliche Suche mit Relevanzsortierung: "Finde alle IT-Artikel in Wikipedia"
Kombination mit den vorgenannten Möglichkeiten
Feldsuche: "Je nach verwendetem bis mit den vorgenannten Möglichkeiten"
Makro-Suche: Eine Möglichkeit mit vordefinierten Makros wiederkehrende Suchabfragen durchzuführen
diese Aufzählung ist nicht abschließend...

[Bearbeiten] Warum also Volltextrecherche?

Die Volltextrecherche ist eine Sofortlösung, ohne auf komplexe Systeme für Dokumentenmanagement und Datenschürfung (data mining) zugreifen zu müssen, die im Regelfall größeren Firmen und dem öffentlichen Dienst (perspektivisch) zur Verfügung stehen.

Durch die Volltextrecherche kann Organisationswissen, nicht nur rudimentär, verfügbar gemacht werden.

Gute Volltextrecherchesysteme durchsuchen mehrere Gigabytes in weniger als fünf Sekunden.

[Bearbeiten] Technik

Der häufigste Ansatz für ein Volltextrecherchesystem ist, dass ein kompletter Index der vollständigen Datenbasis erstellt wird. Für jedes Wort - außer Stoppwörter, die zur Suche eher unnütz sind - wird ein Eintrag in den Index mit der genauen Position im Datenbestand vorgenommen (Invertierte Datei).

Eine Suchanfrage kann nun relativ einfach abgearbeitet werden, da nun nicht mehr jedes Dokument selbst durchsucht werden muss. Für Kleinstdatenbestände wäre ein solches serielles Scannen zwar noch praktikabel, allerdings ist dieses Verfahren wesentlich schneller.