Static Wikipedia February 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Web Analytics
Cookie Policy Terms and Conditions Textmining - Wikipedia

Textmining

aus Wikipedia, der freien Enzyklopädie

Der Begriff Textmining bzw. Textschürfung bezeichnet die automatisierte Entdeckung neuer, richtiger und relevanter Informationen aus Textdaten. Mit statistischen und linguistischen Mitteln erschließt die Textmining-Software aus Texten Informationen, die die Benutzer in die Lage versetzen soll, ihr Wissen zu erweitern oder ihre Handlungen daran auszurichten. Textmining-Systeme liefern im Optimalfall Informationen, von denen Benutzer bisher nicht wussten, dass sie sie nicht kannten. Im Zusammenspiel mit ihren Anwendern sind Werkzeuge des Textminings außerdem dazu in der Lage, Hypothesen zu generieren, diese zu überprüfen und schrittweise zu verfeinern. Textmining zählt deshalb auch zu den Verfahren der explorativen Datenanalyse.

Inhaltsverzeichnis

[Bearbeiten] Daten, Information, Wissen

Für das Verständnis des Textmining ist der Unterschied zwischen Daten, Informationen und Wissen unerlässlich.

Ein Beispiel: In einem Text, zum Beispiel einem Wörterbuchartikel, steht die Zeichenkette <-s, ->, und zwar unmittelbar hinter dem Wort Kater. Im Kontext einer Wörterbuchsprache, die der Benutzer kennen muss, kann der Benutzer daraus die Information erschließen, dass der Genitiv Singular des Stichworts Katers ist und der Nominativ Plural Kater. Ein Benutzer mit ausreichenden Kenntnissen der deutschen Grammatiken kann ferner erschließen, dass der Dativ Plural des Stichwortes Katern ist, und so eine eventuell vorhandene Wissenslücke schließen. Letzteres ist Wissen, das in dem zugrunde liegenden Text nicht explizit angegeben ist, sondern von einem kundigen Benutzer erschlossen werden muss. Dies ist das Ziel von Textmining-Verfahren. Dazu werden unter anderem Techniken des logischen Schließens verwendet. Steht beispielsweise in einem Text, dass Paul lesen kann und an anderer Stelle, dass man das Lesen lernen muss, so folgt daraus, dass Paul das auch mal gelernt haben muss.

[Bearbeiten] Abgrenzung zu anderen texttechnologischen Verfahren

Textmining ähnelt einigen anderen texttechnologischen Verfahren, sollte von diesen aber abgegrenzt werden:

  • Verfahren der Informationserschließung (Information Retrieval, IR) liefern auf eine Suchanfrage aus einer Dokumentensammlung diejenigen Dokumente zurück, die für die Beantwortung der Frage relevant sind. Im Gegensatz zum Textmining werden also nicht einzelne Informationen oder Fakten erschlossen, sondern ganze Dokumente.
  • Verfahren der Informationsextraktion (engl. Information Extraction, IE) zielen darauf, aus Texten einzelne Fakten zu extrahieren und diese in einem Schema zu präsentieren, z.B. Fakten über Attentate mit terroristischem Hintergrund oder über Firmenzusammenschlüsse. Im Gegensatz zum Textmining sind hier aber zumindest die Kategorien bekannt, zu denen Informationen gesucht werden - der Benutzer weiß, was er nicht weiß.
  • Frage-Antwort-Systeme präsentieren Benutzern Ausschnitte aus Textdatenbanken, die am besten dazu geeignet sind, eine konkrete Wissensfrage zu beantworten, z.B. danach, wie die Hauptstadt von Liberia heißt. Diese Systeme gehen bei Ihrer Analyse aber nicht über die in der Textdatenbank explizit vorhandenen Daten hinaus.
  • Verfahren des automatischen Zusammenfassens von Texten (Summarizing) erzeugen ein Kondensat von einem Text oder einer Textsammlung, jedoch ebenfalls ohne über das in den Texten explizit Vorhandene hinauszugehen.
  • Am ehesten ist das Textmining dem Data-Mining vergleichbar. Mit diesem teilt das Textmining viele Verfahren, nicht jedoch den Gegenstand. Datamining-Verfahren operieren auf stark strukturierten Daten, die z.B. in relationalen Datenbanken gespeichert sind. Textmining-Verfahren hingegen operieren auf Texten, die als unstrukturierte oder schwach strukturierte Daten bezeichnet werden. Ein gängiges Verfahren des Textmining ist es, in einem ersten Schritt die unstrukturierten Textdaten in eine strukturierte Form zu bringen, die ihre Erschließung mit Verfahren des Datamining erlaubt. Hierfür ist sowohl eine strukturelle als auch eine linguistische Analyse der Texte notwendig.

[Bearbeiten] Linguistische Analyse von Texten

Eine der größten Herausforderungen des Textmining liegt darin, die Bedeutung aus natürlichsprachlichen Texten zu erschließen. Diese Aufgabe wird dadurch erschwert, dass einerseits einzelne Wörter und Phrasen mehrdeutig sein können (Polysemie) und andererseits dieselbe Bedeutung durch verschiedene Wörter und Phrasen ausgedrückt werden kann (Synonymie). Textmining setzt daher die linguistische Erschließung der Texte voraus. Diese basiert typischerweise auf den folgenden, nur zum Teil automatisierbaren Schritten:

  • Zunächst muss ein Text in Sätze, Phrasen und Wörter zerlegt werden (Tokenisierung).
  • Die Phrasen und Wörter müssen linguistisch klassifiziert werden (Tagging (s.a. Wortart) wird in der Informatik auch als Lexer bezeichnet).
  • Die grammatische Struktur von Sätzen muss ermittelt werden sowie die Morpheme bestimmt(Parsing s.a. Sprach_Parser).
  • Pronomen (er, sie) müssen den vorausgehenden oder folgenden Nominalphrasen (Goethe, die Polizisten), auf die sie verweisen, zugeordnet werden (Anaphernresolution).
  • Eigennamen (named entities) für Personen, Orte, von Firmen, Staaten u.s.w. müssen erkannt werden, da sie eine andere Rolle für die Konstitution der Textbedeutung haben als generische Substantive.
  • Mehrdeutigkeit von Wörtern und Phrasen wird dadurch aufgelöst, dass jedem Wort und jeder Phrase genau eine Bedeutung zugeschrieben wird (Bestimmung der Wortbedeutung, Disambiguierung).
  • Einige Wörter und Phrasen können einem Fachgebiet zugeordnet werden (Termextraktion).
  • Die Bedeutungsbeziehungen zwischen einzelnen Wörtern und Phrasen muss erkannt werden. Auf diese Weise können unterschiedliche Formulierungen eines Sachverhalts (Synonymie, Hyperonymie) erkannt und einander zugeordnet werden.

Zur Lösung dieser Aufgaben gibt es heute zum Teil verlässliche und einfach implementierbare Verfahren, zum Teil ist die zufrieden stellende automatische Lösung dieser Aufgaben Gegenstand der Forschung. Computerlinguistische Verfahren, die diese Aufgaben lösen sollen, benötigen kodiertes Wissen verschiedener Art, z.B.

  • Wörterbücher, in denen die Wortart(en) und Bedeutung(en) von Wörtern und Phrasen registriert sind,
  • Ontologien, die darüber hinaus den spezifischen Wortschatz eines Fachgebiets und die Beziehungen zwischen den Fachwörtern kodieren,
  • Listen von Eigennamen, z.B. für Länder, Städte, Firmen,
  • Listen von häufig verwendeten Abkürzungen.

Diese Ressourcen sind für jede Sprache und teilweise für jedes Fachgebiet neu zu erstellen. Ihre Erstellung ist zeitaufwendig und kostenintensiv. Die Computerlinguistik ist deshalb bestrebt, den Bedarf an solchen externen Informationen so gering wie möglich zu halten und die vorhandenen Daten wiederzuverwenden.

Nach dem heutigen Stand der Technik werden die linguistisch analysierten Textdaten annotiert. Dies geschieht so, dass jeder textuellen Einheit die linguistischen Beschreibungen zugeordnet werden. XML ist eine hierfür besonders gut geeignete Annotationssprache. Den Texten als Ganze können darüber hinaus Metadaten zugeordnet werden.

[Bearbeiten] Verfahren

Auf der Grundlage dieser zumindest partiell analysierten können die eigentlichen Textmining-Verfahren aufbauen. Diese Verfahren sollen:

  • In Texten implizit vorhandene Informationen explizit machen
  • Beziehungen zwischen Informationen, die in verschiedenen Texten repräsentiert sind, sichtbar machen.

Hierzu werden Methoden der explorativen Datenanalyse und des logischen Schließens verwendet. Eine große Rolle bei der Entwicklung solcher Verfahren spielt das maschinelle Lernen, sowohl in seiner überwachten als auch in seiner unüberwachten Variante.

Zwei Beispiele:

  • Eine Menge von Dokumenten wird in einen hochdimensionalen Vektorraum (100.000 Dimensionen und mehr) von Termen und Termhäufigkeiten überführt. Die so entstandene Matrix wird durch Singulärwertzerlegung in eine niederdimensionale Matrix zerlegt (mit mehreren Hundert Dimensionen). Die Auswertung von Beziehungen zwischen Dokumenten durch diese reduzierte Matrix ermöglicht es, Dokumente zu ermitteln, die sich auf denselben Sachverhalt beziehen, obwohl ihr Wortlaut verschieden ist. Auswertung von Beziehungen zwischen Termen in dieser Matrix ermöglicht es, assoziative Beziehungen zwischen Termen herzustellen, die oftmals semantischen Beziehungen entsprechen und in einer Ontologie repräsentiert werden können.
  • In Anlehnung an Verfahren des Datamining kann in Texten nach (lexikalischen) Assoziationen gesucht und diese nach ihrer Stärke bewertet werden. So lässt sich z.B. eine starke Assoziation zwischen dem Namen eines Medikaments und negativen Prädikationen schließen, das in dem durch die Texte repräsentierten Diskurs dieses Medikament in schlechtem Ruf steht. Die Erkennung von Assoziationen setzt voraus, dass die Probleme, die Synonymie und Polysemie in natürlichsprachlichen Texten einer solchen Datenanalyse bereiten, weitgehend gelöst sind.

Ein weiterer wichtiger Schritt, der nach der Analyse der Daten erfolgen muss, ist die Präsentation oder Visualisierung der Ergebnisse. So wird versucht, Fakten und Themen und deren Zusammenhänge landkartenähnlich zu präsentieren. So können Benutzer verdeckte Zusammenhänge besser erkennen.

[Bearbeiten] Anwendungen

Eine der am weitesten entwickelten Textmining-Infrastrukturen ist Webfountain, das von IBM entwickelt wurde. Webfountain stellt Speicherplatz, Rechenzeit, Daten und Textmining-Methoden zur Verfügung. Dienstleister, die diese Infrastruktur gegen Lizenzgebühren nutzen, können auf dieser Basis avancierte Informationsdienstleistungen für Firmenkunden, in Zukunft vielleicht auch für Privatkunden, anbieten. Die meisten Anwendungen versuchen dabei, aus den Daten Muster und Trends herauszudestillieren. Zu den geplanten und zum Teil schon realisierten Anwendungen gehören:

  • Ein Dienst, der die Entwicklung der Reputation von Firmen und Produkten auf Grund einschlägiger Diskussionsbeiträge in Newsgroups, Weblogs usw. verfolgt;
  • Ein Dienst, der im Auftrag von Banken Versuche von Geldwäsche ermittelt;
  • Eine Suchmaschine für Informationen aus dem Finanzsektor, die thematisch einschlägige Artikel identifizieren und thematische Entwicklungen verfolgen kann.
  • Ein Dienst, der ermittelt, ob bestimmte pharmazeutische Produktentwicklungen bereits stattgefunden haben und ob diese Versuche erfolgreich waren bzw. warum sie scheiterten.
  • Überwachung von Firmeninternen Netzwerken "Extrusion prevention" - um sicherzustellen, daß keine geheimen Daten die Firma verlassen.
  • Geheimdienstliche überwachung von Medien, Staaten, Minderheiten und anderen Personengruppen
  • Spamchecker: Software die Werbungsmails von sinnvollen bzw. erwünschten Zusendungen unterscheiden kann.
  • Suchmaschinen für Nachforschungen jeglicher Art: Das Informationsangebot via Internet, Radio, Fernsehen, Zeitschriften und sonstigen in Digitaler Form vorhandenen Daten ist bei weitem unüberschaubar. Software die diese durcharbeitet und die jeweils gesuchte Information aufbereitet und darstellt wird immer wichtiger.

[Bearbeiten] Siehe auch

[Bearbeiten] Weblinks

[Bearbeiten] Literatur

  • Franke, Jürgen und Nakhaeizadeh, Gholamreza und Renz, Ingrid (Editoren): Text Mining -- Theoretical Aspects and Applications, Physica-Verlag, Berlin, 2003.
  • Mehler, Alexander: Textmining in Lemnitzer, Lothar/Lobin, Henning (Hrsg.): Texttechnologie. Perspektiven und Anwendungen. Stauffenburg, Tübingen, 2004, S. 329-352 ISBN 3-8605-7287-3.
  • Gerhard Heyer, Uwe Quasthof, Thomas Wittig: Text Mining: Wissensrohstoff Test -- Konzepte, Algorithmen, Ergebnisse, W3L Verlag, Herdecke, Bochum, 2006, ISBN 3-937137-30-0.
Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2006 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu