Korpuslinguistik
aus Wikipedia, der freien Enzyklopädie
Die Korpuslinguistik ist ein Bereich der Linguistik, in dem Theorien über Sprache anhand von Belegen oder statistischen Daten aus Textkorpora aufgestellt oder überprüft werden.
Inhaltsverzeichnis |
[Bearbeiten] Grundlage
Die Korpuslinguistik nimmt an, dass Sprache sinnvoll durch automatisierte Untersuchung großer Textmengen erforscht werden könne, ohne dass dabei die Untersuchung zu sehr von performanzbedingten Fehlern durchsetzt sei, die deren eigentliche Struktur verdecken. Eine Unterscheidung zwischen Sprachkompetenz und -performanz wird bewusst verworfen und stattdessen unterstellt, dass relevante und zuverlässige Erkenntnisse über Sprache anhand realer Anwendungsfälle erforscht werden können.
In der Regel sind die Korpora elektronische Texte, die mithilfe von Computerprogrammen mit Mitteln der Statistik durchsucht werden und die von systematischen Aufzeichnungen realer Gespräche, Abhandlungen und anderer Texte stammen.
Die Korpuslinguistik kann auch der Falsifizierung von linguistischen Theorien dienen.
[Bearbeiten] Korpuslinguistik und angewandte Informatik
Der heutige Stand der Korpuslinguistik wurde erst durch elektronische Datenverarbeitung möglich, da enorme Datenmengen bearbeitet werden müssen, um zu statistisch tragbaren Aussagen über komplexe Zusammenhänge zu gelangen. Um beispielsweise Aussagen über die Nachbarschaft (Kollokation bzw. Kookurrenz) zweier Wörter machen zu können (Bsp. Heißt es *der Auto, *die Auto oder das Auto?), müssen diese Wortpaare erst einmal häufig genug im Korpus enthalten sein, damit ein falsch positiver Eintrag ("die, die Auto fahren") nicht zu einer insgesamt falschen Aussage führt. Eine Anwendung aus der Zeit vor dem Computer, die heute der Korpuslinguistik zugerechnet werden kann, ist die Konkordanz.
Auch heute noch stellen viele Anwendungen der Korpuslinguistik selbst leistungsfähige Computer vor Herausforderungen. Dies ist ein Grund dafür, dass einige Textverarbeitungen in neuen Versionen auf alten Computern langsamer laufen als ihre Vorgängerversionen, da sie Elemente der Korpuslinguistik für ihre Rechtschreib- und Grammatikprüfung integrieren.
[Bearbeiten] Geschichte und Anwendungsgebiete
Da die Flexion von Wörtern im Englischen heute nur noch für wenige Fälle genutzt wird, genügen kleinere Textkorpora eher als für viele andere Sprachen: Während das Englische mit den Wörtern house, house's, houses und houses' auskommt, muss im Deutschen ein Zusammenhang zwischen Haus und seinen flektierten Formen wie Häuser, Hauses, Hause, Häusern erst hergestellt werden. Dies ist, neben einer allgemeinen Tendenz zur angewandten Forschung im anglo-amerikanischen Raum ein Grund, weshalb sich die Anwendung von Computern für die Korpuslinguistik dort zuerst entwickelt hat.
Computerbasierte Korpuslinguistik wurde 1967 von Henry Kucera und Nelson Francis durch ihr Werk Computational Analysis of Present-Day American English begründet, in dem sie das Brown Corpus diversen rechnergestützten Analysen unterziehen und die linguistischen, psychologischen, statistischen und soziologischen Aspekte der Ergebnisse diskutieren.
Das Brown Corpus wurde von denselben Forschern an der Brown University gesammelt und schon 1964 veröffentlicht. Es enthält fünfhundert, 1961 erschienene Texte in fünfzehn Kategorien mit zusammen etwa einer Million Wörtern. Es war das erste allgemeine und computerlesbare Korpus und gilt, obwohl es heute teilweise veraltet ist, durch seine prägende Wirkung auf andere Korpora immer noch als eines der wichtigsten überhaupt.
Die Korpuslinguistik wurde zuerst zur Entwicklung von Wörterbüchern, namentlich des American Heritage Dictionary (1969) genutzt, die von da an nicht nur präskriptive Beschreibungen (wie soll ein Wort benutzt werden), sondern auch deskriptive (wie wird ein Wort tatsächlich benutzt) enthielten. Zudem kann durch Worthäufigkeitsstatistiken die Relevanz von Einträgen zum Beispiel für zweisprachige Wörterbücher oder Lernerwörterbücher quantitativ ermittelt werden. Ein deutsches Online-Wörterbuch, das mit Mitteln der Korpuslinguistik erstellt wurde, ist das Wortschatzlexikon der Universität Leipzig. Es enthält eine Reihe anderer Angaben und Möglichkeiten gegenüber "normalen" Wörterbüchern. So kann man Assoziationsgrafen anzeigen und die relative Häufigkeit eines Wortes ermitteln. Durch Auswertung von Tageszeitungen wird eine Wortliste mit "Wörtern des Tages" erstellt.
Weitere Anwendungsgebiete sind der Aufbau von semantischen Netzen und damit die Sortierung von Texten oder des Wortschatzes (zur Suche nach Synonymen, Antonymen oder sinnverwandten Wörtern und damit als automatisch erzeugter Thesaurus). Mehrsprachige Korpora können zur (teil-)automatischen Übersetzung oder für vergleichende Betrachtungen der Sprachen genutzt werden.
[Bearbeiten] Methode, nicht Wissenschaft
Streng genommen stellt die Korpuslinguistik eher eine Technik oder eine neue Methode als eine neue linguistische Teildisziplin dar. Korpuslinguistischer Methoden bedient sich zum Beispiel die Statistische Linguistik oder die Computerlinguistik. Die Korpuslinguistik wurde erst ermöglicht durch die Verfügbarkeit großer Mengen an elektronischen Texten verbunden mit dem leichten Zugang zu Computern.
[Bearbeiten] Korpuslinguistik vs. traditioneller Ansatz
Die Korpuslinguistik ist eine induktive/empirische Methode zum Gewinn von Wissen über die Sprache: Man stellt eine Theorie auf nach der Beobachtung von möglichst vielen Einzelbeispielen. Sie steht damit in direktem Wettbewerb zu der deduktiven Methode, die bis dato praktisch die einzig gültige (und mögliche) in der Linguistik war, und sich aus der philosophischen Tradition der Linguistik herleitet: Der Wissenschaftler überlegt sich, wie Sprache aufgebaut ist, und versucht danach, in mehreren Sprachen Beispiele für seine Überlegung zu finden.
Dieser Ansatz liegt auch sämtlichen Theorien des "Sprachwissenschaft-Papstes" Noam Chomsky zugrunde. Er hat sich bereits klar gegen den Einsatz von korpuslinguistischen Methoden in der Linguistik ausgesprochen.
Noam Chomsky unterschied bei seinen Untersuchungen zwischen "E-Language" (der Menge der grammatisch korrekten Sätze) und "I-Language" (deren Repräsentation im menschlichen Sprachzentrum). Dabei konzentrierte er sich mehr und mehr auf letztere und stellte fest, dass für deren Untersuchung Textkorpora nicht geeignet sind. Er konzentrierte sich daher auf kurze Texte, die unter Laborbedingungen aus von Muttersprachlern gewonnenen Textproben erforscht wurden. Für seine Untersuchungen der I-Language schloss Chomsky die Korpuslinguistik als irrelevant aus. Die Textlinguistik dagegen erforscht nur die E-Language (in Chomskys Terminologie). Beide betrachten also grundlegend unterschiedliche Teilbereiche der Linguistik. Die Korpuslinguistik verzichtet auf die Betrachtung des Unterschieds zwischen Sprachkompetenz und -performanz, den Chomsky für wesentlich hält.
Der Streit zwischen Korpuslinguistik und traditioneller Linguistik ähnelt dem Streit zwischen Evidenzbasierter Medizin und traditioneller Medizin. Auch dort haben computergestützte Methoden den empirischen Nachweis von vorher eher glaubensbasierten Erkenntnissen leichtergemacht.
[Bearbeiten] Siehe auch
Linguistik, Künstliche Intelligenz, Maschinenlernen, Data-Mining, Komplexität (Informatik)
[Bearbeiten] Literatur
- Lothar Lemnitzer, Heike Zinsmeister: Korpuslinguistik. Tübingen:Gunter Narr Verlag, 2006
- Tony McEnery, Andrew Wilson: Corpus linguistics: an introduction. 2. ed. Edinburgh University Press 2001. ISBN 0-7486-1165-7
[Bearbeiten] Weblinks
- http://luna.lili.uni-bielefeld.de/lion/korpusmodul_start.html - Lernmodul über Korpuslinguistik
- http://www.linguistik-online.de/2_99/quasthoff.html Uwe Quasthoff & Christian Wolff (Leipzig): Korpuslinguistik und große einsprachige Wörterbücher
- http://wortschatz.informatik.uni-leipzig.de/ Wortschatzlexikon (mit Mitteln der Korpuslinguistik erstellt)
- http://www.dwds.de/ Digitales Wörterbuch des Deutschen auf Basis eines ausgewogenen Textkorpus
- http://www.schweizer-textkorpus.ch/ Informationen zum entstehenden Schweizer Textkorpus
- http://wortschatz.informatik.uni-leipzig.de/cgi-bin/wort_www?site=23&Wort=Moore&Graph=1&stpw=5 Assoziationsgraf für "Moore"
- http://www.linguistik.uni-erlangen.de/tree/html/corsica/zierl97/node5.html Marco Zierl: Korpora und Korpuslinguistik
- http://devoted.to/corpora - Eine umfangreiche Liste mit Links und Informationen zu verschiedenen Korpora weltweit
- http://www.bubenhofer.com/korpuslinguistik/ - Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge
- http://bowland-files.lancs.ac.uk/monkey/ihe/linguistics/contents.htm - sehr praktische Seite über Geschichte, Anwendungsbereiche, ... der Korpuslinguistik!