Computerlinguistik
aus Wikipedia, der freien Enzyklopädie
In der Computerlinguistik wird untersucht, wie natürliche Sprache mit Hilfe des Computers algorithmisch verarbeitet werden kann. Sie ist Teilbereich der Künstlichen Intelligenz und gleichzeitig Schnittstelle zwischen Sprachwissenschaft und Informatik.
Hauptmotivation sind dabei folgende zwei Bestrebungen:
- Die Unterstützung der sprachwissenschaftlichen Forschung durch den Einsatz von Computern. Das geschieht z. B. durch die automatische Analyse großer Korpora, um sprachliche Phänomene zu untersuchen oder die Gültigkeit von Theorien zu prüfen.
- Die Entwicklung sprachverarbeitender Systeme, z. B. für die maschinelle Übersetzung, automatische Textzusammenfassung, Extraktion von Informationen aus Texten, natürlichsprachige Interaktion mit Maschinen usw. Es steht hierbei also mehr die Anwendung im Vordergrund.
Inhaltsverzeichnis |
[Bearbeiten] Anwendungen in der Praxis
Die praktische Aufgabe der Computerlinguistik besteht darin, Computerprogramme zu entwickeln, die bestimmte, an Sprache geknüpfte Leistungen erbringen. Dazu gehören zum Beispiel:
- Die Unterstützung des Computerbenutzers bei der Textverarbeitung, beispielsweise Korrektur von Tipp- und Rechtschreibfehlern, Prüfung auf grammatische Richtigkeit, Umwandlung in Bedeutungszeichen in Japanisch oder Chinesisch.
- Die automatische Suche nach Textstellen, und zwar nicht nur ihrer Form, sondern ihrer Bedeutung nach (Information-Retrieval und Suchmaschinen).
- Die Unterstützung beim Übersetzen von Texten in eine andere Sprache (CAT, Computer Aided Translation) oder auch die vollständige automatische Übersetzung.
- Die Verarbeitung von gesprochener Sprache (Spracherkennung und Sprachsynthese), zum Beispiel bei telefonischen Auskunftsdiensten oder Lesegeräten für Blinde.
- Die Auffindung von Information in großem Stil, von Literaturangaben bis hin zu direkter Beantwortung von Fragen auf der Basis großer Datenbanken (Information Retrieval, Data-Mining, Informationsextraktion).
- Die Aufbereitung von sprachlich vorliegenden Daten, beispielsweise die Verschlagwortung von Literatur, die Anfertigung von Registern und Inhaltsverzeichnissen, die Herstellung von Zusammenfassungen und Abstracts.
- Die Unterstützung von Autoren beim Verfassen von Texten, zum Beispiel das Finden des treffenden Ausdrucks oder der richtigen Terminologie.
- Die Interaktion des Benutzers mit dem Computer in natürlicher Sprache, so dass Computer auch Personen zugänglich sind, die sich mit den speziellen Befehlen nicht auskennen.
[Bearbeiten] Probleme der Computerlinguistik
Einige der Probleme, die man dabei lösen muss, sind:
- Bestimmen der Wortbedeutung. Die gleiche Wortform kann je nach Kontext eine andere Bedeutung aufweisen (vergleiche Homonym). Man muss die für den Kontext zutreffende Bedeutung auswählen. Auf der anderen Seite braucht man Formalismen zur Repräsentation von Wortbedeutungen.
- Auflösung syntaktischer Mehrdeutigkeiten. In einigen Fällen lässt sich ein Satz auf mehrere Arten analysieren und deuten. Die Richtige auszuwählen erfordert manchmal semantische Information über den Sprechakt und die Intention der Sprecher, mindestens jedoch statistisches Vorwissen über das gemeinsame Auftreten von Wörtern.
- Beispiel: „Peter sah Maria mit dem Fernglas“ – hier ist nicht zwangsläufig klar, ob Peter Maria gesehen hat, die ein Fernglas in der Hand hielt, oder ob Peter Maria mit Hilfe eines Fernglases sehen konnte.
- Erkennen der Absicht einer sprachlichen Äußerung (siehe Pragmatik). Manche Sätze sind nicht wörtlich zu verstehen. Beispielsweise erwartet man auf die Frage „Können Sie mir bitte das Salz reichen?“ nicht die Antwort „Ja“ oder „Nein“, sondern bittet stattdessen um das Salz.
Ob und wie sich diese Aufgaben maschinell lösen lassen, ist nicht nur vom Stand der Computertechnologie her vorgegeben, sondern hängt natürlich sehr von den Eigenschaften der Sprache ab. Mehr noch: Man wird zwar nach Verfahren streben, die auf alle Sprachen anwendbar sind, die Details müssen aber für jede einzelne Sprache gesondert ausgearbeitet werden. Ein Programm zur automatischen Trennung von Wörtern, das für das Englische entworfen wurde, wird ohne Anpassung für das Deutsche nicht verwendbar sein, weil hier die Prinzipien der Worttrennung andere sind. Im Unterschied zur Informatik, die sich allgemein mit dem Programmieren von Computern befasst, liegt das Anwendungsfeld der Computerlinguistik also in den sprachspezifischen Teilen von Computerprogrammen.
Eine Wissenschaft definiert sich freilich nicht nur durch ein Anwendungsfeld, sondern auch durch ein theoretisches Interesse. Computer sind Automaten, die Symbole (im Grunde lauter „Nullen und Einsen“) nach bestimmten Regeln manipulieren. Ebenso wie die Zahlen sind aber auch Sprachen – freilich sehr vielschichtige – Symbolsysteme. Es liegt daher nahe, Computerprogramme zu entwerfen, welche die Operationen, die der Mensch mit den Wörtern einer Sprache vollzieht, zumindest teilweise, simulieren. Man kann so sprachwissenschaftliche Hypothesen mit dem Computer prüfen. Die Computerlinguistik ist in diesem Sinne eine Linguistik, welche die Computersimulation als methodisches Mittel einsetzt, um unser Wissen über menschliche Sprachen zu vertiefen.
Letztlich wirft dieser Ansatz allerdings mancherlei psychologische und philosophische Fragen auf. Der Computer ist eine Maschine; die Sprache ist etwas Geistiges. Wie weit kann man das Rechnen mit Sprache treiben? Werden Computer eines Tages denken beziehungsweise funktioniert der menschliche Geist wie eine Symbolmaschine? Das Faszinierende an der Computersimulation von Sprachverhalten ist gerade das Ausloten ihrer Grenzen. Ein Erkenntnisinteresse, aus dem heraus man auch Computerlinguistik betreiben kann, ist es herauszufinden, ob und wie weit menschliche Kommunikation von Computern verarbeitbar ist und falls man an Grenzen stößt, wie diese aussehen. Sind diese Grenzen nur praktische oder grundlegend theoretische? Diese Erkenntnis ist sehr wichtig für den Platz, den wir Computern in der Gesellschaft einräumen wollen.
Siehe auch: Maschinelles Lernen, Sprachverarbeitung, Spracherkennung, Linguistische Programmiersprache, Übersetzung
[Bearbeiten] Studium
Computerlinguistik kann man im deutschsprachigen Raum unter anderem an folgenden Hochschulen als eigenständiges Fach studieren:
- Universität Bochum (Bachelor und Master; Sprachwissenschaftliches Institut)
- Universität Bremen (Bachelor als Nebenfach; CLUB)
- Universität Duisburg-Essen (als Nebenfach)
- Universität Erlangen-Nürnberg (Magister und Bachelor; CLUE)
- Universität Gießen (als Zweitfach)
- Universität Göttingen (Bachelor und Master; Center for Informatics)
- Universität Heidelberg (Magister und Bachelor; Seminar für Computerlinguistik der Uni Heidelberg)
- Universität Jena (als Nebenfach)
- Universität München (Magister; Centrum für Informations- und Sprachverarbeitung (CIS))
- Universität Potsdam (Bachelor, auch als Zweitfach; Institut für Linguistik)
- Universität des Saarlandes (Bachelor und Master; Computational Linguistics and Phonetics)
- Universität Stuttgart (Diplom; Institut für Maschinelle Sprachverarbeitung in Stuttgart)
- Universität Trier (Magister als Linguistische Datenverarbeitung; Computerlinguistik Trier)
- Universität Tübingen (Bachelor und Master; Seminar für Sprachwissenschaft)
- Universität Zürich (Bachelor und Master, Computerlinguistik und Computerlinguistik und Sprachtechnologie; Institut für Computerlinguistik in Zürich)
Ähnliche Fächer bieten folgende Universitäten an:
- Universität Bielefeld
- im Profil Texttechnologie des Studiengangs Linguistik
- im Profil Computerlinguistische Dialog- und Diskursmodellierung des geplanten Master-Studiums der Linguistik
- Universität Bonn
- im Studiengang Kommunikationsforschung und Phonetik [1]
- Universität Düsseldorf
- im Studiengang Informationswissenschaft und Sprachtechnologie
- im Studiengang Linguistik mit Kernfach Computerlinguistik
- Universität Frankfurt
- im Studiengang Kognitive Linguistik, im Wahlmodul Computerlinguistik
- Universität Hildesheim
- im Studiengang Internationales Informationsmanagement, Schwerpunkt Angewandte Informationswissenschaften
- Universität Kiel
- im Studiengang Phonetik und Digitale Sprachverarbeitung
- Universität Klagenfurt
- im Studiengang Informatik
- Universität Köln
- im Studiengang Sprachliche Informationsverarbeitung [2]
- Universität Leipzig
- als Linguistische Informatik im Studiengang Informatik
- Universität Magdeburg
- im Studiengang Informatik, Schwerpunkt Wissens- und Dokumentverarbeitung
- Universität Osnabrück
- Im Studiengang Cognitive Science als Modul im Bachelor- bzw. Schwerpunkt im Master-Programm
- Universität Passau
- als Nebenfach Allgemeine Linguistik im Studiengang Informatik
[Bearbeiten] Regelmäßige Veranstaltungen
[Bearbeiten] Tagungen
- TaCoS
- Einmal im Jahr (Mai/Juni) findet die "Tagung der Computerlinguistik-Studierenden" kurz TaCoS statt. Diese ist eine drei- bis viertägige Tagung die von Studenten für Studenten organisiert wird.
- GLDV-Jahrestagung
- Alle zwei Jahre findet die Gesellschaft für linguistische Datenverarbeitung(GLDV) Jahrestagung statt.
[Bearbeiten] Schulen
- Computational Linguistics Fall School: Seit 2001 regelmäßig alle zwei Jahre stattfindende Herbstschule der Deutschen Gesellschaft für Sprachwissenschaft in englischer Sprache.
- ESSLLI: European Summer School in Logic, Language and Information
[Bearbeiten] Literatur
- James Allen: Natural Language Understanding. Redwood City, CA: The Benjamin/Cummings Publishing Company, Inc., 1995.
- Roland Hausser: Grundlagen der Computerlinguistik, Mensch-Maschine Kommunikation in natürlicher Sprache. Berlin, New York: Springer, 2000.
- Daniel Jurafsky, James H. Martin: Speech and Language Processing - An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Upper Saddle River, New Jersey: Prentice Hall, 2000.
- Gerhard Kaucic: Computer Sprache Übersetzen oder Fragmente zu einer Theorie des Übersetzens. - In: Die Grüne F Abyss. Internationale polylinguale Zeitschrift für Grüne Kultur/Politik. Nr.4/1989, S. 36ff.
- Ralf Klabunde et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. Berlin: Spektrum Akademischer Verlag, 2. Auflage, 2004.
- Christopher D. Manning, Hinrich Schütze: Foundations of Statistical Natural Language Processing. Cambridge/MA: MIT Press, 1999.
- Ruslan Mitkov (Hrsg.): The Oxford Handbook of Computational Linguistics, Oxford University Press, 2003.
[Bearbeiten] Organisationen
- Association for Computational Linguistics (The Association for Computational Linguistics)
- AFNLP (Asian Federation of Natural Language Processing Associations)
- Deutsche Gesellschaft für Sprachwissenschaft (DGfS) / Sektion Computerlinguistik
- Gesellschaft für linguistische Datenverarbeitung
[Bearbeiten] Weblinks
- http://www.cl.uni-bremen.de/Resources/cl-materialien.html - Lehrmaterialien der Sektion Computerlinguistik der DGfS
- http://www.ifi.unizh.ch/CL/Glossar/glossary.html - Glossar zu Fachbegriffen aus der Computerlinguistik
- http://www.lingua.uni-trier.de/ - Wiki zu Computerlinguistik und Linguistik (Teil eines CL-Portals)