Lemma (Lexikografie)
aus Wikipedia, der freien Enzyklopädie
Das Lemma (Pl. „Lemmata“) ist in der Lexikografie und Linguistik die Grundform eines Wortes, also die Wortform, unter der man in einem Lexikon nachschlägt. Außerdem kann das Lemma einen Überbegriff für verwandte Themen darstellen. Hier wird aber meist von einem Deskriptor gesprochen.
Das Wort „Mäusen“ wird zum Beispiel unter dem Lemma „Maus“ eingeordnet. Der Vorgang zur Bestimmung der genaueren Lemmata wird als Lemmaselektion oder auch Lemmatisierung bezeichnet.
Im Artikelnamensraum (Namensraum) der Wikipedia sind vor allem Begriffsklärungen und die Listenartikel (z. B. Liste deutscher Städte, Liste der Maler) zwar als Lemmata angelegt, stellen aber eigentlich Deskriptoren dar.
Inhaltsverzeichnis |
[Bearbeiten] Lemmatisierung
Die Festlegung der Form und die Anordnung der Lemmata wird auch Lemmatisierung genannt. Eine Teilmenge unmittelbar aufeinander folgender Lemmata bildet eine Lemmastrecke.
Unter Lemmatisierung wird außerdem die Zuordnung (oder auch Rückführung) einer Vollform zum entsprechenden Lemma verstanden. Dieser Vorgang ist je nach Anwendung in der Sprachtechnologie von Bedeutung. Beim Einsatz von statistischen Modellen etwa eignet sich die Lemmatisierung eines sehr kleinen Textkorpus manchmal dazu, um die Frequenz einzelner Lexeme zu erhöhen und dadurch das statistische Rauschen zu verringern. Die Vollformen des Korpus werden dabei durch ihr Lemma ersetzt bevor die statistische Auswertung gemacht wird. Gab es vorher beispielsweise die Wortformen „traf“, „treffe“, „trifft“ und „treffen“ jeweils ein Mal im Korpus, so gibt es nach der Lemmatisierung nur noch das Lemma „treffen“ – allerdings mit einer Frequenz von vier. Das Lexem „treffen“ hat damit eine potentiell viel höheres Gewicht im Korpus als es die einzelnen Vollformen vor der Lemmatisierung hatten.
[Bearbeiten] Lemmaselektion
Vor der Lemmatisierung wird eine Lemmaselektion durchgeführt, bei der entschieden wird, welche Arten von Lemmata in das Lexikon aufgenommen werden. Die Lemmaselektion ist notwendig, da eine vollständige Lemmatisierung aller Wörter, Wortteile und Wortgruppen einer Sprache nicht möglich ist. Ein Kriterium für die Aufnahme eines Lemmas in ein Lexikon ist die Zeitspanne, in der der Begriff in der jeweiligen Sprache existiert.
[Bearbeiten] Siehe auch
[Bearbeiten] Weblinks
- Wie kommt ein Wort in den Duden?, ein Bericht aus der Arbeit der Dudenredaktion
- Die Auswahl der Stichwörter, Erläuterungen zum elexiko-Projekt des IDS