Termfrequenz
aus Wikipedia, der freien Enzyklopädie
Die Artikel Termfrequenz, Suchwortdichte und TF-IDF überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Die Diskussion über diese Überschneidungen findet hier statt. Bitte äußere dich dort, bevor du den Baustein entfernst. Cjesch 13:31, 11. Dez. 2006 (CET) |
Die Termfrequenz (TF) gibt beim Information Retrieval die relative Häufigkeit eines Wortes beziehungsweise Termes in einem gesamten Dokument an. Sie dient als Indikator der Repräsentativität des Wortes für den Inhalt des Gesamtdokumentes. Die Termfrequenz wird unter Anderem in Verbindung mit der Inversen Dokumenthäufigkeit zur Gewichtung von Wörtern bei der Automatischen Indexierung eingesetzt.
Die Termfrequenz lässt sich berechnen als
.
Wobei hd(t) die Häufigkeit des Termes t im Dokument d und a(d) die Anzahl der Terme im Dokument d bezeichnet. Häufig wird statt der direkten Anzahlen ihr Logarithmus verwendet, so dass
.
Im Argument des Zählers wird eins addiert, damit die Termfrequenz für nicht vorkommende Terme Null ist. Werte mit einer Termfrequenz unter einem bestimmten Schwellenwert können ggf. ignoriert werden. Sehr häufige aber nicht sinntragende Wörter wie Pronomen werden als Stoppworte aussorttiert.
[Bearbeiten] Beispiel
Das aus einem Satz bestehende Dokument "Dumm bleibt dumm da helfen auch keine Pillen" enthält 8 Wörter, wobei das Wort "dumm" zwei mal und das Wort "Pillen" ein mal vorkommt. Die Termfrequenzen betragen ohne Logarithmierung TF = 2 / 8 = 0,25 bzw. TF = 1 / 8 = 0,125 und bei Verwendung des Logarithmus zur Basis zwei TF = log(3) / log(8) = 0,53 bzw. TF = log(2) / log(8) = 0,33.