TF-IDF
aus Wikipedia, der freien Enzyklopädie
Die Artikel Termfrequenz, Suchwortdichte und TF-IDF überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Die Diskussion über diese Überschneidungen findet hier statt. Bitte äußere dich dort, bevor du den Baustein entfernst. Cjesch 13:32, 11. Dez. 2006 (CET) |
tf-idf (term frequency - inverse document frequency) ist eine Gewichtungsmethode für Terme (Schlüsselwörter) beim Information Retrieval.
Die term frequency (Termfrequenz) in einem gegebenen Dokument gibt einen Hinweis auf die Bedeutung dieses Terms für das Dokument.
Die inverse document frequency (Inverse Dokumenthäufigkeit) misst die allgemeine Bedeutung des Terms.
wobei ni die Auftrittshäufigkeit des interessierenden Terms im Dokument und der Nenner die Gesamtzahl aller Terme im Dokument ist
mit
- |D| : Gesamtzahl der Dokumente im Textkorpus
: Anzahl der Dokumente, in denen der Term tj auftritt (wenn
).