Trigrammstatistik
aus Wikipedia, der freien Enzyklopädie
Als Trigrammstatistik bezeichnet man eine Statistik über die Häufigkeit von Buchstabenkombinationen aus drei Buchstaben (Trigramm), manchmal auch von Wortkombinationen aus drei Wörtern. Anwendungen finden Trigrammstatistiken in der Kryptanalyse sowie in der Linguistik. Für aussagefähige Statistiken sollten ausreichend große Textbasen von mehreren Millionen Buchstaben oder Wörtern benutzt werden.
Als Beispiel ergibt die statistische Auswertung einer deutschen Textbasis von etwa acht Millionen Buchstaben „ICH“ als das häufigste Trigramm mit einer relativen Häufigkeit von 1,15 %. Die folgende Tabelle gibt eine Übersicht über die zehn (in dieser Textbasis) als häufigste ermittelten Trigramme:
Trigramm Häufigkeit ICH 1,15 % EIN 1,08 % UND 1,05 % DER 0,97 % NDE 0,83 % SCH 0,65 % DIE 0,64 % DEN 0,62 % END 0,60 % CHT 0,60 % |
Ein wichtige Anwendung aus dem Gebiet der Linguistik sind Spracherkennungssysteme. Dabei prüft das System während der Erkennung die verschiedenen Hypothesen zusammen mit dem Kontext und kann dadurch Homophone unterscheiden.