N-Gramm
aus Wikipedia, der freien Enzyklopädie
Ein N-Gramm ist eine Menge aus N Zeichen, beispielsweise ein Wortfragment. Wichtige N-Gramme sind das Monogramm, das Bigramm (manchmal auch als Digramm bezeichnet) und das Trigramm. Das Monogramm besteht aus einem Zeichen, beispielsweise nur aus einem einzelnen Buchstaben, das Bigramm aus zwei und das Trigramm aus drei Zeichen. Darüber hinaus werden die Begriffe Tetragramm für vier Zeichen, Pentagramm für fünf Zeichen, Hexagramm für sechs Zeichen, Heptagramm für sieben Zeichen und Oktogramm für acht Zeichen verwendet. Allgemein kann man auch von Multigrammen sprechen, wenn es sich um eine Gruppe von "vielen" Zeichen handelt.
Die Vorsilben der Bezeichnungen werden in der Regel unter Zuhilfenahme der griechischen Zahlwörter gebildet. Beispiele sind mono von griechisch monos für „allein“ oder „einzig“, tri für „drei““, tetra für „vier““, penta von griechisch pente für „fünf“, hexa für „sechs“, hepta für „sieben“, okto für „acht“ und so weiter. Bi und multi sind Vorsilben lateinischen Ursprungs und stehen für „zwei“ beziehungsweise „viele“.
Die folgende Tabelle gibt sortiert nach der Anzahl N der Zeichen zusammen mit einem Beispiel, bei denen als Zeichen Alphabet-Buchstaben genommen wurden, eine Übersicht über die Bezeichnung der N-Gramme:
N-Gramm-Name N Beispiel Monogramm 1 A Bigramm 2 AB Trigramm 3 UNO Tetragramm 4 HAUS Pentagramm 5 HEUTE Hexagramm 6 SCHIRM Heptagramm 7 TELEFON Oktogramm 8 COMPUTER . . . Multigramm N BEOBACHTUNGSLISTE |
N-Gramme finden Anwendung in der Kryptologie und Linguistik, speziell auch in der Computerlinguistik und Computerforensik. Einzelne Wörter, ganze Sätze oder komplette Texte werden hierbei zur Analyse oder statistischen Auswertung in N-Gramme zerlegt.