Koinzidenzindex

aus Wikipedia, der freien Enzyklopädie

Du hast neue Nachrichten auf deiner Diskussionsseite.

Der Koinzidenzindex eines oder zweier Texte ist eine statistische Methode, mit der verschlüsselte oder unverständliche Texte auf sprachliche Eigenschaften untersucht werden können. Er wird in der Kryptoanalyse und bei der Entschlüsselung historischer Schriftdokumente eingesetzt. Die Methode wurde von William Friedman für kryptologische Zwecke entwickelt und im Jahr 1920 in seiner bahnbrechenden Arbeit The Index of Coincidence and its Applications in Cryptography publiziert.

[Bearbeiten] Definition

Unter dem Begriff Koinzidenzindex sind vier Funktionen zusammengefasst, die meist mit den griechischen Buchstaben $\kappa, \chi, \psi\,$ und $\phi\,$ (Kappa, Chi, Psi und Phi) bezeichnet werden. Oft wird $\phi\,$ als der Koinzidenzindex bezeichnet, wobei vom historischen Standpunkt wohl eher $\kappa\,$ das Anrecht auf diesen Namen hat.

Gegeben seien zwei gleich lange Texte $T= x_1x_2\ldots x_k, T'=x'_1x'_2\ldots x'_k$ über dem gleichen Alphabet. Dann ist das $\kappa\,$ der beiden Texte

$\kappa (T,T') = \sum_{i=1}^k \delta (x_i,x'_i)/k,$

wobei $\delta\,$ das Kronecker-Delta bezeichnet (also $δ(x i, x' i) = 1$ , falls $x i = x' i$ und $0$ sonst).

Damit ist $\kappa\,$ eine Zahl zwischen 0 und 1, wobei 1 genau dann auftritt, wenn beide Texte gleich sind. Werden die Zeichen zufällig mit gleicher Wahrscheinlichkeit aus einem Alphabet mit $n$ Zeichen gewählt, so ist der Erwartungswert für $\kappa\,$ gleich $1 / n$ , da jeder Summand mit Wahrscheinlichkeit $1 / n$ gleich $1 / k$ ist (und sonst gleich 0).

Da man in der Kryptoanalyse oft aus kurzen Texten viel Information herauspressen möchte, ist die Funktion $\chi\,$ , die, wie die folgenden Funktionen, auf Friedmans Mitarbeiter Solomon Kullback (1935) zurückgeht, gelegentlich aussagekräftiger:

$\chi(T,T') = \sum_{i=1}^k \sum_{j=1}^k \delta (x_i,x'_j)/k^2 = \sum_{\ell=1}^n m_\ell \cdot m'_\ell/k^2,$

wobei $m_\ell, m'_\ell$ angibt, wie oft das $\ell$ -te Zeichen des Alphabets im Text $T$ bzw. $T'$ auftritt. Die Funktion $\chi\,$ hängt also allein von den Buchstabenhäufigkeiten der beiden Texte ab. Nun ist

$\psi(T) = \chi(T,T).\,$

Während $\chi\,$ angewandt auf zwei Texte aus zufälligen gleichverteilten Zeichen wie $\kappa\,$ den Erwartungswert $1 / n$ hat, ist das für $\psi\,$ nicht mehr der Fall, da $δ(x i, x i)$ immer gleich 1 ist. Deshalb schließt man sinnvollerweise bei der Summation die Zeichen an der gleichen Position aus und definiert

$\phi(T) = \sum_{1\le i\neq j\le n} \delta (x_i,x_j)/k(k-1) = \sum_{\ell=1}^n m_\ell (m'_\ell -1)/k(k-1).$

Ebenso wie $\psi\,$ kann $\phi\,$ allein aus den Buchstabenhäufigkeiten der beiden Text berechnet werden, jedoch ist für einen Text aus Zufallszeichen der Erwartungswert für $\phi\,$ gleich $1 / n$ , während er für $\psi\,$ größer ist (nämlich $(n + k - 1) / n k$ ). Insbesondere für kurze Texte ist der Unterschied markant.

[Bearbeiten] Bedeutung des Koinzidenzindex

Geht man von Texten aus gleichverteilten Zufallszeichen über zu in einer Sprache verfassten Texten, so ändert sich der erwartete Wert erheblich. Eine Faustregel besagt, dass er etwa doppelt so groß ist.

Nimmt man beispielsweise die 26 Zeichen des deutschen Alphabets (Umlaute werden durch ae, oe, ue ersetzt und Lücken und Satzzeichen ignoriert), so liegt der erwartete Wert für $\kappa, \chi\,$ und $\phi\,$ etwa bei 0,0762, während im Englischen der Erwartungswert bei 0,0661 liegt. Bei Gleichverteilung der Buchstaben ist der Erwartungswert 1/26 also etwa 0,0385. Der wesentlich höhere Wert für die deutsche Sprache gegenüber der englischen Sprache spiegelt vor allem die wesentlich größere Häufigkeit des dominanten Buchstabens E im Deutschen (etwa 17,5%) gegenüber dem Englischen (etwa 12,7%) wider. Denn der Erwartungswert $E S$ für die Sprache $S$ lässt sich aus den Buchstabenhäufigkeiten nach der Formel

$E_S = \sum_{i=1}^n p_i^2$

berechnen, wobei $p i$ die Wahrscheinlichkeit des $i$ -ten Zeichens des Alphabets in Texten der entsprechenden Sprache angibt.

In verwandten Sprachen ähneln sich oft die Erwartungswerte $E S$ , so dass bei unbekannten Texten anhand des Koinzidenzindex Vermutungen auf den zugehörigen Sprachraum angestellt werden können.

[Bearbeiten] Bedeutung in der Kryptoanalyse

Die wesentliche Eigenschaft ist hier, dass sich bei einer einfachen monoalphabetischen Substitutionsverschlüsselung weder $\kappa, \chi, \psi\,$ noch $\phi\,$ ändern, sofern die beteiligten Texte auf die gleiche Art verschlüsselt sind. Eine sprachliche Zuordnung hinreichend langer Texte wird somit allein auf statistischer Basis möglich.

Bei einer periodischen polyalphabetischen Substitutionsverschlüsselung ist der Koinzidenzindex noch wertvoller, denn die Schlüssellänge der Verschlüsselung kann mit folgender Formel abgeschätzt werden (Friedman-Test). Für die Sprache $S$ lautet die Formel für die Schlüssellänge $h$

$h \approx \frac{(E_S - \frac1n)k}{(k-1)\phi(T) - k\frac1n + E_S}.$

Diese Formel lässt sich theoretisch herleiten unter der Annahme, dass alle Schlüsselzeichen verschieden sind. Der Wert ist also vor allem bei mit kurzen Schlüsseln verschlüsselten kurzen Texten aufschlussreich, insbesondere in Kombination mit dem Kasiski-Test. Hat man mit längeren Schlüsselwörtern verschlüsselte längere Texte zur Verfügung, so ist das folgende Vorgehen präziser.

Entfernt man vom Text $T$ einmal die ersten $r$ Zeichen und einmal die letzten $r$ Zeichen, so erhält man zwei Texte, deren $\kappa\,$ bestimmt werden kann. Ist $r$ ein Vielfaches der Schlüssellänge, so sollte $\kappa \approx E_S$ sein, da die verglichenen Einzelzeichen mit dem gleichen Schlüssel verschlüsselt sind. Ist $r$ jedoch kein Vielfaches der Schlüssellänge, so ist mit einem deutlich niedrigeren Wert für $\kappa\,$ zu rechnen, da die verglichenen Zeichen nur selten gleich verschlüsselt sind. Wiederholte Sequenzen im Schlüsselwort, mit denen man den Kasiski-Test und den Friedman-Test überlisten kann, beeinflussen die Ergebnisse hier nur ansatzweise und sollten in der Regel erkannt werden.

Auch bei nicht periodischen polyalphabetischen Verschlüsselungen lassen sich diese Methoden gewinnbringend nutzen. Insbesondere erkennt man bei zwei mit dem gleichen One-Time-Pad verschlüsselten Texten $T, T'\,$ durch Berechnung von $\kappa(T,T')\,$ sofort diese kryptographische Sünde und kann zum Beispiel durch die Methode des wahrscheinlichen Wortes angewandt auf einen der Texte versuchen, Klartextsequenzen im anderen Text zu erzeugen.

Der Koinzidenzindex eignet sich also für sogenannte Ciphertext-only Angriffe (wo über den Inhalt des verschlüsselten Textes nichts bekannt sein muss) auf Substitutionsverschlüsselungen, wodurch diese Verfahren (natürlich außer einem korrekt angewendeten One-Time Pad) als ausgesprochen unsicher angesehen werden müssen.

Von „http://de.wikipedia.org../../../k/o/i/Koinzidenzindex.html“

Kategorie: Kryptologie

Koinzidenzindex

aus Wikipedia, der freien Enzyklopädie

[Bearbeiten] Definition

[Bearbeiten] Bedeutung des Koinzidenzindex

[Bearbeiten] Bedeutung in der Kryptoanalyse

Views

Navigation

Mitmachen

Suche

Andere Sprachen