Häufigkeitsanalyse
Um einen durch Caesar-Verschiebung verschlüsselten Text zu knacken,
war es viel zu mühsam und zeitaufwändig, alle Schlüssel auszuprobieren.
Wie also konnte man eine verschlüsselte Botschaft schneller knacken?
Im 9. Jahrhundert ist dem arabischen Gelehrten al-Kindi (Orient) zum ersten
Mal die unterschiedliche Häufigkeitvon Buchstaben in einer natürlichen Sprache
bewusst geworden; was eine Möglichkeit der Entschlüsselung darbot.
Natürliche Sprachen haben relativ wenige Buchstaben, die sehr unterschiedliche
Häufigkeiten aufweisen.
Hier einige Beispiele:
1. deutsche Sprache:
2. englische Sprache:
3. französische Sprache:
Um diese Buchstabenverteilung herauszufinden, haben wir das
Programm
verwendet.
Sie können es gerne selber einmal ausprobieren. Klicken Sie dazu bitte auf
das unterstrichene Wort.
Wir wollen das weitere Vorgehen der Sprachwissenschaftler und Statistiker
an der deutschen Sprache veranschaulichen.
Anhand Abb1.1 erkennt man sofort eine charakteristische Verteilung der Buchstaben
in der deutschen Sprache:
- Die e-Spitze und der n-Gipfel
- Der b-c-d-Anstieg mit anschließender e-Spitze
Diese Struktur findet man auch in jedem monoalphabetisch verschlüsselten deutschen
Text (mittels Caesarverschiebung).
Die 5 häufigsten Buchstaben e-n-i-s-r decken bereits 50 % der vorkommenden
Buchstaben ab, die häufigsten 10 dann über 75 %.
Zuerst ermittelt der Kryptoanalytiker nun die Häufigkeitsverteilung der Buchstaben
im abgefangenen Geheimtext, den er eventuell als Stabdiagramm darstellt.
So erkennt er wenigstens die beiden häufigsten Buchstaben, denn bei der
Caesar-Verschlüsselung wird sich eine ähnliche Verteilunsfunktion ergeben,
nur verschoben.
Im zweiten Schritt schaut er sich die Buchstaben paarweise an.
Das Bigramm der deutschen Sprache zeigt die häufigsten Kombinationen.
Bigramm |
Buchstabenpaar |
Rel.Häufigkeit |
1 |
en |
0.0388 |
2 |
er |
0.0375 |
3 |
ch |
0.0275 |
4 |
te |
0.026 |
5 |
de |
0.02 |
6 |
nd |
0.0199 |
7 |
ei |
0.0188 |
8 |
ie |
0.0179 |
9 |
in |
0.0167 |
10 |
es |
0.0152 |
Damit man einen Text überhaupt entschlüsseln kann, muss er eine gewisse
Länge haben, da es sonst schwierig ist, die Häufigkeitsanalyse durchzuführen.
Wir möchten dieses Vorgehen der Kryptoanalytiker nun an einem Beispiel verdeutlichen.
Hierzu verwenden wir einen Teil des monoalphabetisch verschlüsselten Text der
Caesar-Verschlüsselung
, der über diesen hinaus geht.
"JXQCHLQIDFK: PDQVLHKWQXUPLWGHPKHUCHQJXW.
GDVZHVHQWOLFKHLVWIXHUGLHDXJHQXQVLFKWEU.
'GDVZHVHQWOFKHLVWIXHUGLHDXJHKXQVLFFKWEU',
ZLHGHUKROWHGHUNOHLQHSULQC,XJHVVLFKCXPHUNHQ.
'GLHCHFW;GLHGXIXHUGHXQHURVHYHUORUHQKDVW,
VLHPDFKWGHLQHURVHVRZLFKWLJ.'
'GLHCHLW;GLHLFKIXHUPHLQHURVHYHUORUHQKDEH ...',
VDJWHGHUNOHLQHSULQC,XJHVVLFKCXPHUNHQ.
'GlEPHQFKHQKDEQGLHVHZDKUKHLWYHUJHVVHQ',
VDJWHGHUIXFKS."
1. Bestimmung der relativen Häufigkeit der Buchstaben mittels des
Programms
2. Aufstellen eines Stabdiagramms
3. Aufstellen eines Bigramms
Da der Buchstabe 'h' am häufigsten im Geheimtext vorkommt, kann es eigentlich
nur das 'e' sein.
Der zweithäufigste Buchstabe ist das 'q'. Er kommt in der Kombination 'qh' als
häufigstes Bigramm vor. Folglich ist 'q' eindeutig das 'n'.
Es gibt nur zwei Bigramme der deutschen Sprache mit ebendieser Häufigkeit, in
denen der zweite Buchstabe ein n ist: en und in.
Damit ist auch das 'i' ent
schlüsselt, es war ein 'l'.
Das zweithäufigste Bigramm der deutschen Sprache ist 'er'. Das 'e' haben wir identifiziert,
es heißt jetzt 'h'.
Das Paar 'hu' - das einzige, das mit 'h' beginnt und
noch nicht identifiziert ist - kommt in Frage, einmal das gesuchte 'er' gesesen zu sein.
Das 'u' kommt mit einer relativen Häufigkeit von 5,9 % im Geheimtext vor, das 'r' hat
in der deutschen Sprache die Häufigkeit 6 %, das scheint zu passen.
Wenn wir die Buchstaben aus der Rückersetzung einsetzen (mittels eines Programms),
so entsteht ein Lückentext, der aufgefüllt werden muss.
Man kann einzelne Wörter erkennen, z.B. PHLQH. _eine kann nur 'deine',
'meine' oder 'seine' heißen.
Durch Probieren findet man relativ schnell
die Lösung des verschlüsselten Textes.
Das einzigen Problem dabei ist, dass die Worte einfach hintereinander geschrieben
sind, was die Bigrammanalyse verzerrt.
Zusammenfassend kann man sagen, dass die Kryptoanalytiker die unterschiedlichen
Häufigkeiten der Buchstaben in natürlichen Sprachen ausgenutzt haben, um momoalpabetisch
verschlüsselte Texte zu knacken.
Man hat mittlerweile viele neue Verfahren gefunden, um Texte zu verschlüsseln.
Einige davon finden Sie auf den Seiten zur
Kryptologie.