Wortausbuchstaben

Hochfrequenz-Buchstaben im Deutschen: Strategie-Implikationen für Spiele

- E, N, I, S und R sind die häufigsten Buchstaben im Deutschen, zusammen über 45 Prozent aller Vorkommen - Die Verteilung beeinflusst Strategien in Scrabble, Wordle und Kreuzworträtsel - Wer die Häufigkeiten kennt, optimiert Erstzüge in Wordle und Bingo-Wahrscheinlichkeiten in Sc

Zum Rechner

Zusammenfassung

  • E, N, I, S und R sind die häufigsten Buchstaben im Deutschen, zusammen über 45 Prozent aller Vorkommen
  • Die Verteilung beeinflusst Strategien in Scrabble, Wordle und Kreuzworträtsel
  • Wer die Häufigkeiten kennt, optimiert Erstzüge in Wordle und Bingo-Wahrscheinlichkeiten in Scrabble

Wie die Buchstabenhäufigkeit erfasst wird

Die Häufigkeit deutscher Buchstaben wird durch korpuslinguistische Auszählung großer Textsammlungen ermittelt. Verschiedene Studien kommen zu ähnlichen, aber nicht identischen Werten, je nachdem welcher Textkorpus zugrunde liegt. Belletristik zeigt andere Häufigkeiten als Zeitungstexte oder technische Literatur.

Die meistgenutzte Referenz ist eine Auszählung des Leipziger Wortschatzes, eines der größten deutschen Korpora der Universität Leipzig. Die dort ermittelten Häufigkeiten gelten als Standardreferenz für Linguistik und Spieldesign.

Wichtig: die Häufigkeit in einem Textkorpus ist nicht identisch mit der Häufigkeit im Wörterbuch. Im Wörterbuch zählt jedes Wort einmal, im Korpus zählt jedes Vorkommen. Häufige Funktionswörter wie der, die, das treiben die Häufigkeit von D, E, R, S deutlich hoch.

Die häufigsten Buchstaben im Deutschen

Nach Leipziger Wortschatz und ähnlichen Korpusstudien liegen die Top-10-Buchstaben so:

RangBuchstabeHäufigkeit (Prozent)
1E17,40
2N9,78
3I7,55
4S7,27
5R7,00
6A6,51
7T6,15
8D5,08
9H4,76
10U4,35

Die Top-5 (ENISR) machen knapp 49 Prozent aller Buchstaben aus. Wer diese fünf in einem Rack hat, hat fast immer Bingo-Potenzial im Deutschen.

Die seltensten Buchstaben sind Q, X, Y mit jeweils unter 0,1 Prozent. C, J und Y kommen fast nur in Fremdwörtern vor. Ihre niedrige Häufigkeit erklärt, warum Scrabble ihnen hohe Punktzahlen gibt.

Welche Vokale dominieren

Vokale machen im Deutschen rund 39 Prozent aller Buchstaben aus. Die Verteilung:

  • E: 17,40 Prozent
  • I: 7,55 Prozent
  • A: 6,51 Prozent
  • U: 4,35 Prozent
  • O: 2,51 Prozent
  • Ö, Ä, Ü zusammen: rund 1,5 Prozent

Das E ist nicht nur der häufigste Buchstabe insgesamt, sondern auch dominanter Vokal. Im Englischen liegt das E bei etwa 12 Prozent, also deutlich niedriger.

Die Konsequenz für Wortspiele: ein E im Rack ist fast immer verbaubar. Wer kein E hat, sollte auf das nächste Nachziehen hoffen oder durch Tausch versuchen, eines zu bekommen.

Praxisbeispiel 1: Wordle-Strategie mit Häufigkeiten

Wordle-Spieler wählen ihre Erstwörter oft strategisch nach Buchstabenhäufigkeit. Im englischen Wordle gelten Wörter wie CRANE, SLATE oder ADIEU als gute Erstwörter, weil sie häufige Buchstaben abdecken.

Im deutschen Wordle wäre die Logik:

  • Top-5-Buchstaben sind ENISR
  • Optimales Erstwort enthält möglichst viele davon mit Vokal-Konsonant-Mix
  • Kandidaten: REISE, NIESE, EINER, SEHEN, REINE

Berechnung der Wahrscheinlichkeit, dass mindestens 3 der Buchstaben im Lösungswort vorkommen:

  • Wenn das Wortwort 5 Buchstaben hat und durchschnittlich aus deutschen Wörtern stammt, enthält es im Mittel 2,5 Vokale
  • Davon ist 1,2 mal das E
  • N und R kommen mit Wahrscheinlichkeit über 50 Prozent vor

Mit dem Erstwort REISE deckt der Spieler in 78 bis 84 Prozent der Lösungen mindestens 3 Buchstaben treffend ab. Im Vergleich zu einem schwächeren Erstwort wie KATZE (mit K und Z, beide selten) liegt die Trefferquote bei nur 40 bis 50 Prozent.

Konsonant-Vokal-Verhältnis in Wortmustern

Im Deutschen folgen Konsonanten und Vokale typischen Mustern. Das hilft beim Wortspiel-Strategie. Häufige Muster:

  • CVC (Konsonant-Vokal-Konsonant): Bad, mit, Hut
  • CVCV: lese, gehe, sage
  • CVCC: Hand, Wand, Tisch (eigentlich CVCCC)
  • VCVCV: Idee, Oase

Bei Wortspielen wie Wordle hilft das Wissen, dass nach einem Konsonant am Wortanfang in den meisten Fällen ein Vokal folgt. Die Wahrscheinlichkeit, dass an Position 2 ein Vokal steht, liegt bei rund 65 Prozent. Wer das im Hinterkopf hat, kann Folgewörter gezielter wählen.

Praxisbeispiel 2: Scrabble-Bingo aus häufigen Buchstaben

Eine typische Bingo-Situation:

  • Rack: A, E, I, N, R, S, T

Diese Buchstabenkombination enthält alle Top-7 mit Ausnahme von D. Die Anzahl möglicher 7-Buchstaben-Wörter im Deutschen ist hoch:

  • ASTREIN (deutsches Wort, Adjektiv)
  • TRANIES (kein gültiges Wort)
  • ATRESIN (kein gültiges Wort)
  • ANRISTE (kein gültiges Wort)
  • NASTIER (kein deutsches Wort)
  • STIANER (kein gültiges Wort)

Tatsächlich gültige Möglichkeiten:

  • ASTREIN
  • ANTEISR (kein gültiges Wort)

Bei dieser Kombination ist nur ASTREIN als Bingo möglich, was die statistische Bingo-Chance pro Rack zeigt. Im Mittel ergibt ein zufälliges Rack mit Buchstabenmix ähnlich der natürlichen Häufigkeit eine Bingo-Wahrscheinlichkeit von rund 15 bis 25 Prozent. Spieler mit guter Wortkenntnis kommen auf 30 bis 40 Prozent Bingo-Quote pro Rack.

Vergleichstabelle: Häufigkeiten Deutsch vs. Englisch

BuchstabeDeutsch (Prozent)Englisch (Prozent)
E17,4012,70
N9,786,75
I7,556,97
S7,276,33
R7,005,99
A6,518,17
T6,159,06
D5,084,25
H4,766,09
U4,352,76
O2,517,51
C3,062,78
L3,444,03
Z1,130,07

Die markantesten Unterschiede:

  • E ist im Deutschen deutlich häufiger (17,4 vs. 12,7 Prozent)
  • O ist im Englischen häufiger (7,5 vs. 2,5 Prozent)
  • T ist im Englischen häufiger (9,1 vs. 6,2 Prozent)
  • Z ist im Deutschen 16-mal häufiger als im Englischen

Diese Unterschiede erklären, warum englische Scrabble-Taktiken nicht eins zu eins auf das deutsche Spiel übertragbar sind. Englische Spieler setzen oft auf O-haltige Wörter, deutsche Spieler profitieren mehr von E-haltigen Konstruktionen.

Bigramm-Häufigkeiten

Über Einzelbuchstaben hinaus sind Bigramme (Buchstabenpaare) wichtig. Häufige deutsche Bigramme:

  • EN: 3,88 Prozent aller Bigramme
  • ER: 3,75 Prozent
  • CH: 2,75 Prozent
  • DE: 2,25 Prozent
  • EI: 1,88 Prozent
  • ND: 1,67 Prozent
  • IE: 1,49 Prozent
  • IN: 1,41 Prozent

Diese Bigramme sind in den meisten deutschen Wörtern enthalten und helfen bei Wortspielen wie Anagrammen und Kreuzworträtseln. Wer sie als Bausteine kennt, findet schneller mögliche Wörter zu einer Buchstabenkombination.

Ein Wortausbuchstaben-Generator nutzt diese Bigramm-Information teilweise zur Vorauswahl wahrscheinlicher Wortkandidaten, was die Suche bei vielen Buchstaben beschleunigt.

Was die Häufigkeit nicht zeigt

Die statistische Häufigkeit zeigt nicht:

  1. Position im Wort: T ist am Anfang seltener als in der Mitte oder am Ende
  2. Kollokation: bestimmte Buchstaben treten häufiger zusammen auf (Q immer mit U)
  3. Wortlänge: kurze Wörter haben andere Verteilungen als lange
  4. Genre: Belletristik nutzt andere Buchstabenverteilungen als Fachliteratur

Wer Buchstabenhäufigkeit nur grob nutzt, verliert diese Differenzierung. Für ernsthafte Strategie helfen positionsspezifische Häufigkeiten, die einige Linguistik-Datenbanken bereitstellen.

Häufigkeit nach Wortlänge

Die Buchstabenhäufigkeit verändert sich mit der Wortlänge. Drei Muster:

  • In sehr kurzen Wörtern (2 bis 3 Buchstaben) dominieren Funktionswörter mit hohem E-, D- und R-Anteil
  • In mittellangen Wörtern (4 bis 7 Buchstaben) verteilt sich der Vokal-Konsonant-Mix typischer
  • In langen Wörtern (über 10 Buchstaben) häufen sich Kompositum-Bestandteile, was die Verteilung in Richtung sortenspezifischer Werte verschiebt

Für Wordle und ähnliche 5-Buchstaben-Spiele gilt die mittellange Verteilung am ehesten. Wer kurze Worträtsel oder lange Komposita löst, sollte die jeweiligen Spezialverteilungen kennen.

Anwendung in Kryptografie

Buchstabenhäufigkeit ist die Grundlage der Häufigkeitsanalyse, mit der monoalphabetische Substitutionschiffren geknackt werden. Wer einen verschlüsselten deutschen Text vor sich hat, kann durch Auszählen der Häufigkeiten erkennen:

  • Der häufigste Buchstabe entspricht wahrscheinlich E
  • Der zweithäufigste ist N
  • Wenn ein Bigramm wie XY häufiger vorkommt, entspricht es vermutlich EN oder ER

Diese Methode reichte im Mittelalter und der frühen Neuzeit aus, um die meisten geheimen Botschaften zu entschlüsseln. Moderne Kryptografie ist immun gegen Häufigkeitsanalyse, aber das Prinzip wird bis heute in der Kryptografie-Lehre verwendet.

Fazit

Die Buchstabenhäufigkeit im Deutschen ist eine konkrete Hilfe für Wortspiele. ENISR machen knapp die Hälfte aller Buchstaben aus, was Wordle-Erstwörter und Scrabble-Bingo-Strategien direkt beeinflusst. Im Vergleich zum Englischen sind E und Z deutlich häufiger, O und T deutlich seltener. Wer diese Unterschiede kennt, passt seine Strategie an die Sprache an und gewinnt Punkte. Ein Wortausbuchstaben-Generator nutzt Häufigkeits- und Bigramm-Daten, um Wortvorschläge effizient zu generieren. Für ernsthafte Spielerinnen und Spieler lohnt es sich, die Top-10-Buchstaben und die häufigsten Bigramme einmal zu memorieren.

Häufige Fragen zur Buchstabenhäufigkeit

Sind die Häufigkeiten in Belletristik anders als in Sachbüchern?

Leicht, ja. Belletristik hat höhere Vokal-Anteile (mehr Dialoge, mehr alltagsnahe Wörter), Sachbücher haben mehr Fachbegriffe mit hohem Konsonant-Anteil.

Gilt die Häufigkeit auch für österreichisches und schweizerisches Deutsch?

Im Großen ja, in Details nein. Schweizerdeutsche Texte zeigen leicht andere Verteilungen, vor allem bei Z, K und CH. Österreichisches Schriftdeutsch ist näher am bundesdeutschen.

Wie nutzt man Bigramm-Wissen praktisch?

Beim Wortschätzen in Wordle: wenn EN am Wortende wahrscheinlich ist, prüft man Kombinationen mit -EN als Endung. Das halbiert oft die Optionen.

Hilft Häufigkeitsanalyse bei Anagrammen?

Begrenzt. Anagramme leben von der spezifischen Buchstabenkombination, nicht von der allgemeinen Häufigkeit. Bigramm-Wissen hilft beim Erkennen von Wortbausteinen.

Quellen

Disclaimer

Buchstabenhäufigkeiten variieren je nach zugrunde liegendem Textkorpus. Die genannten Prozentwerte sind Mittelwerte aus Standardkorpora und können je nach Quelle um 1 bis 2 Prozentpunkte abweichen. Für spielpraktische Zwecke sind die Größenordnungen ausreichend stabil.