Worthäufigkeitszähler auf der Website eingeführt

Ich habe kürzlich ein neues Online-Tool erstellt, das Ihnen hoffentlich dabei helfen wird, Fremdsprachen effektiver zu lernen. Es sind die Worthäufigkeitszähler online. Wie können die Ihnen helfen?

Nun, manchmal stehen wir alle demselben Problem gegenüber – Sie möchten in einer Fremdsprache einen neuen Film sehen oder ein Buch lesen, wissen aber nicht, ob Ihre Sprachkenntnisse dafür ausreichend sind. Natürlich können Sie den Film oder das Buch anfangen und es mag zunächst in Ordnung zu sein. Doch später merken Sie, dass sie zu viele Ihnen unbekannte Wörter enthalten. Und jetzt stecken Sie in dem Dilemma – aufhören oder weitergucken (bzw. weiterlesen). Es kann beides nicht leicht sein, aufhören und fortfahren – wenn der Film (oder das Buch) zu schwierig ist.

Jetzt haben Sie eine Lösung! Sie können das erste Kapitel Ihres Buchs einfach kopieren und in den Worthäufigkeitszähler einfügen. Er wird Ihnen eine detaillierte Statistik zu Ihrem Text liefern: wie viele Wörter aus verschiedenen Häufigkeitsintervallen er enthält. Der Zähler wird außerdem sehr häufig auftretende Wörter in verschiedenen Farben markieren (auf ihrer Häufigkeitsklassen basierend). Der Zähler unterstützt zudem Untertiteldateien – falls Sie das Vokabular eines Films, den Sie schauen möchten, analysieren wollen.

Die Worthäufigkeitszähler sind für folgende Sprachen verfügbar:

Falls Sie möchten, dass ich einen Worthäufigkeitszähler für eine andere Sprache erstelle, zögern Sie nicht, mich zu kontaktieren. Wenn für diese Sprache eine Worthäufigkeitsliste unter einer passenden Lizenz verfügbar ist, werde ich wohl in der Lage sein, dies zu tun.

Für diejenigen unter Ihnen, die sich fragen, wo ich die Häufigkeitslisten gefunden habe, gilt folgende Antwort – ich habe zwei Quellen genutzt:

  1. Worthäufigkeitslisten im Blog von Invoke IT, veröffentlicht unter Creative Commons-Lizenz. Diese Häufigkeitslisten wurden mit Hilfe von Untertiteln auf opensubtitles.org zusammengestellt. Das Negative daran war, dass die Listen nur die Häufigkeitsklassen von modifizierten Wortformen beinhalten. Für das Englische mag das keine so große Rolle spielen, da es für jedes Wort max. 2-4 Formen gibt. Aber nehmen wir z.B. Französisch, wo jedes Verb rund 40 Formen besitzt. Für solche Sprachen sollten Sie bedenken, dass eine seltene Form eines sogar sehr häufigen Wortes eine niedrige Häufigkeitsklasse haben kann.
  2. Für die englische Sprache habe ich außerdem eine Worthäufigkeitsliste benutzt, die auf dem Corpus of Contemporary American English (COCA) basiert, zusammengestellt von Professor Mark Davies. Ich habe mir die Vollversion dieser Häufigkeitsliste besorgt und der Professor war mit einer derartigen Verwendung einverstanden. Wenn Sie diese Option wählen, wird Ihr Text über Lemmata analysiert. Das bedeutet, dass alle Formen eines bestimmten Wortes dieselbe Häufigkeitsklasse haben werden. Die Wörter "count", "counts", "counted" z.B. fallen alle in das Intervall der 1001-2000 häufigsten Wörter. Diese Häufigkeitsliste wurde übrigens benutzt, um A Frequency Dictionary of Contemporary American English zu erstellen.

Eine weitere tolle Neuigkeit ist, dass die Markierung von sehr häufigen Wörtern nun in alle Lautschriftkonverter der Website integriert ist (mit Ausnahme vom japanischen, was noch kommen wird). Diese Option funktioniert nur, wenn Sie sich entscheiden, Ihren Text "als Lautschrift unter jedem Wort" oder "Lautschrift unter jeder Textzeile" zu konvertieren.

Tags: Chinesisch, Deutsch, Englisch, Französisch, Italienisch, Portugiesisch, brasilianisches Portugiesisch, Russisch, Spanisch, Worthäufigkeitszähler