Calculateur de la fréquence des mots – un nouvel outil sur le site

Récemment j'ai créé un nouvel outil qui, j'espère, vous aidera à apprendre des langues étrangères plus efficacement. Il s'agit du calculateur de la fréquence des mots en ligne. Alors, comment ce nouvel outil peut-il vous aider ?

Je pense que la plupart d'entre vous ont déjà fait face à une pareille situation – vous voulez regarder un nouveau film en langue étrangère ou lire un livre, mais vous n'êtes pas certain que ce film convient à votre niveau. Bien sûr, on peut commencer à regarder le film ou lire le premier chapitre de votre livre, et au début on a l'impression que ça va bien, mais plus tard on réalise que le nombre des mots inconnus est trop grand. Et maintenant on a un dilemme – arrêter ou poursuivre le visionnement (ou la lecture). Et il peut être difficile d'arrêter, mais il peut également être difficile de poursuivre, si le film ou le livre sont trop compliqués.

Maintenant vous avez une solution ! Vous pouvez copier-coller le premier chapitre de votre livre dans le calculateur de la fréquence des mots, et il vous montrera les statistiques détaillées pour votre texte : combien de mots de différents intervalles de fréquence il contient. Cet outil surlignera également en différentes couleurs les mots le plus fréquemment utilisés (selon leur indice de fréquence). Le calculateur peut également analyser des fichiers de sous-titres – dans le cas où vous voulez analyser le vocabulaire du film que vous voulez regarder.

Les calculateurs de la fréquence des mots sont disponibles pour les langues suivantes :

Si vous voulez que je crée un calculateur pour une autre langue, veuillez me contacter SVP. S'il existe une liste de fréquence pour cette langue disponible sous une licence permettant cette utilisation, je pense que je pourrai le faire.

Si vous voulez savoir où j'ai trouvé les listes de fréquence des mots, j'ai utilisé deux sources :

  1. Les listes de fréquence des mots sur le blog Invoke IT publié sous licence Creative Commons. Ces listes de fréquence ont été compilées à partir des sous-titres du site opensubtitles.org. Le désavantage de cette approche était le fait que ces listes ne contiennent l'indice de fréquence que pour les formes fléchies des mots. Cela n'est pas si important pour l'anglais où il n'y a plus que 2-4 formes pour un mot. Pourtant pour le français cela devient problématique puisque pour les verbes, par exemple, il peut y avoir à peu près 40 formes fléchies ! Pour de pareilles langues, vous devez prendre en considération qu'une forme rare d'un mot très fréquent peut avoir un indice de fréquence bas.
  2. Pour l'anglais j'ai également utilisé la liste de fréquence des mots obtenue à partir du corpus de l'anglais américain contemporain compilé par le professeur Mark Davies. J'ai acheté la version complète de cette liste de fréquence, et le professeur a accepté la pareille utilisation de la liste. Si vous choisissez cette option, votre texte sera analysé par les lemmes. Cela veut dire que toutes les formes dérivées d'un mot donné auront le même indice de fréquence. Par exemple, les mots « count », « counts », « counted » tomberont tous dans l'intervalle 1001-2000 mots les plus fréquents de l'anglais. En passant, cette liste de fréquence a été utilisée pour créer ce dictionnaire de fréquence des mots anglais.

Une autre bonne nouvelle – maintenant la possibilité de surligner en couleur les mots fréquents est intégrée dans tous les traducteurs phonétiques sur le site (sauf pour le japonais, mais cela ne va pas tarder). Cela fonctionnera seulement si vous choisissez l'option d'afficher la « transcription sous chaque mot » ou la « transcription sous chaque ligne de texte ».

Tags : allemand, anglais, chinois, espagnol, français, italien, portugais, portugais brésilien, russe, calcul de la fréquence des mots