Обновлены инструменты частотного анализа текста

Мы обновили инструменты частотного анализа текста на EasyPronunciation.com. Эти инструменты позволят вам выделять слова различными цветами в зависимости от их рейтинга частотности.

Большинство частотных списков слов получены на основе субтитров к фильмам. Для европейских языков такие списки формируются из словоформ.

Если вы изучаете английский, французский или испанский, помимо списков на основе субтитров, вам также доступны еще три частотных списка слов:

  1. Корпус современного американского английского языка - для английского
  2. Grammalecte - для французского
  3. Corpus del Español - для испанского

В работе с вышеуказанными списками у вас есть два варианта:

  1. Частотный список слов на основе словарных форм. В английском, например, слова "answer", "answered", "answering" и "answers" будут иметь одинаковый рейтинг частотности. А во французском языке одинаковый рейтинг частотности будет у всех 42 форм глагола "répondre".
  2. Частотный список слов на основе словоформ. В этом варианте, по аналогии со списками на основе субтитров, различные формы одного и того же слова могут иметь разный рейтинг частотности в зависимости от частоты употребления той или иной словоформы.

Мы также расширили нашу линейку инструментов для частотного анализа текста. Они позволяют получить подробную статистику для вашего текста или файла субтитров. Поддерживаются следующие языки: арабский, китайский, английский, французский, немецкий, греческий, итальянский, японский, корейский, португальский, русский, испанский, шведский, турецкий.

Теги: частотный анализ текста