На сайт добавлен частотный анализ слов онлайн

This site is available in English. Show this page in English

2019-11-19: В связи с проведением работ сегодня сайт будет на короткое время недоступен.

На сайт добавлен новый онлайн-инструмент, который, я надеюсь, поможет Вам эффективно изучать иностранные языки. Этот инструмент позволяет осуществлять частотный анализ слов онлайн. Как он может Вам помочь?

Я думаю, многие из Вас сталкивались со следующей проблемой – Вы хотите посмотреть новый фильм на иностранном языке или начать читать новую книгу, но Вы не знаете, подходит ли он (или она) для Вашего уровня. Конечно, Вы можете начать смотреть фильм или читать первую главу книги, и поначалу Вам может показаться, что вроде бы текст не очень сложный, но позже оказывается, что количество незнакомых слов зашкаливает. И теперь у Вас дилемма – бросать или не бросать. И вроде и бросить жалко, но и продолжать смотреть (или читать) может быть тоже тяжко.

Теперь Вы можете легко решить эту проблему! Вам достаточно скопировать Ваш текст в онлайн-инструмент для частотного анализа текста, и он покажет Вам подробную статистику: сколько слов из разных частотных интервалов содержит Ваш текст. Этот инструмент также выделит различными цветами наиболее часто встречающиеся слова (в зависимости от их рейтинга частотности). Инструмент также умеет анализировать субтитры к фильмам – если Вам нужно решить, подходит ли Вам данный фильм или нет.

Вы можете осуществить частотный анализ текста для следующих языков:

Если Вы хотите, чтобы я добавил какой-либо язык, пожалуйста, сообщите мне об этом. Если в открытом доступе существует частотный список слов для этого языка, опубликованный под подходящей лицензией, я думаю, я смогу это сделать.

Если Вам интересно, откуда я взял частотные списки слов – я использовал два источника:

  1. Частотные списки слов с блога Invoke IT, опубликованные под лицензией Creative Commons. Эти списки были получены на основе субтитров с сайта opensubtitles.org. Недостатком этого подхода является то, что эти списки содержат рейтинг частотности лишь измененных форм слов. Это может быть не столь принципиальным для английского языка, где у слова обычно не больше 2-4 форм. Но если мы возьмем, к примеру, французский язык, то у глаголов может быть порядка 40 форм! Для таких языков Вам нужно учитывать, что редкая форма даже довольно часто встречающегося слова может иметь низкий рейтинг частотности.
  2. Для английского языка я также использовал частотный список слов на основе корпуса современного американского английского языка, составленный профессором Марком Дейвисом. Я решил вложиться и приобрести полную версию, к счастью, профессор одобрил подобное использование списка. Если Вы выберете эту опцию, то Ваш текст будет проанализирован на основе лемм. Это означает, что все формы данного слова будут иметь одинаковый рейтинг частотности. Например, все 3 слова: "count", "counts", "counted" попадут в интервал 1001-2000 самых употребительных слов английского языка. Кстати, именно этот список лег в основу вот этого частотного словаря английского языка .

Дополнительное удобство – теперь опция отображения часто встречаемых слов разными цветами добавлена во все переводчики слов в транскрипцию на сайте (пока кроме японского). Эта опция работает, только если Вы выберете показывать "транскрипцию под каждым словом" или "транскрипцию под каждой строкой текста".

Теги: английский язык, испанский язык, итальянский язык, китайский язык, немецкий язык, португальский язык, бразильский португальский, русский язык, французский язык, частотный анализ слов