Переводчик в пиньинь протестирован с помощью "HSK Standard Course"

Если Вы читаете ветку новостей на сайте, то вы в курсе, что в последние несколько месяцев я учил китайский язык в Китае. Во время моего пребывания в Китае я использовал часть свободного времени на тщательное тестирование переводчика китайских слов в транскрипцию – пиньинь. Для этого я использовал серию учебников HSK Standard Course, опубликованную издательством Пекинского университета языка и культуры (кстати, именно в этом университете я учил китайский язык).

Если Вы читали мою статью "Учим иностранный язык с нуля. Часть 1. Осваиваем произношение", Вы знаете, что я предпочитаю видеоматериалы для изучения иностранных языков. HSK standard course – аудиокурс, так что это не идеальное решение для начинающих изучать китайский, однако курс вполне достойный и имеет ряд достоинств:

  1. Авторы курса использовали лишь самые популярные китайские слова и грамматические конструкции, которые необходимо знать для экзамена на знание китайского языка HSK.
  2. Аудио, которое прилагается к курсу, очень качественное. Аудио к рабочей тетради в дополнение к аудио к учебнику позволит вам услышать, как эти популярные китайские слова употребляются в самых различных сочетаниях. Интонации дикторов также очень естественные. Начиная с 3-го уровня HSK, скорость диалогов становится быстровата, но именно так китайцы говорят в обычной жизни.
  3. Все диалоги в учебниках на 1-й и 2-й уровень HSK переведены на английский язык.
  4. Авторы курса приняли очень мудрое решение о том, как отображать пиньинь. В учебниках на 1-й и 2-й уровень HSK пиньинь напечатан над каждым предложением из диалога. В учебниках на 3-й и 4-й уровень HSK текст диалога, записанный пиньинем, приводится внизу страницы – так он меньше отвлекает от текста на китайском языке. Начиная с 5-го уровня HSK (пока была опубликована лишь первая книга) пиньинь показан лишь к новым словам.

Итак, чтобы протестировать пиньинь-переводчик я взял все диалоги из учебников к 1-4 уровням HSK (32 800 иероглифов) и сравнил результаты перевода с транскрипцией пиньинь из учебника.

Для переводчика я использую словарь китайского языка CC-CEDICT. Словарь неплохой, но при этом я столкнулся со следующими проблемами:

  1. Для некоторых слов в этом словаре приводятся несколько вариантов транскрипции пиньинь, некоторые из них очень редкие. К примеру, для вопросительной частицы 吗 в словаре есть два варианта произношения: "ma5" и "ma3". Второй, более редкий вариант идет в словаре первым.
  2. Вторая проблема заключается в следующем. Возьмем, к примеру, китайское слово "几分", которое означает "немного; чуть-чуть". Слово вполне может встретиться в китайском тексте, но если Вы видите фразу "几分钟", ее надо транскрибировать как "jǐ fēnzhōng" ("несколько минут").
  3. И наконец последняя проблема – это проблема избытка слов в этом словаре. К примеру, в словаре есть слово "等一下儿", которое на самом деле и не слово, а фраза. Для таких фраз алгоритм, который исправляет тона в иероглифах 一 и 不, часто не работает. К тому же, так как эта фраза не входит в официальный список слов, требуемых к экзамену HSK, то и уровень HSK не будет подсвечен нужным цветом.

Мне пришлось вручную находить и исправлять эти ошибки. Возможно однажды я добавлю онлайн-форму на сайт, с помощью которой пользователи сами смогут добавлять в базу данных на сайте эти ошибки и улучшать таким образом работу переводчика. Я также планирую добавить отображение нескольких вариантов произношения для наиболее часто встречающихся слов китайского языка. К примеру, 得 может произносится как "de", "děi" или "dé". Пока переводчик показывает только один, самый часто встречающийся вариант.

Теги: китайский язык, переводчик слов в транскрипцию, пиньинь, транскрипция китайских слов, произношение китайских слов, HSK