Transcriptor pinyin comprobado para el «HSK Standard Course»

Si sigue el hilo de las noticias, sabrá que los últimos meses los pasé estudiando chino en China. Durante mi estancia en China en mi tiempo libre me dediqué a comprobar a fondo el transcriptor de chino pinyin. Para ello, usé la serie de libros de texto «HSK Standard Course» publicado por la Editorial de Universidad de Lengua y Cultura de Beijing (por cierto, aprendí chino en esta misma universidad).

Si lee mi artículo «Una guía completa para el aprendizaje de idiomas. Parte 1: Aprender pronunciación», sabrá que yo prefiero materiales de vídeo para aprender un idioma nuevo. El curso HSK Standard Course es un curso en audio. No es una solución perfecta para los principiantes, aunque es un material bastante interesante. Las ventajas de este curso son:

  1. Los autores han utilizado sólo las palabras más comunes del chino y las construcciones gramaticales más frecuentes que se precisan para el examen HSK.
  2. Las grabaciones de audio son muy buenas. La combinación de audio del libro de texto y audio del cuaderno de ejercicios proporciona una gran cantidad de ejemplos sobre cómo estas palabras comunes del chino se utilizan en diferentes frases. La entoncación es natural. La velocidad es un poco rápida a partir del nivel 3 del HSK, pero así es como hablan los chinos en su vida diaria.
  3. Todos los diálogos en los niveles 1 y 2 de HSK están traducidos a inglés.
  4. Los autores tomaron una decisión muy sensata sobre como mostrar el pinyin. En los libros de los niveles 1 y 2 de HSK, el pinyin aparece sobre cada línea del diálogo. En los libros de los niveles 3 y 4 de HSK, el pinyin de cada diálogo aparece a pie de página, para no distraer tanto. A partir del libro nivel 5 de HSK (hasta ahora sólo se ha publicado el primer libro) se muestra el pinyin solo en las palabras nuevas.

Por eso, lo que hice básicamente fue probar el transcriptor de pinyin con todos los diálogos de los libros de niveles 1 a 4 de HSK (32.800 caracteres) y comparé el resultado de la conversión con la transcripción pinyin que aparecía en el libro.

Para mi transcriptor, utilizo el diccionario CC-CEDICT, pero este diccionario tiene tres problemas:

  1. A veces da varias transcripciones para la misma palabra, y algunas de estas son muy raras. Por ejemplo, el signo de interrogación 吗 tiene dos entradas: una es «ma5» y la otra es «ma3». Y en el diccionario CC-CEDICT la transcripción rara «ma3» aparece la primera.
  2. El segundo problema es el que yo llamo «el problema de las palabras largas». Por ejemplo, la palabra en chino «几分» significa «algo; un poco». Pero cuando se encuentra la frase «几分钟» en un texto en chino, se transcribirá como «jǐ fēnzhōng» («varios minutos»).
  3. El último problema es «el problema de demasiadas entradas». Por ejemplo, el diccionario CC-CEDICT tiene una entrada para «等一下儿», que no es una palabra sino una frase. Para tales entradas el algoritmo de la corrección tonal para 一 y 不 a veces no funciona. Y como esta frase no aparece en las listas de vocabulario HSK, el nivel HSK no se resalta tampoco.

Por eso, tenía que encontrar y corregir manualmente todos estos pequeños errores. Puede que en el futuro añada un formulario en línea que permita a los usuarios enviarme ellos mismos tales errores. También tengo previsto mostrar transcripciones múltiples de las palabras más frecuentes en chino, como por ejemplo 得 que puede pronunciarse como «de», «děi», or «dé». Ahora solo se muestra la pronunciación más frecuente.

Etiquetas: chino, transcriptor fonético, transcripción fonética, fonética china, pronunciación en chino, pinyin, HSK