Traducteur pinyin testé avec le « HSK Standard Course »

Si vous suivez le fil de nouvelles sur ce site, vous êtes au courant que durant les quatre derniers mois j'apprenais le chinois en Chine. Pendant mon séjour en Chine, j'ai utilisé une partie de mon temps libre pour tester à fond le traducteur du texte chinois en pinyin. Pour cela, j'ai utilisé les manuels de chinois « HSK Standard Course » publié par la maison d'édition de l'université des langues et des cultures de Pékin (en passant, j'apprenais le chinois à cette même université).

Si vous avez lu mon article « Apprendre une langue : comment réussir rapidement ? 1e partie : prononciation », vous savez que je préfère les matériels vidéo pour apprendre des langues étrangères. HSK standard course est un cours audio, alors ce n'est pas une solution parfaite pour les débutants en chinois, cependant il est de très bonne qualité et a plusieurs avantages par rapport à d'autres cours audio :

  1. Les auteurs du cours n'ont utilisé que les mots chinois les plus populaires et les constructions grammaticales les plus fréquentes qui sont exigés pour l'examen de chinois HSK.
  2. Les enregistrements audio sont aussi très bons. L'audio pour le manuel combiné avec l'audio pour le livre de travail vous donne beaucoup d'exemples de l'usage de ces mots chinois fréquents dans les contextes différents. Les intonations sont très naturelles. À partir du niveau 3 de HSK la vitesse de la parole est un peu trop élevée, mais c'est comme ça que les Chinois parlent au quotidien.
  3. Tous les dialogues des manuels pour les niveaux 1 et 2 de HSK sont traduits en anglais.
  4. Les auteurs ont pris une bonne décision concernant le pinyin. Dans les manuels pour les niveaux 1 et 2 de HSK, le pinyin est imprimé au-dessus de chaque ligne du texte. Dans les manuels pour les niveaux 3 et 4 de HSK, la transcription en pinyin de chaque dialogue est imprimée en bas de la page, de cette façon il est plus facile de se concentrer sur le texte chinois. À partir du niveau 5 de HSK (pour le moment, juste le premier livre a été publié), le pinyin n'est donné que pour les nouveaux mots.

Alors, pour tester le traducteur pinyin, j'ai pris tous les dialogues des manuels pour les niveaux 1 à 4 (32 800 caractères) et ai comparé le résultat de la traduction avec la transcription pinyin des livres.

Pour le traducteur j'utilise le dictionnaire CC-CEDICT, mais il y a certains problèmes avec ce dictionnaire :

  1. Parfois il contient plusieurs transcriptions pour un même mot, dont certaines sont très rares. Par exemple, la particule interrogatoire 吗 a deux prononciations possibles : « ma5 » et « ma3 ». Dans le dictionnaire CC-CEDICT le « ma3 » qui est plus rare va en premier.
  2. Le second problème est ce que j'appelle « le problème des longs mots ». Par exemple, il y a un mot chinois « 几分 » qui signifie « un peu; légèrement ». Vous pouvez le trouver dans un texte chinois, cependant si vous voyez la phrase « 几分钟 », elle doit être traduit comme « jǐ fēnzhōng » (« quelques minutes »).
  3. Le dernier problème est « le problème des données excessives ». Par exemple, dans le dictionnaire CC-CEDICT il y a un mot « 等一下儿 », qui n'est pas vraiment un mot, mais plutôt une phrase. Dans les cas comme ça, l'algorithme qui corrige les accents pour 一 et 不 ne fonctionne toujours pas bien. Et puisque cette phrase ne fait pas partie du vocabulaire exigé pour l'examen HSK, le niveau de HSK n'est pas marqué non plus.

Alors j'ai dû trouver et corriger manuellement toutes ces petites erreurs. Probablement, un jour je vais créer un formulaire en ligne qui permettrait aux usagers de rapporter ces erreurs ce qui améliorerait le traducteur. Je veux aussi ajouter un algorithme qui affichera plusieurs prononciations possibles pour les mots chinois les plus fréquents. Par exemple, 得 peut être prononcé comme « de », « děi », or « dé ». Pour le moment, juste la transcription la plus fréquente est affichée.

Tags : chinois, traduction phonétique, phonétique chinoise, prononciation chinoise, pinyin, HSK