jeudi 22 août 2019

Traduction automatisée, traduction foirée...

Parce que quand je dis aux gens que j'apprends les langues pour faire de la traduction, j'ai régulièrement droit à "mais il y a des logiciels pour ça, et en plus c'est gratuit"

Traducteur c'est un métier, quoi qu'on en dise.

Une langue ce ne sont seulement pas des mots, mis les uns après les autres, suivant une logique prédéfinie.
Mais aussi tout un tas d'expressions imagées intraduisible telles quelles, des références locales, parfois très locales
( les cagoles de Marseille ne passent pas la wassingue, et quand chez moi on dit de quelqu'un qu'il "est bon pour Montfavet" une adaptation pour traduire ça dans une autre langue sera obligatoire)

Le fait que ce soit Heidi rend évidemment la chose encore plus drôle pour moi.

Le problème de ces logiciels, c'est qu'ils se fondent sur des bases de données en ligne, et utilisent le principe de probabilité. En comparant ces données, le logiciel sélectionne la solution la plus probable car elle a le plus d'occurrences.

En gros, en triant les textes déjà existants en plusieurs langues, et en choisissant par comparaison. C'est particulièrement criant sur le traducteur automatique que Google: une phrase relativement longue peut être à peu près juste.

Un mot isolé, surtout s'il est très polysémique, sera 99% du temps erroné ou d'une validité restreinte.

Amusez vous à taper " pièce" en français et à voir ce que ça donne, ici en allemand : Stück .
Oui, c'est vrai. Dans un cas. Quand "pièce" signifie morceau
(une pièce de viande -> ein Stück Fleisch peut marcher à la boucherie, et devient plutôt "un steack" une fois dans l'assiette, mais "ein Stück Brot" sera plutôt " un morceau de pain" ou ' une tranche de pain" selon sa forme)

Mais le même mot est très polysémique en français et son champ sémantique peut évoquer des choses très  variées..
Pièce de?
...la maison ( Raum ou Zimmer),  ...monnaie (Münze),  ...puzzle ( Teil), ...théâtre ( Theaterstück), ...identité (Ausweis), ...Exposition ( Exponat), ... jointe (Anlage)...

 
"Prête moi une pièce s'il te plait" ( en français, l'implicite est évident: il s'agit de la rondelle en métal à valeur monétaire dont on a besoin pour payer quelque chose)-> leih mir bitte ein Stück
ce qui n'a AUCUN sens.

La boulette peut facilement être évitée quand on connait la langue cible. Beaucoup moins quand il s'agit d'une langue qu'on ne maitrise pas.
Et quand on est un robot? Bien, on se contente des probabilités.

Or les données se trouvent en masse dans des textes
- publics
- accessibles facilement
- disponibles en plusieurs langues
- nombreux
La"pierre de Rosette" toute trouvée , ce sont les textes de l'ONU, les directives de l'union européenne, les textes officiels.. Qui sont traduits en plusieurs langues par des humains, mais dans un contexte très très restreint: textes de lois, décisions administratives, modes d'emploi... qui ont donc un vocabulaire spécifique loin de celui des langues telles qu'on les pratique dans la vie courante.

Sachant cela, il n'y a plus à s'étonner, qu'un article en anglais sur la phytothérapie qui parle de "pouvoir des plantes" soit traduit automatiquement "le pouvoir des usines". Tout simplement parce que les textes de référence parlent plus souvent d'usines que de plantes, dans leur cadre d'application. Un humain va voir l'article, son sujet global et comprendra de suite que "plante "est la traduction la plus probable de "plant". Le jeu de mot entre " power of plants" et " power plant" (usine électrique) lui échappe totalement, l'assemblage des deux mots aboutissant le plus souvent à des directives au sujet des usines électriques.

Et quand il s'agit d'expressions idiomatiques, là, il est à la rue...pourtant, c'est bête comme chou !

Facepalm international


Autre problème: en l'absence d'un corpus suffisant de textes disponibles en deux langues données, le traducteur automatique passe pas l'anglais. Les combinaisons anglais-français sont courantes, donc ça reste en général assez fiable. Mais Russe-français, c'est plus rase, et souvent le logiciel se contente de passer par l'anglais. Ma phrase en français, pour être traduite en russe va donc suivre le parcours: français> anglais> Russe. Et inversement.
La chose qui le prouve sans le moindre doute, ce sont les vous de pluriel et politesse. Il se trouve que la forme de politesse en russe est "vous" avec majuscule exactement comme en français. L'anglais n'ayant plus de seconde personne du pluriel comme forme de politesse, et se mélange régulièrement entre les registres de langues. "Tu" qui deviens vous de politesse, vous de politesse qui devient pluriel, etc...
Et vous devinez ce qui se passe lorsque on prend un mot français polysémique, qui peut avoir de nombreuses traductions en anglais, que le logiciel choisit "le plus probable" paris des mots anglais souvent aussi polysémiques, et traduit par le mot russe " le plus probable"? Oui. Charabia.
Il y a des années, du temps de Babelfish je travailais dans une cave à vin et j'avais fait un test. A l'époque il fallait le faire à la main.
J'avais pris quelques phrases types de bons de commande, tant de bouteilles de vin, etc..La combinaison français-coréen j'ai donc testé: français> anglais ( ça allait ) >coréen. JE ne parle pas coréen, comment vérifier?
je refais le parcours inverse coréen> anglais ( ha déjà, c'est n'imp') > français: mes bouteilles de vin s'étaient transformées en eau de pluie ( Jésus au moins faisait l'inverse!). Et tout ça à cause de la polysémie non gérée.

Donc une petite sélection des choses complètement loupées qui prouvent que
Traducteur humain :1 - traducteur en ligne : 0

  • Pas plus tard que maintenant sur mon Facebook, qui a subitement décidé de me faire une traduction automatique de l'espagnol: "Hasta la vista, baby" -> jusqu'à la vue, bébé. Donc même sur uen combinaison de langues courante,  français-espagnol, c'est à la ramasse.


  • Je n'ai pas d'image, mais je me souviens d'un jeu vidéo gratuit chinois traduit en anglais, puis de l'anglais vers le français.. automatiquement. Honnêtement je ne me souviens plus le titre, c'était tellement loupé que je l'avais vite désinstallé. Mais un des personnages se nommait " Fan". "Where is Fan, we must wait for her" en version anglaise donnait évidement: " Où est ventilateur, il faut l'attendre".
  • Message de mon correspondant: " Du kannst hier kommen und bei mir schlafen", simple invitation à venir le voir et dormir chez lui pour le week-end, qui par la magie d'une traduction intégrée que je ne lui avais pas demandée est devenue " tu peux venir ici et dormir avec moi", rendant la proposition banale bien plus tendancieuse :D
  • Pas d'image non plus, mais pour son événement Thanksgiving, puis Noël, comme souvent sur les jeux video en ligne, Saint Seiya Awakening nous demandait de "cuire la Turquie", traduction google littérale de " cook the turkey". Le jeu est en général bien fait, n'a pas de gros problèmes de traduction, bien que la version française présente parfois des bugs qui font afficher une phrase entière en espagnol. Cette boulette laisse donc entendre que si traduction automatique il y a, elle est le plus souvent relue, ce qui est bien, mais que certaines erreurs passent au travers de la relecture. Un humain aurait différencié turkey, la dinde, et Turkey, la Turquie.

  •  Je n'arrive même pas à comprendre.C'est juste un clavier virtuel cyrillique que j'ai voulu installer sur ma tablette pour faciliter mes recherches. Clavier avec des sourires ( d'accord, des smiley) et des joints d'étanchéité heuuuuuu? En plus , ça me fera toujours penser aux " joints d'étanchéité pour conduit d'évacuation de climatiseurs de morgue Alphonse Robichut"


  • Plus grave, mon correspondant bashkir, avec qui je discute en russe, m'a écrit "j'ai envie d'apprendre le français, mais je manque de temps, je pense commencer d'ici deux mois" mais il a fait une erreur de frappe et  "я думаю", (je pense) était écrit  "я умаю" (je ense), sur le coup, je n'ai pas compris, donc j'ai essayé de voir avec deepl, traducteur en ligne un peu moins foireux que google trad. Mais comme il ne reconnaissait pas le verbe à cause de la faute de frappe, il a cherché le plus probable.Dans ce cas là, le logiciel ne cherche pas quelque chose qui contient toutes les lettres, où, par probabilité il aurait pu déduire qu'il en manquait une au début *умаю, mais, non, il cherche dans sa base un verbe qui commence par  ум-  sans prendre en compte le reste du mot
    Et donc solution du traducteur automatique Я умру. Ma tête => 😨

    traduction de la phrase " j'ai très envie d'apprendre le français, mais je manque de temps je vais mourir dans deux mois".

    Heureusement que le contexte " j'ai envie d'apprendre le français, et j'ai aussi envie d'adopter un chien" ne cadrait pas avec l'attitude d'un mourant.  Lui-même disait qu'il avait eu des réponses bizarres à des messages qu'il a envoyés , traduits par google, à sa petite amie qui habitait en Allemagne. Il parle mal allemand, elle ne parle pas russe, aucun ne peut réellement vérifier la qualité de la traduction... Tu m'étonnes, un truc pareil, c'est un coup à ce que la dame, le croyant à l'agonie, saute dans le premier avion pour aller le voir une dernière fois.. et se retrouve devant la porte d'un vivant en pleine forme qui va à la salle de sport soulever des poids, et promène son chien...

  • Dans un registre moins grave, pour gagner du temps, parce que taper au clavier cyrillique bricolé est long et pénible, j'utilise parfois le traducteur, je revérifie pour voir si c'est à peu près ce que j'aurais dit, et corrige les trucs bizarres. Mais par défaut, dans phrases au passé, pourtant clairement accordées au féminin en français, il met systématiquement le masculin, donc je me retrouve avec des phrases au masculin. Tout ça à cause évidement du passage par l'anglais et ses adjectifs épicènes.

Donc ce sujet sera mis à jour au gré des âneries que je pourrais trouver au jour le jour, mais pour d'autres traductions ridicules, vous pouvez voir ici de beaux exemplaires de bourdes.
 Je suis particulièrement ventilateur de la paire de tongs à moitié cuite ou de " si une batterie est hirondelle".
Et la petite gâterie est plutôt un problème de décalage entre le français du Québec - où il n'y a aucun problème à acheter une catin pour sa petite soeur- et le français standard. Tandis que le "enjoy" traduit " jouir" est correct, mais ignore totalement le paramètre d'évolution de la langue, qui fait que le sens en français s'est considérablement restreint à UN domaine...

Aucun commentaire:

Enregistrer un commentaire

qui vient ici?

Flag Counter

Novembre... réorganisation

Hé oui, après un peu plus de 5 ans de reprise des langues, et de reprise des études un séjour en Belgique, un séjour malheureusement écourté...