Vers un système de traduction automatisée par ordinateur (TAO) capable d'assurer une communication de haute qualité entre les centaines de langues du Web

Les Grandes Conférences du LIG - The LIG Keynote Speeches
Christian BOITET
Jeudi 05 Jan 2017

Christian Boitet est venu à Grenoble en 1970 dans le cadre du CNRS pour faire de la recherche en TA au CETA avec le professeur Bernard Vauquois, sur le conseil de deux professeurs prestigieux de l'X, Jean Train et Laurent Schwartz. Il y a fait toutes sa carrière, à part 1 an au Canada, 1 an sur le "projet national TAO en 1985-86, 1 an au Japon en 1992-93, sans compter de nombreux séjours de recherche d'un à deux mois en Malaisie (1979-2006). Il a été professeur à l'USTMG, puis à l'UJF, de 1977 à 2016, et est depuis septembre 2016 professeur émérite à l'UGA. Il a surtout enseigné l'algorithmique et la programmation, les langages et automates formels, la compilation, la logique, la complexité, la calculabilité et la décidabilité, et bien sûr le traitement des langues naturelles, et sa mise en œuvre pour la "communication langagière". Il s'est intéressé à de très nombreuses langues (et en pratique plusieurs), ainsi qu'à diverses théories linguistiques, et est en particulier coauteur des fameux environnements de construction et d'exploitation de systèmes de TAO, Ariane-78 puis Ariane-G5. Il travaille d'ailleurs sur une nouvelle version, Ariane-Y. Il a encadré jusqu'à soutenance plus de 55 thèses, dont au moins 15 ont apporté des contributions innovantes et très intéressantes au domaine. Il a été et est toujours intéressé, depuis 1977, par les collaborations scientifiques internationales (en particulier avec la Russie, l'Allemagne, le Canada, la Malaisie, la Thaïlande, la Chine, et bien sûr l'Europe). Il a aussi participé à de nombreux projets de "transfert technologique" vers l'industrie, et au montage de 3 "jeunes pousses" (IOLTA et B'Vital avant 1995, AXiMAG depuis 2010). Depuis la thèse de Vincent Berment (2003), il s'intéresse très fortement à l'information des langues "peu dotées", et en particulier à celles dites "de la francophonie"

Résumé :

On commencera par un bref rappel historique, depuis les débuts avec B. Vauquois en 1961, le processus passant d'une "analyse" classique à de la "transduction heuristique". L'expérimentation de diverses approches (linguistiques et computationnelles) a mené dans les années 1980 à l'idée d'un nouveau domaine, le "génie linguiciel", avec un langage de spécification semi-formelle des correspondances chaînes-arbres, et à l'émergence de la "thèse CxAxQ": on ne peut avoir couverture, automaticité et qualité à 100%, mais on peut en avoir 2 sur 3 si on transige sur la 3°.D'où l'idée d'obtenir Q=C=100% en introduisant de la "désambiguïsation interactive" dans un système de TA (projet LIDIA), puis l'idée de "document auto-explicatif" (DAE), document usuel étendu par des annotations précisant comment comprendre chaque ambiguïté repérée.

Une autre façon d'augmenter la qualité est de réduire la couverture, en construisant des systèmes spécialisés à des "sous-langages", et en faisant intervenir l'humain à la fin, avant une boucle d'apprentissage. On illustrera cela avec 2 thèses récentes et 600 pages de supports pédagoqiques de l'UGA "post-éditées" en chinois à partir de traductions automatiques, de façon très efficace (≈10 minutes/page avec notre système spécialisé contre 17 avec Google).

Le problème qu'on se pose est nouveau : il s'agit de traiter "tous les couples de langues", pour près de 320 langues (celles déjà "actives sur le Web"), dont plus de 200 ne sont pas encore traitées du tout en TAO, en arrivant à une communication de très haute qualité, voire "à sens garanti". On propose une approche implémentable avec très peu de contributeurs linguistes, et des locuteurs-utilisateurs contribuant en traduisant ou en post-éditant vers leur langue.

Les ingrédients de l'approche proposée sont : (1) le passage par un "pivot sémantique", le choix naturel étant une variante du langage UNL de graphes sémantiques ; (2) la limitation de l'expertise linguistique à ce qui concerne la morphologie (souvent complexe) de ces langues, en analyse comme en génération ; (3) l'utilisation de l'apprentissage machine, et en particulier du "deep learning", pour construire des "enconvertisseurs" et des "déconvertisseurs" à partir de corpus parallèles obtenus par traduction, et munis d'une annotation par des graphes UNL, eux-même produits à partir de la version dans une langue "bien dotée" de ces corpus, pour laquelle ces outils existent déjà ; (4) l'introduction si nécessaire d'une étape de "désambiguïsation interactive", et la transformation des documents et messages à expliciter et à traduire en "documents auto-explicatifs".