PARATAXE | LIDILEM - Université Grenoble Alpes

PARAllel Texts Alignment eXploration and Edition

Recherche

Le projet ParaTAXE est né de la rencontre entre divers chercheurs et chercheuses de l'UGA, issus de laboratoires différents mais confrontés au même besoin d'un outil performant permettant la publication en ligne et la comparaison fine de corpus multilingues littéraires : Christiane Louette (Litt&Arts) et pour un corpus homérique à la Renaissance (en grec, latin, français, italien), Natacha Rimasson-Fertin (ILCEA4) et Cyrille François (Université de Lausanne) pour des contes de Grimm et leurs traductions aux XIXe-XXe siècles (allemand, français, anglais, russe), Pascale Roux (Université Lyon2, anciennement à Litt&Arts) pour divers corpus poétiques (italien, français, allemand, anglais), Malika Bastin (Litt&Arts) pour des corpus de traduction de thèâtre grec ancien, et Olivier Kraif (LIDILEM), qui travaille depuis 25 ans sur le sujet du traitement informatique de corpus multilingues parallèles (Kraif, 2015).

Malgré la maturité des techniques d'alignement et le grand nombre de projets menés dans le domaine, force est de constater que nombre de corpus parallèles élaborés dans un contexte académique (comme celui d'Hyperprince, Gedzelman & Zancarini, 2011) ne sont pas (ou plus) consultables en ligne, faute de maintenance ou de finance pour développer des sites dédiés. Sur Ortolang, on trouve plusieurs corpus parallèles téléchargeables (corpus GIEC, corpus Résolutions du Conseil de sécurité de l'ONU 1946-2015, ParCoGLiJe), mais aucun n'est consultable directement via une interface. Le projet ParaTAXE vise à remédier à ce manque d’un outil facilement réutilisable dans différents contextes. Ce projet se situe dans une perspective de recherche & développement. D'une part, il vise à étudier de nouvelles méthodes d'alignement dédiées au multi-alignement (cas où plus de 2 langues sont alignées), notamment en travaillant à un niveau sub-phrastique (le grain phrastique étant trop large pour faire jouer la transitivité), tirant parti à la fois des techniques statistiques traditionnelles (Dyer et al. 2013) et des plongements contextualisés utilisés plus récemment pour l'alignement de phrases (Feng et al., 2022 ; Artetxe & Schwenk, 2019). D'autre part, le projet vise la mise au point d'un outil, élaboré dans le cadre d'un développement Open Source, qui permettra de publier à brève échéance les corpus mentionnés précédemment. Le développement d'un tel outil a été initié dans le cadre du projet ACR Grimm, piloté par Natacha Rimasson-Fertin et Cyrille François, avec un financement de l’Université de Lausanne. Une première version, développée par l’éditeur Jinntec sera bientôt accessible. Les développements seront repris et complétés, avec l’ajout fonctionnalités supplémentaires, dans le cadre du projet ParaTAXE, avec la collaboration d’Elnaz Jalilian, post-doc au Lidiem. L'outil d’eploration dont nous proposons le développement sera conçu pour satisfaire les besoins des chercheurs issus de diverses communautés, au croisement du TAL, des humanités numériques et de la linguistique de corpus, dans une perspective pluridisciplinaire : linguistique contrastive, traductologie, stylistique et littérature, génétique des textes.

Références

Artetxe M., Schwenk H. (2019). Massively multilingual sentence embeddings for zero-shot cross-lingual transfer and beyond. Trans. Assoc. Comput. Linguistics, 7:597–610.

Dekker R. H., Middell G. (2011). Computer-Supported Collation with CollateX: Managing Textual Variance in an Environment with Varying Requirements. Supporting Digital Humanities 2011. University of Copenhagen, Denmark. 17-18 November 2011.

Dyer C., Chahuneau V., Smith N. A. (2013). A simple, fast, and effective reparameterization of ibm model 2. In Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 644–648.

Feng F., Yang Y., Cer D., Arivazhagan N., Wang W. (2022) Language-agnostic BERT Sentence Embedding. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics, Volume 1: Long Papers, pages 878 - 891

Gedzelman S., Zancarini J.-C. (2011). HyperMachiavel : un outil de comparaison de traductions. Lingua e stile, 2011, vol. XLVI, n° 2, pp. 247-266.

Kraif O. (2015). Multi-alignement vs bi-alignement : à plusieurs, c’est mieux ! , Actes de TALN 2015, 22ème Conférence sur le Traitement Automatique des Langues Naturelles, Caen, 22-25 juin 2015, pp. 255-266.

Kraif O., Roux P. (2022). Comparaison d'un texte original et de ses rétrotraductions : que disent les mesures textométriques ?, in Meng Ji Christine et Michael Oakes (Eds.), Les nouvelles méthodologies de la traductologie de corpus : La révolution empirique en traductologie, Meta, v. 67, no 1, Les Presses de l’Université de Montréal : Montréal.

Li X., Li G., Liu L, Meng M., Shi S. (2019). On the Word Alignment from Neural Machine Translation. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 1293–1303, Florence, Italy. Association for Computational Linguistics.

Reboul M. (2022) Comparaison semi-automatique des traductions françaises de l’Odyssée d’Homère (1547-1955). In Didier Alexandre et Glenn Roe (éd.), Cultures et pratiques savantes du numérique, Classiques Garnier ⟨10.48611/isbn.978-2-406-12961-5⟩