Aller au contenu principal

Corpus multilingues parallèles et comparables

Cette action est centrée sur la constitution et l’étude de corpus multilingues comparables et parallèles, en visant des perspectives multiples : celles de la linguistique contrastive mais aussi de la terminologie bilingue, de la traductologie ou des humanités numériques.

Pour les corpus parallèles, nous cherchons à mettre en œuvre des techniques d'alignements à différents niveaux de granularité (textes, phrases, syntagmes, unités lexicales). Par les équivalences qu’ils recèlent, les corpus parallèles sont complémentaires des corpus comparables, car ils permettent une comparaison directe, tandis que ces derniers permettent de d’identifier les usages authentiques sans biais traductionnel.

Plusieurs outils sont d’ores et déjà disponibles :

  • L’aligneur AIlign, s’appuyant sur des représentations neuronales interlingues, et réalisant des alignements phrastiques de qualité même pour des couples de langues éloignées (p.e.x FR-AR, FR-ZH, ...) est disponible sur GIT : https://gricad-gitlab.univ-grenoble-alpes.fr/kraifo/ailign
  • Le WebAlignToolkit est une interface en ligne permettant d’aligner des documents à la volée, en s’appuyant sur différents aligneurs (Yasa, LFAligner, Alinea, etc.) : http://phraseotext.univ-grenoble-alpes.fr/webAlignToolkit/.
  • Par ailleurs, le projet Irga Parataxe (2023-2025), mené au sein de cette action, vise au développement d’une interface s’appuyant sur TeiPublisher, dédiée à l’affichage et à l’exploration de corpus multi-parallèles (impliquant plus de 2 langues ou versions). Cet outil sera disponible vers la fin 2024. Dans le cadre de ces développements, plusieurs corpus multi-parallèles sont en cours d’élaboration (notamment les traductions des contes de Grimm rassemblées lors du projet ACR Grimm).

    Des corpus parallèles et comparables réunissant des textes spécialisés (domaine médical), ont été produits pour le couple FR-AR et sont disponibles à l’interrogation sur le Lexicoscope (corpus OMS - Covid, corpus MSD).

    En terminologie textuelle, nos travaux s’effectuent à partir de corpus monolingues et bilingues comparables, guidés par une double perspective linguistique et appliquée. Nous nous intéressons notamment à l’identification et à la caractérisation linguistique des contextes riches en connaissance dans les textes spécialisés. La dimension appliquée repose sur l’enrichissement d’un portail terminologique multilingue. La nature interdisciplinaire de nos recherches nous amène à croiser méthodes et outils issus de la linguistique de corpus avec l’environnement de recherche des sciences de l’information et de la communication. Ces travaux portent sur la médiatisation de l’alimentation et de la santé et la construction du discours à travers une approche communicationnelle et terminologique.

    Partenariats :

Membres

Responsable : Olivier Kraif (PR)

Membres : Agnès Tutin (PR), Cécile Frérot (MCF), Rim Abouwarda (doctorante), Ola Elghamry (doctorante), Elnaz Jalilian (post-doc), hors Lidilem, des collaborations informelles ont été nouées avec des chercheurs de l'ILCEA4, de Litt&Arts, du CRTT et du LIG-GETALP.

Publié le 7 février 2020

Mis à jour le 16 février 2024