Aller au contenu principal

Corpus multilingues et comparables

Cette action est centrée sur la constitution et l’étude de corpus multilingues comparables et parallèles, en visant des perspectives multiples : celles de la linguistique contrastive mais aussi de la terminologie bilingue, de la traductologie ou des humanités numériques. Dans l’application des technologies du TAL à la linguistique de corpus, cette action concerne le thème 3 :Corpus et TAL.

Cette action comporte trois orientations :

1/ Développement d’outils.

2/ Constitution de corpus parallèles et comparables.

3/ A partir de ces corpus, étude et description des phénomènes constrastifs, traductologiques, terminologiques et stylistiques en collaboration avec des spécialistes de ces domaines.

Pour les corpus parallèles, nous cherchons à mettre en œuvre des techniques d'alignements à différents niveaux de granularité (textes, phrases, syntagmes, unités lexicales). Par les équivalences qu’ils recèlent, les corpus parallèles sont complémentaires des corpus comparables, car ils permettent une comparaison directe, tandis que ces derniers permettent de d’identifier les usages authentiques sans biais traductionnel.

En terminologie textuelle, nos travaux s’effectuent à partir de corpus monolingues et bilingues comparables, guidés par une double perspective linguistique et appliquée. Nous nous intéressons notamment à l’identification et à la caractérisation linguistique des contextes riches en connaissance dans les textes spécialisés. La dimension appliquée repose sur l’enrichissement d’un portail terminologique multilingue. La nature interdisciplinaire de nos recherches nous amène à croiser méthodes et outils issus de la linguistique de corpus avec l’environnement de recherche des sciences de l’information et de la communication. Ces travaux portent sur la médiatisation de l’alimentation et de la santé et la construction du discours à travers une approche communicationnelle et terminologique.

Des corpus parallèles et comparables réunissant des textes spécialisés (domaine médical), ont été produits pour le couple FR-AR et sont disponibles à l’interrogation sur le Lexicoscope (corpus OMS - Covid, corpus MSD).

Membres

Responsable : Olivier Kraif

Membres : Agnès Tutin, Cécile Frérot, Rim Abouwarda, Ola Elghamry, Elnaz Jalilian, Yinjie Wang

Membres hors Lidilem : Silvia d’Amico (LLSETI, USMB), Emannuelle Esperança-Rodier (LIG, UGA),Cyrille François (UNIL), Christiane Louette (Litt&Arts, UGA), Natacha Rimasson Fertin (ILCEA4, UGA), Pascale Roux (Passages XX-XXI, Lyon2)

Ressources

  • L’aligneur AIlign, s’appuyant sur des représentations neuronales interlingues, et réalisant des alignements phrastiques de qualité même pour des couples de langues éloignées (p.e.x FR-AR, FR-ZH, ...) est disponible sur GIT :https://gricad-gitlab.univ-grenoble-alpes.fr/kraifo/ailign 

  • Le WebAlignToolkit est une interface en ligne permettant d’aligner des documents à la volée, en s’appuyant sur différents aligneurs (Yasa, LFAligner, Alinea, etc.) :http://phraseotext.univ-grenoble-alpes.fr/webAlignToolkit/ .

  • Le Lexicoscope 2.0 permet l’exploration des plusieurs corpus parallèles et comparables originaux, développés au Lidilem (Phraseorom, ParaSHS, Romans FR-ZH, Prefab, OMS_Covid, corpus LSD)

 

Projets associés

  • Projet ACR Grimm Tradalign (2023-2024) : ce projet piloté par Natacha Rimasson Fertin et Cyrille François vise à l’élaboration d’un corpus de traduction des contes de Grimm, ainsi qu’à la réalisation d’une interface d’interrogation de ce corpus.

  • Projet Irga Parataxe  (2023-2025): A la suite du projet ACR Grimm, ce projet vise au développement de plusieurs corpus (Homère, Poésie, Grimm) ainsi qu’à la poursuite des développementsde l’interfacedéveloppée par l’UNIL s’appuyant sur TeiPublisher, dédiée à l’affichage et à l’exploration de corpus multi-parallèles (impliquant plus de 2 langues ou versions). Cet outil sera disponible sur les serveurs de l’UGA vers la fin 2024.

Publié le 7 février 2020

Mis à jour le 20 juin 2024