Apprentissage profond et annotation de corpus | LIDILEM

Cette action émergente vise à appliquer les techniques récentes de l’apprentissage profond à la problématique du traitement et de l’annotation des corpus langagiers. A ce stade, cette action concerne essentiellement des recherches liées à des thèses en cours. Il est à noter que la thématique est assez transversale par rapport à plusieurs actions du Lidilem, les techniques mises en œuvre étant appliquées à l’annotation syntaxique (projets PhraseoRoche et Préfab) mais aussi au calcul de similarité sémantique (projet Préfab et Parataxe)

Avec l'émergence des techniques d'apprentissage automatique, et notamment avec les avancées récentes de l'apprentissage profond dans le domaine du TAL, le développement d'outils permettant d'aider au traitement, à l'étude et à la description des langues, passe par le développement de ressources clés qui puissent servir à la fois à l'entrainement et à l'évaluation des systèmes de TAL. Les corpus arborés (ou treebanks) manuellement vérifiés, font partie de ces ressources, en ce qu'il permettent d'entrainer à la fois des systèmes d'étiquetage en parties du discours, mais également des analyseurs syntaxiques automatiques. Ces ressources s'avèrent ainsi stratégiques pour initier le traitement et l'étude de langues dites "peu dotées", c'est-à-dire pour lesquelles il existe peu d'outils ou de ressources informatiques (lexiques, grammaires, corpus, ...), ainsi que pour des variétés linguistiques non standard, comme c'est le cas des usages observés dans un contexte de Communication médiée par ordinateur (en anglais, CMC pour Computer-Mediated Communication). Enfin, l'apprentissage profond permet également d'aborder des caractérisations sémantiques complexes liées à l'interprétation globale des énoncés.

Quatre thèses, dont une soutenue en 2022 et deux en cours, se situent dans le champ de cette action :

une thèse soutenue en 2022 qui porte sur l'étude, la constitution et l'annotation d'un corpus issu de Communication médiée par ordinateur (CMC) pour l'arabe tunisien. Cette ressource, le TArC, a permis d'entrainer un système d'annotation morphosyntaxique (POS tagging) avec des résultats encourageants. Ces travaux ont déjà donné lieu à une publication à un atelier WANLP 2020 ainsi qu'à LREC 2022 ;
une thèse qui porte sur la constitution d'un vaste corpus arboré pour le créole mauricien. Ce corpus permettra notamment d’entraîner, une fois achevé, des systèmes d'analyse syntaxique en dépendances.
deux thèses Cifre, en partaneriat avec la société Ixiade, s’intéressent à l'analyse qualitative de verbatims, se focalisant sur les problèmes de l’annotation de la coréférence ou sur le codage de différentes dimensions concernant la perception et l'évaluation par le public de produits innovants.

Membres

Responsable : Olivier Kraif
Membres : Claude Ponton, Agnès Tutin, Elisa Gugliotta, Nicolas David, Solenne Canton, Jonas Noblet