Aller au contenu principal

Apprentissage profond et annotation de corpus

Avec l'émergence des techniques d'apprentissage automatique, et notamment avec les avancées récentes de l'apprentissage profond dans le domaine du TAL, le développement d'outils permettant d'aider au traitement, à l'étude et à la description des langues, passe par le développement de ressources clés qui puissent servir à la fois à l'entrainement et à l'évaluation des systèmes de TAL. Les corpus arborés (ou treebanks) manuellement vérifiés, font partie de ces ressources, en ce qu'il permettent d'entrainer à la fois des systèmes d'étiquetage en parties du discours, mais également des analyseurs syntaxiques automatiques. Ces ressources s'avèrent ainsi stratégiques pour initier le traitement et l'étude de langues dites "peu dotées", c'est-à-dire pour lesquelles il existe peu d'outils ou de ressources informatiques (lexiques, grammaires, corpus, ...), ainsi que pour des variétés linguistiques non standard, comme c'est le cas des usages observés dans un contexte de Communication médiée par ordinateur (en anglais, CMC pour Computer-Mediated Communication). Enfin, l'apprentissage profond permet également d'aborder des caractérisations sémantiques complexes liées à l'interprétation globale des énoncés.

Quatre thèses, dont une soutenue en 2022 et deux en cours, se situent dans le champ de cette action :

  • une thèse soutenue en 2022 qui porte sur l'étude, la constitution et l'annotation d'un corpus issu de Communication médiée par ordinateur (CMC) pour l'arabe tunisien. Cette ressource, le TArC, a permis d'entrainer un système d'annotation morphosyntaxique (POS tagging) avec des résultats encourageants. Ces travaux ont déjà donné lieu à une publication à un atelier WANLP 2020 ainsi qu'à LREC 2022 ;
  • une thèse qui porte sur la constitution d'un vaste corpus arboré pour le créole mauricien. Ce corpus permettra notamment d’entraîner, une fois achevé, des systèmes d'analyse syntaxique en dépendances.
  • deux thèses Cifre, en partaneriat avec la société Ixiade, s’intéressent à l'analyse qualitative de verbatims, se focalisant sur les problèmes de l’annotation de la coréférence ou sur le codage de différentes dimensions concernant la perception et l'évaluation par le public de produits innovants.

Membres

Responsable : Olivier Kraif (PR)
Membres : Claude Ponton (MCF), Agnès Tutin (PR), Elisa Gugliotta (docteure), Nicolas David (doctorant), Solenne Canton (doctorante), Jonas Noblet (doctorant)
 

Publié le 23 juin 2021

Mis à jour le 25 janvier 2024