Avec l'émergence des techniques d'apprentissage automatique, et notamment avec les avancées récentes de l'apprentissage profond dans le domaine du TAL, le développement d'outils permettant d'aider au traitement, à l'étude et à la description des langues, passe par le développement de ressources clés qui puissent servir à la fois à l'entrainement et à l'évaluation des systèmes de TAL. Les corpus arborés (ou treebanks) manuellement vérifiés, font partie de ces ressources, en ce qu'il permettent d'entrainer à la fois des systèmes d'étiquetage en parties du discours, mais également des analyseurs syntaxiques automatiques. Ces ressources s'avèrent ainsi stratégiques pour initier le traitement et l'étude de langues dites "peu dotées", c'est-à-dire pour lesquelles il existe peu d'outils ou de ressources informatiques (lexiques, grammaires, corpus, ...), ainsi que pour des variétés linguistiques non standard, comme c'est le cas des usages observés dans un contexte de Communication médiée par ordinateur (en anglais, CMC pour Computer-Mediated Communication). Enfin, l'apprentissage profond permet également d'aborder des caractérisations sémantiques complexes liées à l'interprétation globale des énoncés.
Trois thèses, dont une soutenue en 2022 et deux en cours, se situent dans le champ de cette action :
- un thèse soutenue en 2022 qui porte sur l'étude, la constitution et l'annotation d'un corpus issu de Communication médiée par ordinateur (CMC) pour l'arabe tunisien. Cette ressource, le TArC, a permis d'entrainer un système d'annotation morphosyntaxique (POS tagging) avec des résultats encourageants. Ces travaux ont déjà donné lieu à une publication à un atelier WANLP 2020 ainsi qu'à LREC 2022 ;
- une thèse qui porte sur la constitution d'un vaste corpus arboré pour le créole mauricien. Ce corpus permettra notamment d’entraîner, une fois achevé, des systèmes d'analyse syntaxique en dépendances.
- un thèse Cifre, en partaneriat avec la société Ixiade, qui cherche à appliquer des méthodes de classification à l'analyse qualitative de verbatims, afin d'aider au codage de différentes dimensions concernant la perception et l'évaluation par le public de produits innovants.
Mis à jour le 15 septembre 2022
Membres
Responsable : Olivier Kraif (PR)
Membres : Elisa Gugliotta (doctorante), Nicolas David (doctorant)
Membres : Elisa Gugliotta (doctorante), Nicolas David (doctorant)