Avec l'émergence des techniques d'apprentissage automatique, et notamment avec les avancées récentes de l'apprentissage profond dans le domaine du TAL, le développement d'outils permettant d'aider au traitement, à l'étude et à la description des langues, passe par le développement de ressources clés qui puissent servir à la fois à l'entrainement et à l'évaluation des systèmes de TAL. Les corpus arborés (ou treebanks) manuellement vérifiés, font partie de ces ressources, en ce qu'il permettent d'entrainer à la fois des systèmes d'étiquetage en parties du discours, mais également des analyseurs syntaxiques automatiques. Ces ressources s'avèrent ainsi stratégiques pour initier le traitement et l'étude de langues dites "peu dotées", c'est-à-dire pour lesquelles il existe peu d'outils ou de ressources informatiques (lexiques, grammaires, corpus, ...), mais également pour des variétés linguistiques non standard, comme c'est le cas des usages observés dans un contexte de Communication médiée par ordinateur (en anglais, CMC pour Computer-Mediated Communication).

Deux thèses en cours se situent dans le champ de cette action :
- un thèse qui porte sur l'étude, la constitution et l'annotation d'un corpus issu de Communication médiée par ordinateur (CMC) pour l'arabe tunisien. Cette ressource, le TArC, a permis d'entrainer un système d'annotation morphosyntaxique (POS tagging) avec des résultats encourageants. Ces travaux ont déjà donné lieu à une publication à un atelier WANLP 2020 ;
- une thèse qui porte sur la constitution d'un vaste corpus arboré pour le créole mauricien. Ce corpus permettra notamment d’entraîner, une fois achevé, des systèmes d'analyse syntaxique en dépendance.

Mis à jour le 23 juin 2021