Séminaire

DéLiCorTAL : Étude des chaînes de référence en français : le projet ANR Democrat

le 5 février 2021
13h30, mutualisation M1 Texte et Corpus
FREDERIC LANDRAGIN (LATTICE – ENS, CNRS) 
 
Nous présentons le projet Democrat, « Description, modélisation et détection automatique des chaînes de référence en français », et ses quatre objectifs, à savoir fournir : (i) une description intégrée, discursive, diachronique et inter-genres des chaînes de référence ; (ii) un corpus de textes écrits en français avec des chaînes de référence annotées ; (iii) plusieurs outils de visualisation et d’exploration des chaînes de référence ; (iv) deux systèmes de TAL capables de traiter du texte brut écrit en français et d’extraire des expressions référentielles ainsi que des chaînes de référence. Nous présentons les principaux résultats de Democrat et nous décrivons les étapes de travail qui ont permis de les obtenir, en particulier le corpus, annoté manuellement par une quarantaine de membres du projet.
 
Partie plus appliquée à destination plus spécifiquement des étudiants de Master : « Annoter la référence et la coréférence : un cas pratique »
Connaissez-vous le film /Alien/ de 1979 ? L'équipage d'un vaisseau spatial fait une étape sur une planète inconnue et ramène à bord une créature infernale... Nous allons décortiquer un résumé de ce film qui, en à peine quarante lignes, regroupe tout un ensemble de phénomènes référentiels posant des questions à la fois de modélisation linguistique, de conception d'un schéma d'annotation pour mettre cette modélisation à l'épreuve de la méthodologie de la linguistique de corpus, et de détection automatique de la référence et de la coréférence. Ce cas pratique permettra de tirer des conclusions sur les apports du projet ANR Democrat, mais aussi et surtout sur les perspectives de recherche encore ouvertes.
https://www.lattice.cnrs.fr/membres/chercheurs-ou-enseignants-chercheurs/frederic-landragin/
 
Mis à jour le 20 janvier 2021