Projet IRGA : Extraction et analyse des phrases PREFABriquéeS de l’Oral

Le projet PREFABS est un projet pluridisciplinaire réunissant des linguistes et des spécialistes du traitement automatique de deux laboratoires de l’UGA : Agnès Tutin (PR) et Olivier Kraif (PR) pour le LIDILEM (Laboratoire de Linguistique et de Didactique des Langues Étrangères et Maternelles, EA 609), Marie-Sophie Pausé (Post-doctorante) et Maximin Coavoux (Chargé de recherche) pour le LIG (Laboratoire d’Informatique de Grenoble, UMR 5217, équipe GETALP). Le projet a pour objectif d’aborder une thématique émergente, l’étude des phrases préfabriquées de l’oral comme ça marche ! tu plaisantes ! comment dirais-je ? tu peux le dire. c’est OK. Notre objectif est double : il vise, d’une part, à extraire ces phrases à partir de grands corpus (y compris des corpus oraux transcrits et des corpus de sous-titres) et, d’autre part, à repérer au plan linguistique les phrases les plus productives au plan syntaxique et sémantique

Ce projet, qui intègre une post-doctorante recrutée sur 12 mois (Marie-Sophie Pausé, LIDILEM) : s’articulera en 4 grandes étapes:

Il s’agira dans un premier temps de prétraiter 2 corpus spécifiques comportant de l’oral transcrit (ORFEO) et un corpus de sous-titres de films) et d’effectuer une analyse syntaxique automatique.
une extraction automatique des phrases préfabriquées de l’oral sera ensuite réalisée en exploitant les corpus analysés syntaxiquement.
un filtrage et une analyse linguistique seront ensuite effectuées
une annotation systématique d’un sous-ensemble du corpus sera proposée.

Plusieurs retombées scientifiques sont prévues à l’issue du projet. Au plan linguistique, le projet permettra de mieux comprendre le phénomène des phrases préfabriquées et d’en évaluer la productivité. En ce qui concerne le traitement automatique des langues, nous pourrons évaluer dans quelle mesure des méthodes d’extraction des phraséologismes, appliquées à des corpus écrits, peuvent également être appliquées à des corpus oraux. Plusieurs livrables seront produits, en particulier, des lexiques de phrases préfabriquées et un corpus annoté en expressions, qui seront librement diffusés.
Le projet permettra de créer une dynamique nouvelle dans le domaine de la phraséologie de l’oral et permettra de renforcer les collaborations entre la linguistique et le traitement automatique des langues sur le site grenoblois. Le projet est prévu comme une première étape d’un projet ANR de plus grande envergure.

Financeur :
Projet IRGA, 2021-2022

Membres

Responsable : Agnès Tutin
Membres : Marie-Sophie Pausé (postdoctorante, LIDILEM), Maximin Coavoux (Chargé de recherche, LIG-GETALP), Olivier Kraif (professeur, LIDILEM)

Corpus exploités

ORFEO
Lexicoscope