ELISA GUGLIOTTA
Doctorante
Affiliation
Université Grenoble Alpes
Équipe de recherche
LIDILEM Doctorants
Domaines de recherche
Langue arabe - Linguistique de corpus - Traitement Automatique des Langues (TAL)
Disciplines scientifiques
Sciences du langage
Licence Langues et médiation culturelle et linguistique, études arabes (Université: Roma Tre, Rome)
Master Langues pour la communication internationale, études arabes (Université: Roma Tre, Rome)
Doctorat Études arabes en cotutelle (Università Sapienza di Roma), en cours sous la direction de Olivier Kraif (UGA, LIDILEM, Grenoble), Giuliano Mion (Università degli Studi di Cagliari, Italie) et Marco Dinarelli (UGA, LIG, groupe Getalp), qui suit les travaux de ma thèse en tant que co-encadrant.
Le sujet de ma thèse concerne la création d'une ressource pour soutenir la recherche sur l'arabe tunisien. La ressource consiste en un corpus de textes tunisiens, écrits en arabish, ou arabizi : le système d'écriture non standard utilisé pour la communication ou la messagerie informelle en ligne.
Les textes collectés pour la construction du corpus appartiennent à quatre domaines : les forums, les blogs, les réseaux sociaux et les paroles de chansons de rap. Le nombre total de mots est 43 302. Le corpus (Tunisian Arabish Corpus - TArC) présente différents niveaux d'annotation textuelle générés de manière semi-automatique (à l'aide d'une architecture neuronale) et corrigés manuellement. Les niveaux d'annotation sont : classification, encodage des caractères arabes, tokenisation, étiquetage morpho-syntaxique. En outre, les textes TArC sont annotés avec : un niveau d'information sur le genre textuel, et avec des métadonnées sur l'auteur du texte : ville d'origine, sexe, âge.
Master Langues pour la communication internationale, études arabes (Université: Roma Tre, Rome)
Doctorat Études arabes en cotutelle (Università Sapienza di Roma), en cours sous la direction de Olivier Kraif (UGA, LIDILEM, Grenoble), Giuliano Mion (Università degli Studi di Cagliari, Italie) et Marco Dinarelli (UGA, LIG, groupe Getalp), qui suit les travaux de ma thèse en tant que co-encadrant.
Le sujet de ma thèse concerne la création d'une ressource pour soutenir la recherche sur l'arabe tunisien. La ressource consiste en un corpus de textes tunisiens, écrits en arabish, ou arabizi : le système d'écriture non standard utilisé pour la communication ou la messagerie informelle en ligne.
Les textes collectés pour la construction du corpus appartiennent à quatre domaines : les forums, les blogs, les réseaux sociaux et les paroles de chansons de rap. Le nombre total de mots est 43 302. Le corpus (Tunisian Arabish Corpus - TArC) présente différents niveaux d'annotation textuelle générés de manière semi-automatique (à l'aide d'une architecture neuronale) et corrigés manuellement. Les niveaux d'annotation sont : classification, encodage des caractères arabes, tokenisation, étiquetage morpho-syntaxique. En outre, les textes TArC sont annotés avec : un niveau d'information sur le genre textuel, et avec des métadonnées sur l'auteur du texte : ville d'origine, sexe, âge.
