Journées LIG/LIDILEM 2ème édition

le 28 mai 2019
Dans cette présentation, je soulèverai  quelques questions d'ordre méthodologique et épistémologique sur l'usage des corpus langagiers : que recouvre l'opposition corpus-driven et corpus-based ? le corpus est-il un réservoir de données objectives ? doit-on opposer les observations qualitatives et quantitatives ? à quelles conditions peut-on passer du particulier des textes qui constituent un corpus au général de la langue ? Qu'est-ce qui différencie les usages des corpus en TAL et en linguistique de corpus ?
Nous chercherons à répondre à ces questions à travers quelques exemples concrets.
 
  • 10h-10h30 : pause café
  •  10h30-12h30 : Ateliers pratiques (Annoter un corpus (salle I102),  Outils pour la reconnaissance de caractères (salle I104), Outils TAL pour la rédaction scientifique (salle I106))
  •  12h30-14h : pause déjeuner

Après-midi au LIG:

  • 14h-16h : Présentations thématiques - salle de séminaire 1 bâtiment IMAG
  • Introduction aux vecteurs conceptuels (D. Schwab & J. Frej)
La représentation du sens des éléments textuels (mot, syntagme, phrase, paragraphe, texte,…) fait l’objet d’actives recherches depuis des décennies. Les représentations vectorielles (ou embeddings, ou représentation distribuées continues) existent depuis les années 1970 et on vu leur popularités singulièrement augmenter depuis 2013 et le retour des réseaux de neurones profonds. On les retrouve pour désambiguïser les mots, pour les traduire, pour détecter les plagiats d’idées ou pour rechercher des informations.
Dans cette présentation, nous verrons un bref historique de ces représentations vectorielles, les théories linguistiques sur lesquelles elles reposent, nous verrons comment ces vecteurs peuvent être construits et quelques une de leurs applications.
 
DBnary est une ressource du LLOD (Lexical Linked Open Data Cloud). Construite à partir de 21 éditions de wiktionary, les données lexicales sont disponibles sous forme de graphes RDF, interrogeables à distance et utilisant un vocabulaire standardisé et partagé par de nombreuses autres ressources. Derrière tous ces mots à la mode, se cachent quelques principes finalement assez simple. En fonction du degré de compréhension de l'auditoire, du besoin pratique des uns et des autres ou du temps qu'il fait (sans négliger l'humeur du conférencier), nous verrons ce qu'est le Linked Open Data et le Lexical Linked Open Data en général, ou bien les données de DBnary en particulier, voire, si le temps le permet, nous ferons une petite séance pratique de constructions de requêtes visant à montrer que derrière ce jargon se cache des données, finalement pas si compliquées.
 
In this talk i will describe the task of automatic speech recognition (ASR) and the evolution of the approaches proposed over the last decades. I will also present current trends (such as end-to-end ASR) and open problems (such as low resource conditions) that remain to be addressed in this domain. (NB : la présentation se fera en français)
 
  • 16h-17h30 : pause café et clôture de la journée
Mis à jour le 21 avril 2020