Journées LIG/LIDILEM 2ème édition

Le 28 mai 2019

Matinée au LIDILEM
9h-10h : Plénière "Que faire face à un corpus (écrit) ?" (O. Kraif) - amphi 7 hall SudD

Dans cette présentation, je soulèverai quelques questions d'ordre méthodologique et épistémologique sur l'usage des corpus langagiers : que recouvre l'opposition corpus-driven et corpus-based ? le corpus est-il un réservoir de données objectives ? doit-on opposer les observations qualitatives et quantitatives ? à quelles conditions peut-on passer du particulier des textes qui constituent un corpus au général de la langue ? Qu'est-ce qui différencie les usages des corpus en TAL et en linguistique de corpus ?

Nous chercherons à répondre à ces questions à travers quelques exemples concrets.

10h-10h30 : pause café
10h30-12h30 : Ateliers pratiques (Annoter un corpus (salle I102), Outils pour la reconnaissance de caractères (salle I104), Outils TAL pour la rédaction scientifique (salle I106))
12h30-14h : pause déjeuner

Après-midi au LIG:

14h-16h : Présentations thématiques - salle de séminaire 1 bâtiment IMAG
Introduction aux vecteurs conceptuels (D. Schwab & J. Frej)

La représentation du sens des éléments textuels (mot, syntagme, phrase, paragraphe, texte,…) fait l’objet d’actives recherches depuis des décennies. Les représentations vectorielles (ou embeddings, ou représentation distribuées continues) existent depuis les années 1970 et on vu leur popularités singulièrement augmenter depuis 2013 et le retour des réseaux de neurones profonds. On les retrouve pour désambiguïser les mots, pour les traduire, pour détecter les plagiats d’idées ou pour rechercher des informations.

Dans cette présentation, nous verrons un bref historique de ces représentations vectorielles, les théories linguistiques sur lesquelles elles reposent, nous verrons comment ces vecteurs peuvent être construits et quelques une de leurs applications.

DBNary : Lexical Linked Open Data (G. Sérasset)

DBnary est une ressource du LLOD (Lexical Linked Open Data Cloud). Construite à partir de 21 éditions de wiktionary, les données lexicales sont disponibles sous forme de graphes RDF, interrogeables à distance et utilisant un vocabulaire standardisé et partagé par de nombreuses autres ressources. Derrière tous ces mots à la mode, se cachent quelques principes finalement assez simple. En fonction du degré de compréhension de l'auditoire, du besoin pratique des uns et des autres ou du temps qu'il fait (sans négliger l'humeur du conférencier), nous verrons ce qu'est le Linked Open Data et le Lexical Linked Open Data en général, ou bien les données de DBnary en particulier, voire, si le temps le permet, nous ferons une petite séance pratique de constructions de requêtes visant à montrer que derrière ce jargon se cache des données, finalement pas si compliquées.

Automatic Speech Recognition: Introduction, Current Trends and Open Problems (L. Besacier)

In this talk i will describe the task of automatic speech recognition (ASR) and the evolution of the approaches proposed over the last decades. I will also present current trends (such as end-to-end ASR) and open problems (such as low resource conditions) that remain to be addressed in this domain. (NB : la présentation se fera en français)

16h-17h30 : pause café et clôture de la journée

Date

Le 28 mai 2019

Contacts

Claire Worlfarth (LIDILEM)
William Havard (LIDILEM & LIG)
Loïc Vial (LIG)
Mahault Garnerin (LIDILEM & LIG)

Matinée au LIDILEM

Après-midi au LIG: