Emolex | LIDILEM - Université Grenoble Alpes

Le corpus Emolex est un corpus comportant des textes journalistiques (environ 75%) et littéraires (environ 25%) en 5 langues : allemand, anglais, espagnol, français et russe.

Son volume est d’environ 140 millions de mots par langue. Le corpus a été annoté en dépendances.

Pour citer le corpus : Sascha Diwersy, Vannina Goossens, Anke Grutschus, Beate Kern, Olivier Kraif, Elena Melnikova et Iva Novakova, « Traitement des lexies d’émotion dans les corpus et les applications d’EmoBase », Corpus [En ligne]

Description du corpus

Français (annotation Connexor)

Presse
EMOCORP_PRESSE_FR : 120 874 622 mots

Littérature
EMOCORP_LIT_FR : 15 978 230 mots

Français (annotation Connexor)
Presse	EMOCORP_PRESSE_FR	120 874 622
Littérature	EMOCORP_LIT_FR	15 978 230
Allemand (annotation Connexor)
Presse	EMOCORP_PRESSE_DE	121 076 999
Littérature	EMOCORP_LIT_DE	14 527 424
Anglais (annotation XIP)
Presse	EMOCORP_PRESSE_EN	99 594 161
Littérature	EMOCORP_LIT_EN	37 931 114
Espagnol (annotation Connexor)
Presse	EMOCORP_PRESSE_ES	127 357 935
Littérature	EMOCORP_LIT_ES	28 727 735
Russe (Annotation : SyntagRus/DeSR)
Presse	EMOCORP_PRESSE_RU	38 548 481
Littérature	EMOCORP_LIT_RU	99 256 442

Corpus

Il est librement accessible (après inscription) à l’adresse suivante :
http://phraseotext.univ-grenoble-alpes.fr/emoBase/

Téléchargement

Corpus Détaillé.pdf
Corpus.xlsx