Aller au contenu principal

Emolex

Le corpus Emolex est un corpus comportant des textes journalistiques (environ 75%) et littéraires (environ 25%) en 5 langues : allemand, anglais, espagnol, français et russe.

Son volume est d’environ 140 millions de mots par langue. Le corpus a été annoté en dépendances.

Pour citer le corpus : Sascha Diwersy, Vannina Goossens, Anke Grutschus, Beate Kern, Olivier Kraif, Elena Melnikova et Iva Novakova, « Traitement des lexies d’émotion dans les corpus et les applications d’EmoBase », Corpus [En ligne]

Description du corpus

Français (annotation Connexor)

Presse
EMOCORP_PRESSE_FR : 120 874 622 mots

Littérature
EMOCORP_LIT_FR : 15 978 230 mots

Français (annotation Connexor)

Presse

EMOCORP_PRESSE_FR

120 874 622

Littérature

EMOCORP_LIT_FR

15 978 230

Allemand (annotation Connexor)

Presse

EMOCORP_PRESSE_DE

121 076 999

Littérature

EMOCORP_LIT_DE

14 527 424

Anglais (annotation XIP)

Presse

EMOCORP_PRESSE_EN

99 594 161

Littérature

EMOCORP_LIT_EN

37 931 114

Espagnol (annotation Connexor)

Presse

EMOCORP_PRESSE_ES

127 357 935

Littérature

EMOCORP_LIT_ES

28 727 735

Russe (Annotation : SyntagRus/DeSR)

Presse

EMOCORP_PRESSE_RU

38 548 481

Littérature

EMOCORP_LIT_RU

99 256 442

Corpus

Il est librement accessible (après inscription) à l’adresse suivante :
http://phraseotext.univ-grenoble-alpes.fr/emoBase/
 

Publié le 23 décembre 2018

Mis à jour le 23 novembre 2023