Le corpus Emolex est un corpus comportant des textes journalistiques (environ 75%) et littéraires (environ 25%) en 5 langues : allemand, anglais, espagnol, français et russe.

Son volume est d’environ 140 millions de mots par langue. Le corpus a été annoté en dépendances.

Pour citer le corpus : Sascha Diwersy, Vannina Goossens, Anke Grutschus, Beate Kern, Olivier Kraif, Elena Melnikova et Iva Novakova, « Traitement des lexies d’émotion dans les corpus et les applications d’EmoBase », Corpus [En ligne]
 

Description du corpus

Français (annotation Connexor)

Presse
EMOCORP_PRESSE_FR : 120 874 622 mots
 
Littérature
EMOCORP_LIT_FR : 15 978 230 mots
 
Français (annotation Connexor)

Presse

EMOCORP_PRESSE_FR

120 874 622

Littérature

EMOCORP_LIT_FR

15 978 230

Allemand (annotation Connexor)

Presse

EMOCORP_PRESSE_DE

121 076 999

Littérature

EMOCORP_LIT_DE

14 527 424

Anglais (annotation XIP)

Presse

EMOCORP_PRESSE_EN

99 594 161

Littérature

EMOCORP_LIT_EN

37 931 114

Espagnol (annotation Connexor)

Presse

EMOCORP_PRESSE_ES

127 357 935

Littérature

EMOCORP_LIT_ES

28 727 735

Russe (Annotation : SyntagRus/DeSR)

Presse

EMOCORP_PRESSE_RU

38 548 481

Littérature

EMOCORP_LIT_RU

99 256 442

Mis à jour le 12 octobre 2020