Le corpus Emolex est un corpus comportant des textes journalistiques (environ 75%) et littéraires (environ 25%) en 5 langues : allemand, anglais, espagnol, français et russe.

Son volume est d’environ 140 millions de mots par langue. Le corpus a été annoté en dépendances.
 

Description du corpus

Français (annotation Connexor)

Presse
EMOCORP_PRESSE_FR : 120 874 622 mots
 
Littérature
EMOCORP_LIT_FR : 15 978 230 mots
 
Français (annotation Connexor)

Presse

EMOCORP_PRESSE_FR

120 874 622

Littérature

EMOCORP_LIT_FR

15 978 230

Allemand (annotation Connexor)

Presse

EMOCORP_PRESSE_DE

121 076 999

Littérature

EMOCORP_LIT_DE

14 527 424

Anglais (annotation XIP)

Presse

EMOCORP_PRESSE_EN

99 594 161

Littérature

EMOCORP_LIT_EN

37 931 114

Espagnol (annotation Connexor)

Presse

EMOCORP_PRESSE_ES

127 357 935

Littérature

EMOCORP_LIT_ES

28 727 735

Russe (Annotation : SyntagRus/DeSR)

Presse

EMOCORP_PRESSE_RU

38 548 481

Littérature

EMOCORP_LIT_RU

99 256 442

Mis à jour le 19 juillet 2019