Le corpus Emolex est un corpus comportant des textes journalistiques (environ 75%) et littéraires (environ 25%) en 5 langues : allemand, anglais, espagnol, français et russe.
Son volume est d’environ 140 millions de mots par langue. Le corpus a été annoté en dépendances.
Pour citer le corpus : Sascha Diwersy, Vannina Goossens, Anke Grutschus, Beate Kern, Olivier Kraif, Elena Melnikova et Iva Novakova, « Traitement des lexies d’émotion dans les corpus et les applications d’EmoBase », Corpus [En ligne]
Description du corpus
Français (annotation Connexor)
Presse
EMOCORP_PRESSE_FR : 120 874 622 motsLittérature
EMOCORP_LIT_FR : 15 978 230 mots
Français (annotation Connexor)
|
||
Presse |
EMOCORP_PRESSE_FR |
120 874 622 |
Littérature |
EMOCORP_LIT_FR |
15 978 230 |
Allemand (annotation Connexor)
|
||
Presse |
EMOCORP_PRESSE_DE |
121 076 999 |
Littérature |
EMOCORP_LIT_DE |
14 527 424 |
Anglais (annotation XIP)
|
||
Presse |
EMOCORP_PRESSE_EN |
99 594 161 |
Littérature |
EMOCORP_LIT_EN |
37 931 114 |
Espagnol (annotation Connexor)
|
||
Presse |
EMOCORP_PRESSE_ES |
127 357 935 |
Littérature |
EMOCORP_LIT_ES |
28 727 735 |
Russe (Annotation : SyntagRus/DeSR)
|
||
Presse |
EMOCORP_PRESSE_RU |
38 548 481 |
Littérature |
EMOCORP_LIT_RU |
99 256 442 |
Mis à jour le 12 octobre 2020
Corpus
Il est librement accessible (après inscription) à l’adresse suivante :
http://phraseotext.univ-grenoble-alpes.fr/emoBase/
http://phraseotext.univ-grenoble-alpes.fr/emoBase/