- Imprimer
- Partager
- Partager sur Facebook
- Share on X
- Partager sur LinkedIn
Le corpus Emolex est un corpus comportant des textes journalistiques (environ 75%) et littéraires (environ 25%) en 5 langues : allemand, anglais, espagnol, français et russe.
Son volume est d’environ 140 millions de mots par langue. Le corpus a été annoté en dépendances.
Description du corpus
Français (annotation Connexor)
Presse
EMOCORP_PRESSE_FR : 120 874 622 mots
Littérature
EMOCORP_LIT_FR : 15 978 230 mots
Français (annotation Connexor) | ||
Presse |
EMOCORP_PRESSE_FR |
120 874 622 |
Littérature |
EMOCORP_LIT_FR |
15 978 230 |
Allemand (annotation Connexor) | ||
Presse |
EMOCORP_PRESSE_DE |
121 076 999 |
Littérature |
EMOCORP_LIT_DE |
14 527 424 |
Anglais (annotation XIP) | ||
Presse |
EMOCORP_PRESSE_EN |
99 594 161 |
Littérature |
EMOCORP_LIT_EN |
37 931 114 |
Espagnol (annotation Connexor) | ||
Presse |
EMOCORP_PRESSE_ES |
127 357 935 |
Littérature |
EMOCORP_LIT_ES |
28 727 735 |
Russe (Annotation : SyntagRus/DeSR) | ||
Presse |
EMOCORP_PRESSE_RU |
38 548 481 |
Littérature |
EMOCORP_LIT_RU |
99 256 442 |
Corpus
Il est librement accessible (après inscription) à l’adresse suivante :
http://phraseotext.univ-grenoble-alpes.fr/emoBase/
Téléchargement
- Imprimer
- Partager
- Partager sur Facebook
- Share on X
- Partager sur LinkedIn