Aller au contenu principal

Corpus PhraseoRom

Les œuvres littéraires des corpus PhraseoRom ont été réparties en 6 sous-genres : romans de littérature générale (GEN), sentimentaux (SENT), policiers (POL), historiques (HIST), de science-fiction (SF), fantasy (FY). Ces œuvres ont été sélectionnées en fonction de critères chronologiques (romans postérieurs à 1950) et éditoriaux (pour GEN, la reconnaissance des auteurs par la critique, notamment lors de l’attribution de prix littéraires, et pour les autres sous-genres, la collection dans laquelle elles sont publiées).

Tableau 1. Répartition des corpus PhraseoRom selon les langues (auteurs, textes, tokens)

Corpus comparables

Langue

Auteurs

Textes

Tokens

EN

376

849

112 610 090

FR

418

1131

103 819 368

DE

237

746

89 451 097

Corpus parallèles

EN → FR

230

495

68 512 492

FR → EN

139

298

33 754 332

 

Tableau 2. Répartition en sous-genres des corpus comparables

Sous genres

Tokens FR

Tokens EN (GB)

Tokens EN (US)

Tokens DE

FY

13 966 573

24 590 831

6 467 561

16 774 462

GEN

34 593 337

15 696 519

283 291

9 068 325

HIST

14 193 643

14 606 939

92 843

25 454 115

POL

18 020 732

16 117 528

2 891 981

11 117 326

SENT

9 516 638

12 836 609

0

18 689 013

SF

13 528 445

16 507 028

2 518 960

8 347 856

Total

103 819 368

100 355 454

12 254 636

89 451 097

 

 

 

Tous ces corpus ont d’abord été rendus accessibles sur l’interface du Lexicoscope v1 (Kraif & Diwersy 2012 ; Kraif 2016), avant leur déploiement progressif vers le Lexicoscope 2.0.

 

Pour citer le corpus, citer l'article : Sascha Diwersy, Laetitia Gonon, Vannina Goossens, Olivier Kraif, Iva Novakova, Julie Sorba et Ilaria Vidotto, « La phraséologie du roman contemporain dans les corpus et les applications de la PhraseoBase »Corpus [En ligne], 22 | 2021, mis en ligne le 02 février 2021, consulté le 10 janvier 2024. URL : http://journals.openedition.org/corpus/6101 ; DOI : https://doi.org/10.4000/corpus.6101

 

Publié le 9 janvier 2024

Mis à jour le 5 février 2024