Ce corpus a pour but de permettre des analyses sur les compétences rédactionnelles en français langue maternelle à un niveau avancé et peut également servir de ressource didactique pour la formation à l’écrit.

Ce corpus est constitué à partir d’écrits d’étudiants de la licence première année au master deuxième année (écrits universitaires comme des mémoires ou des fiches de lecture et écrits professionnels comme des lettres de motivation et comptes-rendus), produits soit dans le cadre de validation du cursus (par ex. dossier, rapports, mémoires), soit dans le cadre de travaux dirigés.
Les disciplines sont pour l’essentiel sciences du langage, didactique du français, sciences de l’éducation ; sont notamment représentés des écrits de futurs enseignants de français.

Description des données :

Le corpus est constitué de 11 sous-corpus répondant aux critères suivants : au moins 10 textes relevant des mêmes conditions de production, c’est-à-dire même genre de texte, même discipline, même consigne donnée aux étudiants, même niveau (mais pas nécessairement la même promotion d’étudiants : on peut avoir par exemple deux promos consécutives).

 

Téléchargements

Les corpus sont disponibles via Ortolang que nous remercions pour leur aide.

Chaque archive contient le sous-corpus en 4 versions* :
- format doc,
- format pdf,
- format txt,
- format xml : un en-tête de type TeiHeader, contenant les méta-données qui décrivent le sous-corpus (date, licence, niveau d’étude, etc.) + un balisage structurel du texte

* certains sous-corpus ne sont actuellement disponibles qu’aux formats txt et xml.

L’ensemble du corpus est libre de droits, disponible sous licence CC BY-NC-SA
Pour une éventuelle utilisation commerciale, nous consulter.


Remerciements :

Nous remercions les collègues qui ont bien voulu collecter et nous envoyer les textes qui constituent le corpus. Nous remercions, bien sûr, les étudiants qui ont accepté de donner leur texte pour servir la recherche.
Nous remercions aussi le Consortium Corpus Ecrits, intégré désormais à CORLI, consortium de la TGIR Huma-Num, qui nous a alloué des fonds pour la constitution de ce corpus.
 

Mis à jour le 9 juin 2020