Scoledit | LIDILEM - Université Grenoble Alpes

La recherche Scoledit a pour objectif de procéder à la collecte, à l’annotation et à l’édition d’un grand corpus numérique longitudinal de textes narratifs et descriptifs.

Ce corpus propose un ensemble de productions narratives d’enfants entre le CP et le CM2. Il prend appui sur le recueil de données effectué dans le cadre du projet national « Lire - Écrire au CP », coordonné par Roland Goigoux et financé par la direction générale de l’enseignement scolaire (DGESCO), l’Institut français de l’Éducation (IFé) et le laboratoire Acté (Clermont-Ferrand). Dans le cadre de cette recherche, un premier recueil, en juin 2014, a permis de rassembler 2507 productions provenant de 131 classes de CP. En juin 2015, un second recueil a eu lieu auprès des mêmes élèves alors en classe de CE1, qui a permis de rassembler 2049 textes. Dans le cadre de la recherche Scoledit, nous avons continué ce travail de collecte qui n’a toutefois porté que sur les productions de 57 classes, réparties dans cinq académies (Bordeaux, Grenoble, Lyon, Toulouse, Clermont-Ferrand), parmi les 131 précédemment citées. Le recueil s’est achevé en 2018, année où les élèves étaient alors en CM2. A noter que pour les niveaux, de CE1 à CM2, les productions s’appuient sur une même consigne.
Un des objectifs de Scoledit était de pouvoir suivre les mêmes élèves tout au long de leur scolarité de primaire. Sur l’ensemble des données recueillies, cet objectif a été atteint pour 337 enfants. Cette sous-partie des données est appelée corpus longitudinal.

Données :

Toutes les productions recueillies ont été scannées et transcrites manuellement. A des fins de traitements automatiques, nous disposons également d’une version normalisée (notamment d’un point de vue orthographique) de chaque transcription. Seules les scans et transcriptions sont actuellement accessibles sur le site ; les normalisations ne sont accessibles qu’aux personnes authentifiées.

Informations complémentaires :

Scoledit est actuellement l’un des corpus utilisés dans le cadre du projet ANR E-CALM. L’ensemble des corpus développés dans le cadre de ce projet sera déposé d’ici fin 2020 sur Ortolang.

Financeurs :

DémarreSHS (IDEX UGA) et ANR E-CALM

Concepteurs

claude.pontonuniv-grenoble-alpes.fr (Claude Ponton), Catherine Brissaud, Corinne Totereau, Claire Wolfarth

Pour citer ce corpus

Wolfarth, C., Ponton, C., Totereau, C. (2017). « Apports du TAL à la constitution et à l’exploitation d’un corpus scolaire ». Dans Doquet C., David J. & Fleury S., Spécificités et contraintes des grands corpus de textes scolaires : problèmes de transcription, d’annotation et de traitement, Corpus, 16:2017, 185-214.

Mise à disposition

http://scoledit.org/scoledition (CP-CM2 - accès libre)
http://scoledit.org/scoledit (CP-CE1 seulement mais avec possibilités de recherche – authentification requise)
Contact : claude.pontonuniv-grenoble-alpes.fr (claude[dot]ponton[at]univ-grenoble-alpes[dot]fr)