Skip to Main content Skip to Navigation
New interface
Conference papers

Annotation de la cohérence dans un corpus de textes d’élèves d’école et collège

Résumé : Nous proposons dans cette communication d’aborder la question de la cohérence dans des productions écrites d’élèves d’école et collège. La cohérence est envisagée comme une propriété de la représentation de discours que se construit celui qui interprète le texte tout au long de sa lecture, se situant ainsi du côté du processus cognitif de réception des textes (Charolles 1995). Le corpus analysé est issu du corpus RESOLCO constitué de textes d’élèves d’école primaire et de collège produits selon une même consigne d’écriture, une tâche-problème demandant aux élèves la production d’un texte narratif impliquant la résolution d’anaphores de divers types (Garcia-Debanc et Bonnemaison, 2014 ; Garcia-Debanc et al, 2017). Nous y avons sélectionné trois niveaux correspondant aux fins des cycles 2, 3 et 4 – CE2, 6ème et 3ème – afin d’observer d’éventuels paliers d’évolution. Ce corpus a été annoté dans le cadre du projet Ecalm avec l’objectif d’analyser la cohérence discursive à la réception de textes de scripteurs dont la compétence rédactionnelle est encore en cours d’acquisition, à partir de l’identification de relations de discours entre segments. Nous présenterons dans un premier temps notre méthodologie d’annotation puis nos exploiterons les annotations produites pour évaluer la cohérence des textes, prolongeant ainsi les deux publications réalisées au cours du projet Ecalm (Bras et al. 2021 b, Bras et Vieu sous presse). Méthodologie d’annotation de la cohérence dans les textes d’élèves Nous procédons d’abord à une segmentation en Unités de Discours Elémentaires (UDE). La méthode de segmentation définie dans des projets antérieurs pour des textes d’experts comme ANNODIS (Muller at al. 2012, Asher et al. 2017) a été largement modifiée pour tenir compte de la fiabilité moindre des critères ponctuationnels et syntaxiques dans les textes d’élèves, au bénéfice des critères sémantico-référentiels. L’annotation en Relations de Cohérence ou Relations de Discours (RD) consiste ensuite à relier les UDE entre elles par des RD. Le jeu de relations choisi est proche de celui de la Segmented Discourse Representation Theory (Asher et Lascarides 2003). La SDRT définit de façon formelle ce qu’est une représentation de discours cohérente et offre une méthode opératoire de construction de représentations du discours articulées par Relation de Discours. La construction de la représentation se fait de façon récursive, UDE après UDE, et consiste principalement à déterminer le point d’attachement de l’UDE courante, ainsi que la RD réalisant cet attachement. La SDRT a été mise ici à l’épreuve pour la première fois sur des textes d’apprenants. Il s’agissait pour nous d’évaluer la possibilité pour cette théorie de rendre compte de textes d’apprenants, dont la compétence rédactionnelle est en cours d’acquisition. En l’état actuel de la théorie, le processus de construction des SDRS s’arrête à la première impossibilité d’attachement d’une UDE à la représentation en cours de construction. Ce blocage du processus équivaut à évaluer le texte comme étant incohérent du point de vue du récepteur. Dans le processus d’annotation mis au point dans le projet Ecalm, nous continuons la construction au- delà des blocages pour tenter de mesurer le degré d’incohérence, ce qui a imposé une extension de la théorie, pour pouvoir notamment typer et quantifier les points d’incohérence. Nous avons défini à cet effet un jeu d’étiquettes pour une dizaine de types de « problèmes de cohérence » et créé le guide d’annotation correspondant. L’annotation en RD a commencé par une phase exploratoire sur 12 textes, suivie d’une phase nominale sur 24 textes. Étant donnée la complexité de la tâche, surtout quand les textes sont incohérents, nous avons procédé par quadruple annotation avec harmonisation collective. Nous avons développé un script Python permettant de générer automatiquement le graphe correspondant à l’annotation, à la fois pour appréhender la structure globale du texte et notamment visualiser son niveau de complexité structurelle, mais aussi pour repérer facilement d’éventuelles coquilles au cours du processus d’annotation même. Le corpus livrable est constitué de 36 textes d’élèves de CE2, 6ème et 3ème, segmentés, doublement annotés (en relations de discours et en problèmes de cohérence) et accompagnés des graphes présentant leur structure de discours. Il permet une analyse de l’évolution de la cohérence dans les textes entre l’école primaire et le collège. Exploitation des annotations de la cohérence Les annotations obtenues ouvrent la voie à différents types d’explorations. Il est possible par exemple d’étudier l’évolution du jeu de relations impliquées dans l’interprétation des textes aussi bien du point de vue de sa diversité que du changement de proportion de certaines familles de relations par rapport à d’autres. Ainsi on peut mettre en évidence par exemple que le nombre de relations distinctes augmente entre le CE2 et la 3ème ; que les relations majoritaires sont celles du système narratif (Narration, Arrière-Plan, Elaboration, Continuation), sans surprise eu égard à la tâche d’écriture ; et que le nombre de relations causales distinctes augmente, ce qui se traduit par une utilisation plus fréquente de la relation d’Explication en 3ème qu’en CE2 (Bras et al. 2021a). Deux autres pistes pertinentes sont, d’une part, celle de l’analyse de l’évolution de la complexification de la structure de discours construite, ce que l’on peut apprécier par un indicateur prenant en compte la profondeur des graphes obtenus, et, d’autre part, celle de l’analyse de l’évolution du taux de « problèmes de cohérence » par UDE. C’est sur cette dernière piste que nous choisissons de nous focaliser pour cette communication. Les annotations produites permettent de relever trois types d’indicateurs : le nombre de « problèmes de cohérence » annotés, le nombre d’UDE non rattachées à une autre UDE, le nombre d’impossibilités d’inférence d’une relation de discours. Une analyse préliminaire sur 75 % de notre corpus annoté permet d’observer une tendance à la baisse de ces trois types d’indicateurs cumulés en un taux de « points d’incohérence », rapporté à la longueur du texte en nombre d’UDE : 0,56 en CE2 ; 0,19 en 6ème ; 0,17 en 3ème. Nous donnerons les analyses affinées sur l’ensemble du corpus ainsi que plusieurs exemples d’utilisation de ces trois indicateurs sur des textes du corpus annoté. Un prolongement de ce travail prendra la forme d’une confrontation de nos annotations avec des annotations d’enseignants afin d’évaluer la pertinence de notre méthodologie en direction des enseignants en formation continue en collaboration avec Claudine Garcia-Debanc.
Document type :
Conference papers
Complete list of metadata

https://hal.archives-ouvertes.fr/hal-03763803
Contributor : Laure Vieu Connect in order to contact the contributor
Submitted on : Monday, August 29, 2022 - 6:38:40 PM
Last modification on : Wednesday, September 28, 2022 - 4:20:11 PM

Identifiers

  • HAL Id : hal-03763803, version 1

Citation

Myriam Bras, Laure Vieu. Annotation de la cohérence dans un corpus de textes d’élèves d’école et collège. Colloque E-CALM : Analyser de larges corpus scolaires et universitaires : des questions pour la recherche et pour la formation (2022), Jun 2022, Bordeaux, France. ⟨hal-03763803⟩

Share

Metrics

Record views

41