Rapport final du projet ANR Democrat, "Description et modélisation des chaînes de référence : outils pour l'annotation de corpus et le traitement automatique" - Archive ouverte HAL Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2020

Description, modelling and automatic detection of reference chains in French

Rapport final du projet ANR Democrat, "Description et modélisation des chaînes de référence : outils pour l'annotation de corpus et le traitement automatique"

Résumé

Début 2016, lorsque le projet Democrat s’est mis en place, il n’existait pas : (i) de description intégrée permettant la modélisation des chaînes de référence, ni de prédictions sur leur typologie ou leurs comportements textuels ; (ii) de corpus permettant d’apprécier l’évolution historique de leur composition ; (iii) d’outil permettant de visualiser et d’explorer les chaînes de référence ; (iv) de système de traitement automatique des langues (TAL) capable de traiter du texte tout-venant, écrit en français, pour en extraire les expressions référentielles et les chaînes de référence. Democrat s’est donné pour ambition d’apporter de nouveaux résultats sur ces 4 aspects, qui constituent les 4 volets et les 4 livrables du projet. En apportant de nouvelles données et analyses sur la langue, il permet : (i) de nourrir l’ensemble des applications de TAL grâce à un corpus d’envergure adapté aux besoins de l’apprentissage artificiel ; (ii) de renforcer la place du français dans le monde ; (iii) d’apporter de nouvelles connaissances à toutes les disciplines connexes à la linguistique, comme la psycho-linguistique et l’enseignement des langues. Début 2020, lors de la finalisation de Democrat, il existe désormais : (i) une description intégrée, discursive, diachronique et inter-genres des chaînes de référence ; (ii) un corpus de français écrit annoté en chaînes de référence ; (iii) plusieurs outils permettant de visualiser et d’explorer les chaînes de référence ; (iv) deux systèmes de traitement automatique des langues (TAL) capables de traiter du texte tout-venant, écrit en français, pour en extraire les expressions référentielles et les chaînes de référence – qui ont de plus apporté des innovations au domaine du deep learning.
Fichier principal
Vignette du fichier
2020_02_DEMOCRAT_rapport_final.pdf (866 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02533314 , version 1 (06-04-2020)

Identifiants

  • HAL Id : hal-02533314 , version 1

Citer

Frédéric Landragin. Rapport final du projet ANR Democrat, "Description et modélisation des chaînes de référence : outils pour l'annotation de corpus et le traitement automatique". [Rapport de recherche] ANR (Agence Nationale de la Recherche - France). 2020. ⟨hal-02533314⟩
325 Consultations
474 Téléchargements

Partager

Gmail Facebook X LinkedIn More