Ajout de nouveaux noms propres au vocabulaire d’un système de transcription en utilisant un corpus diachronique

Irina Illina 1 Dominique Fohr 2 Georges Linarès 3
1 PAROLE - Analysis, perception and recognition of speech
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
2 PAROLE - Analysis, perception and recognition of speech
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Les noms propres sont souvent indispensables pour comprendre l’information contenue dans un document. Notre travail se concentre sur l’augmentation automatique du vocabulaire d’un système de transcription automatique de la parole (RAP) à partir d’un corpus diachronique. Nous faisons l’hypothèse que certains noms propres apparaissent dans des documents relatifs à la même période temporelle et dans des contextes lexicaux similaires. Trois méthodes de sélection de noms propres sont proposées pour augmenter de façon dynamique le vocabulaire en utilisant des informations lexicales et temporelles. Les méthodes sont fondées sur des statistiques de cooccurrences dans des fenêtres de taille fixe, sur l’information mutuelle et sur le modèle vectoriel. Différents paramètres de sélection de noms propres sont également étudiés afin de limiter l’augmentation du vocabulaire. Les résultats de reconnaissance montrent une réduction significative du taux d’erreur de noms propres en utilisant un vocabulaire augmenté.
Document type :
Journal articles
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01184950
Contributor : Dominique Fohr <>
Submitted on : Tuesday, August 18, 2015 - 4:10:01 PM
Last modification on : Saturday, March 23, 2019 - 1:22:43 AM

Identifiers

  • HAL Id : hal-01184950, version 1

Citation

Irina Illina, Dominique Fohr, Georges Linarès. Ajout de nouveaux noms propres au vocabulaire d’un système de transcription en utilisant un corpus diachronique. Traitement Automatique des Langues, ATALA, 2014, 55 (2), pp.47-72. ⟨hal-01184950⟩

Share

Metrics

Record views

319