...des conférences enfin disons des causeries... Détection automatique de segments en relation de paraphrase dans les reformulations de corpus oraux.

Résumé : Notre travail porte sur la détection automatique des segments en relation de reformulation paraphrastique dans les corpus oraux. L'approche proposée est une approche syntagmatique qui tient compte des marqueurs de reformu-lation paraphrastique et des spécificités de l'oral. Les données de référence sont consensuelles. Une méthode automatique fondée sur l'apprentissage avec les CRF est proposée afin de détecter les segments paraphrasés. Différents descripteurs sont exploités dans une fenêtre de taille variable. Les tests effectués montrent que les segments en relation de paraphrase sont assez difficiles à détecter, surtout avec leurs frontières correctes. Les meilleures moyennes atteignent 0,65 de F-mesure, 0,75 de précision et 0,63 de rappel. Nous avons plusieurs perspectives à ce travail pour améliorer la détection des segments en relation de paraphrase et pour étudier les données depuis d'autres points de vue. Abstract. Our work addresses automatic detection of segments with paraphrastic rephrasing relation in spoken corpus. The proposed approach is syntagmatic. It is based on paraphrastic rephrasing markers and the specificities of the spoken language. The reference data used are consensual. Automatic method based on machine learning using CRFs is proposed in order to detect the segments that are paraphrased. Different descriptors are exploited within a window with various sizes. The tests performed indicate that the segments that are in paraphrastic relation are quite difficult to detect. Our best average reaches up to 0.65 F-measure, 0.75 precision, and 0.63 recall. We have several perspectives to this work for improving the detection of segments that are in paraphrastic relation and for studying the data from other points of view.
Document type :
Conference papers
Liste complète des métadonnées

Cited literature [29 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-01174665
Contributor : Iris Eshkol, Eshkol-Taravella <>
Submitted on : Thursday, July 9, 2015 - 2:31:56 PM
Last modification on : Tuesday, July 3, 2018 - 11:21:30 AM
Document(s) archivé(s) le : Wednesday, April 26, 2017 - 1:54:56 AM

File

para-oral_new (1).pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01174665, version 1

Citation

Natalia Grabar, Iris Eshkol-Taravella. ...des conférences enfin disons des causeries... Détection automatique de segments en relation de paraphrase dans les reformulations de corpus oraux.. TALN2015, Jun 2015, Caen, France. ⟨hal-01174665⟩

Share

Metrics

Record views

283

Files downloads

199