Annotation d’expressions polylexicales verbales en français

Résumé : Nous décrivons la partie française des données produites dans le cadre de la campagne multilingue PARSEME sur l’identification d’expressions polylexicales verbales (Savary et al., 2017). Les expressions couvertes pour le français sont les expressions verbales idiomatiques, les verbes intrinsèquement pronominaux et une généralisation des constructions à verbe support. Ces phénomènes ont été annotés sur le corpus French-UD (Nivre et al., 2016) et le corpus Sequoia (Candito & Seddah, 2012), soit un corpus de 22 645 phrases, pour un total de 4 962 expressions annotées. On obtient un ratio d’une expression annotée tous les 100 tokens environ, avec un fort taux d’expressions discontinues (40%).
Document type :
Conference papers
Complete list of metadatas

Cited literature [10 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-01537880
Contributor : Yannick Parmentier <>
Submitted on : Friday, June 16, 2017 - 9:49:45 AM
Last modification on : Tuesday, July 2, 2019 - 4:02:04 PM
Long-term archiving on : Wednesday, December 13, 2017 - 1:09:54 PM

File

taln17-parseme-st-frenchdata-f...
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01537880, version 1

Citation

Marie Candito, Mathieu Constant, Carlos Ramisch, Agata Savary, Yannick Parmentier, et al.. Annotation d’expressions polylexicales verbales en français. 24e conférence sur le Traitement Automatique des Langues Naturelles (TALN), Jun 2017, Orléans, France. pp.1-9. ⟨hal-01537880⟩

Share

Metrics

Record views

449

Files downloads

197