SegCV : traitement efficace de CV avec analyse et correction d'erreurs

Résumé : RÉSUMÉ Le marché d'offres d'emploi et des candidatures sur Internet a connu, ces derniers temps, une croissance exponentielle. Ceci implique des volumes d'information (majoritairement sous la forme de textes libres) intraitables manuellement. Les CV sont dans des formats très divers : .pdf, .doc, .dvi, .ps, etc., ce qui peut provoquer des erreurs lors de la conversion en texte plein. Nous proposons SegCV, un système qui a pour but l'analyse automatique des CV des candidats. Dans cet article, nous présentons des algorithmes reposant sur une analyse de surface, afin de segmenter les CV de manière précise. Nous avons évalué la segmentation automatique selon des corpus de référence que nous avons constitués. Les expériences préliminaires réalisées sur une grande collection de CV en français avec correction du bruit montrent de bons résultats en précision, rappel et F-Score. ABSTRACT SegCV : Eficient parsing of résumés with analysis and correction of errors Over the last years, the online market of jobs and candidatures offers has reached an exponential growth. This has implied great amounts of information (mainly in a text free style) which cannot be processed manually. The résumés are in several formats : .pdf, .doc, .dvi, .ps, etc., that can provoque errors or noise during the conversion to plain text. We propose SegCV, a system that has as goal the automatic parsing of candidates' résumés. In this article we present the algoritms, which are based over a surface analysis, to segment the résumés in an accurate way. We evaluated the automatic segmentation using a reference corpus that we have created. The preliminary experiments, done over a large collection of résumés in French with noise correction, show good results in precision, recall and F-score. MOTS-CLÉS : RI, Ressources humaines, traitement de CV, Modèle à base de règles.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01313282
Contributor : Bibliothèque Universitaire Déposants Hal-Avignon <>
Submitted on : Monday, May 9, 2016 - 5:21:47 PM
Last modification on : Saturday, March 23, 2019 - 1:22:45 AM

Identifiers

  • HAL Id : hal-01313282, version 1

Collections

Citation

Luis Adrian Cabrera Diego, Juan-Manuel Torres-Moreno, Marc El Bèze. SegCV : traitement efficace de CV avec analyse et correction d'erreurs. TALN récital, 2013, Les Sables d'Olonne, France. ⟨hal-01313282⟩

Share

Metrics

Record views

70