Approche hiérarchique d’extraction des compétences dans des CVs en format PDF - Archive ouverte HAL Accéder directement au contenu
Pré-Publication, Document De Travail Année : 2019

Approche hiérarchique d’extraction des compétences dans des CVs en format PDF

Résumé

The aim of this work is to use a hybrid approach to extract CVs' competences. The extraction approach for competences is made of two phases: a segmentation into sections phase within which the terms representing the competences are extracted from a CV; and a prediction phase that consists from the features previously extracted, to foretell a set of competences that would have been deduced and that would not have been necessary to mention in the resume of that expert. The main contributions of the work are two folds : the use of the approach of the hierarchical clustering of a résume in section before extracting the competences; the use of the multi-label learning model based on SVMs so as to foretell among a set of skills, those that we deduce during the reading of a CV. Experimentation carried out on a set of CVs collected from an internet source have shown that, more than 10% improvement in the identification of blocs compared to a model of the start of the art. The multi-label competences model of prediction allows finding the list of competences with a precision and a reminder respectively in an order of 90.5 % and 92.3 %. .
L’objectif de ce travail est d’utiliser l’approche héirarchique d’extraction des informations dans le CV pour en extraire les compétences. L’approche d’extraction des compétences proposée s’effectue en deux grandes phases : une phase de segmentation du CV en sections classées suivant leurs contenus et à partir desquelles les termes représentant les compétences (compétences de bases) sont extraits; et une phase de prédiction qui consiste à partir des caractéristiques extraites précédemment, à prédire un ensemble de compétences qu’un expert aurait déduites, et que ces compétences ne seraient pas nécessairement mentionnées dans le CV (compétences implicites). Les principales contributions de ce travail sont : l’utilisation de l’approche hiérarchique de segmentation du CV en sections pour extraire les compétences dans le CV; l’amélioration de la l’approche de segmentation des CV; enfin, l’utilisation de l’approche binary relevance de classification multi-label pour prédire les compétences implicites du CV. Les expérimentations effectuées sur un jeu de CVs collectés sur Internet ont montré une amélioration de la précision de l’identification des blocs de plus de 10% comparé à un modèle de l’état de l’art. Aussi, le modèle de prédiction multi-label des compétences, permet de retrouver la liste des compétences avec une précision et un rappel respectivement de l’ordre de 90,5% et 92,3%.
Fichier principal
Vignette du fichier
jiechieu et al 2019.pdf (584.8 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01898913 , version 1 (30-10-2018)
hal-01898913 , version 2 (18-06-2019)
hal-01898913 , version 3 (01-10-2019)

Identifiants

  • HAL Id : hal-01898913 , version 2

Citer

Florentin Flambeau Jiechieu Kameni, Norbert Tsopze. Approche hiérarchique d’extraction des compétences dans des CVs en format PDF. 2019. ⟨hal-01898913v2⟩
3046 Consultations
2223 Téléchargements

Partager

Gmail Facebook X LinkedIn More