Extraction de propriétés de produits - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2014

Extraction de propriétés de produits

Résumé

In the work presented here, we try to automatically extract some product properties from descriptive texts provided by a merchant website. The constitution of an annotated reference corpus reveals some problems, not only due to the texts but also to the specificities of the task. To handle it, two distinct approaches have been tested : an extraction method based on dictionaries and a machine learning approach making use of CRFs (Conditional Random Fields), for which a large number of models have been tried. The results of our experiments outline the advantages and drawbacks of these two methods
Le travail présenté dans cet article vise à extraire automatiquement certaines carac-téristiques de produits à partir de descriptions textuelles fournies par un site marchand. La constitution d'un corpus de référence annoté révèle certains problèmes, provenant à la fois des textes et des particularités de la tâche. Pour l'aborder, nous avons testé deux approches : une méthode d'extraction fondée sur des dictionnaires et une méthode d'apprentissage automatique avec les CRF (Champs Aléatoires Conditionnels), pour lesquels nous avons essayé un grand nombre de modèles. Les résultats de nos expériences montrent les avantages et limites de ces deux méthodes.
Fichier principal
Vignette du fichier
CORIA-11.pdf (459.61 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-01473389 , version 1 (28-02-2017)

Identifiants

  • HAL Id : hal-01473389 , version 1

Citer

Patrick Marty, Tian Tian, Isabelle Tellier. Extraction de propriétés de produits. COnférence en Recherche d’Information et Applications (CORIA 2014), Mar 2014, Nancy, France. pp.121-136. ⟨hal-01473389⟩
95 Consultations
77 Téléchargements

Partager

Gmail Facebook X LinkedIn More