RFreeStem : Une méthode de racinisation indépendante de la langue et sans règle - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Revue ouverte d’ingénierie des systèmes d’information Année : 2021

RFreeStem : Une méthode de racinisation indépendante de la langue et sans règle

Résumé

With the large expansion of available textual data, text mining has become of special interest. Due to their unstructured nature, such data require important preprocessing steps. Among them, stemming algorithms conflate the variants of words into their stems. However, the most popular algorithms are rule-based, and therefore highly language- dependent. In contrast, corpus-based stemmers often exhibit significant algorithmic complexity, making them inefficient. They do not necessarily provide the extracted stems either, which are required for certain text mining tasks. We propose a new approach, RFreeStem, that is corpus-based and can therefore be applied on many languages. The implementation of our method is flexible and efficient, since it relies on a single running through the words’ngrams. We also detail a method to extract the stems. Our experiments show that RFreeStem improves the results of text mining tasks, even more than the Porter reference, while providing a stemming solution on poorly endowed languages, which do not benefit from a version of Porter.
La racinisation est un pré-traitement essentiel dans de nombreuses tâches de fouille de texte. Les algorithmes les plus utilisés sont basés sur l’application successive de règles spécifiques à la langue. Cette construction les rend fortement dépendants de la langue d’application. Par opposition, les raciniseurs basés sur des corpus présentent souvent une importante complexité algorithmique, les rendant peu efficaces. Ils ne mettent pas non plus nécessairement à disposition les racines extraites, pourtant requises pour certaines tâches de traitement de texte. Nous proposons ici une nouvelle approche, appelée RFreeStem, qui se base sur l’étude d’un corpus et peut être appliquée à différentes langues. L’implémentation de notre méthode est flexible et efficace, car basée sur un unique parcours des n-grammes. Nous détaillons également une méthode d’extraction des racines. Nos expériences montrent que RFreeStem améliore les résultats des tâches de traitement de texte, plus encore que la référence de l’état de l’art, Porter, tout en proposant une racinisation sur des langues peu dotées, où aucune version de Porter n’est implémentée.

Dates et versions

hal-03121993 , version 1 (26-01-2021)

Identifiants

Citer

Xavier Baril, Oihana Coustié, Josiane Mothe, Olivier Teste. RFreeStem : Une méthode de racinisation indépendante de la langue et sans règle. Revue ouverte d’ingénierie des systèmes d’information, 2021, 2 (1), pp.1-29. ⟨10.21494/ISTE.OP.2021.0605⟩. ⟨hal-03121993⟩
88 Consultations
0 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More