La energía textual como medida de distancia en agrupamiento de definiciones

Résumé : Resumen La consulta de definiciones es una de las tareas mas comunes en los sitios de tipo enciclopédico como Wikipedia, Encarta y Medline. La detección, clasificación y agrupamiento de definiciones son tareas recientemente introducidas y en creciente desarrollo. Estas tareas se complican cuando las definiciones están inmersas en textos recuperados de la Web. Presentamos un algoritmo de clasificación basado en una nueva medida de distancia entre definiciones derivada de la energía textual calculada a partir de una representación vectorial del texto, independiente del idioma. Esta distancia puede tener aplicaciones en agrupamiento de textos cortos como snippets y títulos, para los cuales resulta complicado utilizar técnicas clásicas de ponderación como tf-idf porque sus frecuencias son muy bajas. Los resultados obtenidos son bastante alentadores y dan pie a explorar otras propiedades de la distancia propuesta. Abstract Definition searching is the most common query in encyclopedic system sites such as Wikipedia, Encarta and Medline. The detection, classification and clustering of definitions are recently introduced tasks in increasing development. These tasks become even more complicated when those definitions are embedded in texts and recovered from the sites as they appear. We present here a clustering algorithm based on a new measure of distance between definitions derived from the textual energy that can be calculated from a text vector representation, which is language independent. The energy distance suggested in this work may also have application for short texts clustering such as snippets and titles, where is difficult to use the classic techniques of weighting as tf-idf since the frequencies of terms are very low. The results are quite encouraging and lead us to explore other properties of the proposed distance measure.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01311506
Contributor : Bibliothèque Universitaire Déposants Hal-Avignon <>
Submitted on : Wednesday, May 4, 2016 - 12:19:01 PM
Last modification on : Friday, March 22, 2019 - 11:34:07 AM

Identifiers

  • HAL Id : hal-01311506, version 1

Collections

Citation

Juan-Manuel Torres-Moreno, Alejandro Molina, Gerardo Sierra. La energía textual como medida de distancia en agrupamiento de definiciones. International Conference on Statistical Analysis of Textual Data, 2010, Rome, Italy. ⟨hal-01311506⟩

Share

Metrics

Record views

46