Un algoritmo lingüístico - estadístico para resumen automático de textos especializados

Résumé : Resumen En este trabajo se presenta un nuevo algoritmo de resumen automático de textos especializados, en concreto del dominio médico , que aúna estrategias lingüísticas y estadísticas. La novedad del artículo radica en la correcta combinación de dichas estrategias de cara a demostrar que los sistemas híbridos pueden obtener mejores resultados que los sistemas estadísticos o lingüísticos por sí solos. Se aplica el algoritmo sobre un corpus de textos médicos y se evalúa siguiendo el protocolo de NIST y utilizando el paquete Rouge. Se obtienen excelentes resultados en comparación con otros sistemas y se observa que los resúmenes realizados son muy similares a los de los especialistas del dominio. 1. Introducción El resumen automático es actualmente un tema de investigación muy relevante. La investigación en está area se inició en los años sesenta, emple-ando técnicas basadas en frecuencias de palabras (Luhn, 1959) o frases clave (Edmundson, 1969). Con el tiempo, estas técnicas han ido evolucio-nando y volviéndose más complejas. Podemos ha-cer una división general de estas técnicas en dos grupos principales: las técnicas estadísticas y las técnicas lingüísticas. En el primer grupo 1 , encon-tramos, entre otros, trabajos que emplean mo-delos bayesianos (Kupiec, Pedersen, and Chen, 1995), la Maximal Marginal Relevance (Golds-tein et al., 1999), técnicas de clustering (Ra-dev. En el segundo grupo, destacamos trabajos que explotan las posiciones textuales (Brandow, Mitze, and Rau, 1995; Lin and Hovy, 1997), la estructura del discurso (Ono, Sumita, 1 No pretendemos hacer aquí una revisión exhaustiva del estado de la cuestión en resumen automático. Para más información sobre técnicas y/o sistemas de resumen remitimos a los trabajos de (Spärck Jones, 2007; Mani, 2001; Mani and Maybury, 1999).
Document type :
Journal articles
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01314836
Contributor : Bibliothèque Universitaire Déposants Hal-Avignon <>
Submitted on : Thursday, May 12, 2016 - 11:03:27 AM
Last modification on : Saturday, March 23, 2019 - 1:22:17 AM

Identifiers

  • HAL Id : hal-01314836, version 1

Collections

Citation

Iria da Cunha, Juan-Manuel Torres-Moreno, Patricia Velázquez-Morales, Jorge Vivaldi. Un algoritmo lingüístico - estadístico para resumen automático de textos especializados. Linguamática, 2000. ⟨hal-01314836⟩

Share

Metrics

Record views

64