Un algoritmo lingüístico - estadístico para resumen automático de textos especializados - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Linguamática Année : 2000

Un algoritmo lingüístico - estadístico para resumen automático de textos especializados

Résumé

Resumen En este trabajo se presenta un nuevo algoritmo de resumen automático de textos especializados, en concreto del dominio médico , que aúna estrategias lingüísticas y estadísticas. La novedad del artículo radica en la correcta combinación de dichas estrategias de cara a demostrar que los sistemas híbridos pueden obtener mejores resultados que los sistemas estadísticos o lingüísticos por sí solos. Se aplica el algoritmo sobre un corpus de textos médicos y se evalúa siguiendo el protocolo de NIST y utilizando el paquete Rouge. Se obtienen excelentes resultados en comparación con otros sistemas y se observa que los resúmenes realizados son muy similares a los de los especialistas del dominio. 1. Introducción El resumen automático es actualmente un tema de investigación muy relevante. La investigación en está area se inició en los años sesenta, emple-ando técnicas basadas en frecuencias de palabras (Luhn, 1959) o frases clave (Edmundson, 1969). Con el tiempo, estas técnicas han ido evolucio-nando y volviéndose más complejas. Podemos ha-cer una división general de estas técnicas en dos grupos principales: las técnicas estadísticas y las técnicas lingüísticas. En el primer grupo 1 , encon-tramos, entre otros, trabajos que emplean mo-delos bayesianos (Kupiec, Pedersen, and Chen, 1995), la Maximal Marginal Relevance (Golds-tein et al., 1999), técnicas de clustering (Ra-dev. En el segundo grupo, destacamos trabajos que explotan las posiciones textuales (Brandow, Mitze, and Rau, 1995; Lin and Hovy, 1997), la estructura del discurso (Ono, Sumita, 1 No pretendemos hacer aquí una revisión exhaustiva del estado de la cuestión en resumen automático. Para más información sobre técnicas y/o sistemas de resumen remitimos a los trabajos de (Spärck Jones, 2007; Mani, 2001; Mani and Maybury, 1999).
Fichier non déposé

Dates et versions

hal-01314836 , version 1 (12-05-2016)

Identifiants

  • HAL Id : hal-01314836 , version 1

Citer

Iria da Cunha, Juan-Manuel Torres-Moreno, Patricia Velázquez-Morales, Jorge Vivaldi. Un algoritmo lingüístico - estadístico para resumen automático de textos especializados. Linguamática, 2000. ⟨hal-01314836⟩

Collections

UNIV-AVIGNON LIA
51 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More