La compresión de frases: un recurso para la optimización de resumen automático de documentos

Résumé : Resumen El objetivo de este trabajo de investigación es confirmar si es adecuado emplear la compresión de frases como recurso para la optimización de sistemas de resumen automático de documentos. Para ello, en primer lugar, creamos un corpus de resúmenes de documentos especializados (artículos médicos) producidos por diversos sistemas de resumen automático. Posteriormente realizamos dos tipos de compresiones de estos resúmenes. Por un lado, llevamos a cabo una compresión manual, siguiendo dos estrategias: la compresión mediante la eliminación intuitiva de algunos elementos de la oración y la compresión mediante la eliminación de ciertos elementos discursivos en el marco de la Rhetorical Structure Theory (RST). Por otro lado, realizamos una compresión automática por medio de varias estrategias, basadas en la eliminación de palabras de ciertas categorías gramaticales (adjetivos y adverbios) y una baseline de eliminación aleatoria de palabras. Finalmente, comparamos los resúmenes originales con los resúmenes comprimidos, mediante el sistema de evaluación Rouge. Los resultados muestran que, en ciertas condiciones, utilizar la compresión de frases puede ser beneficioso para mejorar el resumen automático de documentos. 1. Introducción La compresión de frases es un tema de investi-gación relativamente reciente. Los métodos sobre compresión de frases están orientados a la elimi-nación de la información no esencial de las frases de un documento, manteniendo al mismo tiempo su gramaticalidad. Las aplicaciones de la compre-sión de frases pueden ser muy diversas. Un ejemplo de ello es la generación automáti-ca de títulos. Las agencias de noticias reciben diariamente una gran cantidad de información proveniente de fuentes heterogéneas. Estas agen-cias cuentan con especialistas encargados de asig-nar un título a cada una de las informaciones que les llegan y que serán posteriormente convertidas en noticias. (Mittal and Witbrock, 1999) presen-tan un sistema capaz de generar encabezados de tamaño arbitrario. Otra aplicación es la generación de subtítulos para medios audiovisuales. Hoy en día , la mayor parte de las películas cuentan con subtítulos , pero la mayoría de las cadenas de televisión to-davía ofrecen el subtitulado de manera limitada. Sin embargo, en los ultimos años , este tema ha suscitado un gran interés , recibiendo una aten-ción especial. Por un lado, los subtítulos pueden traducir una narración o diálogo que se realiza en un idioma extranjero y, por otro, pueden servir para ayudar a las personas con problemas visua-les a recibir la información. (Grefenstette, 1998) presenta un método de reducción de textos que tiene por objetivo disminuir el tiempo de lectura de un sintetizador para ciegos. Otra de las aplicaciones de la compresión de frases tiene que ver con la telefonía móvil. Actual-mente, los dispositivos móviles cuentan con pan-tallas reducidas donde el número de caracteres mostrados es limitado. La compresión de frases es un método que permitiría reducir la extensión del texto mostrado y, de esta manera, incluir más información en un espacio determinado. En otra línea de investigación , la compresión de frases podría servir como método para la op
Document type :
Journal articles
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01324660
Contributor : Yves Caron <>
Submitted on : Wednesday, June 1, 2016 - 12:44:13 PM
Last modification on : Saturday, March 23, 2019 - 1:22:25 AM

Identifiers

  • HAL Id : hal-01324660, version 1

Collections

Citation

Alejandro Molina, Juan-Manuel Torres-Moreno, Patricia Velázquez-Morales, Vm Labs. La compresión de frases: un recurso para la optimización de resumen automático de documentos. Linguamática, 2010, 2 (3), pp.13-27. ⟨hal-01324660⟩

Share

Metrics

Record views

123