Evaluación del desempeño de un software de resumen de texto automático
DOI:
https://doi.org/10.5433/1981-8920.2020v25n1p189Palabras clave:
Sumarización Automática de Textos, Acceso a la Información, Procesamiento del Lenguaje Natural, Mediación (Práctica)Resumen
Introduccion: Desde 2014 desarrollamos una investigación con el fin de producir un software (prototipo) que sería capaz de elaborar resúmenes automáticos de textos basados en técnicas de Procesamiento de Lenguaje Natural y estadísticas de frecuencia de palabras. Las primeras pruebas empíricas de la herramienta generaron resultados que indicaron una significativa reducción de la dimensionalidad de los textos, con considerable preservación de su valor semántico. Objetivos: En este artículo, presentamos los resultados de la continuidad de nuestro trabajo investigativo, a partir de una evaluación humana de la calidad de esos resúmenes a partir de la realización de pruebas ciegos. Metodología: Un grupo de tres bibliotecarios recibió un bloque mixto y no identificado de resúmenes - producidos por humanos y los resúmenes automáticos hechos por el software - y procedió a una evaluación, según los criterios de corrección gramatical, preservación de las ideas centrales, coherencia y legibilidad, en resumen, si hubo paráfrasis o copia de fragmentos y, si hubo introducción de ideas no contenidas en el texto original. Resultados: Los resultados mostraron que en cuatro de los cinco criterios de evaluación adoptados, hubo equivalencia cualitativa entre los resúmenes producidos por humanos y los producidos por el software, lo que parece representar un relativo éxito, ya que el prototipo podría sustituir a una persona en la actividad de resumir los textos sin dejar a desear, a no ser en el quinto creatorio de evaluación, referente al tamaño del resumen, en que el texto producido por el software fue señalado como extenso más allá de lo necesario. Conclusiones: a pesar de los buenos resultados del prototipo, nos dimos cuenta de la necesidad de mejorar su rendimiento, además de evaluarlo con métodos más completos, de muestras más representativas y de un grupo más grande de evaluadores.Descargas
Citas
BARONI, M.; DINU, G.; KRUSZEWSKI, G. Don't count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors. In: ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 52., 2014. Baltimore, Maryland. Anais [...]. Baltimore, Maryland: Associação de Linguística Computacional, 2014. p.238-247. 2014. Disponível em: https://www.aclweb.org/anthology/P14-1023/. Acesso em: 10 dez. 2019.
BENGIO, Y.; DUCHARME, R.; VINCENT, P.; JAUVIN, C. A neural probabilistic language model. Journal of machine learning research, v. 3, p. 1137-1155. 2003. Disponível em: http://jmlr.org/papers/volume3/bengio03a/bengio03a.pdf. Acesso em: 10 dez. 2019.
BORGES, G. S. B. Indexação automática de documentos textuais: proposta de critérios essenciais. 2009. 111 f. Dissertação (Mestrado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Minas Gerais, 2009. Disponível em: https://repositorio.ufmg.br/bitstream/1843/ECID7W5JH9/1/dissertacao_graciane_2009.pdf. Acesso em: 13 dez. 2019.
BRIN, S.; PAGE, L. The anatomy of a large-scale hypertextual web search engine. In: Conferência Internacional da World Wide Web (WWW 1998), 7., 1998, Brisbane, Austrália. Anais [...]. Brisbane, Austrália: Elsevier Science, 1998. p. 107-117. Disponível em: http://snap.stanford.edu/class/cs224wreadings/Brin98Anatomy.pdf. Acesso em: 13 dez. 2019.
CABRAL, L. S. Uma plataforma para sumarização automática de textos independente de idioma. 2015. 138 f. Tese (Doutorado em Engenharia Elétrica) - Universidade Federal de Pernambuco. Programa de Pós-Graduação em Engenharia Elétrica, Recife, 2015. Disponível em: https://www.ufpe.br/documents/39830/745800/54_LucianoCabral/ef123409-aa67-4222-9fd2-4410708ef26d. Acesso em: 13 dez. 2019.
COSTA, M. A. A.; BRUNO, M. Uma comparação sistemática de diferentes abordagens para a sumarização automática extrativa de textos em português. Linguamática, v. 7, n. 1, p. 23-40. 2015. Disponível em: https://www.linguamatica.com/index.php/linguamatica/index. Acesso em: 10 dez 2019.
ERKAN, G.; RADEV, D. LexRank: graph-based lexical centrality as salience in text summarization. J. Artif. Intell. Res. (JAIR), v. 22, p. 457-479, 2004. Disponível em: https://arxiv.org/abs/1109.2128. Acesso em: 13 dez. 2019.
GONZALEZ, M.; LIMA, V. L. S. Recuperação de informação e processamento da linguagem natural. In: CONGRESSO DA SOCIEDADE BRASILEIRA DE COMPUTAÇÃO. 23., 2003, Campinas. Anais [...]. Campinas: Jornada de MiniCursos de Inteligência Artificial, 2003.
HARTMANN, N. S.; FONSECA, E.; SHULBY, C.; TREVISO, M. V.; RODRIGUES, J. S.; ALUÍSIO, S. M. Portuguese word embeddings: evaluating on word analogies and natural language tasks. Nova Iorque: Universidade Cornell, 2017. Disponível em: https://arxiv.org/pdf/1708.06025.pdf. Acesso em: 14 jan. 2020.
IRIGUTI, A. H.; FELTRIM, V. D. Avaliando atributos para a classificação de estrutura retórica em resumos científicos. Linguamática, v. 11, n. 1, p. 41-53, 2019. Disponível em: https://linguamatica.com/index.php/linguamatica/article/view/273/451. Acesso em: 10 dez. 2019.
LANCASTER, F. W. Indexação e sumários: teoria e prática. 2. ed. Brasília: Briquet de Lemos, 2004.
LUHN, H. P. A statistical approach to mechanized encoding and searching of literary information. IBM Journal of Research and Development, n. 1, v. 4, p. 309-317, 1957.
PEREIRA, S. L. Processamento de linguagem natural. [S. l.: s. n.], 2011. Disponível em: https://www.ime.usp.br/~slago/IA-pln.pdf. Acesso em: 09 fev. 2019.
RINO, L. H. M.; PARDO, T. A. S. A. A sumarização automática de textos: principais características e metodologias. In: VIEIRA, R. (org.). JAIA - Jornada de Atualização em Inteligência Artificial. Campinas: [s. n.], 2003. p. 203-245.
SALTON, G.; BUCKLEY, C. Term-weighting approaches in automatic text retrieval. Information Processing & Management, v. 24, n. 5, p. 513-523, 1988.
SOUZA, O.; TABOSA, H. R.; OLIVEIRA, D. M.; OLIVEIRA, M. H. S. Um método de sumarização automática de textos através de dados estatísticos e Processamento de Linguagem Natural. Informação & Sociedade: Estudos, João Pessoa, v. 27, n. 3, p. 307-320, set./dez. 2017. Disponível em: https://www.brapci.inf.br/index.php/article/download/60421. Acesso em: 28 jan. 2019.
SPARCK-JONES, K. A statistical interpretation of term specificity and its application in retrieval. Journal of Documentation, v. 28, n. 1, p. 11-21, 1993.
TAKAMURA, H.; OKUMURA, M. Text summarization model based on the budgeted median problem. In: ACM CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT. 18., 2009, Hong Kong. Anais [...]. Nova Iorque: Association for Computing Machinery, 2009. p. 1589-1592. Disponível em: https://dl.acm.org/citation.cfm?id=1646179. Acesso em: 14 dez. 2019.
WANG, D.; LI, T. Document update summarization using incremental hierarchical clustering. In: ACM CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT. 19. 2010, Toronto. Anais [...]. Nova Iorque: Association for Computing Machinery, 2010. p. 279-288. Disponível em: https://dl.acm.org/citation.cfm?id=1871476. Acesso em: 14 dez. 2019.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2021 Informação & Informação

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
A revista se reserva o direito de efetuar, nos originais, alterações de ordem normativa, ortográfica e gramatical, com vistas a manter o padrão culto da língua e a credibilidade do veículo. Respeitará, no entanto, o estilo de escrever dos autores. Alterações, correções ou sugestões de ordem conceitual serão encaminhadas aos autores, quando necessário.
O conteúdo dos textos e a citação e uso de imagens submetidas são de inteira responsabilidade dos autores.
Em todas as citações posteriores, deverá ser consignada a fonte original de publicação, no caso a Informação & Informação.





