Procesamiento del lenguaje natural y enlace bibliográfico

un análisis de la proximidad entre los artículos más acceso de la Revista Scientometrics

Autores/as

DOI:

https://doi.org/10.5433/1981-8920.2022v27n3p262

Palabras clave:

Acoplamiento bibliográfico, Índice de similitud, Procesamiento natural del lenguaje

Resumen

Objetivo: compara los métodos de Procesamiento del Lenguaje Natural y Acoplamiento Bibliográfico normalizados a través del Coseno de Salton aplicados a los diez artículos más consultados de 2020 de la revista Scientometrics.
Metodología: Calcular una similitud entre todos los artigos segundo cinco perspectivas, sendo elas: similitudes entre formas activas do texto completo, formas activas dos resumos, palavravas-chaves em comum, acoplamento bibliográfico entre documentos e acoplamento bibliográfico de autores. Además, calcula las correlaciones de Pearson y Spearman, aplica la prueba no paramétrica de Wilcoxon a un nivel de 5% de significancia y representa los valores normalizados en el diagrama de caja.
Resultados: Encuentra que las especificidades de cada método influyen significativamente en el logro de una correlación significativa entre las medidas en las que los dos cálculos de acoplamiento se correlacionarían más fuertemente entre sí, así como dos cálculos basados ​​en el procesamiento del lenguaje natural. Tenga en cuenta que los cálculos de acoplamiento se correlacionaron significativamente, ya que para cada valor de acoplamiento de documento hay necesariamente al menos un valor de acoplamiento de autor. En cuanto a los cálculos basados en el procesamiento del lenguaje natural, existe una fuerte correlación entre los textos completos y los resúmenes, ya que existe una dependencia de contenido entre ambos. La prueba de Wilcoxon midió diferencias significativas entre todos los pares de medidas comparadas.
Conclusiones: Concluye una fuerte correlación entre textos completos y resúmenes, y entre métodos de acoplamiento bibliográfico. Sin embargo, existe una diferencia significativa entre los valores calculados.

Biografía del autor/a

Bianca Savegnago de Mira, Universidade Estadual Paulista Júlio de Mesquita Filho - UNESP

Estudiante de Doctorado en Ciencias de la Información en el Programa de Posgrado en Ciencias de la Información de la Universidade Estadual Paulista Júlio de Mesquita Filho (UNESP), Marília, Brasil.

Gutierres Castanha, Universidade Estadual Paulista (Unesp)

Doctor en Ciencias de la Información por la Universidade Estadual Paulista (UNESP). Profesor de la Universidade de Marília (UNIMAR), Marília, Brasil.

Citas

BORNMANN, L.; MARX, W. Thomas theorem in research evaluation. Scientometrics, [S. l.], v. 123, n. 1, p. 553-555, 2020. DOI: 10.1007/S11192-020-03389-6 DOI: https://doi.org/10.1007/s11192-020-03389-6

CASTANHA, R. G. The Coupler: uma nova ferramenta bibliométrica para análises relacionais de citação, acoplamento bibliográfico e cocitação. RDBCI: Revista Digital de Biblioteconomia e Ciência da Informação, São Paulo, v. 20, 2022. DOI: 10.20396/rdbci.v20i00.8671208 DOI: https://doi.org/10.20396/rdbci.v20i00.8671208

CHOWDHURY, G. Natural language processing. Annual Review of Information Science and Technology. Asist&T, [S. l.], v. 37, n. 1, p. 51-89, 2003. DOI: 10.1002/aris.1440370103 DOI: https://doi.org/10.1002/aris.1440370103

GIROLAMO, N. D.; REYNDERS, R. M. Characteristics of scientific articles on COVID-19 published during the initial 3 months of the pandemic. Scientometrics, [S. l.], v. 125, n. 1, p. 795-812, 2020. DOI: 10.1007/S11192-020-03632-0 DOI: https://doi.org/10.1007/s11192-020-03632-0

FALCÃO, L. C. J.; LOPES, B.; SOUZA, R. R. Absorção das tarefas de processamento de Linguagem Natural (NLP) pela Ciência da Informação (CI): uma revisão da literatura para tangibilização do uso de NLP pela CI. Em Questão, Porto Alegre, v. 28, n. 1, p. 13-34, 2021. DOI: 10.19132/1808-5245281.13-34 DOI: https://doi.org/10.19132/1808-5245281.13-34

GRÁCIO, M. C. C. Acoplamento bibliográfico e análise de cocitação: revisão teórico-conceitual. Encontros Bibli: Revista Eletrônica de Biblioteconomia e Ciência da Informação, Florianópolis, v. 21, n. 47, p. 82-99, 2016. DOI: 10.5007/1518-2924.2016v21n47p82 DOI: https://doi.org/10.5007/1518-2924.2016v21n47p82

GRÁCIO, M. C. C. Análises relacionais de citação para a identificação de domínios científicos: uma aplicação no campo dos Estudos Métricos da Informação no Brasil. Editora UNESP, 2020. DOI: https://doi.org/10.36311/2020.978-65-86546-12-5

HIRSCHBERG, J.; MANNING, C. D. Advances in natural language processing. Science, [S. l.], v. 349, n. 6245, p. 261-266, 2015. DOI: https://www.science.org/doi/10.1126/science.aaa8685 DOI: https://doi.org/10.1126/science.aaa8685

HJØRLAND, B. Citation analysis: A social and dynamic approach to knowledge organization. Information Processing & Management, [S. l.], v. 49, n. 6, p. 1313-1325, 2013. DOI: 10.1016/j.ipm.2013.07.001 DOI: https://doi.org/10.1016/j.ipm.2013.07.001

HOU, J.; YANG, X.; CHEN, C. Emerging trends and new developments in information science: A document co-citation analysis (2009-2016). Scientometrics, [S. l.], v. 115, n. 2, p. 869-892, 2018. DOI: 10.1007/s11192-018-2695-9 DOI: https://doi.org/10.1007/s11192-018-2695-9

KACEM, A.; FLATT, J. W.; MAYR, P. Tracking self-citations in academic publishing. Scientometrics, [S. l.], v. 123, n. 2, p. 1157-1165, 2020. DOI: 10.1007/S11192-020-03413-9 DOI: https://doi.org/10.1007/s11192-020-03413-9

KESSLER, M. M. Bibliographic coupling between scientific papers. American documentation, [S. l.], v. 14, n. 1, p. 10-25, 1963. DOI: 10.1002/asi.5090140103 DOI: https://doi.org/10.1002/asi.5090140103

KULCZYCKI, E.; KORYTKOWSKI, P. Researchers publishing monographs are more productive and more local-oriented. Scientometrics, [S. l.], v. 125, n. 2, p. 1371-1387, 2020. DOI: 10.1007/S11192-020-03376-X DOI: https://doi.org/10.1007/s11192-020-03376-x

KWIEK, M. Internationalists and locals: international research collaboration in a resource-poor system. Scientometrics, [S. l.], v. 124, n. 1, p. 57-105, 2020. DOI: 10.1007/S11192-020-03460-2 DOI: https://doi.org/10.1007/s11192-020-03460-2

LARIVIÈRE, V.; GINGRAS, Y. Averages of ratios vs. ratios of averages: An empirical analysis of four levels of aggregation. Journal of informetrics, [S. l.], v. 5, n. 3, p. 392-399, 2011. DOI 10.1016/j.joi.2011.02.001 DOI: https://doi.org/10.1016/j.joi.2011.02.001

LIDDY, E. D. Natural Language Processing for Information Retrieval. In: BATES, M. J.; MAACK, M. N. (ed.). Encyclopedia of Library and Information Sciences. Boca Raton: CRC Press, 2010. DOI: 10.1081/E-ELIS3 DOI: https://doi.org/10.1081/E-ELIS3

FAGES, D. M. Write better, publish better. Scientometrics, [S. l.], v. 122, n. 3, p. 1671-1681, 2020. DOI: 10.1007/S11192-019-03332-4 DOI: https://doi.org/10.1007/s11192-019-03332-4

MARSHAKOVA, I. Citation networks in information science. Scientometrics, [S. l.], v. 3, n. 1, p. 13-25, 1981. DOI: 10.1007/BF02021861 DOI: https://doi.org/10.1007/BF02021861

NADKARNI, P. M.; OHNO-MACHADO, L.; CHAPMAN, W. W. Natural language processing: an introduction. Journal of the American Medical Informatics Association, [S. l.], v. 18, n. 5, p. 544-551, 2011. DOI: 10.1136/amiajnl-2011-000464 DOI: https://doi.org/10.1136/amiajnl-2011-000464

PUERTA-DíAZ, M.; MIRA, B. S.; OVALLE-PERANDONES, M.; GRÁCIO, M. C. C.; MARTÍNEZ-ÁVILA, D. O processamento de linguagem natural na área dos estudos métricos da informação: um estudo no período de 2000 a 2019. Encontros Bibli: Revista Eletrônica de Biblioteconomia e Ciência da Informação, Florianópolis, v. 26, 2021. DOI: 10.5007/1518-2924.2021.e76886 DOI: https://doi.org/10.5007/1518-2924.2021.e76886

PRADO, M. A. R; CASTANHA, R. C. G. Indicadores: conceitos fundamentais e importância em CT&I. In: GRÁCIO, M. Cl. C.; MARTÍNEZ-ÁVILA, D.; OLIVEIRA, E. F. T. de; ROSAS, F. S. (org.). Tópicos da bibliometria para bibliotecas universitárias. São Paulo: Cultura Acadêmica, 2020. p. 50-70. DOI: https://doi.org/10.36311/2020.978-65-86546-91-0.p50-71

ROGERS, G.; SZOMSZOR, M.; ADAMS, J. Sample size in bibliometric analysis. Scientometrics, [S. l.], v. 125, n. 1, p. 777-794, 2020. DOI: 10.1007/S11192-020-03647-7 DOI: https://doi.org/10.1007/s11192-020-03647-7

SCIENTOMETRICS: an international journal for all quantitative aspects of the science of science, communication in science and science policy. Top 10 articles 2020 by full- textdownloads! 2020. Disponível em: https://www.springer.com/journal/11192/updates/18879904. Acesso em: 27 dez. 2022.

SHIBAYAMA, S.; WANG, J. Measuring originality in science. Scientometrics, [S. l.], v. 122, n. 1, p. 409-427, 2020. DOI: 10.1007/S11192-019-03263-0 DOI: https://doi.org/10.1007/s11192-019-03263-0

SOLTANI, P.; PATINI, R. Retracted COVID-19 articles: a side-effect of the hot race to publication. Scientometrics, [S. l.], v. 125, n. 1, p. 819-822, 2020. DOI: 10.1007/S11192-020-03661-9 DOI: https://doi.org/10.1007/s11192-020-03661-9

SZOMSZOR, M.; PENDLEBURY, D. A.; ADAMS, J. How much is too much? The difference between research influence and self-citation excess. Scientometrics, [S. l.], v. 123, n. 2, p. 1119-1147, 2020. DOI: 10.1007/S11192-020-03417-5 DOI: https://doi.org/10.1007/s11192-020-03417-5

TASKIN, Z.; AL, U. Natural language processing applications in library and information science. Online Information Review, [S. l.], v. 43, n. 4, p. 676-690, 2019. DOI: 10.1108/OIR-07-2018-0217 DOI: https://doi.org/10.1108/OIR-07-2018-0217

THIJS, B. Science mapping and the identification of topics: Theoretical and methodological considerations. In: GLÄNZEL, W.; MOED, H. F.; SCHMOCH, U.; THELWALL, M. (ed.). Springer handbook of science and technology indicators. Springer, Cham, 2019. p. 213-233. DOI: 10.1007/978-3-030-02511-3_9 DOI: https://doi.org/10.1007/978-3-030-02511-3_9

THIJS, B.; GLÄNZEL, W.; MEYER, M. S. Using noun phrases extraction for the improvement of hybrid clustering with text-and citation-based components. The example of “Information Systems Research”. In: SALAH, A. A.; TONTA, Y.; SALAH, A. A. A.; SUGIMOTO, C.; AL, U. (ed.). Proceedings of ISSI 2015 Istanbul: 15th International Society of Scientometrics and Informetrics Conference. Istanbul, Turkey: Bogaziçi University Printhouse, 2015. p. 28-33. Disponível em: http://ceur-ws.org/Vol-1384/paper4.pdf. Acesso em: 12 abr. 2023.

YOUNG, T.; HAZARIKA, D.; PORIA, S.; CAMBRIA, E. Recent trends in deep learning based natural language processing. IEEE - Computational intelligenCe magazine, [S. l.], v. 13, n. 3, p. 55-75, 2018. DOI: 10.1109/MCI.2018.2840738 DOI: https://doi.org/10.1109/MCI.2018.2840738

YUN, J.; AHN, S.; LEE, J. Y. Return to basics: Clustering of scientific literature using structural information. Journal of Informetrics, [S. l.], v. 14, n. 4, p. 101099, 2020. DOI: 10.1016/j.joi.2020.101099 DOI: https://doi.org/10.1016/j.joi.2020.101099

ZHANG, Y.; SHANG, L.; HUANG, L.; PORTER, A. L.; ZHANG, G.; LU, J.; ZHU, D. A hybrid similarity measure method for patent portfolio analysis. Journal of Informetrics, [S. l.], v. 10, n. 4, p. 1108-1130, 2016. DOI: 10.1016/j.joi.2016.09.006 DOI: https://doi.org/10.1016/j.joi.2016.09.006

ZHAO, D.; STROTMANN, A. Evolution of Research Activities and Intellectual Influences in Information Science 1996-2005: Introducing Author Bibliographic-Coupling Analysis. Journal of the American Society for Information Science and Tecnhology, [S. l.], v. 59, n. 13, p. 2070-2086, 2008. DOI: 10.1002/asi.20910 DOI: https://doi.org/10.1002/asi.20910

ZHAO, D.; STROTMANN, A. Mapping knowledge domains on Wikipedia: an author bibliographic coupling analysis of traditional Chinese medicine. Journal of Documentation, [S. l.], v. 78, n. 2, 2021. DOI: 10.1108/JD-02-2021-0039 DOI: https://doi.org/10.1108/JD-02-2021-0039

Publicado

2023-04-27

Cómo citar

Mira, B. S. de, & Gutierres Castanha, R. (2023). Procesamiento del lenguaje natural y enlace bibliográfico: un análisis de la proximidad entre los artículos más acceso de la Revista Scientometrics. Informação & Informação, 27(3), 262–287. https://doi.org/10.5433/1981-8920.2022v27n3p262