Organização e Arquitetura da Informação em Large Language Models:  interseções na Ciência da Informação

Daiane Campos Procópio; Patrícia Nascimento Silva

doi:10.5433/1981-8920.2026v31n1p149

Autores

Daiane Campos Procópio Universidade Federal de Minas Gerais - UFMG https://orcid.org/0000-0002-9006-191X
Patrícia Nascimento Silva Universidade Federal de Minas Gerais - UFMG https://orcid.org/0000-0002-2405-8536

DOI:

https://doi.org/10.5433/1981-8920.2026v31n1p149

Palavras-chave:

Arquitetura da Informação, Large Language Models, Revisões de literatura

Resumo

Objetivo: identificar e analisar a organização e a arquitetura da informação em Large Language Models (LLMs), relacionando-as às técnicas de Inteligência Artificial (IA) e discutindo esses resultados no contexto da Ciência da Informação (CI).
Metodologia: a pesquisa, de natureza bibliográfica, é uma revisão de literatura, com abordagem mista, que contou com um protocolo criterioso para investigar a temática nas bases ACM Digital Library, ScienceDirect, Scopus e Web of Science, realizada entre junho e agosto de 2025. Os dados foram analisados quantitativamente e qualitativamente, com aplicação da análise de conteúdo, na perspectiva de Bardin, por meio da análise categorial.
Resultados: foram examinados 53 estudos publicados entre 2022 e 2025, oriundos de 26 países, identificando-se 16 categorias de técnicas de IA aplicadas em LLMs. Essas técnicas foram relacionadas aos quatro sistemas da Arquitetura da Informação propostos por Rosenfeld, Morville e Arango: organização, rotulagem, navegação e busca, demonstrando contribuições para o desenvolvimento e a aplicação de LLMs em diferentes domínios.
Conclusões: a pesquisa contribui ao evidenciar como a organização e a arquitetura da informação dialogam com a inteligência artificial e com instrumentos tradicionais da área, como metadados, tesauros e taxonomias, podendo ser aplicadas para compreender de que maneira os LLMs organizam, representam e disponibilizam dados. Além disso, oferece uma base conceitual importante, subsidiando novos estudos e soluções que envolvem a curadoria de dados e o treinamento desses sistemas. O estudo também reforça a pertinência dos fundamentos da CI na análise de tecnologias emergentes.

Downloads

Não há dados estatísticos.

Biografia do Autor

Daiane Campos Procópio, Universidade Federal de Minas Gerais - UFMG

Mestre em Gestão e Organização do Conhecimento pelo Programa de Pós-Graduação (PPGGOC) da Universidade Federal de Minas Gerais (UFMG). Belo Horizonte, Brasil.

Patrícia Nascimento Silva, Universidade Federal de Minas Gerais - UFMG

Doutora em Gestão e Organização do Conhecimento pela Universidade Federal de Minas Gerais (UFMG). Docente na Escola de Ciência da Informação (ECI) e da Universidade Federal de Minas Gerais e no Programa de Pós-Graduação em Gestão e Organização do Conhecimento (PPGGOC). Belo Horizonte, Brasil.

Referências

ADESEYE, A.; ISOAHO, J.; MOHAMMAD, T. LLM-assisted qualitative data analysis: security and privacy concerns in gamified workforce studies. Procedia Computer Science, [S.l.], v. 257, p. 60-67, 2025. DOI: 10.1016/j.procs.2025.03.011.

AGBAREIA, R. et al. Visual-textual integration in LLMs for medical diagnosis: a preliminary quantitative analysis. Computational and Structural Biotechnology Journal, [S.l.], v. 27, p. 184-189, 2025. DOI: 10.1016/j.csbj.2024.12.019.

ALAMMAR, J.; GROOENDORST, M. Hands-On Large Language Models. Sebastopol: O’Reilly, 2024.

ALGHAMDI, H.; MOSTAFA, A. Advancing EHR analysis: Predictive medication modeling using LLMs. Information Systems, [S.l.], v. 131, 102528, 2025. DOI: 10.1016/j.is.2025.102528

ARAÚJO, C. A. A. O que é Ciência da Informação? Belo Horizonte: KMA, 2018. Disponível em: https://teste.eci.ufmg.br/wp-content/uploads/2024/03/O-QUE-E-CIENCIA-DA-INFORMACAO.pdf. Acesso em: 28 ago. 2025.

BADALOTTI, D. et al. Development of a natural language processing (NLP) model to automatically extract clinical data from electronic health records: results from an Italian comprehensive stroke center. International Journal of Medical Informatics, [S.l.], v. 192, 105626, 2024. DOI: 10.1016/j.ijmedinf.2024.105626.

BARDIN, L. Análise de conteúdo. São Paulo: Edições 70, 2016.

CHEN, K. et al. A Survey on Privacy Risks and Protection in Large Language Models. arXiv:2505.01976v1, 2025. DOI: 10.48550/arXiv.2505.01976.

CHEN, K. et al. LLM-assisted multi-teacher continual learning for visual question answering in robotic surgery. arXiv:2402.16664v3, 2024. DOI: 10.48550/arXiv.2402.16664.

CHEN, L. et al. Application of retrieval-augmented generation for interactive industrial knowledge management via a large language model. Computer Standards & Interfaces, [S.l.], v. 94, 103995, 2025. DOI: 1016/j.csi.2025.103995.

CHO, H. et al. Extracting lung cancer staging descriptors from pathology reports: a generative language model approach. Journal of Biomedical Informatics, [S.l.], v. 157, 104720, 2024. DOI: 10.1016/j.jbi.2024.104720.

CHO, N. et al. FISHNET: financial intelligence from sub-querying, harmonizing, neural-conditioning, expert swarms, and task planning. In: ACM International Conference on AI in Finance (ICAIF ’24), 5., 2024, Brooklyn. Proceedings [...]. [S.l.]: ACM, 2024. p. 1-9. DOI:1145/3677052.3698597.

CHOI, H.; JEONG, J. A Conceptual Framework for a Latest Information-Maintaining Method Using Retrieval-Augmented Generation and a Large Language Model in Smart Manufacturing: Theoretical Approach and Performance Analysis. Machines, Basel, v. 13, n. 94, 2025a. DOI: 10.3390/machines13020094.

CHOI, H.; JEONG, J. Domain-specific manufacturing analytics framework: an integrated architecture with retrieval-augmented generation and Ollama-based models for manufacturing execution systems environments. Processes, [S.l.], v. 13, n. 670, 2025b. DOI: 10.3390/pr13030670

CHOW, A. R. ChatGPT May Be Eroding Critical Thinking Skills, According to a New MIT Study. Time, 23 jun. 2025. Disponível em: https://time.com/7295195/ai-chatgpt-google-learning-school/. Acesso em: 30 jul. 2025.

CORRÊA, L. N. Metodologia científica: Para trabalhos acadêmicos e artigos. Florianopolis: Do Autor, 2008.

COSTA, D. G. et al. A method to promote safe cycling powered by large language models and AI agents. MethodsX, [S.l.], v. 13, 102880, 2024. DOI: 10.1016/j.mex.2024.102880.

CRESWELL, J. W.; CRESWELL, J. D. Projeto de pesquisa: métodos qualitativo, quantitativo e misto. 5. ed. Porto Alegre: Penso, 2021.

DHAMANI, N.; ENGLER, M. Introduction to Generative AI. Shelter Island: Manning, 2024.

ELAHI, A.; TAGHVAEI, F. Combining financial data and news articles for stock price movement prediction using large language models. arXiv:2411.01368v1, 2024. DOI: 10.48550/arXiv.2411.01368.

FERREIRA, S. A; OLIVEIRA, D. A. Desinformação, crise de confiança na ciência e necessidade de políticas para divulgação científica. Ciência da Informação Express, v. 2, n. 4, p. 1-6, 9 abr. 2021. DOI: 10.60144/v2i.2021.28.

FU, X. et al. Deciphering public voices in the digital era: benchmarking ChatGPT for analyzing citizen feedback in Hamilton, New Zealand. Journal of the American Planning Association, [S.l.], v. 90, n. 4, p. 728-741, 2024. DOI: 10.1080/01944363.2024.2309259.

GABRIEL-PETIT, P. Designing Information Architecture: A practical guide to structuring digital content for findability and easy navigability. Birmingham: Packt Publishing, 2025.

HAN, B.; SUSNJAK, T.; MATHRANI, A. Automating systematic literature reviews with retrieval-augmented generation: A comprehensive overview. Applied Sciences, [S.l.], v. 14, n. 9103, 2024. DOI: 10.3390/app14199103.

JAIMOVITCH-LÓPEZ, G. et al. Can language models automate data wrangling? Machine Learning, [S.l.], v. 112, p. 2053-2082, 2022. DOI: 10.1007/s10994-022-06259-9.

JEONG, Y. et al. Advancing tinnitus therapeutics: GPT-2 driven clustering analysis of cognitive behavioral therapy sessions and Google T5-based predictive modeling for THI score assessment. IEEE Access, [s.l.], v. 12, p. 52414-52429, 2024. DOI: 10.1109/ACCESS.2024.3383020.

KALLENS, P. C.; KRISTENSEN-MCLACHLAN, R. D.; CHRISTIANSEN, M. H. Large Language Models Demonstrate the Potential of Statistical Learning in Language. Cognitive Science, [S.l.], v. 47, n. 3, 2023. DOI: 10.1111/cogs.13256.

LI, H. et al., A review on enhancing agricultural intelligence with large language models. Artificial Intelligence in Agriculture, [S. l.], v. 15, p. 671-685, 2025. DOI: 10.1016/j.aiia.2025.05.006.

LI, Y. et al. Deep learning and methods based on large language models applied to stellar light curve classification. Intelligent Computing, [s.l.], v. 4, 0110, 2025. DOI: 10.34133/icomputing.0110.

LIU, F. et al. Aggregated knowledge model: Enhancing domain-specific QA with fine-tuned and retrieval-augmented generation models. In: INTERNATIONAL CONFERENCE ON AI-ML SYSTEMS, 4., 2024, Baton Rouge. Proceedings [...]. New York: ACM, 2024. p. 1-7. DOI: 10.1145/3703412.3703434.

LIU, J. et al. Fisher information-based efficient curriculum federated learning with large language models. arXiv:2410.00131v2, 2024. DOI: 10.48550/arXiv.2410.00131.

LIU, X. et al. Military equipment entity extraction based on large language model. Applied Sciences, [s.l.], v. 14, n. 9063, 2024. DOI: 10.3390/app14199063.

LIMA, G. A. B. O. Arquitetura da Informação. In: Miranda, R. C. R. Arquitetura da informação na Câmara dos Deputados. Brasília: Câmara dos Deputados, 2016. Cap. 2, p. 45-63.

LUKICHEV, M. Understanding data quality’s impact on Large Language Models. Medium, 18 jul. 2024. Disponível em: https://medium.com/telmai1/understanding-data-qualitys-impact-on-large-language-models-01e9e54a5017. Acesso em: 30 jul. 2025.

NASCIMENTO SILVA, P. Recuperação de Informação na Ciência da Informação: produção acadêmico-científica brasileira (2012-2021). Transinformação, Campinas, v. 35, p. 1–17, 2023. Disponível em: https://periodicos.puc-campinas.edu.br/transinfo/article/view/7336. Acesso em: 19 fev. 2026.

MACIE, G. C.; NASCIMENTO, N. M.; MADIO, T. C. C. Arquitetura e recuperação da informação: uma abordagem do Sistema Integrado de Gestão Acadêmica (SIGA) da Universidade Eduardo Mondlane. Em Questão, Porto Alegre, v. 30, e-139451, 2024. DOI: 10.1590/1808-5245.30.139451.

MATIAS-PEREIRA, J. Manual de metodologia da pesquisa científica. 4. ed. São Paulo: Atlas, 2019.

MEMDUHOĞLU, A.; FULMAN, N.; ZIPF, A. Enriching building function classification using large language model embeddings of OpenStreetMap Tags. Earth Science Informatics, [S.l.], v. 17, p. 5403-5418, 2024. DOI: 10.1007/s12145-024-01463-8.

MISHRA, M. et al. DataAgent: evaluating large language models’ ability to answer zero-shot, natural language queries. arXiv:2404.00188v1, 2024. DOI: 10.48550/arXiv.2404.00188.

MOHAMMAD, R.; ALKHNBASHI, O. S.; HAMMOUDEH, M. Optimizing large language models for Arabic healthcare communication: a focus on patient-centered NLP applications. Big Data and Cognitive Computing, [S.l.], v. 8, n. 157, 2024. DOI: 10.3390/bdcc8110157.

NOELS, S; DE BLAERE, J; DE BIE, T. A Dutch Financial Large Language Model. In: ACM INTERNATIONAL CONFERENCE ON AI IN FINANCE, 5., 2024, Brooklyn, NY. Proceedings [...]. New York: ACM, 2024. p. 1-9. DOI: 10.1145/3677052.3698628.

PAPAGEORGIOU, G. et al. Enhancing e-government services through state-of-the-art, modular, and reproducible architecture over large language models. Applied Sciences, [S.l.], v. 14, n. 8259, 2024. DOI: 10.3390/app14188259.

PAIS, C. et al. Large language models for preventing medication direction errors in online pharmacies. Nature Medicine, [s.l.], v. 30, n. 6, p. 1574-1582, 2024. DOI: 10.1038/s41591-024-02933-8.

PRAGYAN, K. C. et al. Toward regulatory compliance: a few-shot learning approach to extract processing activities. In: IEEE International Requirements Engineering Conference Workshops, 32., 2024. Proceedings [...]. [S.l.]: IEEE, 2024. p. 241-248. DOI: 10.1109/REW61692.2024.00038.

RANGAN, K.; YIN, Y. A fine-tuning enhanced RAG system with quantized influence measure as AI judge. Scientific Reports, [S. l.], v. 14, n. 27446, 2024. DOI: 10.1038/s41598-024-79110-x.

REDDY, V. et al. DocFinQA: a long-context financial reasoning dataset. arXiv:2401.06915v2, 2024. DOI: 10.48550/arXiv.2401.06915.

REN, Y. et al. WaterGPT: training a large language model to become a hydrology expert. Water, [S.l.], v. 16, n. 3075, 2024. DOI: 10.3390/w16213075.

ROSENFELD, L.; MORVILLE, P.; ARANGO, J. Information Architecture. 4th. ed. Sebastopol: O’Reilly, 2015.

SADICK, A. M.; CHINAZZO, G. What did the occupant say? Fine-tuning and evaluating a large language model for efficient analysis of multi-domain indoor environmental quality feedback. Building and Environment, [S.l.], v. 274, 112735, 2025. DOI: 10.1016/j.buildenv.2025.112735.

SARZAEIM, P.; MAHMOUD, Q. H.; AZIM, A. A Framework for LLM-Assisted Smart Policing System. IEEE Access, [S.l.], v. 12, p. 74915-74929, 2024. DOI: 10.1109/ACCESS.2024.3404862.

SONG, Z. et al. A scientific-article key-insight extraction system based on multi-actor of fine-tuned open-source large language models. Scientific Reports, [s. l.], v. 15, n. 1608, 2025. DOI: 10.1038/s41598-025-85715-7.

STANLEY, J. et al. Large language models deconstruct the clinical intuition behind diagnosing autism. Cell, [S.l.], v. 188, p. 2235-2248, 2025. DOI: 10.1016/j.cell.2025.02.025.

SUNG, C.; LEE, Y.; TSAI, Y. A New Pipeline for Generating Instruction Dataset via RAG and Self Fine-Tuning. In: IEEE ANNUAL COMPUTERS, SOFTWARE, AND APPLICATIONS CONFERENCE, 48., 2024. Proceedings [...]. [S.l.]: IEEE, 2024. DOI: 10.1109/COMPSAC61105.2024.00371.

TANABE, K. et al. Enhancing financial domain adaptation of language models via model augmentation. arXiv:2411.09249v1, 2024. DOI: 10.48550/arXiv.2411.09249.

TANABE, K. et al. JaFIn: Japanese financial instruction dataset. In: IEEE Symposium on Computational Intelligence for Financial Engineering and Economics, 2024. Proceedings [...]. [S.l.]: IEEE, 2024. p. 1-8. DOI: 10.1109/CIFEr62890.2024.10772973.

TAYLOR, N. et al. Model development for bespoke large language models for digital triage assistance in mental health care. Artificial Intelligence in Medicine, [S.l.], v. 157, 102988, 2024. DOI: 10.1016/j.artmed.2024.102988.

TOJIMA, T.; YOSHIDA, M. Zero-shot classification of art with large language models. IEEE Access, [S.l.], v. 13, p. 17426-17435, 2025. DOI: 10.1109/ACCESS.2025.3532995.

TONG, X. et al. LEGF-DST: LLMs-enhanced graph-fusion dual-stream transformer for fine-grained Chinese malicious SMS detection. Computers, Materials & Continua (CMC), [S.l.], v. 82, n. 2, p. 1902-1919, 2025. DOI: 10.32604/cmc.2024.059018.

TORINO, E. et al. A relação entre a arquitetura da informação e experiência do usuário sob a ótica dos pesquisadores da Ciência da Informação brasileira. Biblos: Revista do Instituto de Ciências Humanas e da Informação, Rio Grande, v. 36, n. 1, p. 219-237, 2022. DOI: 10.14295/biblos.v36i1.13769.

VALLE, P. R. D.; FERREIRA, J. L. Análise de conteúdo na perspectiva de Bardin: contribuições e limitações para a pesquisa qualitativa em Educação. Educação em Revista, Belo Horizonte, v. 41, e49377, 2025. DOI: http://dx.doi.org/10.1590/0102-469849377.

WANG, H. et al. DRG-LLaMA: tuning LLaMA model to predict diagnosis-related group for hospitalized patients. npj Digital Medicine, [S.l.], v. 7, n. 16, 2024. DOI: 10.1038/s41746-023-00989-3.

WANG, T. et al. A Multimodal Large Language Model Framework for Intelligent Perception and Decision-Making in Smart Manufacturing. Sensors, Basel, v. 25, n. 3072, 2025. Disponível em: https://www.mdpi.com/1424-8220/25/10/3072. Acesso em: 26 ago. 2025.

WEI, W. R.; HUANG, L.; WANG, J. J. Retrieval-Augmented Generation for LLM Applications: transforming search, recommendation, and AI assistants. Sebastopol, CA: O’Reilly, 2025.

WIEST, I. C. et al. Privacy-preserving large language models for structured medical information retrieval. NPJ Digital Medicine, [S.l.], v. 7, n. 257, 2024. DOI: 10.1038/s41746-024-01233-2.

WU, L. et al. A framework enabling LLMs into regulatory environment for transparency and trustworthiness and its application to drug labeling document. Regulatory Toxicology and Pharmacology, [s l.], v. 149, 105613, 2024. DOI: 10.1016/j.yrtph.2024.105613.

YAN, H.; SHAO, D. Multimodal medical image analysis: integrating LLM and RAG deep learning strategies. Journal of Advances in Information Technology, [S.l.], v. 16, n. 4, p. 568-581, 2025. DOI: 10.12720/jait.16.4.568-581.

YANG, J. et al. RDguru: a conversational intelligent agent for rare diseases. IEEE Journal of Biomedical and Health Informatics, [S.l.], p. 1-12, 2024. DOI: 10.1109/JBHI.2024.3464555.

ZHAO, X. et al. Research on fine-tuning optimization strategies for large language models in tabular data processing. Biomimetics, [S.l.], v. 9, n. 708, 2024. DOI: 10.3390/biomimetics9110708.

ZHANG, K. et al. Batch-ICL: Effective, efficient, and order-agnostic in-context learning. arXiv:2401.06469v3, 2024. DOI: 10.48550/arXiv.2401.06469.

ZHENG, J.; WANG, H.; YAO, J. Building lightweight domain-specific consultation systems via inter-external knowledge fusion contrastive learning. IEEE Access, [S.l.], v. 12, p. 113244-113259, 2024. DOI: 10.1109/ACCESS.2024.3434648.

ZHOU, B.; GEIßLER, D.; LUKOWICZ, P. Misinforming LLMs: vulnerabilities, challenges and opportunities. arXiv:2408.01168v1, Aug. 2024. DOI: 10.48550/arXiv.2408.01168.

ZHOU, S. et al. A user-centered framework for data privacy protection using large language models and attention mechanisms. Applied Sciences, [s.l.], v. 14, n. 6824, 2024. DOI: 10.3390/app14156824.

ZHU, F. et al. TAT-LLM: a specialized language model for discrete reasoning over financial tabular and textual data. In: ACM International Conference on AI in Finance, 5., 2024, Brooklyn. Proceedings [...]. Brooklyn: ACM, 2024. p. 1-9. DOI: 10.1145/3677052.3698685.

ZHU, G. et al. CMLLM: A novel cross-modal large language model for wind power forecasting. Energy Conversion and Management, [S.l.], v. 330, 119673, 2025. DOI: 10.1016/j.enconman.2025.119673.