BERTugues: Um Modelo Transformer BERT Inovador Pré-treinado para o Português Brasileiro
DOI:
https://doi.org/10.5433/1679-0375.2024.v45.50630Palavras-chave:
modelos de linguagem de grande porte, LLMs, BERT, PNL, modelos fundamentaisResumo
Grandes modelos de texto, ou LLMs, geralmente são treinados para o inglês ou versões multilíngues, cuja performance em inglês é superior. Isto ocorre, pois no treinamento das versões multilíngues, apenas uma quantidade relativamente pequena de dados de cada idioma é adicionada. Desta forma, mesmo que funcionem com o português, a eficiência é prejudicada. O primeiro modelo BERT (Bidirectional Encoder Representations from Transformers) treinado especialmente para o português brasileiro foi o BERTimbau em 2020, que elevou a performance em diversas tarefas de texto. Com o BERTugues, seguimos a abordagem de treinamento do BERT/Bertimbau e realizamos algumas melhorias. As alterações foram a remoção de caracteres poucos utilizados no português do tokenizador, como caracteres orientais, ganhando mais de 7.000 tokens, diminuindo o tamanho médio da representação de frases, de 3,8 palavras com mais de um token para 3,0, o que está relacionado ao desempenho dos embeddings, melhorando métricas relevantes para problemas de classificação. Duas melhorias adicionais envolveram a inclusão de emojis como tokens, o que é essencial para capturar as nuances das conversas, e a filtragem de textos de baixa qualidade dentro do conjunto de treinamento. Essas mudanças melhoraram o desempenho em várias tarefas, com uma média de F1 de 64,8 % no BERTimbau para 67,9 %.
Downloads
Referências
Beautiful Soup Documentation. (2023). Beautiful Soup Documentation. https://www.crummy.com/software/BeautifulSoup/bs4/doc/#module-bs4
de Souza, F. C. (2020). BERTimbau: Modelos BERT pré-treinados para português brasileiro [Master’s Thesis, Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação]. Repositório. https://repositorio.unicamp.br/Busca/Download?codigoArquivo=466423&tipoMidia=0
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. ArXiv preprint arXiv:1810.04805. https://arxiv.org/abs/1810.04805
Fred, L. (2019). IMDB PT-BR. https://www.kaggle.com/datasets/luisfredgs/imdb-ptbr
IMDb. (2024). IMDb Service. https://www.imdb.com/pt/
Lhoest, Q., Villanova del Moral, A., Jernite, Y., Thakur, A., von Platen, P., Patil, S., Chaumond, J., Drame, M., Plu, J., Tunstall, L., Davison, J., Šaško, M., Chhablani, G., Malik, B., Brandeis, S., Le Scao, T., Sanh, V., Xu, C., Patry, N., … Wolf, T. (2021). Datasets: Uma biblioteca comunitária para processamento de linguagem natural. In H. Adel & S. Shi (Eds.), Anais da conferência de 2021 sobre métodos empíricos em processamento de linguagem natural: Demonstrações de sistemas (pp. 175–184). Associação para Linguística Computacional.
Llama Team. (2024). The Llama 3 Herd of Models. ArXiv, 3, 1–92.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. Arxiv, 3, 1–12.
OpenAI. (2023). GPT-4 Technical Report.
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., & Duchesnay, E. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12, 2825–2830. https://www.jmlr.org/papers/volume12/pedregosa11a/pedregosa11a.pdf
Pires, R., Abonizio, H., Almeida, T. S., & Nogueira, R. (2023). Sabiá: Portuguese Large Language Models. In Sociedade Brasileira de Computação, Anais da Brazilian Conference on Intelligent Systems [Anais]. 13º Brazilian Conference on Intelligent Systems, Porto Alegre, Brasil.
Rae, J. W., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., Song, F., Aslanides, J., Henderson, S., Ring, R., Young, S., Rutherford, E., Hennigan, T., Menick, J., Cassirer, A., Powell, R., Driessche, G. v. d., Hendricks, L. A., Rauh, M., Huang, P. - S., … Irving, G. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. Arxiv, 2, 1–120.
Real, L., Fonseca, E., & Oliveira, H. G. (2020). The ASSIN 2 Shared Task: A Quick Overview. In P. Quaresma, R. Vieira, S. Aluísio, H. Moniz, F. Batista, & T. Gonçalves (Eds.), Computational Processing of the Portuguese Language (pp. 406–412). Springer International Publishing.
Ribeiro, E., Mamede, N., & Baptista, J. (2024, March). Automatic Text Readability Assessment in European Portuguese. In P. Gamallo, D. Claro, A. Teixeira, L. Real, M. Garcia, H. G. Oliveira, & R. Amaro (Eds.), Proceedings of the 16th International Conference on Computational Processing of Portuguese (pp. 97–107). Association for Computational Linguistics.
Silveira, R., Ponte, C., Almeida, V., Pinheiro, V., & Furtado, V. (2023). LegalBert-pt: Um modelo de linguagem pré-treinado para o domínio jurídico do português brasileiro. In M. C. Naldi & R. A. C. Bianchi (Eds.), Intelligent Systems. BRACIS 2023. Lecture Notes in Computer Science (Vol. 14197). Springer, Cham.
Souza, F. C., Nogueira, R. F., & Lotufo, R. A. (2020). BERTimbau: Pretrained BERT Models for Brazilian Portuguese. In R. Cerri, & R. C. Prati (Eds.), Intelligent Systems (pp. 403–417). Springer, Cham.
Souza, F. C., Nogueira, R. F., & Lotufo, R. A. (2023). BERT Models for Brazilian Portuguese: Pretraining, Evaluation and Tokenization Analysis. Applied Soft Computing, 149, 110901.
Speer, R. (2019). ftfy: Fixes Text for You, Version 5.5.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention Is All You Need. Arxiv, 5, 1–15.
Viegas, C. F. O. (2022). JurisBERT: Transformer-Based Model for Embedding Legal Texts [Master’s Thesis, Universidade Federal de Mato Grosso do Sul]. Repositório.
Viegas, C. F. O., & Alfaneo. (2023). Brazilian-Legal-Text-Benchmark. https://github.com/alfaneo-ai/brazilian-legal-text-benchmark
Wagner, J. A., Filho, Wilkens, R., Idiart, M., & Villavicencio, A. (2018). O Corpus brWaC: Um novo recurso aberto para o Português Brasileiro. In N. Calzolari, K. Choukri, C. Cieri, T. Declerck, S. Goggi, K. Hasida, H. Isahara, B. Maegaard, J. Mariani, H. Mazo, A. Moreno, J. Odijk, S. Piperidis, & T. Tokunaga (Eds.), Anais da décima primeira conferência internacional sobre recursos linguísticos e avaliação (LREC 2018). Associação Europeia de Recursos Linguísticos (ELRA). https://aclanthology.org/L18-1686
Wikimedia Downloads. (2024). https://dumps.wikimedia.org/backup-index.html
Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., Cistac, P., Rault, T., Louf, R., Funtowicz, M., Davison, J., Shleifer, S., von Platen, P., Ma, C., Jernite, Y., Plu, J., Xu, C., Le Scao, T., Gugger, S., … Rush, A. (2020). Transformers: State-of-the-art natural language processing. In Q. Liu, & D. Schlangen (Eds.), Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (pp. 38–45).
Zago, R. (2023). BERTugues-base-portuguese-cased. https://huggingface.co/ricardoz/BERTugues-base-portuguese-cased
Zucker, A. (2024). Huggingface tokenizers. https://github.com/huggingface/tokenizers
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2024 Ricardo Mazza Zago, Luciane Agnoletti dos Santos Pedotti
Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial 4.0 International License.
Os Direitos Autorais para artigos publicados nesta revista são de direito do autor. Em virtude de aparecerem nesta revista de acesso público, os artigos são de uso gratuito, com atribuições próprias, em aplicações educacionais e não-comerciais. A revista se reserva o direito de efetuar, nos originais, alterações de ordem normativa, ortográfica e gramatical, com vistas a manter o padrão culto da língua e a credibilidade do veículo. Respeitará, no entanto, o estilo de escrever dos autores. Alterações, correções ou sugestões de ordem conceitual serão encaminhadas aos autores, quando necessário. Nesses casos, os artigos, depois de adequados, deverão ser submetidos a nova apreciação. As opiniões emitidas pelos autores dos artigos são de sua exclusiva responsabilidade.
Esta obra está licenciada com uma Licença Creative Commons Atribuição-NãoComercial 4.0 Internacional.