BERTugues: Um Modelo Transformer BERT Inovador Pré-treinado para o Português Brasileiro

BERTugues: Um Modelo Transformer BERT Inovador Pré-treinado para o Português Brasileiro

Autores

DOI:

https://doi.org/10.5433/1679-0375.2024.v45.50630

Palavras-chave:

modelos de linguagem de grande porte, LLMs, BERT, PNL, modelos fundamentais

Resumo

Grandes modelos de texto, ou LLMs, geralmente são treinados para o inglês ou versões multilíngues, cuja performance em inglês é superior. Isto ocorre, pois no treinamento das versões multilíngues, apenas uma quantidade relativamente pequena de dados de cada idioma é adicionada. Desta forma, mesmo que funcionem com o português, a eficiência é prejudicada. O primeiro modelo BERT (Bidirectional Encoder Representations from Transformers) treinado especialmente para o português brasileiro foi o BERTimbau em 2020, que elevou a performance em diversas tarefas de texto. Com o BERTugues, seguimos a abordagem de treinamento do BERT/Bertimbau e realizamos algumas melhorias. As alterações foram a remoção de caracteres poucos utilizados no português do tokenizador, como caracteres orientais, ganhando mais de 7.000 tokens, diminuindo o tamanho médio da representação de frases, de 3,8 palavras com mais de um token para 3,0, o que está relacionado ao desempenho dos embeddings, melhorando métricas relevantes para problemas de classificação. Duas melhorias adicionais envolveram a inclusão de emojis como tokens, o que é essencial para capturar as nuances das conversas, e a filtragem de textos de baixa qualidade dentro do conjunto de treinamento. Essas mudanças melhoraram o desempenho em várias tarefas, com uma média de F1 de 64,8 % no BERTimbau para 67,9 %.

Downloads

Não há dados estatísticos.

Biografia do Autor

Ricardo Mazza Zago, Universidade Estadual de Campinas (UNICAMP)

Faculdade de Engenharia Elétrica e de Computação da Universidade Estadual de Campinas (UNICAMP), Campinas, SP, Brasil

Luciane Agnoletti dos Santos Pedotti, Universidade Tecnológica Federal do Paraná (UTFPR)

Prof. Dra., Departamento Acadêmico de Eletrônica, Universidade Tecnológica Federal do Paraná, Curitiba, PR, Brasil

Referências

Beautiful Soup Documentation. (2023). Beautiful Soup Documentation. https://www.crummy.com/software/BeautifulSoup/bs4/doc/#module-bs4

de Souza, F. C. (2020). BERTimbau: Modelos BERT pré-treinados para português brasileiro [Master’s Thesis, Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação]. Repositório. https://repositorio.unicamp.br/Busca/Download?codigoArquivo=466423&tipoMidia=0

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. ArXiv preprint arXiv:1810.04805. https://arxiv.org/abs/1810.04805

Fred, L. (2019). IMDB PT-BR. https://www.kaggle.com/datasets/luisfredgs/imdb-ptbr

IMDb. (2024). IMDb Service. https://www.imdb.com/pt/

Lhoest, Q., Villanova del Moral, A., Jernite, Y., Thakur, A., von Platen, P., Patil, S., Chaumond, J., Drame, M., Plu, J., Tunstall, L., Davison, J., Šaško, M., Chhablani, G., Malik, B., Brandeis, S., Le Scao, T., Sanh, V., Xu, C., Patry, N., … Wolf, T. (2021). Datasets: Uma biblioteca comunitária para processamento de linguagem natural. In H. Adel & S. Shi (Eds.), Anais da conferência de 2021 sobre métodos empíricos em processamento de linguagem natural: Demonstrações de sistemas (pp. 175–184). Associação para Linguística Computacional.

Llama Team. (2024). The Llama 3 Herd of Models. ArXiv, 3, 1–92.

Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. Arxiv, 3, 1–12.

OpenAI. (2023). GPT-4 Technical Report.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., & Duchesnay, E. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12, 2825–2830. https://www.jmlr.org/papers/volume12/pedregosa11a/pedregosa11a.pdf

Pires, R., Abonizio, H., Almeida, T. S., & Nogueira, R. (2023). Sabiá: Portuguese Large Language Models. In Sociedade Brasileira de Computação, Anais da Brazilian Conference on Intelligent Systems [Anais]. 13º Brazilian Conference on Intelligent Systems, Porto Alegre, Brasil.

Rae, J. W., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., Song, F., Aslanides, J., Henderson, S., Ring, R., Young, S., Rutherford, E., Hennigan, T., Menick, J., Cassirer, A., Powell, R., Driessche, G. v. d., Hendricks, L. A., Rauh, M., Huang, P. - S., … Irving, G. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. Arxiv, 2, 1–120.

Real, L., Fonseca, E., & Oliveira, H. G. (2020). The ASSIN 2 Shared Task: A Quick Overview. In P. Quaresma, R. Vieira, S. Aluísio, H. Moniz, F. Batista, & T. Gonçalves (Eds.), Computational Processing of the Portuguese Language (pp. 406–412). Springer International Publishing.

Ribeiro, E., Mamede, N., & Baptista, J. (2024, March). Automatic Text Readability Assessment in European Portuguese. In P. Gamallo, D. Claro, A. Teixeira, L. Real, M. Garcia, H. G. Oliveira, & R. Amaro (Eds.), Proceedings of the 16th International Conference on Computational Processing of Portuguese (pp. 97–107). Association for Computational Linguistics.

Silveira, R., Ponte, C., Almeida, V., Pinheiro, V., & Furtado, V. (2023). LegalBert-pt: Um modelo de linguagem pré-treinado para o domínio jurídico do português brasileiro. In M. C. Naldi & R. A. C. Bianchi (Eds.), Intelligent Systems. BRACIS 2023. Lecture Notes in Computer Science (Vol. 14197). Springer, Cham.

Souza, F. C., Nogueira, R. F., & Lotufo, R. A. (2020). BERTimbau: Pretrained BERT Models for Brazilian Portuguese. In R. Cerri, & R. C. Prati (Eds.), Intelligent Systems (pp. 403–417). Springer, Cham.

Souza, F. C., Nogueira, R. F., & Lotufo, R. A. (2023). BERT Models for Brazilian Portuguese: Pretraining, Evaluation and Tokenization Analysis. Applied Soft Computing, 149, 110901.

Speer, R. (2019). ftfy: Fixes Text for You, Version 5.5.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention Is All You Need. Arxiv, 5, 1–15.

Viegas, C. F. O. (2022). JurisBERT: Transformer-Based Model for Embedding Legal Texts [Master’s Thesis, Universidade Federal de Mato Grosso do Sul]. Repositório.

Viegas, C. F. O., & Alfaneo. (2023). Brazilian-Legal-Text-Benchmark. https://github.com/alfaneo-ai/brazilian-legal-text-benchmark

Wagner, J. A., Filho, Wilkens, R., Idiart, M., & Villavicencio, A. (2018). O Corpus brWaC: Um novo recurso aberto para o Português Brasileiro. In N. Calzolari, K. Choukri, C. Cieri, T. Declerck, S. Goggi, K. Hasida, H. Isahara, B. Maegaard, J. Mariani, H. Mazo, A. Moreno, J. Odijk, S. Piperidis, & T. Tokunaga (Eds.), Anais da décima primeira conferência internacional sobre recursos linguísticos e avaliação (LREC 2018). Associação Europeia de Recursos Linguísticos (ELRA). https://aclanthology.org/L18-1686

Wikimedia Downloads. (2024). https://dumps.wikimedia.org/backup-index.html

Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., Cistac, P., Rault, T., Louf, R., Funtowicz, M., Davison, J., Shleifer, S., von Platen, P., Ma, C., Jernite, Y., Plu, J., Xu, C., Le Scao, T., Gugger, S., … Rush, A. (2020). Transformers: State-of-the-art natural language processing. In Q. Liu, & D. Schlangen (Eds.), Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (pp. 38–45).

Zago, R. (2023). BERTugues-base-portuguese-cased. https://huggingface.co/ricardoz/BERTugues-base-portuguese-cased

Zucker, A. (2024). Huggingface tokenizers. https://github.com/huggingface/tokenizers

Publicado

2024-12-20

Como Citar

Mazza Zago, R., & Agnoletti dos Santos Pedotti, L. (2024). BERTugues: Um Modelo Transformer BERT Inovador Pré-treinado para o Português Brasileiro. Semina: Ciências Exatas E Tecnológicas, 45, e50630. https://doi.org/10.5433/1679-0375.2024.v45.50630

Edição

Seção

Engenharias

Artigos Semelhantes

Você também pode iniciar uma pesquisa avançada por similaridade para este artigo.

Loading...