Classificação de texto curto aplicada à descrição de produto: Avaliação de alguns métodos
DOI:
https://doi.org/10.5433/1679-0375.2022v43n2p189Palavras-chave:
Classificação de texto, Descrição do produto, Texto curto, Regressão logística, Sacola de palavrasResumo
A crescente demanda por classificação de informações baseada em conteúdo na era das mídias sociais e do comércio eletrônico tem levado à necessidade de classificação automatizada de produtos com base nas suas descrições. Este estudo tem como objetivo avaliar várias técnicas para essa tarefa, com ênfase em descrições escritas em português. Uma pipeline é implementada para pré-processar os dados, incluindo conversão para minúsculas, remoção de acentos e separação por espaço de unigramas. Em seguida, o método sacola de palavras é usado para converter o texto em dados numéricos e cinco técnicas de classificação são aplicadas: argmaxtf, argmaxtfnorm, argmaxtfidf proveniente da recuperação de informação e duas técnicas de aprendizado de máquina: regressão logística e máquinas de vetores de suporte. O desempenho de cada técnica é avaliado usando a acurácia via validação cruzada com trinta conjuntos. Os resultados mostram que a regressão logística alcança a maior acurácia média entre as técnicas avaliadas.
Downloads
Referências
AGGARWAL, C. C.; ZHAI, C. A survey of text classification algorithms. In: AGGARWAL, C. C.; ZHAI, C. (ed.). Mining text data. New York: Springer, 2012. p. 163-222. DOI: https://doi.org/10.1007/978-1-4614-3223-4_6. DOI: https://doi.org/10.1007/978-1-4614-3223-4_6
ALSMADI, I.; GAN, K. H. Review of short-text classification. International Journal of Web Information Systems, Bingley, v. 15, n. 2, p. 155-182, 2019. DOI: https://doi.org/10.1108/IJWIS-12-2017-0083. DOI: https://doi.org/10.1108/IJWIS-12-2017-0083
BAEZA-YATES, R.; RIBEIRO-NETO, B. Recuperação de Informação: conceitos e tecnologia das máquinas de busca. 2. ed. Porto Alegre: Bookman Editora, 2013.
BENGIO, Y.; GRANDVALET, Y. No unbiased estimator of the variance of k-fold cross-validation. Advances in Neural Information Processing Systems, San Mateo, v. 16, p. 1-8, 2003.
BHAVANI, A.; KUMAR, B. S. A review of state art of text classification algorithms. In: INTERNATIONAL CONFERENCE ON COMPUTING METHODOLOGIES AND COMMUNICATION, 5., 2021, Erode. Proceedings [...]. [Piscataway]: IEEE, 2021. p. 1484-1490. DOI: https://doi.org/10.1109/ICCMC51019.2021.9418262
DARU, G. H. Classificação produtos varejo CPG PTBR. [ S. l.]: Kaggle, 2022. Available from: https://www.kaggle.com/dsv/4265348https://www.kaggle.com/dsv/4265348. Access in: Dec. 28, 2022
PEDREGOSA, F.; VAROQUAUX, G.; GRAMFORT, A.; MICHEL, V.; THIRION, B.; GRISEL, O.; BLONDEL, M.; PRETTENHOFER, P.; WEISS, R.; DUBOURG, V.; VANDERPLAS, J.; PASSOS, A.; COURNAPEAU, D.; BRUCHER, M.; PERROT, M.; DUCHESNAY, E. Scikitlearn: Machine learning in Python. Journal of Machine Learning Research, Cambridge, v. 12, p. 2825-2830, 2011.
PRANCKEVICIUS, T.; MARCINKEVICIUS, V. Comparison of naive bayes, random forest, decision tree, sup- port vector machines, and logistic regression classifiers for text reviews classification. Baltic Journal of Modern Computing, Latvia, v. 5, n. 2, p. 221, 2017. DOI: https://doi.org/10.22364/bjmc.2017.5.2.05. DOI: https://doi.org/10.22364/bjmc.2017.5.2.05
ROSSUM, G. V.; DRAKE, F. L. Python 3 reference manual. Scotts Valley: CreateSpace, 2009.
SHAH, K.; PATEL, H.; SANGHVI, D.; SHAH, M. A comparative analysis of logistic regression, random forest and KNN models for the text classification. Augmented Human Research, [London], v. 5, n. 1, p. 1-16, 2020. DOI: https://doi.org/10.1007/s41133-020-00032-0. DOI: https://doi.org/10.1007/s41133-020-00032-0
SILVA, R. M.; SANTOS, R. L.; ALMEIDA, T. A.; PARDO, T. A. Towards automatically filtering fake news in portuguese. Expert Systems with Applications, Elmsford, v. 146, p. 113-199, 2020. DOI: https://doi.org/10.1016/j.eswa.2020.113199
SONG, G.; YE, Y.; DU, X.; HUANG, X.; BIE S. Short text classification: a survey. Journal of multimedia, Oulu, v. 9, n. 5, p. 634-643, 2014. DOI: https://doi.org/10.4304/jmm.9.5.635-643. DOI: https://doi.org/10.4304/jmm.9.5.635-643
ZHANG, Y.; JIN, R.; ZHOU, Z.-H. Understanding bag- of-words model: a statistical framework. International Journal of Machine Learning and Cybernetics, Berlin, v. 1, n. 1, p. 43-52, 2010. DOI: https://doi.org/10.1007/s13042-010-0001-0
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2022 Semina: Ciências Exatas e Tecnológicas
Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial 4.0 International License.
Os Direitos Autorais para artigos publicados nesta revista são de direito do autor. Em virtude de aparecerem nesta revista de acesso público, os artigos são de uso gratuito, com atribuições próprias, em aplicações educacionais e não-comerciais. A revista se reserva o direito de efetuar, nos originais, alterações de ordem normativa, ortográfica e gramatical, com vistas a manter o padrão culto da língua e a credibilidade do veículo. Respeitará, no entanto, o estilo de escrever dos autores. Alterações, correções ou sugestões de ordem conceitual serão encaminhadas aos autores, quando necessário. Nesses casos, os artigos, depois de adequados, deverão ser submetidos a nova apreciação. As opiniões emitidas pelos autores dos artigos são de sua exclusiva responsabilidade.
Esta obra está licenciada com uma Licença Creative Commons Atribuição-NãoComercial 4.0 Internacional.