Analysis of the Impact of the Pandemic on Social  Inequalities in Enem 2019 and 2020 using  Machine Learning

Bruno da Silva Macedo; Camila Martins Saporetti

doi:10.5433/1679-0375.2023.v44.48234

Analysis of the Impact of the Pandemic on Social Inequalities in Enem 2019 and 2020 using Machine Learning

Authors

Bruno da Silva Macedo State University of Minas Gerais - UEMG https://orcid.org/0009-0009-4375-8464
Camila Martins Saporetti Polytechnic Institute - UERJ https://orcid.org/0000-0002-8145-7074

DOI:

https://doi.org/10.5433/1679-0375.2023.v44.48234

Keywords:

ENEM, machine learning, pandemic, social inequalities

Abstract

ENEM measures the ability and knowledge of students who are in high school or have already completed it. With the scores obtained in the exam, the student can enroll in SISU, which is one way to enter public universities. During pandemic, the planning of schools, mainly public, was affected so that many students gave up taking the ENEM in 2020. To identify the profile of those enrolled in ENEM and verify which portion was most affected, this research analyze their social inequalities using data from ENEM 2019 and 2020 and machine learning methods. The methodology is based on cluster analysis where K-Means was applied and on performance classification where Random Forest, K-Nearest Neighbors, and MultiLayer Perceptron were used, and Select K-Best was used to select features. The results of the grouping generated two groups, one composed of subscribers with lower financial conditions and another with greater ones. In the classification, the MultiLayer Perceptron obtained an accuracy of 85.18% for 2019 and 83.63% for 2020. The results showed that the proposed methodology was able to identify the differences between the subscribers and classify their performance.

Downloads

Download data is not yet available.

Author Biographies

Bruno da Silva Macedo, State University of Minas Gerais - UEMG

Student, Computer Engineering, UEMG, Divinópolis, Minas Gerais, Brazil.

Camila Martins Saporetti, Polytechnic Institute - UERJ

DSc. Computational Modeling, Dept. Computational Modeling, Polytechnic Institute, State University of Rio de Janeiro, Nova Friburgo, Rio de Janeiro, Brazil

References

Adeodato, P. J. (2016). Data mining solution for assessing Brazilian secondary school quality based on ENEM and census data. In Contecsi International Conference on Information Systems and Technology Management [Conference]. 13th Contecsi, São Paulo, Brazil.

Adeodato, P. J., & Silva, F., R. L. C. (2020). Where to aim? Factors that influence the performance of Brazilian secondary schools. In Anna N. Rafferty, Jacob Whitehill, Violetta Cavalli-Sforza, & Cristobal Romero (Eds.), International Conference on Educational Data Mining (EDM 2020) [Conference]. Proceedings of The 13th International Conference on Educational Data Mining (EDM 2020).

Almeida, D. S. S. (2021). Saúde digital: Predição do risco de reinternação em hospitais universitários federais [Dissertação de Mestrado, Universidade Católica de Brasília]. Biblioteca Digital. https: //bdtd.ucb.br:8443/jspui/bitstream/tede/2838/2/DiegoSouzaSilvaAlmeidaDissertacao2021.pdf

Alves, R. D., Cechinel, C., & Queiroga, E. (2018). Predição do Desempenho de Matemática e Suas Tecnologias do Enem Utilizando Técnicas de Mineração de Dados. In Universidade Federal de São Carlos, Congresso Brasileiro de Informática na Educação [Congresso]. 7º Congresso Brasileiro de Informatica na Educação, São Carlos, Brasil. https://repositorio.ufc.br/bitstream/ riufc/44034/1/2018_eve_rdalves.pdf

Ariovaldo, T. C. d. C., & Nogueira, C. M. M. (2018). Nova forma de acesso ao ensino superior público: um estado do conhecimento sobre o Sistema de Seleção Unificada-SISU. Revista Internacional de Educação Superior, 4(1), 152-174.

Banni, M. R., Oliveira, M. V. d. P., & Bernardini, F. C. (2021). Uma análise experimental usando mineração de dados educacionais sobre os dados do enem para identificação de causas do desempenho dos estudantes. In Sociedade Brasileira de Computação, Anais do II Workshop sobre as Implicações da Computação na Sociedade [Workshop]. 2º Workshop sobre as Implicações da Computação na Sociedade, Porto Alegre, Brasil. https://sol.sbc.org.br/index.php/wics/article/view/ 15964

Breiman, L. (2001). Random forests. Machine learning, 45, 5-32.

Carmo, R. V., Heckler, W. F., & Carvalho, J. V. (2020). Uma Análise do Desempenho dos Estudantes do Rio Grande do Sul no ENEM 2019. Renote, 18(2), 378-387.

Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13(1), 21-27.

Cristo, H. S. (2020). A quem serve o Exame Nacional do Ensino Médio em tempos de pandemia da Covid-19 no Brasil? Revista Espaço Acadêmico, 20(224), 262-273.

Franco, J. J., de Almeida Miranda, F. L., Stiegler, D., Dantas, F. R., Brancher, J. D., & do Carmo Nogueira, T. (2020). Usando Mineração de Dados para Identificar Fatores mais Importantes do Enem dos Últimos 22 Anos. In Sociedade Brasileira de Computação, Anais do XXXI Simpósio Brasileiro de Informática na Educação [Simpósio]. 31º Simpósio Brasileiro de Informática na Educação, Porto Alegre, Brasil.

Gomes, T., Gouveia, R., & Batista, M. C. M. (2017). Dados educacionais abertos: associações em dados dos inscritos do exame nacional do ensino médio. In Sociedade Brasileira de Computação, Anais do XXIII Workshop de Informática na Escola [Workshop]. 23º Workshop de Informática na Escola, Porto Alegre, Brasil. https://sol.sbc.org.br/index.php/wie/article/view/16325

Haykin, S. (2001). Neural networks (2nd ed.). Pearson.

Jain, A. K., & Dubes, R. C. (1988). Algorithms for clustering data. Prentice-Hall.

Lima, M. A., Ferreira, G. G., Oliveira, L. L. C., Diniz, R. F. S., & Ferreira, C. B. (2016). Uso de redes neurais artificiais (RNA) do tipo multilayer perceptrons (MLP) modificado com processamento estatístico em paralelo para estudo do problema de classificação da origem de vinho tinto. Revista Brasileira de Agropecuária Sustentável, 6(2), 58- 65.

Maciel, A., Vinhas, L., & Câmara, G. (2015). Algoritmos de clustering para separação de culturas agrícolas e tipos de uso e cobertura da Terra utilizando dados de sensoriamento remoto. In Anais XVII Simposio Brasileiro de Sensoriamento Remoto (SBSR) [Simpósio]. 17º Simpósio Brasileiro de Sensoriamento Remoto, João Pessoa, Brasil.

Maia, M. M., de Andrade, L. H. F., & Fernandes, S. (2021). K-means na análise de características socioeconômicas de candidatos ao ensino superior. In Universidade Federal Rural do Semi-Árido, Anais do Encontro de Computação do Oeste Potiguar ECOP/UFERSA [Anais]. 2º Encontro de Computação do Oeste Potiguar - Pocket, Pau dos Ferros, Brasil. https://periodicos.ufersa.edu. br/ecop/article/view/11168

Oxford, R. M., & Daniel, L. G. (2001). Basic CrossValidation: Using the" Holdout" Method To Assess the Generalizability of Results. Research in the Schools, 8(1), 83-89. Palma, L. (2018). Agrupamento de dados: k-médias. [Trabalho de Conclusão de Curso, Universidade Federal do Recôncavo da Bahia]. https://www2.ufrb.edu.br/bcet/components/com_chronoforms5/chronoforms/uploads/tcc/20190604200511_2018.2_TCC_Luann_Farias_Palma-_Agrupamento_de_dados_-_K_medias.pdf

Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53-65.

Santos, J. M. C. T. (2011). Exame Nacional do Ensino Médio: entre a regulação da qualidade do Ensino Médio e o vestibular. Educar em Revista, (40), 195-205.

Silva, L. A., Morino, A. H., & Sato, T. M. C. (2014). Prática de mineração de dados no Exame Nacional do Ensino Médio. In Sociedade Brasileira de Computação, Anais dos Workshops do Congresso Brasileiro de Informatica na Educação [Workshops]. 3º Congresso Brasileiro de Informática na Educação, Porto Alegre, Brasil.

Silva, V. A. A., Moreno, L. L. O., Gonçalves, L. B., Soares, S. S. R. F., & Souza, R. R. J. (2020). Identificação de Desigualdades Sociais a partir do desempenho dos alunos do Ensi Médio no ENEM 2019 utilizando Mineração de Dados. In Sociedade Brasileira de Computação, Anais do Simpósio Brasileiro de informática na Educação [Anais]. 31º Simpósio Brasileiro de Informática na Educação, Porto Alegre, Brasil.

Simon, A., & Cazella, S. (2017). Mineração de dados educacionais nos resultados do ENEM de 2015. In Anais dos Workshops do Congresso Brasileiro de Informática na Educação [Workshops]. 6º Congresso Brasileiro de Informática na Educação, Porto Alegre, Brasil.

Sinaga, K. P., & Yang, M.-S. (2020). Unsupervised Kmeans clustering algorithm. IEEE Access, 8, 80716-80727.

Souza, I. A., Barreto, T. B., & Esquerre, K. P. S. O. R. (2019). Modelo de interpretabilidade local pautado em random forest para classificação de usos domésticos de água. Revista do Seminário Internacional de Estatística com R, 4(1), 12.

Stearns, B., Rangel, F., Firmino, F., Rangel, F., & Oliveira, J. (2017). Prevendo desempenho dos candidatos do ENEM através de dados socioeconômicos. In Anais do Concurso de Trabalhos de Iniciação Científica da SBC [Anais]. 36º Concurso de Trabalhos de Iniciação Científica da SBC, Porto Alegre, Brasil. https://sol.sbc.org.br/index.php/ctic/ article/view/3244

Viggiano, E., & Mattos, C. (2013). O desempenho de estudantes no Enem 2010 em diferentes regiões brasileiras. Revista Brasileira de Estudos Pedagógicos, 94, 417-438.

Weber Neto, N., Soares, R. C., Coutinho, L. R., & Teles, A. S. (2022). Análise exploratória de dados para identificar o impacto da pandemia da COVID19 no ENEM dos estados do Ceará, Maranhão e Piauí. In Sociedade Brasileira de Computação, Anais da Escola Regional de Computação do Ceará, Maranhão e Piauí [Anais]. 10º Escola Regional de Computação do Ceará, Maranhão e Piauí, Porto Alegre, Brasil. https://sol.sbc.org.br/ index.php/ercemapi/article/view