Web scraping en datos públicos: método de extracción de datos de gastos públicos de concejales del consejo municipal de Belo Horizonte

Autores/as

DOI:

https://doi.org/10.5433/1981-8920.2021v26n4p319

Palabras clave:

Chatbot, Información abierta, Datos públicos, Inteligencia artificial, Raspado web

Resumen

Objetivo: Demostrar que el método web scraping en el lenguaje de programación python es capaz de extraer y transformar datos de financiamiento parlamentario no estructurados del portal de transparencia del Municipio de Belo Horizonte, en datos abiertos estructurados.
Metodología: Se sustenta en la investigación bibliográfica de datos públicos del Municipio de Belo Horizonte (CMBH), bajo la óptica de datos abiertos en el contexto de LAI, y análisis cualitativo en la extracción de datos vía web scraping.
Resultados: Demuestra la efectividad del método web scraping para extraer datos y transformarlos en datos abiertos estructurados. Esto permite compartir datos, posibilitando la producción de nuevas soluciones para el prototipo Chat Bot Sumé, presentado en este trabajo.
Conclusión: Efectividad del nuevo método de web scraping para la extracción de datos, seguido de manipulación para transformarlos en datos abiertos, así como la presentación del prototipo Chat Bot Sumé.

Biografía del autor/a

Wendel Vilaça de Assis, Fundação Mineira de Educação e Cultura - FUMEC

Maestría en sistemas de información y gestión del conocimiento por la Fundação Mineira de Educação e Cultura - FUMEC

João Victor Boechat Gomide, Fundação Mineira de Educação e Cultura - FUMEC

Doctor en Artes por la Universidade Federal de Minas Gerais -UFMG

Citas

5 STARS OPEN DATA. 5 Stars Open Data. 2012. Disponível em: https://5stardata.info/en/. Acesso em: 15 set. 2020.

ASSIS, W. V. Chat Bot Sumé: web scraping em dados governamentais para consulta de gastos públicos dos vereadores da Câmara Municipal de Belo Horizonte. Dissertação (Mestrado em Sistemas de Informação e Gestão do Conhecimento) – Faculdade de Ciências Empresariais, Universidade Fumec, Belo Horizonte, p. 90. 2021.

BARDIN, L. Análise de conteúdo. São Paulo: Edições 70, 2011. BERNERS-LEE, T. Linked Data. 2009. Disponível em: https://www.w3.org/DesignIssues/LinkedData.html. Acesso em: 18 ago. 2020.

BRASIL. Lei nº 12.527, de 18 de novembro de 2011. Presidência da República. Disponível em: http://www.planalto.gov.br/ccivil_03/_ato2011- 2014/2011/lei/l12527.htm. Acesso em: 05 set. 2020.

CÂMARA MUNICIPAL DE BELO HORIZONTE – CMBH, 2020a. Transparência. Belo Horizonte, 07 jul 2020. Disponível em: https://www.cmbh.mg.gov.br/transparencia-principal. Acesso em: 20 jun 2020.

CÂMARA MUNICIPAL DE BELO HORIZONTE – CMBH, 2020b. Custeio Parlamentar, 2020. Belo Horizonte, 07 jul 2020. Disponível em: https://www.cmbh.mg.gov.br/perguntas-frequentes/vereadores-sal%C3%A1riopresen%C3%A7a-custeio-do-mandato-gabinetes/como-s%C3%A3o-custeadosos. Acesso em: 20 jun2020.

DIOUF, R.; SARR, E. N.; SALL, O.; BIRREGAH, B.; BOUSSO, M.; MBAYE, S. N. Web Scraping: State-of-the-Art and Areas of Application. In: IEEE INTERNATIONAL CONFERENCE ON BIG DATA, 7., Los Angeles, CA, USA, 2019. Proceedings […] Los Angeles: IEEE, 2019. p. 6040-6042, doi: 10.1109/BigData47090.2019.9005594.

EAVES, D. The Three Laws of Open Government Data, 2009. Disponível em: http://eaves.ca/2009/09/30/three-law-of-open-government-data/. Acesso em: 3 dez. 2020.

GIL, A. C. Como elaborar projetos de pesquisa. 4. ed. São Paulo: Atlas, 2007.

HERNÁNDEZ, A.; GÓMEZ VÁZQUEZ, E.; RINCÓN, C. A. B.; GARCÍA, J. M.; MALDONADO, A. C.; IBARRA-OROZCO, R. Metodologías para análisis político utilizando Web Scraping. Research in Computing Science, [S. l.], v. 95, p. 113-121, 2015. DOI: 10.13053/rcs-95-1-9.

LOPES, K. M. G.; ASSUMPÇÃO, R. C. Processos e solução tecnológica para implementação da lei de acesso à informação. In: CONGRESSO CONSAD DE GESTÃO PÚBLICA, 6., Brasília, 2013. Anais [...] Brasília: 2013.

MATTOSINHO, F. J. A. P. Thesis on Mining Product Opinions and Reviews on the Web. Technische Universitat Dresden ,2010.

OPEN GOVERNMENT PARTNERSHIP (OGP). Declaração de governo aberto, 2011. Disponível em: www.opengovpartnership.org/open-governmentdeclaration. Acesso em: 10 set. 2020.

PANDAS. About Pandas. Disponível em: https://pandas.pydata.org/about/. Acesso em: 8 de jun. 2020.

PYTHON SOFTWARE FOUNDATION. What is python? 2001. Disponível em: https://docs.python.org/3/faq/general.html#what-is-python. Acesso em: 18 ago. 2020.

RODRIGUES, J. C.; FONTES, C. Estudo de Caso “Operação Serenata de Amor”: a análise de Big Data no combate à festa dos gastos públicos. In: CONGRESO DE LA ASOCIACIÓN LATINOAMERICANA DE INVESTIGADORES DE LA COMUNICACIÓN, 14., San Pedro, 2018. Anais [...] San Pedro: Universidade da Costa Rica, 2018.Disponível em: https://www.researchgate.net/publication/323585318_Estudo_de_Caso_Operac ao_Serenata_de_Amor_a_analise_de_Big_Data_no_combate_a_festa_dos_ga stos_publicos. Acesso em: 18 out. 2020.

SÁ, M. I. F.; MALIN, A. M. B. Lei de Acesso à Informação: Um Estudo Comparativo com Outros Países. In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 13., Rio de Janeiro, 2012. Anais [...] Rio de Janeiro: Fio Cruz, 2012.

YAZIGI, A. F. Dinero, política y transparencia: el imperativo democrático de combatir la corrupción. INTERNATIONAL ANTI-CORRUPTION CONFERENCE, 9., África do Sul, 1999. Anais […]. África do Sul, 1999. p. 10- 15

Publicado

2021-12-31

Cómo citar

Assis, W. V. de, & Gomide, J. V. B. (2021). Web scraping en datos públicos: método de extracción de datos de gastos públicos de concejales del consejo municipal de Belo Horizonte. Informação & Informação, 26(4), 319–341. https://doi.org/10.5433/1981-8920.2021v26n4p319

Número

Sección

Artigos