O papel dos vocabulários no acesso e reuso dos Big data

Autores

DOI:

https://doi.org/10.5433/1981-8920.2021v26n4p146

Palavras-chave:

Big data, Vocabulários, Dados estruturados, Dados não estruturados, Dados abertos interligados

Resumo

Objetivo: De forma similar à “explosão informacional” o fenômeno do Big Data vem sendo de forma crescente, objeto da CI/OC. Como descobrir, acessar, processar e reusar a enorme e crescente quantidade de dados que são disponibilizados continuamente na Web por nossa sociedade? Em especial, como tratar os chamados “dados não estruturados”, documentos textuais, que sempre foram o objeto da CI/OC?
Metodologia: Teorias de amplo espectro como Ontologia e Semiótica foram utilizadas para analisar dados como elemento essencial do Big Data, em especial os “dados não estruturados”.
Resultados: A partir da análise de várias definições de dados, um dado é identificado como parte de esquemas lógicos e semióticos já conhecidos, as proposições. Um dado é encontrado juntamente com outros, formando conjuntos de dados. Conjuntos de dados são na verdade conjuntos de proposições. Estas estão presentes no que é conhecido como dados estruturados - tabelas de bancos de dados relacionais ou de planilhas. Documentos textuais também contém conjuntos de proposições. Dados estruturados são comparados com “dados não estruturados”.
Conclusões: Embora no limite, ambos contenham proposições e possam ser equivalentes, enquanto conjuntos, dados estruturados são expressos e percebidos como um todo, conjuntos de dados não estruturados são processuais, expressos sequencialmente o que torna mais difícil a identificação de dados não estruturados em documentos textuais para seu processamento por máquinas.

Downloads

Não há dados estatísticos.

Métricas

Carregando Métricas ...

Biografia do Autor

Carlos Henrique Marcondes, Universidade Federal Fluminense - UFF

Doutorado em Ciência da Informação pela Universidade Federal do Rio de Janeiro - UFRJ

Mauricio Augusto Cabral Ramos Junior, Universidade Federal Fluminense - UFF

Doutorando em Ciência da Informação pela Universidade Federal Fluminense - UFF

Sergio de Castro Martins, Universidade Federal do Rio de Janeiro - UFRJ

Doutor em Ciência da Informação pela Universidade Federal Fluminense - UFF

Referências

ANDRADE, M. C.; GONÇALEZ, P. R. V. A.; BERTI JUNIOR, D. W; BAPTISTA, A. A.; CONEGLIAN, C. S. Responsible data science: Impartiality, accuracy, confidentiality and transparency of data. Informação & Informação, Londrina, v. 25, n. 2, p. 26-48, 2020.

ARISTÓTELES. Categorias. Lisboa: Instituto Piaget, 2000.

BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The semantic web. Scientific American, may, 2001.

BUNGE, M. Treatise on Basic Philosophy. In: BUNGE, M. Ontology I: The furniture of the World. Dordrecht, Holland, Boston, USA: D Reidel Publishing, 2015.v.3

CAPURRO, R. Angeletics -A Message Theory. In: DIEBNER, H. H.; RAMSAY, D. L. (ed.). Hierarchies of Communication. Karlsruhe: ZKM - Center for Art and Media, 2003.

CHAKRABORTY, G.; PAGOLU, M. Analysis of Unstructured Data: Applications of Text Analytics and Sentiment. SAS GLOBAL FORUM, v.8, 2014,

Washington DC. Conference Paper. SAS: Washington DC, Mar. 2014.

CLARKE, S. G. D. The Information Retrieval Thesaurus. KO KNOWLEDGE ORGANIZATION, v. 46, n. 6, p. 439-459, 2019.

COGNIZANT. Making Sense of Big Data in the Petabyte Age. Cognizant, 20- 20 insights, jun. 2011. Disponível em: https://www.cognizant.com/whitepapers/Making-Sense-of-Big-Data-in-thePetabyte-Age.pdf. Acesso em: 02 abr. 2021.

DATA SCIENCE CENTER EINDHOVEN. Responsible Data Science: Ensuring fairness, accuracy, confidentiality & transparency by design. 2020. Disponível em: https://www.tue.nl/en/research/research-areas/datascience/responsible-data-science/. Acesso em: 02 dez. 2020.

EBERENDU, A. C. Unstructured Data: an overview of the data of Big Data. International Journal of Computer Trends and Technology, v. 38, n. 1, p. 46-50, 2016.

FAIR Compliant Biomedical Metadata Templates. CEDAR, Center for Expanded Annotation and Retrieval, University of Stanford, Department of Medicine, 2019. Disponível em: https://medicine.stanford.edu/2019- report/cedar-to-the-rescue.html. Acesso em: 15 ago. 2021.

FISHER, M.; SHETH, A. Semantic Enterprise Content Management. In: SINGH, M. P. The practical handbook of internet computing. Boca Raton, FL: Chapmann & Hall/CRC, 2004. (Computer and Information Science Series.)

FLORIDI, L. Semantic Conceptions of Information. In: ZALTA, E. N. (ed.). The Stanford Encyclopedia of Philosophy. Palo Alto: Metaphysics Research Lab, 2019. Disponível em: https://plato.stanford.edu/archives/win2019/entries/information-semantic/. Acesso em: 21 dez. 2019.

GUARINO, N. Some ontological principles for designing upper level lexical resources. In: INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, 1., 1998. Granada. Proceedings […]. Granada: ELRA, 1998. Disponível em: https://arxiv.org/pdf/cmp-lg/9809002. Acesso em: 22 maio 2005.

HEY, T.; TREFETHEN, A. The data deluge: An e-science perspective. In: BERMAN, F.; FOX, G. C.; HEY, A. J. G. Grid computing: making the global infrastructure a reality. Wiley: West Sussex, 2003. p. 809-824. Disponível em: https://eprints.soton.ac.uk/257648/1/The_Data_Deluge.pdf. Acesso em: 10 out. 2020.

INMON, W.; LINSTEDT, D. Data Architecture: a primer for the data scientist. Waltham, MA, Elsevier, 2015.

MACIEL, J. Elementos de Teoria Geral dos Sistemas. Petrópolis: Vozes, 1974.

MARCONDES, C. H. Em Busca de uma Semântica do Digital, Ou “As They May Think”. Ponto de Acesso, Salvador, v. 6, n. 2, p. 35-73, 2012.

ORILIA, F.; PAOLETTI, M. P. Properties. In: ZALTA, E. N. The Stanford Encyclopedia of Philosophy. Palo Alto: Metaphysics Research Lab, 2020.Disponível em: https://plato.stanford.edu/archives/win2020/entries/properties/. Acesso em: 9 maio 2020.

PEIRCE, C. S. Collected papers of Charles Sanders Peirce: principles of philosophy. Cambridge: Harvard University Press, 1931. v. 1.

PEIRCE, C. S. On a new list of categories. In: AMERICAN ACADEMY OF ARTS AND SCIENCES, 7., 1868, Cambridge. Proceedings […]. American Academy of Arts and Sciences: Cambridge, 1868. p. 287-298. Disponível em: http://www.bocc.ubi.pt/pag/peirce--charles-list-categories.pdf. Acesso em 28 jul. 2018.

PRASANNA, J. K. L.; SASI KIRAN, K. S. M. Significance of metadata and data modelling of metadata by using mark logic. International Journal of Engineering and Advanced Technology, v. 8, n. 2, p. 76-78, 2018.

RAYWARD, W. B. The Universe of Information: the work of Paul Otlet for Documentation and international organization. Moscou: FID/VINITI, 1975.

RDF Semantics. W3C, 2004. Disponível em: https://www.w3.org/TR/rdf-mt/. Acesso em: 27 ago. 2021

RILEY, J. Understanding metadata: what is metadata and what is it for: a primer. Baltimore: NISO, 2017. Disponível em: https://groups.niso.org/apps/group_public/download.php/17446/Understandin Metadata.pdf. Acesso em: 13 mar. 2021.

ROWLEY, J. The wisdom hierarchy: representations of the DIKW hierarchy. Journal of information science, v. 33, n. 2, p. 163-180, 2007. Disponível em: http://web.dfc.unibo.it/buzzetti/IUcorso2007-08/mdidattici/rowleydikw.pdf. Acesso em: 14 jun. 2013.

SANTAELLA, L. Epistemologia semiótica. Cognitio: Revista de Filosofia, v. 9, n. 1, p. 93-110, 2008. Disponível em: https://revistas.pucsp.br/cognitiofilosofia/article/viewFile/13531/10042. Acesso em: 12 nov. 2020.

SANTAELLA, L. O que é Semiótica. São Paulo: Ed. Brasiliense, 1983. SANTOS, F. E. P.; FARIAS, M. G. G.; FEITOSA, L. T.; CAVATI SOBRINHO, H. Definição de metadados e critérios de indexação para documentário em repositório audiovisual. Revista Brasileira de Biblioteconomia e Documentação, v. 14, n. 3, p. 237-261, 2018. Disponível em: https://rbbd.febab.org.br/rbbd/article/viewFile/1092/1089. Acesso em: 19 nov. 2020.

SANTOS, P. L. V. A. C. SANT’ANA, R. C. G. Dado e granularidade na perspectiva da informação e tecnologia: uma interpretação pela ciência da informação. Ciência da Informação, Brasília, v. 42, n. 2, p. 199-209, maio/ago.2013.

SANT’ANA, R. C. G. Ciclo de vida dos dados: uma perspectiva a partir da Ciência da Informação. Informação & Informação, Londrina, v. 21, n. 2, p. 116-142, maio/ago. 2016.

MACULAN, B. C. M. S. Estudo e aplicação de metodologia para reengenharia de tesauro: remodelagem do THESAGRO. 2015. Tese (Doutorado em Ciência da Informação) – Universidade Federal de Minas gerais, Belo Horizonte, 2015. Disponível em: https://repositorio.ufmg.br/bitstream/1843/BUBD9ZKMUV/1/maculan_tese_arq_final.pdf.pdf. Acesso em: 24 maio 2019.

SOERGEL, D.; LAUSER, B.; LIANG, A.; FISSEHA, F.; KEIZER, J.; KATZ, S. Reengineering thesauri for new applications: the agrovoc example. Journal of digital information, v. 4, p. 1-23, 2004. Disponível em: http://hdl.handle.net/10760/15694. Acesso em: 25 abr. 2016.

ZENG, M. L. Interoperability. In: HJØRLAND, B.; GNOLI, C. (ed.). ISKO Encyclopedia of Knowledge Organization. ISKO, 2019a. Disponível em: http://www.isko.org/cyclo/interoperability. Acesso em: 18 set. 2019.

ZENG, M. L. Semantic enrichment for enhancing LAM data and supporting digital humanities. Review article. El profesional de la información, v. 28, n. 1, 2019b. Disponível em: https://doi.org/10.3145/epi.2019.ene.03. Acesso em: 22 jan. 2019.

Downloads

Publicado

2021-12-31

Como Citar

Marcondes, C. H., Junior, M. A. C. R., & Martins, S. de C. (2021). O papel dos vocabulários no acesso e reuso dos Big data. Informação & Informação, 26(4), 146–174. https://doi.org/10.5433/1981-8920.2021v26n4p146

Edição

Seção

Dossiê Temático