O papel dos vocabulários no acesso e reuso dos Big data
DOI:
https://doi.org/10.5433/1981-8920.2021v26n4p146Palavras-chave:
Big data, Vocabulários, Dados estruturados, Dados não estruturados, Dados abertos interligadosResumo
Objetivo: De forma similar à “explosão informacional” o fenômeno do Big Data vem sendo de forma crescente, objeto da CI/OC. Como descobrir, acessar, processar e reusar a enorme e crescente quantidade de dados que são disponibilizados continuamente na Web por nossa sociedade? Em especial, como tratar os chamados “dados não estruturados”, documentos textuais, que sempre foram o objeto da CI/OC?
Metodologia: Teorias de amplo espectro como Ontologia e Semiótica foram utilizadas para analisar dados como elemento essencial do Big Data, em especial os “dados não estruturados”.
Resultados: A partir da análise de várias definições de dados, um dado é identificado como parte de esquemas lógicos e semióticos já conhecidos, as proposições. Um dado é encontrado juntamente com outros, formando conjuntos de dados. Conjuntos de dados são na verdade conjuntos de proposições. Estas estão presentes no que é conhecido como dados estruturados - tabelas de bancos de dados relacionais ou de planilhas. Documentos textuais também contém conjuntos de proposições. Dados estruturados são comparados com “dados não estruturados”.
Conclusões: Embora no limite, ambos contenham proposições e possam ser equivalentes, enquanto conjuntos, dados estruturados são expressos e percebidos como um todo, conjuntos de dados não estruturados são processuais, expressos sequencialmente o que torna mais difícil a identificação de dados não estruturados em documentos textuais para seu processamento por máquinas.
Downloads
Referências
ARISTÓTELES. Categorias. Lisboa: Instituto Piaget, 2000.
BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The semantic web. Scientific American, may, 2001.
BUNGE, M. Treatise on Basic Philosophy. In: BUNGE, M. Ontology I: The furniture of the World. Dordrecht, Holland, Boston, USA: D Reidel Publishing, 2015.v.3
CAPURRO, R. Angeletics -A Message Theory. In: DIEBNER, H. H.; RAMSAY, D. L. (ed.). Hierarchies of Communication. Karlsruhe: ZKM - Center for Art and Media, 2003.
CHAKRABORTY, G.; PAGOLU, M. Analysis of Unstructured Data: Applications of Text Analytics and Sentiment. SAS GLOBAL FORUM, v.8, 2014,
Washington DC. Conference Paper. SAS: Washington DC, Mar. 2014.
CLARKE, S. G. D. The Information Retrieval Thesaurus. KO KNOWLEDGE ORGANIZATION, v. 46, n. 6, p. 439-459, 2019.
COGNIZANT. Making Sense of Big Data in the Petabyte Age. Cognizant, 20- 20 insights, jun. 2011. Disponível em: https://www.cognizant.com/whitepapers/Making-Sense-of-Big-Data-in-thePetabyte-Age.pdf. Acesso em: 02 abr. 2021.
DATA SCIENCE CENTER EINDHOVEN. Responsible Data Science: Ensuring fairness, accuracy, confidentiality & transparency by design. 2020. Disponível em: https://www.tue.nl/en/research/research-areas/datascience/responsible-data-science/. Acesso em: 02 dez. 2020.
EBERENDU, A. C. Unstructured Data: an overview of the data of Big Data. International Journal of Computer Trends and Technology, v. 38, n. 1, p. 46-50, 2016.
FAIR Compliant Biomedical Metadata Templates. CEDAR, Center for Expanded Annotation and Retrieval, University of Stanford, Department of Medicine, 2019. Disponível em: https://medicine.stanford.edu/2019- report/cedar-to-the-rescue.html. Acesso em: 15 ago. 2021.
FISHER, M.; SHETH, A. Semantic Enterprise Content Management. In: SINGH, M. P. The practical handbook of internet computing. Boca Raton, FL: Chapmann & Hall/CRC, 2004. (Computer and Information Science Series.)
FLORIDI, L. Semantic Conceptions of Information. In: ZALTA, E. N. (ed.). The Stanford Encyclopedia of Philosophy. Palo Alto: Metaphysics Research Lab, 2019. Disponível em: https://plato.stanford.edu/archives/win2019/entries/information-semantic/. Acesso em: 21 dez. 2019.
GUARINO, N. Some ontological principles for designing upper level lexical resources. In: INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, 1., 1998. Granada. Proceedings […]. Granada: ELRA, 1998. Disponível em: https://arxiv.org/pdf/cmp-lg/9809002. Acesso em: 22 maio 2005.
HEY, T.; TREFETHEN, A. The data deluge: An e-science perspective. In: BERMAN, F.; FOX, G. C.; HEY, A. J. G. Grid computing: making the global infrastructure a reality. Wiley: West Sussex, 2003. p. 809-824. Disponível em: https://eprints.soton.ac.uk/257648/1/The_Data_Deluge.pdf. Acesso em: 10 out. 2020.
INMON, W.; LINSTEDT, D. Data Architecture: a primer for the data scientist. Waltham, MA, Elsevier, 2015.
MACIEL, J. Elementos de Teoria Geral dos Sistemas. Petrópolis: Vozes, 1974.
MARCONDES, C. H. Em Busca de uma Semântica do Digital, Ou “As They May Think”. Ponto de Acesso, Salvador, v. 6, n. 2, p. 35-73, 2012.
ORILIA, F.; PAOLETTI, M. P. Properties. In: ZALTA, E. N. The Stanford Encyclopedia of Philosophy. Palo Alto: Metaphysics Research Lab, 2020.Disponível em: https://plato.stanford.edu/archives/win2020/entries/properties/. Acesso em: 9 maio 2020.
PEIRCE, C. S. Collected papers of Charles Sanders Peirce: principles of philosophy. Cambridge: Harvard University Press, 1931. v. 1.
PEIRCE, C. S. On a new list of categories. In: AMERICAN ACADEMY OF ARTS AND SCIENCES, 7., 1868, Cambridge. Proceedings […]. American Academy of Arts and Sciences: Cambridge, 1868. p. 287-298. Disponível em: http://www.bocc.ubi.pt/pag/peirce--charles-list-categories.pdf. Acesso em 28 jul. 2018.
PRASANNA, J. K. L.; SASI KIRAN, K. S. M. Significance of metadata and data modelling of metadata by using mark logic. International Journal of Engineering and Advanced Technology, v. 8, n. 2, p. 76-78, 2018.
RAYWARD, W. B. The Universe of Information: the work of Paul Otlet for Documentation and international organization. Moscou: FID/VINITI, 1975.
RDF Semantics. W3C, 2004. Disponível em: https://www.w3.org/TR/rdf-mt/. Acesso em: 27 ago. 2021
RILEY, J. Understanding metadata: what is metadata and what is it for: a primer. Baltimore: NISO, 2017. Disponível em: https://groups.niso.org/apps/group_public/download.php/17446/Understandin Metadata.pdf. Acesso em: 13 mar. 2021.
ROWLEY, J. The wisdom hierarchy: representations of the DIKW hierarchy. Journal of information science, v. 33, n. 2, p. 163-180, 2007. Disponível em: http://web.dfc.unibo.it/buzzetti/IUcorso2007-08/mdidattici/rowleydikw.pdf. Acesso em: 14 jun. 2013.
SANTAELLA, L. Epistemologia semiótica. Cognitio: Revista de Filosofia, v. 9, n. 1, p. 93-110, 2008. Disponível em: https://revistas.pucsp.br/cognitiofilosofia/article/viewFile/13531/10042. Acesso em: 12 nov. 2020.
SANTAELLA, L. O que é Semiótica. São Paulo: Ed. Brasiliense, 1983. SANTOS, F. E. P.; FARIAS, M. G. G.; FEITOSA, L. T.; CAVATI SOBRINHO, H. Definição de metadados e critérios de indexação para documentário em repositório audiovisual. Revista Brasileira de Biblioteconomia e Documentação, v. 14, n. 3, p. 237-261, 2018. Disponível em: https://rbbd.febab.org.br/rbbd/article/viewFile/1092/1089. Acesso em: 19 nov. 2020.
SANTOS, P. L. V. A. C. SANT’ANA, R. C. G. Dado e granularidade na perspectiva da informação e tecnologia: uma interpretação pela ciência da informação. Ciência da Informação, Brasília, v. 42, n. 2, p. 199-209, maio/ago.2013.
SANT’ANA, R. C. G. Ciclo de vida dos dados: uma perspectiva a partir da Ciência da Informação. Informação & Informação, Londrina, v. 21, n. 2, p. 116-142, maio/ago. 2016.
MACULAN, B. C. M. S. Estudo e aplicação de metodologia para reengenharia de tesauro: remodelagem do THESAGRO. 2015. Tese (Doutorado em Ciência da Informação) – Universidade Federal de Minas gerais, Belo Horizonte, 2015. Disponível em: https://repositorio.ufmg.br/bitstream/1843/BUBD9ZKMUV/1/maculan_tese_arq_final.pdf.pdf. Acesso em: 24 maio 2019.
SOERGEL, D.; LAUSER, B.; LIANG, A.; FISSEHA, F.; KEIZER, J.; KATZ, S. Reengineering thesauri for new applications: the agrovoc example. Journal of digital information, v. 4, p. 1-23, 2004. Disponível em: http://hdl.handle.net/10760/15694. Acesso em: 25 abr. 2016.
ZENG, M. L. Interoperability. In: HJØRLAND, B.; GNOLI, C. (ed.). ISKO Encyclopedia of Knowledge Organization. ISKO, 2019a. Disponível em: http://www.isko.org/cyclo/interoperability. Acesso em: 18 set. 2019.
ZENG, M. L. Semantic enrichment for enhancing LAM data and supporting digital humanities. Review article. El profesional de la información, v. 28, n. 1, 2019b. Disponível em: https://doi.org/10.3145/epi.2019.ene.03. Acesso em: 22 jan. 2019.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
A revista se reserva o direito de efetuar, nos originais, alterações de ordem normativa, ortográfica e gramatical, com vistas a manter o padrão culto da língua e a credibilidade do veículo. Respeitará, no entanto, o estilo de escrever dos autores. Alterações, correções ou sugestões de ordem conceitual serão encaminhadas aos autores, quando necessário.
O conteúdo dos textos e a citação e uso de imagens submetidas são de inteira responsabilidade dos autores.
Em todas as citações posteriores, deverá ser consignada a fonte original de publicação, no caso a Informação & Informação.