The use of computational techniques in the Dialectology and Lexicography field

XML and X-Query

Authors

DOI:

https://doi.org/10.5433/2237-4876.2023v26n3p102-114

Keywords:

natural language processing, dialectology, lexicography

Abstract

Esse trabalho tem como objetivo demonstrar e discutir sobre o uso da Extensible Markup Language (XML) e das expressões X-Query como técnicas computacionais utilizadas no tratamento de dados dialetais e lexicográficos permitindo, dessa forma, a execução de tarefas de Processamento de Linguagem Natural (PLN). Trata-se de um recorte da pesquisa de doutoramento que teve como objetivo, mais amplo, desenvolver um protótipo de vocabulário dialetal eletrônico a partir dos dados do Projeto Atlas Linguístico do Brasil (ALiB), referente à rede de pontos do interior da região Norte do país. Desse modo, foi possível recuperar informações específicas do banco de dados em XML para analisar questões de interesse da Dialetologia, a partir da filtragem de dados por meio das variáveis localidade, sexo e idade, bem como selecionar um conjunto de informações em formato lexicográfico para exibi-las no protótipo do vocabulário dialetal. O estudo fundamenta-se na Linguística Computacional, na Dialetologia e na Lexicografia e justifica-se pela necessidade da transformação de dados de origem oral em um formato que permita o PLN, viabilizando a recuperação eletrônica de informações para análises linguísticas, além de fornecer meios de apresentação de dados em formato digital.

Author Biography

Jorge Luiz Nunes dos Santos Junior, Federal University of Mato Grosso do Sul

Doutor em Letras pela Universidade Federal de Mato Grosso do Sul (UMFS) e pós-doutorando na Universidade Federal da Grande Dourados (UFGD/CAPES). E-mail: jorgesantosjunior@gmail.com.

References

BERBER SARDINHA, TONY. Linguística de Corpus. Barueri, SP: Manole, 2004.

BLOOMFIELD, Leonard. Language. New York: Henry Holt, 1933.

CHAMBERS, Jack. y TRUDGILL, Peter. La dialectología. Madrid: Visor Libros, S. L., 1994.

CHOMSKY, Noam. Aspects of the theory of syntax. Cambridge: MA: MIT Press, 1965.

COMITÊ NACIONAL DO PROJETO ALIB. Atlas Lingüístico do Brasil: questionário 2001. Londrina: EDUEL, 2001.

GRÜN, Chistian. BaseX. Versão 8.5.1. Software de computador. Earlangen, Alemanha: BaseX Team, 2016. Disponível em: <https://files.basex.org/releases/8.5.1/>. Acesso em: 14 set. 2023.

O’KEEFFE, Anne; MCCARTHY, Michael. What are corpora and how have they evolved? In:

O’KEEFFE, Anne; MCCARTHY, Michael (Ed.). The Routledge handbook of corpus linguistics.

London/New York: Routledge, 2010. p. 3–10.

ORLANDI, Eni Puccinelli. O que é linguística. 2ª ed. São Paulo: Brasiliense, 2009.

SRINIVASA-DESIKAN, Bhargav. Natural Language Processing and Computational Linguistics: A practical guide to text analysis with Python, Gensim, spaCy, and Keras. Birmingham: Packt, 2018.

TARP, Sven. Connecting the dots: tradition and disruption in Lexicography. [S.l.]: Lexikos, v. 29, 2019, p. 224-249. Disponível em: <http://lexikos.journals.ac.za>. Acesso em: 17 set. 2023.

WALMSLEY, Priscilla. XQuery: Search Across a Variety of XML Data. 2ª ed. Sebastopol/CA: O’Reilly, 2015.

Published

2024-07-03

How to Cite

NUNES DOS SANTOS JUNIOR, Jorge Luiz. The use of computational techniques in the Dialectology and Lexicography field: XML and X-Query. Signum: Estudos da Linguagem, [S. l.], v. 26, n. 3, p. 102–114, 2024. DOI: 10.5433/2237-4876.2023v26n3p102-114. Disponível em: https://ojs.uel.br/revistas/uel/index.php/signum/article/view/48964. Acesso em: 22 jul. 2024.