The use of computational techniques in the Dialectology and Lexicography field
XML and X-Query
natural language processing, dialectology, lexicographyAbstract
Esse trabalho tem como objetivo demonstrar e discutir sobre o uso da Extensible Markup Language (XML) e das expressões X-Query como técnicas computacionais utilizadas no tratamento de dados dialetais e lexicográficos permitindo, dessa forma, a execução de tarefas de Processamento de Linguagem Natural (PLN). Trata-se de um recorte da pesquisa de doutoramento que teve como objetivo, mais amplo, desenvolver um protótipo de vocabulário dialetal eletrônico a partir dos dados do Projeto Atlas Linguístico do Brasil (ALiB), referente à rede de pontos do interior da região Norte do país. Desse modo, foi possível recuperar informações específicas do banco de dados em XML para analisar questões de interesse da Dialetologia, a partir da filtragem de dados por meio das variáveis localidade, sexo e idade, bem como selecionar um conjunto de informações em formato lexicográfico para exibi-las no protótipo do vocabulário dialetal. O estudo fundamenta-se na Linguística Computacional, na Dialetologia e na Lexicografia e justifica-se pela necessidade da transformação de dados de origem oral em um formato que permita o PLN, viabilizando a recuperação eletrônica de informações para análises linguísticas, além de fornecer meios de apresentação de dados em formato digital.
BERBER SARDINHA, TONY. Linguística de Corpus. Barueri, SP: Manole, 2004.
BLOOMFIELD, Leonard. Language. New York: Henry Holt, 1933.
CHAMBERS, Jack. y TRUDGILL, Peter. La dialectología. Madrid: Visor Libros, S. L., 1994.
CHOMSKY, Noam. Aspects of the theory of syntax. Cambridge: MA: MIT Press, 1965. DOI:
COMITÊ NACIONAL DO PROJETO ALIB. Atlas Lingüístico do Brasil: questionário 2001. Londrina: EDUEL, 2001.
GRÜN, Chistian. BaseX. Versão 8.5.1. Software de computador. Earlangen, Alemanha: BaseX Team, 2016. Disponível em: <>. Acesso em: 14 set. 2023.
O’KEEFFE, Anne; MCCARTHY, Michael. What are corpora and how have they evolved? In:
O’KEEFFE, Anne; MCCARTHY, Michael (Ed.). The Routledge handbook of corpus linguistics.
London/New York: Routledge, 2010. p. 3–10.
ORLANDI, Eni Puccinelli. O que é linguística. 2ª ed. São Paulo: Brasiliense, 2009.
SRINIVASA-DESIKAN, Bhargav. Natural Language Processing and Computational Linguistics: A practical guide to text analysis with Python, Gensim, spaCy, and Keras. Birmingham: Packt, 2018.
TARP, Sven. Connecting the dots: tradition and disruption in Lexicography. [S.l.]: Lexikos, v. 29, 2019, p. 224-249. Disponível em: <>. Acesso em: 17 set. 2023. DOI:
WALMSLEY, Priscilla. XQuery: Search Across a Variety of XML Data. 2ª ed. Sebastopol/CA: O’Reilly, 2015.
How to Cite
Copyright (c) 2024 Jorge Luiz
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
This journal reserves the right to make, in the originals, normative, orthographic and grammatical modifications in order to maintain the standard language and the credibility of the publication. It will respect, however, the authors’ style of writing. Modifications, corrections and suggestions of conceptual order will be forwarded to the authors, if necessary. In these cases, the papers, once appropriate, should be submitted to a new appreciation. The final examinations will not be forwarded to the authors. Works published become property of Signum, being its total or partial reprint subject to an explicit authorization of the journal. In all subsequent quotes the original source of publication should be mentioned, in case, in Photographic Discourse. Opinions emitted by the authors are their exclusive responsibility.