Resumo Da tentativa de realizar a cooperação entre a Linguística de Corpus e o Processamento de Língua Natural (PLN), foram alcançados importantes frutos, como a possibilidade de processamento de grandes dados linguísticos e o desenvolvimento de tecnologias que se utilizam de dados da língua. A relação entre essas duas áreas e os Estudos Literários, no entanto, tem sido pouco explorada, o que abre espaços para o presente trabalho, que tem por objetivo fazer uma análise exploratória da construção dos poemas atribuídos a anagramáticos de João Guimarães Rosa, em Ave, Palavra, obra de 1970. Para isso, foram utilizadas, em conjunto, abordagens da Linguística de Corpus e do PLN, associadas aos trabalhos de Rossi (2007), Brito (2012) e Vital (2021), acerca da obra rosiana. Com o processamento computacional do corpus, pudemos extrair: a) o número de palavras; b) a razão type-token; c) o número de estrofes e de versos e d) as palavras mais frequentes para cada um dos anagramáticos. Os dados foram dispostos em gráficos e nuvens de palavras (wordclouds). Desses resultados, foi observado que existem, de fato, diferenças quantitativas e qualitativas presentes no nível poético, reafirmando, por meio de observações das epígrafes de cada anagramático, a complexidade envolvida na criação da metapoeticidade de suas máscaras.
Abstract From the attempt to realize the cooperation between Corpus Linguistics and the Natural Language Processing (NLP), were created important products, as the possibility of proccess lots of linguistic’s data and the development of technologies that use language. The relationship between those areas and the Literary Studies, however, has been less studied, opening spaces for this work, which has the objective of doing an exploratory analysis of the poems assigned to the anagrammatics of João Guimarães Rosa, in Ave, Palavra, from 1970. For this, approaches of Corpus Linguistics and NLP were used together, associated with the works of Rossi (2007), Brito (2012) and Vital (2021), about the rosian oeuvre. Using computational processing, we extracted the following data from the corpus: a) the number of words; b) type-token ratio; c) the number of stanzas; d) the most frequent words for each anagrammatics. The data were put in form of graphics and wordclouds. From the results, we observed that there are quantitative and qualitative diferences for each poet, reinforcing, through observations of the epigraphs of each author, the complexity evolved on metapoeticity of the anagrammatic’s masks.