Abstract The alienation of natural language technologies adds up to the weakening of minority languages coexisting with majority languages. Especially younger speakers, who function as links in language transmission, tend to migrate to the language favored by these resources. Nheengatu, an endangered Brazilian indigenous language, has a digital support score of just 0.07 on the Digital Language Support (DLS) scale. This is significantly lower than the 0.97 score for Portuguese, to which Nheengatu has been continually losing speakers. The Nheengatu treebank of the Universal Dependencies collection aims to reduce this deficit by feeding the training of a neural parser. Initially released on 11/15/2023 with 196 sentences and 2,146 words, the latest version, as of 05/15/2024, comprises 1,470 sentences and 15,036 words from twenty publications spanning different historical phases of Nheengatu. This makes it the largest treebank for an Amerindian language in the collection. The use of an automatic analyzer facilitated the rapid expansion of the corpus, while human annotators reviewed each annotation to ensure a 100% validation rate, achieving a two-star rating, the highest for Amerindian language treebanks in the Universal Dependencies collection. The ongoing expansion and revision aim to include all public domain texts and achieve state-of-the-art parsing results. speakers transmission resources 007 0 07 0.0 DLS (DLS scale 097 97 0.9 Portuguese parser 11152023 11 15 2023 11/15/202 19 2146 2 146 2,14 version 05152024 05 2024 05/15/2024 1470 1 470 1,47 15036 036 15,03 corpus 100 rate twostar two star rating stateoftheart state art results 00 0. 09 9 1115202 202 11/15/20 214 14 2,1 0515202 05/15/202 147 47 1,4 1503 03 15,0 10 111520 20 11/15/2 21 2, 051520 05/15/20 4 1, 150 15, 11152 11/15/ 05152 05/15/2 1115 11/15 0515 05/15/ 111 11/1 051 05/15 11/ 05/1 05/
Resumo O alheamento das tecnologias da linguagem natural constitui fator adicional de enfraquecimento de línguas minoritárias relativamente às línguas majoritárias com as quais convivem. Sobretudo os falantes mais jovens, elos da transmissão linguística, tendem a migrar para a língua favorecida com esses recursos. O nheengatu é uma língua indígena brasileira em perigo de extinção, com índice de suporte digital de apenas 0,07 na escala Digital Language Support (DLS), significativamente inferior à pontuação de 0,97 do português, para o qual tem perdido continuamente falantes. O treebank do nheengatu da coleção Dependências Universais visa a contribuir para redução dessa deficiência, alimentando o treinamento de um parser neural. O treebank estreou com 196 sentenças e 2.146 palavras na versão de 15/11/2023 dessa coleção. Este artigo trata da versão mais recente do treebank , que, composto de amostras de sentenças extraídas de vinte publicações de diferentes fases históricas do nheengatu, perfazendo 1.470 sentenças e 15.036 palavras, constitui o maior de língua ameríndia da versão de 15/05/2024 da coleção Dependências Universais. A utilização de um analisador automático acelerou o crescimento do corpus . Anotadores humanos, porém, revisaram cada anotação automática, assegurando um índice de validação de 100% do treebank e concorrendo para a classificação de duas estrelas, a mais alta conferida a treebanks de línguas ameríndias da coleção Dependências Universais. A expansão e revisão do corpus continuará, visando a abarcar todos os textos em domínio público e alcançar acurácia de parsing do estado da arte. convivem jovens linguística recursos extinção 007 0 07 0,0 DLS, DLS (DLS) 097 97 0,9 português deficiência neural 19 2146 2 146 2.14 15112023 15 11 2023 15/11/202 que 1470 1 470 1.47 15036 036 15.03 15052024 05 2024 15/05/202 humanos porém automática 100 estrelas continuará arte 00 0, (DLS 09 9 214 14 2.1 1511202 202 15/11/20 147 47 1.4 1503 03 15.0 1505202 15/05/20 10 21 2. 151120 20 15/11/2 4 1. 150 15. 150520 15/05/2 15112 15/11/ 15052 15/05/ 1511 15/11 1505 15/05 151 15/1 15/0 15/