Abstract This article presents a corpus of Chinese learners of Portuguese L2 with PoS and lemma annotations, highlighting its potential for quantitative and qualitative analysis in identifying linguistic patterns among learners, thus contributing to the teaching of Portuguese L2. This corpus (University of Macau Portuguese Learners Corpus), named UMPLC, contains a total of 933 compositions produced by 122 Portuguese students from University of Macau over three consecutive years of study. PoS and lemma annotation was performed using Stanza, an automatic annotator developed by Qi et al. ( 2020 ). To ensure annotation consistency, the results were manually reviewed. In this research, the PoS and lemma information enables us to quantitatively and qualitatively investigate various phenomena in the corpus relating to lexical aspects and diachronic changes in this regard. Two studies were conducted based on a contrastive approach, comparing the Portuguese of learners in the corpus with native Portuguese. Non-native linguistic characteristics were discovered, allowing Portuguese L2 teachers to focus on areas requiring corrective work. L annotations Corpus, Corpus , Corpus) UMPLC 93 12 study Stanza al 202 . ) consistency reviewed research regard approach Nonnative Non discovered work 9 1 20 2
Resumo O presente artigo apresenta um corpus de aprendizes chineses de português L2 com a anotação de PoS e lema, destacando-se sua potencialidade de análise quantitativa e qualitativa na identificação de padrões linguísticos dos aprendizes, contribuindo, dessa forma, para o ensino de português L2. Este corpus (Corpus de Aprendizes de Português da Universidade de Macau), denominado UMPLC, contém, no total, 933 composições produzidas por 122 estudantes de português da Universidade de Macau durante três anos de estudo consecutivos. A anotação de PoS e lema realizou-se através do Stanza, anotador automático desenvolvido por Qi et al. ( 2020 ). A fim de garantir a consistência de anotação, o resultado foi revisado manualmente. Nesta pesquisa, as informações de PoS e lema permitem-nos investigar quantitativa e qualitativamente diversos fenômenos existentes no corpus relativos ao aspeto lexical e à mudança diacrônica desse aspeto. Dois estudos foram realizados com base em uma abordagem contrastiva, comparando-se o português dos aprendizes do corpus com o português nativo. Foram descobertas características de não-natividade linguística desses aprendizes, o que permitirá que os professores de português L2 se concentrem nas áreas em que é necessário um trabalho corretivo. L destacandose destacando contribuindo forma Corpus Macau, , Macau) UMPLC contém total 93 12 consecutivos realizouse realizou Stanza al 202 . ) manualmente pesquisa permitemnos permitem nos contrastiva comparandose comparando nativo nãonatividade não natividade corretivo 9 1 20 2