Pesquisa | SciELO

RESUMO O presente estudo tem como objetivo descrever os desafios e soluções encontrados na compilação do Corpus de Português Escrito em Periódicos - CoPEP, que contém aproximadamente 40 milhões de palavras, é equilibrado entre as variedades português brasileiro e português europeu em número de palavras e cobre seis grandes áreas de conhecimento. Primeiramente, apresentaremos o contexto de criação do CoPEP, qual seja, a elaboração de um dicionário on-line de português para universitários, para o qual serviu como fonte primária de obtenção de evidências linguísticas. Assim, foram as características desse projeto lexicográfico que informaram os critérios de criação do desenho do CoPEP e as consequentes tomadas de decisão. A seguir, descreveremos a metodologia de aquisição de dados, com foco especial nos desafios enfrentados e nas soluções encontradas. Terminaremos com a descrição da fase final de compilação, na qual aplicamos uma série de procedimentos para obtenção de equilíbrio.

ABSTRACT The present study aims to describe the challenges faced and solutions found in the compilation of the Corpus de Português Escrito em Periódicos - CoPEP, which contains approximately 40 million words, is balanced between the Brazilian Portuguese and European Portuguese varieties in number of words and covers six large areas of knowledge. Firstly, we will present the context of the creation of CoPEP, namely, the make of an on-line dictionary of Portuguese for university students, to which CoPEP served as the primary source for linguistic evidence extraction. Thus, it was the characteristics of this lexicographic project that informed the design criteria for CoPEP and the consequent decision-making process. Next, we will describe the methodology of data acquisition, with a special focus on the challenges that were faced, and the solutions found. We will conclude with the description of the final compilation phase, which involved procedures for obtaining balance.

Cód. do Índice	Elemento
ti	título do artigo
au	autor
kw	palavras-chave do artigo
subject	assunto (palavras do título, resumo e palavras-chave)
ab	resumo
ta	título abreviado da revista (ex. Cad. Saúde Pública)
journal_title	título completo da revista (ex. Cadernos de Saúde Pública)
la	código do idioma da publicação (ex. pt - Português, es - Espanhol)
type	tipo do documento
pid	identificador da publicação
publication_year	ano de publicação do artigo
sponsor	financiador
aff_country	código do país de afiliação do autor
aff_institution	instituição de afiliação do autor
volume	volume do artigo
issue	número do artigo
elocation	elocation
doi	número DOI
issn	ISSN da revista
in	código da coleção SciELO (ex. scl - Brasil, col - Colômbia)
use_license	código da licença de uso do artigo

Não foram encontrados documentos para sua pesquisa