RESUMO Objetivo Apresentar o processo de elaboração de um banco de palavras adequadas ao nível de proficiência de leitura de escolares do Ensino Fundamental I. Método Selecionaram-se palavras de livros didáticos de Língua Portuguesa da rede pública de ensino de São Paulo, Paraná, Rio de Janeiro e Minas Gerais. Optou-se pelos substantivos e adjetivos. Excluíram-se as palavras homófonas, escritas em outros idiomas, com grafia errada, compostas por justaposição, abreviações, advérbios, locuções adverbiais, locuções prepositivas, meses do ano, numerais, palavras no aumentativo ou diminutivo, nomes próprios e gírias. As palavras foram categorizadas segundo frequência de ocorrência nos livros. Para tanto, foram utilizados os tercis da distribuição, a frequência média e o ponto de corte dos tercis. Para detectar possíveis falhas na seleção das palavras, foram selecionados 50 escolares do 1º ao 5º ano (10 por ano escolar) para leitura individual, com duração de 20 minutos, do banco de palavras. Resultados Foram digitadas 286.290 palavras. Após análise dos critérios de inclusão/exclusão e categorização por frequência de ocorrência, o banco ficou constituído por 4.195 palavras. Após leitura pelos escolares, foram excluídas palavras que contemplavam os critérios de exclusão e que geravam desconforto por parte dos alunos. O banco ficou constituído por 4190 palavras, divididas em frequência: baixa (n= 3735, 88,59%), média (n= 374, 8,93%) e alta (n= 81, 1,93%), denominado E-LEITURA I. Conclusão a elaboração de um banco de palavras de baixa, média e alta frequência de ocorrência para servir de estímulo linguístico foi adequadamente alcançado e disponibilizado para a prática clínica e pedagógica.
ABSTRACT Purpose To present the process of elaborating a words database appropriate for the reading proficiency level of elementary school students. Methods Words from Portuguese language textbooks used in the public school system of São Paulo, Paraná, Rio de Janeiro and Minas Gerais states of Brazil were selected. We opted for those belonging to the class of nouns and adjectives. Were excluded: homophones; other languages; abbreviations; adverbs; adverbial phrases; prepositional phrases; months of the year; numerals; diminutive or augmentative forms; proper names; misspellings; slang; and words composed by juxtaposition. The words were then categorized according to frequency of occurrence in the textbooks. For this purpose, the tertiles of the distribution, the mean frequency and cutoff point of the tertiles were used. To detect possible mistakes in the words selection, 50 students from the 1st to 5th year, 10 per school year, were selected for individual reading from the database for 20 minutes. Results A total of 286,290 words were typed. After analyzing the inclusion/exclusion criteria and categorizing by frequency of occurrence, the database amounted to 4,195 words. Following the students reading, the E-READING I comprised 4,190 words classified according to frequency: low (n = 3735), medium (n = 374) and high (n = 81). Conclusion The development of a low, medium and high frequency words database, to serve as a linguistic stimulus, was achieved and made available for clinical and pedagogical practice.