Informações digitais tornam possível um elevado grau de redundância das informações disponíveis para o ajuste de modelos preditores aplicados ao Mapeamento Digital de Solos (MDS). Entre esses modelos, a técnica de Árvores de Decisão (AD) tem aplicação crescente, em razão da sua potência no tratamento de grandes volumes de dados. Objetivou-se com este trabalho avaliar o impacto do volume de dados utilizados para gerar os modelos por AD, na qualidade dos mapas de solos gerados pela técnica de MDS. Uma área de estudo com 889,33 km² foi escolhida na região do Planalto Médio do Rio Grande do Sul. As relações solo-paisagem foram obtidas a partir de reambulação da área de estudo e delineamento das unidades de mapeamento em cartas topográficas de escala 1:50.000. Seis covariáveis preditoras ligadas aos fatores de formação do solo, relevo e organismos, juntamente com os conjuntos de dados de um, três, cinco, 10, 15, 20 e 25 % do volume total de dados, foram usadas para gerar os modelos preditivos por AD no programa WEKA. Neste estudo, densidades de amostragem menores do que 5 % resultaram em modelos com menor poder de capturar a complexidade da distribuição espacial do solo da área estudada. Amostragens entre cinco e 15 % conduziram a uma melhor relação entre o volume de dados a ser manipulado e a capacidade preditiva dos modelos gerados. Dados coletados no campo indicaram acurácia dos mapas preditos próxima a 70 %, para os modelos oriundos dessas densidades de amostragem.
Digital information generates the possibility of a high degree of redundancy in the data available for fitting predictive models used for Digital Soil Mapping (DSM). Among these models, the Decision Tree (DT) technique has been increasingly applied due to its capacity of dealing with large datasets. The purpose of this study was to evaluate the impact of the data volume used to generate the DT models on the quality of soil maps. An area of 889.33 km² was chosen in the Northern region of the State of Rio Grande do Sul. The soil-landscape relationship was obtained from reambulation of the studied area and the alignment of the units in the 1:50,000 scale topographic mapping. Six predictive covariates linked to the factors soil formation, relief and organisms, together with data sets of 1, 3, 5, 10, 15, 20 and 25 % of the total data volume, were used to generate the predictive DT models in the data mining program Waikato Environment for Knowledge Analysis (WEKA). In this study, sample densities below 5 % resulted in models with lower power of capturing the complexity of the spatial distribution of the soil in the study area. The relation between the data volume to be handled and the predictive capacity of the models was best for samples between 5 and 15 %. For the models based on these sample densities, the collected field data indicated an accuracy of predictive mapping close to 70 %.