O mapeamento digital de solos permite prever padrões de ocorrência de solos com base em áreas de referência e no uso de técnicas de mineração de dados para modelar associações solo-paisagem. Os objetivos deste trabalho foram produzir um mapa pedológico digital por meio de técnicas de mineração de dados aplicadas a variáveis geomorfométricas e de geologia, com base em áreas de referência; e testar a confiabilidade desse mapa por meio de validação em campo com diferentes sistemas de amostragem. O mapeamento foi realizado na folha Botucatu (SF-22-Z-B-VI-3), utilizando-se as folhas 1:50.000, Dois Córregos e São Pedro, como áreas de referência. Variáveis descritoras do relevo e de geologia associadas às unidades de mapeamento pedológico das áreas de referência compuseram a matriz de dados de treinamento. A matriz foi analisada pelo algoritmo PART de árvore de decisão, do aplicativo Weka (Waikato Environment for Knowledge Analysis), que cria regras de classificação. Essas regras foram aplicadas aos dados geomorfométricos e geológicos da folha Botucatu, para predição de unidades de mapeamento pedológico. A validação de campo dos mapas digitais deu-se por meio de amostragem por transectos em uma unidade de mapeamento da folha São Pedro e de forma aleatório-estratificada na folha Botucatu. A avaliação da unidade de mapeamento na folha São Pedro verificou confiabilidade, respectivamente, de 83 e 66 %, para os mapas pedológicos digital e tradicional com legenda simplificada. Apesar de terem sido geradas regras para todas as unidades de mapeamento pedológico das áreas de treinamento, nem todas as unidades de mapeamento foram preditas na folha Botucatu, o que resultou das diferenças de relevo e geologia entre as áreas de treinamento e de mapeamento. A validação de campo do mapa digital da folha Botucatu verificou exatidão global de 52 %, compatível com levantamentos em nível de reconhecimento de baixa intensidade, e kappa de 0,41, indicando qualidade Boa. Unidades de mapeamento mais extensas geraram mais regras, resultando melhor reprodução dos padrões solo-relevo na área a ser mapeada. A validação por transectos na folha São Pedro indicou compatibilidade do mapa digital com o nível de reconhecimento de alta intensidade e compatibilidade do mapa tradicional, após simplificação de sua legenda, com o nível de reconhecimento de baixa intensidade. O treinamento do algoritmo em mapas e não em observações pontuais reduziu em 14 % a exatidão do mapa pedológico digital da folha Botucatu. A amostragem aleatório-estratificada pelo hipercubo latino é apropriada a mapeamentos com extensa base de dados, o que permite avaliar o mapa como um todo, tornando os trabalhos de campo mais eficientes. A amostragem em transectos é compatível com a avaliação da pureza de unidades de mapeamento individualmente, não necessitando de base de dados detalhada e permitindo estudos de associações solo-paisagem em pedossequências.
Digital soil mapping allows predicting patterns of soil classes on the basis of well-known reference areas and of data mining techniques to model soil-landscape relationships. The purpose of this study was to (1) generate a digital pedological map using data mining techniques to associate geomorphometric and geology variables with soil classes of traditional soil maps in reference areas and (2) validate these maps by different field techniques. The mapping was carried out using the 1:50.000 Botucatu sheet (SF-22-Z-B-VI-3), and 1:50.000 Dois Córregos and São Pedro sheets (São Paulo, Brazil) as reference areas. Training data - soil mapping units (MU) and topographic and geological variables from the reference areas were analyzed by PART, a decision-tree algorithm found on the Weka (Waikato Environment for Knowledge Analysis) software, producing classification rules, which were applied to the Botucatu sheet. Field validation of the produced digital maps was carried out by transect sampling in the zone of São Pedro and by a stratified-random sampling procedure at Botucatu sheet. Accuracy of the mapping unit at São Pedro was 83 %, for the digital and 66 %, for the traditional soil map with simplified legend. Although analysis generated rules for all MU's of the training areas, not all MU's were predicted on the Botucatu sheet, due to differences in relief and geology between training and mapping areas. Digital soil map of Botucatu had an overall accuracy of 52 %, consistent with reconnaissance soil surveys of low intensity, and a kappa index of 0.41, indicating good quality. Larger mapping units on training areas produced more rules, thus reproducing more accurately soil-landscape pattern of the mapped area Validation at the São Pedro sheet by transect sampling suggested that the digital map is cconsistent to high intensity reconnaissance soil surveys; whereas the traditional map (simplified legend) quality corresponded to that of low-intensity soil surveys. Training of the algorithm on maps, not in field-observed points, reduced accuracy of digital soil map by 14 %. Latin hypercube sampling is adequate for mapping areas with large data bases, allows to evaluate the entire mapped area and imparts efficiency to field work. Transect sampling is adequate to evaluate purity of individual mapping units, requires no detailed data base of predictor variables, and allows studies on soil-landscape relationships in pedosequences.