RESUMO: Quantile Random Forest (QRF) é uma metodologia não paramétrica, que combina as vantagens do Random Forest (RF) e da Regressão Quantílica (QR). Especificamente, essa abordagem pode explorar funções não lineares, determinando a distribuição de probabilidade de uma variável resposta e extraindo informações de diferentes quantis em vez de apenas prever a média. O objetivo deste trabalho foi avaliar o desempenho do QRF em predizer o valor genético genômico para características com arquitetura genética não aditiva (epistasia e dominância). Adicionalmente, as acurácias obtidas foram comparadas com aquelas advindas do G-BLUP. A simulação criou uma população F2 com 1.000 indivíduos genotipados para 4.010 marcadores SNP. Além disso, doze características foram simuladas a partir de um modelo considerando efeitos aditivos e não aditivos, com número de QTL (Quantitative trait loci) variando de oito a 120 e herdabilidade de 0,3, 0,5 ou 0,8. Para treinamento e validação foi usada a abordagem da validação cruzada 5-fold. Para cada um dos folds foram calculadas as acurácias de todos os modelos propostos: QRF em cinco quantis diferentes e três modelos do G-BLUP (com efeito aditivo, aditivo e epistático, aditivo e dominante). Por fim, o desempenho preditivo dessas metodologias foi comparado. Em todos os cenários, as acurácias do QRF foram iguais ou superiores às metodologias avaliadas e mostrou ser uma ferramenta alternativa para predizer valores genéticos em características complexas. RESUMO (QRF paramétrica RF (RF QR. QR . (QR) Especificamente lineares média epistasia dominância. dominância dominância) Adicionalmente GBLUP. GBLUP G BLUP. BLUP F 1000 1 000 1.00 4010 4 010 4.01 SNP disso Quantitative loci 12 03 0 3 0,3 05 5 0, 08 8 0,8 5fold. 5fold fold fold. 5-fold propostos epistático dominante. dominante dominante) fim comparado cenários complexas (QR 100 00 1.0 401 01 4.0 10 1. 40 4.
ABSTRACT: Quantile Random Forest (QRF) is a non-parametric methodology that combines the advantages of Random Forest (RF) and Quantile Regression (QR). Specifically, this approach can explore non-linear functions, determining the probability distribution of a response variable and extracting information from different quantiles instead of just predicting the mean. This evaluated the performance of the QRF in the genomic prediction for complex traits (epistasis and dominance). In addition, compare the accuracies obtained with those derived from the G-BLUP. The simulation created an F2 population with 1,000 individuals and genotyped for 4,010 SNP markers. Besides, twelve traits were simulated from a model considering additive and non-additive effects, QTL (Quantitative trait loci) numbers ranging from eight to 120, and heritability of 0.3, 0.5, or 0.8. For training and validation, the 5-fold cross-validation approach was used. For each fold, the accuracies of all the proposed models were calculated: QRF in five different quantiles and three G-BLUP models (additive effect, additive and epistatic effects, additive and dominant effects). Finally, the predictive performance of these methodologies was compared. In all scenarios, the QRF accuracies were equal to or greater than the methodologies evaluated and proved to be an alternative tool to predict genetic values in complex traits. ABSTRACT (QRF nonparametric non parametric RF (RF QR. QR . (QR) Specifically nonlinear linear functions mean epistasis dominance. dominance dominance) addition GBLUP. GBLUP G BLUP. BLUP F 1000 1 000 1,00 4010 4 010 4,01 markers Besides nonadditive effects Quantitative loci 120 03 0 3 0.3 05 5 0.5 08 8 0.8 validation 5fold fold crossvalidation cross used calculated effect effects. effects) Finally compared scenarios (QR 100 00 1,0 401 01 4,0 12 0. 10 1, 40 4,