Abstract The objective of this work was to compare the performances of logistic regression and machine learning algorithms to predict infection caused by Fasciola hepatica in cattle. A dataset on 30,151 bovines from Uruguay was used. Logistic regression (LR) and the algorithms k-nearest neighbor (KNN), classification and regression trees (CART), and random forest (RF) were compared. The interquartile range (IQR) and z-score were used to improve the classification and compared to each another. Sex, age, carcass conformation score, fat score, productive purpose, and carcass weight were used as independent variables for all algorithms. Infection by F. hepática was used as a binary dependent variable. The accuracies of LR, KNN, CART, and RF were 0.61, 0.57, 0.57, and 0.58, respectively. The variable importance of LR showed that adult cattle tended to be infected by F. hepatica. All models showed low accuracy, but LR successfully distinguished variables related to F. hepatica. Both the IQR and z-score show similar results in improving the classification metrics for the used dataset. In the dataset, data related to climate or factors such as body weight can improve the reliability of the model in future studies. 30151 30 151 30,15 (LR knearest k nearest KNN , (KNN) CART (CART) (RF (IQR zscore z score another Sex age purpose F 061 0 61 0.61 057 57 0.57 058 58 0.58 respectively accuracy studies 3015 3 15 30,1 (KNN (CART 06 6 0.6 05 5 0.5 301 1 30, 0.
Resumo O objetivo deste trabalho foi comparar os desempenhos da regressão logística e de algoritmos de aprendizado de máquina para prever infecção por Fasciola hepatica em bovinos. Um conjunto de dados de 30.151 bovinos do Uruguai foi usado no estudo. Foram comparados a regressão logística (RL) e os algoritmos k-nearest neighbor (KNN), árvores de decisão (CART) e random forest (RF). O intervalo interquartil (IQR) e o escore-z foram usados para melhorar a classificação e comparados entre si. Sexo, idade, escore de conformação de carcaça, escore de gordura, propósito produtivo e peso da carcaça foram usados como variáveis independentes para todos os algoritmos. A infecção por F. hepatica foi usada como variável dependente binária. Os níveis de precisão de RL, KNN, CART e RF foram 0.61, 0.57, 0.57 e 0.58, respectivamente. A variável importância do modelo de RL mostrou que bovinos adultos tenderam à infecção por F. hepatica. Todos os modelos apresentaram baixa precisão, mas a RL distinguiu com sucesso as variáveis relacionadas a F. hepatica. Tanto o IQR quanto o escore-z mostram resultados semelhantes quanto à melhoria da métrica de classificação para o conjunto de dados utilizadoo. No conjunto de dados, dados relacionados ao clima ou a fatores como peso corporal, podem melhorar a confiabilidade do modelo em estudos futuros. 30151 30 151 30.15 estudo (RL knearest k nearest KNN , (KNN) (CART RF. . (RF) (IQR escorez z si Sexo idade gordura F binária 061 0 61 0.61 057 57 0.5 058 58 0.58 respectivamente utilizadoo corporal futuros 3015 3 15 30.1 (KNN (RF 06 6 0.6 05 5 0. 301 1 30.