Abstract Analyzing the relation between socioeconomic variables and neglected tropical diseases can help managers in the conception of public policies to reduce cases. The objective of this study was to evaluate, based on machine learning algorithms, which socioeconomic variables are more important for the risk classification of three neglected diseases: leprosy, cutaneous leishmaniasis, and dengue. Three algorithms based on decision trees were evaluated: Random Forest (RF), XGBoost, and C5.0. As a study area, the municipalities of the state of Goiás and of the Federal District - Brazil, were delimited. For the dengue risk classes, both the RF algorithm and the XGBoost showed accuracy values above 0.6. Both emphasizing the low-income conditions, literacy, and race as the most important predictive variables. In the leprosy risk classes case, the three algorithms presented accuracy results above 0.6, indicating the variables water supply, literacy, race, and housing as important. For the cutaneous leishmaniasis risk classes, the algorithms showed an accuracy lower than 0.4, making the evaluation of possible predictive variables to the model unfeasible. The three evaluated algorithms revealed approximate predictive performance; however, the RF was slightly higher. The most important socioeconomic variables for dengue and leprosy risk classes prediction were similar.
Résumé Analyser la relation entre les variables socio-économiques et les maladies tropicales négligées peut accompagner les gestionnaires dans l’élaboration de politiques publiques pour réduire les cas. L’objectif de ce travail était d’évaluer, sur la base d’algorithmes machine learning, quelles variables socio-économiques sont le plus important pour la classification des risques de trois maladies négligées: la lèpre, la leishmaniose tégumentaire et la dengue. Trois algorithmes basés sur des arbres de décision ont été considérés: Aléatoire Forêt (AF), XGBoost et C5.0. La zone d’étude délimitée sont les municipalités de la province de Goiás et le District Fédéral, situées dans la région Centre-Ouest du Brésil. Pour les classes de risque de dengue, l’algorithme AF et XGBoost ont présenté des valeurs de précision supérieures à 0,6. Les deux ressortent comme des variables plus prédictives de facteurs tels que les conditions de faible revenu, l’alphabétisation et la race. Dans le cas des classes de risque de lèpre, les trois algorithmes ont présenté des résultats de précision supérieurs à 0,6, indiquant comment paramètres importants tels que l’approvisionnement en eau, l’alphabétisation, la race et les conditions de logement. Dans le cas des cours risque de leishmaniose tégumentaire, les algorithmes ont adopté une précision inférieure à 0,4, rendant évaluation des variables prédictives possibles au modèle. Les trois algorithmes évalués performances prédictives approximatives, cependant, le AF était supérieur résistant. Les variables les variables socio-économiques les plus importantes pour prédire les classes de risque de dengue et de lèpre étaient similaire.
Resumen Analizar la relación entre las variables socioeconómicas y las enfermedades tropicales desatendidas puede ayudar los gestores en la producción de políticas públicas para la reducción de casos. El objetivo de este trabajo fue evaluar, con base en algoritmos de machine learning, qué variables socioeconómicas son más importantes para la clasificación de riesgo de tres enfermedades desatendidas: lepra, leishmaniasis cutánea y dengue. Se evaluaron tres algoritmos basados en árboles de decisión: Random Forest (RF), XGBoost y C5.0. Como área de estudio, fueron delimitados los municipios del Estado de Goiás y del Distrito Federal - Brasil. Para las clases de riesgo de dengue, tanto el algoritmo RF como el XGBoost presentaron valores de precisión superiores a 0,6. Ambos resaltan como las variables predictivas más importantes las condiciones de baja renta, alfabetización y raza. En el caso de las clases de riesgo de lepra, los tres algoritmos presentaron resultados de precisión superiores a 0,6, lo que indica que las variables suministro de agua, alfabetización, raza y vivienda son importantes. En el caso de las clases de riesgo de leishmaniasis cutánea, los algoritmos mostraron una precisión inferior a 0,4, haciendo inviable la evaluación de posibles variables predictivas del modelo. Los tres algoritmos evaluados presentaron un rendimiento predictivo aproximado, sin embargo, el RF fue ligeramente superior. Las variables socioeconómicas más importantes para la predicción de las clases de riesgo de dengue y de lepra fueron similares.
Resumo Analisar a relação entre variáveis socioeconômicas e doenças tropicais negligenciadas pode auxiliar gestores no desenvolvimento de políticas públicas para a redução de casos. O objetivo deste trabalho foi avaliar, com base em algoritmos de machine learning, quais as variáveis socioeconômicas mais importantes para a classificação de risco de três doenças negligenciadas: hanseníase, leishmaniose tegumentar e dengue. Foram avaliados três algoritmos embasados em árvores de decisão: Random Forest (RF), XGBoost e C5.0. Como área de estudo, delimitaram-se os municípios do Estado de Goiás e o Distrito Federal - Brasil. Para as classes de risco de dengue, tanto o algoritmo RF quanto o XGBoost apresentaram valores de acurácia acima de 0,6. Ambos destacaram como variáveis preditivas mais importantes as condições de baixa renda, alfabetização e raça. No caso das classes de risco de hanseníase, os três algoritmos apresentaram resultados de acurácia acima de 0,6 indicando como importantes as variáveis abastecimento de água, alfabetização, raça e moradia. No caso das classes de risco de leishmaniose tegumentar, os algoritmos apresentaram acurácia inferior a 0,4 inviabilizando a avaliação das possíveis variáveis preditivas ao modelo. Os três algoritmos avaliados apresentaram desempenho preditivo aproximados, no entanto, o RF foi ligeiramente superior. As variáveis socioeconômicas mais importantes para predição das classes de risco de dengue e hanseníase foram similares.