Resumen El fenómeno de la deserción por su complejidad e impacto educativo y social ha sido ampliamente estudiado para entender las causas específicas. Dentro de esta línea de investigación, el objetivo de este estudio fue desarrollar modelos explicativos y predictivos de la deserción estudiantil en los programas académicos de grado del Instituto Tecnológico de Costa Rica, con base en diferentes variables registradas en el Sistema de Indicadores de Gestión Institucional (SIGI). En una primera etapa se procesan modelos de regresión multinomial para identificar la influencia de estas variables en la deserción. Mientras que en la segunda se evaluaron seis algoritmos de aprendizaje automático con el fin de buscar un modelo que permitiera detectar al estudiantado desertor. Entre los hallazgos se destaca que la probabilidad de deserción se relaciona con variables sociodemográficas, programa de estudio, beneficios obtenidos al ingresar, historial académico y rendimiento en el primer semestre de estudio. Además, resultó que el mejor algoritmo predictor de la deserción fue el “random forest”, por identificar correctamente al potencial desertor con una probabilidad de 0.83 y por capturar al 34% de deserción real. Estos resultados son el primer paso hacia la construcción de un modelo predictivo más robusto de la deserción estudiantil, que se espera contribuya a la toma de decisiones preventivas en esta universidad.
Resumo O fenômeno da deserção, por sua complexidade e impacto educacional e social tem sido amplamente estudado a fim de compreender suas causas específicas. Dentro desta linha de pesquisa, o objetivo deste estudo foi desenvolver modelos explicativos e preditivos de deserção estudantil nos cursos de graduação do Instituto Tecnológico da Costa Rica, com base em diferentes variáveis registradas no Sistema de Indicadores de Gestão Institucional (SIGI). No primeiro estágio, os modelos de regressão multinomial são processados para identificar a influência dessas variáveis na deserção. Enquanto no segundo, seis algoritmos de aprendizado de máquina foram avaliados, a fim de encontrar um modelo que permitisse um aluno ser identificado como um desertor. Como resultado, destaca-se que a probabilidade de deserção está relacionada às variáveis sociodemográficas, programa de estudos, benefícios obtidos na hora do ingresso, registro acadêmico e desempenho no primeiro semestre de estudo. Além disso, descobriu-se que o melhor preditor de deserção foi o “random forest”, por identificar corretamente o potencial desertor com uma probabilidade de 0,83 e por capturar 34% da deserção real. Esses resultados são o primeiro passo para a construção de um modelo preditivo mais eficaz de deserção estudantil, que poderia contribuir para a tomada de decisões preventivas nessa universidade.
Abstract The phenomenon of dropout, by its complexity and educational and social impact, has been extensively studied to understand the specific causes. In this line of research, the purpose of this study was to analyze explanatory and predictive models of student dropout from university studies at the Instituto Tecnológico de Costa Rica (TEC), based on many variables recorded in the institutional system indicators. The first stage of the analysis considered multinomial regression models to identify the influence of these variables on the dropout. In the second analysis, six machine learning algorithms were evaluated in order to find a model that would predict student dropout. Data analysis showed that the probability of dropping out is related to sociodemographic variables, study program, academic history, scholarship and other benefits, and performance after first semester. In addition, the best predictor of dropout algorithm was the “random forest”, a probability of 0.83 to predict the dropout correctly and to capture 34% of the actual student dropout. These results are the first step toward building a more robust predictive model of dropout, which will contribute to preventive decision making in this university.