Resumo O complexo problema da evasão de alunos representa uma oportunidade para a aplicação de tecnologia e métodos de mineração de dados no ensino superior. O objetivo desta pesquisa é obter o perfil dos alunos em risco de evasão e, assim, gerar planos de gestão estudantil que impactem nas variáveis que explicam essa situação. Para isso, propõe-se a utilização de uma estrutura metodológica CRISP-DM, aplicando ferramentas estatísticas e aprendizado de máquina não supervisionado. A análise transversal foi realizada em um universo de alunos do primeiro ano do turno diurno de uma universidade privada chilena. As variáveis sociodemográficas e comportamentais utilizadas foram baseadas na teoria da deserção e no julgamento de especialistas, e os dados foram obtidos nos registros históricos disponíveis na Instituição. Para obter as variáveis que mais influenciaram o abandono, foram realizadas análises de correlação e de componentes principais. A aplicação do agrupamento hierárquico aglomerativo e da técnica de conjuntos aproximados produziu quatro perfis de alunos com suas respectivas regras de associação e cinco variáveis acadêmicas que permitiram desenhar um sistema de apoio para reduzir o abandono e promover a retenção.
Abstract The complex problem of student dropout represents an opportunity for the application of data mining technology and methods in higher education. The objective of this research is to obtain the profile of students at risk of dropping out and thus generate student management plans that impact on the variables that explain this situation. For this, it is proposed to use a CRISP-DM methodological structure, applying statistical tools and unsupervised machine learning. The cross-sectional analysis was carried out on a universe of freshmen day students at a private Chilean university. The sociodemographic and behavioural variables used were based on attrition theory and expert judgment, and the data were obtained from the historical records available at the Institution. To obtain the variables that most influenced dropout, correlation and principal component analyses were performed. The application of agglomerative hierarchical clustering and rough sets technique produced four profiles of students with their respective association rules and five academic variables that allowed the design of a support system to reduce dropout and promote retention.
Resumo La compleja problemática del abandono estudiantil representa una oportunidad para la aplicación de la tecnología y métodos de la minería de datos en educación superior. El objetivo de esta investigación es obtener el perfil de los estudiantes en riesgo de abandono y así generar planes de gestión estudiantil que impacten sobre las variables que explican esta situación. Para esto se propone utilizar una estructura metodológica CRISP-DM, aplicando herramientas estadísticas y del aprendizaje automático no supervisado. El análisis, de tipo transversal, se realizó sobre un universo de estudiantes de primer año en jornada diurna, en una universidad privada chilena. Las variables sociodemográficas y de comportamiento utilizadas, se basaron en la teoría sobre deserción y juicio de expertos, y los datos se obtuvieron de los registros históricos disponibles en la Institución. Para obtener las variables que más influían en el abandono se realizaron análisis de correlación y de componentes principales. La aplicación del clustering jerárquico aglomerativo y la técnica de conjuntos aproximados produjeron cuatro perfiles de estudiantes con sus reglas de asociación respectivas y cinco variables académicas que permitieron diseñar un sistema de apoyo para disminuir el abandono y fomentar la retención.