Resumo: Os alunos de graduação são frequentemente afetados por depressão, ansiedade e estresse. O aprendizado de máquina pode apoiar a avaliação da saúde mental. Com base na seguinte questão de pesquisa “Qual é o desempenho dos modelos de aprendizado de máquina na detecção de depressão, ansiedade e estresse entre estudantes de graduação?”, objetivou-se avaliar o desempenho desses modelos. As pesquisas foram realizadas no PubMed, Embase, PsycINFO e Web of Science. Foram pesquisados estudos que atendessem aos seguintes critérios: publicados em inglês, estudantes universitários de graduação como população alvo, empíricos, publicados em uma revista científica e que previssem resultados de ansiedade, depressão ou estresse via aprendizado de máquina. A qualidade das evidências foi analisada usando o GRADE. Em janeiro de 2024, foram encontrados 2.304 artigos, e 48 estudos atenderam aos critérios de inclusão. Foram identificados diferentes tipos de dados, incluindo dados comportamentais, fisiológicos, de uso da Internet, neurocerebrais, marcadores sanguíneos, dados mistos, demográficos e de mobilidade. Entre os 33 estudos que forneceram dados de precisão, 30 relataram valores superiores a 70%. A acurácia na detecção de estresse variou de 63% a 100%, ansiedade de 53,69% a 97,9% e depressão de 73,5% a 99,1%. Embora a maioria dos modelos apresente desempenho adequado, deve-se notar que 47 deles realizaram apenas validação interna, o que pode superestimar os dados de desempenho. Além disso, a avaliação GRADE indicou que a qualidade da evidência é muito baixa. Os resultados indicam que os algoritmos de aprendizado de máquina são promissores no campo da Saúde Pública; no entanto, é crucial examinar sua aplicabilidade prática. Estudos futuros devem investir principalmente na validação externa dos modelos de aprendizado de máquina.
Abstract: Undergraduate students are often impacted by depression, anxiety, and stress. In this context, machine learning may support mental health assessment. Based on the following research question: “How do machine learning models perform in the detection of depression, anxiety, and stress among undergraduate students?”, we aimed to evaluate the performance of these models. PubMed, Embase, PsycINFO, and Web of Science databases were searched, aiming at studies meeting the following criteria: publication in English; targeting undergraduate university students; empirical studies; having been published in a scientific journal; and predicting anxiety, depression, or stress outcomes via machine learning. The certainty of evidence was analyzed using the GRADE. As of January 2024, 2,304 articles were found, and 48 studies met the inclusion criteria. Different types of data were identified, including behavioral, physiological, internet usage, neurocerebral, blood markers, mixed data, as well as demographic and mobility data. Among the 33 studies that provided accuracy assessment, 30 reported values that exceeded 70%. Accuracy in detecting stress ranged from 63% to 100%, anxiety from 53.69% to 97.9%, and depression from 73.5% to 99.1%. Although most models present adequate performance, it should be noted that 47 of them only performed internal validation, which may overstate the performance data. Moreover, the GRADE checklist suggested that the quality of the evidence was very low. These findings indicate that machine learning algorithms hold promise in Public Health; however, it is crucial to scrutinize their practical applicability. Further studies should invest mainly in external validation of the machine learning models.
Resumen: Los estudiantes de grado suelen verse afectados por la depresión, la ansiedad y el estrés. El aprendizaje automático puede respaldar la evaluación de la salud mental. Con base en la siguiente pregunta de investigación “¿Cuál es el rendimiento de los modelos de aprendizaje automático en la detección de depresión, ansiedad y estrés entre estudiantes universitarios?”, nuestro objetivo fue evaluar el rendimiento de estos modelos. Se realizaron búsquedas en PubMed, Embase, PsycINFO y Web of Science. Se buscaron estudios que cumplieran con los siguientes criterios: se hubieran publicado en inglés, tuvieran a estudiantes universitarios como población objetivo, fueran empíricos, publicados en una revista científica y que predijeran resultados de ansiedad, depresión o estrés mediante aprendizaje automático. La calidad de las evidencias se analizó mediante GRADE. En enero del 2024 se encontraron 2.304 artículos, y 48 estudios cumplieron con los criterios de inclusión. Se identificaron diferentes tipos de datos, incluidos datos conductuales, fisiológicos, de uso de internet, neurocerebrales, marcadores sanguíneos, datos mixtos, demográficos y de movilidad. Entre los 33 estudios que proporcionaron datos de precisión, 30 reportaron valores superiores al 70%. La precisión en la detección del estrés osciló entre el 63% y el 100%, la ansiedad del 53,69% al 97,9% y la depresión del 73,5% al 99,1%. Aunque la mayoría de los modelos presenta un rendimiento adecuado, cabe señalar que 47 de ellos realizaron únicamente validación interna, lo que puede sobrestimar los datos de rendimiento. Además, la evaluación GRADE indicó que la calidad de la evidencia es muy baja. Los resultados indican que los algoritmos de aprendizaje automático son prometedores en el campo de la Salud Pública; sin embargo, es crucial examinar su aplicabilidad práctica. Los estudios futuros deberían invertir principalmente en la validación externa de los modelos de aprendizaje automático.