ABSTRACT Background: Heart failure (HF) risk scores to assess all-cause mortality during the first year have areas under the ROC curve (AUC) ranging between 0.59 and 0.80 Objective: To develop and validate a neural network (NN) algorithm-based model to improve traditional scores’ performance for predicting short- and mid-term mortality of patients with acute HF. Methods: A prospective clinical database was analyzed including 483 patients admitted with diagnosis of acute HF in a coronary care unit community hospital of Buenos Aires, between June 2005 and June 2019. Among 181 demographic, laboratory, treatment and follow-up variables, only 25 were selected to calculate five acute heart failure risk scores aimed to predict 30-day, 6-month and 1-year mortality: EFFECT, ADHERE, GWTG-HF, 3C-HF, and ACUTE-HF. Results: Mean age was 78 ± 11.1 years, 58% were men, 35% had ischemic necrotic HF and median left ventricular ejection fraction was 52% (35-60). At 30 days, the EFFECT score (AUC:0.68) and the 3C-HF score (AUC: 0.68) showed better performance than the ACUTE-HF score (AUC: 0.54). At 6-month and 1-year follow-up, the EFFECT score (ROC: 0.69 and 0.69) outperformed the ADHERE score (AUC: 0.53 and 0.56), and EFFECT (AUC: 0.69 and 0.69), GWRG-HF (AUC = 0.68 and 0.66), and 3C-HF (AUC:0.67 and 0.67) scores outperformed the ACUTE-HF score (AUC:0.53 and 0.56). The best results with NN algorithms were obtained with a two-hidden layer multilayer perceptron. A 24-9-7-2-layer architecture NN was used with the following results: AUC: 0.82, negative predictive value (NPV) 93.2% and positive predictive value (PPV) 66.7% for 30-day mortality; AUC: 0.87, NPV: 89.1% and PPV: 78,6% for 6-month mortality; and AUC: 0.85, NPV: 85.6% and PPV: 78.9% for 1-year mortality. In terms of discrimination, NN algorithms outperformed all the traditional scores (p <0.001). For this algorithm, the most influential factors in descending order that scored ≥50% normalized importance to predict 30-day mortality were serum creatinine, hemoglobin, respiratory rate, blood urea nitrogen, serum sodium, age and systolic blood pressure. Also, NYHA functional class III-IV and dementia added prognostic capacity to 6-month mortality, and heart rate and chronic kidney disease to 1-year mortality. Conclusions: The models with NN algorithms were significantly superior to traditional risk scores in our population of patients with HF. These findings constitute a working hypothesis to be validated with a larger and multicenter sample of cases.
RESUMEN Introducción: En el contexto de la insuficiencia cardíaca (IC) existen scores de riesgo para evaluar la mortalidad por cualquier causa durante el primer año, con áreas bajo la curva ROC que oscilan entre 0,59 y 0,80. Objetivo: Desarrollar y validar un modelo basado en algoritmos de redes neuronales (RN) destinado a mejorar el rendimiento de los modelos tradicionales para predecir mortalidad a corto y mediano plazo de pacientes con IC aguda. Material y métodos: Se analizó una base de datos con 181 variables de 483 pacientes con IC aguda en un hospital de comunidad de la Ciudad de Buenos Aires (junio de 2005-junio de 2019). Se utilizaron 25 variables para calcular 5 modelos de riesgo validados para predecir la mortalidad a 30 días, 6 meses y un año: EFFECT, ADHERE, GWTG-HF, 3C-HF y ACUTE-HF. Resultados: La edad media fue 78 ± 11,1años, 58% eran varones, el 35% de las IC eran de etiología isquémico necrótica, y la fracción de eyección media fue 52% (35-60). En término de discriminación a 30 días, fueron mejores el score EFFECT (ROC: 0,68) y el 3C-HF (ROC: 0,67) que el ACUTE- HF (ROC: 0,54). A los 6 meses y al año, el score EFFECT (ROC: 0,69 y 0,69) superó al ADHERE (ROC: 0,53 y 0,56) (p=0,011 y p = 0,003, respectivamente), y los scores EFFECT GWRG-HF (ROC: 0,68 y 0,66) y 3C-HF (ROC: 0,67 y 0,67) superaron al score ACUTE-HF (ROC: 0,53 y 0,56). De los algoritmos de RN los mejores resultados se obtuvieron con un perceptrón multicapa (PMC) con dos capas ocultas. Se usó una RN de arquitectura de capas 24-9-7-2 con los siguientes resultados: ROC: 0,82, valor predictivo negativo (VPN) 93,2% y valor predictivo positivo (VPP) 66,7% para mortalidad a 30 días; ROC: 0,87, VPN: 89,1% y VPP: 78,6% para mortalidad a 6 meses; y ROC: 0,85, VPN: 85,6% y VPP: 78,9% para mortalidad al año. En términos de discriminación, los algoritmos de RN superaron a los scores tradicionales ( p <0,001). Los factores que obtuvieron ≥50% de importancia estandarizada para predecir la mortalidad a los 30 días fueron en orden descendente la creatinina sérica, la hemoglobina, la frecuencia respiratoria, la urea, el sodio, la edad y la presión arterial sistólica. Agregaron capacidad pronóstica la clase III-IV NYHA y la demencia para mortalidad a 6 meses, y la frecuencia cardíaca y la disfunción renal crónica para mortalidad al año. Conclusiones: Los modelos con algoritmos de RN fueron significativamente superiores a los scores de riesgo tradicionales en nuestros pacientes con IC. Estos hallazgos constituyen una hipótesis de trabajo a validar con una mayor muestra de casos y en forma multicéntrica.