Abstract The objective of this work, based on Data Mining techniques, is to identify the best risk prediction method for the Spanish banking system, taking into account its specific characteristics and the economic situation of Spain during the period understudy. For this purpose, first of all, fourteen ratios are defined in order to identify, in terms of risks, the situation of Spanish banks and savings banks during the period under review. Through a technique of reduction of dimensions which simplifies the interpretation of results, four latent factors are obtained on which are evaluated, together with four additional macroeconomic variables, a set of algorithms of Data Mining, being finally selected the CHAID tree, unlike previous works, in which it hadnever come to propose the application of techniques of Data Mining and Machine Learning in the identification of situations of risk in the Spanish banking industry. One limitation of this work has been the impossibility of incorporating regulatory variables, due that this information is confidential, otherwise, we would have been able to incorporate a new dimension in the prediction of risks.
Resumen El objetivo de este trabajo, basado en técnicas de Data Mining, es llegar a identificar el mejor método de predicción de riesgos para el sistema bancario español, teniendo en cuenta tanto sus características específicas, como la situación económica de España en el período objeto de estudio. Para ello, se definen, en primer lugar, catorce ratios que permiten identificar, en términos de riesgos, la situación de los bancos y cajas de ahorros españoles durante el período examinado. Mediante una técnica de reducción de dimensiones con la que se simplifica la interpretación de resultados, se obtienen cuatro factores latentes sobre los que se evalúa, junto con cuatro variables macroeconómicas adicionales,un conjunto de algoritmos de Data Mining, siendo seleccionado finalmente el arbol CHAID, a diferencia de trabajos previos, en los que nunca se había llegado a proponer la aplicación de técnicas de Data Mining y Machine Learning en la identificación de situaciones de riesgo en la industria bancaria española. Una limitación de este trabajo ha sido la imposibilidad de incorporar variables regulatorias, por tratarse de información reservada que, de haber estado disponible, nos habría permitido incorporar una nueva dimensión en la predicción de riesgos.