Abstract Unsupervised learning techniques are employed to study the relationship between atmospheric circulation and precipitation over Central America and its surrounding areas. Specifically, the clustering algorithm k-means++ is applied to three coarse-grained datasets from ERA-interim reanalysis that are the candidates for representing the atmospheric state vector, each candidate contains its full temporal variability. Datasets are composed of: a) wind fields at 925, 800 and 200 hPa, b) same as “a)” plus convective available potential energy and c) same as “a)” plus total column water vapor. Clustering metrics, namely the variance ratio criterion, the silhouette criterion and the mean squared error, are computed to quantify clustering quality. Clusters are interpreted as weather types, recurrent configurations of the atmospheric state vector associated with observable weather states. The correct number of clusters for each dataset is determined with a Monte Carlo test of normality, to assure cluster existence. The main objective is to obtain a set of weather types containing elements that characterize the transition from and to the rainy season over the Pacific side of Central America as well as other elements of the seasonal cycle of regional precipitation, such as the Mid-Summer Drought. Besides the statistical metrics, in order to select between candidate datasets and plausible number of clusters, focus is given to the temporal characteristics of the clusters. Existing literature does not provide a set of weather types suitable to analyze seasonal transitions and the differences in the mechanisms associated with rainfall maxima.
Resumen Técnicas de aprendizaje no supervisado se emplean para estudiar la relación entre la circulación atmosférica y la precipitación sobre América Central y sus áreas circundantes. Específicamente, el algoritmo de agrupamiento k-means++ se aplica a tres conjuntos de datos de baja resolución del reanálisis ERA interim, estos son candidatos a representar el vector de estado atmosférico y cada uno contiene su variabilidad temporal completa. Los conjuntos de datos probados son: a) campos de viento a 925, 800 y 200 hPa, b) lo mismo que “a)” más la energía potencial convectiva disponible y c) lo mismo que “a)” más el vapor de agua en la columna total. Se calculan métricas de agrupamiento, a saber, el criterio de relación de varianza, el criterio de silueta y el error cuadrático medio, para cuantificar la calidad del agrupamiento. Los grupos se interpretan como weather types, configuraciones recurrentes del vector de estado atmosférico asociadas con estados observables del tiempo atmosférico. El número correcto de grupos para cada conjunto de datos se determina con una prueba de normalidad de Monte Carlo para asegurar la existencia de grupos reales. El objetivo principal es obtener un conjunto de weather types que contengan elementos que caractericen la transición de y hacia la temporada de lluvias en la vertiente del Pacífico de América Central, así como otros elementos del ciclo estacional de precipitación regional, como las canículas. Además de las métricas estadísticas, para seleccionar entre conjuntos de datos y un número plausible de grupos, se presta atención a las características temporales de los grupos. La literatura existente no proporciona un conjunto de weather types adecuado para analizar transiciones estacionales y las diferencias en los mecanismos asociados con los máximos estacionales de lluvia.