RESUMEN La contaminación por neblina, caracterizada principalmente por la baja visibilidad, es uno de los principales problemas ambientales a los que se enfrenta China en la actualidad. El pronóstico exacto de la neblina es útil para la aplicación de medidas preventivas orientadas a controlar emisiones de contaminantes atmosféricos y aliviar la contaminación por neblina. Sin embargo, no es fácil predecir con precisión los acontecimientos de baja visibilidad causados por neblina, lo cual requiere no sólo un pronóstico riguroso de los factores meteorológicos, sino también una actualización detallada y en tiempo real de los inventarios de emisiones de las fuentes. Con el fin de obtener una herramienta de predicción fiable, se estudian varios métodos populares de aprendizaje automático, como la máquina vectorial de apoyo (SVM, por su sigla en inglés), el k-vecino más próximo, el bosque aleatorio y varios métodos de aprendizaje profundo. A partir de los principales factores que influyen en la visibilidad, se analizan las relaciones entre velocidad y dirección del viento, temperatura, humedad y visibilidad. El método de aprendizaje automático se utiliza para entrenamiento y pronóstico. La precisión de estos métodos para pronosticar la visibilidad se verifica mediante varios parámetros (error de raíz cuadrada media, error absoluto medio y error porcentual absoluto medio). Los resultados muestran que: 1) entre todos los parámetros meteorológicos, la velocidad del viento puede reflejar mejor la variación de la visibilidad; 2) el rendimiento de las redes neuronales recurrentes de memoria a largo-corto plazo (LSTM RNN) y el método de unidades recurrentes cerradas (GRU) en la predicción de visibilidad a corto plazo (es decir, 1, 3 y 6 h) es casi igual; 3) el método clásico de aprendizaje automático (SVM) funciona bien para el pronóstico de visibilidad a medio y largo plazo, y 4) el método de aprendizaje automático también tiene cierto grado de precisión en el pronóstico, incluso en un periodo de tiempo más largo (p. ej., 72 h).
ABSTRACT Haze pollution, mainly characterized by low visibility, is one of the main environmental problems currently faced by China. Accurate haze forecasts facilitate the implementation of preventive measures to control the emission of air pollutants and thereby mitigate haze pollution. However, it is not easy to accurately predict low visibility events induced by haze, which requires not only accurate prediction for weather elements, but also refined and real-time updated source emission inventory. In order to obtain reliable forecasting tools, this paper studies the usability of several popular machine learning methods, such as support vector machine (SVM), k-nearest neighbor, and random forest, as well as several deep learning methods, on visibility forecasting. Starting from the main factors related to visibility, the relationships between wind speed, wind direction, temperature, humidity, and visibility are discussed. Training and forecasting were performed using the machine learning methods. The accuracy of these methods in visibility forecasting was confirmed through several parameters (i.e., root-mean-square error, mean absolute error, and mean absolute percentage error). The results show that: (1) among all meteorological parameters, wind speed was the best at reflecting the visibility change patterns; (2) long short-term memory recurrent neural networks (LSTM RNN), and gated recurrent unit (GRU) methods perform almost equally well on short-term visibility forecasts (i.e., 1, 3, and 6 h); (3) a classical machine learning method (i.e., the SVM) performs well in mid- and long-term visibility forecasts; (4) machine learning methods also have a certain degree of forecast accuracy even for long time periods (e.g., 7 2h).