ABSTRACT Accuracy in river flows forecasts is crucial for Hydrology, but is challenged by fluviometric data quality. This study investigates the impact of different missing data imputation methods on the Seasonal Autoregressive Integrated Moving Average (SARIMA) model performance. SARIMA (1,1,1)(0,1,1)12 was selected using semi-automated criteria, such as lowest AIC, significant parameters (p-value < 0.05) and residuals adequacy. This model was then compared with reconstructed series using different imputation methods such as Mean (AM), Median (M), Spline and Stinemann Interpolations, Regional Weighting (RW), Multiple Linear Regression (MLR), Multiple Imputation (MI) and Maximum Likelihood (ML). The data were analyzed considering scenarios of 5, 20 and 40% missing data, following random and block patterns, using data from the Doce River, in Southeast Brazil. Results obtained by the performance indicators and, their respective relative differences, indicated that, univariate (AM and M) and multivariate (PW and RLM) methods limited the model's performance, while univariate Spline and Stine and multivariate IM and ML methods didn't present significant limitations, except Spline for the block pattern. It is concluded that, future predictions accuracy depends, not only on a well-trained and validated model, but also on the appropriate use of missing data imputation methods. Hydrology quality (SARIMA 1,1,10,1,112 11101112 1,1,1 0,1,1 12 1 0 (1,1,1)(0,1,1)1 semiautomated semi automated criteria AIC pvalue p value 0.05 005 05 adequacy AM, AM , (AM) M, M (M) Interpolations RW, RW (RW) MLR, MLR (MLR) MI (MI ML. . (ML) 5 2 40 patterns River Brazil differences that PW RLM models s didnt didn t limitations pattern depends welltrained well trained 10 112 1,1,10,1,11 1110111 111 1,1, 011 0,1, (1,1,1)(0,1,1) 0.0 00 (M (RW (MLR (ML 4 11 1,1,10,1,1 111011 1,1 01 0,1 (1,1,1)(0,1,1 0. 1,1,10,1, 11101 1, 0, (1,1,1)(0,1, 1,1,10,1 1110 (1,1,1)(0,1 1,1,10, (1,1,1)(0, 1,1,10 (1,1,1)(0 (1,1,1)( (1,1,1) (1,1,1 (1,1, (1,1 (1, (1 (
RESUMO A precisão nas previsões de vazão dos rios é crucial para a Hidrologia, mas é desafiada pela qualidade dos dados fluviométricos. Este estudo investiga o impacto de diferentes métodos de imputação de dados faltantes no desempenho do modelo Autoregressivo Integrado de Médias Móveis Sazonal (SARIMA). O modelo SARIMA (1,1,1)(0,1,1)12 foi selecionado usando critérios semi-automatizados, como menor AIC, parâmetros significativos (p-valor < 0,05) e adequação dos resíduos. Este modelo foi então comparado com séries reconstruídas usando diferentes métodos de imputação, como Média (AM), Mediana (M), Interpolações Spline e Stinemann, Ponderação Regional (RW), Regressão Linear Múltipla (MLR), Imputação Múltipla (MI) e Máxima Verossimilhança (ML). Os dados foram analisados considerando cenários de 5, 20 e 40% de dados faltantes, seguindo padrões aleatórios e de blocos, utilizando dados do Rio Doce, no Sudeste do Brasil. Os resultados obtidos pelos indicadores de desempenho e suas respectivas diferenças relativas, indicaram que, métodos univariados (AM e M) e multivariados (PW e RLM) limitaram o desempenho do modelo, enquanto os métodos univariados Spline e Stine e multivariados IM e ML não apresentaram limitações significativas, exceto Spline para o padrão de blocos. Conclui-se que a precisão das previsões futuras depende, não apenas de um modelo bem treinado e validado, mas também, do uso adequado de métodos de imputação de dados faltantes. Hidrologia fluviométricos SARIMA. . (SARIMA) 1,1,10,1,112 11101112 1,1,1 0,1,1 12 1 0 (1,1,1)(0,1,1)1 semiautomatizados, semiautomatizados semi automatizados, automatizados semi-automatizados AIC pvalor p valor 0,05 005 05 resíduos AM, AM , (AM) M, M (M) Stinemann RW, RW (RW) MLR, MLR (MLR) MI (MI ML. (ML) 5 2 40 blocos Doce Brasil relativas PW RLM significativas Concluise Conclui se depende validado também (SARIMA 10 112 1,1,10,1,11 1110111 111 1,1, 011 0,1, (1,1,1)(0,1,1) 0,0 00 (M (RW (MLR (ML 4 11 1,1,10,1,1 111011 1,1 01 0,1 (1,1,1)(0,1,1 0, 1,1,10,1, 11101 1, (1,1,1)(0,1, 1,1,10,1 1110 (1,1,1)(0,1 1,1,10, (1,1,1)(0, 1,1,10 (1,1,1)(0 (1,1,1)( (1,1,1) (1,1,1 (1,1, (1,1 (1, (1 (