Resumo A falta de dados é uma das principais dificuldades no trabalho com registros fluviométricos. As lacunas no banco de dados podem resultar de problemas nos componentes das estações fluviométricas, interrupções no monitoramento e falha dos observadores. A análise de séries incompletas gera resultados incertos, impactando negativamente a gestão dos recursos hídricos. Assim, a consideração adequada dos dados faltantes é muito importante para garantir a qualidade de informação. Este trabalho teve como objetivo analisar, comparativamente, metodologias de imputação de dados faltantes em séries temporais de vazões fluviais mensais, considerando, em um estudo de caso, o Rio Doce, localizado no Sudeste do Brasil. Os dados faltantes foram simulados nas proporções de 5%, 10%, 15%, 25% e 40% seguindo um padrão de distribuição aleatória e ignorando os mecanismos de geração de falhas. Foram utilizadas dez metodologias de imputação de dados faltantes: média aritmética, mediana, regressão linear simples e múltipla, ponderação regional, interpolação spline e Stineman, suavização de Kalman, imputação múltipla e máxima verossimilhança. Seus desempenhos foram comparados por meio dos indicadores viés, raiz do erro quadrático médio, erro absoluto médio percentual, coeficiente de determinação e índice de concordância. Os resultados indicam que para 5% de dados faltantes, qualquer metodologia de imputação pode ser considerada, recomendando cautela na aplicação da média aritmética. No entanto, à medida que a proporção de dados faltantes aumenta, recomenda-se o uso das metodologias imputação múltipla e máxima verossimilhança quando houver estações de suporte para imputação, e os métodos de interpolação Stineman e suavização de Kalman quando apenas as séries estudadas estiverem disponíveis.
Abstract Missing data is one of the main difficulties in working with fluviometric records. Database gaps may result from fluviometric stations components problems, monitoring interruptions and lack of observers. Incomplete series analysis generates uncertain results, negatively impacting water resources management. Thus, proper missing data consideration is very important to ensure better information quality. This work aims to analyze, comparatively, missing data imputation methodologies in monthly river-flow time series, considering, as a case study, the Doce River, located in Southeast Brazil. Missing data were simulated in 5%, 10%, 15%, 25% and 40% proportions following a random distribution pattern, ignoring the missing data generation mechanisms. Ten missing data imputation methodologies were used: arithmetic mean, median, simple and multiple linear regression, regional weighting, spline and Stineman interpolation, Kalman smoothing, multiple imputation and maximum likelihood. Their performances were compared through bias, root mean square error, absolute mean percentage error, determination coefficient and concordance index. Results indicate that for 5% missing data, any methodology for imputing can be considered, recommending caution for arithmetic mean method application. However, as the missing data proportion increases, it is recommended to use multiple imputation and maximum likelihood methodologies when there are support stations for imputation, and the Stineman interpolation and Kalman Smoothing methods when only the studied series is available.