É importante avaliar a acurácia de relacionamento de dados, já que erros podem enviesar as medidas de ocorrência e de associação de doenças. O objetivo desse estudo é verificar a acurácia da estratégia de relacionamento probabilístico de banco de dados em identificar óbitos entre casos de AIDS notificados no Sistema de Informações de Agravos de Notificação (SINAN). O banco de dados de pessoas com HIV/AIDS (N = 559.442) foi relacionado a 6.444.822 óbitos (todas as causas) registrados no Sistema de Informações sobre Mortalidade (SIM). Para estimar as medidas de acurácia, foram selecionados todos os casos de AIDS com datas de óbito registradas no SINAN-AIDS de 2002 a 2005 (N = 19.750) e 38.675 casos sabidamente vivos em 2006. A sensibilidade foi de 87,6% (IC95%: 87,1-88,2), a especificidade de 99,6% (IC95%: 99,6-99,7) e o valor preditivo de 99,2% (IC95%: 99,1-99,3). Sensibilidade foi 12% menor para os casos com menos de 13 anos. Foram observadas pequenas variações nas medidas de validação segundo algumas variáveis preditoras de mortalidade. Conclui-se que bancos de dados grandes e heterogêneos podem ser relacionados com acurácia satisfatória.
Since record linkage errors can bias measures of disease occurrence and association, it is important to assess their accuracy. The aim of this study is to assess the accuracy of a multiple pass probabilistic record linkage strategy to identify deaths among persons reported to the Brazilian AIDS surveillance database. An HIV/AIDS national surveillance database (N = 559,442) was linked to a total of 6,444,822 deaths registered (all causes) in the Brazilian mortality database. To estimate standard measures of accuracy, we selected all AIDS cases with a date of death registered in the surveillance database from 2002 to 2005 (N = 19,750) and 38,675 cases known to be alive in 2006. The linkage strategy presented a sensitivity of 87.6% (95%CI: 87.1-88.2), a specificity of 99.6% (95%CI: 99.6-99.7), and a positive predictive value of 99.2% (95%CI: 99.1-99.3). We observed a small variation in the validity measures according to some putative predictors of mortality. Our findings suggest that even large and heterogeneous databases can be linked with a satisfactory accuracy.