Resumo: As estratégias para melhorar os dados georreferenciados dependem frequentemente de processos manuais interativos que podem exigir muito tempo e que são impraticáveis para projetos de grande escala. No presente estudo, avaliamos diferentes estratégias automatizadas para melhorar a qualidade dos endereços e as taxas de relacionamento de georreferenciamento, usando uma base de dados grande, de endereços de atestados de óbito no Rio de Janeiro, Brasil. Os dados de mortalidade incluíam 132.863 registros, com informação de endereço em formato estruturado. Utilizamos expressões comuns e métodos baseados em dicionário para padronização e enriquecimento dos endereços. Todos os registros foram relacionados, através do Código de Endereçamento Postal ou nome da rua, ao Diretório Nacional de Endereços (DNE) obtido da Empresa Brasileira de Correios e Telégrafos (EBCT). Os endereços residenciais foram georreferenciados com uso do Google Maps. Todos os registros com dados de endereço validados até o nível de rua e tipo de logradouro voltaram como edificações, trechos interpolados ou centros geométricos e foram considerados acertos de georreferenciamento. O desempenho geral foi avaliado através de uma revisão manual de uma amostra de endereços. Entre os 132.863 registros originais, 85,7% (n = 113.876) foram georreferenciados e validados, dos quais 83,8% foram relacionados como edificações (alta acurácia). A sensibilidade e especificidade gerais foram 87% (IC95%: 86-88) e 98% (IC95%: 96-99), respectivamente. Nossos resultados indicam que a qualidade e a completude do georreferenciamento de endereços podem ser melhoradas de maneira confiável através de um processo automatizado de georreferenciamento. Os roteiros e instruções em R para reproduzir todas as análises estão disponíveis em: https://github.com/reprotc/geocoding.
Abstract: Strategies for improving geocoded data often rely on interactive manual processes that can be time-consuming and impractical for large-scale projects. In this study, we evaluated different automated strategies for improving address quality and geocoding matching rates using a large dataset of addresses from death records in Rio de Janeiro, Brazil. Mortality data included 132,863 records with address information in a structured format. We performed regular expressions and dictionary-based methods for address standardization and enrichment. All records were linked by their postal code or street name to the Brazilian National Address Directory (DNE) obtained from Brazil’s Postal Service. Residential addresses were geocoded using Google Maps. Records with address data validated down to the street level and location type returned as rooftop, range interpolated, or geometric center were considered a geocoding match. The overall performance was assessed by manually reviewing a sample of addresses. Out of the original 132,863 records, 85.7% (n = 113,876) were geocoded and validated, out of which 83.8% were matched as rooftop (high accuracy). Overall sensitivity and specificity were 87% (95%CI: 86-88) and 98% (95%CI: 96-99), respectively. Our results indicate that address quality and geocoding completeness can be reliably improved with an automated geocoding process. R scripts and instructions to reproduce all the analyses are available at https://github.com/reprotc/geocoding.
Resumen: Las estrategias para mejorar los datos geocodificados a menudo dependen de procesos interactivos manuales, que pueden consumir mucho tiempo, y no ser prácticos en proyectos a gran escala. En este estudio, evaluamos diferentes estrategias automatizadas para la mejora de la calidad de las direcciones, así como en las tasas de coincidencia en geocodificación, usando un gran conjunto de datos con direcciones procedentes de registros de fallecimientos en Río de Janeiro, Brasil. Los datos de mortalidad incluyeron 132.863 registros, con información de direcciones en un formato estructurado. Usamos expresiones regulares y métodos basados en el diccionario para la estandarización de las direcciones y su enriquecimiento. Todos los registros se vincularon por su código postal o el nombre de la calle al Directorio Nacional de Direcciones (DNE por su sigla en portugués), obtenido del Servicio Postal Brasileño. Las direcciones residenciales fueron geocodificadas usando Google Maps. Todos los registros con datos de direcciones validados hasta el nivel de calle y tipo de ubicación se reflejaron como rooftop, range interpolated, o geometric center, considerándose coincidencias en geocodificación. El rendimiento global fue evaluado gracias a la revisión manual de una muestra de direcciones. De los 132 863 registros originales, un 85.7% (n = 113.876) fueron geocodificados y validados, de los cuales un 83.8% fueron coincidentes como rooftop (alta precisión). La sensibilidad y especificidad general fueron 87% (IC95%: 86-88) y 98% (IC95%: 96-99), respectivamente. Nuestros resultados indican que la calidad de la dirección, así como la completitud de la geocodificación, pueden ser mejoradas con confiabilidad a través de un proceso de geocodificación automatizado. R scripts e instrucciones para reproducir todos los análisis se encuentran disponibles en: https://github.com/reprotc/geocoding.