Los pacientes con síndrome pos-COVID-19 pueden beneficiarse de los programas de promoción de la salud. Su rápida identificación es importante para el uso efectivo de estos programas. Las técnicas de identificación tradicionales no tienen un buen desempeño, especialmente en pandemias. Se realizó un estudio observacional descriptivo, con el uso de 105.008 autorizaciones previas pagadas por un operador de salud privado mediante la aplicación de un método no supervisado de procesamiento del lenguaje natural mediante modelado temático para identificar a los pacientes sospechosos de estar infectados por COVID-19. Se generaron 6 modelos: 3 con el uso del algoritmo BERTopic y 3 modelos Word2Vec. El modelo BERTopic crea automáticamente grupos de enfermedades. En el modelo Word2Vec para definir temas relacionados con la COVID-19, fue necesario el análisis manual de los primeros 100 casos de cada tema. El modelo BERTopic con más de 1.000 autorizaciones por tema sin tratamiento de palabras seleccionó a pacientes más graves: costo promedio por autorizaciones previas pagada de BRL 10.206 y gasto total de BRL 20,3 millones (5,4%) en 1.987 autorizaciones previas (1,9%). Además, contó con el 70% de aciertos en comparación con el análisis humano y el 20% de los casos con potencial interés, todos los cuales pueden analizarse para su inclusión en un programa de promoción de la salud. Hubo una pérdida significativa de casos en comparación con el modelo tradicional de investigación con lenguaje estructurado y se identificó otros grupos de enfermedades: ortopédicas, mentales y cáncer. El modelo BERTopic sirvió como un método exploratorio para ser utilizado en el etiquetado de casos y su posterior aplicación en modelos supervisados. La identificación automática de otras enfermedades plantea preguntas éticas sobre el tratamiento de la información de salud mediante el aprendizaje de máquina. posCOVID19 posCOVID pos COVID 19 pos-COVID-1 desempeño pandemias descriptivo 105008 105 008 105.00 COVID19. COVID19 19. COVID-19 WordVec Word Vec COVID19, 19, 10 1000 1 000 1.00 graves 10206 206 10.20 203 20 20, 5,4% 54 5 4 (5,4% 1987 987 1.98 1,9%. 1,9% . 9 (1,9%) Además 70 interés ortopédicas cáncer supervisados máquina posCOVID1 pos-COVID- 10500 00 105.0 COVID1 COVID-1 1.0 1020 10.2 2 5,4 (5,4 198 98 1.9 1,9 (1,9% 7 pos-COVID 1050 0 105. COVID- 1. 102 10. 5, (5, 1, (1,9 (5 (1, ( (1
Patients with post-COVID-19 syndrome benefit from health promotion programs. Their rapid identification is important for the cost-effective use of these programs. Traditional identification techniques perform poorly especially in pandemics. A descriptive observational study was carried out using 105,008 prior authorizations paid by a private health care provider with the application of an unsupervised natural language processing method by topic modeling to identify patients suspected of being infected by COVID-19. A total of 6 models were generated: 3 using the BERTopic algorithm and 3 Word2Vec models. The BERTopic model automatically creates disease groups. In the Word2Vec model, manual analysis of the first 100 cases of each topic was necessary to define the topics related to COVID-19. The BERTopic model with more than 1,000 authorizations per topic without word treatment selected more severe patients - average cost per prior authorizations paid of BRL 10,206 and total expenditure of BRL 20.3 million (5.4%) in 1,987 prior authorizations (1.9%). It had 70% accuracy compared to human analysis and 20% of cases with potential interest, all subject to analysis for inclusion in a health promotion program. It had an important loss of cases when compared to the traditional research model with structured language and identified other groups of diseases - orthopedic, mental and cancer. The BERTopic model served as an exploratory method to be used in case labeling and subsequent application in supervised models. The automatic identification of other diseases raises ethical questions about the treatment of health information by machine learning. postCOVID19 postCOVID post COVID 19 post-COVID-1 programs costeffective effective pandemics 105008 105 008 105,00 COVID19. COVID19 19. COVID-19 generated WordVec Word Vec 10 1000 1 000 1,00 10206 206 10,20 203 20 20. 5.4% 54 5 4 (5.4% 1987 987 1,98 1.9%. 1.9% . 9 (1.9%) 70 interest program orthopedic cancer learning postCOVID1 post-COVID- 10500 00 105,0 COVID1 COVID-1 1,0 1020 10,2 2 5.4 (5.4 198 98 1,9 1.9 (1.9% 7 post-COVID 1050 0 105, COVID- 1, 102 10, 5. (5. 1. (1.9 (5 (1. ( (1
Os pacientes com síndrome pós-COVID-19 se beneficiam de programas de promoção de saúde e sua rápida identificação é importante para a utilização custo efetiva desses programas. Técnicas tradicionais de identificação têm fraco desempenho, especialmente em pandemias. Portanto, foi realizado um estudo observacional descritivo utilizando 105.008 autorizações prévias pagas por operadora privada de saúde com aplicação de método não supervisionado de processamento de linguagem natural por modelagem de tópicos para identificação de pacientes suspeitos de infecção por COVID-19. Foram gerados seis modelos: três utilizando o algoritmo BERTopic e três modelos Word2Vec. O modelo BERTopic cria automaticamente grupos de doenças. Já no modelo Word2Vec, para definição dos tópicos relacionados a COVID-19, foi necessária análise manual dos 100 primeiros casos de cada tópico. O modelo BERTopic com mais de 1.000 autorizações por tópico sem tratamento de palavras selecionou pacientes mais graves - custo médio por autorizações prévias pagas de BRL 10.206 e gasto total de BRL 20,3 milhões (5,4%) em 1.987 autorizações prévias (1,9%). Teve 70% de acerto comparado à análise humana e 20% de casos com potencial interesse, todos passíveis de análise para inclusão em programa de promoção à saúde. Teve perda importante de casos quando comparado ao modelo tradicional de pesquisa com linguagem estruturada e identificou outros grupos de doenças - ortopédicas, mentais e câncer. O modelo BERTopic serviu como método exploratório a ser utilizado na rotulagem de casos e posterior aplicação em modelos supervisionados. A identificação automática de outras doenças levanta questionamentos éticos sobre o tratamento de informações em saúde por aprendizado de máquina. pósCOVID19 pósCOVID pós COVID 19 pós-COVID-1 desempenho pandemias Portanto 105008 105 008 105.00 COVID19. COVID19 19. COVID-19 Word2Vec WordVec Word Vec COVID19, 19, 10 1000 1 000 1.00 10206 206 10.20 203 20 3 20, 5,4% 54 5 4 (5,4% 1987 987 1.98 1,9%. 1,9% . 9 (1,9%) 70 interesse ortopédicas câncer supervisionados máquina pósCOVID1 pós-COVID- 10500 00 105.0 COVID1 COVID-1 1.0 1020 10.2 2 5,4 (5,4 198 98 1.9 1,9 (1,9% 7 pós-COVID 1050 0 105. COVID- 1. 102 10. 5, (5, 1, (1,9 (5 (1, ( (1