Abstract Objective: To test the performance of ChatGPT on radiology questions formulated by the Colégio Brasileiro de Radiologia (CBR, Brazilian College of Radiology), evaluating its failures and successes. Materials and Methods: 165 questions from the CBR annual resident assessment (2018, 2019, and 2022) were presented to ChatGPT. For statistical analysis, the questions were divided by the type of cognitive skills assessed (lower or higher order), by topic (physics or clinical), by subspecialty, by style (description of a clinical finding or sign, clinical management of a case, application of a concept, calculation/classification of findings, correlations between diseases, or anatomy), and by target academic year (all, second/third year, or third year only). Results: ChatGPT answered 88 (53.3%) of the questions correctly. It performed significantly better on the questions assessing lower-order cognitive skills than on those assessing higher-order cognitive skills, providing the correct answer on 38 (64.4%) of 59 questions and on only 50 (47.2%) of 106 questions, respectively (p = 0.01). The accuracy rate was significantly higher for physics questions than for clinical questions, correct answers being provided for 18 (90.0%) of 20 physics questions and for 70 (48.3%) of 145 clinical questions (p = 0.02). There was no significant difference in performance among the subspecialties or among the academic years (p > 0.05). Conclusion: Even without dedicated training in this field, ChatGPT demonstrates reasonable performance, albeit still insufficient for approval, on radiology questions formulated by the CBR. Objective CBR, (CBR Radiology, Radiology , Radiology) successes Methods 16 2018, 2018 (2018 2019 2022 analysis lower order, order order) clinical, clinical) subspecialty description sign case concept calculationclassification calculation classification findings diseases anatomy, anatomy anatomy) all, all (all secondthird second only. . only) Results 8 53.3% 533 53 3 (53.3% correctly lowerorder higherorder 64.4% 644 64 4 (64.4% 5 47.2% 472 47 2 (47.2% 10 p 0.01. 001 0.01 0 01 0.01) 1 90.0% 900 90 (90.0% 7 48.3% 483 48 (48.3% 14 0.02. 002 0.02 02 0.02) 0.05. 005 0.05 05 0.05) Conclusion field approval 201 (201 202 53.3 (53.3 64.4 6 (64.4 47.2 (47.2 00 0.0 90.0 9 (90.0 48.3 (48.3 (20 53. (53. 64. (64. 47. (47. 0. 90. (90. 48. (48. (2 (53 (64 (47 (90 (48 ( (5 (6 (4 (9
Resumo Objetivo: Testar o desempenho do ChatGPT em questões de radiologia formuladas pelo Colégio Brasileiro de Radiologia (CBR), avaliando seus erros e acertos. Materiais e Métodos: 165 questões da avaliação anual dos residentes do CBR (2018, 2019 e 2022) foram apresentadas ao ChatGPT. Elas foram divididas, para análise estatística, em questões que avaliavam habilidades cognitivas de ordem superior ou inferior e de acordo com a subespecialidade, o tipo da questão (descrição de um achado clínico ou sinal, manejo clínico de um doente, aplicação de um conceito, cálculo ou classificação dos achados descritos, associação entre doenças ou anatomia) e o ano da residência (R1, R2 ou R3). Resultados: O ChatGPT acertou 53,3% das questões (88/165). Houve diferença estatística entre o desempenho em questões de ordem cognitiva inferior (64,4%; 38/59) e superior (47,2%; 50/106) (p = 0,01). Houve maior índice de acertos em física (90,0%; 18/20) do que em questões clínicas (48,3%; 70/145) (p = 0,02). Não houve diferença significativa de desempenho entre subespecialidades ou ano de residência (p > 0,05). Conclusão: Mesmo sem treinamento dedicado a essa área, o ChatGPT apresenta desempenho razoável, mas ainda insuficiente para aprovação, em questões de radiologia formuladas pelo CBR. Objetivo CBR, , (CBR) Métodos 16 2018, 2018 (2018 201 2022 divididas subespecialidade descrição sinal doente conceito descritos anatomia R1, R1 R (R1 R3. R3 . R3) Resultados 533 53 3 53,3 88/165. 88165 88/165 88 (88/165) 64,4% 644 64 4 (64,4% 38/59 3859 38 59 47,2% 472 47 2 (47,2% 50/106 50106 50 106 p 0,01. 001 0,01 0 01 0,01) 90,0% 900 90 (90,0% 18/20 1820 18 20 48,3% 483 48 (48,3% 70/145 70145 70 145 0,02. 002 0,02 02 0,02) 0,05. 005 0,05 05 0,05) Conclusão área razoável aprovação (CBR 1 (201 202 (R 5 53, 8816 88/16 8 (88/165 64,4 6 (64,4 38/5 385 47,2 (47,2 50/10 5010 10 00 0,0 90,0 9 (90,0 18/2 182 48,3 (48,3 70/14 7014 7 14 (20 881 88/1 (88/16 64, (64, 38/ 47, (47, 50/1 501 0, 90, (90, 18/ 48, (48, 70/1 701 (2 88/ (88/1 (64 (47 50/ (90 (48 70/ ( (88/ (6 (4 (9 (88 (8