OBJETIVO: Comparar notas do Conceito Global Itemizado (CGI) e da Avaliação Estruturada (AE), atribuídas por três especialidades - Ginecologia e Obstetrícia (GO), Clínica Médica (CM) e Pediatria (Ped) - a alunos em final de estágio clínico nas unidades básicas de saúde. MÉTODOS: Cento e seis alunos do 4º ano médico foram avaliados por um docente de cada especialidade, utilizando CGI contendo seis domínios de habilidades técnicas (CGIt) e sete domínios humanísticos (CGIh), em escala 0-10, e pela AE resultante de observação de atendimento. Para análise estatística, utilizaram-se coeficientes de Cronbach, testes de Friedman e pareados de Wilcoxon, coeficientes de correlação de Spearman e Pearson e distâncias Euclidianas (p< 0,05). RESULTADOS: Houve alta consistência interna do CGI nas especialidades (>0,92). As distribuições das notas concentraram-se no extremo superior da escala. As notas de Ped foram significativamente inferiores às de GO e CM (diferenças de medianas entre 0,50 e 0,67), com correlações baixas entre elas (-0,02<R<0,48). Os domínios que tiveram maior impacto na confiabilidade do CGI foram: julgamento clínico (GO e Ped), solução de problemas (CM) e capacidade de auto-reflexão (Ped). As notas de GO e Ped mostraram a menor concordância; as de GIRt de Ped foram as mais discordantes das outras notas. CONCLUSÃO: As especialidades têm visões distintas sobre como avaliar alunos, mesmo utilizando instrumentos semelhantes, o que pode ser reflexo de "cultura" de cada uma delas. Permanece o desafio de minimizar tais diferenças com atividades de desenvolvimento docente.
OBJECTIVE: To compare medical students' global itemized ratings (GIR) and real-case structured clinical assessment (RC-SCA), generated by faculty members from three different specialties (Gynecology-O&G, Internal Medicine-IM, Pediatrics-Ped). METHOD: 106 Y4 learners were assessed by one faculty member from each specialty, who filled in GIR, consisting of 6 technicaldomains (mean score GIRt) and 7 humanistic domains (mean score GIRh), on a 0-10 scale, and resultant RC-SCA, from direct attendance observation. Statistical analyses used Cronbach coefficient, Friedman and Wilcoxon paired tests, Pearson and Spearman correlation coefficients, Euclidean distances. Significance level=5%. RESULTS: High internal consistency was observed in the three GIR (> 0.92). Ratings were negatively skewed. Ped scores were significantly lower than O&G and IM (median differences between 0.50 and 0.67), with low correlations between them (-0.02<R<0.48). the domains that had greater impact on the reliability of GIR were: clinical judgment (O&G and Ped), problem-solving (IM), and self-reflective skills (Ped). O&G and Ped scores showed the smallest agreement; GIRt Ped scores showed the greatest disagreement with all the other scores. CONCLUSION: The specialties have different views on how to evaluate students' skills, inspite of using similar instruments, which can be a reflection of their "culture". the challenge remains to minimize these differences through faculty development activities.