Resumen El fin de este estudio fue evaluar la efectividad de la inteligencia artificial (IA), representada por ChatGPT 4.0, comparada con diseñadores humanos en la creación de ítems para un examen para el ingreso a la educación superior en el área de Lengua Escrita. Se utilizó un enfoque mixto, combinando metodologías clásicas y contemporáneas en evaluación educativa, incluyendo el juicio de expertos. ChatGPT y cuatro diseñadores humanos desarrollaron 84 ítems, siguiendo la Taxonomía de Anderson y Krathwohl para establecer el nivel de demanda cognitiva. Los ítems fueron evaluados por dos jueces humanos y ChatGPT, utilizando una rúbrica detallada que incluye claridad, neutralidad, formato, alineación curricular y redacción. Los resultados mostraron una alta tasa de aceptación sin cambios tanto para ítems de ChatGPT como para los humanos, indicando una buena alineación con los estándares de evaluación. Sin embargo, se observaron diferencias en la necesidad de cambios menores y mayores propuestos por la rúbrica. El estudio concluye que tanto la IA como los diseñadores humanos son capaces de generar ítems de alta calidad, resaltando el potencial de la IA en el diseño de ítems educativos. IA, , (IA) 40 4 0 4.0 Escrita mixto educativa expertos 8 cognitiva claridad neutralidad formato redacción embargo calidad educativos (IA 4.
Resumo O objetivo deste estudo foi avaliar a eficácia da inteligência artificial (IA), representada pelo ChatGPT 4.0, em comparação com designers humanos na criação de itens para um exame de ingresso ao ensino superior na área de Língua Escrita. Utilizou-se uma abordagem mista, combinando metodologias clássicas e contemporâneas em avaliação educacional, incluindo o julgamento de especialistas. O ChatGPT e quatro designers humanos desenvolveram 84 itens, seguindo a Taxonomia de Anderson e Krathwohl para estabelecer o nível de demanda cognitiva. Os itens foram avaliados por dois juízes humanos e pelo ChatGPT, utilizando uma rubrica detalhada que inclui clareza, neutralidade, formato, alinhamento curricular e redação. Os resultados mostraram uma alta taxa de aceitação sem mudanças tanto para itens do ChatGPT quanto para os humanos, indicando um bom alinhamento com os padrões de avaliação. No entanto, foram observadas diferenças na necessidade de mudanças menores e maiores propostas pela rubrica. Conclui-se que tanto a IA quanto os designers humanos são capazes de gerar itens de alta qualidade, destacando o potencial da IA no design de itens educacionais. IA, , (IA) 40 4 0 4.0 Escrita Utilizouse Utilizou se mista educacional especialistas 8 cognitiva clareza neutralidade formato redação entanto Concluise Conclui qualidade educacionais (IA 4.
Abstract The purpose of this study was to evaluate the effectiveness of artificial intelligence (AI), represented by ChatGPT 4.0, compared to human designers in creating items for an exam for entry into higher education in the area of Written Language. A mixed approach was utilized, combining classic and contemporary methodologies in educational evaluation including expert judgment. ChatGPT and four human designers developed 84 items, following Anderson and Krathwohls Taxonomy to establish the level of cognitive demand. The items were evaluated by two human judges and ChatGPT, using a detailed rubric that includes clarity, neutrality, format, curricular alignment, and writing. The results showed a high rate of acceptance without changes for both ChatGPT and human items, indicating good alignment with the evaluation standards. However, differences were observed in the need for minor and major changes proposed by the rubric. The study concludes that both AI and human designers are capable of generating high-quality items, highlighting the potential of AI in the design of educational items. AI, , (AI) 40 4 0 4.0 Language utilized judgment 8 demand clarity neutrality format writing standards However highquality quality (AI 4.