Análisis comparativo de la evaluación humana y la evaluación basada en inteligencia artificial generativa de resúmenes científicos

El presente estudio analiza las diferencias en la evaluación de resúmenes enviados al II Congreso de Investigación Educativa COIE-CIEDU 2024, entre las valoraciones emitidas por dos expertos en el área con las generadas por una inteligencia artificial generativa. Se utilizó una misma rúbrica de evaluación, aplicando pruebas de diferencia de medias a fin de determinar la existencia de discrepancias significativas. Los resultados muestran que, si bien no se hallaron diferencias significativas entre los expertos humanos, sí se identificaron discrepancias estadísticamente significativas entre las evaluaciones humanas y las de la inteligencia artificial generativa (p < 0,05). Este hallazgo evidencia que, aunque el juicio humano mantiene una consistencia metodológica, la inteligencia artificial generativa no logra aún emular los estándares de calidad aplicados por revisores expertos. Se concluye que la inteligencia artificial generativa, aunque útil como herramienta de apoyo en tareas técnicas o administrativas del proceso de revisión, no está aún preparada para desempeñar de forma autónoma funciones de arbitraje académico. Se recomienda su implementación como complemento, bajo protocolos de supervisión humana y con validación continua de su desempeño, a fin de garantizar la equidad, la rigurosidad y la integridad en la evaluación de contenidos científicos.

VIVO