La IA como ente evaluador

La irrupción de los modelos de lenguaje en la academia se discutió, casi de inmediato, desde un solo ángulo: cómo impedir que el estudiantado los use para resolver sus actividades. Pero el fenómeno tiene dos caras, y la segunda rara vez se examina con el mismo rigor. La IA generativa no solo cambió lo que puede hacer quien es evaluado; cambió también lo que hace, y lo que cree poder hacer, quien evalúa.

Este texto parte de una observación incómoda: en muchos cursos se prohíbe al estudiantado emplear IA para producir sus entregas mientras, al mismo tiempo, parte del profesorado recurre a herramientas basadas en IA para decidir si esas entregas fueron generadas artificialmente, o incluso para asignarles una calificación. Se configura una asimetría: la misma tecnología que se considera ilegítima en manos del evaluado se asume fiable, neutral y suficiente en manos del evaluador.

Lo que dice la evidencia

La literatura reciente es consistente, y poco alentadora para quien espera de estas herramientas una garantía.

Sobre la detección, una prueba sistemática de catorce herramientas concluyó que no son ni precisas ni fiables¹: tienden a clasificar el texto como humano y se las engaña con transformaciones tan simples como parafrasear o traducir. En el plano teórico, a medida que los modelos mejoran, el texto que producen se vuelve estadísticamente indistinguible del humano, de modo que la detección fiable es, en el límite, inviable². A los límites de exactitud se suma uno de justicia: los detectores marcan erróneamente como “generado por IA” más de la mitad de los ensayos escritos por hablantes no nativos de inglés³, penalizando un estilo y no una conducta. El reconocimiento más elocuente vino del propio sector: OpenAI retiró su clasificador de texto en 2023 por su baja exactitud⁴. Y las consecuencias no son hipotéticas: hay estudiantes acusados injustamente a partir de un falso positivo que no pueden refutar⁵.

Sobre el LLM como juez, cuando el modelo no detecta sino que califica, aparecen sesgos sistemáticos bien documentados: sesgo de posición (se prefiere lo que aparece primero), de verbosidad (se premia la longitud) y de auto-preferencia (se favorece el texto del propio estilo del modelo)^6, 7. Un juez que altera su veredicto según el orden, la extensión o el estilo no está midiendo exclusivamente lo que dice medir.

Y hay una propiedad técnica decisiva que el debate pedagógico suele pasar por alto: estos sistemas son probabilísticos, no deterministas. Generan texto por muestreo, así que la misma consulta sobre el mismo documento puede producir respuestas distintas en cada ejecución⁸, y esa no-determinación puede persistir incluso con la aleatoriedad nominalmente desactivada⁹. En evaluación, esto se traduce en varianza: una sola corrida puede inducir a error si no se acompaña de la varianza sobre múltiples ejecuciones¹⁰.

Frente a esto, los organismos que han tomado el problema en serio coinciden en desplazar el foco desde la vigilancia hacia el rediseño: UNESCO reclama un enfoque centrado en la agencia humana¹¹, y reguladores como TEQSA¹² y QAA¹³ reconocen que los detectores no garantizan la integridad y recomiendan repensar la evaluación en lugar de limitarse a prohibir.

La problemática: la asimetría evaluado–evaluador

La prohibición al evaluado tiene una justificación razonable: si el objetivo de una actividad es desarrollar una competencia (argumentar, programar, demostrar, sintetizar), delegar esa tarea en una herramienta generativa vacía la actividad de su sentido formativo.

La asimetría aparece del otro lado de la mesa. Para verificar el cumplimiento de esa prohibición, parte del profesorado recurre a detectores de IA, y en algunos casos emplea un LLM para asignar directamente la nota o redactar la retroalimentación. Se llega así a una situación paradójica: la misma clase de tecnología que se reputa ilegítima cuando la usa el evaluado se asume válida, suficiente y neutral cuando la usa el evaluador. Defender una sanción sobre la base de un instrumento que sus propios fabricantes y la literatura consideran poco confiable traslada al evaluado el costo de la incertidumbre del evaluador.

La consecuencia más visible es un aumento de la desconfianza estructural. El evaluador, ante la sospecha de que cualquier entrega pudo ser generada por IA, adopta una vigilancia por defecto; el evaluado, ante la posibilidad de un falso positivo que no puede refutar técnicamente, percibe el proceso como arbitrario. La relación educativa, que requiere un mínimo de confianza para funcionar, queda tensionada desde ambos extremos.

De fondo asoma una pregunta mayor: si una actividad para casa puede ser resuelta de forma indistinguible por un LLM, ¿qué evidencia de aprendizaje aporta realmente su entrega? El problema no es solo de detección, es de validez de la evaluación como dispositivo para certificar aprendizaje.

Dimensiones éticas y epistémicas

Delegación, validez y responsabilidad. Una calificación es un acto con autoridad institucional y consecuencias materiales sobre una persona. Si la nota proviene de la salida de un modelo, ¿quién responde por ella? La delegación no elimina la responsabilidad del evaluador; a lo sumo la oculta. Y las garantías de validez son débiles: detectores con falsos positivos y negativos, jueces con sesgos. Apoyar una decisión de alto impacto en un instrumento así, sin contrastarlo con el juicio humano, es ofrecer una garantía que el instrumento no puede sostener.

El no-determinismo. Este es, quizá, el punto menos discutido y el más decisivo. Ejecutar la misma revisión N veces sobre el mismo documento puede arrojar resultados distintos en cada iteración: diferentes veredictos, diferentes notas, diferentes justificaciones. No es una anomalía que se corrija con un mejor prompt; deriva de cómo funcionan estos sistemas. Quien desconoce esta propiedad atribuye a un proceso aleatorio la autoridad de un proceso determinista.

La contradicción interna. El argumento que prohíbe al evaluado usar un LLM (que delegar la tarea cognitiva en la máquina vacía el aprendizaje) se aplica con igual fuerza al evaluador que delega en la máquina su propia tarea de juzgar. No puede sostenerse, sin incoherencia, que la herramienta invalida el trabajo del estudiante y, a la vez, valida el del docente.

Opacidad y verificabilidad. Los LLM propietarios empleados para evaluar son, para quien los usa, cajas negras: no se conocen sus datos ni sus pesos, y su comportamiento interno no es auditable. No es una impresión subjetiva: los índices que miden la transparencia de los grandes modelos reportan niveles bajos y desiguales¹⁴, y la literatura especializada desaconseja usar cajas negras en decisiones de alto impacto, justo la categoría a la que pertenece una calificación¹⁵. A esto se suma el argumento de autoridad (“mi herramienta es válida porque la pago o porque me la recomendaron”), que no es evidencia de nada: el precio y el prestigio no son métricas de exactitud. Y cuando el procesamiento ocurre en un servicio en línea, el evaluador no tiene forma de verificar qué ocurre del otro lado. Llevado al extremo lógico, no podría descartar que, en lugar de un análisis sustantivo, el servicio introdujera una demora artificial y devolviera una puntuación de un generador de números aleatorios.

Sin verificabilidad, la confianza en el resultado es un acto de fe, no una garantía epistémica. Un evaluador que no puede inspeccionar el proceso no está en condiciones de responder por él.

Inacción institucional y respuestas defensivas. Entre la guía de alto nivel y la práctica del aula media un vacío: sin criterios claros sobre qué herramientas pueden usarse, con qué salvaguardas y bajo qué umbrales, cada evaluador resuelve por su cuenta un problema estructural. De ahí surgen respuestas defensivas con un costo de equidad: actividades deliberadamente enrevesadas para “tener algo” en qué basar una sospecha, o una exigencia hiperinflada bajo el supuesto de que todo el estudiantado usará IA. Quien no la usa, por convicción o por falta de acceso, queda medido con una vara calibrada para un escenario que no es el suyo. La evaluación deja de medir aprendizaje y empieza a medir, en parte, el acceso a la tecnología.

¿Replantear la evaluación?

Las respuestas defensivas comparten un rasgo: intentan preservar un modelo de evaluación heredado añadiéndole capas de vigilancia o de dificultad. Cabe preguntarse si el problema no estará en el modelo mismo.

Buena parte de las prácticas problemáticas nacen de una brecha de alfabetización: se usan herramientas de IA para decidir sobre el trabajo ajeno sin comprender qué hacen ni qué garantías ofrecen. La capacitación del profesorado aparece como condición previa a cualquier uso responsable, no como mero adiestramiento técnico, sino para internalizar tres ideas que la evidencia vuelve ineludibles: que los detectores no son fiables, que los jueces basados en LLM tienen sesgos sistemáticos, y que sus salidas son probabilísticas y variables.

La pregunta de fondo es si los instrumentos pensados para un mundo sin IA generativa conservan su capacidad de certificar aprendizaje. El caso de las tareas para casa es ilustrativo: una actividad que un LLM resuelve de forma indistinguible deja de aportar evidencia confiable sobre lo que el estudiante sabe hacer¹⁶. Nada de esto implica que carezcan de valor como práctica, pero sí cuestiona su uso como instrumento de certificación. La alternativa que señala la literatura no son instrucciones que el estudiante pueda ignorar, sino cambios estructurales en el diseño de la evaluación¹⁷, orientados a desarrollar su juicio evaluativo¹⁸.

Y queda una pregunta abierta: pese a que el diagnóstico es ampliamente compartido, la transición desde la vigilancia hacia el rediseño avanza con lentitud. Rediseñar exige tiempo, formación y recursos; mientras tanto, cada docente improvisa defensas individuales cuyos efectos sobre la equidad y la confianza ya se conocen.

Reflexión final

La tesis es una sola: el debate se concentró en un lado de la mesa y dejó el otro en penumbra. Reponer la simetría no busca invertir la sospecha, sino restituir una exigencia que vale para todos, que las decisiones con consecuencias sobre las personas se apoyen en garantías verificables y no en suposiciones.

La evidencia no autoriza una condena, pero tampoco la complacencia. Los detectores no son fiables y penalizan estilos legítimos; los modelos usados como jueces arrastran sesgos; sus salidas son probabilísticas; y su funcionamiento interno es, para quien los usa, una caja negra. Ninguno de estos hechos prohíbe por sí mismo el uso de la IA en la evaluación, pero todos juntos imponen una conclusión modesta y firme: estas herramientas no pueden ocupar el lugar del juicio humano; a lo sumo pueden acompañarlo bajo condiciones de transparencia y contraste.

Conviene no perder de vista a quien queda al final de la cadena. Para el evaluado, una nota arbitraria o una acusación que no puede refutar no se agota en el aula: queda en su expediente y condiciona su trayectoria, el acceso a becas, a posgrado o al empleo. A ese costo se suma la desmotivación: cuando el estudiante percibe que la evaluación ya no mide su esfuerzo sino la salida de un sistema opaco que no puede cuestionar, la función formativa se desploma.

La confianza, que es la materia de la que está hecha la relación educativa, no se restaura con sospecha automatizada, sino con procesos que cualquiera de las partes pueda entender, cuestionar y, llegado el caso, refutar. Esa, y no la detección, es probablemente la tarea pendiente.

Si quieres ver el argumento de la caja negra hecho tangible, abre la herramienta: es un detector que no detecta nada, con su código a la vista.

Referencias

Weber-Wulff, D., et al. (2023). Testing of detection tools for AI-generated text. International Journal for Educational Integrity, 19(1), 26. doi.org/10.1007/s40979-023-00146-z
Sadasivan, V. S., et al. (2023). Can AI-Generated Text be Reliably Detected? arXiv:2303.11156. arxiv.org/abs/2303.11156
Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., & Zou, J. (2023). GPT detectors are biased against non-native English writers. Patterns, 4(7), 100779. doi.org/10.1016/j.patter.2023.100779
OpenAI (2023). New AI classifier for indicating AI-written text (discontinuada el 20 de julio de 2023). openai.com
Klee, M. (2023). She Was Falsely Accused of Cheating With AI — And She Won’t Be the Last. Rolling Stone. rollingstone.com
Zheng, L., et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. NeurIPS 2023. arxiv.org/abs/2306.05685
Shi, L., et al. (2024). Judging the Judges: A Systematic Study of Position Bias in LLM-as-a-Judge. arXiv:2406.07791. arxiv.org/abs/2406.07791
Renze, M., & Guven, E. (2024). The Effect of Sampling Temperature on Problem Solving in Large Language Models. Findings of the ACL: EMNLP 2024. doi.org/10.18653/v1/2024.findings-emnlp.432
He, H., & Thinking Machines Lab (2025). Defeating Nondeterminism in LLM Inference. thinkingmachines.ai
Biderman, S., et al. (2024). Lessons from the Trenches on Reproducible Evaluation of Language Models. arXiv:2405.14782. arxiv.org/abs/2405.14782
Miao, F., & Holmes, W. (2023). Guidance for Generative AI in Education and Research. UNESCO. doi.org/10.54675/EWZM9535
Lodge, J. M. (2024). The Evolving Risk to Academic Integrity Posed by Generative AI: Options for Immediate Action. TEQSA. teqsa.gov.au
QAA (2023). Reconsidering Assessment for the ChatGPT Era. qaa.ac.uk
Bommasani, R., et al. (2023). The Foundation Model Transparency Index. arXiv:2310.12941. arxiv.org/abs/2310.12941
Rudin, C. (2019). Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nature Machine Intelligence, 1, 206–215. doi.org/10.1038/s42256-019-0048-x
Kofinas, A. K., Tsay, C. H.-H., & Pike, D. (2025). The impact of generative AI on academic integrity of authentic assessments within a higher education context. British Journal of Educational Technology, 56(6), 2522–2549. doi.org/10.1111/bjet.13585
Corbin, T., Dawson, P., & Liu, D. (2025). Talk is cheap: why structural assessment changes are needed for a time of GenAI. Assessment & Evaluation in Higher Education, 50(7), 1087–1097. doi.org/10.1080/02602938.2025.2503964
Bearman, M., Tai, J., Dawson, P., Boud, D., & Ajjawi, R. (2024). Developing evaluative judgement for a time of generative artificial intelligence. Assessment & Evaluation in Higher Education, 49(6), 893–905. doi.org/10.1080/02602938.2024.2335321