Contratación Remota e Integridad de Evaluación

Trampa con IA en la Contratación Remota: Por Qué las Evaluaciones Junior Son las Más Vulnerables

Cuando el candidato está frente a ti, la integridad es visible. La contratación remota eliminó esa barrera — y la IA convirtió un riesgo menor en un problema estructural que rompe la evaluación precisamente en los puestos donde más importa verificar el conocimiento.

Antonio Romero 10 de junio de 2026 11 min de lectura

La contratación remota eliminó la barrera natural

Durante la mayor parte de la historia de la selección de personal, la integridad de las evaluaciones se garantizaba por proximidad. Cuando un candidato realiza una prueba en tu oficina, las condiciones son visibles: una pantalla, sin teléfono, una sala con otras personas. No es un sistema perfecto — siempre fue posible hacer trampa — pero la fricción era real. Requería esfuerzo, y el esfuerzo dejaba rastros.

La contratación remota, hoy práctica habitual en la mayoría de los sectores y prácticamente universal en puestos técnicos, disolvió esa fricción. El candidato realiza la evaluación en su propio dispositivo, en su propio espacio, en el horario que elige. Las condiciones son invisibles para el equipo de selección. Si algo más está ocurriendo en esa pantalla es, por defecto, desconocido.

Durante años el riesgo práctico fue moderado. Buscar una respuesta en Google o preguntar a un compañero era posible pero limitado: requería cambiar de contexto, añadía tiempo y producía respuestas que el candidato aún tenía que interpretar y reformular. La señal no era limpia, pero tampoco estaba irremediablemente rota.

La llegada de asistentes de IA capaces cambió el cálculo por completo. Pegar una pregunta de evaluación en una ventana de ChatGPT y recibir una respuesta correcta y bien redactada lleva segundos. El candidato no interpreta, no reformula ni siquiera lee el texto completo. Copia. La respuesta en su pantalla parece trabajo genuino. No hay penalización de tiempo, no hay fricción, y no hay nada visible para un evaluador remoto. La prueba mide a la IA. El candidato obtiene la puntuación.

No todos los puestos son igualmente vulnerables

Antes de tratar esto como una crisis universal, vale la pena hacer una distinción que la mayoría de los análisis sobre trampas con IA pasan por alto: el problema no es uniforme en todos los tipos de puestos. Su gravedad depende enteramente de lo que la evaluación intenta medir — y eso varía significativamente según el nivel de seniority.

Puestos senior y de arquitectura: midiendo el pensamiento, no las respuestas

Para ingenieros senior, arquitectos, líderes técnicos y puestos similares, lo más valioso que hay que evaluar no es lo que el candidato sabe — es cómo piensa. ¿Qué compromisos considera al diseñar un sistema? ¿Cómo aborda un problema ambiguo? ¿Qué suposiciones hace explícitas? ¿Cómo razona sobre los modos de fallo?

Estas preguntas no tienen una respuesta correcta que buscar. La evaluación es la conversación. Un modelo de IA puede producir un diagrama de diseño de sistemas técnicamente competente, pero no puede simular el proceso de razonamiento del candidato en tiempo real, explicar las decisiones tomadas ni responder de forma coherente cuando se cuestionan las suposiciones de partida. La evaluación de nivel senior es inherentemente más resistente a las trampas con IA porque el formato — discusión abierta, pizarrón en tiempo real, diálogo técnico estructurado — mide un proceso que no puede externalizarse.

Esto no significa que las evaluaciones senior sean inmunes. Un candidato que usa IA para preparar un discurso memorizado para una discusión de arquitectura hace algo distinto a un candidato que puede razonar a través de esa discusión en tiempo real, y los entrevistadores experimentados suelen detectar la diferencia. Pero la validez fundamental de la evaluación es mucho más difícil de romper en este nivel.

Puestos junior y mid-level: aquí es donde se rompe

Las evaluaciones de junior y mid-level existen por una razón fundamentalmente diferente: verificar que el candidato tiene conocimiento práctico real de las herramientas, conceptos y métodos que el puesto requiere. ¿Puede realmente escribir una consulta SQL que una tres tablas correctamente? ¿Entiende qué es un closure en JavaScript? ¿Puede implementar un endpoint REST básico sin consultar documentación?

Estas son preguntas de conocimiento. Tienen respuestas correctas e incorrectas. Y son exactamente el tipo de pregunta que los modelos de IA responden perfectamente, al instante, sin ninguna indicación de si el candidato entendió una sola palabra.

Cuando un candidato junior usa ChatGPT para completar una evaluación técnica, el equipo de selección no recibe una medición del conocimiento del candidato. Recibe una medición de si ChatGPT puede aprobar la prueba — lo cual puede hacer, de forma fiable y a escala. La decisión de contratación se toma entonces con datos corruptos. La empresa contrata a alguien cuyo nivel de conocimiento real es desconocido. Los candidatos honestos que completaron la evaluación sin asistencia compiten contra el resultado de una IA en un terreno de juego que no es justo en absoluto.

Esto no es una preocupación teórica. Está ocurriendo en todo el sector, y los candidatos que usan asistencia de IA tienen una ventaja estructural sobre quienes eligen no hacerlo. Ese es el problema de integridad.

"Cuando un candidato junior usa IA para completar una evaluación técnica, no recibes una medición del candidato. Recibes una medición de si la IA puede aprobar la prueba — lo cual puede hacer, de forma fiable y a escala."

Qué hace realmente el monitoreo de equidad

La respuesta instintiva a este problema — y una que vale la pena resistir — es tratarlo como un desafío de vigilancia: observar todo, atrapar a los tramposos, sancionarlos. Ese enfoque produce sistemas que se sienten adversariales y generan tantos falsos positivos como detecciones genuinas.

Un enfoque más útil es el de la calidad de los datos. El propósito de una evaluación online es producir datos de medición fiables sobre un candidato. El monitoreo existe para señalar las sesiones donde la calidad de los datos puede estar comprometida — no para atrapar a malos actores, sino para dar al equipo de RR.HH. la información que necesita para tomar una buena decisión.

En la práctica, el monitoreo de equidad captura señales de comportamiento que correlacionan con asistencia externa: cambios de pestaña, pérdida de foco en la ventana, eventos de pegado desde el portapapeles, patrones de tiempo inusuales en relación con la complejidad de la pregunta, y monitoreo por cámara que confirma el contexto físico. Ninguna de estas señales es concluyente por sí sola — una breve pérdida de foco puede ser una notificación, un evento de pegado puede ser el candidato pegando sus propias notas. Lo que producen es una señal de integridad a nivel de sesión que identifica las sesiones que merecen revisión antes de actuar sobre los resultados.

El resultado no es un veredicto binario. Es una señal que dice: esta sesión mostró patrones consistentes con asistencia externa — revisa antes de decidir. Para la gran mayoría de las sesiones, donde los candidatos completaron la evaluación genuinamente, no se levanta ninguna señal y los resultados se usan directamente. Para las sesiones marcadas, el equipo de RR.HH. tiene el contexto para programar una conversación de seguimiento, pedir al candidato que demuestre su conocimiento en directo, o ejercer su criterio sobre el resultado.

"El monitoreo de equidad no es una herramienta de vigilancia — es una capa de calidad de datos. Su propósito es indicar al equipo de RR.HH. qué resultados pueden usar directamente y qué sesiones merecen una segunda revisión."

El fair play protege a la mayoría honesta

La conversación sobre la integridad en las evaluaciones tiende a centrarse en atrapar a los tramposos. Ese enfoque, aunque comprensible, pasa por alto a la parte más importante: la mayoría de los candidatos que completan las evaluaciones honestamente.

Cuando una bolsa de candidatos incluye una proporción significativa de resultados asistidos por IA junto a los genuinos, los candidatos honestos se encuentran en desventaja estructural. Su nivel de conocimiento real — que puede ser excelente — compite directamente contra el output de una IA. Si la empresa usa rankings de puntuación para preseleccionar candidatos, la parte superior de la lista se inclina hacia los usuarios de IA independientemente de la capacidad subyacente. El candidato honesto que quedó por debajo de una puntuación asistida por IA nunca aparece en la decisión de contratación.

La empresa también paga por esto, aunque de forma menos inmediata. El primer feedback llega meses después, cuando el onboarding revela una brecha de conocimiento que la evaluación debería haber detectado. Para entonces, el coste de contratación está consumido, el equipo está afectado y la causa raíz es invisible en los datos.

El monitoreo de equidad es, en este sentido, menos sobre atrapar tramposos y más sobre preservar la señal que la evaluación fue diseñada para producir — para que la puntuación que obtiene un candidato realmente lo represente a él, y no a una herramienta que tenía abierta en otra pestaña.

Aplicando esto en tu proceso de contratación remota

La implicación práctica de este análisis es una calibración en cómo diseñas las evaluaciones e interpretas los resultados según el nivel del puesto.

Para puestos senior y de arquitectura, apóyate en formatos que son inherentemente difíciles de falsificar: discusiones técnicas en directo, sesiones de revisión de arquitectura, descomposición de problemas en tiempo real. Estos formatos ya son comunes en niveles senior en muchas organizaciones. Su resistencia a la asistencia de IA es una ventaja estructural que vale la pena preservar deliberadamente — no reemplazar con una prueba para hacer en casa que un modelo puede completar sin supervisión.

Para puestos junior y mid-level, combina formatos de evaluación de conocimiento con monitoreo de equidad que produzca datos de integridad a nivel de sesión. Establece una política interna clara antes de necesitarla: las sesiones marcadas reciben una pregunta de seguimiento, no un rechazo automático. Esto protege a los candidatos honestos de los falsos positivos y da al equipo de selección una base fiable para actuar sobre los resultados.

La combinación — formato de evaluación adaptado a lo que el puesto realmente requiere, combinado con el monitoreo apropiado para los requisitos de integridad de ese formato — produce datos de contratación fiables en ambos niveles sin convertir el proceso en un ejercicio adversarial para los candidatos que participan de buena fe.

Plataformas como Calibers.ai incluyen la supervisión en tiempo real como capa integrada de las evaluaciones técnicas remotas, generando informes de integridad de sesión junto a los resultados de los candidatos, para que los equipos de RR.HH. tengan tanto la medición como el contexto de calidad en un único flujo de trabajo.

Preguntas frecuentes

¿Pueden los candidatos usar ChatGPT durante las evaluaciones online?

Sí — y a escala. Nada en el entorno estándar de evaluación remota impide que un candidato tenga un asistente de IA abierto en otra ventana. La prueba ve respuestas correctas; el equipo de selección ve una puntuación aprobatoria. Para las evaluaciones técnicas de nivel junior y mid-level esto es un problema material de integridad, porque esas evaluaciones están diseñadas específicamente para verificar conocimientos que la IA puede suministrar bajo demanda.

¿Qué monitorea realmente el proctoring de evaluaciones remotas?

El proctoring moderno captura señales de comportamiento correlacionadas con asistencia externa: cambios de pestaña, pérdida de foco en la ventana, eventos de pegado desde el portapapeles, patrones de tiempo en relación con la complejidad de las preguntas, y cámara para confirmar el contexto físico. Ninguna señal individual es concluyente — se agregan en una puntuación de integridad de sesión que señala las sesiones para revisión por parte de RR.HH., en lugar de rechazar candidatos automáticamente.

¿Afectan las trampas con IA a las evaluaciones de nivel senior?

Menos que a las de nivel junior, porque las evaluaciones senior miden algo distinto. Las discusiones de arquitectura, las sesiones de diseño de sistemas y el diálogo técnico en directo evalúan el proceso de razonamiento del candidato — no su capacidad de recuperar respuestas correctas. Ese proceso es difícil de externalizar a una IA en tiempo real. La validez fundamental de los formatos de evaluación senior es más robusta a la asistencia de IA que los formatos de verificación de conocimiento diseñados para puestos junior y mid-level.

¿Cómo saber si un candidato usó IA durante una evaluación?

Raramente con certeza. Lo que produce el monitoreo es probabilístico: una sesión con pérdidas de foco repetidas, patrones de respuesta con mucho pegado y tiempos inusuales en relación con la complejidad de las preguntas es más probable que refleje asistencia externa que una sesión limpia. La respuesta apropiada es la revisión y verificación — una conversación de seguimiento o una comprobación de conocimiento en directo — no la descalificación automática.

¿Es el proctoring online una invasión de la privacidad del candidato?

El alcance de lo que monitorea importa significativamente. El monitoreo de señales de comportamiento — cambios de pestaña, eventos de foco, actividad del portapapeles — opera a nivel de aplicación y no captura la pantalla o el sistema más amplio del candidato. El monitoreo por cámara cubre únicamente la sesión de evaluación. Los candidatos deben ser informados del monitoreo antes de comenzar. El límite entre un monitoreo de integridad razonable y una vigilancia invasiva es uno que las organizaciones contratantes deben definir explícitamente en su política de evaluación.

Sobre el autor

Antonio Romero

Ingeniero Electrónico · Líder de Operaciones y Tecnología · Director de Operaciones, Airelia LLC

Antonio Romero es Ingeniero de Electrónica y Telecomunicaciones con más de dos décadas reclutando y liderando equipos técnicos en operaciones de ciberseguridad en Latinoamérica, Estados Unidos y Europa — entornos donde el costo de una contratación equivocada no se mide en productividad perdida, sino en fallas de respuesta ante incidentes.

Ese contexto obligó a una reflexión temprana sobre qué distingue realmente a las personas que se mantienen sólidas bajo presión sostenida. El conocimiento técnico importa al momento de entrar, pero los ingenieros que se ganaron la confianza de sus equipos y crecieron hacia roles de liderazgo compartían de forma consistente un conjunto de rasgos de personalidad: responsabilidad, apertura intelectual genuina y un compromiso real con hacer las cosas bien incluso cuando nadie miraba. Ese patrón, observado a lo largo de cientos de decisiones de contratación, fue lo que llevó al desarrollo de Calibers.ai.

Ingeniero de Electrónica y Telecomunicaciones. Estudios de posgrado en Dirección Estratégica (ITBA, Buenos Aires) y Gestión de la Tecnología (EOI, Madrid).

Conectar en LinkedIn →