Evaluación Técnica

Cómo evaluar ingenieros de software: más allá de la prueba técnica

Las pruebas técnicas miden una sola dimensión de la capacidad de ingeniería. El framework de contratación más predictivo para desarrolladores combina una prueba técnica de muestra de trabajo, evaluación cognitiva y medición estructurada de personalidad — y el orden en que se aplican importa.

Antonio Romero 18 de mayo de 2026 11 min de lectura

Por qué la prueba técnica sola no es suficiente

El proceso de contratación dominante para ingenieros de software en todo el mundo sigue un patrón reconocible: revisar el CV, aplicar un desafío de código, realizar una o varias entrevistas técnicas y hacer una oferta. La evaluación técnica es la barrera de entrada. Supera el código y avanzas. Todo lo demás es un trámite.

Este patrón tiene un problema de validez significativo. La investigación sobre formatos de entrevista técnica — incluido un influyente estudio de 2019 de Behroozi, Shirolkar, LaToza y Parnin — encontró que las entrevistas de código en pizarrón están dominadas por la ansiedad de desempeño de formas que aumentan la varianza de puntuaciones sin añadir señal predictiva. El resultado de un candidato en la pizarrón se ve afectado por si practicó recientemente ese tipo de problema específico, su respuesta de ansiedad ante la observación, y el entrevistador particular que le tocó — no solo por su capacidad de ingeniería subyacente.

El problema de validez predictiva se agrava con el formato. Los problemas algorítmicos al estilo LeetCode — recorrido de árboles binarios, puzzles de programación dinámica, implementaciones de búsqueda en grafos — miden la capacidad de recordar y aplicar patrones específicos de ciencias de la computación bajo presión de tiempo. Esa habilidad puede entrenarse directamente y de forma eficiente con práctica. Ingenieros que pueden permitirse coaching de entrevistas o dedicar semanas a practicar algoritmos obtendrán mejores puntuaciones que ingenieros que simplemente son mejores construyendo software de producción. La prueba mide la preparación más que el desempeño.

Nada de esto significa que la evaluación técnica no valga la pena. Las pruebas de muestra de trabajo — que replican el trabajo real que el candidato realizaría en el puesto — tienen una de las valideces predictivas más altas de cualquier herramienta de selección. El problema no es la evaluación técnica en sí misma; es tratar una sola pantalla técnica mal diseñada como el cuadro completo de un candidato de ingeniería.

El perfil cognitivo de los ingenieros de software de alto desempeño

La ingeniería de software es cognitivamente exigente de maneras específicas y medibles. La literatura de psicología organizacional sobre capacidad cognitiva y desempeño en roles técnicos señala tres dimensiones como especialmente relevantes para los desarrolladores.

Razonamiento abstracto y lógico

El razonamiento abstracto — la capacidad de identificar patrones, inferir reglas y razonar sobre sistemas novedosos sin depender de conocimiento previo del dominio — es la dimensión cognitiva con mayor poder predictivo sobre el desempeño en ingeniería de software. Se mapea directamente a los desafíos centrales del trabajo: razonar sobre un sistema que nunca se ha visto antes, depurar un fallo en código que no se escribió, diseñar una abstracción que se sostendrá bajo requisitos que no se pueden anticipar completamente.

El razonamiento abstracto también es la dimensión cognitiva más independiente del idioma y el contexto cultural, lo que tiene implicaciones prácticas para la contratación técnica en contextos multinacionales. Un candidato cuyo inglés escrito es imperfecto puede aun así puntuar en la cima de la distribución de razonamiento abstracto — y esa puntuación predice el desempeño en ingeniería independientemente de la brecha idiomática.

Memoria de trabajo

La memoria de trabajo — la capacidad de retener y manipular activamente múltiples piezas de información de forma simultánea — se vuelve progresivamente más relevante a medida que aumenta la seniority en ingeniería. Los ingenieros junior trabajan principalmente dentro de límites de tarea bien definidos. Los ingenieros senior y los líderes técnicos deben mantener en mente el grafo completo de dependencias de una funcionalidad, rastrear casos límite en múltiples sistemas interactuantes, razonar sobre los efectos en cascada de decisiones arquitectónicas y mantener contexto a través de múltiples flujos de trabajo simultáneamente.

La capacidad de memoria de trabajo es una razón por la que los ingenieros senior de alto desempeño parecen cualitativamente diferentes de sus pares incluso cuando el conocimiento técnico y la experiencia son similares. La diferencia a menudo no es lo que saben — es cuánto pueden mantener en memoria de trabajo al mismo tiempo mientras razonan sobre el problema.

Razonamiento verbal

El razonamiento verbal es consistentemente subvalorado en la evaluación de desarrolladores, pero la evidencia sobre su relevancia es sólida. La ingeniería de software por encima del nivel junior requiere producción continua de artefactos escritos complejos: especificaciones técnicas, registros de decisiones arquitectónicas, comentarios de revisión de código, post-mortems de incidentes, documentos de diseño y comunicaciones con interlocutores de producto y negocio.

Los ingenieros con alto razonamiento verbal escriben descripciones de pull requests más claras, producen documentación más útil, comunican restricciones técnicas a interlocutores no técnicos con mayor eficacia y generan menos malentendidos que requieren ciclos de aclaración costosos. Para roles que involucran liderazgo técnico, diseño de sistemas o colaboración externa significativa, el razonamiento verbal no es un complemento deseable — es un predictor directo de la calidad del resultado.

"El razonamiento abstracto es el principal predictor cognitivo para ingenieros de software: se mapea directamente a razonar sobre sistemas desconocidos, depurar código ajeno y diseñar abstracciones que se sostengan bajo requisitos futuros inciertos."

Qué dice la ciencia de la personalidad sobre el desempeño de los desarrolladores

La evaluación de personalidad tiene una reputación mixta en los círculos de contratación técnica, frecuentemente descartada como impresiones subjetivas o psicología popular. Esta reputación no refleja la evidencia científica. Los modelos de personalidad validados — en particular HEXACO — tienen validez predictiva demostrada para el desempeño laboral en distintos tipos de roles, incluidos los técnicos, cuando se administran como instrumentos psicométricos estructurados y no como impresiones conversacionales.

Responsabilidad (Conscientiousness) en HEXACO: la señal de fiabilidad

En prácticamente todos los conjuntos de datos sobre desempeño laboral en psicología organizacional, la Responsabilidad es el predictor de personalidad más consistente de la calidad del colaborador individual. En ingeniería de software, esto se manifiesta como disciplina de calidad de código — escribir tests, mantener documentación, seguir convenciones de nomenclatura, identificar casos límite antes de la revisión — así como fiabilidad en estimaciones, compromisos y seguimiento de reconocimientos de deuda técnica.

Los ingenieros con alta Responsabilidad son aquellos cuyos pull requests son consistentemente bien delimitados, cuyos tickets están estimados con precisión y cuyo código requiere menos ciclos de revisión. No es una preferencia de personalidad — es un predictor medible de la calidad del resultado que aparece de forma fiable en evaluaciones de desempeño, tasas de incidentes y métricas de fiabilidad en guardia.

Apertura a la Experiencia: la señal de adaptabilidad

La ingeniería de software tiene una vida media del conocimiento técnico más corta que casi cualquier otra disciplina profesional. Los lenguajes pasan de moda; los frameworks son superados; los paradigmas arquitectónicos cambian. Los ingenieros que puntúan alto en Apertura a la Experiencia se adaptan a estos cambios más rápido, experimentan menos resistencia al reaprendizaje y tienden a mantener actualización técnica de forma más efectiva a lo largo de una trayectoria de varios años que los ingenieros con puntuaciones menores que prefieren los métodos establecidos.

Para roles que involucren trabajo significativo en greenfield, migraciones de tecnología o trabajo en áreas de rápida evolución — infraestructura de machine learning, arquitecturas cloud-native, lenguajes emergentes — la Apertura a la Experiencia es un predictor primario del ajuste a largo plazo al rol, no solo del desempeño inicial.

Honestidad-Humildad: la señal de ajuste al equipo

El sexto factor del modelo HEXACO — Honestidad-Humildad — no tiene equivalente directo en los modelos Big Five ni en D/I/S/C. Captura la tendencia hacia un comportamiento sincero, justo y sin pretensiones en las interacciones con otros, en contraposición a comportamientos manipuladores, interesados o que buscan la atención. En contextos de ingeniería de software, la Honestidad-Humildad es el mejor predictor de personalidad del comportamiento colaborativo en revisiones de código, la disposición a reconocer errores en post-mortems y la evitación de la dinámica del "genio tóxico" — el ingeniero cuyo rendimiento técnico individual es alto pero cuyo impacto colaborativo sobre el equipo circundante es negativo.

Los equipos con puntuaciones promedio bajas de Honestidad-Humildad tienden a acumular deuda interpersonal junto con su deuda técnica. Los ingenieros con alta Honestidad-Humildad son desproporcionadamente valiosos en revisiones de código, discusiones arquitectónicas y respuesta a incidentes — contextos donde la honestidad intelectual y la disposición a equivocarse públicamente determinan cuánto aprende realmente el equipo.

Perfiles conductuales D/I/S/C en ingeniería

Mientras HEXACO describe rasgos de personalidad estables, D/I/S/C (Dominancia, Influencia, Estabilidad, Responsabilidad) describe tendencias conductuales y estilo de comunicación — cómo una persona prefiere actuar e interactuar en el trabajo, especialmente bajo presión. Ambas dimensiones añaden valor en la evaluación de desarrolladores; miden cosas distintas y no se sustituyen mutuamente.

Los perfiles C (Responsabilidad) aparecen con frecuencia entre los colaboradores individuales de alto desempeño: metódicos, orientados a la calidad, detallistas y sistemáticos en su enfoque. Producen código fiable y bien testeado, pero pueden necesitar apoyo cuando los requisitos son deliberadamente ambiguos o cuando la velocidad se prioriza sobre la exhaustividad.

Los perfiles S (Estabilidad) tienden hacia la consistencia, la paciencia y la fiabilidad colaborativa — rasgos que los hacen excelentes en rotaciones de guardia, programación en pareja y roles de mentoría en el equipo. Suelen rendir bien en contextos de ingeniería estables y bien definidos, y pueden necesitar apoyo adicional durante cambios organizacionales rápidos.

Los perfiles D (Dominancia) aparecen con mayor frecuencia entre líderes técnicos, arquitectos y gerentes de ingeniería — roles donde la acción decisiva, la comodidad con la ambigüedad y la disposición a tomar decisiones con información incompleta son importantes. A nivel de colaborador individual, los ingenieros con alto D pueden producir resultados rápidos pero acumular deuda técnica y conflictos en revisiones de código sin contrapesos estructurales.

Los perfiles I (Influencia) son menos frecuentes en roles de colaborador individual profundo, pero están fuertemente representados entre developer advocates, ingenieros de preventas técnicas y seniors cuyo rol involucra evangelización significativa, construcción de comunidad o gestión de interlocutores interfuncionales.

"La Honestidad-Humildad en HEXACO es el mejor predictor de personalidad del comportamiento constructivo en revisiones de código — y la protección más fiable contra la dinámica del 'genio tóxico' que erosiona la productividad del equipo."

El framework de evaluación en tres capas

La evidencia de la investigación en selección apunta a una estructura clara para la contratación de desarrolladores: un compuesto ponderado de evaluación técnica, cognitiva y de personalidad, administrado en una secuencia diseñada para minimizar los efectos halo entre capas.

Capa 1 — Muestra de trabajo técnica

La evaluación técnica debe ser una muestra de trabajo — una tarea que refleje el trabajo de ingeniería real que el candidato realizará en el puesto. Para un ingeniero backend de Python, esto significa revisar un pull request de un módulo Django, depurar un test de integración fallido o extender un servicio pequeño con un nuevo endpoint. Para un ingeniero de datos, significa transformar un dataset desordenado, optimizar una consulta lenta o diseñar el esquema de un pipeline.

Las muestras de trabajo tienen mayor validez predictiva que las pruebas de puzzles algorítmicos y menor impacto adverso sobre candidatos de grupos subrepresentados. También producen señal más accionable para los responsables de contratación: la calidad de los comentarios de revisión de código de un candidato dice mucho más sobre cómo se desempeñará en el trabajo diario que si puede implementar un árbol rojo-negro de memoria bajo presión de observación.

La evaluación técnica debe ir acompañada de una rúbrica estructurada con dimensiones de puntuación predefinidas — calidad del código, corrección, manejo de casos límite, documentación y comunicación, y enfoque ante la ambigüedad. Sin una rúbrica, el sesgo del evaluador domina la puntuación.

Capa 2 — Evaluación cognitiva

La capa cognitiva debe cubrir como mínimo tres dimensiones: razonamiento abstracto, memoria de trabajo y razonamiento verbal. Una batería cognitiva bien diseñada para roles de ingeniería toma aproximadamente entre 25 y 35 minutos y produce puntuaciones normadas por dimensión en lugar de un único compuesto.

Las puntuaciones deben normarse contra una población de ingeniería relevante, no contra distribuciones de la población general. Una puntuación en el percentil 65 de la población general puede estar en el percentil 40 de ingenieros de software — una diferencia significativa al tomar una decisión de contratación por nivel de seniority. Construye distribuciones de puntuaciones por rol a lo largo del tiempo a medida que crece tu grupo de candidatos; cada ciclo de contratación hace que los datos cognitivos sean más útiles que el anterior.

Capa 3 — Evaluación de personalidad

La capa de personalidad debe cubrir tanto HEXACO (para predicción de rasgo estable de desempeño laboral) como D/I/S/C (para estilo conductual y contexto de ajuste al equipo). Juntos añaden aproximadamente entre 25 y 30 minutos de tiempo del candidato y producen interpretaciones relevantes para el rol en lugar de salidas de puntuación bruta.

Los resultados de personalidad son más útiles cuando se interpretan en combinación con los datos cognitivos y técnicos — no de forma aislada. Un candidato con alta Responsabilidad pero bajo razonamiento abstracto será diligente de forma fiable pero puede tener dificultades con problemas de arquitectura ambiguos. Un candidato con razonamiento abstracto muy alto y baja Responsabilidad puede producir código técnicamente brillante pero mal documentado y difícil de mantener. La combinación indica en qué contextos de ingeniería prosperará el candidato y qué estructuras de apoyo necesitará.

Errores frecuentes en las entrevistas técnicas para desarrolladores

El error más generalizado es tratar una sola pantalla técnica como el cuadro completo de la capacidad de ingeniería de un candidato. Una prueba de código, por bien diseñada que esté, produce un único punto de datos. Las decisiones de contratación tomadas con un solo punto de datos tienen alta varianza de error — la varianza que produce tanto rechazos falsos de ingenieros sólidos como aceptaciones falsas de candidatos que rindieron bien en el formato específico de prueba que practicaron.

El segundo error más frecuente es usar el mismo formato de evaluación técnica independientemente del nivel de seniority. Un ingeniero junior debe evaluarse principalmente en corrección del código, patrones básicos de diseño y velocidad de aprendizaje. Un ingeniero senior debe evaluarse en el juicio de diseño de sistemas, la comunicación técnica y la calidad de su razonamiento sobre trade-offs — no en si puede implementar una caché LRU de memoria en 30 minutos.

Tercero: aplicar la evaluación técnica primero y permitir que los entrevistadores conozcan el resultado antes de administrar las evaluaciones posteriores. Si un entrevistador sabe que un candidato superó brillantemente el desafío de código, sus valoraciones en la entrevista estructurada y su interpretación de los resultados de personalidad se ven influenciadas por ese conocimiento — incluso cuando intentan evaluar de forma independiente. El efecto halo no es un sesgo que pueda eliminarse razonando; debe controlarse estructuralmente mediante la secuencia.

Cuarto: confundir la evaluación técnica con una evaluación de ajuste cultural. El "ajuste cultural" evaluado informalmente en entrevistas técnicas es frecuentemente un proxy de similitud demográfica — la preferencia inconsciente del entrevistador por candidatos que se parecen a él. La evaluación estructurada de personalidad y conducta reemplaza este juicio informal con una señal estandarizada y validada que puede auditarse y calibrarse con el tiempo.

Un framework práctico para los equipos de contratación de ingeniería

El framework que emerge de la investigación es directo de implementar, pero requiere secuenciación deliberada y el compromiso de tratar las tres capas de evaluación como insumos genuinos y no como trámites.

Comienza por definir el perfil de éxito de ingeniería para el rol específico antes de seleccionar los instrumentos de evaluación. ¿Qué dimensiones cognitivas son más relevantes? ¿Qué perfil de rasgos HEXACO se correlaciona con el éxito en este contexto de ingeniería? ¿Qué perfil D/I/S/C es consistente con las necesidades de composición del equipo actual? Un rol de arquitecto en solitario y un ingeniero staff colaborativo en un equipo grande no deben usar perfiles de éxito idénticos, aunque utilicen los mismos instrumentos de evaluación.

Administra la evaluación de personalidad y cognitiva primero — antes de ver ningún resultado técnico. Este es el cambio estructural de mayor impacto que la mayoría de los procesos de contratación de ingeniería puede hacer. Garantiza que la señal de cada capa sea genuinamente independiente. Envía el enlace de evaluación antes o simultáneamente con el desafío técnico; exige que se complete antes de revisar los resultados técnicos.

Usa la muestra de trabajo técnica como una capa puntuada con una rúbrica explícita, no como un filtro binario de aprobado/reprobado. Algunos de los candidatos más valiosos producirán código imperfecto en una evaluación de tiempo limitado pero demostrarán un excelente razonamiento sobre trade-offs en sus notas escritas, o señalarán restricciones que investigarían antes de comprometerse con un enfoque. Una rúbrica que puntúa la comunicación y el juicio por separado de la implementación captura esta señal.

Combina las tres capas en un compuesto ponderado. Para la mayoría de los roles de colaborador individual, la evaluación técnica merece el mayor peso (aproximadamente el 40%) dada su relevancia directa con el trabajo, seguida de la evaluación cognitiva (aproximadamente el 35%) y la personalidad como contexto de dirección (aproximadamente el 25%). Para roles senior y de liderazgo técnico, el peso de la evaluación cognitiva debe aumentar — el problema de techo con candidatos cognitivamente limitados se agrava con la seniority, mientras que las habilidades técnicas básicas son más fáciles de verificar mediante evidencia de experiencia. Plataformas como Calibers.ai integran HEXACO, D/I/S/C y evaluación cognitiva en un único flujo de trabajo de evaluación de desarrolladores, produciendo un informe unificado del candidato que mapea cada dimensión a referencias por nivel de rol sin necesidad de conocimientos de psicometría para interpretarlo.

Finalmente, construye distribuciones de puntuaciones con el tiempo. Una puntuación cognitiva solo es interpretable en relación a una población de referencia. Tras 10, 20 y 50 contrataciones de ingeniería, dispones de la base empírica para normalizar tus datos de evaluación contra tu propia población de contratación y correlacionar las puntuaciones de evaluación con las calificaciones de desempeño del primer año. Esos datos de correlación son el resultado más valioso de un programa de evaluación estructurada — te dicen exactamente qué dimensiones son predictivas en tu contexto de ingeniería específico, no solo en la literatura.

Preguntas frecuentes

¿Las pruebas de código predicen el desempeño de un ingeniero de software?

Las pruebas de código predicen algunos aspectos del desempeño, pero su validez es menor de lo que suele asumirse — especialmente para formatos de puzzles algorítmicos tipo LeetCode, que miden más el reconocimiento de patrones practicados que la capacidad de ingeniería real. Las pruebas de muestra de trabajo que replican tareas reales tienen mayor validez predictiva, y esta aumenta aún más al combinarse con evaluación cognitiva y de personalidad.

¿Qué capacidades cognitivas importan más para los ingenieros de software?

El razonamiento abstracto y lógico es la dimensión cognitiva de mayor valor: predice la capacidad de razonar sobre sistemas desconocidos, depurar código ajeno y adaptarse a nuevos paradigmas. La memoria de trabajo es esencial para roles de mayor seniority. El razonamiento verbal predice el desempeño en especificaciones técnicas, revisiones de código y comunicación interfuncional.

¿Qué rasgos de personalidad predicen el desempeño de un ingeniero de software?

La Responsabilidad (Conscientiousness) en HEXACO es el predictor de personalidad más consistente de la calidad del colaborador individual. La Apertura a la Experiencia predice la adaptabilidad tecnológica. La Honestidad-Humildad predice el comportamiento colaborativo y evita la dinámica del genio tóxico. Los perfiles D/I/S/C añaden contexto sobre estilo de comunicación y ajuste al equipo.

¿Cuál es el orden correcto para aplicar las evaluaciones a desarrolladores?

Las evaluaciones cognitivas y de personalidad deben aplicarse antes de que los evaluadores vean los resultados de la prueba técnica. Cuando un evaluador sabe que un candidato tuvo buen desempeño en el código, se genera un efecto halo que infla las valoraciones posteriores. Aplicar primero personalidad y cognitiva garantiza que cada capa produzca señal genuinamente independiente.

¿Qué tiene de malo el formato de entrevista técnica tipo LeetCode?

Las entrevistas tipo LeetCode miden la capacidad de resolver puzzles algorítmicos bajo presión de tiempo — una habilidad entrenable directamente con práctica, pero que correlaciona débilmente con el desempeño diario en ingeniería. También generan ansiedad de evaluación significativa. Las pruebas de muestra de trabajo que reflejan tareas reales tienen mayor validez predictiva y menor impacto adverso sobre candidatos de grupos subrepresentados.

¿Cuánto tiempo debe durar una evaluación completa para desarrolladores?

Un framework completo debería ocupar entre 60 y 90 minutos del tiempo del candidato. Una prueba técnica de muestra de trabajo toma entre 30 y 45 minutos. Una evaluación cognitiva de razonamiento abstracto, memoria de trabajo y razonamiento verbal requiere entre 25 y 35 minutos. Una evaluación de personalidad HEXACO y perfil conductual toma entre 15 y 20 minutos. Distribuir las etapas con intervalos de tiempo reduce la fatiga y mantiene cada señal independiente.

Sobre el autor

Antonio Romero

Ingeniero Electrónico · Líder de Operaciones y Tecnología · Director de Operaciones, Airelia LLC

Antonio Romero es Ingeniero de Electrónica y Telecomunicaciones con más de dos décadas reclutando y liderando equipos técnicos en operaciones de ciberseguridad en Latinoamérica, Estados Unidos y Europa — entornos donde el costo de una contratación equivocada no se mide en productividad perdida, sino en fallas de respuesta ante incidentes.

Ese contexto obligó a una reflexión temprana sobre qué distingue realmente a las personas que se mantienen sólidas bajo presión sostenida. El conocimiento técnico importa al momento de entrar, pero los ingenieros que se ganaron la confianza de sus equipos y crecieron hacia roles de liderazgo compartían de forma consistente un conjunto de rasgos de personalidad: responsabilidad, apertura intelectual genuina y un compromiso real con hacer las cosas bien incluso cuando nadie miraba. Ese patrón, observado a lo largo de cientos de decisiones de contratación, fue lo que llevó al desarrollo de Calibers.ai.

Ingeniero de Electrónica y Telecomunicaciones. Estudios de posgrado en Dirección Estratégica (ITBA, Buenos Aires) y Gestión de la Tecnología (EOI, Madrid).

Conectar en LinkedIn →