¿Diferencia con la rúbrica de prompts?

Scorecard = plantilla de debrief; rúbrica = playbook con ejercicio en vivo.

¿Qué puntuación aprueba?

Mid: 3+ encuadre/prompt, ningún 1 en seguridad. Senior: dos ejes en 4 con historia prod.

¿Sirve para ML clásico?

Sí—cambia ejes prompt por métricas offline/online; mantén seguridad y comunicación.

Pilar · evaluación

Scorecards LLM que los equipos sí usan

Del instinto a criterios observables: razonamiento, diseño de prompts, disciplina de evaluación y qué es «bueno» en producción.

Toolkit gratuito de contratación IA Guía de contratación IA

Señal, no storytelling

Los roles LLM necesitan dimensiones explícitas—latencia, seguridad, evals, humano en el bucle—si no, manda el carisma.

Dimensiones del scorecard (escala 1–4)

Adapta pesos al rol. Mid-level: 3+ para aprobar; seniors: dos dimensiones en 4.

Dimensión	1 — débil	3 — aprueba	4 — fuerte
Encuadre	Sin métricas	Intent, restricciones, eval	Producto vs límites del modelo
Prompt y herramientas	Desordenado	Roles, ejemplos, formatos	Regresión + límites de tools
Seguridad	Ignora injection/PII	Riesgos nombrados	Guardrails, logs, revisión
Evals en prod	Solo demo	Golden sets, coste/latencia	Prioridades semana 1
Comunicación	Debrief vago	Feedback claro al panel	Enseña la rúbrica

Profundizar: Rúbrica entrevista prompts · Contratar ingenieros LLM

Marcos y rúbricas

Empiece con estos contenidos largos y ajuste pesos.

Cómo presentan pruebas los candidatos

Los perfiles destacan proyectos y herramientas; las ofertas reflejan el mismo vocabulario.

Buscar talento Ver empleos Cómo funciona

FAQ — scorecards LLM

Rúbrica compartida 1–4 en lugar de intuición en el debrief.

Suscríbase a contenido estructurado y noticias del producto.

Newsletter para talento

Consejos de producto, novedades del tablón de empleo y recursos de carrera en IA — correos puntuales, baja cuando quieras.

Pilar · evaluación

Scorecards LLM que los equipos sí usan

Del instinto a criterios observables: razonamiento, diseño de prompts, disciplina de evaluación y qué es «bueno» en producción.

Toolkit gratuito de contratación IA Guía de contratación IA

Señal, no storytelling

Los roles LLM necesitan dimensiones explícitas—latencia, seguridad, evals, humano en el bucle—si no, manda el carisma.

Dimensiones del scorecard (escala 1–4)

Adapta pesos al rol. Mid-level: 3+ para aprobar; seniors: dos dimensiones en 4.

Dimensión	1 — débil	3 — aprueba	4 — fuerte
Encuadre	Sin métricas	Intent, restricciones, eval	Producto vs límites del modelo
Prompt y herramientas	Desordenado	Roles, ejemplos, formatos	Regresión + límites de tools
Seguridad	Ignora injection/PII	Riesgos nombrados	Guardrails, logs, revisión
Evals en prod	Solo demo	Golden sets, coste/latencia	Prioridades semana 1
Comunicación	Debrief vago	Feedback claro al panel	Enseña la rúbrica

Profundizar: Rúbrica entrevista prompts · Contratar ingenieros LLM

Marcos y rúbricas

Empiece con estos contenidos largos y ajuste pesos.

Cómo presentan pruebas los candidatos

Los perfiles destacan proyectos y herramientas; las ofertas reflejan el mismo vocabulario.

Buscar talento Ver empleos Cómo funciona

FAQ — scorecards LLM

Rúbrica compartida 1–4 en lugar de intuición en el debrief.

Suscríbase a contenido estructurado y noticias del producto.

Newsletter para talento

Consejos de producto, novedades del tablón de empleo y recursos de carrera en IA — correos puntuales, baja cuando quieras.

Señal, no storytelling

Dimensiones del scorecard (escala 1–4)

Marcos y rúbricas

Cómo presentan pruebas los candidatos

FAQ — scorecards LLM

¿Qué es un scorecard de evaluación LLM?+

¿Diferencia con la rúbrica de prompts?+

¿Qué puntuación aprueba?+

¿Sirve para ML clásico?+

Consejos de evaluación y novedades

Señal, no storytelling

Dimensiones del scorecard (escala 1–4)

Marcos y rúbricas

Cómo presentan pruebas los candidatos

FAQ — scorecards LLM

¿Qué es un scorecard de evaluación LLM?+

¿Diferencia con la rúbrica de prompts?+

¿Qué puntuación aprueba?+

¿Sirve para ML clásico?+

Consejos de evaluación y novedades