Recurso

Rúbrica de entrevista prompt engineering (2026)

Checklist estructurada 1–4 para entrevistas de prompts: encuadre, iteración, seguridad y ejercicios en vivo para roles producto LLM.

Actualizado 2026-05-20

Por qué una rúbrica en 2026

El prompt engineering ya no es un skill lateral—está en el camino crítico de RAG, agentes y copilotos. Una rúbrica alinea a los entrevistadores.

Esta guía apunta a roles donde prompts, esquemas de herramientas y bucles de eval son semanales—no tracks de investigación pura.

¿Aclaran intención del usuario, restricciones y criterios de éxito antes de escribir prompts?

¿Anticipan ambigüedad y proponen valor por defecto, pregunta aclaratoria o política de respaldo?

Puntúa más alto si separan comportamiento del modelo y promesa de producto.

¿Estructuran prompts con roles, ejemplos y formato de salida en lugar de un bloque único?

¿Describen regresión—golden sets, diff review, A/B latencia/coste—cuando cambian requisitos?

Busca lenguaje de trade-offs: cuándo retrieval, fine-tuning o guardrail determinista.

¿Mencionan inyección de prompt, abuso de herramientas, fugas PII o jailbreaks relevantes?

¿Equilibran verbosidad, latencia y coste según canal (batch vs interactivo vs voz)?

Perfiles fuertes proponen logging, colas de revisión humana o rate limits—no solo «mejores prompts».

1 — No encuadra; prompts desordenados; sin eval ni modos de fallo.

2 — Prompts viables pero débiles en iteración, métricas o seguridad; mucho coaching.

3 — Buen sentido de producto; harness de eval y guardrails; trade-offs claros.

4 — Enseña al equipo: eval sistemática, coste/latencia, handoff claro a engineering/MLOps.

Brief realista (bot soporte, Q&A documentos, búsqueda interna): 20–30 min prompts + mini plan de eval.

Opcional: cambiar restricción a mitad (locale, latencia, tools prohibidas) y observar adaptación.

Debrief: qué entregarían en semana 1 vs después—madurez de producto.

Combina ejercicio en vivo (60 %), take-home o portfolio (30 %), cultura (10 %). Pesa más seguridad en roles customer-facing.

Pide una war story: prompt que regresó en prod y cómo lo detectaron y arreglaron.

Mid-level: 3+ en encuadre e iteración, ningún 1 en seguridad. Seniors: tendencia a 4 en al menos dos ejes.

Primer hire LLM: un 3 sólido con backend/data suele ganar a un 4 teórico sin historial de ship.

Puntos de entrada estructurados para intenciones habituales—modalidad, stacks y seniority—con hubs de perfiles emparejados en los mismos temas.

Escala de puntuación (1–4)

1 — No encuadra; prompts desordenados; sin eval ni modos de fallo.

2 — Prompts viables pero débiles en iteración, métricas o seguridad; mucho coaching.

3 — Buen sentido de producto; harness de eval y guardrails; trade-offs claros.

4 — Enseña al equipo: eval sistemática, coste/latencia, handoff claro a engineering/MLOps.