Observabilidad y operación de LLMsSerieSistemas IA que sí llegan a producción

Observabilidad de LLMs en 2026: por qué OpenTelemetry y evals tienen que correr juntos

Una guía técnica corta para SREs y AI engineers: por qué la observabilidad de LLMs es distinta, qué cubrir con tracing y métricas, y cuándo agregar evals online sin que sean otro silo.

LLM ObservabilityOpenTelemetryEvalsSRE
Wasyra Engineering
Modernización, arquitectura y delivery confiable
Publicado
30 de marzo de 2026
min de lectura
8 min de lectura
Categoría
Ingeniería
OTelestándar de facto para observabilidad de LLMs

Capítulo 01

Por qué monitorear un LLM no es monitorear un microservicio

Un microservicio se puede juzgar con tres números: latencia, error rate, throughput. Un LLM tiene tres ejes adicionales que importan: costo (por token, no por request), calidad subjetiva (si el output sirve) y drift (la misma pregunta puede dar respuesta distinta mañana).

  • Tracking de tokens por request: input, output y total — y cómo se traduce a USD.
  • Latencia descompuesta: prompt processing vs decode vs tool-use overhead.
  • Calidad: aceptación humana, reescritura del prompt, abandono de la sesión.
  • Drift: variación del output sobre el mismo input a lo largo del tiempo.

Capítulo 02

OpenTelemetry + GenAI semantic conventions: la base estándar

Las GenAI Semantic Conventions de OTel definen atributos comunes para spans de LLM: modelo, tokens, costo, herramientas invocadas, embedding usado, RAG hit rate. Eso significa que tu instrumentación es portable: hoy a Datadog, mañana a New Relic, sin reescribir.

  • OpenLLMetry (Traceloop) extiende OTel para LLMs sin instrumentación intrusiva.
  • Compatible con Datadog, New Relic, Sentry, Honeycomb y Grafana Cloud.
  • LangSmith y Confident AI suman capa de calidad encima del tracing.
  • Evita instrumentación propietaria de un solo vendor — apuesta a OTel.

Capítulo 03

Cuándo agregar evals online (y cómo no convertirlas en silo)

Evaluación online significa correr evaluadores automáticos sobre los traces para detectar respuestas problemáticas y filtrarlas a un set de prueba. No reemplaza a los humanos, pero permite ver problemas a escala.

  • Empieza con tracing y métricas. Solo después de un trimestre estable, agrega evals online.
  • Conecta evaluadores al mismo backend OTel — no construyas un dashboard separado.
  • Usa LLM-as-judge solo para casos donde tienes confianza en su consistencia.
  • Auto-curación de set de prueba: las muestras flag se vuelven futuros casos de regresión.
Observabilidad y evals son colaboradoras, no requeridas mutuamente. Empieza con la primera; suma la segunda cuando tu producción te muestre que ya no alcanza.

Capítulo 04

Checklist mínimo para LLM en producción

Si tu sistema con LLM va a recibir tráfico real, antes de exponerlo asegura que tienes estos seis puntos cubiertos. Si falta uno, lo vas a aprender por el lado caro.

  • Trazas con OTel + GenAI semantic conventions, exportadas a tu backend.
  • Métricas de costo por feature/usuario/cliente, alertas con techo y rate limit.
  • PII redaction en logs — el “debug log” puede convertirse en breach.
  • Capacidad de replay: poder reconstruir cualquier llamada con su prompt y contexto.
  • Kill-switch por feature, no solo por servicio entero.
  • Runbook con escenarios típicos: drift, cost spike, regresión de calidad.

Escrito por

Wasyra Engineering

Modernización, arquitectura y delivery confiable

Wasyra Engineering documenta patrones para mover sistemas legacy sin congelar delivery ni romper ownership.

LegacyRefactorArquitectura
Más de este autor

Serie

Sistemas IA que sí llegan a producción

Una serie sobre agentes, copilots y guardrails para llevar IA al trabajo real sin romper confianza ni operación.

Posts de esta serie

Sigue leyendo

Sigue leyendo