Observabilidad de LLMs en 2026: por qué OpenTelemetry y evals tienen que correr juntos
Una guía técnica corta para SREs y AI engineers: por qué la observabilidad de LLMs es distinta, qué cubrir con tracing y métricas, y cuándo agregar evals online sin que sean otro silo.
- Publicado
- 30 de marzo de 2026
- min de lectura
- 8 min de lectura
- Categoría
- Ingeniería
En esta página
4 capítulosCapítulo 01
Por qué monitorear un LLM no es monitorear un microservicio
Un microservicio se puede juzgar con tres números: latencia, error rate, throughput. Un LLM tiene tres ejes adicionales que importan: costo (por token, no por request), calidad subjetiva (si el output sirve) y drift (la misma pregunta puede dar respuesta distinta mañana).
- Tracking de tokens por request: input, output y total — y cómo se traduce a USD.
- Latencia descompuesta: prompt processing vs decode vs tool-use overhead.
- Calidad: aceptación humana, reescritura del prompt, abandono de la sesión.
- Drift: variación del output sobre el mismo input a lo largo del tiempo.
Capítulo 02
OpenTelemetry + GenAI semantic conventions: la base estándar
Las GenAI Semantic Conventions de OTel definen atributos comunes para spans de LLM: modelo, tokens, costo, herramientas invocadas, embedding usado, RAG hit rate. Eso significa que tu instrumentación es portable: hoy a Datadog, mañana a New Relic, sin reescribir.
- OpenLLMetry (Traceloop) extiende OTel para LLMs sin instrumentación intrusiva.
- Compatible con Datadog, New Relic, Sentry, Honeycomb y Grafana Cloud.
- LangSmith y Confident AI suman capa de calidad encima del tracing.
- Evita instrumentación propietaria de un solo vendor — apuesta a OTel.
Capítulo 03
Cuándo agregar evals online (y cómo no convertirlas en silo)
Evaluación online significa correr evaluadores automáticos sobre los traces para detectar respuestas problemáticas y filtrarlas a un set de prueba. No reemplaza a los humanos, pero permite ver problemas a escala.
- Empieza con tracing y métricas. Solo después de un trimestre estable, agrega evals online.
- Conecta evaluadores al mismo backend OTel — no construyas un dashboard separado.
- Usa LLM-as-judge solo para casos donde tienes confianza en su consistencia.
- Auto-curación de set de prueba: las muestras flag se vuelven futuros casos de regresión.
Capítulo 04
Checklist mínimo para LLM en producción
Si tu sistema con LLM va a recibir tráfico real, antes de exponerlo asegura que tienes estos seis puntos cubiertos. Si falta uno, lo vas a aprender por el lado caro.
- Trazas con OTel + GenAI semantic conventions, exportadas a tu backend.
- Métricas de costo por feature/usuario/cliente, alertas con techo y rate limit.
- PII redaction en logs — el “debug log” puede convertirse en breach.
- Capacidad de replay: poder reconstruir cualquier llamada con su prompt y contexto.
- Kill-switch por feature, no solo por servicio entero.
- Runbook con escenarios típicos: drift, cost spike, regresión de calidad.
Escrito por
Wasyra Engineering
Modernización, arquitectura y delivery confiable
Wasyra Engineering documenta patrones para mover sistemas legacy sin congelar delivery ni romper ownership.
Serie
Sistemas IA que sí llegan a producción
Una serie sobre agentes, copilots y guardrails para llevar IA al trabajo real sin romper confianza ni operación.
Posts de esta serieMás de este autor
Más de este autor
Ingeniería
Checklist de due diligence técnico para B2B SaaS antes de invertir
Qué revisar en arquitectura, seguridad, datos, deuda, observabilidad y delivery antes de comprar, invertir o escalar un SaaS B2B.
ArtículoIngeniería
Roadmap de modernización legacy para SaaS sin frenar el negocio
Cómo dividir modernización SaaS por rutas, contratos, datos y operación para reducir riesgo sin congelar ventas ni delivery.
ArtículoSigue leyendo
Sigue leyendo
Sistemas IA
MCP en producción: el protocolo que estandariza tus agentes de IA en 2026
Model Context Protocol pasó de experimento a estándar de facto en doce meses. Por qué Gartner espera que 40% de las apps empresariales lo usen para fin de 2026.
ArtículoSistemas IA
Top 5 noticias de IA y desarrollo de producto que mirar ahora
Cinco movimientos recientes de OpenAI, GitHub, AWS y Anthropic que cambian cómo los equipos diseñan, construyen y operan software.
ArtículoEstrategia
AI safety y EU AI Act 2026: por qué red teaming a tus agentes ya no es opcional
El 2 de agosto de 2026 entran en vigor las reglas para sistemas de alto riesgo. Multas de hasta €35M o 7% de la facturación global. Qué necesita tu agente para pasar.
Artículo