¿Qué es el servicio de App en 1 Semana de Wasyra?

Es nuestro programa express que entrega un MVP funcional en solo 7 días. Incluye estrategia, diseño UI/UX, desarrollo full-stack con IA integrada y deploy en producción. Día 1-2: Estrategia y Diseño. Día 3-5: Desarrollo Intensivo. Día 6-7: Testing y Lanzamiento.

¿Qué servicios de inteligencia artificial ofrece Wasyra?

Ofrecemos 14 servicios de IA: agentes autónomos, RAG & knowledge base, fine-tuning de LLMs, chatbots, computer vision, NLP, IA generativa, MLOps, modelos predictivos, sistemas de recomendación, AI copilots empresariales, prompt engineering, AI safety y voice AI.

¿Wasyra ofrece staff augmentation?

Sí, ofrecemos 10 modelos de talento: staff augmentation individual, equipos dedicados (Dev + QA + PM), team as a service, build-operate-transfer, nearshore para US/Canadá, CTO as a service, tech recruitment, talent vetting, on-demand experts y managed services.

¿Dónde está ubicado Wasyra?

Wasyra tiene presencia en Lima, Perú y Los Angeles, US. Ofrecemos servicios nearshore para empresas en Estados Unidos y Canadá, con equipos en zona horaria conveniente.

Observabilidad y operación de LLMsSerieSistemas IA que sí llegan a producción

Observabilidad de LLMs en 2026: por qué OpenTelemetry y evals tienen que correr juntos

Una guía técnica corta para SREs y AI engineers: por qué la observabilidad de LLMs es distinta, qué cubrir con tracing y métricas, y cuándo agregar evals online sin que sean otro silo.

LLM ObservabilityOpenTelemetryEvalsSRE

Wasyra Engineering

Modernización, arquitectura y delivery confiable

Publicado: 30 de marzo de 2026
min de lectura: 2 min de lectura
Categoría: Ingeniería

En esta página

4 capítulos

01Por qué monitorear un LLM no es monitorear un microservicio
02OpenTelemetry + GenAI semantic conventions: la base estándar
03Cuándo agregar evals online (y cómo no convertirlas en silo)
04Checklist mínimo para LLM en producción

OTelestándar de facto para observabilidad de LLMs

Capítulo 01

Por qué monitorear un LLM no es monitorear un microservicio

Un microservicio se puede juzgar con tres números: latencia, error rate, throughput. Un LLM tiene tres ejes adicionales que importan: costo (por token, no por request), calidad subjetiva (si el output sirve) y drift (la misma pregunta puede dar respuesta distinta mañana).

Tracking de tokens por request: input, output y total — y cómo se traduce a USD.
Latencia descompuesta: prompt processing vs decode vs tool-use overhead.
Calidad: aceptación humana, reescritura del prompt, abandono de la sesión.
Drift: variación del output sobre el mismo input a lo largo del tiempo.

Capítulo 02

OpenTelemetry + GenAI semantic conventions: la base estándar

Las GenAI Semantic Conventions de OTel definen atributos comunes para spans de LLM: modelo, tokens, costo, herramientas invocadas, embedding usado, RAG hit rate. Eso significa que tu instrumentación es portable: hoy a Datadog, mañana a New Relic, sin reescribir.

OpenLLMetry (Traceloop) extiende OTel para LLMs sin instrumentación intrusiva.
Compatible con Datadog, New Relic, Sentry, Honeycomb y Grafana Cloud.
LangSmith y Confident AI suman capa de calidad encima del tracing.
Evita instrumentación propietaria de un solo vendor — apuesta a OTel.

Fuente: OpenTelemetry, Observability for LLM-based applications Fuente: OpenObserve, OpenTelemetry for LLMs SRE Guide 2026 Fuente: TokenMix, OpenLLMetry Explained 2026

Capítulo 03

Cuándo agregar evals online (y cómo no convertirlas en silo)

Evaluación online significa correr evaluadores automáticos sobre los traces para detectar respuestas problemáticas y filtrarlas a un set de prueba. No reemplaza a los humanos, pero permite ver problemas a escala.

Empieza con tracing y métricas. Solo después de un trimestre estable, agrega evals online.
Conecta evaluadores al mismo backend OTel — no construyas un dashboard separado.
Usa LLM-as-judge solo para casos donde tienes confianza en su consistencia.
Auto-curación de set de prueba: las muestras flag se vuelven futuros casos de regresión.

Observabilidad y evals son colaboradoras, no requeridas mutuamente. Empieza con la primera; suma la segunda cuando tu producción te muestre que ya no alcanza.

Capítulo 04

Checklist mínimo para LLM en producción

Si tu sistema con LLM va a recibir tráfico real, antes de exponerlo asegura que tienes estos seis puntos cubiertos. Si falta uno, lo vas a aprender por el lado caro.

Trazas con OTel + GenAI semantic conventions, exportadas a tu backend.
Métricas de costo por feature/usuario/cliente, alertas con techo y rate limit.
PII redaction en logs — el “debug log” puede convertirse en breach.
Capacidad de replay: poder reconstruir cualquier llamada con su prompt y contexto.
Kill-switch por feature, no solo por servicio entero.
Runbook con escenarios típicos: drift, cost spike, regresión de calidad.

Escrito por

Wasyra Engineering

Modernización, arquitectura y delivery confiable

Wasyra Engineering documenta patrones para mover sistemas legacy sin congelar delivery ni romper ownership.

LegacyRefactorArquitectura

Más de este autor

Serie

Sistemas IA que sí llegan a producción

Una serie sobre agentes, copilots y guardrails para llevar IA al trabajo real sin romper confianza ni operación.

Posts de esta serie

Más de este autor

Ingeniería

Checklist de due diligence técnico para B2B SaaS antes de invertir

Qué revisar en arquitectura, seguridad, datos, deuda, observabilidad y delivery antes de comprar, invertir o escalar un SaaS B2B.

Artículo

Ingeniería

Roadmap de modernización legacy para SaaS sin frenar el negocio

Cómo dividir modernización SaaS por rutas, contratos, datos y operación para reducir riesgo sin congelar ventas ni delivery.

Artículo

Sigue leyendo

Sistemas IA

MCP en producción: el protocolo que estandariza tus agentes de IA en 2026

Model Context Protocol pasó de experimento a estándar de facto en doce meses. Por qué Gartner espera que 40% de las apps empresariales lo usen para fin de 2026.

Artículo

Sistemas IA

Top 5 noticias de IA y desarrollo de producto que mirar ahora

Cinco movimientos recientes de OpenAI, GitHub, AWS y Anthropic que cambian cómo los equipos diseñan, construyen y operan software.

Artículo

Estrategia

AI safety y EU AI Act 2026: por qué red teaming a tus agentes ya no es opcional

El 2 de agosto de 2026 entran en vigor las reglas para sistemas de alto riesgo. Multas de hasta €35M o 7% de la facturación global. Qué necesita tu agente para pasar.

Artículo