¿Qué es el servicio de App en 1 Semana de Wasyra?

Es nuestro programa express que entrega un MVP funcional en solo 7 días. Incluye estrategia, diseño UI/UX, desarrollo full-stack con IA integrada y deploy en producción. Día 1-2: Estrategia y Diseño. Día 3-5: Desarrollo Intensivo. Día 6-7: Testing y Lanzamiento.

¿Qué servicios de inteligencia artificial ofrece Wasyra?

Ofrecemos 14 servicios de IA: agentes autónomos, RAG & knowledge base, fine-tuning de LLMs, chatbots, computer vision, NLP, IA generativa, MLOps, modelos predictivos, sistemas de recomendación, AI copilots empresariales, prompt engineering, AI safety y voice AI.

¿Wasyra ofrece staff augmentation?

Sí, ofrecemos 10 modelos de talento: staff augmentation individual, equipos dedicados (Dev + QA + PM), team as a service, build-operate-transfer, nearshore para US/Canadá, CTO as a service, tech recruitment, talent vetting, on-demand experts y managed services.

¿Dónde está ubicado Wasyra?

Wasyra tiene presencia en Lima, Perú y Los Angeles, US. Ofrecemos servicios nearshore para empresas en Estados Unidos y Canadá, con equipos en zona horaria conveniente.

Evaluación de agentes de código

Benchmarks de agentes de código en 2026: por qué SWE-Bench Pro vuelve a poner los pies en la tierra

Un repaso honesto de SWE-Bench Pro, LiveCodeBench y por qué los benchmarks contaminados sobrestiman a los modelos. Plantilla para evaluar agentes con tus propias tareas.

BenchmarksCoding AgentsSWE-BenchEvaluación

Wasyra Engineering

Modernización, arquitectura y delivery confiable

Publicado: 19 de abril de 2026
min de lectura: 2 min de lectura
Categoría: Ingeniería

En esta página

3 capítulos

01El gap entre Verified y Pro lo dice todo
02Por qué LiveCodeBench también importa
03Cómo evaluar agentes con tu propio repo

23%promedio de top models en SWE-Bench Pro

Capítulo 01

El gap entre Verified y Pro lo dice todo

SWE-Bench Verified es el benchmark de cabecera de los anuncios: tareas curadas, reproducibles, mostrables. Los top models pasan el 70%. SWE-Bench Pro toma 1.865 tareas multi-archivo y multi-lenguaje (~107 líneas por tarea, 4.1 archivos en promedio). Los mismos modelos caen al 23%.

La lección no es que los modelos son malos. Es que cualquiera que prometa “autonomía total” está hablando del benchmark fácil. La realidad de tu codebase se parece más al difícil.

OpenAI GPT-5 y Claude Opus 4.1 puntúan 23.3% y 23.1% respectivamente en SWE-Bench Pro.
Verified está en plateau; Pro deja espacio claro para mejorar.
Multi-archivo + multi-lenguaje + criterio de aceptación humano = más cerca de tu trabajo real.

Capítulo 02

Por qué LiveCodeBench también importa

Los benchmarks tradicionales sufren contaminación: las tareas terminan dentro del set de entrenamiento de la siguiente generación de modelos. LiveCodeBench renueva problemas continuamente, así que los scores no se inflan por memorización.

Si solo miras un benchmark, mira ese y SWE-Bench Pro. Suficiente para evitar comprar humo.

Capítulo 03

Cómo evaluar agentes con tu propio repo

Los benchmarks públicos te dan el suelo. Tu evaluación interna te da el techo. La forma más útil que vemos en clientes: armar un set fijo de 30 a 60 tareas reales y correrlas contra cada modelo cada trimestre.

Mezcla tareas: bug fix, refactor acotado, feature pequeño, escritura de tests, doc.
Define éxito de antemano: tests verdes + revisión humana en menos de N minutos.
Mide costo por tarea (tokens + tiempo) y tiempo de revisión, no solo tasa de éxito.
Repite cada modelo nuevo; descarta los que no superan al actual con margen claro.

Un agente que llega al 60% en tu eval interno con 8 minutos de revisión humana suele ganarle a un agente que llega al 80% con 30 minutos de revisión. Costo total > tasa nominal.

Fuente: SWE-Bench Pro Leaderboard, Scale Labs Fuente: Morphllm, AI Coding Benchmarks 2026

Escrito por

Wasyra Engineering

Modernización, arquitectura y delivery confiable

Wasyra Engineering documenta patrones para mover sistemas legacy sin congelar delivery ni romper ownership.

LegacyRefactorArquitectura

Más de este autor

Ingeniería

Checklist de due diligence técnico para B2B SaaS antes de invertir

Qué revisar en arquitectura, seguridad, datos, deuda, observabilidad y delivery antes de comprar, invertir o escalar un SaaS B2B.

Artículo

Ingeniería

Roadmap de modernización legacy para SaaS sin frenar el negocio

Cómo dividir modernización SaaS por rutas, contratos, datos y operación para reducir riesgo sin congelar ventas ni delivery.

Artículo

Sigue leyendo

Ingeniería

Checklist de due diligence técnico para B2B SaaS antes de invertir

Qué revisar en arquitectura, seguridad, datos, deuda, observabilidad y delivery antes de comprar, invertir o escalar un SaaS B2B.

Artículo

Ingeniería

Roadmap de modernización legacy para SaaS sin frenar el negocio

Cómo dividir modernización SaaS por rutas, contratos, datos y operación para reducir riesgo sin congelar ventas ni delivery.

Artículo

Ingeniería

Platform Engineering en 2026: por qué Gartner dice que 80% de las grandes empresas ya tienen IDP

DevOps puro topó techo. La nueva normal es un IDP con golden paths, IA embebida, policy-as-code y FinOps como parte del pipeline. Qué construir y cuándo.

Artículo