Benchmarks de agentes de código en 2026: por qué SWE-Bench Pro vuelve a poner los pies en la tierra
Un repaso honesto de SWE-Bench Pro, LiveCodeBench y por qué los benchmarks contaminados sobrestiman a los modelos. Plantilla para evaluar agentes con tus propias tareas.
- Publicado
- 19 de abril de 2026
- min de lectura
- 7 min de lectura
- Categoría
- Ingeniería
En esta página
3 capítulosCapítulo 01
El gap entre Verified y Pro lo dice todo
SWE-Bench Verified es el benchmark de cabecera de los anuncios: tareas curadas, reproducibles, mostrables. Los top models pasan el 70%. SWE-Bench Pro toma 1.865 tareas multi-archivo y multi-lenguaje (~107 líneas por tarea, 4.1 archivos en promedio). Los mismos modelos caen al 23%.
La lección no es que los modelos son malos. Es que cualquiera que prometa “autonomía total” está hablando del benchmark fácil. La realidad de tu codebase se parece más al difícil.
- OpenAI GPT-5 y Claude Opus 4.1 puntúan 23.3% y 23.1% respectivamente en SWE-Bench Pro.
- Verified está en plateau; Pro deja espacio claro para mejorar.
- Multi-archivo + multi-lenguaje + criterio de aceptación humano = más cerca de tu trabajo real.
Capítulo 02
Por qué LiveCodeBench también importa
Los benchmarks tradicionales sufren contaminación: las tareas terminan dentro del set de entrenamiento de la siguiente generación de modelos. LiveCodeBench renueva problemas continuamente, así que los scores no se inflan por memorización.
Si solo miras un benchmark, mira ese y SWE-Bench Pro. Suficiente para evitar comprar humo.
Capítulo 03
Cómo evaluar agentes con tu propio repo
Los benchmarks públicos te dan el suelo. Tu evaluación interna te da el techo. La forma más útil que vemos en clientes: armar un set fijo de 30 a 60 tareas reales y correrlas contra cada modelo cada trimestre.
- Mezcla tareas: bug fix, refactor acotado, feature pequeño, escritura de tests, doc.
- Define éxito de antemano: tests verdes + revisión humana en menos de N minutos.
- Mide costo por tarea (tokens + tiempo) y tiempo de revisión, no solo tasa de éxito.
- Repite cada modelo nuevo; descarta los que no superan al actual con margen claro.
Escrito por
Wasyra Engineering
Modernización, arquitectura y delivery confiable
Wasyra Engineering documenta patrones para mover sistemas legacy sin congelar delivery ni romper ownership.
Más de este autor
Más de este autor
Ingeniería
Checklist de due diligence técnico para B2B SaaS antes de invertir
Qué revisar en arquitectura, seguridad, datos, deuda, observabilidad y delivery antes de comprar, invertir o escalar un SaaS B2B.
ArtículoIngeniería
Roadmap de modernización legacy para SaaS sin frenar el negocio
Cómo dividir modernización SaaS por rutas, contratos, datos y operación para reducir riesgo sin congelar ventas ni delivery.
ArtículoSigue leyendo
Sigue leyendo
Ingeniería
Checklist de due diligence técnico para B2B SaaS antes de invertir
Qué revisar en arquitectura, seguridad, datos, deuda, observabilidad y delivery antes de comprar, invertir o escalar un SaaS B2B.
ArtículoIngeniería
Roadmap de modernización legacy para SaaS sin frenar el negocio
Cómo dividir modernización SaaS por rutas, contratos, datos y operación para reducir riesgo sin congelar ventas ni delivery.
ArtículoIngeniería
Platform Engineering en 2026: por qué Gartner dice que 80% de las grandes empresas ya tienen IDP
DevOps puro topó techo. La nueva normal es un IDP con golden paths, IA embebida, policy-as-code y FinOps como parte del pipeline. Qué construir y cuándo.
Artículo