Evaluación de agentes de código

Benchmarks de agentes de código en 2026: por qué SWE-Bench Pro vuelve a poner los pies en la tierra

Un repaso honesto de SWE-Bench Pro, LiveCodeBench y por qué los benchmarks contaminados sobrestiman a los modelos. Plantilla para evaluar agentes con tus propias tareas.

BenchmarksCoding AgentsSWE-BenchEvaluación
Wasyra Engineering
Modernización, arquitectura y delivery confiable
Publicado
19 de abril de 2026
min de lectura
7 min de lectura
Categoría
Ingeniería
23%promedio de top models en SWE-Bench Pro

Capítulo 01

El gap entre Verified y Pro lo dice todo

SWE-Bench Verified es el benchmark de cabecera de los anuncios: tareas curadas, reproducibles, mostrables. Los top models pasan el 70%. SWE-Bench Pro toma 1.865 tareas multi-archivo y multi-lenguaje (~107 líneas por tarea, 4.1 archivos en promedio). Los mismos modelos caen al 23%.

La lección no es que los modelos son malos. Es que cualquiera que prometa “autonomía total” está hablando del benchmark fácil. La realidad de tu codebase se parece más al difícil.

  • OpenAI GPT-5 y Claude Opus 4.1 puntúan 23.3% y 23.1% respectivamente en SWE-Bench Pro.
  • Verified está en plateau; Pro deja espacio claro para mejorar.
  • Multi-archivo + multi-lenguaje + criterio de aceptación humano = más cerca de tu trabajo real.

Capítulo 02

Por qué LiveCodeBench también importa

Los benchmarks tradicionales sufren contaminación: las tareas terminan dentro del set de entrenamiento de la siguiente generación de modelos. LiveCodeBench renueva problemas continuamente, así que los scores no se inflan por memorización.

Si solo miras un benchmark, mira ese y SWE-Bench Pro. Suficiente para evitar comprar humo.

Capítulo 03

Cómo evaluar agentes con tu propio repo

Los benchmarks públicos te dan el suelo. Tu evaluación interna te da el techo. La forma más útil que vemos en clientes: armar un set fijo de 30 a 60 tareas reales y correrlas contra cada modelo cada trimestre.

  • Mezcla tareas: bug fix, refactor acotado, feature pequeño, escritura de tests, doc.
  • Define éxito de antemano: tests verdes + revisión humana en menos de N minutos.
  • Mide costo por tarea (tokens + tiempo) y tiempo de revisión, no solo tasa de éxito.
  • Repite cada modelo nuevo; descarta los que no superan al actual con margen claro.
Un agente que llega al 60% en tu eval interno con 8 minutos de revisión humana suele ganarle a un agente que llega al 80% con 30 minutos de revisión. Costo total > tasa nominal.

Escrito por

Wasyra Engineering

Modernización, arquitectura y delivery confiable

Wasyra Engineering documenta patrones para mover sistemas legacy sin congelar delivery ni romper ownership.

LegacyRefactorArquitectura
Más de este autor

Sigue leyendo

Sigue leyendo