SWE-bench: Evaluar el rendimiento de LLMs en código
Para directores de tecnología (CTOs) y ingenieros de software senior encargados de integrar modelos de lenguaje grandes (LLMs) en el ciclo de vida del desarrollo de software (SDLC), los métodos tradicionales como HumanEval o MBPP ya no son suficientes. Escribir una función de Python aislada y algorítmica, sin considerar el