SWE-bench

princeton-nlp 's Collections

updated Mar 8, 2025

SWE-bench is a benchmark for evaluating Language Models and AI Systems on their ability resolve real world GitHub Issues.