Spaces:

ST-WebAgentBench
/

st-webagentbench-leaderboard

Sleeping

dolev31 commited on 6 days ago

Commit

73a5f3a

1 Parent(s): cc16a38

Fix path resolution and sync canonical test.raw.json for submission validation

- Use __file__-relative paths in schema.py and app.py so validation works
regardless of working directory (fixes test imports and Space deployment)
- Sync leaderboard_space/data/test.raw.json with canonical stwebagentbench/test.raw.json
to fix policy template_id mismatches during submission validation

Files changed (3) hide show

app.py +3 -2
data/test.raw.json +0 -0
validation/schema.py +1 -1

app.py CHANGED Viewed

@@ -734,10 +734,11 @@ _EMAIL_RE = re.compile(r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$")
 # Constants
 # ---------------------------------------------------------------------------
 SUBMISSIONS_FILE = Path("data/submissions.jsonl")
 KEY_REQUESTS_FILE = Path("data/key_requests.jsonl")
-TASKS_FILE = Path("data/test.raw.json")
-CANONICAL_HASHES_FILE = Path("data/canonical_hashes.json")
 # ---------------------------------------------------------------------------

 # Constants
 # ---------------------------------------------------------------------------
+_APP_DIR = Path(__file__).resolve().parent
 SUBMISSIONS_FILE = Path("data/submissions.jsonl")
 KEY_REQUESTS_FILE = Path("data/key_requests.jsonl")
+TASKS_FILE = _APP_DIR / "data" / "test.raw.json"
+CANONICAL_HASHES_FILE = _APP_DIR / "data" / "canonical_hashes.json"
 # ---------------------------------------------------------------------------

data/test.raw.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

validation/schema.py CHANGED Viewed

@@ -24,7 +24,7 @@ logger = logging.getLogger(__name__)
 # Dynamic benchmark config — computed from test.raw.json at startup
 # ---------------------------------------------------------------------------
-_TASKS_DATA_PATH = Path("data/test.raw.json")
 def _load_benchmark_config() -> tuple:

 # Dynamic benchmark config — computed from test.raw.json at startup
 # ---------------------------------------------------------------------------
+_TASKS_DATA_PATH = Path(__file__).resolve().parent.parent / "data" / "test.raw.json"
 def _load_benchmark_config() -> tuple: