Spaces:

Spirit-26
/

code-review-environment

Sleeping

App Files Files Community

ashishbaberwal commited on Apr 8

Commit

e225fd7

1 Parent(s): 375024b

New Final

Browse files

Files changed (1) hide show

inference.py +37 -6

inference.py CHANGED Viewed

@@ -34,6 +34,24 @@ FALLBACK_ACTION = json.dumps({
     "final_decision": "changes_requested"
 })
 def log_start(task: str, env_name: str, model: str, max_steps: int, seed) -> None:
     payload = {
@@ -533,16 +551,18 @@ def run_episode(env, agent, task_id: str, max_steps: int, seed=None) -> Dict[str
         print(f"Episode error: {error_message}", flush=True)
     try:
-        final_score = env.get_task_score()
     except Exception:
-        final_score = 0.0
     try:
         diagnostics = env.summary()
     except Exception:
         diagnostics = {}
-    success = final_score >= 0.7 and error_message is None
     log_end(success=success, steps=step, score=final_score, rewards=rewards)
     return {
@@ -575,7 +595,13 @@ def run_batch(env, agent, task_ids: List[str], max_steps: int, output: str):
             all_results.append(result)
         except Exception as e:
             print(f"Error on task {task_id}: {e}", flush=True)
-            all_results.append({"task_id": task_id, "task_score": 0.0, "total_reward": 0.0, "f1": 0.0, "error": str(e)})
     valid = [r for r in all_results if "error" not in r or r.get("error") is None]
     avg_score = sum(r["task_score"] for r in valid) / max(1, len(valid))
@@ -618,7 +644,7 @@ def main() -> int:
         return 1
     parser = argparse.ArgumentParser(description="Run code review agent")
-    parser.add_argument("--task-id", type=str, default="bug_detection_easy_1")
     parser.add_argument("--max-steps", type=int, default=50)
     parser.add_argument("--output", type=str, default="baseline_results.json")
     parser.add_argument("--batch", action="store_true")
@@ -646,6 +672,11 @@ def main() -> int:
                 task_ids = [t["task_id"] for t in TaskDefinitions.get_all_tasks()]
             run_batch(env, agent, task_ids, args.max_steps, args.output)
         else:
             result = run_episode(env, agent, args.task_id, args.max_steps, seed=args.seed)
             print("\n" + "=" * 60, flush=True)
@@ -668,7 +699,7 @@ def main() -> int:
         fallback = {
             "task_id": getattr(args, "task_id", "unknown"),
             "total_reward": 0.0,
-            "task_score": 0.0,
             "steps": 0,
             "error": str(e),
             "model": MODEL_NAME,

     "final_decision": "changes_requested"
 })
+DEFAULT_CORE_TASKS = [
+    "bug_detection_easy_1",
+    "memory_leak_medium_1",
+    "security_hard_1",
+]
+def _open_interval_score(value: float, epsilon: float = 1e-4) -> float:
+    try:
+        numeric = float(value)
+    except Exception:
+        numeric = 0.0
+    if numeric <= 0.0:
+        return epsilon
+    if numeric >= 1.0:
+        return 1.0 - epsilon
+    return numeric
 def log_start(task: str, env_name: str, model: str, max_steps: int, seed) -> None:
     payload = {
         print(f"Episode error: {error_message}", flush=True)
     try:
+        final_score_raw = env.get_task_score()
     except Exception:
+        final_score_raw = 0.0
+    final_score = _open_interval_score(final_score_raw)
     try:
         diagnostics = env.summary()
     except Exception:
         diagnostics = {}
+    success = final_score_raw >= 0.7 and error_message is None
     log_end(success=success, steps=step, score=final_score, rewards=rewards)
     return {
             all_results.append(result)
         except Exception as e:
             print(f"Error on task {task_id}: {e}", flush=True)
+            all_results.append({
+                "task_id": task_id,
+                "task_score": round(_open_interval_score(0.0), 4),
+                "total_reward": 0.0,
+                "f1": 0.0,
+                "error": str(e),
+            })
     valid = [r for r in all_results if "error" not in r or r.get("error") is None]
     avg_score = sum(r["task_score"] for r in valid) / max(1, len(valid))
         return 1
     parser = argparse.ArgumentParser(description="Run code review agent")
+    parser.add_argument("--task-id", type=str, default="__AUTO__")
     parser.add_argument("--max-steps", type=int, default=50)
     parser.add_argument("--output", type=str, default="baseline_results.json")
     parser.add_argument("--batch", action="store_true")
                 task_ids = [t["task_id"] for t in TaskDefinitions.get_all_tasks()]
             run_batch(env, agent, task_ids, args.max_steps, args.output)
         else:
+            if args.task_id == "__AUTO__":
+                print("No --task-id provided; running core 3-task baseline.", flush=True)
+                run_batch(env, agent, DEFAULT_CORE_TASKS, args.max_steps, args.output)
+                return 0
             result = run_episode(env, agent, args.task_id, args.max_steps, seed=args.seed)
             print("\n" + "=" * 60, flush=True)
         fallback = {
             "task_id": getattr(args, "task_id", "unknown"),
             "total_reward": 0.0,
+            "task_score": round(_open_interval_score(0.0), 4),
             "steps": 0,
             "error": str(e),
             "model": MODEL_NAME,