Spaces:

Pandaisop
/

codesensei-env

Sleeping

App Files Files Community

vineetshukla.work@gmail.com commited on Apr 11

Commit

b64950c

1 Parent(s): 5fcb94c

fix: task routing by name, remove out-of-range rewards, add grader field to tasks

Browse files

Files changed (3) hide show

env/server/app.py +5 -2
env/server/environment.py +13 -5
openenv.yaml +8 -0

env/server/app.py CHANGED Viewed

@@ -25,6 +25,7 @@ from env.models import CodeDebugAction
 class ResetRequest(BaseModel):
     session_id: str = ""
 class StepRequest(BaseModel):
@@ -75,7 +76,8 @@ app.add_middleware(
 async def reset(request: Optional[ResetRequest] = None):
     """Start a new debugging episode."""
     session_id = request.session_id if request else str(uuid.uuid4())
-    obs = env.reset(session_id=session_id)
     return _obs_to_dict(obs)
@@ -142,7 +144,8 @@ async def websocket_endpoint(websocket: WebSocket):
             if msg_type == "reset":
                 session_id = msg.get("session_id", str(uuid.uuid4()))
-                obs = env.reset(session_id=session_id)
                 response = _obs_to_dict(obs)
                 response["session_id"] = session_id
                 response["type"] = "reset_response"

 class ResetRequest(BaseModel):
     session_id: str = ""
+    task: Optional[str] = None  # task name from openenv.yaml e.g. "debug-add_numbers"
 class StepRequest(BaseModel):
 async def reset(request: Optional[ResetRequest] = None):
     """Start a new debugging episode."""
     session_id = request.session_id if request else str(uuid.uuid4())
+    task = request.task if request else None
+    obs = env.reset(session_id=session_id, task=task)
     return _obs_to_dict(obs)
             if msg_type == "reset":
                 session_id = msg.get("session_id", str(uuid.uuid4()))
+                task = msg.get("task", None)
+                obs = env.reset(session_id=session_id, task=task)
                 response = _obs_to_dict(obs)
                 response["session_id"] = session_id
                 response["type"] = "reset_response"

env/server/environment.py CHANGED Viewed

@@ -172,11 +172,13 @@ class CodeDebugEnvironment:
         _load_dataset()
         self._sessions: Dict[str, CodeDebugState] = {}
-    def reset(self, session_id: str = "") -> CodeDebugObservation:
         """Start a new episode: sample a buggy function.
         Args:
             session_id: WebSocket session ID. Auto-generated if empty.
         Returns:
             Initial observation with the buggy code and test info.
@@ -184,8 +186,14 @@ class CodeDebugEnvironment:
         if not session_id:
             session_id = str(uuid.uuid4())
-        # Sample a random bug
-        bug = random.choice(_BUG_DATASET)
         # Create state
         state = CodeDebugState(
@@ -219,7 +227,7 @@ class CodeDebugEnvironment:
             test_results=test_results,
             tests_passed=passed,
             tests_total=total,
-            reward=0.0,
             done=False,
             attempt=0,
             max_attempts=6,
@@ -279,7 +287,7 @@ class CodeDebugEnvironment:
                 test_results=[],
                 tests_passed=0,
                 tests_total=len(bug["tests"]),
-                reward=-1.0,
                 done=done,
                 attempt=state.attempt,
                 max_attempts=state.max_attempts,

         _load_dataset()
         self._sessions: Dict[str, CodeDebugState] = {}
+    def reset(self, session_id: str = "", task: Optional[str] = None) -> CodeDebugObservation:
         """Start a new episode: sample a buggy function.
         Args:
             session_id: WebSocket session ID. Auto-generated if empty.
+            task: Optional task name from openenv.yaml (e.g. "debug-add_numbers").
+                  If provided, selects the matching bug. Otherwise picks randomly.
         Returns:
             Initial observation with the buggy code and test info.
         if not session_id:
             session_id = str(uuid.uuid4())
+        # Select bug by task name or randomly
+        bug = None
+        if task:
+            # Strip "debug-" prefix to get function_name (e.g. "debug-add_numbers" -> "add_numbers")
+            fn_name = task.replace("debug-", "", 1)
+            bug = next((b for b in _BUG_DATASET if b["function_name"] == fn_name), None)
+        if bug is None:
+            bug = random.choice(_BUG_DATASET)
         # Create state
         state = CodeDebugState(
             test_results=test_results,
             tests_passed=passed,
             tests_total=total,
+            reward=0.01,  # Non-zero initial reward (0.0 is forbidden by Phase 2)
             done=False,
             attempt=0,
             max_attempts=6,
                 test_results=[],
                 tests_passed=0,
                 tests_total=len(bug["tests"]),
+                reward=0.01,  # Clamped: syntax error gives minimum reward, not -1.0
                 done=done,
                 attempt=state.attempt,
                 max_attempts=state.max_attempts,

openenv.yaml CHANGED Viewed

@@ -89,31 +89,39 @@ tasks:
     description: "Fix subtraction → addition bug"
     max_steps: 6
     reward_range: [0.01, 0.99]
   - name: debug-find_max
     description: "Fix < → > comparison bug"
     max_steps: 6
     reward_range: [0.01, 0.99]
   - name: debug-reverse_string
     description: "Fix slice → reverse bug"
     max_steps: 6
     reward_range: [0.01, 0.99]
   - name: debug-fibonacci
     description: "Fix n-3 → n-2 recursion bug"
     max_steps: 6
     reward_range: [0.01, 0.99]
   - name: debug-count_vowels
     description: "Fix missing case-insensitive bug"
     max_steps: 6
     reward_range: [0.01, 0.99]
   - name: debug-flatten_list
     description: "Fix append → extend (recursive flatten) bug"
     max_steps: 6
     reward_range: [0.01, 0.99]
   - name: debug-merge_sorted
     description: "Fix missing remaining elements bug"
     max_steps: 6
     reward_range: [0.01, 0.99]
   - name: debug-remove_duplicates
     description: "Fix inverted condition bug"
     max_steps: 6
     reward_range: [0.01, 0.99]

     description: "Fix subtraction → addition bug"
     max_steps: 6
     reward_range: [0.01, 0.99]
+    grader: environment
   - name: debug-find_max
     description: "Fix < → > comparison bug"
     max_steps: 6
     reward_range: [0.01, 0.99]
+    grader: environment
   - name: debug-reverse_string
     description: "Fix slice → reverse bug"
     max_steps: 6
     reward_range: [0.01, 0.99]
+    grader: environment
   - name: debug-fibonacci
     description: "Fix n-3 → n-2 recursion bug"
     max_steps: 6
     reward_range: [0.01, 0.99]
+    grader: environment
   - name: debug-count_vowels
     description: "Fix missing case-insensitive bug"
     max_steps: 6
     reward_range: [0.01, 0.99]
+    grader: environment
   - name: debug-flatten_list
     description: "Fix append → extend (recursive flatten) bug"
     max_steps: 6
     reward_range: [0.01, 0.99]
+    grader: environment
   - name: debug-merge_sorted
     description: "Fix missing remaining elements bug"
     max_steps: 6
     reward_range: [0.01, 0.99]
+    grader: environment
   - name: debug-remove_duplicates
     description: "Fix inverted condition bug"
     max_steps: 6
     reward_range: [0.01, 0.99]
+    grader: environment