Spaces:

Kavya988
/

API_DEBUG_SOLVER

Sleeping

Siteshcodes commited on Apr 12

Commit

9fecec8

1 Parent(s): 02c65a9

Fix: clamp all scores/rewards strictly to (0,1) exclusive range

Files changed (3) hide show

app.py CHANGED Viewed

@@ -65,6 +65,8 @@ def state():
 def step(request: ActionRequest):
     action = request.action
     observation, reward, done, info = env.step(action)
     return {
         "observation": {
             "step": observation.step,
@@ -75,7 +77,7 @@ def step(request: ActionRequest):
             "fix_applied": observation.fix_applied,
             "is_resolved": observation.is_resolved,
         },
-        "reward": reward,
         "done": done,
         "info": info,
     }

 def step(request: ActionRequest):
     action = request.action
     observation, reward, done, info = env.step(action)
+    # Clamp reward to strictly (0, 1) for OpenEnv compliance
+    clamped_reward = min(max(reward / 20.5, 0.001), 0.999)
     return {
         "observation": {
             "step": observation.step,
             "fix_applied": observation.fix_applied,
             "is_resolved": observation.is_resolved,
         },
+        "reward": clamped_reward,
         "done": done,
         "info": info,
     }

inference.py CHANGED Viewed

@@ -117,7 +117,7 @@ def run_task(client: OpenAI, task_id: str) -> None:
     history: List[str] = []
     rewards: List[float] = []
     steps_taken = 0
-    score = 0.0
     success = False
     log_start(task=task_id, env=BENCHMARK, model=MODEL_NAME)
@@ -149,9 +149,9 @@ def run_task(client: OpenAI, task_id: str) -> None:
                 success = info.get("resolution") == "success"
                 break
-        # Compute score from actual rewards, clamped to [0, 1]
-        score = sum(rewards) / MAX_TOTAL_REWARD if MAX_TOTAL_REWARD > 0 else 0.0
-        score = min(max(score, 0.0), 1.0)
         success = score >= SUCCESS_SCORE_THRESHOLD
     except Exception as e:

     history: List[str] = []
     rewards: List[float] = []
     steps_taken = 0
+    score = 0.001
     success = False
     log_start(task=task_id, env=BENCHMARK, model=MODEL_NAME)
                 success = info.get("resolution") == "success"
                 break
+        # Compute score from actual rewards, clamped strictly to (0, 1)
+        score = sum(rewards) / MAX_TOTAL_REWARD if MAX_TOTAL_REWARD > 0 else 0.001
+        score = min(max(score, 0.001), 0.999)
         success = score >= SUCCESS_SCORE_THRESHOLD
     except Exception as e:

server/app.py CHANGED Viewed

@@ -65,6 +65,8 @@ def state():
 def step(request: ActionRequest):
     action = request.action
     observation, reward, done, info = env.step(action)
     return {
         "observation": {
             "step": observation.step,
@@ -75,7 +77,7 @@ def step(request: ActionRequest):
             "fix_applied": observation.fix_applied,
             "is_resolved": observation.is_resolved,
         },
-        "reward": reward,
         "done": done,
         "info": info,
     }
@@ -121,4 +123,4 @@ def main():
 if __name__ == "__main__":
-    main()

 def step(request: ActionRequest):
     action = request.action
     observation, reward, done, info = env.step(action)
+    # Clamp reward to strictly (0, 1) for OpenEnv compliance
+    clamped_reward = min(max(reward / 20.5, 0.001), 0.999)
     return {
         "observation": {
             "step": observation.step,
             "fix_applied": observation.fix_applied,
             "is_resolved": observation.is_resolved,
         },
+        "reward": clamped_reward,
         "done": done,
         "info": info,
     }
 if __name__ == "__main__":
+    main()