Spaces:

rohitc1612
/

vuln-patch-env

Sleeping

rohitc1612 commited on Apr 9

Commit

9604368

1 Parent(s): 7d727c2

fix: clamp scores strictly within open interval (0, 1) per updated evaluator rules

Files changed (2) hide show

environment.py CHANGED Viewed

@@ -216,8 +216,8 @@ class VulnPatchEnv:
             self.done = True
             reward_val -= 0.2
-        # Ensure reward is strictly between 0.0 and 1.0 per OpenEnv spec requirement
-        reward_val = min(max(reward_val, 0.0), 1.0)
         return self.state(), Reward(value=reward_val), self.done, Info()

             self.done = True
             reward_val -= 0.2
+        # Clamp reward strictly within open interval (0, 1) — 0.0 and 1.0 are not allowed
+        reward_val = min(max(reward_val, 0.01), 0.99)
         return self.state(), Reward(value=reward_val), self.done, Info()

inference.py CHANGED Viewed

@@ -82,8 +82,11 @@ def run_episode(task_name: str):
     finally:
         env.close()
         # REQUIRED [END] line — always emitted even on exception, score to 2 decimal places
-        score = rewards[-1] if rewards else 0.0
-        score = min(max(score, 0.0), 1.0)  # Clamp score to 0.0 - 1.0
         success_str = "true" if score >= 0.8 else "false"
         rewards_str = ",".join([f"{r:.2f}" for r in rewards])
         print(

     finally:
         env.close()
         # REQUIRED [END] line — always emitted even on exception, score to 2 decimal places
+        score = rewards[-1] if rewards else 0.01
+        score = min(
+            max(score, 0.01), 0.99
+        )  # Strictly within (0, 1) — exclusive of 0 and 1
         success_str = "true" if score >= 0.8 else "false"
         rewards_str = ",".join([f"{r:.2f}" for r in rewards])
         print(