Spaces:

inmodel
/

code-review-env

Sleeping

Nitish commited on Apr 8

Commit

c04a5c5

1 Parent(s): 65e5ed1

fix: clamp ALL score outputs to (0.01, 0.99) — inference.py score + environment total_reward

Files changed (2) hide show

inference.py CHANGED Viewed

@@ -157,7 +157,7 @@ def run_task(task_id: str, task_num: int, client: OpenAI) -> dict:
     except Exception as exc:
         print(f"[ERROR] task={task_id} exception: {exc}", flush=True)
     finally:
-        clamped_score = round(min(1.0, max(0.0, cumulative_reward)), 3)
         log_end(success=success, steps=step_num, score=clamped_score, rewards=all_rewards)
     return {

     except Exception as exc:
         print(f"[ERROR] task={task_id} exception: {exc}", flush=True)
     finally:
+        clamped_score = round(min(0.99, max(0.01, cumulative_reward)), 3)
         log_end(success=success, steps=step_num, score=clamped_score, rewards=all_rewards)
     return {

server/environment.py CHANGED Viewed

@@ -113,7 +113,7 @@ class CodeSecurityEnv:
             task_id=current_id,
             step=self.step_count,
             done=self.done,
-            total_reward=self.total_reward,
         )
     def _make_observation(self) -> Observation:

             task_id=current_id,
             step=self.step_count,
             done=self.done,
+            total_reward=max(0.01, min(0.99, self.total_reward)),
         )
     def _make_observation(self) -> Observation: