Spaces:

samrat-rm
/

WhyDidItFail

Sleeping

samrat-rm commited on 8 days ago

Commit

c130122

1 Parent(s): 2014a9f

fix: reward scores are updated to be between 0 and 1

Files changed (2) hide show

inference.py CHANGED Viewed

@@ -210,7 +210,7 @@ async def run_episode(
                 print(f"[STEP] step={step} action={action.action_type} reward=0.00 done=true error={e}", flush=True)
                 break
             obs    = result.observation
-            reward = result.reward or 0.0
             done   = result.done
             if action.action_type in ("inspect_logs", "inspect_config", "inspect_gradients"):
                 source = action.action_type.replace("inspect_", "")
@@ -252,8 +252,8 @@ async def run_episode(
     finally:
         steps_taken = len(rewards)
-        rewards_str = ",".join(f"{r:.2f}" for r in rewards) if rewards else "0.00"
-        print(f"[END] success={str(success).lower()} steps={steps_taken} rewards={rewards_str}", flush=True)
     return {"scenario_key": scenario_key, "score": score, "steps": steps_taken, "success": success}, env

                 print(f"[STEP] step={step} action={action.action_type} reward=0.00 done=true error={e}", flush=True)
                 break
             obs    = result.observation
+            reward = round(min(0.99, result.reward or 0.01), 2)
             done   = result.done
             if action.action_type in ("inspect_logs", "inspect_config", "inspect_gradients"):
                 source = action.action_type.replace("inspect_", "")
     finally:
         steps_taken = len(rewards)
+        final_score = round(max(0.01, min(0.99, sum(rewards))), 2) if rewards else 0.01
+        print(f"[END] success={str(success).lower()} steps={steps_taken} reward={final_score}", flush=True)
     return {"scenario_key": scenario_key, "score": score, "steps": steps_taken, "success": success}, env

server/graders.py CHANGED Viewed

@@ -210,7 +210,7 @@ def grade(
     max_steps        = len(required) * 3 + 2      # hard ceiling; exceeding it = total failure
     if steps_taken > max_steps:
-        return 0.0
     d_score  = _diagnosis_score(diagnosis, scenario)
     ed_penalty = _evidence_diagnosis_penalty(diagnosis, scenario, inspection_order)
@@ -221,4 +221,4 @@ def grade(
     total = d_score + ed_penalty + e_score + f_score + b_score + o_bonus
-    return round(max(0.0, min(1.0, total)), 4)

     max_steps        = len(required) * 3 + 2      # hard ceiling; exceeding it = total failure
     if steps_taken > max_steps:
+        return 0.01
     d_score  = _diagnosis_score(diagnosis, scenario)
     ed_penalty = _evidence_diagnosis_penalty(diagnosis, scenario, inspection_order)
     total = d_score + ed_penalty + e_score + f_score + b_score + o_bonus
+    return round(max(0.01, min(0.99, total)), 2)