Spaces:

kumar6591
/

data-quality-env

Sleeping

Hemanth Kunta commited on Apr 8

Commit

b2ea92f

1 Parent(s): 3e987ed

clamp terminal task scores and avoid 1.000 display rounding

Files changed (2) hide show

env/app.py CHANGED Viewed

@@ -75,7 +75,7 @@ def step(payload: dict):
         if state.step > MAX_STEPS:
             state.done = True
-            total = round(min(1.25, state.audit_score + state.fix_bonus), 4)
             rb = RewardBreakdown(
                 base_audit_score=state.audit_score,
                 confidence_brier_adjustment=0.0,
@@ -145,7 +145,7 @@ def step(payload: dict):
             if state.fix_steps_remaining <= 0:
                 state.done = True
-                total = round(min(1.25, state.audit_score + state.fix_bonus), 4)
                 rb = RewardBreakdown(
                     base_audit_score=state.audit_score,
                     confidence_brier_adjustment=0.0,
@@ -163,7 +163,7 @@ def step(payload: dict):
             if done:
                 state.done = True
-            total = round(min(1.25, state.audit_score + state.fix_bonus), 4)
             rb = RewardBreakdown(
                 base_audit_score=state.audit_score,
                 confidence_brier_adjustment=0.0,

         if state.step > MAX_STEPS:
             state.done = True
+            total = BaseTask.strict_score(round(min(1.25, state.audit_score + state.fix_bonus), 4))
             rb = RewardBreakdown(
                 base_audit_score=state.audit_score,
                 confidence_brier_adjustment=0.0,
             if state.fix_steps_remaining <= 0:
                 state.done = True
+                total = BaseTask.strict_score(round(min(1.25, state.audit_score + state.fix_bonus), 4))
                 rb = RewardBreakdown(
                     base_audit_score=state.audit_score,
                     confidence_brier_adjustment=0.0,
             if done:
                 state.done = True
+            total = BaseTask.strict_score(round(min(1.25, state.audit_score + state.fix_bonus), 4))
             rb = RewardBreakdown(
                 base_audit_score=state.audit_score,
                 confidence_brier_adjustment=0.0,

high_grade_agent.py CHANGED Viewed

@@ -452,7 +452,7 @@ def run_task(task_id: int, q_table: dict[str, list[float]], memory: MemoryStore)
             evidence={"task_id": task_id, "score": score},
         )
     )
-    print(f"  Done. Score: {score:.3f} | Breakdown: {reward.get('breakdown', {})}")
     return score
@@ -465,9 +465,9 @@ def main() -> None:
     memory.save()
     print("\n=== HIGH-GRADE AGENT RESULTS ===")
     for k, v in scores.items():
-        print(f"  {k}: {v:.3f}")
     mean_score = BaseTask.strict_score(sum(scores.values()) / len(scores))
-    print(f"  mean: {mean_score:.3f}")
 if __name__ == "__main__":

             evidence={"task_id": task_id, "score": score},
         )
     )
+    print(f"  Done. Score: {score:.6f} | Breakdown: {reward.get('breakdown', {})}")
     return score
     memory.save()
     print("\n=== HIGH-GRADE AGENT RESULTS ===")
     for k, v in scores.items():
+        print(f"  {k}: {v:.6f}")
     mean_score = BaseTask.strict_score(sum(scores.values()) / len(scores))
+    print(f"  mean: {mean_score:.6f}")
 if __name__ == "__main__":