Spaces:

kumar6591
/

data-quality-env

Sleeping

Hemanth Kunta commited on Apr 8

Commit

3e987ed

1 Parent(s): cb70147

clamp grader outputs to strict score range

Files changed (7) hide show

env/app.py CHANGED Viewed

@@ -8,6 +8,7 @@ from fastapi import FastAPI, HTTPException
 from env.dataset_gen import generate_dataset
 from env.engine import SQLEngine
 from env.models import Action, EpisodeState, Observation, Reward, RewardBreakdown
 from tasks.task1_nulls import Task1
 from tasks.task2_schema import Task2
 from tasks.task3_drift import Task3
@@ -116,7 +117,7 @@ def step(payload: dict):
             base_score, score_breakdown = task.grade(action.report, gold)
             budget_bonus = round(min(0.10, state.query_credits * 0.01), 4)
-            total = round(min(1.0, base_score + budget_bonus), 4)
             state.audit_score = total
             state.report_submitted = True

 from env.dataset_gen import generate_dataset
 from env.engine import SQLEngine
 from env.models import Action, EpisodeState, Observation, Reward, RewardBreakdown
+from tasks.base import BaseTask
 from tasks.task1_nulls import Task1
 from tasks.task2_schema import Task2
 from tasks.task3_drift import Task3
             base_score, score_breakdown = task.grade(action.report, gold)
             budget_bonus = round(min(0.10, state.query_credits * 0.01), 4)
+            total = BaseTask.strict_score(round(min(1.0, base_score + budget_bonus), 4))
             state.audit_score = total
             state.report_submitted = True

high_grade_agent.py CHANGED Viewed

@@ -25,6 +25,7 @@ from env.reasoning_stack import (
     validate_and_repair_report,
 )
 from env.sql_brain import probes_for_task
 API_BASE_URL = os.environ.get("API_BASE_URL", "")
 MODEL_NAME = os.environ.get("MODEL_NAME", "")
@@ -439,7 +440,7 @@ def run_task(task_id: int, q_table: dict[str, list[float]], memory: MemoryStore)
     out = call_env("step", {"action": {"action_type": "submit_report", "report": report}})
     reward = out.get("reward", {})
-    score = as_float(reward.get("value", 0.0))
     # Persist successful behavior to memory for future episodes.
     memory.add(
@@ -465,7 +466,8 @@ def main() -> None:
     print("\n=== HIGH-GRADE AGENT RESULTS ===")
     for k, v in scores.items():
         print(f"  {k}: {v:.3f}")
-    print(f"  mean: {sum(scores.values())/len(scores):.3f}")
 if __name__ == "__main__":

     validate_and_repair_report,
 )
 from env.sql_brain import probes_for_task
+from tasks.base import BaseTask
 API_BASE_URL = os.environ.get("API_BASE_URL", "")
 MODEL_NAME = os.environ.get("MODEL_NAME", "")
     out = call_env("step", {"action": {"action_type": "submit_report", "report": report}})
     reward = out.get("reward", {})
+    score = BaseTask.strict_score(as_float(reward.get("value", 0.0)))
     # Persist successful behavior to memory for future episodes.
     memory.add(
     print("\n=== HIGH-GRADE AGENT RESULTS ===")
     for k, v in scores.items():
         print(f"  {k}: {v:.3f}")
+    mean_score = BaseTask.strict_score(sum(scores.values()) / len(scores))
+    print(f"  mean: {mean_score:.3f}")
 if __name__ == "__main__":

tasks/base.py CHANGED Viewed

@@ -3,6 +3,9 @@ from abc import ABC, abstractmethod
 from env.models import AuditReport
 class BaseTask(ABC):
     @abstractmethod
     def get_description(self) -> str:
@@ -22,6 +25,18 @@ class BaseTask(ABC):
         brier = (confidence - c) ** 2
         return base * (1.0 - 0.3 * brier)
     @staticmethod
     def count_accuracy(reported: int, actual: int, tolerance: float = 0.15) -> float:
         if actual == 0:

 from env.models import AuditReport
+SCORE_EPS = 1e-6
 class BaseTask(ABC):
     @abstractmethod
     def get_description(self) -> str:
         brier = (confidence - c) ** 2
         return base * (1.0 - 0.3 * brier)
+    @staticmethod
+    def strict_score(value: float, epsilon: float = SCORE_EPS) -> float:
+        try:
+            score = float(value)
+        except Exception:
+            score = epsilon
+        if not (score > 0.0):
+            return epsilon
+        if not (score < 1.0):
+            return 1.0 - epsilon
+        return score
     @staticmethod
     def count_accuracy(reported: int, actual: int, tolerance: float = 0.15) -> float:
         if actual == 0:

tasks/task1_nulls.py CHANGED Viewed

@@ -39,4 +39,4 @@ class Task1(BaseTask):
         weights = {"null_email": 0.30, "null_cid": 0.25, "exact_dups": 0.30, "near_dups": 0.15}
         total = sum(scores[k] * weights[k] for k in weights)
-        return round(min(1.0, total), 4), scores

         weights = {"null_email": 0.30, "null_cid": 0.25, "exact_dups": 0.30, "near_dups": 0.15}
         total = sum(scores[k] * weights[k] for k in weights)
+        return self.strict_score(round(total, 4)), scores

tasks/task2_schema.py CHANGED Viewed

@@ -50,4 +50,4 @@ class Task2(BaseTask):
         weights = {"amount_type": 0.25, "date_format": 0.25, "neg_qty": 0.25, "bad_amount": 0.25}
         total = sum(scores[k] * weights[k] for k in weights)
-        return round(min(1.0, total), 4), scores

         weights = {"amount_type": 0.25, "date_format": 0.25, "neg_qty": 0.25, "bad_amount": 0.25}
         total = sum(scores[k] * weights[k] for k in weights)
+        return self.strict_score(round(total, 4)), scores

tasks/task3_drift.py CHANGED Viewed

@@ -57,4 +57,4 @@ class Task3(BaseTask):
         weights = {"mean_shift": 0.40, "new_cats": 0.35, "ref_drift": 0.25}
         total = sum(scores[k] * weights[k] for k in weights)
-        return round(min(1.0, total), 4), scores

         weights = {"mean_shift": 0.40, "new_cats": 0.35, "ref_drift": 0.25}
         total = sum(scores[k] * weights[k] for k in weights)
+        return self.strict_score(round(total, 4)), scores

tasks/task4_relational.py CHANGED Viewed

@@ -50,4 +50,4 @@ class Task4(BaseTask):
         weights = {"orphans": 0.40, "temporal": 0.35, "aggregates": 0.25}
         total = sum(scores[k] * weights[k] for k in weights)
-        return round(min(1.0, total), 4), scores

         weights = {"orphans": 0.40, "temporal": 0.35, "aggregates": 0.25}
         total = sum(scores[k] * weights[k] for k in weights)
+        return self.strict_score(round(total, 4)), scores