Spaces:

savetrees
/

bug-triage-openenv

Sleeping

savetrees commited on 3 days ago

Commit

cd482eb

verified ·

1 Parent(s): 7876e2f

Upload folder using huggingface_hub

Files changed (4) hide show

bug_triage_env/graders/task1_grader.py CHANGED Viewed

@@ -19,13 +19,13 @@ def grade(episode_log: List[Dict[str, Any]], ground_truth: Dict[str, Any]) -> fl
         Score in [0.0, 1.0].
     """
     if not episode_log:
-        return 0.0
     last_action = episode_log[-1]
     predicted = (last_action.get("bug_type") or "").strip().lower()
     expected = (ground_truth.get("bug_type") or "").strip().lower()
     if not predicted:
-        return 0.0
-    return 1.0 if predicted == expected else 0.01

         Score in [0.0, 1.0].
     """
     if not episode_log:
+        return 0.01
     last_action = episode_log[-1]
     predicted = (last_action.get("bug_type") or "").strip().lower()
     expected = (ground_truth.get("bug_type") or "").strip().lower()
     if not predicted:
+        return 0.01
+    return 0.99 if predicted == expected else 0.01

bug_triage_env/graders/task2_grader.py CHANGED Viewed

@@ -27,17 +27,17 @@ def grade(episode_log: List[Dict[str, Any]], ground_truth: Dict[str, Any]) -> fl
         float score in [0.0, 1.0].
     """
     if not episode_log:
-        return 0.0
     last_action = episode_log[-1]
     predicted = (last_action.get("priority") or "").strip().lower()
     expected = (ground_truth.get("priority") or "").strip().lower()
     if not predicted or predicted not in PRIORITY_ORDER:
-        return 0.0
     if expected not in PRIORITY_ORDER:
-        return 0.0
     diff = abs(PRIORITY_ORDER[predicted] - PRIORITY_ORDER[expected])
     score = 1.0 - diff * (1.0 / 3.0)
-    return max(0.0, min(1.0, score))

         float score in [0.0, 1.0].
     """
     if not episode_log:
+        return 0.01
     last_action = episode_log[-1]
     predicted = (last_action.get("priority") or "").strip().lower()
     expected = (ground_truth.get("priority") or "").strip().lower()
     if not predicted or predicted not in PRIORITY_ORDER:
+        return 0.01
     if expected not in PRIORITY_ORDER:
+        return 0.01
     diff = abs(PRIORITY_ORDER[predicted] - PRIORITY_ORDER[expected])
     score = 1.0 - diff * (1.0 / 3.0)
+    return max(0.01, min(0.99, score))

bug_triage_env/graders/task3_grader.py CHANGED Viewed

@@ -85,7 +85,7 @@ def grade(episode_log: List[Dict[str, Any]], ground_truth: Dict[str, Any]) -> fl
         float score in [0.0, 1.0].
     """
     if not episode_log:
-        return 0.0
     action = episode_log[-1]
@@ -111,4 +111,4 @@ def grade(episode_log: List[Dict[str, Any]], ground_truth: Dict[str, Any]) -> fl
         + WEIGHTS["action"] * s_act
     )
-    return max(0.0, min(1.0, round(score, 4)))

         float score in [0.0, 1.0].
     """
     if not episode_log:
+        return 0.01
     action = episode_log[-1]
         + WEIGHTS["action"] * s_act
     )
+    return max(0.01, min(0.99, round(score, 4)))

bug_triage_env/server/environment.py CHANGED Viewed

@@ -117,12 +117,15 @@ class BugTriageEnvironment(_OpenEnvBase):
         grader_fn = GRADERS.get(ep["task_id"], GRADERS["task_1"])
         grader_score = grader_fn(ep["actions"], ep["ground_truth"])
-        # Bound the reward strictly to [0.0, 1.0] to pass Hackathon Phase 2
         calibration_bonus = self._compute_calibration_bonus(
             action.confidence, grader_score
         )
-        reward = grader_score + calibration_bonus
-        reward = max(0.0, min(1.0, reward))
         # Build feedback string
         feedback = self._build_feedback(

         grader_fn = GRADERS.get(ep["task_id"], GRADERS["task_1"])
         grader_score = grader_fn(ep["actions"], ep["ground_truth"])
+        # Shaped reward: map [0, 1] to [-0.5, 1.0] for GRPO training
+        reward = (grader_score * 1.5) - 0.5
+        # Confidence calibration bonus/penalty
         calibration_bonus = self._compute_calibration_bonus(
             action.confidence, grader_score
         )
+        reward += calibration_bonus
+        reward = max(-0.65, min(1.1, reward))
         # Build feedback string
         feedback = self._build_feedback(