Spaces:

Sid8421
/

openenv-rl-environment

Sleeping

App Files Files Community

Sid8421 commited on 9 days ago

Commit

1d7df11

1 Parent(s): b63619e

Fix structural phase 2 validation: Clamp all scores rigorously within (0, 1) bounds exclusively

Browse files

Files changed (3) hide show

env/graders.py +8 -8
inference.py +1 -1
tests/test_environment.py +1 -1

env/graders.py CHANGED Viewed

@@ -13,7 +13,7 @@ def grade_easy(state: EnvironmentState) -> float:
     if "escalate" in actions:
         reward -= 0.5 # penalty for unnecessary escalation
-    return max(0.0, min(1.0, reward))
 def grade_medium(state: EnvironmentState) -> float:
     # Requires: check_policy, reply_to_customer (explaining policy), close_ticket
@@ -28,10 +28,10 @@ def grade_medium(state: EnvironmentState) -> float:
     if "close_ticket" in actions:
         reward += 0.3
-    if "issue_refund" in actions: # fatal mistake
-        return 0.0
-    return max(0.0, min(1.0, reward))
 def grade_hard(state: EnvironmentState) -> float:
     # Requires: fetch_user_data, escalate to "billing_tier2", reply_to_customer
@@ -57,7 +57,7 @@ def grade_hard(state: EnvironmentState) -> float:
     if "close_ticket" in actions:
         reward -= 0.3 # can't close without resolving escalate
-    return max(0.0, min(1.0, reward))
 def grade_fraud_detection(state: EnvironmentState) -> float:
     # Requires: fetch_user_data, check_policy, deny refund, close_ticket
@@ -77,9 +77,9 @@ def grade_fraud_detection(state: EnvironmentState) -> float:
         print("Reward after close_ticket:", reward)
     if "issue_refund" in actions:  # fatal mistake
-        return 0.0
-    return max(0.0, min(1.0, reward))
 def grade(state: EnvironmentState) -> float:
     if state.current_task_id == "task_fraud_detection":
@@ -90,4 +90,4 @@ def grade(state: EnvironmentState) -> float:
         return grade_medium(state)
     elif state.task_difficulty == "hard":
         return grade_hard(state)
-    return 0.0

     if "escalate" in actions:
         reward -= 0.5 # penalty for unnecessary escalation
+    return max(0.01, min(0.99, reward))
 def grade_medium(state: EnvironmentState) -> float:
     # Requires: check_policy, reply_to_customer (explaining policy), close_ticket
     if "close_ticket" in actions:
         reward += 0.3
+    if "issue_refund" in actions:
+        return 0.01
+    return max(0.01, min(0.99, reward))
 def grade_hard(state: EnvironmentState) -> float:
     # Requires: fetch_user_data, escalate to "billing_tier2", reply_to_customer
     if "close_ticket" in actions:
         reward -= 0.3 # can't close without resolving escalate
+    return max(0.01, min(0.99, reward))
 def grade_fraud_detection(state: EnvironmentState) -> float:
     # Requires: fetch_user_data, check_policy, deny refund, close_ticket
         print("Reward after close_ticket:", reward)
     if "issue_refund" in actions:  # fatal mistake
+        return 0.01
+    return max(0.01, min(0.99, reward))
 def grade(state: EnvironmentState) -> float:
     if state.current_task_id == "task_fraud_detection":
         return grade_medium(state)
     elif state.task_difficulty == "hard":
         return grade_hard(state)
+    return 0.01

inference.py CHANGED Viewed

@@ -162,7 +162,7 @@ async def run_task(task_id: str, client: OpenAI) -> None:
                 score = actual_reward
                 break
-        score = min(max(score, 0.0), 1.0)
         success = score >= SUCCESS_SCORE_THRESHOLD
     finally:
         log_end(success=success, steps=steps_taken, score=score, rewards=rewards)

                 score = actual_reward
                 break
+        score = min(max(score, 0.01), 0.99)
         success = score >= SUCCESS_SCORE_THRESHOLD
     finally:
         log_end(success=success, steps=steps_taken, score=score, rewards=rewards)

tests/test_environment.py CHANGED Viewed

@@ -102,4 +102,4 @@ def test_fraud_detection_task():
     action4 = Action(action_type="close_ticket", parameters={"resolution": "Refund denied due to chargebacks."})
     obs4, reward4, done4, info4 = env.step(action4)
     assert done4 is True
-    assert info4.get("current_reward", -1.0) == 0.0

     action4 = Action(action_type="close_ticket", parameters={"resolution": "Refund denied due to chargebacks."})
     obs4, reward4, done4, info4 = env.step(action4)
     assert done4 is True
+    assert info4.get("current_reward", -1.0) == 0.01