Spaces:

Roopalgn
/

AIHack-ITHelpDesk

Running

App Files Files Community

Roopalgn commited on Apr 7

Commit

e3dfee6

1 Parent(s): ff634dc

Clamp grader task scores to open interval

Browse files

Files changed (3) hide show

server/grader.py +4 -1
tests/test_competitive_upgrade.py +3 -3
tests/test_grader_unit.py +9 -6

server/grader.py CHANGED Viewed

@@ -2,6 +2,8 @@ from __future__ import annotations
 from models import HelpdeskTicketAction, HelpdeskTicketRecord
 ISSUE_TYPE_SIMILARITY = {
     ("billing_license", "service_request"): 0.4,
@@ -98,6 +100,7 @@ def grade_action(
     }
     weights = TASK_WEIGHTS[task_id]
-    score = sum(field_scores[field] * weight for field, weight in weights.items())
     breakdown = {field: field_scores[field] for field in weights}
     return score, breakdown

 from models import HelpdeskTicketAction, HelpdeskTicketRecord
+TASK_SCORE_EPSILON = 0.001
 ISSUE_TYPE_SIMILARITY = {
     ("billing_license", "service_request"): 0.4,
     }
     weights = TASK_WEIGHTS[task_id]
+    raw_score = sum(field_scores[field] * weight for field, weight in weights.items())
+    score = max(TASK_SCORE_EPSILON, min(1.0 - TASK_SCORE_EPSILON, raw_score))
     breakdown = {field: field_scores[field] for field in weights}
     return score, breakdown

tests/test_competitive_upgrade.py CHANGED Viewed

@@ -746,9 +746,9 @@ class TestTerminalInvalidActionFinalReward(unittest.TestCase):
         )
         self.assertTrue(final_obs.done)
-        self.assertAlmostEqual(final_obs.reward, 0.5, places=9)
-        self.assertAlmostEqual(env.state.total_reward, 0.5, places=9)
-        self.assertAlmostEqual(env.state.reward or 0.0, 0.5, places=9)
 # ---------------------------------------------------------------------------

         )
         self.assertTrue(final_obs.done)
+        self.assertAlmostEqual(final_obs.reward, 0.4995, places=9)
+        self.assertAlmostEqual(env.state.total_reward, 0.4995, places=9)
+        self.assertAlmostEqual(env.state.reward or 0.0, 0.4995, places=9)
 # ---------------------------------------------------------------------------

tests/test_grader_unit.py CHANGED Viewed

@@ -45,7 +45,7 @@ class GraderUnitTests(unittest.TestCase):
         score, breakdown = grade_action(action, ticket, task_id=3)
-        self.assertAlmostEqual(score, 1.0)
         self.assertEqual(
             breakdown,
             {
@@ -81,13 +81,14 @@ class GraderUnitTests(unittest.TestCase):
                     score, breakdown = grade_action(action, ticket, task_id=1)
-                    expected_score = (
                         1.0
                         if predicted == expected
                         else ISSUE_TYPE_SIMILARITY.get((predicted, expected), 0.0)
                     )
-                    self.assertAlmostEqual(score, expected_score)
-                    self.assertEqual(breakdown, {"issue_type": expected_score})
     def test_unrelated_issue_type_gets_zero_not_fuzzy_credit(self) -> None:
         ticket = _ticket(issue_type="onboarding")
@@ -95,7 +96,7 @@ class GraderUnitTests(unittest.TestCase):
         score, breakdown = grade_action(action, ticket, task_id=1)
-        self.assertAlmostEqual(score, 0.0)
         self.assertEqual(breakdown, {"issue_type": 0.0})
     def test_priority_scoring_uses_defined_proximity_table(self) -> None:
@@ -129,7 +130,9 @@ class GraderUnitTests(unittest.TestCase):
                         breakdown,
                         {"issue_type": 1.0, "priority": priority_score},
                     )
-                    self.assertAlmostEqual(score, 0.6 + 0.4 * priority_score)
     def test_task_2_weights_apply_as_documented(self) -> None:
         ticket = _ticket(priority="high")

         score, breakdown = grade_action(action, ticket, task_id=3)
+        self.assertAlmostEqual(score, 0.999)
         self.assertEqual(
             breakdown,
             {
                     score, breakdown = grade_action(action, ticket, task_id=1)
+                    raw_expected_score = (
                         1.0
                         if predicted == expected
                         else ISSUE_TYPE_SIMILARITY.get((predicted, expected), 0.0)
                     )
+                    expected_task_score = max(0.001, min(0.999, raw_expected_score))
+                    self.assertAlmostEqual(score, expected_task_score)
+                    self.assertEqual(breakdown, {"issue_type": raw_expected_score})
     def test_unrelated_issue_type_gets_zero_not_fuzzy_credit(self) -> None:
         ticket = _ticket(issue_type="onboarding")
         score, breakdown = grade_action(action, ticket, task_id=1)
+        self.assertAlmostEqual(score, 0.001)
         self.assertEqual(breakdown, {"issue_type": 0.0})
     def test_priority_scoring_uses_defined_proximity_table(self) -> None:
                         breakdown,
                         {"issue_type": 1.0, "priority": priority_score},
                     )
+                    raw_score = 0.6 + 0.4 * priority_score
+                    expected_task_score = max(0.001, min(0.999, raw_score))
+                    self.assertAlmostEqual(score, expected_task_score)
     def test_task_2_weights_apply_as_documented(self) -> None:
         ticket = _ticket(priority="high")