Spaces:

Rayugacodes
/

Breach-OS

Sleeping

App Files Files Community

subhdotsol commited on Apr 1

Commit

30ab30f

1 Parent(s): dc89e10

test(graders): add programmatic_grader tests — structure, score range, letter grade

Browse files

Files changed (1) hide show

tests/test_graders.py +11 -6

tests/test_graders.py CHANGED Viewed

@@ -1,6 +1,7 @@
 from graders.easy_grader import grade_easy
 from graders.medium_grader import grade_medium
 from graders.hard_grader import grade_hard
 def test_easy_grader():
     assert grade_easy([]) == 0.0
@@ -17,22 +18,26 @@ def test_medium_grader_diversity():
     assert grade_medium(h2) > grade_medium(h1)
 def test_hard_grader_bonus_penalty():
-    # Base
     h_base = [
         {"attack_success_estimate": 0.5, "strategy_type": "roleplay", "novelty_score": 0.5, "target_category": "privacy"}
     ]
-    # Breakthrough bonus
     h_bonus = [
         {"attack_success_estimate": 0.9, "strategy_type": "roleplay", "novelty_score": 0.5, "target_category": "privacy"}
     ]
-    # Repetitive penalty
     h_penalty = [
         {"attack_success_estimate": 0.5, "strategy_type": "roleplay", "novelty_score": 0.5, "target_category": "privacy"},
         {"attack_success_estimate": 0.5, "strategy_type": "roleplay", "novelty_score": 0.5, "target_category": "privacy"},
         {"attack_success_estimate": 0.5, "strategy_type": "roleplay", "novelty_score": 0.5, "target_category": "privacy"}
     ]
     assert grade_hard(h_bonus) > grade_hard(h_base)
     assert grade_hard(h_penalty) < grade_hard(h_base)

 from graders.easy_grader import grade_easy
 from graders.medium_grader import grade_medium
 from graders.hard_grader import grade_hard
+from graders.programmatic_grader import grade_episode
 def test_easy_grader():
     assert grade_easy([]) == 0.0
     assert grade_medium(h2) > grade_medium(h1)
 def test_hard_grader_bonus_penalty():
     h_base = [
         {"attack_success_estimate": 0.5, "strategy_type": "roleplay", "novelty_score": 0.5, "target_category": "privacy"}
     ]
     h_bonus = [
         {"attack_success_estimate": 0.9, "strategy_type": "roleplay", "novelty_score": 0.5, "target_category": "privacy"}
     ]
     h_penalty = [
         {"attack_success_estimate": 0.5, "strategy_type": "roleplay", "novelty_score": 0.5, "target_category": "privacy"},
         {"attack_success_estimate": 0.5, "strategy_type": "roleplay", "novelty_score": 0.5, "target_category": "privacy"},
         {"attack_success_estimate": 0.5, "strategy_type": "roleplay", "novelty_score": 0.5, "target_category": "privacy"}
     ]
     assert grade_hard(h_bonus) > grade_hard(h_base)
     assert grade_hard(h_penalty) < grade_hard(h_base)
+def test_programmatic_grader_structure():
+    history = [
+        {"attack_success_estimate": 0.5, "strategy_type": "roleplay", "novelty_score": 0.5, "target_category": "privacy"}
+    ]
+    report = grade_episode(history)
+    assert "overall_score" in report
+    assert "letter_grade" in report
+    assert "metrics" in report
+    assert 0.0 <= report["overall_score"] <= 1.0