Spaces:

Codex47
/

SmartContractAudit

Sleeping

App Files Files Community

ajaxwin commited on Apr 12

Commit

dccaaac

1 Parent(s): c6002b4

refactor: Update task configurations and grading logic for improved scoring and consistency

Browse files

Files changed (5) hide show

README.md +6 -6
inference.py +11 -6
openenv.yaml +81 -36
server/tasks/task1/grader.py +1 -1
server/tasks/task2/grader.py +1 -1

README.md CHANGED Viewed

@@ -357,18 +357,18 @@ tasks:
   - id: task1_vuln_detection
     name: Targeted Vulnerability Detection
     difficulty: medium
-    max_steps: 15
-    max_score: 5.0
   - id: task2_property_discovery
     name: Property Discovery
     difficulty: hard
-    max_steps: 10
-    max_score: 5.0
   - id: task3_rule_checker
     name: Rule Checker
     difficulty: easy
-    max_steps: 10
-    max_score: 5.0
 observation_schema: models/observation.py
 action_schema: models/action.py
 app_port: 7860

   - id: task1_vuln_detection
     name: Targeted Vulnerability Detection
     difficulty: medium
+    max_steps: 40
+    max_score: 1.0
   - id: task2_property_discovery
     name: Property Discovery
     difficulty: hard
+    max_steps: 40
+    max_score: 1.0
   - id: task3_rule_checker
     name: Rule Checker
     difficulty: easy
+    max_steps: 20
+    max_score: 1.0
 observation_schema: models/observation.py
 action_schema: models/action.py
 app_port: 7860

inference.py CHANGED Viewed

@@ -41,11 +41,14 @@ from utils import T1_SYSTEM, T2_SYSTEM, T3_SYSTEM
 load_dotenv()
 API_BASE_URL = os.getenv("API_BASE_URL", "https://api.openai.com/v1")
-MODEL_NAME   = os.getenv("MODEL_NAME",   "gpt-4o")
 HF_TOKEN     = os.getenv("HF_TOKEN",     "")
 if not HF_TOKEN:
     raise RuntimeError("HF_TOKEN environment variable not set")
 client = AsyncOpenAI(api_key=HF_TOKEN, base_url=API_BASE_URL)
@@ -129,6 +132,9 @@ def log_end( success: bool, steps: int, score: float, rewards: List[float]) -> N
         flush=True,
     )
 # ─────────────────────────────────────────────────────────────────────────────
 # Generic episode runner
 # ─────────────────────────────────────────────────────────────────────────────
@@ -189,7 +195,6 @@ async def run_episode(
             step_rewards.append(r_val)
             steps_taken = step
-            print(raw, at.value, r_val)
             log_step(step=step, action=at.value, reward=r_val, done=done, error=error_msg)
             if done:
@@ -205,7 +210,7 @@ async def run_episode(
     result_dict = {
         "episode": ep_num,
         "seed": seed,
-        "grader_score": grader_score,
         "contract": obs.get("contract_name", ""),
     }
     if extra_fields:
@@ -280,14 +285,14 @@ async def run_task(
     episodes = await asyncio.gather(*tasks)
     avg_score = sum(e["grader_score"] for e in episodes) / num_episodes
-    print(f"\n  Avg grader score : {avg_score:.4f}", flush=True)
     return {
         "task_id": task_id,
         "name": task_name,
         "status": "active",
         "num_episodes": num_episodes,
         "episodes": episodes,
-        "avg_grader_score": avg_score,
     }
 # ─────────────────────────────────────────────────────────────────────────────
@@ -351,7 +356,7 @@ async def main() -> None:
     print("BASELINE SUMMARY", flush=True)
     print("=" * 60, flush=True)
     for t in results["tasks"]:
-        print(f"  ✅ {t['name']:40s}: {t['avg_grader_score']:.3f}", flush=True)
     print(f"\n  Overall avg grader score: {overall:.4f}", flush=True)
     with open("baseline_scores.json", "w") as f:

 load_dotenv()
 API_BASE_URL = os.getenv("API_BASE_URL", "https://api.openai.com/v1")
+MODEL_NAME   = os.getenv("MODEL_NAME",   "")
 HF_TOKEN     = os.getenv("HF_TOKEN",     "")
 if not HF_TOKEN:
     raise RuntimeError("HF_TOKEN environment variable not set")
+if not MODEL_NAME:
+    raise RuntimeError("MODEL_NAME not set")
 client = AsyncOpenAI(api_key=HF_TOKEN, base_url=API_BASE_URL)
         flush=True,
     )
+def _clamp(reward: float) -> float:
+        return max(0.001, min(0.999, reward))
 # ─────────────────────────────────────────────────────────────────────────────
 # Generic episode runner
 # ─────────────────────────────────────────────────────────────────────────────
             step_rewards.append(r_val)
             steps_taken = step
             log_step(step=step, action=at.value, reward=r_val, done=done, error=error_msg)
             if done:
     result_dict = {
         "episode": ep_num,
         "seed": seed,
+        "grader_score": _clamp(grader_score),
         "contract": obs.get("contract_name", ""),
     }
     if extra_fields:
     episodes = await asyncio.gather(*tasks)
     avg_score = sum(e["grader_score"] for e in episodes) / num_episodes
+    print(f"\n  Avg grader score : {_clamp(avg_score):.4f}", flush=True)
     return {
         "task_id": task_id,
         "name": task_name,
         "status": "active",
         "num_episodes": num_episodes,
         "episodes": episodes,
+        "avg_grader_score": _clamp(avg_score),
     }
 # ─────────────────────────────────────────────────────────────────────────────
     print("BASELINE SUMMARY", flush=True)
     print("=" * 60, flush=True)
     for t in results["tasks"]:
+        print(f"  ✅ {t['name']:40s}: {_clamp(t['avg_grader_score']):.3f}", flush=True)
     print(f"\n  Overall avg grader score: {overall:.4f}", flush=True)
     with open("baseline_scores.json", "w") as f:

openenv.yaml CHANGED Viewed

@@ -16,10 +16,10 @@ tasks:
     description: >
       Given a Solidity contract (4-6 functions), identify the single vulnerable
       function and describe its vulnerability type in 2-3 words.
-    max_steps: 20
-    reward_range: [-10.0, 10.0]
     grader: tasks/task1/grader.py
-    grader_score_range: [0.0, 1.0]
   - id: task2_property_discovery
     name: Property Discovery
@@ -28,8 +28,8 @@ tasks:
     description: >
       Given a single Solidity function with known properties, discover the
       correct natural-language postcondition describing its correct behaviour.
-    max_steps: 15
-    reward_range: [-5.0, 5.0]
     grader: tasks/task2/grader.py
     grader_score_range: [0.0, 1.0]
@@ -40,8 +40,8 @@ tasks:
     description: >
       Given a natural-language property and a Solidity contract, identify the
       function that violates that property. Partial credit for internal subfunctions.
-    max_steps: 15
-    reward_range: [-5.0, 5.0]
     grader: tasks/task3/grader.py
     grader_score_range: [0.0, 1.0]
@@ -60,30 +60,80 @@ observation_space:
     extra:                {type: object}
 action_space:
   task1:
-    list_functions:       {params: {},                            reward: -0.05}
-    get_function_code:    {params: {function_name: string},       reward: "+0.05 / -0.10"}
-    get_function_summary: {params: {function_name: string},       reward: "+0.03 / -0.05"}
-    get_file_metadata:    {params: {},                            reward: -0.04}
-    get_state_variable:   {params: {variable_name: "string opt"}, reward: -0.05}
-    get_call_graph:       {params: {},                            reward: -0.08}
-    submit:               {params: {function_name: string, vulnerability_type: string}, reward: "+5.0 / +1.0 / -1.5"}
   task2:
-    get_function_code:     {params: {}, reward: -0.06}
-    get_function_natspec:  {params: {}, reward: -0.08}
-    get_file_natspec:      {params: {}, reward: -0.03}
-    get_related_functions: {params: {}, reward: -0.06}
-    get_io:                {params: {}, reward: -0.04}
-    get_similar_rule:      {params: {}, reward: -0.20}
-    submit_property:       {params: {property: string}, reward: "0.0-5.0 keyword-weighted, one attempt"}
   task3:
-    list_functions:          {params: {},                            reward: -0.05}
-    get_function_metadata:   {params: {function_name: string},       reward: -0.05}
-    get_function_code:       {params: {function_name: string},       reward: -0.10}
-    get_state_variable:      {params: {variable_name: "string opt"}, reward: -0.05}
-    get_call_graph:          {params: {},                            reward: -0.08}
-    get_formalized_property: {params: {},                            reward: -0.03}
-    submit_function:         {params: {function_name: string},       reward: "+5.0 / +1.5 / -1.5, one attempt"}
 reward:
   type: shaped
@@ -95,16 +145,11 @@ reward:
     get_function_summary_correct: +0.03
     get_function_summary_wrong: -0.05
   task1_terminal:
-    correct: +5.0
-    partial: +1.0
-    wrong: -1.5
   task2_terminal:
-    formula: "score * 5.0  where score = 0.70*(key_matches/key_total) + 0.30*(bonus_matches/bonus_total)"
-    range: [0.0, 5.0]
   task3_terminal:
-    correct_function: +5.0
-    subfunction: +1.5
-    wrong_function: -1.5
 data:
   source: "Certora audited DeFi projects"

     description: >
       Given a Solidity contract (4-6 functions), identify the single vulnerable
       function and describe its vulnerability type in 2-3 words.
+    max_steps: 40
+    reward_range: [0, 1]
     grader: tasks/task1/grader.py
+    grader_score_range: [0, 1]
   - id: task2_property_discovery
     name: Property Discovery
     description: >
       Given a single Solidity function with known properties, discover the
       correct natural-language postcondition describing its correct behaviour.
+    max_steps: 30
+    reward_range: [0, 1]
     grader: tasks/task2/grader.py
     grader_score_range: [0.0, 1.0]
     description: >
       Given a natural-language property and a Solidity contract, identify the
       function that violates that property. Partial credit for internal subfunctions.
+    max_steps: 20
+    reward_range: [0, 1]
     grader: tasks/task3/grader.py
     grader_score_range: [0.0, 1.0]
     extra:                {type: object}
 action_space:
+  # General actions applicable across all tasks
+  general:
+    unknown:   {reward: 0.0}    # UNKNOWN action cost
+    repeated:  {reward: -0.22}  # REPEATED action cost
+    resubmit:  {reward: 0.0}    # RESUBMIT action cost
   task1:
+    list_functions:
+      params: {}
+      reward: -0.04
+    get_function_code:
+      params: {function_name: string}
+      reward: -0.14
+    get_function_summary:
+      params: {function_name: string}
+      reward: -0.07
+    get_file_metadata:
+      params: {}
+      reward: -0.02
+    get_state_variable:
+      params: {variable_name: "string opt"}
+      reward: -0.06
+    get_call_graph:
+      params: {}
+      reward: -0.08
+    submit:
+      params: {function_name: string, vulnerability_type: string}
+      reward: 0.0   # terminal reward handled by grader
   task2:
+    get_function_code:
+      params: {}
+      reward: -0.14
+    get_function_natspec:
+      params: {}
+      reward: -0.08
+    get_file_natspec:
+      params: {}
+      reward: 0.05
+    get_related_functions:
+      params: {}
+      reward: 0.07
+    get_signature:
+      params: {}
+      reward: 0.04
+    get_similar_rule:
+      params: {}
+      reward: 0.15
+    submit_property:
+      params: {property: string}
+      reward: 0.0   # terminal reward handled by grader
   task3:
+    list_functions:
+      params: {}
+      reward: -0.04
+    get_function_metadata:
+      params: {function_name: string}
+      reward: 0.04
+    get_function_code:
+      params: {function_name: string}
+      reward: -0.14
+    get_state_variable:
+      params: {variable_name: "string opt"}
+      reward: -0.06
+    get_call_graph:
+      params: {}
+      reward: -0.08
+    get_property_specification:   # replaces get_formalized_property
+      params: {}
+      reward: 0.02
+    submit_function:
+      params: {function_name: string}
+      reward: 0.0   # terminal reward handled by grader
 reward:
   type: shaped
     get_function_summary_correct: +0.03
     get_function_summary_wrong: -0.05
   task1_terminal:
+    range: [0.0, 1.0]
   task2_terminal:
+    range: [0.0, 1.0]
   task3_terminal:
+    range: [0.0, 1.0]
 data:
   source: "Certora audited DeFi projects"

server/tasks/task1/grader.py CHANGED Viewed

@@ -27,7 +27,7 @@ class Task1Grader:
         # Score formula
         free_budget = (cummulative_cost / steps) * (self.n + 2)
-        reward = func_match * issue_match * (self._decay ** max(0, cummulative_cost - free_budget))
         return self._clamp(reward)
     def get_canonical_answer(self) -> Dict[str, str]:

         # Score formula
         free_budget = (cummulative_cost / steps) * (self.n + 2)
+        reward = (func_match * 0.5) + (issue_match * 0.5) + (self._decay ** max(0, cummulative_cost - free_budget))
         return self._clamp(reward)
     def get_canonical_answer(self) -> Dict[str, str]:

server/tasks/task2/grader.py CHANGED Viewed

@@ -36,6 +36,6 @@ class Task2Grader:
         matcher = SemanticMatcher()
         match_score   = matcher.matchscore(self.property, submitted)
         free_budget = (cummulative_cost / steps) * (self.n + 2)
-        final_score = match_score * (self._decay ** max(0, cummulative_cost - free_budget))
         return self._clamp(final_score), matcher.confidence()

         matcher = SemanticMatcher()
         match_score   = matcher.matchscore(self.property, submitted)
         free_budget = (cummulative_cost / steps) * (self.n + 2)
+        final_score = (match_score * 0.5) + (self._decay ** max(0, cummulative_cost - free_budget))
         return self._clamp(final_score), matcher.confidence()