Spaces:

h1manshu
/

code_review

Sleeping

h1manshu commited on Apr 7

Commit

08fe580

verified ·

1 Parent(s): 31c8479

Upload folder using huggingface_hub

Files changed (2) hide show

inference.py CHANGED Viewed

@@ -233,7 +233,9 @@ async def run_episode(client, env):
         reward = result.reward
         done = result.done
-        log_step(step=step, action=response_text, reward=reward, done=done, error=None)
         final_score = max(final_score, reward if reward else 0.0)
     return final_score
@@ -243,26 +245,26 @@ async def main():
     client = OpenAI(base_url=API_BASE_URL, api_key=API_KEY)
     scores = []
-    log_start(task=TASK_NAME, env=BENCHMARK, model=MODEL_NAME)
     async with CodeReviewEnv(base_url="https://h1manshu-code-review.hf.space") as env:
         for i in range(NUM_EPISODES):
             env.task_index = i
             score = await run_episode(client, env)
             scores.append(score)
-            # print(f"[INFO] Scores so far: {scores}", flush=True)
-    total_score = sum(scores)
-    final_score = total_score / NUM_EPISODES
-    success = final_score >= SUCCESS_SCORE_THRESHOLD
-    log_end(
-        success=success,
-        steps=NUM_EPISODES * MAX_STEPS,
-        score=final_score,
-        rewards=scores,
-    )
 if __name__ == "__main__":

         reward = result.reward
         done = result.done
+        action_str = action_dict.get("action_type", "unknown")
+        log_step(step=step, action=action_str, reward=reward, done=done, error=None)
         final_score = max(final_score, reward if reward else 0.0)
     return final_score
     client = OpenAI(base_url=API_BASE_URL, api_key=API_KEY)
     scores = []
     async with CodeReviewEnv(base_url="https://h1manshu-code-review.hf.space") as env:
         for i in range(NUM_EPISODES):
+            task_name = f"task_{i+1}"
+            # START log must use task id from openenv.yaml
+            log_start(task=task_name, env=BENCHMARK, model=MODEL_NAME)
             env.task_index = i
             score = await run_episode(client, env)
             scores.append(score)
+            log_end(
+                success=score >= SUCCESS_SCORE_THRESHOLD,
+                steps=MAX_STEPS,
+                score=score,
+                rewards=[score],
+            )
 if __name__ == "__main__":

openenv.yaml CHANGED Viewed

@@ -5,23 +5,31 @@ runtime: fastapi
 app: server.app:app
 port: 8000
 tasks:
-  - id: task_easy
-    difficulty: easy
-    max_steps: 10
-    grader:
-      type: llm
-      prompt_template: "Score this response 0.0 to 1.0 based on accuracy..."
-  - id: task_medium
-    difficulty: medium
-    max_steps: 15
-    grader:
-      type: llm
-      prompt_template: "Score this response 0.0 to 1.0 based on..."
-  - id: task_hard
-    difficulty: hard
-    max_steps: 20
-    grader:
-      type: llm
-      prompt_template: "Score this response 0.0 to 1.0 based on..."

 app: server.app:app
 port: 8000
 tasks:
+  - id: task_1
+    description: "Easy — missing import detection"
+    max_steps: 3
+    grader: graders:CodeReviewGrader
+  - id: task_2
+    description: "Medium — division by zero handling"
+    max_steps: 3
+    grader: graders:CodeReviewGrader
+  - id: task_3
+    description: "Medium — inefficient loop optimization"
+    max_steps: 3
+    grader: graders:CodeReviewGrader
+  - id: task_4
+    description: "Hard — hardcoded password security vulnerability"
+    max_steps: 3
+    grader: graders:CodeReviewGrader
+  - id: task_5
+    description: "Hard — SQL injection vulnerability"
+    max_steps: 3
+    grader: graders:CodeReviewGrader
+  - id: task_6
+    description: "Hard — cross-file null handling bug"
+    max_steps: 3
+    grader: graders:CodeReviewGrader
+endpoints:
+  reset: /reset
+  step: /step
+  health: /health