Spaces:

uvpatel7271
/

openenv-python-env

Sleeping

App Files Files Community

uvpatel7271 commited on Apr 5

Commit

a954add

verified ·

1 Parent(s): 4ae018d

Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

inference.py +16 -11
models.py +21 -15
server/env.py +25 -15

inference.py CHANGED Viewed

@@ -164,17 +164,22 @@ def run_task_episode(
             action = PythonCodeReviewAction(action_type="analyze_code")
         # Execute action
-        observation = env.step(action)
-        total_reward += observation.reward.value
-        if verbose:
-            print(f"Step {step_count}: {action.action_type}")
-            if observation.reward.value != 0:
-                print(f"  Reward: {observation.reward.value:+.4f} ({observation.reward.reason})")
-            if observation.errors:
-                print(f"  Errors: {observation.errors}")
-            if observation.test_results:
-                print(f"  Tests: {observation.test_results}")
     final_score = observation.score
     if verbose:

             action = PythonCodeReviewAction(action_type="analyze_code")
         # Execute action
+        observation = env.step(action)
+        step_reward = float(observation.reward or 0.0)
+        total_reward += step_reward
+        if verbose:
+            print(f"Step {step_count}: {action.action_type}")
+            print(f"  Reward: {step_reward:+.4f}")
+            print(f"  Done: {observation.done}")
+            if step_reward != 0 or observation.reward_details.reason:
+                print(f"  Reward Details: {observation.reward_details.reason}")
+            if observation.last_action_status:
+                print(f"  Status: {observation.last_action_status}")
+            if observation.errors:
+                print(f"  Errors: {observation.errors}")
+            if observation.test_results:
+                print(f"  Tests: {observation.test_results}")
     final_score = observation.score
     if verbose:

models.py CHANGED Viewed

@@ -43,20 +43,26 @@ class PythonCodeReviewAction(Action):
     code: Optional[str] = Field(default=None, description="New code for edit_code actions")
-class PythonCodeReviewObservation(Observation):
-    """Observation returned by reset() and step()."""
-    task_id: str = Field(..., description="Current task identifier")
-    difficulty: Difficulty = Field(..., description="Task difficulty level")
-    task_description: str = Field(..., description="Detailed task description")
-    current_code: str = Field(..., description="Current code state")
-    errors: str = Field(..., description="Syntax/compilation errors, if any")
-    test_results: str = Field(..., description="Results from test execution")
-    visible_tests: List[str] = Field(default_factory=list, description="Public test cases")
-    history: List[HistoryEntry] = Field(default_factory=list, description="Action history")
-    attempts_remaining: int = Field(..., ge=0, description="Actions left in episode")
-    score: float = Field(..., ge=0.0, le=1.0, description="Current episode score")
-    reward: RewardDetails = Field(default_factory=lambda: RewardDetails(value=0.0, reason="Reset"))
 class PythonCodeReviewState(State):
@@ -106,4 +112,4 @@ class HealthResponse(BaseModel):
     status: Literal["ok"] = "ok"
     environment: str = "python_code_review_env"
-    task_count: int = Field(default=0, ge=0)

     code: Optional[str] = Field(default=None, description="New code for edit_code actions")
+class PythonCodeReviewObservation(Observation):
+    """Observation returned by reset() and step()."""
+    task_id: str = Field(..., description="Current task identifier")
+    title: str = Field(default="", description="Human-readable task title")
+    difficulty: Difficulty = Field(..., description="Task difficulty level")
+    task_kind: Optional[TaskKind] = Field(default=None, description="Task type")
+    task_description: str = Field(..., description="Detailed task description")
+    current_code: str = Field(..., description="Current code state")
+    errors: str = Field(..., description="Syntax/compilation errors, if any")
+    test_results: str = Field(..., description="Results from test execution")
+    visible_tests: List[str] = Field(default_factory=list, description="Public test cases")
+    history: List[HistoryEntry] = Field(default_factory=list, description="Action history")
+    attempts_remaining: int = Field(..., ge=0, description="Actions left in episode")
+    last_action_status: str = Field(default="", description="Outcome message from the last action")
+    score: float = Field(..., ge=0.0, le=1.0, description="Current episode score")
+    reward_details: RewardDetails = Field(
+        default_factory=lambda: RewardDetails(value=0.0, reason="Reset"),
+        description="Detailed reward breakdown for the last action",
+    )
 class PythonCodeReviewState(State):
     status: Literal["ok"] = "ok"
     environment: str = "python_code_review_env"
+    task_count: int = Field(default=0, ge=0)

server/env.py CHANGED Viewed

@@ -171,21 +171,31 @@ class PythonCodeReviewEnvironment(
         """Expose deterministic grading outside of an active episode."""
         return grade_task(code, get_task(task_id), include_hidden=True)
-    def _build_observation(self) -> PythonCodeReviewObservation:
-        """Build current observation from state."""
-        return PythonCodeReviewObservation(
-            task_id=self._state.task_id or "",
-            difficulty=self._state.difficulty or "easy",
-            task_description=self._task.task_description if self._task else "",
-            current_code=self._state.current_code,
-            errors=self._state.errors,
-            test_results=self._state.test_results,
-            visible_tests=self._task.visible_tests if self._task else [],
-            history=self._state.history,
-            attempts_remaining=self._state.attempts_remaining,
-            score=self._state.score,
-            reward=self._last_reward,
-        )
     def _handle_analyze(self) -> tuple[RewardDetails, str]:
         """Analyze code for errors and test status."""

         """Expose deterministic grading outside of an active episode."""
         return grade_task(code, get_task(task_id), include_hidden=True)
+    def _build_observation(self) -> PythonCodeReviewObservation:
+        """Build current observation from state."""
+        return PythonCodeReviewObservation(
+            task_id=self._state.task_id or "",
+            title=self._task.title if self._task else "",
+            difficulty=self._state.difficulty or "easy",
+            task_kind=self._state.task_kind,
+            task_description=self._task.task_description if self._task else "",
+            current_code=self._state.current_code,
+            errors=self._state.errors,
+            test_results=self._state.test_results,
+            visible_tests=self._task.visible_tests if self._task else [],
+            history=self._state.history,
+            attempts_remaining=self._state.attempts_remaining,
+            last_action_status=self._last_status,
+            score=self._state.score,
+            reward=self._last_reward.value,
+            reward_details=self._last_reward,
+            done=self._done,
+            metadata={
+                "episode_id": self._state.episode_id,
+                "step_count": self._state.step_count,
+                "task_kind": self._state.task_kind,
+            },
+        )
     def _handle_analyze(self) -> tuple[RewardDetails, str]:
         """Analyze code for errors and test status."""