fix: lint/type issues and ensure mypy/ruff pass

Browse files

Files changed (5) hide show

.gitignore +1 -1
env/environment.py +12 -6
inference.py +1 -3
tests/test_environment.py +0 -2
uv.lock +0 -0

.gitignore CHANGED Viewed

@@ -15,4 +15,4 @@ __pycache__/
 .DS_Store
 # Tool outputs (uv)
-uv.lock

 .DS_Store
 # Tool outputs (uv)
+# uv.lock should be committed for OpenEnv validation; do not ignore it

env/environment.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from typing import Tuple, Dict, Any, Optional
 from .models import Action, Observation, EnvironmentState, TicketInfo, UserData
 from .tasks import TASKS
 from .graders import grade
@@ -9,12 +9,12 @@ class SupportTicketEnv:
         if task_id not in TASKS:
             raise ValueError(f"Unknown task_id: {task_id}")
         self.task_data = TASKS[task_id]
-        self.state = None
         self.max_steps = 10
         self.reset()
     def reset(self) -> Observation:
-        ticket_data = self.task_data["ticket"]
         self.state = EnvironmentState(
             current_task_id=self.task_id,
             step_count=0,
@@ -22,11 +22,12 @@ class SupportTicketEnv:
             action_history=[],
             is_done=False,
             final_reward=0.0,
-            task_difficulty=self.task_data["difficulty"]
         )
         return self._get_observation("System initialized. Ticket assigned.")
     def _get_observation(self, system_message: str, tool_output: Optional[str] = None) -> Observation:
         return Observation(
             ticket=self.state.ticket,
             available_actions=[
@@ -40,6 +41,8 @@ class SupportTicketEnv:
         )
     def step(self, action: Action) -> Tuple[Observation, float, bool, Dict[str, Any]]:
         if self.state.is_done:
             return self._get_observation("Episode is over."), 0.0, True, {}
@@ -53,7 +56,8 @@ class SupportTicketEnv:
         if action.action_type == "fetch_user_data":
             user_id = action.parameters.get("user_id")
             if user_id == self.state.ticket.user_id:
-                self.state.user_data = UserData(**self.task_data["user_data"])
                 tool_output = f"User Data: Tier = {self.state.user_data.account_tier}, Joined = {self.state.user_data.join_date}"
             else:
                 tool_output = "Error: Invalid user_id."
@@ -61,7 +65,8 @@ class SupportTicketEnv:
         elif action.action_type == "check_policy":
             issue_type = action.parameters.get("issue_type", self.state.ticket.issue_type)
-            policy = self.task_data["policy"].get(issue_type, "No specific policy found.")
             tool_output = f"Policy for {issue_type}: {policy}"
         elif action.action_type == "issue_refund":
@@ -107,4 +112,5 @@ class SupportTicketEnv:
         return self._get_observation(system_message, tool_output), reward, self.state.is_done, info
     def get_state(self) -> EnvironmentState:
         return self.state

+from typing import Tuple, Dict, Any, Optional, cast
 from .models import Action, Observation, EnvironmentState, TicketInfo, UserData
 from .tasks import TASKS
 from .graders import grade
         if task_id not in TASKS:
             raise ValueError(f"Unknown task_id: {task_id}")
         self.task_data = TASKS[task_id]
+        self.state: Optional[EnvironmentState] = None
         self.max_steps = 10
         self.reset()
     def reset(self) -> Observation:
+        ticket_data = cast(Dict[str, Any], self.task_data["ticket"])
         self.state = EnvironmentState(
             current_task_id=self.task_id,
             step_count=0,
             action_history=[],
             is_done=False,
             final_reward=0.0,
+            task_difficulty=str(self.task_data["difficulty"])
         )
         return self._get_observation("System initialized. Ticket assigned.")
     def _get_observation(self, system_message: str, tool_output: Optional[str] = None) -> Observation:
+        assert self.state is not None
         return Observation(
             ticket=self.state.ticket,
             available_actions=[
         )
     def step(self, action: Action) -> Tuple[Observation, float, bool, Dict[str, Any]]:
+        assert self.state is not None
         if self.state.is_done:
             return self._get_observation("Episode is over."), 0.0, True, {}
         if action.action_type == "fetch_user_data":
             user_id = action.parameters.get("user_id")
             if user_id == self.state.ticket.user_id:
+                user_data = cast(Dict[str, Any], self.task_data["user_data"])
+                self.state.user_data = UserData(**user_data)
                 tool_output = f"User Data: Tier = {self.state.user_data.account_tier}, Joined = {self.state.user_data.join_date}"
             else:
                 tool_output = "Error: Invalid user_id."
         elif action.action_type == "check_policy":
             issue_type = action.parameters.get("issue_type", self.state.ticket.issue_type)
+            policy_map = cast(Dict[str, str], self.task_data["policy"])
+            policy = policy_map.get(issue_type, "No specific policy found.")
             tool_output = f"Policy for {issue_type}: {policy}"
         elif action.action_type == "issue_refund":
         return self._get_observation(system_message, tool_output), reward, self.state.is_done, info
     def get_state(self) -> EnvironmentState:
+        assert self.state is not None
         return self.state

inference.py CHANGED Viewed

@@ -131,10 +131,9 @@ async def run_task(task_id: str, client: OpenAI) -> None:
     try:
         obs = env.reset()
         last_echoed = obs.model_dump_json(indent=2)
-        last_reward = 0.0
         for step in range(1, MAX_STEPS + 1):
-            if env.state.is_done:
                 break
             message = get_model_message(client, step, last_echoed, history)
@@ -149,7 +148,6 @@ async def run_task(task_id: str, client: OpenAI) -> None:
             rewards.append(actual_reward)
             steps_taken = step
             last_echoed = obs_json
-            last_reward = actual_reward
             log_step(step=step, action=message, reward=actual_reward, done=done, error=error)
             history.append(f"Step {step}: {message!r} -> reward {actual_reward:+.2f}")

     try:
         obs = env.reset()
         last_echoed = obs.model_dump_json(indent=2)
         for step in range(1, MAX_STEPS + 1):
+            if env.get_state().is_done:
                 break
             message = get_model_message(client, step, last_echoed, history)
             rewards.append(actual_reward)
             steps_taken = step
             last_echoed = obs_json
             log_step(step=step, action=message, reward=actual_reward, done=done, error=error)
             history.append(f"Step {step}: {message!r} -> reward {actual_reward:+.2f}")

tests/test_environment.py CHANGED Viewed

@@ -1,5 +1,3 @@
-import pytest
 from env.environment import SupportTicketEnv
 from env.models import Action




1	from env.environment import SupportTicketEnv
2	from env.models import Action
3

uv.lock ADDED Viewed

The diff for this file is too large to render. See raw diff