fix: handle async client and None reward values

Files changed (14) hide show

.env.example ADDED Viewed

+# OpenEnv Environment Variables
+# Copy this to .env and fill in your values
+# Required - Hugging Face API Key
+HF_TOKEN=your_huggingface_token_here
+# Required - LLM Configuration
+API_BASE_URL=https://router.huggingface.co/v1
+MODEL_NAME=Qwen/Qwen2.5-72B-Instruct
+# Optional - Environment URL (defaults to localhost)
+ENV_URL=http://localhost:8000
+# Optional - For local testing without Docker
+OPENAI_API_KEY=your_openai_key_if_using_openai

data_analysis_env/.dockerignore ADDED Viewed

+__pycache__
+*.pyc
+.venv
+.git
+*.egg-info

data_analysis_env/Dockerfile ADDED Viewed

+FROM python:3.10-slim
+WORKDIR /app
+RUN pip install --no-cache-dir uv
+COPY server/requirements.txt /tmp/requirements.txt
+RUN pip install --no-cache-dir -r /tmp/requirements.txt
+COPY . /app/
+ENV PYTHONPATH=/app/server:/app
+ENV DATA_DIR=/app/server/data
+EXPOSE 8000
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "8000"]

data_analysis_env/__pycache__/__init__.cpython-311.pyc ADDED Viewed

Binary file (630 Bytes). View file

data_analysis_env/__pycache__/client.cpython-311.pyc ADDED Viewed

Binary file (2.73 kB). View file

data_analysis_env/__pycache__/models.cpython-311.pyc ADDED Viewed

Binary file (4.31 kB). View file

data_analysis_env/client.py CHANGED Viewed

@@ -16,9 +16,8 @@ class DataAnalysisEnv(
     def __init__(
         self,
         base_url: str = "http://localhost:8000",
-        timeout: float = 30.0,
     ):
-        super().__init__(base_url=base_url, timeout=timeout)
     def _step_payload(self, action: DataAnalysisAction) -> dict:
         return {

     def __init__(
         self,
         base_url: str = "http://localhost:8000",
     ):
+        super().__init__(base_url=base_url)
     def _step_payload(self, action: DataAnalysisAction) -> dict:
         return {

data_analysis_env/server/Dockerfile CHANGED Viewed

@@ -4,14 +4,14 @@ WORKDIR /app
 RUN pip install --no-cache-dir uv
-COPY data_analysis_env/server/requirements.txt /tmp/requirements.txt
 RUN pip install --no-cache-dir -r /tmp/requirements.txt
-COPY data_analysis_env/ /app/
-ENV PYTHONPATH=/app:$PYTHONPATH
-ENV DATA_DIR=/app/server/data
 EXPOSE 8000
-CMD ["uvicorn", "server.app:app", "--host", "0.0.0.0", "--port", "8000"]

 RUN pip install --no-cache-dir uv
+COPY server/requirements.txt /tmp/requirements.txt
 RUN pip install --no-cache-dir -r /tmp/requirements.txt
+COPY . /app/data_analysis_env/
+ENV PYTHONPATH=/app
+ENV DATA_DIR=/app/data_analysis_env/data
 EXPOSE 8000
+CMD ["uvicorn", "data_analysis_env.server.app:app", "--host", "0.0.0.0", "--port", "8000"]

data_analysis_env/server/__pycache__/__init__.cpython-311.pyc ADDED Viewed

Binary file (193 Bytes). View file

data_analysis_env/server/__pycache__/app.cpython-311.pyc ADDED Viewed

Binary file (773 Bytes). View file

data_analysis_env/server/__pycache__/data_analysis_environment.cpython-311.pyc ADDED Viewed

Binary file (25.4 kB). View file

data_analysis_env/server/app.py CHANGED Viewed

@@ -1,11 +1,16 @@
 from openenv.core.env_server import create_app
-from .data_analysis_environment import DataAnalysisEnvironment
-from ..models import DataAnalysisAction, DataAnalysisObservation
 def create_data_analysis_environment():
-    data_dir = "/app/data"
     return DataAnalysisEnvironment(data_dir=data_dir)

+import os
 from openenv.core.env_server import create_app
+try:
+    from server.data_analysis_environment import DataAnalysisEnvironment
+    from data_analysis_env.models import DataAnalysisAction, DataAnalysisObservation
+except ModuleNotFoundError:
+    from data_analysis_environment import DataAnalysisEnvironment
+    from models import DataAnalysisAction, DataAnalysisObservation
 def create_data_analysis_environment():
+    data_dir = os.getenv("DATA_DIR", "/app/server/data")
     return DataAnalysisEnvironment(data_dir=data_dir)

data_analysis_env/server/data_analysis_environment.py CHANGED Viewed

@@ -8,12 +8,20 @@ import uuid
 from openenv.core.env_server import Environment
-from ..models import (
-    DataAnalysisAction,
-    DataAnalysisObservation,
-    DataAnalysisState,
-    AVAILABLE_TOOLS,
-)
 TASKS = {

 from openenv.core.env_server import Environment
+try:
+    from data_analysis_env.models import (
+        DataAnalysisAction,
+        DataAnalysisObservation,
+        DataAnalysisState,
+        AVAILABLE_TOOLS,
+    )
+except ModuleNotFoundError:
+    from models import (
+        DataAnalysisAction,
+        DataAnalysisObservation,
+        DataAnalysisState,
+        AVAILABLE_TOOLS,
+    )
 TASKS = {

inference.py CHANGED Viewed

@@ -128,11 +128,12 @@ async def run_task(client: OpenAI, env: DataAnalysisEnv, task_name: str) -> dict
     rewards = []
     last_error = None
-    result = env.reset(task=task_name)
     obs = result.observation
     print(
-        f"[STEP] step={step} action=reset task={task_name} reward={obs.reward:.2f} done={result.done} error=null"
     )
     while not result.done and step < MAX_STEPS:
@@ -165,13 +166,14 @@ async def run_task(client: OpenAI, env: DataAnalysisEnv, task_name: str) -> dict
             )
             continue
-        result = env.step(action)
         obs = result.observation
-        rewards.append(obs.reward)
         error_str = obs.error if obs.error else "null"
         print(
-            f"[STEP] step={step} action={action.tool}({action.parameters}) reward={obs.reward:.2f} done={result.done} error={error_str}"
         )
         if obs.error:

     rewards = []
     last_error = None
+    result = await env.reset(task=task_name)
     obs = result.observation
+    reward_val = obs.reward if obs.reward is not None else 0.0
     print(
+        f"[STEP] step={step} action=reset task={task_name} reward={reward_val:.2f} done={result.done} error=null"
     )
     while not result.done and step < MAX_STEPS:
             )
             continue
+        result = await env.step(action)
         obs = result.observation
+        reward_val = obs.reward if obs.reward is not None else 0.0
+        rewards.append(reward_val)
         error_str = obs.error if obs.error else "null"
         print(
+            f"[STEP] step={step} action={action.tool}({action.parameters}) reward={reward_val:.2f} done={result.done} error={error_str}"
         )
         if obs.error: