Spaces:

Revanth-ml
/

agentops-gym

Sleeping

App Files Files Community

Revanth-ml commited on Apr 8

Commit

56724ad

verified ·

1 Parent(s): e2eb9d7

Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

README.md +95 -9
client.py +4 -1
inference.py +1 -1
server/app.py +16 -6
server/environment.py +20 -9
server/inference.py +1 -1

README.md CHANGED Viewed

@@ -1,8 +1,8 @@
 ---
 title: Agentops Gym Environment Server
-emoji: 🏏
-colorFrom: gray
-colorTo: pink
 sdk: docker
 pinned: false
 app_port: 8000
@@ -11,9 +11,11 @@ tags:
   - openenv
 ---
-# Agentops Gym Environment
-Stateful, partially observable, efficiency-penalizing RL environment for training agents on software engineering tool-use tasks.
 ## Quick Start
@@ -44,13 +46,97 @@ finally:
     agentops_gymenv.close()
 ```
-## Building the Docker Image
-Before using the environment, you need to build the Docker image:
 ```bash
-# From project root
-docker build -t agentops_gym-env:latest -f agentops_gym/server/Dockerfile .
 ```
 ## Environment Details

 ---
 title: Agentops Gym Environment Server
+emoji: 🔊
+colorFrom: blue
+colorTo: indigo
 sdk: docker
 pinned: false
 app_port: 8000
   - openenv
 ---
+# Agentops Gym: Optimizing Tool-Use Efficiency
+**"LLMs burn tokens via inefficient tool usage."**
+Agentops Gym is a stateful, partially observable, efficiency-penalizing RL environment designed to train and evaluate agents on software engineering tasks. While many environments focus solely on task completion, Agentops Gym prioritizes **efficiency**—penalizing redundant calls, reward-hacking, and "hallucinated" file reads to help you build agents that solve problems with minimal token consumption.
 ## Quick Start
     agentops_gymenv.close()
 ```
+## Docker Build & Run
+### 1. Build the Image
+Build the environment server from the project root:
+```bash
+docker build -t agentops-gym -f agentops_gym/server/Dockerfile .
+```
+### 2. Run the Container
+Start the server on port 8000:
+```bash
+# Remove existing container if necessary
+docker stop agentops-gym && docker rm agentops-gym
+# Run new container
+docker run -d --name agentops-gym -p 8000:8000 agentops-gym
+```
+### 3. Verify & Logs
 ```bash
+# Check health
+curl http://localhost:8000/health
+# Tail logs
+docker logs -f agentops-gym
+```
+## Run Baseline Inference
+The project includes a baseline inference script to evaluate agents across all tasks (including the new Task 4: Secret Migration).
+### Setup
+```bash
+export HF_TOKEN=hf_xxxxxxxxxxxxxxxxxxxx
+export IMAGE_NAME=agentops-gym
+# Optional overrides:
+# export MODEL_NAME=Qwen/Qwen2.5-72B-Instruct
+# export API_BASE_URL=https://router.huggingface.co/v1
+```
+### Run
+```bash
+python agentops_gym/inference.py
+```
+### Expected Output
+```text
+============================================================
+AgentOps Gym — Baseline Inference
+Model: gpt-4.1  |  Server: http://localhost:8000
+============================================================
+────────────────────────────────────────
+[START] task=task_1 env=agentops-gym model=gpt-4.1
+[STEP] step=1 action=Grep({"pattern": "def fetch_user"}) reward=0.00 done=false error=null
+[STEP] step=2 action=Grep({"pattern": "return"}) reward=0.00 done=false error=null
+[STEP] step=3 action=FileRead({"filename": "main.py"}) reward=0.10 done=false error=null
+...
+[STEP] step=8 action=FileRead({"filename": "main.py"}) reward=0.14 done=true error=null
+[END] success=false steps=8 rewards=0.00,0.00,0.10,-0.05,-0.05,-0.05,-0.05,0.14
+────────────────────────────────────────
+[START] task=task_2 env=agentops-gym model=gpt-4.1
+[STEP] step=1 action=Grep({"pattern": "timeout"}) reward=0.05 done=false error=null
+[STEP] step=2 action=FileRead({"filename": "config.json"}) reward=0.10 done=false error=null
+[STEP] step=3 action=FileWrite({"filename": "config.json", "content": "{\"api_url\": \"https://api.example.com\", \"timeout\": 10}"}) reward=0.55 done=true error=null
+[END] success=true steps=3 rewards=0.05,0.10,0.55
+────────────────────────────────────────
+[START] task=task_3 env=agentops-gym model=gpt-4.1
+...
+[STEP] step=8 action=Grep({"pattern": "def "}) reward=0.20 done=true error=null
+[END] success=false steps=8 rewards=0.10,0.00,0.05,0.05,0.05,0.00,0.05,0.20
+────────────────────────────────────────
+[START] task=task_4 env=agentops-gym model=gpt-4.1
+[STEP] step=1 action=TodoWrite({"plan": "..."}) reward=0.05 done=false error=null
+[STEP] step=2 action=Grep({"pattern": "SECRET_TOKEN_XYZ"}) reward=0.05 done=false error=null
+[STEP] step=3 action=FileRead({"filename": "main.py"}) reward=0.05 done=false error=null
+[STEP] step=4 action=FileWrite({"filename": ".env", "content": "API_KEY=SECRET_TOKEN_XYZ\n"}) reward=0.10 done=false error=null
+[STEP] step=10 action=FileWrite({"filename": "main.py", "content": "import os\n..."}) reward=0.43 done=true error=null
+[END] success=true steps=10 rewards=0.05,0.05,0.05,0.10,0.05,0.00,0.05,0.05,0.10,0.43
+============================================================
+BASELINE SUMMARY
+============================================================
+    task_1    score=0.390  steps= 8  ❌ FAIL
+    task_2    score=1.000  steps= 3  ✅ PASS
+    task_3    score=0.392  steps= 8  ❌ FAIL
+    task_4    score=0.856  steps=10  ✅ PASS
+  Average score: 0.659
+  Solved: 2 / 4
+============================================================
 ```
 ## Environment Details

client.py CHANGED Viewed

@@ -9,7 +9,10 @@ from typing import Dict, Any
 from openenv.core.env_client import EnvClient
 from openenv.core.client_types import StepResult
-from agentops_gym.models import ToolCall, AgentObservation, AgentState
 class AgentOpsEnv(EnvClient[ToolCall, AgentObservation, AgentState]):

 from openenv.core.env_client import EnvClient
 from openenv.core.client_types import StepResult
+try:
+    from agentops_gym.models import ToolCall, AgentObservation, AgentState
+except (ModuleNotFoundError, ImportError):
+    from models import ToolCall, AgentObservation, AgentState
 class AgentOpsEnv(EnvClient[ToolCall, AgentObservation, AgentState]):

inference.py CHANGED Viewed

@@ -246,7 +246,7 @@ async def async_main() -> None:
     client = OpenAI(base_url=API_BASE_URL, api_key=API_KEY)
-    async with AgentOpsEnv.from_docker_image(IMAGE_NAME) as env:
         results = []
         for task_id in ALL_TASKS:
             result = await run_episode(env, client, task_id)

     client = OpenAI(base_url=API_BASE_URL, api_key=API_KEY)
+    async with await AgentOpsEnv.from_docker_image(IMAGE_NAME) as env:
         results = []
         for task_id in ALL_TASKS:
             result = await run_episode(env, client, task_id)

server/app.py CHANGED Viewed

@@ -11,15 +11,24 @@ get their own AgentOpsEnvironment instance (via create_app factory pattern).
 import threading
 import logging
 from typing import Optional
 from fastapi.responses import JSONResponse
-from openenv.core.env_server.http_server import create_app
-from agentops_gym.models import ToolCall, AgentObservation
-from agentops_gym.server.environment import AgentOpsEnvironment, get_last_grader_result
-from agentops_gym.server.tasks import TASK_REGISTRY
 logger = logging.getLogger(__name__)
@@ -143,11 +152,12 @@ async def health():
 def main():
     import uvicorn
     import os
     host = os.getenv("HOST", "0.0.0.0")
-    port = int(os.getenv("PORT", 8000))
-    uvicorn.run(app, host=host, port=port)
 if __name__ == "__main__":

 import threading
 import logging
+import os
 from typing import Optional
 from fastapi.responses import JSONResponse
+try:
+    from openenv.core.env_server.http_server import create_app
+except ImportError:
+    raise ImportError("openenv is required. Install with 'pip install openenv-core'")
+try:
+    from agentops_gym.models import ToolCall, AgentObservation
+    from agentops_gym.server.environment import AgentOpsEnvironment, get_last_grader_result
+    from agentops_gym.server.tasks import TASK_REGISTRY
+except (ModuleNotFoundError, ImportError):
+    from models import ToolCall, AgentObservation
+    from server.environment import AgentOpsEnvironment, get_last_grader_result
+    from server.tasks import TASK_REGISTRY
 logger = logging.getLogger(__name__)
 def main():
+    """Entry point for running the AgentOps Gym server."""
     import uvicorn
     import os
     host = os.getenv("HOST", "0.0.0.0")
+    port = int(os.getenv("PORT", "8000"))
+    uvicorn.run(app, host=host, port=int(port))
 if __name__ == "__main__":

server/environment.py CHANGED Viewed

@@ -17,15 +17,26 @@ from typing import Optional, Any
 from openenv.core.env_server.interfaces import Environment
-from agentops_gym.models import ToolCall, AgentObservation, AgentState
-from agentops_gym.server.tools import run_tool, PROJECT_SNAPSHOTS, AVAILABLE_TOOLS
-from agentops_gym.server.tasks import (
-    TASK_REGISTRY,
-    get_task,
-    list_task_ids,
-    compute_step_reward,
-    grade_episode,
-)
 logger = logging.getLogger(__name__)

 from openenv.core.env_server.interfaces import Environment
+try:
+    from agentops_gym.models import ToolCall, AgentObservation, AgentState
+    from agentops_gym.server.tools import run_tool, PROJECT_SNAPSHOTS, AVAILABLE_TOOLS
+    from agentops_gym.server.tasks import (
+        TASK_REGISTRY,
+        get_task,
+        list_task_ids,
+        compute_step_reward,
+        grade_episode,
+    )
+except (ModuleNotFoundError, ImportError):
+    from models import ToolCall, AgentObservation, AgentState
+    from server.tools import run_tool, PROJECT_SNAPSHOTS, AVAILABLE_TOOLS
+    from server.tasks import (
+        TASK_REGISTRY,
+        get_task,
+        list_task_ids,
+        compute_step_reward,
+        grade_episode,
+    )
 logger = logging.getLogger(__name__)

server/inference.py CHANGED Viewed

@@ -40,7 +40,7 @@ except ImportError:
 # ---------------------------------------------------------------------------
 IMAGE_NAME   = os.getenv("IMAGE_NAME")
-API_KEY      = os.getenv("HF_TOKEN") or os.getenv("OPENAI_API_KEY")
 API_BASE_URL = os.getenv("API_BASE_URL", "https://router.huggingface.co/v1")
 MODEL_NAME   = os.getenv("MODEL_NAME", "Qwen/Qwen2.5-72B-Instruct")
 BASE_URL     = os.getenv("ENV_BASE_URL", "http://localhost:8000")

 # ---------------------------------------------------------------------------
 IMAGE_NAME   = os.getenv("IMAGE_NAME")
+API_KEY      = os.getenv("OPENAI_API_KEY")
 API_BASE_URL = os.getenv("API_BASE_URL", "https://router.huggingface.co/v1")
 MODEL_NAME   = os.getenv("MODEL_NAME", "Qwen/Qwen2.5-72B-Instruct")
 BASE_URL     = os.getenv("ENV_BASE_URL", "http://localhost:8000")