Spaces:

openenv123
/

openenv-email-triage

Sleeping

App Files Files Community

Nanny7 commited on 13 days ago

Commit

60af04f

1 Parent(s): b0fc11e

phase2 fix

Browse files

Files changed (17) hide show

Dockerfile +1 -6
app.py +1 -0
inference.py +69 -89
server.py +0 -136
server/__pycache__/__init__.cpython-312.pyc +0 -0
server/__pycache__/app.cpython-312.pyc +0 -0
server/__pycache__/dataset.cpython-312.pyc +0 -0
server/__pycache__/environment.cpython-312.pyc +0 -0
server/__pycache__/graders.cpython-312.pyc +0 -0
server/__pycache__/models.cpython-312.pyc +0 -0
server/app.py +4 -4
dataset.py → server/dataset.py +1 -1
environment.py → server/environment.py +3 -3
graders.py → server/graders.py +1 -1
models.py → server/models.py +0 -0
test_environment.py → server/test_environment.py +25 -25
validate.py → server/validate.py +5 -5

Dockerfile CHANGED Viewed

@@ -17,12 +17,7 @@ COPY requirements.txt .
 RUN pip install --no-cache-dir -r requirements.txt
 # Copy application code
-COPY models.py      .
-COPY dataset.py     .
-COPY graders.py     .
-COPY environment.py .
-COPY server.py      .
-COPY openenv.yaml   .
 COPY inference.py   .
 COPY static/        ./static/

 RUN pip install --no-cache-dir -r requirements.txt
 # Copy application code
+COPY server/      ./server/
 COPY inference.py   .
 COPY static/        ./static/

app.py CHANGED Viewed

@@ -6,3 +6,4 @@ We re-export from server.py.
 from server import app  # noqa: F401
 # HF Spaces will pick up `app` and serve it on port 7860

 from server import app  # noqa: F401
 # HF Spaces will pick up `app` and serve it on port 7860
+if __name__ == "__main__": app.main()

inference.py CHANGED Viewed

@@ -1,109 +1,89 @@
 #!/usr/bin/env python3
 import os
-import sys
 import json
-from typing import Dict, Any
-from fastapi import FastAPI
-from pydantic import BaseModel
 from openai import OpenAI
-# ─── FastAPI App ─────────────────────────────────────────
-app = FastAPI()
-# ─── Environment Variables ───────────────────────────────
 API_BASE_URL = os.environ.get("API_BASE_URL", "https://api.openai.com/v1")
 MODEL_NAME   = os.environ.get("MODEL_NAME", "gpt-4o-mini")
 HF_TOKEN     = os.environ.get("HF_TOKEN", os.environ.get("OPENAI_API_KEY", ""))
-# ❗ Prevent crash if token missing
-if not HF_TOKEN:
-    HF_TOKEN = "dummy-key"
 client = OpenAI(api_key=HF_TOKEN, base_url=API_BASE_URL)
-# ─── Safe Imports (IMPORTANT FIX) ─────────────────────────
-sys.path.insert(0, os.path.dirname(__file__))
-try:
-    from models import UrgencyLevel, EmailCategory, EmailAction
-except Exception:
-    # fallback if import fails (prevents uvicorn crash)
-    UrgencyLevel = EmailCategory = EmailAction = None
-# ─── Prompt ──────────────────────────────────────────────
-SYSTEM_PROMPT = """You are an expert email triage assistant.
-Return ONLY valid JSON with:
-- urgency
-- category
-- action
-- draft_reply (if reply)
-- forward_to (if forward/escalate)
-- reasoning
-"""
-# ─── Request Schema ──────────────────────────────────────
-class InputData(BaseModel):
-    input: Dict[str, Any]
-# ─── Helper Function ─────────────────────────────────────
-def clamp_enum(value: str, enum_cls):
-    if enum_cls is None:
-        return value  # fallback if enums not available
-    valid = {e.value for e in enum_cls}
-    return value if value in valid else list(enum_cls)[0].value
-# ─── Agent Logic ─────────────────────────────────────────
-def agent_decide(email_data: Dict[str, Any]) -> Dict[str, Any]:
     try:
         response = client.chat.completions.create(
             model=MODEL_NAME,
             messages=[
                 {"role": "system", "content": SYSTEM_PROMPT},
-                {"role": "user", "content": json.dumps(email_data)},
             ],
-            temperature=0.1,
         )
-        raw = response.choices[0].message.content or "{}"
-        return json.loads(raw)
-    except Exception:
-        return {
-            "urgency": "medium",
-            "category": "other",
-            "action": "archive",
-            "draft_reply": None,
-            "forward_to": None,
-            "reasoning": "fallback"
-        }
-# ─── REQUIRED ENDPOINTS ──────────────────────────────────
-# ✅ FIXES YOUR ERROR
-@app.post("/reset")
-def reset():
-    return {"status": "reset successful"}
-@app.post("/predict")
-def predict(data: InputData):
-    email_data = data.input
-    decision = agent_decide(email_data)
-    urgency  = clamp_enum(decision.get("urgency", "medium"), UrgencyLevel)
-    category = clamp_enum(decision.get("category", "other"), EmailCategory)
-    action   = clamp_enum(decision.get("action", "archive"), EmailAction)
-    return {
-        "urgency": urgency,
-        "category": category,
-        "action": action,
-        "draft_reply": decision.get("draft_reply"),
-        "forward_to": decision.get("forward_to"),
-        "reasoning": decision.get("reasoning", "")
-    }

 #!/usr/bin/env python3
 import os
 import json
+import time
 from openai import OpenAI
+from server.environment import EmailTriageEnv
+from server.models import Action, UrgencyLevel, EmailCategory, EmailAction
 API_BASE_URL = os.environ.get("API_BASE_URL", "https://api.openai.com/v1")
 MODEL_NAME   = os.environ.get("MODEL_NAME", "gpt-4o-mini")
 HF_TOKEN     = os.environ.get("HF_TOKEN", os.environ.get("OPENAI_API_KEY", ""))
 client = OpenAI(api_key=HF_TOKEN, base_url=API_BASE_URL)
+SYSTEM_PROMPT = "You are an email triage assistant. Return JSON."
+def agent_decide(email):
     try:
         response = client.chat.completions.create(
             model=MODEL_NAME,
             messages=[
                 {"role": "system", "content": SYSTEM_PROMPT},
+                {"role": "user", "content": json.dumps(email)},
             ],
         )
+        return json.loads(response.choices[0].message.content)
+    except:
+        return {"urgency": "medium", "category": "other", "action": "archive"}
+def run_task(task_id):
+    env = EmailTriageEnv()
+    obs = env.reset(task_id=task_id)
+    steps = []
+    step_num = 0
+    while not obs.done:
+        step_num += 1
+        email = obs.current_email or {}
+        decision = agent_decide(email)
+        act = Action(
+            urgency=UrgencyLevel(decision.get("urgency", "medium")),
+            category=EmailCategory(decision.get("category", "other")),
+            action=EmailAction(decision.get("action", "archive")),
+        )
+        result = env.step(act)
+        print(json.dumps({
+            "type": "[STEP]",
+            "task_id": task_id,
+            "step": step_num,
+            "reward": result.reward.value,
+            "done": result.done
+        }))
+        steps.append(result.reward.value)
+        obs = result.observation
+    return sum(steps) / len(steps) if steps else 0
+def main():
+    tasks = ["task_easy", "task_medium", "task_hard"]
+    print(json.dumps({
+        "type": "[START]",
+        "tasks": tasks,
+        "timestamp": time.time()
+    }))
+    results = {}
+    for t in tasks:
+        score = run_task(t)
+        results[t] = score
+    overall = sum(results.values()) / len(results)
+    print(json.dumps({
+        "type": "[END]",
+        "overall_score": overall,
+        "task_scores": results
+    }))
+if __name__ == "__main__":
+    main()

server.py DELETED Viewed

@@ -1,136 +0,0 @@
-from __future__ import annotations
-import os
-from typing import Any, Dict, Optional
-from fastapi import FastAPI, HTTPException, Request
-from fastapi.responses import HTMLResponse
-from fastapi.middleware.cors import CORSMiddleware
-from models import Action, UrgencyLevel, EmailCategory, EmailAction
-from environment import EmailTriageEnv
-# ─── App setup ─────────────────────────────────────────────
-app = FastAPI(
-    title="OpenEnv Email Triage",
-    version="1.0.0",
-)
-app.add_middleware(
-    CORSMiddleware,
-    allow_origins=["*"],
-    allow_methods=["*"],
-    allow_headers=["*"],
-)
-env = EmailTriageEnv()
-# ─── Endpoints ─────────────────────────────────────────────
-@app.get("/health")
-async def health():
-    return {"status": "healthy"}
-@app.get("/metadata")
-async def metadata():
-    return {
-        "name": "OpenEnv Email Triage",
-        "description": "AI-powered email triage environment that classifies emails by urgency, category, and action."
-    }
-@app.post("/mcp")
-async def mcp():
-    return {
-        "jsonrpc": "2.0",
-        "result": {
-            "message": "MCP endpoint active"
-        },
-        "id": 1
-    }
-@app.get("/schema")
-async def schema():
-    return {
-        "action": {
-            "urgency": [e.value for e in UrgencyLevel],
-            "category": [e.value for e in EmailCategory],
-            "action": [e.value for e in EmailAction],
-            "draft_reply": "string (optional)",
-            "forward_to": "string (optional)",
-            "reasoning": "string (optional)"
-        },
-        "observation": {
-            "current_email": "object",
-            "done": "boolean",
-            "info": "object"
-        },
-        "state": {
-            "emails_processed": "int",
-            "current_step": "int",
-            "task_id": "string"
-        }
-    }
-# ✅ FIXED RESET (IMPORTANT)
-@app.post("/reset")
-async def reset(request: Request):
-    try:
-        body = await request.json()
-        task_id = body.get("task_id", "task_easy") if body else "task_easy"
-    except:
-        task_id = "task_easy"
-    obs = env.reset(task_id=task_id)
-    return obs.model_dump()
-# ─── STEP ENDPOINT ─────────────────────────────────────────
-@app.post("/step")
-async def step(request: Request):
-    try:
-        data = await request.json()
-        urgency  = UrgencyLevel(data.get("urgency", "medium"))
-        category = EmailCategory(data.get("category", "other"))
-        action   = EmailAction(data.get("action", "archive"))
-        act = Action(
-            urgency=urgency,
-            category=category,
-            action=action,
-            draft_reply=data.get("draft_reply"),
-            forward_to=data.get("forward_to"),
-            reasoning=data.get("reasoning"),
-        )
-        result = env.step(act)
-        return result.model_dump()
-    except Exception as e:
-        raise HTTPException(status_code=400, detail=str(e))
-# ─── OTHER ENDPOINTS ───────────────────────────────────────
-@app.get("/state")
-async def state():
-    return env.state().model_dump()
-@app.get("/tasks")
-async def list_tasks():
-    return {
-        "tasks": [
-            {"id": "task_easy"},
-            {"id": "task_medium"},
-            {"id": "task_hard"},
-        ]
-    }
-@app.get("/")
-async def root():
-    return {"message": "OpenEnv Email Triage API running"}
-def main():
-    return app

server/__pycache__/__init__.cpython-312.pyc ADDED Viewed

Binary file (150 Bytes). View file

server/__pycache__/app.cpython-312.pyc ADDED Viewed

Binary file (5.38 kB). View file

server/__pycache__/dataset.cpython-312.pyc ADDED Viewed

Binary file (10.1 kB). View file

server/__pycache__/environment.cpython-312.pyc ADDED Viewed

Binary file (7.17 kB). View file

server/__pycache__/graders.cpython-312.pyc ADDED Viewed

Binary file (10.1 kB). View file

server/__pycache__/models.cpython-312.pyc ADDED Viewed

Binary file (6.73 kB). View file

server/app.py CHANGED Viewed

@@ -6,8 +6,8 @@ from fastapi import FastAPI, HTTPException, Request
 from fastapi.responses import HTMLResponse
 from fastapi.middleware.cors import CORSMiddleware
-from models import Action, UrgencyLevel, EmailCategory, EmailAction
-from environment import EmailTriageEnv
 # ─── App setup ─────────────────────────────────────────────
@@ -135,5 +135,5 @@ async def root():
 def main():
     import uvicorn
     uvicorn.run(app)
-if __name__ == "__main__":  main()

 from fastapi.responses import HTMLResponse
 from fastapi.middleware.cors import CORSMiddleware
+from server.models import Action, UrgencyLevel, EmailCategory, EmailAction
+from server.environment import EmailTriageEnv
 # ─── App setup ─────────────────────────────────────────────
 def main():
     import uvicorn
     uvicorn.run(app)
+if __name__ == "__main__": main()

dataset.py → server/dataset.py RENAMED Viewed

@@ -2,7 +2,7 @@
 Email dataset for all three tasks.
 Each email has ground truth labels hidden from the agent.
 """
-from models import Email
 # ─── TASK 1: Easy — Binary Spam Detection (10 emails) ─────────────────────────

 Email dataset for all three tasks.
 Each email has ground truth labels hidden from the agent.
 """
+from server.models import Email
 # ─── TASK 1: Easy — Binary Spam Detection (10 emails) ─────────────────────────

environment.py → server/environment.py RENAMED Viewed

@@ -5,11 +5,11 @@ Implements step() / reset() / state() interface.
 from __future__ import annotations
 import uuid
 from typing import Any, Dict, Optional, Tuple
-from models import (
     Action, Observation, Reward, StepResponse, EnvState, Email
 )
-from dataset import TASK_EMAILS
-from graders import grade
 class EmailTriageEnv:

 from __future__ import annotations
 import uuid
 from typing import Any, Dict, Optional, Tuple
+from server.models import (
     Action, Observation, Reward, StepResponse, EnvState, Email
 )
+from server.dataset import TASK_EMAILS
+from server.graders import grade
 class EmailTriageEnv:

graders.py → server/graders.py RENAMED Viewed

@@ -5,7 +5,7 @@ and a human-readable breakdown.
 """
 from __future__ import annotations
 from typing import Optional
-from models import Action, Reward, RewardBreakdown, Email
 # ─── Urgency proximity map (partial credit for close guesses) ─────────────────

 """
 from __future__ import annotations
 from typing import Optional
+from server.models import Action, Reward, RewardBreakdown, Email
 # ─── Urgency proximity map (partial credit for close guesses) ─────────────────

models.py → server/models.py RENAMED Viewed

File without changes

test_environment.py → server/test_environment.py RENAMED Viewed

@@ -12,27 +12,27 @@ import pytest
 # ─── These tests run after pip install -r requirements.txt ────────────────────
 def test_imports():
-    from models import Observation, Action, Reward, StepResponse, EnvState
-    from models import UrgencyLevel, EmailCategory, EmailAction
     assert UrgencyLevel.CRITICAL.value == "critical"
     assert EmailCategory.SPAM.value == "spam"
     assert EmailAction.DELETE.value == "delete"
 def test_reward_range():
-    from models import Reward, RewardBreakdown
     r = Reward(value=0.75, feedback="ok")
     assert 0.0 <= r.value <= 1.0
 def test_reward_clamp():
-    from models import Reward
     with pytest.raises(Exception):
         Reward(value=1.5, feedback="out of range")
 def test_reset_all_tasks():
-    from environment import EmailTriageEnv
     env = EmailTriageEnv()
     for task_id in ["task_easy", "task_medium", "task_hard"]:
         obs = env.reset(task_id)
@@ -43,15 +43,15 @@ def test_reset_all_tasks():
 def test_reset_invalid_task():
-    from environment import EmailTriageEnv
     env = EmailTriageEnv()
     with pytest.raises(ValueError):
         env.reset("task_nonexistent")
 def test_full_easy_episode():
-    from environment import EmailTriageEnv
-    from models import Action, UrgencyLevel, EmailCategory, EmailAction
     env = EmailTriageEnv()
     obs = env.reset("task_easy")
@@ -78,8 +78,8 @@ def test_full_easy_episode():
 def test_step_after_done_raises():
-    from environment import EmailTriageEnv
-    from models import Action, UrgencyLevel, EmailCategory, EmailAction
     env = EmailTriageEnv()
     env.reset("task_easy")
@@ -93,9 +93,9 @@ def test_step_after_done_raises():
 def test_perfect_spam_score():
-    from graders import grade_task_easy
-    from dataset import TASK_EASY_EMAILS
-    from models import Action, UrgencyLevel, EmailCategory, EmailAction
     # e001 is spam
     spam_email = next(e for e in TASK_EASY_EMAILS if e.id == "e001")
@@ -109,9 +109,9 @@ def test_perfect_spam_score():
 def test_missed_spam_penalty():
-    from graders import grade_task_easy
-    from dataset import TASK_EASY_EMAILS
-    from models import Action, UrgencyLevel, EmailCategory, EmailAction
     spam_email = next(e for e in TASK_EASY_EMAILS if e.id == "e001")
     act = Action(
@@ -125,8 +125,8 @@ def test_missed_spam_penalty():
 def test_state_reflects_progress():
-    from environment import EmailTriageEnv
-    from models import Action, UrgencyLevel, EmailCategory, EmailAction
     env = EmailTriageEnv()
     env.reset("task_easy")
@@ -141,9 +141,9 @@ def test_state_reflects_progress():
 def test_reply_quality_grader():
-    from graders import reply_quality_score
-    from dataset import TASK_HARD_EMAILS
-    from models import Email
     # h001 is a customer complaint — needs apology, resolution, etc.
     email = next(e for e in TASK_HARD_EMAILS if e.id == "h001")
@@ -162,16 +162,16 @@ def test_reply_quality_grader():
 def test_task_email_counts():
-    from dataset import TASK_EMAILS
     assert len(TASK_EMAILS["task_easy"])   == 10
     assert len(TASK_EMAILS["task_medium"]) == 15
     assert len(TASK_EMAILS["task_hard"])   == 20
 def test_all_graders_return_valid_range():
-    from graders import grade
-    from dataset import TASK_EMAILS
-    from models import Action, UrgencyLevel, EmailCategory, EmailAction
     act = Action(urgency=UrgencyLevel.HIGH, category=EmailCategory.FINANCE, action=EmailAction.ESCALATE)
     for task_id, emails in TASK_EMAILS.items():

 # ─── These tests run after pip install -r requirements.txt ────────────────────
 def test_imports():
+    from server.models import Observation, Action, Reward, StepResponse, EnvState
+    from server.models import UrgencyLevel, EmailCategory, EmailAction
     assert UrgencyLevel.CRITICAL.value == "critical"
     assert EmailCategory.SPAM.value == "spam"
     assert EmailAction.DELETE.value == "delete"
 def test_reward_range():
+    from server.models import Reward, RewardBreakdown
     r = Reward(value=0.75, feedback="ok")
     assert 0.0 <= r.value <= 1.0
 def test_reward_clamp():
+    from server.models import Reward
     with pytest.raises(Exception):
         Reward(value=1.5, feedback="out of range")
 def test_reset_all_tasks():
+    from server.environment import EmailTriageEnv
     env = EmailTriageEnv()
     for task_id in ["task_easy", "task_medium", "task_hard"]:
         obs = env.reset(task_id)
 def test_reset_invalid_task():
+    from server.environment import EmailTriageEnv
     env = EmailTriageEnv()
     with pytest.raises(ValueError):
         env.reset("task_nonexistent")
 def test_full_easy_episode():
+    from server.environment import EmailTriageEnv
+    from server.models import Action, UrgencyLevel, EmailCategory, EmailAction
     env = EmailTriageEnv()
     obs = env.reset("task_easy")
 def test_step_after_done_raises():
+    from server.environment import EmailTriageEnv
+    from server.models import Action, UrgencyLevel, EmailCategory, EmailAction
     env = EmailTriageEnv()
     env.reset("task_easy")
 def test_perfect_spam_score():
+    from server.graders import grade_task_easy
+    from server.dataset import TASK_EASY_EMAILS
+    from server.models import Action, UrgencyLevel, EmailCategory, EmailAction
     # e001 is spam
     spam_email = next(e for e in TASK_EASY_EMAILS if e.id == "e001")
 def test_missed_spam_penalty():
+    from server.graders import grade_task_easy
+    from server.dataset import TASK_EASY_EMAILS
+    from server.models import Action, UrgencyLevel, EmailCategory, EmailAction
     spam_email = next(e for e in TASK_EASY_EMAILS if e.id == "e001")
     act = Action(
 def test_state_reflects_progress():
+    from server.environment import EmailTriageEnv
+    from server.models import Action, UrgencyLevel, EmailCategory, EmailAction
     env = EmailTriageEnv()
     env.reset("task_easy")
 def test_reply_quality_grader():
+    from server.graders import reply_quality_score
+    from server.dataset import TASK_HARD_EMAILS
+    from server.models import Email
     # h001 is a customer complaint — needs apology, resolution, etc.
     email = next(e for e in TASK_HARD_EMAILS if e.id == "h001")
 def test_task_email_counts():
+    from server.dataset import TASK_EMAILS
     assert len(TASK_EMAILS["task_easy"])   == 10
     assert len(TASK_EMAILS["task_medium"]) == 15
     assert len(TASK_EMAILS["task_hard"])   == 20
 def test_all_graders_return_valid_range():
+    from server.graders import grade
+    from server.dataset import TASK_EMAILS
+    from server.models import Action, UrgencyLevel, EmailCategory, EmailAction
     act = Action(urgency=UrgencyLevel.HIGH, category=EmailCategory.FINANCE, action=EmailAction.ESCALATE)
     for task_id, emails in TASK_EMAILS.items():

validate.py → server/validate.py RENAMED Viewed

@@ -62,7 +62,7 @@ except Exception as e:
 # ─── 3. Pydantic models ───────────────────────────────────────────────────────
 print("\n3. Typed models (Pydantic)")
 try:
-    from models import Observation, Action, Reward, StepResponse, EnvState
     check(True, "Observation model imports")
     check(True, "Action model imports")
     check(True, "Reward model imports")
@@ -78,8 +78,8 @@ except Exception as e:
 # ─── 4. Environment API ───────────────────────────────────────────────────────
 print("\n4. Environment API (reset/step/state)")
 try:
-    from environment import EmailTriageEnv
-    from models import Action, UrgencyLevel, EmailCategory, EmailAction
     env = EmailTriageEnv()
@@ -118,8 +118,8 @@ except Exception as e:
 # ─── 5. Graders ───────────────────────────────────────────────────────────────
 print("\n5. Task graders (3 tasks, scores in [0,1])")
 try:
-    from graders import grade
-    from dataset import TASK_EMAILS
     for tid in ["task_easy", "task_medium", "task_hard"]:
         emails = TASK_EMAILS[tid]

 # ─── 3. Pydantic models ───────────────────────────────────────────────────────
 print("\n3. Typed models (Pydantic)")
 try:
+    from server.models import Observation, Action, Reward, StepResponse, EnvState
     check(True, "Observation model imports")
     check(True, "Action model imports")
     check(True, "Reward model imports")
 # ─── 4. Environment API ───────────────────────────────────────────────────────
 print("\n4. Environment API (reset/step/state)")
 try:
+    from server.environment import EmailTriageEnv
+    from server.models import Action, UrgencyLevel, EmailCategory, EmailAction
     env = EmailTriageEnv()
 # ─── 5. Graders ───────────────────────────────────────────────────────────────
 print("\n5. Task graders (3 tasks, scores in [0,1])")
 try:
+    from server.graders import grade
+    from server.dataset import TASK_EMAILS
     for tid in ["task_easy", "task_medium", "task_hard"]:
         emails = TASK_EMAILS[tid]