Spaces:

AlgoCore
/

support-ticket-env

Sleeping

App Files Files Community

Vighnesh commited on Apr 26

Commit

5d570d6

1 Parent(s): 2e81e98

result after no sleep

Browse files

Files changed (4) hide show

get_baseline.py +65 -0
make_chart.py +117 -0
plot_results.py +266 -0
train_grpo_safe.ipynb +562 -0

get_baseline.py ADDED Viewed

	@@ -0,0 +1,65 @@

+import os, sys
+sys.path.insert(0, r'C:\Users\Admin\OneDrive\Desktop\OpenEnv Hacathon\support_ticket_env')
+from support_ticket_env.server.support_environment import SupportTicketEnvironment
+from support_ticket_env.models import SupportAction
+CATEGORY_KEYWORDS = {
+    "billing":   ["charge", "invoice", "payment", "bill", "refund", "subscription", "price", "cost", "fee", "money"],
+    "technical": ["error", "bug", "crash", "not working", "broken", "issue", "problem", "fail", "500", "api"],
+    "account":   ["login", "password", "account", "access", "sign in", "email", "username", "cancel"],
+    "refund":    ["refund", "return", "money back", "reimburse", "cancel order"],
+    "general":   ["hours", "contact", "phone", "help", "question", "info", "support"],
+}
+def rule_based(obs):
+    text = obs.ticket_text.lower()
+    if not obs.current_category:
+        best_cat, best_score = "general", 0
+        for cat, keywords in CATEGORY_KEYWORDS.items():
+            score = sum(1 for kw in keywords if kw in text)
+            if score > best_score:
+                best_score = score
+                best_cat = cat
+        return {"action_type": "classify", "category": best_cat}
+    cat = obs.current_category
+    if cat == "technical":
+        return {"action_type": "escalate", "reason": "needs engineering"}
+    elif cat == "general":
+        return {"action_type": "close", "reason": "resolved"}
+    else:
+        return {"action_type": "reply", "reply_text": f"Thank you for contacting us about your {cat} issue."}
+SEEDS = [42, 7, 123]
+MAX_STEPS = 10
+results = {}
+for task_id in [1, 2, 3]:
+    scores = []
+    for seed in SEEDS:
+        env = SupportTicketEnvironment()
+        obs = env.reset(task_id=task_id, seed=seed)
+        rewards = []
+        for _ in range(MAX_STEPS):
+            if obs.done:
+                break
+            action_dict = rule_based(obs)
+            try:
+                action = SupportAction(**action_dict)
+                obs = env.step(action)
+                rewards.append(obs.reward or 0.0)
+            except:
+                rewards.append(0.0)
+            if obs.done:
+                break
+        score = round(min(max(sum(rewards) / MAX_STEPS, 0.0), 1.0), 3)
+        scores.append(score)
+        print(f"  Task {task_id} seed={seed}: {score:.3f}")
+    avg = round(sum(scores) / len(scores), 3)
+    results["task" + str(task_id)] = avg
+    print(f"  Task {task_id} avg: {avg:.3f}")
+overall = round(sum(results.values()) / 3, 3)
+results["overall"] = overall
+print(f"Overall rule-based avg: {overall:.3f}")
+print("Rule-based scores:", results)

make_chart.py ADDED Viewed

	@@ -0,0 +1,117 @@

+"""
+make_chart.py
+Generates the before/after reward chart using known scores.
+Run: python make_chart.py
+"""
+import matplotlib
+matplotlib.use("Agg")
+import matplotlib.pyplot as plt
+import numpy as np
+# Rule-based agent (no LLM, no training) — measured locally
+baseline_scores = {
+    "task1":   0.100,
+    "task2":   0.113,
+    "task3":   0.218,
+    "overall": 0.144,
+}
+# Qwen2.5-72B via HF Inference API — from your clean run logs
+llm_scores = {
+    "task1":   0.100,
+    "task2":   0.113,
+    "task3":   0.262,
+    "overall": 0.158,
+}
+# After GRPO training — update these once Colab finishes
+# If Colab not done yet, use llm_scores as placeholder
+grpo_scores = {
+    "task1":   0.100,
+    "task2":   0.113,
+    "task3":   0.262,
+    "overall": 0.158,
+}
+def make_chart(baseline, llm, grpo, output="reward_chart.png"):
+    tasks = ["Task 1\n(Classify)", "Task 2\n(Action)", "Task 3\n(Full Resolve)", "Overall"]
+    keys  = ["task1", "task2", "task3", "overall"]
+    b_vals    = [baseline.get(k, 0) for k in keys]
+    llm_vals  = [llm.get(k, 0) for k in keys]
+    grpo_vals = [grpo.get(k, 0) for k in keys]
+    x     = np.arange(len(tasks))
+    width = 0.25
+    fig, axes = plt.subplots(1, 2, figsize=(15, 6))
+    fig.patch.set_facecolor("#1a1a2e")
+    for ax in axes:
+        ax.set_facecolor("#16213e")
+    ax1 = axes[0]
+    bars1 = ax1.bar(x - width, b_vals,    width, label="Rule-Based",    color="#636e72", edgecolor="#2d3436")
+    bars2 = ax1.bar(x,         llm_vals,  width, label="Qwen2.5-72B",   color="#0984e3", edgecolor="#2d3436")
+    bars3 = ax1.bar(x + width, grpo_vals, width, label="After GRPO",    color="#00b894", edgecolor="#2d3436")
+    for bars in [bars1, bars2, bars3]:
+        for bar in bars:
+            h = bar.get_height()
+            ax1.text(bar.get_x() + bar.get_width()/2., h + 0.008,
+                     f"{h:.2f}", ha="center", va="bottom", fontsize=8.5, color="white")
+    ax1.set_xticks(x)
+    ax1.set_xticklabels(tasks, color="white", fontsize=10)
+    ax1.set_ylabel("Score (0 - 1)", color="white", fontsize=11)
+    ax1.set_title("Score Comparison Across Training Stages", color="white", fontsize=12, fontweight="bold", pad=10)
+    ax1.set_ylim(0, 1.2)
+    ax1.tick_params(colors="white")
+    ax1.spines[:].set_color("#2d3436")
+    ax1.yaxis.grid(True, alpha=0.2, color="white")
+    ax1.set_axisbelow(True)
+    ax1.legend(facecolor="#0f3460", edgecolor="#2d3436", labelcolor="white", fontsize=9)
+    ax2 = axes[1]
+    deltas = [round(grpo.get(k, 0) - baseline.get(k, 0), 3) for k in keys]
+    colors = ["#00b894" if d >= 0 else "#d63031" for d in deltas]
+    bars4  = ax2.bar(x, deltas, width=0.4, color=colors, edgecolor="#2d3436")
+    for bar, d in zip(bars4, deltas):
+        ypos = bar.get_height() + 0.004 if d >= 0 else bar.get_height() - 0.016
+        ax2.text(bar.get_x() + bar.get_width()/2., ypos,
+                 f"{d:+.3f}", ha="center", va="bottom", fontsize=11,
+                 fontweight="bold", color="white")
+    ax2.axhline(0, color="white", linewidth=0.8, alpha=0.4)
+    ax2.set_xticks(x)
+    ax2.set_xticklabels(tasks, color="white", fontsize=10)
+    ax2.set_ylabel("Score Delta (GRPO vs Rule-Based)", color="white", fontsize=10)
+    ax2.set_title("Improvement: Rule-Based → After GRPO", color="white", fontsize=12, fontweight="bold", pad=10)
+    ax2.tick_params(colors="white")
+    ax2.spines[:].set_color("#2d3436")
+    ax2.yaxis.grid(True, alpha=0.2, color="white")
+    ax2.set_axisbelow(True)
+    fig.suptitle(
+        "Support Ticket Env — Training Results\nModel: Qwen2.5-0.5B-Instruct + GRPO | OpenEnv x Scalar Hackathon 2026",
+        color="white", fontsize=11, y=1.02
+    )
+    plt.tight_layout()
+    plt.savefig(output, dpi=180, bbox_inches="tight", facecolor=fig.get_facecolor())
+    print(f"Chart saved: {output}")
+    print("\n" + "="*52)
+    print(f"{'Task':<14} {'Rule-Based':>10} {'Qwen-72B':>10} {'GRPO':>8} {'Delta':>8}")
+    print("-"*52)
+    for k, label in [("task1","Task 1"),("task2","Task 2"),("task3","Task 3"),("overall","Overall")]:
+        b = baseline.get(k, 0)
+        l = llm.get(k, 0)
+        g = grpo.get(k, 0)
+        d = g - b
+        print(f"{label:<14} {b:>10.3f} {l:>10.3f} {g:>8.3f} {d:>+8.3f}")
+    print("="*52)
+if __name__ == "__main__":
+    make_chart(baseline_scores, llm_scores, grpo_scores)

plot_results.py ADDED Viewed

	@@ -0,0 +1,266 @@

+"""
+plot_results.py
+Run inference across 3 seeds for all tasks and plot before/after bar chart.
+Usage:
+    set HF_TOKEN=hf_...
+    set API_BASE_URL=https://router.huggingface.co/v1
+    set MODEL_NAME=Qwen/Qwen2.5-72B-Instruct
+    python plot_results.py
+"""
+import os
+import sys
+import json
+import re
+import random
+import matplotlib
+matplotlib.use("Agg")
+import matplotlib.pyplot as plt
+import matplotlib.patches as mpatches
+import numpy as np
+ROOT = os.path.dirname(os.path.abspath(__file__))
+sys.path.insert(0, ROOT)
+from openai import OpenAI
+from support_ticket_env.server.support_environment import SupportTicketEnvironment
+from support_ticket_env.models import SupportAction
+API_KEY      = os.getenv("HF_TOKEN") or os.getenv("API_KEY")
+API_BASE_URL = os.getenv("API_BASE_URL") or "https://router.huggingface.co/v1"
+MODEL_NAME   = os.getenv("MODEL_NAME") or "Qwen/Qwen2.5-72B-Instruct"
+MAX_STEPS    = 10
+SEEDS        = [42, 7, 123]
+VALID_CATEGORIES = ["billing", "technical", "account", "general", "refund"]
+VALID_ACTIONS    = ["classify", "reply", "escalate", "close"]
+SYSTEM_PROMPT = """You are a customer support AI agent handling tickets.
+Respond ONLY with a JSON object:
+{
+  "action_type": "classify" | "reply" | "escalate" | "close",
+  "category": "billing" | "technical" | "account" | "general" | "refund",
+  "reply_text": "...",
+  "reason": "..."
+}
+Rules:
+- Task 1: action_type=classify, pick correct category
+- Task 2: first classify, then reply/escalate/close
+- Task 3: classify each ticket then resolve it
+- category only needed for classify
+- reply_text only needed for reply
+- technical issues: escalate
+- resolved issues: close
+- billing/account/refund: reply"""
+CATEGORY_KEYWORDS = {
+    "billing":   ["charge", "invoice", "payment", "bill", "refund", "subscription", "price", "cost", "fee", "money"],
+    "technical": ["error", "bug", "crash", "not working", "broken", "issue", "problem", "fail", "500", "api"],
+    "account":   ["login", "password", "account", "access", "sign in", "email", "username", "cancel"],
+    "refund":    ["refund", "return", "money back", "reimburse", "cancel order"],
+    "general":   ["hours", "contact", "phone", "help", "question", "info", "support"],
+}
+def rule_based_action(obs):
+    text = obs.ticket_text.lower()
+    if not obs.current_category:
+        best_cat, best_score = "general", 0
+        for cat, keywords in CATEGORY_KEYWORDS.items():
+            score = sum(1 for kw in keywords if kw in text)
+            if score > best_score:
+                best_score = score
+                best_cat = cat
+        return {"action_type": "classify", "category": best_cat}
+    cat = obs.current_category
+    if cat == "technical":
+        return {"action_type": "escalate", "reason": "Technical issue requires engineering team"}
+    elif cat == "general":
+        return {"action_type": "close", "reason": "General inquiry resolved"}
+    else:
+        return {"action_type": "reply", "reply_text": f"Thank you for contacting us about your {cat} issue. We are looking into it and will resolve it shortly."}
+def parse_response(text):
+    text = text.strip()
+    text = re.sub(r"^```(?:json)?\s*", "", text)
+    text = re.sub(r"\s*```$", "", text)
+    try:
+        return json.loads(text)
+    except:
+        match = re.search(r"\{.*\}", text, re.DOTALL)
+        if match:
+            return json.loads(match.group())
+        raise
+def get_action(client, obs):
+    if not API_KEY:
+        return rule_based_action(obs)
+    user_prompt = json.dumps({
+        "ticket_id": obs.ticket_id,
+        "ticket_text": obs.ticket_text,
+        "task_id": obs.task_id,
+        "current_category": obs.current_category,
+        "step_count": obs.step_count,
+        "feedback": obs.feedback,
+    })
+    try:
+        completion = client.chat.completions.create(
+            model=MODEL_NAME,
+            messages=[
+                {"role": "system", "content": SYSTEM_PROMPT},
+                {"role": "user", "content": user_prompt},
+            ],
+            temperature=0.0,
+            max_tokens=256,
+        )
+        text = (completion.choices[0].message.content or "").strip()
+        return parse_response(text)
+    except Exception as e:
+        print(f"  [fallback] {e}")
+        return rule_based_action(obs)
+def run_task(task_id, seed, client):
+    env = SupportTicketEnvironment()
+    obs = env.reset(task_id=task_id, seed=seed)
+    rewards = []
+    for step in range(1, MAX_STEPS + 1):
+        if obs.done:
+            break
+        action_dict = get_action(client, obs)
+        try:
+            action = SupportAction(**action_dict)
+            obs = env.step(action)
+            rewards.append(obs.reward or 0.0)
+        except Exception as e:
+            rewards.append(0.0)
+        if obs.done:
+            break
+    total = sum(rewards)
+    score = round(min(max(total / MAX_STEPS, 0.0), 1.0), 3)
+    return score
+def run_all_tasks(client, label=""):
+    results = {}
+    for task_id in [1, 2, 3]:
+        scores = []
+        for seed in SEEDS:
+            s = run_task(task_id, seed, client)
+            scores.append(s)
+            print(f"  Task {task_id} seed={seed}: {s:.3f}")
+        avg = round(sum(scores) / len(scores), 3)
+        results[f"task{task_id}"] = avg
+        print(f"  Task {task_id} avg: {avg:.3f}")
+    results["overall"] = round(sum(results.values()) / 3, 3)
+    print(f"  Overall avg: {results['overall']:.3f}")
+    return results
+def plot_chart(before, after, output_path="reward_chart.png"):
+    tasks       = ["Task 1\n(Classify)", "Task 2\n(Action)", "Task 3\n(Full Resolve)", "Overall"]
+    keys        = ["task1", "task2", "task3", "overall"]
+    before_vals = [before.get(k, 0) for k in keys]
+    after_vals  = [after.get(k, 0) for k in keys]
+    x     = np.arange(len(tasks))
+    width = 0.32
+    fig, axes = plt.subplots(1, 2, figsize=(14, 6))
+    fig.patch.set_facecolor("#1a1a2e")
+    for ax in axes:
+        ax.set_facecolor("#16213e")
+    ax1 = axes[0]
+    bars1 = ax1.bar(x - width/2, before_vals, width, label="Before Training", color="#636e72", edgecolor="#2d3436", linewidth=1.2)
+    bars2 = ax1.bar(x + width/2, after_vals,  width, label="After GRPO",      color="#00b894", edgecolor="#2d3436", linewidth=1.2)
+    for bar in bars1:
+        h = bar.get_height()
+        ax1.text(bar.get_x() + bar.get_width()/2., h + 0.012,
+                 f"{h:.2f}", ha="center", va="bottom", fontsize=10, color="#b2bec3")
+    for bar in bars2:
+        h = bar.get_height()
+        ax1.text(bar.get_x() + bar.get_width()/2., h + 0.012,
+                 f"{h:.2f}", ha="center", va="bottom", fontsize=11,
+                 fontweight="bold", color="#00b894")
+    ax1.set_xticks(x)
+    ax1.set_xticklabels(tasks, color="white", fontsize=10)
+    ax1.set_ylabel("Score (0 - 1)", color="white", fontsize=11)
+    ax1.set_title("Before vs After GRPO Training", color="white", fontsize=13, fontweight="bold", pad=12)
+    ax1.set_ylim(0, 1.2)
+    ax1.tick_params(colors="white")
+    ax1.spines[:].set_color("#2d3436")
+    ax1.yaxis.grid(True, alpha=0.2, color="white")
+    ax1.set_axisbelow(True)
+    legend = ax1.legend(facecolor="#0f3460", edgecolor="#2d3436", labelcolor="white", fontsize=10)
+    ax2 = axes[1]
+    deltas      = [round(after.get(k, 0) - before.get(k, 0), 3) for k in keys]
+    bar_colors  = ["#00b894" if d >= 0 else "#d63031" for d in deltas]
+    bars3 = ax2.bar(x, deltas, width=0.45, color=bar_colors, edgecolor="#2d3436", linewidth=1.2)
+    for bar, d in zip(bars3, deltas):
+        ypos = bar.get_height() + 0.005 if d >= 0 else bar.get_height() - 0.018
+        ax2.text(bar.get_x() + bar.get_width()/2., ypos,
+                 f"{d:+.3f}", ha="center", va="bottom", fontsize=11,
+                 fontweight="bold", color="white")
+    ax2.axhline(0, color="white", linewidth=0.8, alpha=0.4)
+    ax2.set_xticks(x)
+    ax2.set_xticklabels(tasks, color="white", fontsize=10)
+    ax2.set_ylabel("Score Delta", color="white", fontsize=11)
+    ax2.set_title("Improvement After GRPO", color="white", fontsize=13, fontweight="bold", pad=12)
+    ax2.tick_params(colors="white")
+    ax2.spines[:].set_color("#2d3436")
+    ax2.yaxis.grid(True, alpha=0.2, color="white")
+    ax2.set_axisbelow(True)
+    fig.suptitle(
+        "Support Ticket Env — GRPO Training Results\nModel: Qwen2.5-0.5B-Instruct | 3 Seeds | OpenEnv x Scalar Hackathon",
+        color="white", fontsize=12, y=1.01
+    )
+    plt.tight_layout()
+    plt.savefig(output_path, dpi=180, bbox_inches="tight", facecolor=fig.get_facecolor())
+    print(f"\nChart saved: {output_path}")
+    return output_path
+if __name__ == "__main__":
+    client = OpenAI(base_url=API_BASE_URL, api_key=API_KEY or "no-key")
+    print("=" * 50)
+    print("RUNNING INFERENCE — 3 seeds x 3 tasks")
+    print("=" * 50)
+    print("\n--- Current Model Scores ---")
+    current_scores = run_all_tasks(client, label="current")
+    # Baseline = rule-based agent (no LLM, no training)
+    baseline_scores = {
+        "task1":   0.100,
+        "task2":   0.113,
+        "task3":   0.218,
+        "overall": 0.144,
+    }
+    print("\n--- Baseline (from earlier run) ---")
+    for k, v in baseline_scores.items():
+        print(f"  {k}: {v:.3f}")
+    print("\n--- Generating Chart ---")
+    plot_chart(
+        before=baseline_scores,
+        after=current_scores,
+        output_path="reward_chart.png"
+    )
+    print("\n" + "=" * 50)
+    print("SUMMARY")
+    print("=" * 50)
+    print(f"{'Task':<12} {'Before':>8} {'After':>8} {'Delta':>8}")
+    print("-" * 40)
+    for k, label in [("task1","Task 1"),("task2","Task 2"),("task3","Task 3"),("overall","Overall")]:
+        b = baseline_scores.get(k, 0)
+        a = current_scores.get(k, 0)
+        print(f"{label:<12} {b:>8.3f} {a:>8.3f} {a-b:>+8.3f}")
+    print("=" * 50)
+    print("reward_chart.png saved in your project folder.")

train_grpo_safe.ipynb ADDED Viewed

	@@ -0,0 +1,562 @@

+{
+ "nbformat": 4,
+ "nbformat_minor": 0,
+ "metadata": {
+  "colab": {
+   "provenance": [],
+   "gpuType": "T4"
+  },
+  "kernelspec": {
+   "display_name": "Python 3",
+   "name": "python3"
+  },
+  "language_info": {
+   "name": "python"
+  },
+  "accelerator": "GPU"
+ },
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Support Ticket Env - GRPO Fine-Tuning\n",
+    "**OpenEnv x Scalar Hackathon**\n",
+    "\n",
+    "Fine-tunes `Qwen/Qwen2.5-0.5B-Instruct` using GRPO (Group Relative Policy Optimization) from HuggingFace TRL against the live Support Ticket Environment API.\n",
+    "\n",
+    "- Model: Qwen2.5-0.5B-Instruct\n",
+    "- Algorithm: GRPO\n",
+    "- Environment: https://algocore-support-ticket-env.hf.space\n",
+    "- Runtime: ~45-60 min on free Colab T4"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!pip install -q trl transformers peft accelerate\n",
+    "!pip install -q torch bitsandbytes requests datasets\n",
+    "print('Done')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "\n",
+    "HF_TOKEN     = \"YOUR_HF_TOKEN_HERE\"\n",
+    "ENV_BASE_URL = \"https://algocore-support-ticket-env.hf.space\"\n",
+    "MODEL_NAME   = \"Qwen/Qwen2.5-0.5B-Instruct\"\n",
+    "OUTPUT_DIR   = \"/content/support-ticket-grpo\"\n",
+    "HF_REPO_ID   = \"AlgoCore/support-ticket-grpo-model\"\n",
+    "\n",
+    "os.environ[\"HF_TOKEN\"] = HF_TOKEN\n",
+    "os.environ[\"HUGGING_FACE_HUB_TOKEN\"] = HF_TOKEN\n",
+    "\n",
+    "import torch\n",
+    "print(\"GPU:\", torch.cuda.get_device_name(0) if torch.cuda.is_available() else \"NO GPU - switch runtime!\")\n",
+    "if torch.cuda.is_available():\n",
+    "    print(\"VRAM:\", round(torch.cuda.get_device_properties(0).total_memory / 1e9, 1), \"GB\")\n",
+    "print(\"Model:\", MODEL_NAME)\n",
+    "print(\"Env:\", ENV_BASE_URL)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import requests\n",
+    "import json\n",
+    "import re\n",
+    "from dataclasses import dataclass\n",
+    "from typing import Optional\n",
+    "\n",
+    "@dataclass\n",
+    "class Obs:\n",
+    "    ticket_id: str\n",
+    "    ticket_text: str\n",
+    "    task_id: int\n",
+    "    current_category: Optional[str]\n",
+    "    resolved: bool\n",
+    "    step_count: int\n",
+    "    feedback: str\n",
+    "    score: float\n",
+    "    reward: float\n",
+    "    done: bool\n",
+    "\n",
+    "class SupportEnvClient:\n",
+    "    def __init__(self, base_url):\n",
+    "        self.base_url = base_url.rstrip('/')\n",
+    "        self.session = requests.Session()\n",
+    "        self.session.headers.update({'Content-Type': 'application/json'})\n",
+    "\n",
+    "    def health(self):\n",
+    "        try:\n",
+    "            r = self.session.get(f\"{self.base_url}/health\", timeout=10)\n",
+    "            return r.status_code == 200\n",
+    "        except:\n",
+    "            return False\n",
+    "\n",
+    "    def reset(self, task_id=1, seed=42):\n",
+    "        r = self.session.post(f\"{self.base_url}/reset\", json={\"task_id\": task_id, \"seed\": seed}, timeout=15)\n",
+    "        r.raise_for_status()\n",
+    "        return self._parse(r.json())\n",
+    "\n",
+    "    def step(self, action):\n",
+    "        r = self.session.post(f\"{self.base_url}/step\", json={\"action\": action}, timeout=15)\n",
+    "        r.raise_for_status()\n",
+    "        return self._parse(r.json())\n",
+    "\n",
+    "    def _parse(self, data):\n",
+    "        obs = data.get('observation', data)\n",
+    "        return Obs(\n",
+    "            ticket_id=obs.get('ticket_id', ''),\n",
+    "            ticket_text=obs.get('ticket_text', ''),\n",
+    "            task_id=obs.get('task_id', 1),\n",
+    "            current_category=obs.get('current_category'),\n",
+    "            resolved=obs.get('resolved', False),\n",
+    "            step_count=obs.get('step_count', 0),\n",
+    "            feedback=obs.get('feedback', ''),\n",
+    "            score=obs.get('score', 0.0),\n",
+    "            reward=obs.get('reward', 0.0),\n",
+    "            done=obs.get('done', False),\n",
+    "        )\n",
+    "\n",
+    "env_client = SupportEnvClient(ENV_BASE_URL)\n",
+    "if env_client.health():\n",
+    "    print('Environment API reachable')\n",
+    "    obs = env_client.reset(task_id=1, seed=42)\n",
+    "    print(f'Ticket: {obs.ticket_id} - {obs.ticket_text[:70]}')\n",
+    "else:\n",
+    "    print('Cannot reach environment - check ENV_BASE_URL')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from transformers import AutoTokenizer, AutoModelForCausalLM\n",
+    "import torch\n",
+    "\n",
+    "print(f\"Loading {MODEL_NAME}...\")\n",
+    "\n",
+    "tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, token=HF_TOKEN, trust_remote_code=True)\n",
+    "tokenizer.pad_token = tokenizer.eos_token\n",
+    "tokenizer.padding_side = 'left'\n",
+    "\n",
+    "model = AutoModelForCausalLM.from_pretrained(\n",
+    "    MODEL_NAME,\n",
+    "    token=HF_TOKEN,\n",
+    "    torch_dtype=torch.float16,\n",
+    "    device_map='auto',\n",
+    "    trust_remote_code=True,\n",
+    ")\n",
+    "\n",
+    "print(f'Model loaded - {sum(p.numel() for p in model.parameters())/1e6:.0f}M parameters')\n",
+    "print(f'Device: {next(model.parameters()).device}')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from peft import LoraConfig, get_peft_model, TaskType\n",
+    "\n",
+    "lora_config = LoraConfig(\n",
+    "    task_type=TaskType.CAUSAL_LM,\n",
+    "    r=16,\n",
+    "    lora_alpha=32,\n",
+    "    lora_dropout=0.05,\n",
+    "    target_modules=[\"q_proj\", \"v_proj\", \"k_proj\", \"o_proj\"],\n",
+    "    bias=\"none\",\n",
+    ")\n",
+    "\n",
+    "model = get_peft_model(model, lora_config)\n",
+    "model.print_trainable_parameters()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "SYSTEM_PROMPT = \"\"\"You are a customer support AI agent. Given a ticket, respond with a JSON action.\n",
+    "\n",
+    "Respond ONLY with valid JSON:\n",
+    "{\"action_type\": \"classify\"|\"reply\"|\"escalate\"|\"close\", \"category\": \"billing\"|\"technical\"|\"account\"|\"general\"|\"refund\", \"reply_text\": \"...\", \"reason\": \"...\"}\n",
+    "\n",
+    "Rules:\n",
+    "- Task 1: action_type=classify, pick correct category\n",
+    "- Task 2: first classify, then reply/escalate/close\n",
+    "- Task 3: classify each ticket then resolve it\n",
+    "- category only needed for classify\n",
+    "- reply_text only needed for reply\n",
+    "- technical issues: escalate\n",
+    "- resolved issues: close\n",
+    "- billing/account/refund: reply\"\"\"\n",
+    "\n",
+    "def build_prompt(obs):\n",
+    "    user_msg = json.dumps({\n",
+    "        \"ticket_id\": obs.ticket_id,\n",
+    "        \"ticket_text\": obs.ticket_text,\n",
+    "        \"task_id\": obs.task_id,\n",
+    "        \"current_category\": obs.current_category,\n",
+    "        \"feedback\": obs.feedback,\n",
+    "        \"step_count\": obs.step_count,\n",
+    "    }, indent=2)\n",
+    "    messages = [\n",
+    "        {\"role\": \"system\", \"content\": SYSTEM_PROMPT},\n",
+    "        {\"role\": \"user\", \"content\": user_msg},\n",
+    "    ]\n",
+    "    return tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)\n",
+    "\n",
+    "def parse_action(text):\n",
+    "    text = text.strip()\n",
+    "    text = re.sub(r'^```(?:json)?\\s*', '', text)\n",
+    "    text = re.sub(r'\\s*```$', '', text)\n",
+    "    try:\n",
+    "        return json.loads(text)\n",
+    "    except:\n",
+    "        match = re.search(r'\\{.*?\\}', text, re.DOTALL)\n",
+    "        if match:\n",
+    "            try:\n",
+    "                return json.loads(match.group())\n",
+    "            except:\n",
+    "                pass\n",
+    "    return {\"action_type\": \"classify\", \"category\": \"general\"}\n",
+    "\n",
+    "obs = env_client.reset(task_id=1, seed=42)\n",
+    "prompt = build_prompt(obs)\n",
+    "print('Prompt builder OK')\n",
+    "print(f'Prompt length: {len(prompt)} chars')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import random\n",
+    "\n",
+    "SEEDS    = [42, 7, 123, 0, 99]\n",
+    "TASK_IDS = [1, 2, 3]\n",
+    "MAX_STEPS = 6\n",
+    "\n",
+    "def generate_action(prompt, max_new_tokens=150):\n",
+    "    inputs = tokenizer(prompt, return_tensors='pt', truncation=True, max_length=1024).to(model.device)\n",
+    "    with torch.no_grad():\n",
+    "        outputs = model.generate(\n",
+    "            **inputs,\n",
+    "            max_new_tokens=max_new_tokens,\n",
+    "            do_sample=True,\n",
+    "            temperature=0.7,\n",
+    "            top_p=0.9,\n",
+    "            pad_token_id=tokenizer.eos_token_id,\n",
+    "        )\n",
+    "    new_tokens = outputs[0][inputs['input_ids'].shape[1]:]\n",
+    "    return tokenizer.decode(new_tokens, skip_special_tokens=True)\n",
+    "\n",
+    "def run_episode(task_id, seed):\n",
+    "    obs = env_client.reset(task_id=task_id, seed=seed)\n",
+    "    prompts, completions, rewards = [], [], []\n",
+    "    for _ in range(MAX_STEPS):\n",
+    "        if obs.done:\n",
+    "            break\n",
+    "        prompt = build_prompt(obs)\n",
+    "        completion = generate_action(prompt)\n",
+    "        action = parse_action(completion)\n",
+    "        try:\n",
+    "            obs = env_client.step(action)\n",
+    "            reward = float(obs.reward or 0.0)\n",
+    "        except:\n",
+    "            reward = -0.1\n",
+    "            obs.done = True\n",
+    "        prompts.append(prompt)\n",
+    "        completions.append(completion)\n",
+    "        rewards.append(reward)\n",
+    "        if obs.done:\n",
+    "            break\n",
+    "    return prompts, completions, sum(rewards)\n",
+    "\n",
+    "print('Running smoke test...')\n",
+    "p, c, r = run_episode(task_id=1, seed=42)\n",
+    "print(f'Smoke test passed - steps={len(p)}, total_reward={r:.3f}')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def evaluate(n_seeds=3):\n",
+    "    results = {}\n",
+    "    seeds = SEEDS[:n_seeds]\n",
+    "    for task_id in [1, 2, 3]:\n",
+    "        task_rewards = []\n",
+    "        for seed in seeds:\n",
+    "            _, _, total = run_episode(task_id=task_id, seed=seed)\n",
+    "            normalized = round(max(0, min(1, total / MAX_STEPS)), 3)\n",
+    "            task_rewards.append(normalized)\n",
+    "        avg = round(sum(task_rewards) / len(task_rewards), 3)\n",
+    "        results[f'task{task_id}'] = avg\n",
+    "        print(f'  Task {task_id}: {avg:.3f}')\n",
+    "    results['overall'] = round(sum(results.values()) / 3, 3)\n",
+    "    print(f'  Overall: {results[\"overall\"]:.3f}')\n",
+    "    return results\n",
+    "\n",
+    "print('=== BASELINE (before training) ===')\n",
+    "baseline_scores = evaluate(n_seeds=3)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from torch.optim import AdamW\n",
+    "from transformers import get_linear_schedule_with_warmup\n",
+    "import numpy as np\n",
+    "\n",
+    "LEARNING_RATE = 5e-5\n",
+    "N_EPISODES    = 60\n",
+    "GROUP_SIZE    = 4\n",
+    "KL_COEFF      = 0.01\n",
+    "GRAD_CLIP     = 1.0\n",
+    "LOG_EVERY     = 5\n",
+    "\n",
+    "optimizer = AdamW(model.parameters(), lr=LEARNING_RATE)\n",
+    "scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=5, num_training_steps=N_EPISODES)\n",
+    "\n",
+    "training_log = []\n",
+    "\n",
+    "print(f'Starting GRPO training: {N_EPISODES} episodes, group_size={GROUP_SIZE}')\n",
+    "print('=' * 60)\n",
+    "\n",
+    "model.train()\n",
+    "\n",
+    "for episode in range(1, N_EPISODES + 1):\n",
+    "    task_id = random.choice(TASK_IDS)\n",
+    "    seed    = random.choice(SEEDS)\n",
+    "\n",
+    "    group_rewards     = []\n",
+    "    group_prompts     = []\n",
+    "    group_completions = []\n",
+    "\n",
+    "    for g in range(GROUP_SIZE):\n",
+    "        obs = env_client.reset(task_id=task_id, seed=seed)\n",
+    "        prompt = build_prompt(obs)\n",
+    "        completion = generate_action(prompt)\n",
+    "        action = parse_action(completion)\n",
+    "        try:\n",
+    "            obs = env_client.step(action)\n",
+    "            reward = float(obs.reward or 0.0)\n",
+    "        except:\n",
+    "            reward = -0.1\n",
+    "        group_rewards.append(reward)\n",
+    "        group_prompts.append(prompt)\n",
+    "        group_completions.append(completion)\n",
+    "\n",
+    "    rewards_arr = np.array(group_rewards, dtype=np.float32)\n",
+    "    advantages  = (rewards_arr - rewards_arr.mean()) / (rewards_arr.std() + 1e-8)\n",
+    "\n",
+    "    total_loss = torch.tensor(0.0, requires_grad=True, device=model.device)\n",
+    "    optimizer.zero_grad()\n",
+    "\n",
+    "    for prompt, completion, adv in zip(group_prompts, group_completions, advantages):\n",
+    "        if not completion.strip():\n",
+    "            continue\n",
+    "        full_text = prompt + completion\n",
+    "        inputs = tokenizer(full_text, return_tensors='pt', truncation=True, max_length=1200).to(model.device)\n",
+    "        prompt_len = tokenizer(prompt, return_tensors='pt')[\"input_ids\"].shape[1]\n",
+    "        outputs = model(**inputs, labels=inputs['input_ids'])\n",
+    "        logits = outputs.logits[:, prompt_len-1:-1, :]\n",
+    "        target_ids = inputs['input_ids'][:, prompt_len:]\n",
+    "        if target_ids.shape[1] == 0:\n",
+    "            continue\n",
+    "        log_probs = torch.nn.functional.log_softmax(logits, dim=-1)\n",
+    "        token_log_probs = log_probs.gather(2, target_ids.unsqueeze(-1)).squeeze(-1)\n",
+    "        seq_log_prob = token_log_probs.mean()\n",
+    "        pg_loss  = -torch.tensor(float(adv), device=model.device) * seq_log_prob\n",
+    "        kl_loss  = KL_COEFF * (seq_log_prob ** 2)\n",
+    "        total_loss = total_loss + (pg_loss + kl_loss) / GROUP_SIZE\n",
+    "\n",
+    "    total_loss.backward()\n",
+    "    torch.nn.utils.clip_grad_norm_(model.parameters(), GRAD_CLIP)\n",
+    "    optimizer.step()\n",
+    "    scheduler.step()\n",
+    "\n",
+    "    avg_reward = float(rewards_arr.mean())\n",
+    "    training_log.append((episode, task_id, avg_reward))\n",
+    "\n",
+    "    if episode % LOG_EVERY == 0:\n",
+    "        print(f'Episode {episode:3d}/{N_EPISODES} | task={task_id} | avg_reward={avg_reward:.3f} | loss={total_loss.item():.4f}')\n",
+    "\n",
+    "print('Training complete!')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "model.eval()\n",
+    "\n",
+    "print('=== POST-TRAINING EVALUATION ===')\n",
+    "trained_scores = evaluate(n_seeds=3)\n",
+    "\n",
+    "print('\\n=== IMPROVEMENT SUMMARY ===')\n",
+    "print(f'{\"Task\":<10} {\"Before\":>8} {\"After\":>8} {\"Delta\":>8}')\n",
+    "print('-' * 38)\n",
+    "for key, label in [(\"task1\",\"Task 1\"),(\"task2\",\"Task 2\"),(\"task3\",\"Task 3\"),(\"overall\",\"Overall\")]:\n",
+    "    b = baseline_scores.get(key, 0)\n",
+    "    a = trained_scores.get(key, 0)\n",
+    "    d = a - b\n",
+    "    print(f'{label:<10} {b:>8.3f} {a:>8.3f} {d:>+8.3f}')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import matplotlib.pyplot as plt\n",
+    "import numpy as np\n",
+    "\n",
+    "episodes   = [x[0] for x in training_log]\n",
+    "task_ids   = [x[1] for x in training_log]\n",
+    "ep_rewards = [x[2] for x in training_log]\n",
+    "\n",
+    "def moving_avg(data, window=5):\n",
+    "    return np.convolve(data, np.ones(window)/window, mode='valid')\n",
+    "\n",
+    "fig, axes = plt.subplots(1, 2, figsize=(14, 5))\n",
+    "fig.suptitle('Support Ticket Env - GRPO Training Results', fontsize=14, fontweight='bold')\n",
+    "\n",
+    "ax1 = axes[0]\n",
+    "colors = {1: '#3498db', 2: '#2ecc71', 3: '#e74c3c'}\n",
+    "for tid in [1, 2, 3]:\n",
+    "    mask = [i for i, t in enumerate(task_ids) if t == tid]\n",
+    "    if mask:\n",
+    "        x = [episodes[i] for i in mask]\n",
+    "        y = [ep_rewards[i] for i in mask]\n",
+    "        ax1.scatter(x, y, alpha=0.3, color=colors[tid], s=15)\n",
+    "        if len(y) >= 5:\n",
+    "            smoothed = moving_avg(y)\n",
+    "            ax1.plot(x[2:-2], smoothed, color=colors[tid], linewidth=2, label=f'Task {tid}')\n",
+    "        else:\n",
+    "            ax1.plot(x, y, color=colors[tid], linewidth=2, label=f'Task {tid}')\n",
+    "\n",
+    "ax1.set_xlabel('Episode')\n",
+    "ax1.set_ylabel('Avg Reward')\n",
+    "ax1.set_title('Training Reward per Episode')\n",
+    "ax1.legend()\n",
+    "ax1.grid(True, alpha=0.3)\n",
+    "ax1.set_ylim(-0.1, 1.1)\n",
+    "\n",
+    "ax2 = axes[1]\n",
+    "tasks       = ['Task 1', 'Task 2', 'Task 3', 'Overall']\n",
+    "keys        = ['task1', 'task2', 'task3', 'overall']\n",
+    "before_vals = [baseline_scores.get(k, 0) for k in keys]\n",
+    "after_vals  = [trained_scores.get(k, 0) for k in keys]\n",
+    "\n",
+    "x     = np.arange(len(tasks))\n",
+    "width = 0.35\n",
+    "\n",
+    "bars1 = ax2.bar(x - width/2, before_vals, width, label='Before Training', color='#95a5a6')\n",
+    "bars2 = ax2.bar(x + width/2, after_vals,  width, label='After GRPO',      color='#2ecc71')\n",
+    "\n",
+    "for bar in bars1:\n",
+    "    ax2.text(bar.get_x() + bar.get_width()/2., bar.get_height() + 0.01,\n",
+    "             f'{bar.get_height():.2f}', ha='center', va='bottom', fontsize=9)\n",
+    "for bar in bars2:\n",
+    "    ax2.text(bar.get_x() + bar.get_width()/2., bar.get_height() + 0.01,\n",
+    "             f'{bar.get_height():.2f}', ha='center', va='bottom', fontsize=9,\n",
+    "             fontweight='bold', color='#27ae60')\n",
+    "\n",
+    "ax2.set_xticks(x)\n",
+    "ax2.set_xticklabels(tasks)\n",
+    "ax2.set_ylabel('Score (0-1)')\n",
+    "ax2.set_title('Before vs After GRPO Training')\n",
+    "ax2.legend()\n",
+    "ax2.grid(True, alpha=0.3, axis='y')\n",
+    "ax2.set_ylim(0, 1.15)\n",
+    "\n",
+    "plt.tight_layout()\n",
+    "plt.savefig('/content/grpo_results.png', dpi=150, bbox_inches='tight')\n",
+    "plt.show()\n",
+    "print('Chart saved to /content/grpo_results.png')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "os.makedirs(OUTPUT_DIR, exist_ok=True)\n",
+    "\n",
+    "model.save_pretrained(OUTPUT_DIR)\n",
+    "tokenizer.save_pretrained(OUTPUT_DIR)\n",
+    "print(f'Model saved to {OUTPUT_DIR}')\n",
+    "\n",
+    "try:\n",
+    "    from huggingface_hub import HfApi\n",
+    "    api = HfApi(token=HF_TOKEN)\n",
+    "    api.create_repo(HF_REPO_ID, exist_ok=True, private=False)\n",
+    "    api.upload_folder(folder_path=OUTPUT_DIR, repo_id=HF_REPO_ID, repo_type='model')\n",
+    "    api.upload_file(path_or_fileobj='/content/grpo_results.png', path_in_repo='grpo_results.png', repo_id=HF_REPO_ID, repo_type='model')\n",
+    "    print(f'Model pushed to: https://huggingface.co/{HF_REPO_ID}')\n",
+    "except Exception as e:\n",
+    "    print(f'Push failed: {e}')\n",
+    "    print(f'Model is saved locally at {OUTPUT_DIR}')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from google.colab import files\n",
+    "files.download('/content/grpo_results.png')\n",
+    "\n",
+    "print('\\n' + '='*50)\n",
+    "print('FINAL TRAINING SUMMARY')\n",
+    "print('='*50)\n",
+    "print(f'Model:     {MODEL_NAME}')\n",
+    "print(f'Algorithm: GRPO')\n",
+    "print(f'Episodes:  {N_EPISODES}')\n",
+    "print(f'Env:       {ENV_BASE_URL}')\n",
+    "print()\n",
+    "print(f'{\"Task\":<10} {\"Before\":>8} {\"After\":>8} {\"Delta\":>8}')\n",
+    "print('-' * 38)\n",
+    "for key, label in [(\"task1\",\"Task 1\"),(\"task2\",\"Task 2\"),(\"task3\",\"Task 3\"),(\"overall\",\"Overall\")]:\n",
+    "    b = baseline_scores.get(key, 0)\n",
+    "    a = trained_scores.get(key, 0)\n",
+    "    d = a - b\n",
+    "    print(f'{label:<10} {b:>8.3f} {a:>8.3f} {d:>+8.3f}')\n",
+    "print('='*50)\n",
+    "print(f'Model: https://huggingface.co/{HF_REPO_ID}')"
+   ]
+  }
+ ]
+}