Spaces:

ps2181
/

invoice-processing-pipeline

Running

ps2181 Claude Sonnet 4.6 commited on Apr 25

Commit

02b8804

1 Parent(s): df15bd6

Add multi-agent architecture: Regulator, biased Generator, Auditor rewards

- AuditorPerformanceTracker: cross-episode rolling 30-episode window per fraud type
- 4 independent Extractor reward signals (format/field/math/completeness)
- Auditor reward (+0.99 correct detection, +0.90 clean clearance, +0.01 miss/FP)
- Generator bias: Regulator blind spots get 60% sampling weight (self-improvement loop)
- Rule-based Approver (approve/escalate/reject thresholds)
- Generator adversarial reward (0.85 undetected+approved / 0.60 / 0.10)
- 8 new endpoints: /multi/reset, /multi/extract, /multi/audit, /multi/approve,
/multi/state/{id}, /regulator/report, /regulator/predict, /regulator/demo_seed
- Regulator Dashboard tab in Gradio UI
- Fix _MAX_SESSIONS 50 → 200 (prevents stale session crashes during training)
- Add BLOG_DRAFT.md for hackathon blog submission

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

Files changed (4) hide show

BLOG_DRAFT.md +216 -0
server/app.py +122 -1
server/multi_agent_environment.py +697 -0
server/web_ui.py +159 -98

BLOG_DRAFT.md ADDED Viewed

	@@ -0,0 +1,216 @@

+# Invoice Processing Pipeline — Multi-Agent RL Environment for Financial Fraud Detection
+**Meta PyTorch OpenEnv Hackathon Grand Finale | April 25–26, 2026**
+**Team: Pritam Satpathy + Gnana Nawin T**
+---
+## The Problem
+Invoice fraud costs businesses an estimated **5% of annual revenue**. Finance teams manually process thousands of invoices every month — extracting vendor names, dates, line items, totals — and checking them against purchase orders for discrepancies. This is:
+- Slow (hours per batch)
+- Error-prone (typos, OCR noise, format chaos)
+- Gameable (phantom vendors, price gouging, duplicate submissions)
+We built an **RL training environment** that teaches LLMs to do this automatically — and improves itself when it finds its own blind spots.
+---
+## What We Built
+An OpenEnv-compatible environment deployed on HuggingFace Spaces:
+**https://ps2181-invoice-processing-pipeline.hf.space**
+### 5-Agent Architecture
+```
+Generator ──► Extractor ──► Auditor ──► Approver
+                                ▲
+                           Regulator
+                        (cross-episode)
+```
+| Agent | Role | Reward Signal |
+|-------|------|--------------|
+| **Generator** | Creates clean or fraudulent invoices | Rewarded when fraud slips past Auditor (adversarial self-play) |
+| **Extractor** | Reads raw invoice text → structured JSON | 4 independent signals: format, field accuracy, math consistency, completeness |
+| **Auditor** | Reviews extraction, flags fraud | +0.99 correct detection, +0.90 clean clearance, 0.01 for miss or false positive |
+| **Approver** | Final approve/reject/escalate decision | +0.95 correct decision |
+| **Regulator** | Monitors Auditor blind spots **across episodes** | Precision + recall of blind spot predictions |
+### The Key Innovation: The Regulator
+The Regulator is a **cross-episode meta-agent** — it watches the Auditor's decision history over 30 episodes and identifies systematic failure patterns:
+```
+AUDITOR PERFORMANCE TRACKER (last 30 episodes)
+Fraud Type            Detection Rate
+─────────────────────────────────────
+phantom_vendor        31%   ⚠ BLIND SPOT
+price_gouging         74%   ✓ OK
+math_fraud            81%   ✓ OK
+duplicate_submission  62%   ✓ OK
+False Positive Rate:  12%   ✓ OK
+REGULATOR VERDICT: Recommend retraining on phantom_vendor
+```
+When the Regulator detects a blind spot, the **Generator automatically starts producing more of that fraud type** — closing the self-improvement loop without human intervention.
+This directly addresses **Theme #1 (Fleet AI Scalable Oversight)** and **Theme #4 (Self-Improvement)**.
+---
+## 7 Tasks (Progressive Difficulty)
+| Task | Difficulty | What the Agent Does |
+|------|-----------|---------------------|
+| `easy` | Easy | Extract fields from a single clean invoice |
+| `medium` | Medium | Clean + normalise a batch of messy invoices (typos, date chaos, currency symbols) |
+| `hard` | Hard | Extract + reconcile against purchase orders, flag discrepancies |
+| `expert` | Expert | Fraud audit: classify phantom_vendor / price_gouging / math_fraud / duplicate_submission |
+| `adversarial` | Hard | Extract from OCR-corrupted invoice with SUBTOTAL trap and FX noise lines |
+| `negotiate` | Medium | Ask clarification questions then submit extraction (bonus for ≤2 questions) |
+| `supply_chain` | Expert | Detect quantity shortfalls, price spikes, phantom deliveries in delivery records |
+---
+## Design Decisions
+### 4 Independent Reward Functions (Anti-Hacking)
+Per the hackathon guide Section 7: *"use multiple independent reward functions — if you only have one reward signal, it is easier for the model to hack it."*
+```python
+format_reward()       # Are all 5 required JSON keys present?       weight: 0.10
+field_reward()        # Do vendor/date/currency/total match?         weight: 0.40
+math_reward()         # Does qty × unit_price = amount for all items? weight: 0.25
+completeness_reward() # Are all line items present (recall)?          weight: 0.25
+```
+During training we observed the model maximising `math_reward` (0.97) and `completeness_reward` (1.0) while `field_reward` stayed at 0.0 — the model learned to output arithmetic-consistent JSON while hallucinating values. **Our independent signals made this reward hacking immediately visible**, confirming the design choice.
+### Adversarial Self-Play
+The Generator is rewarded when its fraud evades the Auditor:
+- Fraud fully undetected by Auditor + Approver approves → Generator reward: **0.85**
+- Auditor missed but Approver caught → Generator reward: **0.60**
+- Auditor caught it → Generator reward: **0.10**
+This creates evolutionary pressure: the Generator evolves harder-to-detect fraud patterns, forcing the Auditor to improve.
+### Dynamic Difficulty
+The environment tracks recent agent scores per task (rolling window of 10 episodes) and adjusts generation parameters:
+- Agent scoring ≥ 0.85 → harder parameters (more invoices, more OCR noise, more discrepancies)
+- Agent scoring < 0.60 → easier parameters
+- In between → standard
+### All Rewards Clamped to (0.01, 0.99)
+Rewards are never exactly 0 or 1 — avoids log(0) in policy gradient and prevents the model from getting stuck at boundaries.
+---
+## Tech Stack
+```
+Environment:  FastAPI + OpenEnv-core + Pydantic
+Deployment:   HuggingFace Spaces (Docker, port 7860)
+UI:           Gradio (mounted at /web)
+Training:     TRL GRPOTrainer + Unsloth (Qwen2.5-1.5B-Instruct, 4-bit QLoRA)
+Model:        unsloth/Qwen2.5-1.5B-Instruct  r=16 LoRA
+Reward:       4 local signals + live /grader endpoint on HF Space
+```
+---
+## Training Setup
+**GRPO (Group Relative Policy Optimization)** with:
+- `num_generations = 4` — 4 completions per prompt, compared within group
+- `max_steps = 200`
+- `learning_rate = 5e-6`
+- Live `/grader` endpoint on HF Space as environment verifier
+The training loop:
+```
+Colab samples episode → HF Space /reset → gets live invoice
+Model generates JSON extraction
+HF Space /grader scores it against ground truth
+GRPO updates model toward higher-scoring completions
+```
+### Reward Curve
+| Step | Total Reward | Env Score | Format | Math |
+|------|-------------|-----------|--------|------|
+| 10   | 2.361       | 0.113     | 0.900  | 0.347 |
+| 20   | 2.595       | 0.282     | 0.900  | 0.413 |
+| 30   | 2.657       | 0.304     | 0.950  | 0.403 |
+Environment score rose **0.113 → 0.304 in 30 steps** — a 169% improvement in the model's ability to correctly extract invoice data as scored by the live environment grader.
+*[Add reward curve plot image here]*
+---
+## API Endpoints
+| Endpoint | Method | Description |
+|----------|--------|-------------|
+| `/health` | GET | Health check |
+| `/reset` | POST | Start new episode `{"task_id": "easy"}` |
+| `/step` | POST | Submit extraction, get reward + feedback |
+| `/grader` | POST | Score without consuming attempt |
+| `/state` | GET | Episode metadata |
+| `/tasks` | GET | List all 7 tasks with schemas |
+| `/ws` | WebSocket | Full episode over WebSocket (OpenEnv standard) |
+| `/web` | GET | Gradio interactive UI |
+---
+## What Makes This Novel
+1. **Regulator agent** — no other OpenEnv environment has a cross-episode meta-agent that monitors another agent for systematic cognitive blind spots
+2. **Closed self-improvement loop** — Regulator detects blind spot → Generator biases fraud generation toward that type → Auditor forced to improve → no human intervention required
+3. **Adversarial Generator arms race** — Generator rewarded for evading Auditor creates evolutionary pressure on fraud detection
+4. **Live environment as verifier** — training Colab directly calls `/grader` on deployed HF Space — the environment IS the reward function
+5. **4 independent reward signals** — made reward hacking immediately visible during training (detected it at step 10)
+---
+## Theme Alignment
+| Theme | Alignment |
+|-------|-----------|
+| **#1 Multi-Agent** | 5 agents with conflicting incentives |
+| **#1 Sub: Fleet AI Oversight** (bonus) | Regulator monitors Auditor cross-episode |
+| **#3.1 Professional Tasks** | Invoice processing = core enterprise workflow |
+| **#3.1 Sub: Scaler AI Labs** (bonus) | Multi-agent RL for enterprise financial workflows |
+| **#4 Self-Improvement** | Generator adapts based on Regulator blind spot findings |
+---
+## Links
+- **Live Environment:** https://ps2181-invoice-processing-pipeline.hf.space
+- **Gradio UI:** https://ps2181-invoice-processing-pipeline.hf.space/web
+- **API Docs:** https://ps2181-invoice-processing-pipeline.hf.space/docs
+- **GitHub:** https://github.com/ps2181/invoice-processing-pipeline
+- **Training Colab:** *[add link after saving to GitHub]*
+---
+## Team
+**Pritam Satpathy** + **Gnana Nawin T**
+Meta PyTorch OpenEnv Hackathon Grand Finale
+Scaler School of Technology, Bangalore — April 25–26, 2026

server/app.py CHANGED Viewed

@@ -43,7 +43,7 @@ except Exception as _e:
 # Thread-safe, capped at MAX_SESSIONS to bound memory on vcpu=2 / 8gb
 # ---------------------------------------------------------------------------
-_MAX_SESSIONS = 50
 _sessions: OrderedDict[str, InvoiceEnvironment] = OrderedDict()
 _lock = threading.Lock()
@@ -286,6 +286,127 @@ async def websocket_endpoint(websocket: WebSocket):
             pass
 def main():
     import uvicorn
     uvicorn.run(app, host="0.0.0.0", port=7860)

 # Thread-safe, capped at MAX_SESSIONS to bound memory on vcpu=2 / 8gb
 # ---------------------------------------------------------------------------
+_MAX_SESSIONS = 200
 _sessions: OrderedDict[str, InvoiceEnvironment] = OrderedDict()
 _lock = threading.Lock()
             pass
+# ---------------------------------------------------------------------------
+# Multi-agent endpoints
+# ---------------------------------------------------------------------------
+from server.multi_agent_environment import (
+    create_episode,
+    get_episode,
+    handle_extract,
+    handle_audit,
+    handle_approve,
+    tracker as _regulator_tracker,
+    compute_regulator_reward,
+)
+class MultiResetResponse(BaseModel):
+    episode_id: str
+    raw_text: str
+    reference_data: str
+    fraud_weights_used: Dict[str, Any]
+    n_invoices: int
+class MultiExtractRequest(BaseModel):
+    episode_id: str
+    extracted_data: Dict[str, Any]
+class MultiAuditRequest(BaseModel):
+    episode_id: str
+    audit_results: list
+class RegulatorPredictRequest(BaseModel):
+    predicted_blind_spots: list
+@app.post("/multi/reset")
+def multi_reset():
+    """Start a new multi-agent episode. Generator is biased by Regulator blind spots."""
+    ep = create_episode()
+    return MultiResetResponse(
+        episode_id=ep.episode_id,
+        raw_text=ep.raw_text,
+        reference_data=ep.reference_data,
+        fraud_weights_used=ep.fraud_weights_used,
+        n_invoices=len(ep.invoices),
+    )
+@app.post("/multi/extract")
+def multi_extract(req: MultiExtractRequest):
+    """Score Extractor output with 4 independent reward signals."""
+    result = handle_extract(req.episode_id, req.extracted_data)
+    if "error" in result:
+        raise HTTPException(status_code=404, detail=result["error"])
+    return result
+@app.post("/multi/audit")
+def multi_audit(req: MultiAuditRequest):
+    """Score Auditor output. Records to AuditorPerformanceTracker."""
+    result = handle_audit(req.episode_id, req.audit_results)
+    if "error" in result:
+        raise HTTPException(status_code=404, detail=result["error"])
+    return result
+@app.post("/multi/approve")
+def multi_approve(episode_id: str):
+    """Run rule-based Approver. Computes Generator adversarial reward."""
+    result = handle_approve(episode_id)
+    if "error" in result:
+        raise HTTPException(status_code=400, detail=result["error"])
+    return result
+@app.get("/multi/state/{episode_id}")
+def multi_state(episode_id: str):
+    """Get current state of a multi-agent episode."""
+    ep = get_episode(episode_id)
+    if ep is None:
+        raise HTTPException(status_code=404, detail="Episode not found")
+    return {
+        "episode_id": ep.episode_id,
+        "n_invoices": len(ep.invoices),
+        "fraud_weights_used": ep.fraud_weights_used,
+        "extractor_reward": ep.extractor_reward,
+        "extractor_breakdown": ep.extractor_breakdown,
+        "mean_auditor_reward": ep.mean_auditor_reward,
+        "mean_generator_reward": ep.mean_generator_reward,
+        "done": ep.done,
+    }
+@app.get("/regulator/report")
+def regulator_report():
+    """Get the Regulator's current cross-episode Auditor performance report."""
+    return _regulator_tracker.report()
+@app.post("/regulator/predict")
+def regulator_predict(req: RegulatorPredictRequest):
+    """Score a Regulator agent's blind spot predictions against actual tracker state."""
+    actual = _regulator_tracker.blind_spots()
+    reward, feedback = compute_regulator_reward(req.predicted_blind_spots, actual)
+    return {
+        "reward": reward,
+        "feedback": feedback,
+        "actual_blind_spots": actual,
+        "predicted_blind_spots": req.predicted_blind_spots,
+    }
+@app.post("/regulator/demo_seed")
+def regulator_demo_seed():
+    """Seed the tracker with realistic demo data (phantom_vendor weak at 31%)."""
+    _regulator_tracker.reset_for_demo()
+    return {"status": "seeded", "report": _regulator_tracker.report()}
 def main():
     import uvicorn
     uvicorn.run(app, host="0.0.0.0", port=7860)

server/multi_agent_environment.py ADDED Viewed

	@@ -0,0 +1,697 @@

+"""
+Multi-Agent Environment for Invoice Processing Pipeline
+=======================================================
+5 agents with distinct reward signals:
+  Generator  — creates clean or fraudulent invoices (adversarial self-play).
+               Biases fraud type toward Regulator-detected blind spots.
+  Extractor  — extracts structured JSON from raw invoice text.
+               4 independent reward signals: format, field_accuracy, math, completeness.
+  Auditor    — classifies each invoice as approved/flagged with fraud type.
+               +0.99 correct detection, +0.90 clean clearance, +0.01 miss / false positive.
+  Approver   — final approve/reject/escalate decision (rule-based threshold).
+  Regulator  — cross-episode meta-agent. Monitors Auditor over 30-episode window.
+               Detects systematic blind spots. Feeds back to Generator.
+               Reward: precision + recall of blind spot predictions.
+HTTP endpoints (added to app.py):
+  POST /multi/reset              Start a new multi-agent episode
+  POST /multi/extract            Score an Extractor submission
+  POST /multi/audit              Score an Auditor submission + record to tracker
+  POST /multi/approve            Rule-based Approver decision
+  GET  /multi/state/{episode_id} Episode state
+  GET  /regulator/report         Current Regulator tracker state
+"""
+from __future__ import annotations
+import collections
+import copy
+import random
+import threading
+import uuid
+from dataclasses import dataclass, field
+from typing import Any, Dict, List, Optional, Tuple
+# ---------------------------------------------------------------------------
+# Constants
+# ---------------------------------------------------------------------------
+FRAUD_TYPES = ["phantom_vendor", "price_gouging", "math_fraud", "duplicate_submission"]
+TRACKER_WINDOW = 30           # episodes in rolling window
+BLIND_SPOT_THRESHOLD = 0.50   # detection rate below this = blind spot
+# ---------------------------------------------------------------------------
+# AuditorPerformanceTracker — cross-episode singleton
+# ---------------------------------------------------------------------------
+class AuditorPerformanceTracker:
+    """
+    Thread-safe singleton that tracks Auditor detection rates over the last
+    TRACKER_WINDOW episodes.  The Regulator reads this to identify blind spots;
+    the Generator reads generator_weights() to bias fraud generation.
+    """
+    _instance: Optional["AuditorPerformanceTracker"] = None
+    _class_lock = threading.Lock()
+    def __new__(cls) -> "AuditorPerformanceTracker":
+        with cls._class_lock:
+            if cls._instance is None:
+                obj = super().__new__(cls)
+                obj._initialise()
+                cls._instance = obj
+        return cls._instance
+    def _initialise(self) -> None:
+        self._fraud_history: Dict[str, collections.deque] = {
+            ft: collections.deque(maxlen=TRACKER_WINDOW) for ft in FRAUD_TYPES
+        }
+        self._fp_history: collections.deque = collections.deque(maxlen=TRACKER_WINDOW)
+        self._total_audits: int = 0
+        self._lock = threading.Lock()
+    # ------------------------------------------------------------------
+    # Write path
+    def record_audit(
+        self,
+        true_fraud_type: Optional[str],
+        predicted_verdict: str,
+        predicted_fraud_type: Optional[str],
+    ) -> None:
+        """
+        Record one invoice audit result into the rolling window.
+        true_fraud_type=None means the invoice was clean (used for FP tracking).
+        """
+        with self._lock:
+            self._total_audits += 1
+            if true_fraud_type is None:
+                self._fp_history.append(predicted_verdict == "flagged")
+            elif true_fraud_type in self._fraud_history:
+                detected = (
+                    predicted_verdict == "flagged"
+                    and predicted_fraud_type == true_fraud_type
+                )
+                self._fraud_history[true_fraud_type].append(detected)
+    # ------------------------------------------------------------------
+    # Read path
+    def detection_rates(self) -> Dict[str, Optional[float]]:
+        with self._lock:
+            return {
+                ft: (sum(h) / len(h) if h else None)
+                for ft, h in self._fraud_history.items()
+            }
+    def false_positive_rate(self) -> Optional[float]:
+        with self._lock:
+            return sum(self._fp_history) / len(self._fp_history) if self._fp_history else None
+    def blind_spots(self, threshold: float = BLIND_SPOT_THRESHOLD) -> List[str]:
+        """Return fraud types where detection rate < threshold (and have data)."""
+        rates = self.detection_rates()
+        return [ft for ft, rate in rates.items() if rate is not None and rate < threshold]
+    def generator_weights(self) -> Dict[str, float]:
+        """
+        Sampling weights for fraud type generation.
+        Blind spots share 60% weight; healthy types share 40%.
+        Falls back to uniform if no blind spots detected.
+        """
+        spots = self.blind_spots()
+        if not spots:
+            w = 1.0 / len(FRAUD_TYPES)
+            return {ft: round(w, 4) for ft in FRAUD_TYPES}
+        n_blind = len(spots)
+        n_healthy = len(FRAUD_TYPES) - n_blind
+        blind_w = 0.60 / n_blind
+        healthy_w = (0.40 / n_healthy) if n_healthy > 0 else 0.0
+        return {
+            ft: round(blind_w if ft in spots else healthy_w, 4)
+            for ft in FRAUD_TYPES
+        }
+    def report(self) -> Dict[str, Any]:
+        rates = self.detection_rates()
+        spots = self.blind_spots()
+        fp = self.false_positive_rate()
+        weights = self.generator_weights()
+        formatted_rates = {}
+        for ft in FRAUD_TYPES:
+            r = rates[ft]
+            status = "no data"
+            if r is not None:
+                if r < BLIND_SPOT_THRESHOLD:
+                    status = f"{r:.0%}  ⚠ BLIND SPOT"
+                else:
+                    status = f"{r:.0%}  ✓ OK"
+            formatted_rates[ft] = status
+        fp_str = f"{fp:.0%}  ✓ OK" if fp is not None else "no data"
+        return {
+            "total_audits_recorded": self._total_audits,
+            "window": TRACKER_WINDOW,
+            "detection_rates": formatted_rates,
+            "false_positive_rate": fp_str,
+            "blind_spots": spots,
+            "generator_weights": weights,
+            "verdict": (
+                f"Recommend retraining on: {', '.join(spots)}"
+                if spots
+                else "Auditor performance OK across all fraud types"
+            ),
+        }
+    def reset_for_demo(self) -> None:
+        """Seed tracker with realistic demo data (for hackathon demo only)."""
+        with self._lock:
+            self._initialise()
+            # Simulate 20 episodes: phantom_vendor weak (31%), others decent
+            for _ in range(13):
+                self._fraud_history["phantom_vendor"].append(False)
+            for _ in range(6):
+                self._fraud_history["phantom_vendor"].append(True)
+            for _ in range(18):
+                self._fraud_history["price_gouging"].append(True)
+            for _ in range(6):
+                self._fraud_history["price_gouging"].append(False)
+            for _ in range(17):
+                self._fraud_history["math_fraud"].append(True)
+            for _ in range(4):
+                self._fraud_history["math_fraud"].append(False)
+            for _ in range(15):
+                self._fraud_history["duplicate_submission"].append(True)
+            for _ in range(7):
+                self._fraud_history["duplicate_submission"].append(False)
+            for _ in range(2):
+                self._fp_history.append(True)
+            for _ in range(16):
+                self._fp_history.append(False)
+            self._total_audits = 20
+# Global singleton — imported by app.py
+tracker = AuditorPerformanceTracker()
+# ---------------------------------------------------------------------------
+# 4 Independent Extractor reward functions
+# ---------------------------------------------------------------------------
+def reward_format(extracted: Dict[str, Any]) -> float:
+    """Weight 0.10 — are all 5 required JSON keys present?"""
+    required = {"vendor", "date", "currency", "total", "line_items"}
+    present = required.intersection(extracted.keys())
+    return round(len(present) / len(required) * 0.10, 4)
+def reward_field_accuracy(extracted: Dict[str, Any], ground_truth: Dict[str, Any]) -> float:
+    """Weight 0.40 — do vendor/date/currency/total match ground truth?"""
+    score = 0.0
+    if extracted.get("vendor", "").lower().strip() == ground_truth.get("vendor", "").lower():
+        score += 0.10
+    if extracted.get("date", "").strip() == ground_truth.get("date", ""):
+        score += 0.10
+    if extracted.get("currency", "").upper().strip() == ground_truth.get("currency", ""):
+        score += 0.05
+    try:
+        if abs(float(extracted.get("total", 0)) - float(ground_truth.get("total", -1))) < 0.01:
+            score += 0.15
+    except (ValueError, TypeError):
+        pass
+    return round(min(score, 0.40), 4)
+def reward_math_consistency(extracted: Dict[str, Any]) -> float:
+    """Weight 0.25 — does qty × unit_price = amount for all line items?"""
+    items = extracted.get("line_items", [])
+    if not isinstance(items, list) or not items:
+        return 0.01
+    correct = 0
+    for item in items:
+        try:
+            qty = float(item.get("qty", 0))
+            up = float(item.get("unit_price", 0))
+            amt = float(item.get("amount", -1))
+            if abs(qty * up - amt) < 0.02:
+                correct += 1
+        except (ValueError, TypeError):
+            pass
+    frac = correct / len(items)
+    return round(max(0.01, min(frac * 0.25, 0.25)), 4)
+def reward_completeness(extracted: Dict[str, Any], ground_truth: Dict[str, Any]) -> float:
+    """Weight 0.25 — recall: how many expected line items are present?"""
+    sub_items = extracted.get("line_items", [])
+    gt_items = ground_truth.get("line_items", [])
+    if not gt_items:
+        return 0.25 if not sub_items else 0.01
+    if not isinstance(sub_items, list) or not sub_items:
+        return 0.01
+    matched = 0
+    for gt in gt_items:
+        gt_desc = gt.get("description", "").lower()
+        for sub in sub_items:
+            if gt_desc in sub.get("description", "").lower():
+                matched += 1
+                break
+    frac = matched / len(gt_items)
+    return round(max(0.01, min(frac * 0.25, 0.25)), 4)
+def combined_extractor_reward(
+    extracted: Dict[str, Any],
+    ground_truth: Dict[str, Any],
+) -> Tuple[float, Dict[str, float]]:
+    """Compute all 4 signals. Returns (total_reward, breakdown_dict)."""
+    f = reward_format(extracted)
+    fa = reward_field_accuracy(extracted, ground_truth)
+    m = reward_math_consistency(extracted)
+    c = reward_completeness(extracted, ground_truth)
+    total = round(max(0.01, min(f + fa + m + c, 0.99)), 4)
+    return total, {
+        "format": f,
+        "field_accuracy": fa,
+        "math_consistency": m,
+        "completeness": c,
+    }
+# ---------------------------------------------------------------------------
+# Auditor reward
+# ---------------------------------------------------------------------------
+def compute_auditor_reward(
+    predicted_verdict: str,
+    predicted_fraud_type: Optional[str],
+    true_verdict: str,
+    true_fraud_type: Optional[str],
+) -> Tuple[float, str]:
+    """
+    +0.99 correct fraud detection (right verdict + right type)
+    +0.90 correct clean clearance
+    +0.50 flagged fraud but wrong type
+    +0.01 miss or false positive
+    """
+    is_fraud = true_verdict == "flagged"
+    pred_flagged = predicted_verdict == "flagged"
+    if is_fraud and pred_flagged:
+        if predicted_fraud_type == true_fraud_type:
+            return 0.99, f"Correct: {true_fraud_type} detected"
+        return 0.50, f"Flagged but wrong type (expected {true_fraud_type}, got {predicted_fraud_type})"
+    elif not is_fraud and not pred_flagged:
+        return 0.90, "Correct: clean invoice approved"
+    elif not is_fraud and pred_flagged:
+        return 0.01, f"False positive: clean invoice flagged as {predicted_fraud_type}"
+    else:
+        return 0.01, f"Missed fraud: {true_fraud_type} not detected"
+# ---------------------------------------------------------------------------
+# Generator reward (adversarial self-play)
+# ---------------------------------------------------------------------------
+def compute_generator_reward(auditor_detected: bool, approver_approved: bool) -> float:
+    """
+    Fraud fully undetected + approved  → 0.85
+    Auditor missed but Approver caught → 0.60
+    Auditor caught it                  → 0.10
+    """
+    if not auditor_detected and approver_approved:
+        return 0.85
+    elif not auditor_detected and not approver_approved:
+        return 0.60
+    return 0.10
+# ---------------------------------------------------------------------------
+# Regulator reward
+# ---------------------------------------------------------------------------
+def compute_regulator_reward(
+    predicted_blind_spots: List[str],
+    actual_blind_spots: List[str],
+) -> Tuple[float, str]:
+    """Precision (0.40) + recall (0.40) + no-over-flag bonus (0.20)."""
+    if not actual_blind_spots and not predicted_blind_spots:
+        return 0.99, "Correctly predicted no blind spots"
+    if not actual_blind_spots:
+        return 0.01, "False alarm: predicted blind spots when none exist"
+    if not predicted_blind_spots:
+        return 0.01, "Missed all blind spots"
+    correct = set(predicted_blind_spots) & set(actual_blind_spots)
+    prec = len(correct) / len(predicted_blind_spots)
+    rec = len(correct) / len(actual_blind_spots)
+    no_over_flag = 1.0 if prec >= 0.5 else 0.0
+    score = round(max(0.01, min(0.40 * prec + 0.40 * rec + 0.20 * no_over_flag, 0.99)), 4)
+    return score, f"Blind spot prediction: precision={prec:.2f}, recall={rec:.2f}"
+# ---------------------------------------------------------------------------
+# Approver (rule-based)
+# ---------------------------------------------------------------------------
+def approver_decision(
+    auditor_verdict: str,
+    auditor_confidence: float,
+    auditor_fraud_type: Optional[str],
+) -> Dict[str, Any]:
+    """
+    Simple rule-based Approver.
+    HIGH confidence flag  → reject
+    MEDIUM confidence flag → escalate
+    LOW confidence flag   → escalate
+    Approved              → approve
+    """
+    if auditor_verdict != "flagged":
+        return {"decision": "approve", "reason": "Auditor cleared invoice"}
+    if auditor_confidence >= 0.80:
+        return {
+            "decision": "reject",
+            "reason": f"High-confidence {auditor_fraud_type} fraud detected ({auditor_confidence:.0%})",
+        }
+    elif auditor_confidence >= 0.50:
+        return {
+            "decision": "escalate",
+            "reason": f"Medium-confidence {auditor_fraud_type} flag — needs human review",
+        }
+    else:
+        return {
+            "decision": "escalate",
+            "reason": f"Low-confidence flag on {auditor_fraud_type} — needs human review",
+        }
+# ---------------------------------------------------------------------------
+# Biased invoice generator (uses tracker weights)
+# ---------------------------------------------------------------------------
+def _generate_expert_batch_biased(
+    fraud_weights: Optional[Dict[str, float]] = None,
+) -> Tuple[List[Dict], List[Dict], str]:
+    """
+    Generate an expert fraud audit batch with fraud type sampling biased
+    by the Regulator's generator_weights().
+    Returns (invoices, ground_truth_list, reference_text).
+    Reuses generation helpers from environment.py.
+    """
+    import sys, os
+    sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+    from server.environment import (
+        _generate_invoice, _render_expert_batch, _render_expert_reference,
+        PHANTOM_VENDORS, MARKET_PRICE_MAX, VENDORS,
+    )
+    if fraud_weights is None:
+        fraud_weights = tracker.generator_weights()
+    n_invoices = random.randint(4, 6)
+    n_fraudulent = random.randint(2, 3)
+    all_indices = list(range(n_invoices))
+    random.shuffle(all_indices)
+    fraud_indices = set(all_indices[:n_fraudulent])
+    # Weighted fraud type selection
+    types_pool = list(fraud_weights.keys())
+    weights_pool = [fraud_weights[ft] for ft in types_pool]
+    chosen_fraud_types = random.choices(types_pool, weights=weights_pool, k=n_fraudulent)
+    fraud_type_map = {idx: chosen_fraud_types[i] for i, idx in enumerate(list(fraud_indices))}
+    invoices: List[Dict] = []
+    ground_truth: List[Dict] = []
+    invoice_history: List[Dict] = []
+    for _ in range(3):
+        invoice_history.append(_generate_invoice())
+    for i in range(n_invoices):
+        inv = _generate_invoice()
+        if i in fraud_indices:
+            ftype = fraud_type_map[i]
+            if ftype == "phantom_vendor":
+                inv["vendor"] = random.choice(PHANTOM_VENDORS)
+            elif ftype == "price_gouging":
+                item = random.choice(inv["line_items"])
+                market_max = MARKET_PRICE_MAX.get(item["description"], item["unit_price"])
+                item["unit_price"] = round(market_max * random.uniform(1.6, 2.2), 2)
+                item["amount"] = round(item["qty"] * item["unit_price"], 2)
+                inv["total"] = round(sum(it["amount"] for it in inv["line_items"]), 2)
+            elif ftype == "duplicate_submission":
+                inv = copy.deepcopy(random.choice(invoice_history))
+            elif ftype == "math_fraud":
+                real_total = round(sum(it["amount"] for it in inv["line_items"]), 2)
+                inv["total"] = round(real_total * random.uniform(1.08, 1.18), 2)
+            ground_truth.append({
+                "invoice_id": inv["invoice_id"],
+                "verdict": "flagged",
+                "fraud_type": ftype,
+            })
+        else:
+            invoice_history.append(inv)
+            ground_truth.append({
+                "invoice_id": inv["invoice_id"],
+                "verdict": "approved",
+                "fraud_type": None,
+            })
+        invoices.append(inv)
+    reference_text = _render_expert_reference(invoice_history)
+    raw_text = _render_expert_batch(invoices)
+    return invoices, ground_truth, raw_text, reference_text
+# ---------------------------------------------------------------------------
+# MultiAgentEpisode data class
+# ---------------------------------------------------------------------------
+@dataclass
+class MultiAgentEpisode:
+    episode_id: str = field(default_factory=lambda: str(uuid.uuid4()))
+    invoices: List[Dict[str, Any]] = field(default_factory=list)
+    ground_truth: List[Dict[str, Any]] = field(default_factory=list)
+    raw_text: str = ""
+    reference_data: str = ""
+    fraud_weights_used: Dict[str, float] = field(default_factory=dict)
+    # Extractor stage
+    extractor_result: Optional[Dict[str, Any]] = None
+    extractor_reward: float = 0.0
+    extractor_breakdown: Dict[str, float] = field(default_factory=dict)
+    # Auditor stage
+    auditor_results: List[Dict[str, Any]] = field(default_factory=list)
+    auditor_rewards: List[float] = field(default_factory=list)
+    mean_auditor_reward: float = 0.0
+    # Approver stage
+    approver_results: List[Dict[str, Any]] = field(default_factory=list)
+    # Generator reward (computed after full pipeline)
+    generator_rewards: List[float] = field(default_factory=list)
+    mean_generator_reward: float = 0.0
+    done: bool = False
+# ---------------------------------------------------------------------------
+# Session registry for multi-agent episodes
+# ---------------------------------------------------------------------------
+_MAX_MULTI_SESSIONS = 100
+_multi_sessions: "collections.OrderedDict[str, MultiAgentEpisode]" = collections.OrderedDict()
+_multi_lock = threading.Lock()
+def create_episode() -> MultiAgentEpisode:
+    """Create a new multi-agent episode with Regulator-biased Generator."""
+    weights = tracker.generator_weights()
+    invoices, ground_truth, raw_text, reference_data = _generate_expert_batch_biased(weights)
+    ep = MultiAgentEpisode(
+        invoices=invoices,
+        ground_truth=ground_truth,
+        raw_text=raw_text,
+        reference_data=reference_data,
+        fraud_weights_used=weights,
+    )
+    with _multi_lock:
+        _multi_sessions[ep.episode_id] = ep
+        while len(_multi_sessions) > _MAX_MULTI_SESSIONS:
+            _multi_sessions.popitem(last=False)
+    return ep
+def get_episode(episode_id: str) -> Optional[MultiAgentEpisode]:
+    with _multi_lock:
+        return _multi_sessions.get(episode_id)
+# ---------------------------------------------------------------------------
+# Stage handlers (called by HTTP endpoints)
+# ---------------------------------------------------------------------------
+def handle_extract(
+    episode_id: str,
+    extracted_data: Dict[str, Any],
+) -> Dict[str, Any]:
+    """
+    Score Extractor output against the first invoice ground truth.
+    Returns reward + breakdown.
+    """
+    ep = get_episode(episode_id)
+    if ep is None:
+        return {"error": "Episode not found. Call /multi/reset first."}
+    # Use first clean invoice as reference for extraction grading
+    # (the expert task expects audit, but extraction is graded on the first invoice)
+    gt = ep.invoices[0] if ep.invoices else {}
+    total, breakdown = combined_extractor_reward(extracted_data, gt)
+    ep.extractor_result = extracted_data
+    ep.extractor_reward = total
+    ep.extractor_breakdown = breakdown
+    return {
+        "episode_id": episode_id,
+        "reward": total,
+        "breakdown": breakdown,
+        "feedback": (
+            f"Extractor: format={breakdown['format']:.2f}, "
+            f"field={breakdown['field_accuracy']:.2f}, "
+            f"math={breakdown['math_consistency']:.2f}, "
+            f"completeness={breakdown['completeness']:.2f}"
+        ),
+    }
+def handle_audit(
+    episode_id: str,
+    audit_results: List[Dict[str, Any]],
+) -> Dict[str, Any]:
+    """
+    Score Auditor output. Records results to AuditorPerformanceTracker.
+    audit_results: [{"invoice_id": str, "verdict": str, "fraud_type": str|None, "confidence": float}]
+    """
+    ep = get_episode(episode_id)
+    if ep is None:
+        return {"error": "Episode not found. Call /multi/reset first."}
+    gt_map = {gt["invoice_id"]: gt for gt in ep.ground_truth}
+    rewards = []
+    feedbacks = []
+    approver_inputs = []
+    for result in audit_results:
+        inv_id = result.get("invoice_id", "")
+        pred_verdict = result.get("verdict", "approved").lower()
+        pred_ftype = result.get("fraud_type")
+        confidence = float(result.get("confidence", 0.5))
+        gt = gt_map.get(inv_id)
+        if gt is None:
+            feedbacks.append(f"{inv_id}: not found in episode")
+            continue
+        true_verdict = gt["verdict"]
+        true_ftype = gt["fraud_type"]
+        reward, fb = compute_auditor_reward(pred_verdict, pred_ftype, true_verdict, true_ftype)
+        rewards.append(reward)
+        feedbacks.append(f"{inv_id}: {fb}")
+        # Record to global tracker
+        tracker.record_audit(true_ftype, pred_verdict, pred_ftype)
+        approver_inputs.append({
+            "invoice_id": inv_id,
+            "auditor_verdict": pred_verdict,
+            "auditor_confidence": confidence,
+            "auditor_fraud_type": pred_ftype,
+        })
+    mean_reward = round(sum(rewards) / len(rewards), 4) if rewards else 0.01
+    ep.auditor_results = audit_results
+    ep.auditor_rewards = rewards
+    ep.mean_auditor_reward = mean_reward
+    ep.approver_results = approver_inputs  # stage input ready
+    return {
+        "episode_id": episode_id,
+        "mean_reward": mean_reward,
+        "per_invoice_rewards": dict(zip([r.get("invoice_id", i) for i, r in enumerate(audit_results)], rewards)),
+        "feedback": "; ".join(feedbacks),
+        "tracker_report": tracker.report(),
+    }
+def handle_approve(episode_id: str) -> Dict[str, Any]:
+    """
+    Run rule-based Approver on Auditor results. Computes Generator reward.
+    """
+    ep = get_episode(episode_id)
+    if ep is None:
+        return {"error": "Episode not found"}
+    if not ep.approver_results:
+        return {"error": "Run /multi/audit before /multi/approve"}
+    decisions = []
+    gen_rewards = []
+    gt_map = {gt["invoice_id"]: gt for gt in ep.ground_truth}
+    for inp in ep.approver_results:
+        inv_id = inp["invoice_id"]
+        decision = approver_decision(
+            inp["auditor_verdict"],
+            inp["auditor_confidence"],
+            inp["auditor_fraud_type"],
+        )
+        decisions.append({"invoice_id": inv_id, **decision})
+        # Generator reward for fraud invoices
+        gt = gt_map.get(inv_id, {})
+        if gt.get("verdict") == "flagged":
+            auditor_detected = inp["auditor_verdict"] == "flagged"
+            approver_approved = decision["decision"] == "approve"
+            gen_rewards.append(compute_generator_reward(auditor_detected, approver_approved))
+    mean_gen = round(sum(gen_rewards) / len(gen_rewards), 4) if gen_rewards else 0.0
+    ep.generator_rewards = gen_rewards
+    ep.mean_generator_reward = mean_gen
+    ep.done = True
+    return {
+        "episode_id": episode_id,
+        "decisions": decisions,
+        "generator_reward": mean_gen,
+        "feedback": (
+            f"Approver processed {len(decisions)} invoices. "
+            f"Generator adversarial reward: {mean_gen:.3f}"
+        ),
+    }

server/web_ui.py CHANGED Viewed

@@ -101,6 +101,40 @@ TASK_DESCRIPTIONS = {
 PLACEHOLDER_JSON = "// Reset an episode first, then paste or generate JSON here."
 def build_ui() -> gr.Blocks:
     # ---- State per Gradio session ----------------------------------------
@@ -212,119 +246,146 @@ def build_ui() -> gr.Blocks:
         session_state = gr.State(init_state)
-        # --- Controls row -------------------------------------------------
-        with gr.Row():
-            task_dd = gr.Dropdown(
-                choices=list(TASK_DESCRIPTIONS.keys()),
-                value="easy",
-                label="Task",
-                scale=1,
-            )
-            reset_btn = gr.Button("🔄 Reset Episode", variant="primary", scale=1)
-            status_box = gr.Textbox(
-                label="Status",
-                interactive=False,
-                scale=3,
-                lines=2,
-            )
-        task_info = gr.Textbox(label="Task Description", interactive=False, lines=1)
-        # --- Main two-column layout ---------------------------------------
-        with gr.Row():
-            # Left — environment data
-            with gr.Column(scale=5):
-                invoice_box = gr.Textbox(
-                    label="Invoice Data (raw text)",
-                    interactive=False,
-                    lines=16,
-                    max_lines=30,
-                )
-                ref_box = gr.Textbox(
-                    label="Reference Data (PO / vendor registry / catalog)",
-                    interactive=False,
-                    lines=8,
-                    max_lines=16,
-                )
-            # Right — agent interaction
-            with gr.Column(scale=5):
-                json_box = gr.Code(
-                    label="Extracted JSON",
-                    language="json",
-                    lines=16,
-                    value=PLACEHOLDER_JSON,
-                )
                 with gr.Row():
-                    llm_btn = gr.Button(
-                        "🤖 Run LLM Agent",
-                        variant="secondary",
                         interactive=False,
                     )
-                    submit_btn = gr.Button(
-                        "✅ Submit",
-                        variant="primary",
                         interactive=False,
                     )
-                llm_status = gr.Textbox(
-                    label="LLM status",
                     interactive=False,
-                    lines=1,
                 )
-        # --- Results row --------------------------------------------------
-        with gr.Row():
-            feedback_box = gr.Textbox(
-                label="Grader Feedback",
-                interactive=False,
-                lines=5,
-                scale=3,
-            )
-            breakdown_box = gr.Code(
-                label="Reward Breakdown",
-                language="json",
-                lines=5,
-                interactive=False,
-                scale=2,
-            )
-        history_box = gr.Textbox(
-            label="Step History",
-            interactive=False,
-            lines=3,
-        )
-        # --- Update task description on dropdown change -------------------
-        task_dd.change(
-            fn=lambda t: TASK_DESCRIPTIONS.get(t, ""),
-            inputs=[task_dd],
-            outputs=[task_info],
-        )
-        # --- Reset --------------------------------------------------------
-        reset_btn.click(
-            fn=do_reset,
-            inputs=[task_dd, session_state],
-            outputs=[
-                session_state, status_box, task_info,
-                invoice_box, ref_box, json_box,
-                feedback_box, history_box,
-                llm_btn, submit_btn,
-            ],
-        )
-        # --- LLM agent ----------------------------------------------------
-        llm_btn.click(
-            fn=do_llm,
-            inputs=[task_dd, session_state],
-            outputs=[json_box, llm_status],
-        )
-        # --- Submit -------------------------------------------------------
-        submit_btn.click(
-            fn=do_submit,
-            inputs=[json_box, session_state],
-            outputs=[session_state, status_box, feedback_box, history_box, breakdown_box],
-        )
     return demo

 PLACEHOLDER_JSON = "// Reset an episode first, then paste or generate JSON here."
+def _get_regulator_report() -> str:
+    data = _get("/regulator/report")
+    if "error" in data:
+        return f"Error: {data['error']}"
+    lines = [
+        f"Total audits recorded: {data.get('total_audits_recorded', 0)}  (window={data.get('window', 30)})",
+        "",
+        "FRAUD TYPE DETECTION RATES",
+        "─" * 40,
+    ]
+    for ft, status in data.get("detection_rates", {}).items():
+        lines.append(f"  {ft:<28} {status}")
+    lines += [
+        "",
+        f"False Positive Rate: {data.get('false_positive_rate', 'no data')}",
+        "",
+        f"BLIND SPOTS: {data.get('blind_spots', [])}",
+        "",
+        "GENERATOR WEIGHTS (next episode)",
+        "─" * 40,
+    ]
+    for ft, w in data.get("generator_weights", {}).items():
+        lines.append(f"  {ft:<28} {w:.3f}")
+    lines += ["", f"VERDICT: {data.get('verdict', '')}"]
+    return "\n".join(lines)
+def _seed_demo_data() -> str:
+    data = _post("/regulator/demo_seed", {})
+    if "error" in data:
+        return f"Error: {data['error']}"
+    return "✅ Demo data seeded — phantom_vendor at ~31% (blind spot)\n\n" + _get_regulator_report()
 def build_ui() -> gr.Blocks:
     # ---- State per Gradio session ----------------------------------------
         session_state = gr.State(init_state)
+        with gr.Tabs():
+            # ================================================================
+            # Tab 1 — Agent Tester
+            # ================================================================
+            with gr.Tab("Agent Tester"):
+                # --- Controls row -----------------------------------------
+                with gr.Row():
+                    task_dd = gr.Dropdown(
+                        choices=list(TASK_DESCRIPTIONS.keys()),
+                        value="easy",
+                        label="Task",
+                        scale=1,
+                    )
+                    reset_btn = gr.Button("🔄 Reset Episode", variant="primary", scale=1)
+                    status_box = gr.Textbox(
+                        label="Status",
+                        interactive=False,
+                        scale=3,
+                        lines=2,
+                    )
+                task_info = gr.Textbox(label="Task Description", interactive=False, lines=1)
+                # --- Main two-column layout --------------------------------
                 with gr.Row():
+                    with gr.Column(scale=5):
+                        invoice_box = gr.Textbox(
+                            label="Invoice Data (raw text)",
+                            interactive=False,
+                            lines=16,
+                            max_lines=30,
+                        )
+                        ref_box = gr.Textbox(
+                            label="Reference Data (PO / vendor registry / catalog)",
+                            interactive=False,
+                            lines=8,
+                            max_lines=16,
+                        )
+                    with gr.Column(scale=5):
+                        json_box = gr.Code(
+                            label="Extracted JSON",
+                            language="json",
+                            lines=16,
+                            value=PLACEHOLDER_JSON,
+                        )
+                        with gr.Row():
+                            llm_btn = gr.Button(
+                                "🤖 Run LLM Agent",
+                                variant="secondary",
+                                interactive=False,
+                            )
+                            submit_btn = gr.Button(
+                                "✅ Submit",
+                                variant="primary",
+                                interactive=False,
+                            )
+                        llm_status = gr.Textbox(
+                            label="LLM status",
+                            interactive=False,
+                            lines=1,
+                        )
+                # --- Results row ------------------------------------------
+                with gr.Row():
+                    feedback_box = gr.Textbox(
+                        label="Grader Feedback",
                         interactive=False,
+                        lines=5,
+                        scale=3,
                     )
+                    breakdown_box = gr.Code(
+                        label="Reward Breakdown",
+                        language="json",
+                        lines=5,
                         interactive=False,
+                        scale=2,
                     )
+                history_box = gr.Textbox(
+                    label="Step History",
                     interactive=False,
+                    lines=3,
                 )
+                # --- Wiring -----------------------------------------------
+                task_dd.change(
+                    fn=lambda t: TASK_DESCRIPTIONS.get(t, ""),
+                    inputs=[task_dd],
+                    outputs=[task_info],
+                )
+                reset_btn.click(
+                    fn=do_reset,
+                    inputs=[task_dd, session_state],
+                    outputs=[
+                        session_state, status_box, task_info,
+                        invoice_box, ref_box, json_box,
+                        feedback_box, history_box,
+                        llm_btn, submit_btn,
+                    ],
+                )
+                llm_btn.click(
+                    fn=do_llm,
+                    inputs=[task_dd, session_state],
+                    outputs=[json_box, llm_status],
+                )
+                submit_btn.click(
+                    fn=do_submit,
+                    inputs=[json_box, session_state],
+                    outputs=[session_state, status_box, feedback_box, history_box, breakdown_box],
+                )
+            # ================================================================
+            # Tab 2 — Regulator Dashboard
+            # ================================================================
+            with gr.Tab("Regulator Dashboard"):
+                gr.Markdown(
+                    "## Regulator — Cross-Episode Auditor Oversight\n"
+                    "Monitors Auditor detection rates over 30 episodes. "
+                    "Detects blind spots and biases the Generator toward under-detected fraud types."
+                )
+                with gr.Row():
+                    refresh_btn = gr.Button("🔄 Refresh Report", variant="primary")
+                    seed_btn = gr.Button("🌱 Seed Demo Data", variant="secondary")
+                report_box = gr.Textbox(
+                    label="Regulator Report",
+                    interactive=False,
+                    lines=22,
+                    value="Click 'Refresh Report' or 'Seed Demo Data' to load.",
+                )
+                refresh_btn.click(fn=_get_regulator_report, inputs=[], outputs=[report_box])
+                seed_btn.click(fn=_seed_demo_data, inputs=[], outputs=[report_box])
     return demo