File size: 22,207 Bytes

4702dbb

"""
tasks.py -- AuditRepairEnv++ Core Environment
==============================================
Deterministic ledger repair environment with hidden dependency propagation.
Three difficulty tiers: easy (independent), medium (visible deps), hard (hidden 2-level cascading deps).

Safety guarantees:
  - Budget never goes negative
  - Out-of-range IDs return errors, never crash
  - step() always returns a valid observation
  - Scores strictly in [0.0, 1.0]
"""

import re
from typing import Any, Dict, List, Optional

from pydantic import BaseModel, Field


# ────────────────────────────────────────
# PYDANTIC MODELS
# ────────────────────────────────────────

class LedgerEntry(BaseModel):
    """Single ledger row."""
    id: int
    value: int
    expected_value: int
    dependencies: List[int] = Field(default_factory=list)


class AuditAction(BaseModel):
    """Parsed action from agent message."""
    action_type: str = Field(
        ..., description="FIX_ENTRY | ADJUST_ENTRY | REVERT_ENTRY | NO_OP"
    )
    target_id: Optional[int] = Field(
        default=None, description="Ledger entry ID to act on"
    )
    adjust_delta: Optional[int] = Field(
        default=None, description="+/- delta for ADJUST_ENTRY"
    )


class AuditObservation(BaseModel):
    """Full observation returned to agent -- OpenEnv compliant."""
    task_id: str
    task_description: str
    step: int
    max_steps: int
    ledger: List[LedgerEntry]
    errors: List[Dict[str, Any]]
    remaining_budget: int
    initial_budget: int
    done: bool = False
    echoed_message: str = ""
    last_action_result: Optional[str] = None
    last_action_error: Optional[str] = None
    context: Dict[str, Any] = Field(default_factory=dict)


# ────────────────────────────────────────
# ACTION TEXT PARSER
# ────────────────────────────────────────

def parse_action_message(message: str) -> AuditAction:
    """
    Parse free-form text into an AuditAction.
    Accepted formats:
        FIX_ENTRY <id>
        ADJUST_ENTRY <id> <delta>
        REVERT_ENTRY <id>
        NO_OP
    Also handles 'ACTION:' prefix lines and regex fallback.
    """
    text = message.strip()

    # Extract ACTION: line if present
    for line in text.split("\n"):
        stripped = line.strip()
        if stripped.upper().startswith("ACTION:"):
            text = stripped[7:].strip()
            break

    parts = text.split()
    if not parts:
        return AuditAction(action_type="NO_OP")

    action_type = parts[0].upper().replace("-", "_")

    if action_type == "NO_OP":
        return AuditAction(action_type="NO_OP")

    if action_type == "FIX_ENTRY" and len(parts) >= 2:
        try:
            return AuditAction(action_type="FIX_ENTRY", target_id=int(parts[1]))
        except ValueError:
            pass

    if action_type == "ADJUST_ENTRY" and len(parts) >= 3:
        try:
            return AuditAction(
                action_type="ADJUST_ENTRY",
                target_id=int(parts[1]),
                adjust_delta=int(parts[2].replace("+", "")),
            )
        except ValueError:
            pass

    if action_type == "REVERT_ENTRY" and len(parts) >= 2:
        try:
            return AuditAction(action_type="REVERT_ENTRY", target_id=int(parts[1]))
        except ValueError:
            pass

    # Regex fallback for messy LLM output
    m = re.search(r"FIX_ENTRY\s+(\d+)", text, re.IGNORECASE)
    if m:
        return AuditAction(action_type="FIX_ENTRY", target_id=int(m.group(1)))

    m = re.search(r"ADJUST_ENTRY\s+(\d+)\s+([+-]?\d+)", text, re.IGNORECASE)
    if m:
        return AuditAction(
            action_type="ADJUST_ENTRY",
            target_id=int(m.group(1)),
            adjust_delta=int(m.group(2)),
        )

    m = re.search(r"REVERT_ENTRY\s+(\d+)", text, re.IGNORECASE)
    if m:
        return AuditAction(action_type="REVERT_ENTRY", target_id=int(m.group(1)))

    return AuditAction(action_type="NO_OP")


# ────────────────────────────────────────
# ENVIRONMENT
# ────────────────────────────────────────

class LedgerEnvironment:
    """
    Core environment with safety guarantees:
      - Budget never goes negative (checked before deduction)
      - Invalid IDs return error messages, never raise
      - All step results include a valid observation
      - Final score always in [0.0, 1.0]
    """

    def __init__(
        self,
        entries: List[Dict[str, Any]],
        budget: int,
        max_steps: int,
        task_id: str,
        task_description: str,
        action_cost: int = 1,
        hidden_deps: bool = False,
    ):
        self.initial_entries = [LedgerEntry(**e) for e in entries]
        self.ledger = [LedgerEntry(**e) for e in entries]
        self.initial_budget = budget
        self.remaining_budget = budget
        self.max_steps = max_steps
        self.task_id = task_id
        self.task_description = task_description
        self.action_cost = action_cost
        self.hidden_deps = hidden_deps
        self.step = 0
        self.done = False
        self.history: List[Dict[str, Any]] = []
        self.undo_stack: Dict[int, List[int]] = {}
        self.overcorrection_count = 0
        self._valid_ids = {e.id for e in self.ledger}
        self.optimal_steps = self._compute_optimal_steps()

    # ── HELPERS ──

    def _get_entry(self, entry_id: int) -> Optional[LedgerEntry]:
        for e in self.ledger:
            if e.id == entry_id:
                return e
        return None

    def _compute_optimal_steps(self) -> int:
        """Minimum FIX actions to solve all errors (ignoring propagation)."""
        return max(sum(1 for e in self.initial_entries if e.value != e.expected_value), 1)

    def _propagate_dependencies(self, entry_id: int) -> None:
        """
        When entry is fixed, update expected_value of ALL direct dependents.
        Propagation rule: dep.expected_value = entry.value + dep.id
        This creates cascading chains: A->B->C when B is also fixed later.
        """
        entry = self._get_entry(entry_id)
        if entry is None:
            return
        for dep_id in entry.dependencies:
            dep = self._get_entry(dep_id)
            if dep is not None:
                dep.expected_value = entry.value + dep.id

    def get_errors(self) -> List[Dict[str, Any]]:
        """List of entries where value != expected_value."""
        errors = []
        for e in self.ledger:
            if e.value != e.expected_value:
                err: Dict[str, Any] = {
                    "entry_id": e.id,
                    "current_value": e.value,
                    "expected_value": e.expected_value,
                    "delta": e.value - e.expected_value,
                }
                if not self.hidden_deps:
                    err["dependencies"] = e.dependencies
                errors.append(err)
        return errors

    def get_observation(self, echoed_message: str = "") -> AuditObservation:
        """Build current observation."""
        ledger_out = []
        for e in self.ledger:
            d = e.model_dump()
            if self.hidden_deps:
                d["dependencies"] = []
            ledger_out.append(LedgerEntry(**d))

        return AuditObservation(
            task_id=self.task_id,
            task_description=self.task_description,
            step=self.step,
            max_steps=self.max_steps,
            ledger=ledger_out,
            errors=self.get_errors(),
            remaining_budget=self.remaining_budget,
            initial_budget=self.initial_budget,
            done=self.done,
            echoed_message=echoed_message,
            last_action_result=None,
            last_action_error=None,
            context={
                "action_types": ["FIX_ENTRY", "ADJUST_ENTRY", "REVERT_ENTRY", "NO_OP"],
                "action_cost": self.action_cost,
                "hidden_dependencies": self.hidden_deps,
            },
        )

    # ── MAIN STEP ──

    def step_with_message(self, message: str) -> Dict[str, Any]:
        """
        Process agent text message as one environment step.
        ALL safety checks applied:
          - Budget checked BEFORE deduction
          - Invalid IDs rejected gracefully
          - Episode-done handled properly
        Returns dict with: observation, reward, done, result, error
        """
        if self.done:
            obs = self.get_observation(echoed_message=message)
            return {
                "observation": obs,
                "reward": 0.0,
                "done": True,
                "result": "Episode already finished.",
                "error": None,
            }

        action = parse_action_message(message)
        self.step += 1
        reward = 0.0
        info_msg = ""
        error = None

        # ── NO_OP ──
        if action.action_type == "NO_OP":
            info_msg = "No operation performed."

        # ── FIX_ENTRY ──
        elif action.action_type == "FIX_ENTRY":
            if action.target_id is None:
                error = "FIX_ENTRY requires a target_id."
                info_msg = error
            elif action.target_id not in self._valid_ids:
                error = f"Entry {action.target_id} does not exist. Valid IDs: {sorted(self._valid_ids)}"
                info_msg = error
            elif self.remaining_budget < self.action_cost:
                error = "Insufficient budget for this action."
                info_msg = error
            else:
                entry = self._get_entry(action.target_id)
                assert entry is not None  # guaranteed by _valid_ids check

                # Save undo state
                self.undo_stack.setdefault(entry.id, []).append(entry.value)

                was_wrong = entry.value != entry.expected_value
                entry.value = entry.expected_value
                self._propagate_dependencies(entry.id)
                self.remaining_budget -= self.action_cost

                if was_wrong:
                    reward = 0.2
                    info_msg = f"Fixed entry {entry.id} to {entry.value}."
                else:
                    self.overcorrection_count += 1
                    reward = -0.1
                    info_msg = f"Entry {entry.id} was already correct. Overcorrection penalty."

        # ── ADJUST_ENTRY ──
        elif action.action_type == "ADJUST_ENTRY":
            if action.target_id is None or action.adjust_delta is None:
                error = "ADJUST_ENTRY requires target_id and adjust_delta."
                info_msg = error
            elif action.target_id not in self._valid_ids:
                error = f"Entry {action.target_id} does not exist. Valid IDs: {sorted(self._valid_ids)}"
                info_msg = error
            elif self.remaining_budget < self.action_cost:
                error = "Insufficient budget for this action."
                info_msg = error
            else:
                entry = self._get_entry(action.target_id)
                assert entry is not None

                self.undo_stack.setdefault(entry.id, []).append(entry.value)
                entry.value += action.adjust_delta
                self.remaining_budget -= self.action_cost

                if entry.value == entry.expected_value:
                    reward = 0.15
                    info_msg = f"Adjusted entry {entry.id} to correct value {entry.value}."
                else:
                    reward = -0.05
                    info_msg = f"Adjusted entry {entry.id} to {entry.value} (expected {entry.expected_value})."

        # ── REVERT_ENTRY ──
        elif action.action_type == "REVERT_ENTRY":
            if action.target_id is None:
                error = "REVERT_ENTRY requires a target_id."
                info_msg = error
            elif action.target_id not in self._valid_ids:
                error = f"Entry {action.target_id} does not exist."
                info_msg = error
            elif self.remaining_budget < self.action_cost:
                error = "Insufficient budget for this action."
                info_msg = error
            elif action.target_id not in self.undo_stack or not self.undo_stack[action.target_id]:
                error = f"No previous value for entry {action.target_id}."
                info_msg = error
            else:
                entry = self._get_entry(action.target_id)
                assert entry is not None
                old_val = self.undo_stack[entry.id].pop()
                entry.value = old_val
                self.remaining_budget -= self.action_cost
                reward = 0.0
                info_msg = f"Reverted entry {entry.id} to {old_val}."

        # ── UNKNOWN ──
        else:
            error = f"Unknown action: {action.action_type}"
            info_msg = error

        # ── CHECK DONE CONDITIONS ──
        all_correct = all(e.value == e.expected_value for e in self.ledger)
        budget_exhausted = self.remaining_budget <= 0
        max_steps_hit = self.step >= self.max_steps

        if all_correct:
            self.done = True
            reward += 0.3  # completion bonus
            info_msg += " All entries correct! Ledger repaired."
        elif budget_exhausted:
            self.done = True
            info_msg += " Budget exhausted."
        elif max_steps_hit:
            self.done = True
            info_msg += " Max steps reached."

        obs = self.get_observation(echoed_message=message)
        obs.last_action_result = info_msg
        obs.last_action_error = error

        # Normalize reward to [0.0, 1.0]
        normalized_reward = self.normalize_reward(reward)

        return {
            "observation": obs,
            "reward": normalized_reward,
            "done": self.done,
            "result": info_msg,
            "error": error,
        }

    # ── SCORING ──

    def compute_final_score(self) -> float:
        """
        Deterministic grading:
          score = 0.5 * consistency + 0.3 * efficiency + 0.2 * budget_ratio
                  - overcorrection_penalty
        Always clamped to [0.0, 1.0].
        """
        total = len(self.ledger)
        correct = sum(1 for e in self.ledger if e.value == e.expected_value)
        consistency = correct / max(total, 1)

        actual = max(self.step, 1)
        efficiency = min(self.optimal_steps / actual, 1.0)

        budget_ratio = max(self.remaining_budget / max(self.initial_budget, 1), 0.0)

        penalty = 0.05 * self.overcorrection_count

        raw = 0.5 * consistency + 0.3 * efficiency + 0.2 * budget_ratio - penalty

        return round(max(0.0, min(1.0, raw)), 4)

    def normalize_reward(self, raw_reward: float) -> float:
        """
        Normalize step reward to [0.0, 1.0] range.
        Maps raw rewards to normalized scale where:
        - Negative rewards (penalties) -> [0.0, 0.5)
        - Zero or positive rewards -> [0.5, 1.0]
        """
        # Clamp raw reward to reasonable range [-0.15, 0.35]
        clamped = max(-0.15, min(0.35, raw_reward))
        # Map to [0.0, 1.0]: -0.15 -> 0.0, 0.0 -> 0.5, 0.35 -> 1.0
        normalized = (clamped + 0.15) / 0.5
        return round(max(0.0, min(1.0, normalized)), 3)


# ────────────────────────────────────────
# TASK LEDGERS
# ────────────────────────────────────────

def _make_easy_ledger() -> List[Dict[str, Any]]:
    """Easy: 5 independent entries, no dependencies, 3 errors."""
    return [
        {"id": 0, "value": 100, "expected_value": 100, "dependencies": []},
        {"id": 1, "value": 250, "expected_value": 200, "dependencies": []},
        {"id": 2, "value": 300, "expected_value": 300, "dependencies": []},
        {"id": 3, "value": 400, "expected_value": 450, "dependencies": []},
        {"id": 4, "value": 600, "expected_value": 500, "dependencies": []},
    ]


def _make_medium_ledger() -> List[Dict[str, Any]]:
    """Medium: 8 entries with visible 1-level dependencies."""
    return [
        {"id": 0, "value": 100, "expected_value": 100, "dependencies": []},
        {"id": 1, "value": 180, "expected_value": 200, "dependencies": [3, 5]},
        {"id": 2, "value": 300, "expected_value": 300, "dependencies": []},
        {"id": 3, "value": 210, "expected_value": 203, "dependencies": [6]},
        {"id": 4, "value": 400, "expected_value": 400, "dependencies": []},
        {"id": 5, "value": 520, "expected_value": 205, "dependencies": []},
        {"id": 6, "value": 600, "expected_value": 609, "dependencies": []},
        {"id": 7, "value": 750, "expected_value": 700, "dependencies": []},
    ]


def _make_hard_ledger() -> List[Dict[str, Any]]:
    """
    Hard: 12 entries with HIDDEN 2-level dependency chains.

    Dependency graph (hidden from agent):
      Entry 0 -> [2, 4]       (level 0 root)
      Entry 1 -> [3]          (level 0 root)
      Entry 2 -> [5, 7]       (level 1 -- depends on 0)
      Entry 3 -> [6, 8]       (level 1 -- depends on 1)
      Entry 4 -> [9]          (level 1 -- depends on 0)
      Entry 5 -> [10]         (level 2 -- depends on 2 -> 0)
      Entry 6 -> [11]         (level 2 -- depends on 3 -> 1)
      Entry 7..11 -> []       (leaf nodes)

    Multi-level cascading chains:
      Fix 0 -> changes expected of 2,4 -> fix 2 -> changes expected of 5,7
                                        -> fix 4 -> changes expected of 9
      Fix 1 -> changes expected of 3   -> fix 3 -> changes expected of 6,8
                                                 -> fix 6 -> changes expected of 11

    This creates TRUE 3-level cascading: 0->2->5->10 and 1->3->6->11
    Agent must discover propagation order without seeing dependencies.
    """
    return [
        {"id": 0,  "value": 100, "expected_value": 100, "dependencies": [2, 4]},
        {"id": 1,  "value": 250, "expected_value": 200, "dependencies": [3]},
        {"id": 2,  "value": 310, "expected_value": 102, "dependencies": [5, 7]},
        {"id": 3,  "value": 350, "expected_value": 203, "dependencies": [6, 8]},
        {"id": 4,  "value": 420, "expected_value": 104, "dependencies": [9]},
        {"id": 5,  "value": 500, "expected_value": 107, "dependencies": [10]},
        {"id": 6,  "value": 620, "expected_value": 209, "dependencies": [11]},
        {"id": 7,  "value": 700, "expected_value": 109, "dependencies": []},
        {"id": 8,  "value": 810, "expected_value": 211, "dependencies": []},
        {"id": 9,  "value": 900, "expected_value": 113, "dependencies": []},
        {"id": 10, "value": 150, "expected_value": 117, "dependencies": []},
        {"id": 11, "value": 220, "expected_value": 220, "dependencies": []},
    ]


# ────────────────────────────────────────
# TASK CONFIG & REGISTRY
# ────────────────────────────────────────

class TaskConfig:
    """Configuration for one task tier."""

    def __init__(
        self,
        task_id: str,
        name: str,
        difficulty: str,
        description: str,
        ledger_fn,
        budget: int,
        max_steps: int,
        action_cost: int,
        hidden_deps: bool,
    ):
        self.task_id = task_id
        self.name = name
        self.difficulty = difficulty
        self.description = description
        self.ledger_fn = ledger_fn
        self.budget = budget
        self.max_steps = max_steps
        self.action_cost = action_cost
        self.hidden_deps = hidden_deps

    def create_env(self) -> LedgerEnvironment:
        return LedgerEnvironment(
            entries=self.ledger_fn(),
            budget=self.budget,
            max_steps=self.max_steps,
            task_id=self.task_id,
            task_description=self.description,
            action_cost=self.action_cost,
            hidden_deps=self.hidden_deps,
        )


TASK_CONFIGS: Dict[str, TaskConfig] = {
    "easy": TaskConfig(
        task_id="easy",
        name="Easy Ledger Repair",
        difficulty="easy",
        description=(
            "Repair a financial ledger with 5 independent entries. "
            "3 entries contain errors (value != expected_value). "
            "No dependencies between entries. Fix all errors within budget."
        ),
        ledger_fn=_make_easy_ledger,
        budget=10,
        max_steps=10,
        action_cost=1,
        hidden_deps=False,
    ),
    "medium": TaskConfig(
        task_id="medium",
        name="Medium Ledger Repair",
        difficulty="medium",
        description=(
            "Repair a financial ledger with 8 entries and visible dependencies. "
            "Fixing one entry may change the expected_value of dependent entries. "
            "Moderate budget. Plan your repair sequence carefully."
        ),
        ledger_fn=_make_medium_ledger,
        budget=12,
        max_steps=15,
        action_cost=1,
        hidden_deps=False,
    ),
    "hard": TaskConfig(
        task_id="hard",
        name="Hard Ledger Repair",
        difficulty="hard",
        description=(
            "Repair a complex financial ledger with 12 entries and HIDDEN dependencies. "
            "Dependencies are NOT visible in observations. Fixing entries causes multi-level "
            "cascading changes (A->B->C chains). Tight budget -- minimize overcorrection."
        ),
        ledger_fn=_make_hard_ledger,
        budget=10,
        max_steps=15,
        action_cost=1,
        hidden_deps=True,
    ),
}

TASK_IDS = list(TASK_CONFIGS.keys())