Spaces:

DGXAI
/

driftcall

Runtime error

File size: 37,345 Bytes

b43d8da

"""Cell 10 — DriftCallEnv integration class.

Implements ``docs/modules/env.md`` and DESIGN.md §4. ``DriftCallEnv`` is the
single public surface that composes models, vendors, drift_injector,
task_generator, rewards, and the optional audio boundary into an
OpenEnv-compliant RL environment.

Hard rules (env.md §3.8, CLAUDE.md §0):
- All public dataclasses are frozen.
- State transitions go through ``dataclasses.replace``; no in-place mutation.
- Validation is pure: ``InvalidActionError`` raises BEFORE any state mutation.
- Rewards are computed exactly once at termination and memoized.
- No LLM judge anywhere; no network/disk I/O at ``__init__``.
"""

from __future__ import annotations

import os
import struct
import uuid
from dataclasses import dataclass, field, replace
from datetime import datetime, timedelta, timezone
from typing import TYPE_CHECKING, Any, Literal, Protocol, cast

from cells.step_04_models import (
    ActionType,
    DriftCallAction,
    DriftCallObservation,
    DriftCallState,
    DriftEvent,
    GoalSpec,
    ToolResult,
)
from cells.step_05_vendors import TOOLS as VENDOR_TOOLS
from cells.step_05_vendors import VENDOR_REGISTRY
from cells.step_06_drift_injector import (
    DriftCatalogueError,
    DriftDomainMismatchError,
    DriftReapplicationError,
    DriftScheduleConflictError,
    UnknownDriftPatternError,
    apply_drift,
    build_schedule,
    list_patterns,
)
from cells.step_07_task_generator import (
    InvalidLanguageWeightError,
    InvalidStageError,
)
from cells.step_07_task_generator import (
    generate as task_generate,
)

if TYPE_CHECKING:
    from collections.abc import Mapping

# rewards is imported lazily inside _compute_rewards to keep the env importable
# even before step_08_rewards.py lands; failures surface as RewardComputationError.

_DEFAULT_LANGUAGE_WEIGHTS: dict[str, float] = {
    "en": 0.4,
    "hinglish": 0.4,
    "hi": 0.1,
    "ta": 0.05,
    "kn": 0.05,
}

_LANGUAGE_CODES: frozenset[str] = frozenset({"hi", "ta", "kn", "en", "hinglish"})

_STAGE_MAX_TURNS: dict[int, int] = {1: 8, 2: 12, 3: 16}

_VENDOR_DOMAINS: tuple[str, ...] = ("airline", "cab", "restaurant", "hotel", "payment")

_TERMINATED_VALUES: frozenset[str] = frozenset({"SUBMIT", "ABORT", "TIMEOUT", "ANTI_HACK"})

_NOW_IST: datetime = datetime(2026, 4, 25, 10, 0, tzinfo=timezone(timedelta(hours=5, minutes=30)))


# ---------------------------------------------------------------------------
# Error taxonomy (env.md §5)
# ---------------------------------------------------------------------------


class DriftCallEnvError(Exception):
    """Root for every typed env error (env.md §5)."""


class InvalidConfigError(DriftCallEnvError):
    """E1 — malformed config dict."""


class EnvNotReadyError(DriftCallEnvError):
    """E2 — operation issued before reset()."""


class EnvClosedError(DriftCallEnvError):
    """E3 — operation issued after close()."""


class InvalidActionError(DriftCallEnvError):
    """E4 — action fails the per-ActionType field matrix."""


class EpisodeAlreadyTerminalError(DriftCallEnvError):
    """E5 — step() called after termination."""


class EpisodeNotTerminalError(DriftCallEnvError):
    """E6 — episode()/rewards() called before termination."""


class ConcurrentStepError(DriftCallEnvError):
    """E7 — reentrant step() detected."""


class UnknownDomainError(DriftCallEnvError):
    """E8 — PROBE_SCHEMA on a domain that is not registered."""


class UnknownToolError(DriftCallEnvError):
    """E9 — TOOL_CALL with a tool_name not in available_tools()."""


class DriftInjectionError(DriftCallEnvError):
    """E10 — drift fold raised; surfaced as-is."""


class RewardComputationError(DriftCallEnvError):
    """E11 — compute_rewards raised; surfaced as-is."""


class AudioPipelineError(DriftCallEnvError):
    """E12 — TTS/ASR engine raised on a step()/reset() boundary."""


_ALL_ERROR_CLASSES: tuple[type[DriftCallEnvError], ...] = (
    InvalidConfigError,
    EnvNotReadyError,
    EnvClosedError,
    InvalidActionError,
    EpisodeAlreadyTerminalError,
    EpisodeNotTerminalError,
    ConcurrentStepError,
    UnknownDomainError,
    UnknownToolError,
    DriftInjectionError,
    RewardComputationError,
    AudioPipelineError,
)


# ---------------------------------------------------------------------------
# Protocols (env.md §2.1)
# ---------------------------------------------------------------------------


class DriftScheduler(Protocol):
    def __call__(
        self, stage: int, episode_seed: int, goal: GoalSpec
    ) -> tuple[DriftEvent, ...]: ...


class TTSEngine(Protocol):
    def synthesize(
        self,
        text: str,
        language_code: str,
        voice_pack: Any | None = None,
        *,
        seed: int = 0,
        sample_rate_hz: int = 16000,
    ) -> bytes: ...


class ASREngine(Protocol):
    def transcribe(
        self,
        audio_bytes: bytes,
        language_hint: str | None,
        *,
        beam_size: int = 1,
        vad_filter: bool = True,
        max_duration_s: float = 30.0,
    ) -> Any: ...


def _default_scheduler(
    stage: int, episode_seed: int, goal: GoalSpec
) -> tuple[DriftEvent, ...]:
    return build_schedule(stage, episode_seed, goal)


# ---------------------------------------------------------------------------
# Episode (env.md §4.3) — built at termination, fed to rewards.compute_rewards.
# Matches the Episode shape consumed by step_08_rewards (kw fields).
# ---------------------------------------------------------------------------


@dataclass(frozen=True)
class Episode:
    episode_id: str
    goal: GoalSpec
    actions: tuple[DriftCallAction, ...]
    action_turns: tuple[int, ...]
    tool_results: tuple[ToolResult, ...]
    tool_result_turns: tuple[int, ...]
    drift_log: tuple[DriftEvent, ...]
    vendor_states_final: dict[str, dict[str, Any]]
    schema_versions_final: dict[str, str]
    max_turns: int
    turns_used: int
    terminated_by: Literal["SUBMIT", "ABORT", "TIMEOUT", "ANTI_HACK"]
    stage: Literal[1, 2, 3]
    drift_pattern_overrides: dict[str, Any] = field(default_factory=dict)


# ---------------------------------------------------------------------------
# EnvConfig (env.md §4.1)
# ---------------------------------------------------------------------------


@dataclass(frozen=True)
class EnvConfig:
    curriculum_stage: Literal[1, 2, 3]
    language_weights: dict[str, float]
    audio_boundary_enabled: bool
    max_turns_override: int | None
    scheduler: DriftScheduler
    tts_engine: TTSEngine | None
    asr_engine: ASREngine | None

    @classmethod
    def from_mapping(cls, raw: Mapping[str, Any] | None) -> EnvConfig:
        allowed = {
            "curriculum_stage",
            "language_weights",
            "audio_boundary_enabled",
            "max_turns_override",
            "scheduler",
            "tts_engine",
            "asr_engine",
        }
        if raw is None:
            raw = {}
        if not isinstance(raw, dict):
            raise InvalidConfigError(
                f"config must be a dict or None, got {type(raw).__name__}"
            )

        unknown = set(raw.keys()) - allowed
        if unknown:
            raise InvalidConfigError(
                f"unknown config key(s): {sorted(unknown)}; "
                f"allowed: {sorted(allowed)}"
            )

        stage_raw = raw.get("curriculum_stage", 1)
        if isinstance(stage_raw, bool) or not isinstance(stage_raw, int):
            raise InvalidConfigError(
                f"curriculum_stage must be int in {{1,2,3}}, got "
                f"{type(stage_raw).__name__}"
            )
        if stage_raw not in (1, 2, 3):
            raise InvalidConfigError(
                f"curriculum_stage must be 1, 2, or 3; got {stage_raw!r}"
            )
        stage = cast("Literal[1, 2, 3]", stage_raw)

        weights_raw = raw.get("language_weights", _DEFAULT_LANGUAGE_WEIGHTS)
        if not isinstance(weights_raw, dict) or not weights_raw:
            raise InvalidConfigError(
                "language_weights must be a non-empty dict"
            )
        for k, v in weights_raw.items():
            if k not in _LANGUAGE_CODES:
                raise InvalidConfigError(
                    f"language_weights: unknown language {k!r}; "
                    f"allowed: {sorted(_LANGUAGE_CODES)}"
                )
            if isinstance(v, bool) or not isinstance(v, (int, float)):
                raise InvalidConfigError(
                    f"language_weights[{k!r}] must be numeric, got "
                    f"{type(v).__name__}"
                )
            if v < 0:
                raise InvalidConfigError(
                    f"language_weights[{k!r}]={v} is negative"
                )
        total = sum(float(v) for v in weights_raw.values())
        if abs(total - 1.0) > 1e-6:
            raise InvalidConfigError(
                f"language_weights sum {total!r} not within 1.0 ± 1e-6"
            )
        # Frozen copy.
        weights: dict[str, float] = {k: float(v) for k, v in weights_raw.items()}

        audio_enabled_raw = raw.get("audio_boundary_enabled", False)
        if not isinstance(audio_enabled_raw, bool):
            raise InvalidConfigError(
                f"audio_boundary_enabled must be bool, got "
                f"{type(audio_enabled_raw).__name__}"
            )
        audio_enabled = audio_enabled_raw

        max_turns_override = raw.get("max_turns_override")
        if max_turns_override is not None:
            if isinstance(max_turns_override, bool) or not isinstance(
                max_turns_override, int
            ):
                raise InvalidConfigError(
                    f"max_turns_override must be int or None, got "
                    f"{type(max_turns_override).__name__}"
                )
            if max_turns_override < 1:
                raise InvalidConfigError(
                    f"max_turns_override must be >= 1, got {max_turns_override}"
                )

        scheduler = raw.get("scheduler", _default_scheduler)
        if not callable(scheduler):
            raise InvalidConfigError("scheduler must be callable")

        tts_engine = raw.get("tts_engine")
        asr_engine = raw.get("asr_engine")

        if audio_enabled:
            if tts_engine is None:
                raise InvalidConfigError(
                    "tts_engine is required when audio_boundary_enabled is True"
                )
            if asr_engine is None:
                raise InvalidConfigError(
                    "asr_engine is required when audio_boundary_enabled is True"
                )
        else:
            if tts_engine is not None:
                raise InvalidConfigError(
                    "tts_engine must be None when audio_boundary_enabled is False"
                )
            if asr_engine is not None:
                raise InvalidConfigError(
                    "asr_engine must be None when audio_boundary_enabled is False"
                )

        return cls(
            curriculum_stage=stage,
            language_weights=weights,
            audio_boundary_enabled=audio_enabled,
            max_turns_override=max_turns_override,
            scheduler=cast("DriftScheduler", scheduler),
            tts_engine=cast("TTSEngine | None", tts_engine),
            asr_engine=cast("ASREngine | None", asr_engine),
        )


# ---------------------------------------------------------------------------
# DriftCallEnv
# ---------------------------------------------------------------------------


def _make_seed_from_urandom() -> int:
    raw = os.urandom(8)
    (value,) = struct.unpack("<Q", raw)
    return int(value)


def _vendor_state_to_dict(state: Any) -> dict[str, Any]:
    """Coerce a frozen vendor dataclass (or already-dict) into a plain dict."""
    if isinstance(state, dict):
        return dict(state)
    # All vendor states are frozen dataclasses.
    import dataclasses as _dc

    if _dc.is_dataclass(state) and not isinstance(state, type):
        return _dc.asdict(state)
    # Defensive: best-effort fallback.
    return {"_raw": repr(state)}


class DriftCallEnv:
    """OpenEnv-compliant RL environment for DriftCall (env.md §1)."""

    # -- construction --------------------------------------------------------

    def __init__(self, config: dict[str, Any] | None = None) -> None:
        self._config: EnvConfig = EnvConfig.from_mapping(config)
        self._state: DriftCallState | None = None
        self._rewards: Any | None = None
        self._episode: Episode | None = None
        self._closed: bool = False
        self._seed: int | None = None
        self._episode_id: str | None = None
        # Pending side-channel notices keyed by domain (env.md §3.3).
        self._side_channel_pending: dict[str, str] = {}
        # Per-vendor-state cache (frozen dataclass or dict). Kept on the env
        # because DriftCallState.vendor_states is a dict[str, dict] for
        # compatibility with the design dataclass.
        self._vendor_state_objects: dict[str, Any] = {}
        # Re-entrancy guard (E7).
        self._step_in_progress: bool = False

    # -- internal helpers ----------------------------------------------------

    @property
    def _max_turns(self) -> int:
        if self._config.max_turns_override is not None:
            return int(self._config.max_turns_override)
        return _STAGE_MAX_TURNS[self._config.curriculum_stage]

    def _available_tools(self) -> tuple[str, ...]:
        return VENDOR_TOOLS

    def _ensure_ready_for_step(self) -> None:
        if self._closed:
            raise EnvClosedError("env is closed")
        if self._state is None:
            raise EnvNotReadyError("reset() must be called before step()")
        if self._state.done:
            raise EpisodeAlreadyTerminalError(
                f"episode already terminated (terminated_by={self._terminated_by()})"
            )

    def _terminated_by(self) -> str | None:
        return self._episode.terminated_by if self._episode is not None else None

    # -- OpenEnv primitives --------------------------------------------------

    def reset(self, seed: int | None = None) -> DriftCallObservation:
        if self._closed:
            raise EnvClosedError("env is closed")

        if seed is None:
            seed = _make_seed_from_urandom()
        if isinstance(seed, bool) or not isinstance(seed, int):
            raise InvalidActionError(
                f"seed must be int or None, got {type(seed).__name__}"
            )

        self._seed = int(seed)
        # Reset memoization; legacy state is dropped before any propagatable
        # exception can leak (env.md §2.2 docstring).
        self._state = None
        self._rewards = None
        self._episode = None
        self._side_channel_pending = {}
        self._vendor_state_objects = {}
        self._episode_id = None

        try:
            goal = task_generate(
                self._seed,
                self._config.curriculum_stage,
                cast("dict[Any, float]", self._config.language_weights),
            )
        except (InvalidLanguageWeightError, InvalidStageError) as exc:
            # E1-class reset failure (env.md §2.2 raises clause).
            raise InvalidConfigError(str(exc)) from exc

        # Initial per-domain vendor state objects (frozen dataclasses).
        vendor_state_objects: dict[str, Any] = {}
        vendor_states_dict: dict[str, dict[str, Any]] = {}
        for domain in _VENDOR_DOMAINS:
            ns = VENDOR_REGISTRY[domain]
            vs = ns.initial_state(self._seed, goal)
            vendor_state_objects[domain] = vs
            vendor_states_dict[domain] = _vendor_state_to_dict(vs)

        schema_versions = {d: "v1" for d in _VENDOR_DOMAINS}

        try:
            schedule = self._config.scheduler(
                self._config.curriculum_stage, self._seed, goal
            )
        except (
            DriftScheduleConflictError,
            DriftCatalogueError,
            UnknownDriftPatternError,
            DriftDomainMismatchError,
        ) as exc:
            # Bad scheduler at reset is an E1 (env.md §7.4).
            raise InvalidConfigError(f"scheduler failure: {exc}") from exc

        self._episode_id = uuid.uuid4().hex

        max_turns = self._max_turns
        new_state = DriftCallState(
            episode_id=self._episode_id,
            goal=goal,
            vendor_states=vendor_states_dict,
            schema_versions=schema_versions,
            drift_schedule=tuple(schedule),
            drift_fired=(),
            turn=0,
            max_turns=max_turns,
            actions=(),
            done=False,
        )
        self._state = new_state
        self._vendor_state_objects = vendor_state_objects

        if self._config.audio_boundary_enabled:
            tts = self._config.tts_engine
            assert tts is not None  # validated in EnvConfig
            try:
                tts.synthesize(goal.seed_utterance, goal.language)
            except Exception as exc:  # noqa: BLE001 — surface as E12-class
                # Audio failure on reset leaves env unready (env.md §5 E12).
                self._state = None
                self._vendor_state_objects = {}
                self._episode_id = None
                raise AudioPipelineError(f"TTS reset failure: {exc}") from exc

        return self._build_observation()

    def step(
        self,
        action: DriftCallAction,
        *,
        force_drift_pattern: str | None = None,
    ) -> DriftCallObservation:
        # 1a. Pure validation — must raise before any state mutation.
        self._ensure_ready_for_step()
        self._validate_action(action)
        if force_drift_pattern is not None:
            valid_ids = {p.id for p in list_patterns()}
            if force_drift_pattern not in valid_ids:
                raise InvalidActionError(
                    f"force_drift_pattern {force_drift_pattern!r} not a known "
                    f"pattern_id"
                )

        if self._step_in_progress:
            raise ConcurrentStepError("reentrant step() detected")
        self._step_in_progress = True
        try:
            return self._step_inner(action, force_drift_pattern)
        finally:
            self._step_in_progress = False

    def _step_inner(
        self,
        action: DriftCallAction,
        force_drift_pattern: str | None,
    ) -> DriftCallObservation:
        assert self._state is not None  # ensured above
        # 2. Increment turn counter.
        turn_current = self._state.turn + 1
        self._state = replace(self._state, turn=turn_current)

        # 3. Fire drifts for this turn.
        self._fire_drifts(turn_current, force_drift_pattern)

        # 4. Side-channel emit pass — refresh pending notices for any vendor
        # whose state just mutated.
        self._emit_side_channel()

        # 5. Dispatch action.
        new_tool_result, terminate, terminated_by = self._dispatch(action)

        # 6. Record action (and ToolResult, if any) via dataclasses.replace.
        new_actions = self._state.actions + (action,)
        if new_tool_result is not None:
            # Tool result history lives on the state's vendor history; here we
            # rely on the running observation history we will rebuild in §3.4.
            self._tool_results = self._tool_results + (new_tool_result,)
            self._tool_result_turns = self._tool_result_turns + (turn_current,)
        self._action_turns = self._action_turns + (turn_current,)
        self._state = replace(self._state, actions=new_actions)

        # 7. Budget check — only if action did not already terminate.
        if not terminate and turn_current >= self._state.max_turns:
            terminate = True
            terminated_by = "TIMEOUT"

        # 8. If terminal, build Episode + compute rewards.
        if terminate:
            assert terminated_by is not None
            self._terminate(terminated_by)

        # 9. Build observation.
        return self._build_observation()

    def state(self) -> DriftCallState:
        if self._state is None:
            raise EnvNotReadyError("reset() must be called before state()")
        return self._state

    def close(self) -> None:
        # Idempotent.
        self._closed = True
        # Per env.md §9 Q7: never invoke close on shared audio engines.
        # Only drop per-env state.
        self._side_channel_pending = {}
        self._vendor_state_objects = {}
        # Note: we keep self._state, self._rewards, self._episode so post-close
        # audits still work (env.md §7.11).

    def episode(self) -> Episode:
        if self._episode is None:
            raise EpisodeNotTerminalError("episode is not terminal")
        return self._episode

    def rewards(self) -> Any:
        if self._rewards is None:
            raise EpisodeNotTerminalError("episode is not terminal")
        return self._rewards

    def done(self) -> bool:
        if self._state is None:
            return False
        return bool(self._state.done)

    # -- validation ----------------------------------------------------------

    def _validate_action(self, action: DriftCallAction) -> None:
        if not isinstance(action, DriftCallAction):
            raise InvalidActionError(
                f"action must be DriftCallAction, got {type(action).__name__}"
            )
        atype = action.action_type
        if not isinstance(atype, ActionType):
            raise InvalidActionError(
                f"action_type must be ActionType, got {type(atype).__name__}"
            )

        # rationale length cap (env.md §3.1).
        if action.rationale is not None and len(action.rationale) > 200:
            raise InvalidActionError(
                f"rationale length {len(action.rationale)} exceeds 200"
            )

        if atype == ActionType.TOOL_CALL:
            if not action.tool_name or not isinstance(action.tool_name, str):
                raise InvalidActionError("TOOL_CALL requires non-empty tool_name")
            if action.tool_args is None or not isinstance(action.tool_args, dict):
                raise InvalidActionError(
                    "TOOL_CALL requires tool_args dict (may be empty)"
                )
            if action.message is not None or action.confidence is not None:
                raise InvalidActionError(
                    "TOOL_CALL forbids message/confidence"
                )
            if action.tool_name not in self._available_tools():
                raise UnknownToolError(
                    f"tool_name {action.tool_name!r} not in available_tools()"
                )
            # JSON-serializability (shallow check: must be dict; values arbitrary).
            return

        if atype == ActionType.SPEAK or atype == ActionType.CLARIFY:
            if not isinstance(action.message, str):
                raise InvalidActionError(
                    f"{atype.value} requires str message"
                )
            if not (1 <= len(action.message) <= 2000):
                raise InvalidActionError(
                    f"{atype.value} message length must be in [1, 2000], "
                    f"got {len(action.message)}"
                )
            if "\x00" in action.message:
                raise InvalidActionError(
                    f"{atype.value} message contains NUL byte"
                )
            if (
                action.tool_name is not None
                or action.tool_args is not None
                or action.confidence is not None
            ):
                raise InvalidActionError(
                    f"{atype.value} forbids tool_name/tool_args/confidence"
                )
            return

        if atype == ActionType.PROBE_SCHEMA:
            if not action.tool_name or not isinstance(action.tool_name, str):
                raise InvalidActionError(
                    "PROBE_SCHEMA requires tool_name (domain string)"
                )
            if (
                action.tool_args is not None
                or action.message is not None
                or action.confidence is not None
            ):
                raise InvalidActionError(
                    "PROBE_SCHEMA forbids tool_args/message/confidence"
                )
            assert self._state is not None
            if action.tool_name not in self._state.vendor_states:
                raise UnknownDomainError(
                    f"PROBE_SCHEMA: domain {action.tool_name!r} not registered"
                )
            return

        if atype == ActionType.SUBMIT:
            if action.confidence is None or not isinstance(
                action.confidence, (int, float)
            ) or isinstance(action.confidence, bool):
                raise InvalidActionError("SUBMIT requires float confidence")
            conf = float(action.confidence)
            if not (0.0 <= conf <= 1.0):
                raise InvalidActionError(
                    f"SUBMIT confidence {conf!r} outside [0.0, 1.0]"
                )
            if action.tool_name is not None or action.tool_args is not None:
                raise InvalidActionError(
                    "SUBMIT forbids tool_name/tool_args"
                )
            if action.message is not None and not isinstance(action.message, str):
                raise InvalidActionError("SUBMIT message must be str if present")
            return

        if atype == ActionType.ABORT:
            if (
                action.tool_name is not None
                or action.tool_args is not None
                or action.confidence is not None
            ):
                raise InvalidActionError(
                    "ABORT forbids tool_name/tool_args/confidence"
                )
            return

        # Unreachable — all six ActionType members handled above.
        raise InvalidActionError(f"unhandled action_type {atype!r}")

    # -- drift firing --------------------------------------------------------

    def _fire_drifts(self, turn_current: int, force_pattern: str | None) -> None:
        assert self._state is not None
        if force_pattern is not None:
            patterns_by_id = {p.id: p for p in list_patterns()}
            pattern = patterns_by_id[force_pattern]
            if pattern.domain not in self._state.vendor_states:
                raise DriftInjectionError(
                    f"force_drift_pattern {force_pattern!r}: domain "
                    f"{pattern.domain!r} not registered"
                )
            event = DriftEvent(
                turn=turn_current,
                drift_type=pattern.drift_type,
                domain=pattern.domain,
                description=pattern.description,
                from_version=pattern.from_version,
                to_version=pattern.to_version,
                pattern_id=pattern.id,
            )
            try:
                self._state = apply_drift(self._state, event)
            except (
                UnknownDriftPatternError,
                DriftDomainMismatchError,
                DriftReapplicationError,
            ) as exc:
                raise DriftInjectionError(str(exc)) from exc
            return

        # Schedule-driven fold.
        pending = tuple(
            e for e in self._state.drift_schedule
            if e.turn == turn_current and e not in self._state.drift_fired
        )
        if not pending:
            return
        ordered = tuple(sorted(pending, key=lambda e: (e.turn, e.pattern_id)))
        for event in ordered:
            try:
                self._state = apply_drift(self._state, event)
            except (
                UnknownDriftPatternError,
                DriftDomainMismatchError,
                DriftReapplicationError,
            ) as exc:
                raise DriftInjectionError(str(exc)) from exc

    def _emit_side_channel(self) -> None:
        """Refresh pending side-channel notices per env.md §3.3 clause 3."""
        assert self._state is not None
        new_pending = dict(self._side_channel_pending)
        for domain in _VENDOR_DOMAINS:
            ns = VENDOR_REGISTRY[domain]
            vs_obj = self._vendor_state_objects.get(domain)
            if vs_obj is None:
                continue
            try:
                notice, new_state = ns.emit_side_channel_if_pending(vs_obj)
            except Exception as exc:  # noqa: BLE001 — defensive
                raise DriftInjectionError(
                    f"side-channel emit failed for {domain}: {exc}"
                ) from exc
            if notice is not None:
                existing = new_pending.get(domain)
                merged = (
                    f"{existing}\n---\n{notice}" if existing else notice
                )
                new_pending[domain] = merged
            self._vendor_state_objects[domain] = new_state
        self._side_channel_pending = new_pending

    # -- dispatch ------------------------------------------------------------

    @property
    def _tool_results(self) -> tuple[ToolResult, ...]:
        return getattr(self, "_tool_results_internal", ())

    @_tool_results.setter
    def _tool_results(self, value: tuple[ToolResult, ...]) -> None:
        self._tool_results_internal = value

    @property
    def _tool_result_turns(self) -> tuple[int, ...]:
        return getattr(self, "_tool_result_turns_internal", ())

    @_tool_result_turns.setter
    def _tool_result_turns(self, value: tuple[int, ...]) -> None:
        self._tool_result_turns_internal = value

    @property
    def _action_turns(self) -> tuple[int, ...]:
        return getattr(self, "_action_turns_internal", ())

    @_action_turns.setter
    def _action_turns(self, value: tuple[int, ...]) -> None:
        self._action_turns_internal = value

    def _dispatch(
        self, action: DriftCallAction
    ) -> tuple[ToolResult | None, bool, str | None]:
        """Return (tool_result, terminate?, terminated_by?)."""
        assert self._state is not None
        atype = action.action_type

        if atype == ActionType.SUBMIT:
            return None, True, "SUBMIT"
        if atype == ActionType.ABORT:
            return None, True, "ABORT"
        if atype == ActionType.SPEAK or atype == ActionType.CLARIFY:
            return None, False, None

        if atype == ActionType.PROBE_SCHEMA:
            assert action.tool_name is not None
            domain = action.tool_name
            ns = VENDOR_REGISTRY[domain]
            vs_obj = self._vendor_state_objects[domain]
            schema_version = self._state.schema_versions[domain]
            schema = ns.describe_schema(vs_obj, schema_version)
            tr = ToolResult(
                tool_name=f"probe:{domain}",
                status="ok",
                response=dict(schema),
                schema_version=schema_version,
                latency_ms=0,
            )
            return tr, False, None

        if atype == ActionType.TOOL_CALL:
            assert action.tool_name is not None and action.tool_args is not None
            tool_name = action.tool_name
            domain = tool_name.split(".", 1)[0]
            if domain not in self._state.vendor_states:
                raise UnknownDomainError(
                    f"tool {tool_name!r} targets unknown domain {domain!r}"
                )
            ns = VENDOR_REGISTRY[domain]
            vs_obj = self._vendor_state_objects[domain]
            schema_version = self._state.schema_versions[domain]
            try:
                if domain == "payment":
                    tr, new_vs = ns.dispatch(
                        tool_name,
                        action.tool_args,
                        vs_obj,
                        schema_version,
                        self._seed,
                        _NOW_IST,
                    )
                    payment_state = new_vs
                else:
                    payment_state = self._vendor_state_objects.get("payment")
                    tr, new_vs, payment_state = ns.dispatch(
                        tool_name,
                        action.tool_args,
                        vs_obj,
                        schema_version,
                        self._seed,
                        _NOW_IST,
                        payment_state,
                    )
            except ValueError as exc:
                # Unknown tool inside a known domain → treat as anti-hack.
                raise UnknownToolError(str(exc)) from exc

            self._vendor_state_objects[domain] = new_vs
            if payment_state is not None:
                self._vendor_state_objects["payment"] = payment_state

            # Refresh state.vendor_states snapshot.
            new_vendor_states = dict(self._state.vendor_states)
            new_vendor_states[domain] = _vendor_state_to_dict(new_vs)
            if domain != "payment" and payment_state is not None:
                new_vendor_states["payment"] = _vendor_state_to_dict(payment_state)
            self._state = replace(self._state, vendor_states=new_vendor_states)

            # Attach pending side-channel notice (one-shot per domain).
            notice = self._side_channel_pending.pop(domain, None)
            if notice is not None:
                merged_response = dict(tr.response)
                merged_response["_notice"] = notice
                tr = ToolResult(
                    tool_name=tr.tool_name,
                    status=tr.status,
                    response=merged_response,
                    schema_version=tr.schema_version,
                    latency_ms=tr.latency_ms,
                )
            return tr, False, None

        # Unreachable.
        raise InvalidActionError(f"unhandled action_type {atype!r}")

    # -- termination ---------------------------------------------------------

    def _terminate(self, terminated_by: str) -> None:
        assert self._state is not None
        if terminated_by not in _TERMINATED_VALUES:
            raise RewardComputationError(
                f"unknown terminated_by sentinel {terminated_by!r}"
            )
        self._state = replace(self._state, done=True)
        episode = Episode(
            episode_id=self._state.episode_id,
            goal=self._state.goal,
            actions=self._state.actions,
            action_turns=self._action_turns,
            tool_results=self._tool_results,
            tool_result_turns=self._tool_result_turns,
            drift_log=self._state.drift_fired,
            vendor_states_final={
                d: _vendor_state_to_dict(self._vendor_state_objects[d])
                for d in _VENDOR_DOMAINS
            },
            schema_versions_final=dict(self._state.schema_versions),
            max_turns=self._state.max_turns,
            turns_used=len(self._state.actions),
            terminated_by=cast(
                "Literal['SUBMIT','ABORT','TIMEOUT','ANTI_HACK']", terminated_by
            ),
            stage=self._config.curriculum_stage,
        )
        self._episode = episode
        self._rewards = self._compute_rewards(episode)

    @staticmethod
    def _compute_rewards(episode: Episode) -> Any:
        import importlib

        try:
            mod = importlib.import_module("cells.step_08_rewards")
        except ImportError as exc:
            raise RewardComputationError(
                f"rewards module unavailable: {exc}"
            ) from exc
        compute = getattr(mod, "compute_rewards", None)
        if compute is None:
            raise RewardComputationError(
                "cells.step_08_rewards has no compute_rewards"
            )
        try:
            return compute(episode)
        except Exception as exc:
            raise RewardComputationError(str(exc)) from exc

    # -- observation builder -------------------------------------------------

    def _build_observation(self) -> DriftCallObservation:
        assert self._state is not None
        st = self._state
        if st.turn == 0:
            last_transcript = st.goal.seed_utterance
            last_lang = st.goal.language
            last_confidence = 1.0
        else:
            last_transcript = st.goal.seed_utterance
            last_lang = st.goal.language
            last_confidence = 1.0

        return DriftCallObservation(
            turn=st.turn,
            goal=st.goal,
            last_transcript=last_transcript,
            last_lang=last_lang,
            last_confidence=last_confidence,
            tool_results=self._tool_results,
            drift_log=st.drift_fired,
            budget_remaining=max(0, st.max_turns - st.turn),
            available_tools=self._available_tools(),
        )


__all__ = [
    "ASREngine",
    "AudioPipelineError",
    "ConcurrentStepError",
    "DriftCallEnv",
    "DriftCallEnvError",
    "DriftInjectionError",
    "DriftScheduler",
    "EnvClosedError",
    "EnvConfig",
    "EnvNotReadyError",
    "Episode",
    "EpisodeAlreadyTerminalError",
    "EpisodeNotTerminalError",
    "InvalidActionError",
    "InvalidConfigError",
    "RewardComputationError",
    "TTSEngine",
    "UnknownDomainError",
    "UnknownToolError",
]