Spaces:

s-b3
/

LifeStack

Sleeping

LifeStack / core /lifestack_env.py

Soham Banerjee

deploy: pure lifestack with partitioned wisdom pool

77da5ce about 1 month ago

33.4 kB

	import copy
	from typing import Any, Optional, Dict, List
	from pydantic import Field

	from core.life_state import LifeMetrics, ResourceBudget, DependencyGraph
	from core.metric_schema import normalize_metric_path
	from core.reward import compute_reward, compute_task_reward
	from core.task import Task, ExoEvent, Route, Milestone, FlightCrisisTask
	from core.verifier import LifeStackVerifier

	try:
	from openenv.core import Environment, Action, Observation, State
	from openenv.core.env_server.types import EnvironmentMetadata
	from openenv.core.rubrics import Rubric
	USING_MODERN_API = True
	except ImportError:
	try:
	from openenv.env import Env as Environment
	from pydantic import BaseModel
	# Shims for missing classes in older/alternative openenv
	class Action(BaseModel): pass
	class Observation(BaseModel): pass
	class State(BaseModel): pass
	class Rubric:
	def __init__(self, a, *k): pass
	def compute(self, a, *k): return 0.0
	EnvironmentMetadata = None
	USING_MODERN_API = False
	except ImportError:
	# Final fallback — must use BaseModel so Pydantic subclasses work
	from pydantic import BaseModel
	class Environment:
	def __init__(self, rubric=None): self.rubric = rubric
	def reset(self, a, *k): pass
	def step(self, a, *k): pass
	class Action(BaseModel): pass
	class Observation(BaseModel): pass
	class State(BaseModel): pass
	class Rubric:
	def __init__(self, a, *k): pass
	def compute(self, a, *k): return 0.0
	EnvironmentMetadata = None
	USING_MODERN_API = False

	class LifeStackAction(Action):
	"""Structured action for LifeStack."""
	metric_changes: Dict[str, float] = Field(default_factory=dict, description="Metric adjustment deltas")
	resource_cost: Dict[str, float] = Field(default_factory=dict, description="Time, money, and energy costs")
	actions_taken: int = Field(default=0, description="Number of atomic actions taken")

	# ToolAction fields (Long-horizon)
	action_type: Optional[str] = Field(default=None, description="inspect, plan, execute, etc.")
	target: Optional[str] = Field(default=None, description="e.g. route_id or hidden_key")
	parameters: Dict[str, Any] = Field(default_factory=dict)
	reasoning: Optional[str] = Field(default=None)
	completion: Optional[str] = Field(default=None)

	inspect_target: Optional[str] = Field(default=None, description="Optional hidden state key to inspect")
	is_rollback: bool = Field(default=False, description="Set true to rollback the previous action.")

	@classmethod
	def from_agent_action(cls, agent_action: Any) -> "LifeStackAction":
	"""Unified converter from legacy AgentAction to LifeStackAction."""
	primary = agent_action.primary
	return cls(
	action_type=primary.action_type,
	target=primary.target_domain, # Mapping target_domain to target
	metric_changes=primary.metric_changes,
	resource_cost=primary.resource_cost,
	reasoning=agent_action.reasoning,
	completion=getattr(agent_action, 'raw_completion', ""),
	actions_taken=1
	)

	class LifeStackObservation(Observation):
	"""Observation returned by LifeStack."""
	metrics: Dict[str, float] = Field(default_factory=dict, description="Flattened 23-domain life metrics")
	resources: Dict[str, float] = Field(default_factory=dict, description="Current budget remaining")
	step: int = Field(default=0, description="Current episode step")
	done: bool = Field(default=False)
	reward: Optional[float] = Field(default=None)
	metadata: Dict[str, Any] = Field(default_factory=dict)

	class LifeStackState(State):
	"""Internal state of the LifeStack environment."""
	current_metrics: LifeMetrics = Field(default_factory=LifeMetrics)
	budget: ResourceBudget = Field(default_factory=ResourceBudget)
	episode_id: Optional[str] = None
	step_count: int = 0
	inspected_keys: list = Field(default_factory=list) # revealed keys
	consecutive_waits: int = 0
	used_rollback: bool = Field(default=False)
	rollback_penalty_charged: bool = Field(default=False)
	previous_metrics: Optional[LifeMetrics] = None
	previous_budget: Optional[ResourceBudget] = None

	# New task fields
	current_task: Optional[Task] = None
	active_route_id: Optional[str] = None
	milestones_achieved: list = Field(default_factory=list)
	world_state: dict = Field(default_factory=dict)
	hidden_state: dict = Field(default_factory=dict)
	fired_event_ids: list = Field(default_factory=list)
	exo_events_seen: int = 0
	milestones_after_event: int = 0
	closed_route_ids: set = Field(default_factory=set)
	# Legacy / Personality fields
	person: Optional[Any] = None
	agent_history: List[tuple] = Field(default_factory=list)
	current_conflict: Optional[Any] = None
	rollback_penalty_charged: bool = Field(default=False)
	cumulative_rel_delta: float = Field(default=0.0)
	class LifeStackRubric(Rubric):
	"""Standard reward rubric for LifeStack."""
	def forward(self, action: LifeStackAction, observation: LifeStackObservation) -> float:
	# In LifeStack, reward is usually computed inside step() for state-transition access.
	# This rubric provides a hook for external reward evaluation if needed.
	return observation.reward if observation.reward is not None else 0.0

	class PartialObsFilter:
	@staticmethod
	def filter(task: Task, revealed_keys: list) -> dict:
	"""Returns visible_world plus any keys the agent has explicitly inspected.

	Revealed keys are checked against mutable_world first, then hidden_state.
	Keys sourced from hidden_state are wrapped as
	``{"value": <val>, "source": "inspect"}`` so the agent knows they were
	obtained via an inspect action rather than being freely observable.
	"""
	obs_world = copy.deepcopy(task.visible_world)
	for k in revealed_keys:
	if k in task.mutable_world:
	obs_world[k] = task.mutable_world[k]
	elif k in task.hidden_state:
	obs_world[k] = {"value": task.hidden_state[k], "source": "inspect"}
	return obs_world

	class WorldEngine:
	def __init__(self, task: Task):
	self.task = task
	self.closed_routes = set()

	def inject_events(self, step: int, world: dict, hidden: dict) -> list[ExoEvent]:
	import random
	fired = []
	for event in self.task.event_schedule:
	fire = False
	if event.step == step:
	fire = True
	elif event.step == -1:
	if random.random() < event.probability:
	fire = True

	if fire:
	fired.append(event)
	# Apply mutations
	world.update(event.world_mutation)
	hidden.update(event.hidden_state_mutation)
	for rid in event.closes_routes:
	self.closed_routes.add(rid)
	return fired

	def get_closed_routes(self) -> set[str]:
	return self.closed_routes

	_EnvBase = Environment[LifeStackAction, LifeStackObservation, LifeStackState] if USING_MODERN_API else Environment

	class LifeStackEnv(_EnvBase):
	"""
	LifeStack Environment v1.1 — Refactored for OpenEnv 0.2.3 compliance.
	"""
	SUPPORTS_CONCURRENT_SESSIONS = True

	def __init__(self, seed: Optional[int] = None, task=None, max_steps: int = 30):
	if USING_MODERN_API:
	super().__init__(rubric=LifeStackRubric())
	else:
	super().__init__()

	self.max_steps = getattr(task, 'horizon', max_steps) if task else max_steps

	self.metadata_internal = {
	'name': 'LifeStack-v1',
	'version': '1.1.0',
	'description': 'Premium multi-domain life conflict resolution simulation',
	'max_episode_steps': self.max_steps
	}

	self.graph = DependencyGraph()
	self._internal_state = LifeStackState()

	def get_metadata(self):
	if not USING_MODERN_API:
	return self.metadata_internal
	from openenv.core.env_server.types import EnvironmentMetadata
	return EnvironmentMetadata(
	name=self.metadata_internal['name'],
	version=self.metadata_internal['version'],
	description=self.metadata_internal['description']
	)

	@property
	def state(self) -> LifeStackState:
	return self._internal_state

	def reset(self, seed: Optional[int] = None, episode_id: Optional[str] = None,
	task: Optional[Task] = None, conflict: Optional[Any] = None,
	budget: Optional[dict] = None, person: Optional[Any] = None,
	agent_history: Optional[List[tuple]] = None, **kwargs) -> LifeStackObservation:
	"""Resets the environment. Seed and task/conflict can be provided."""
	if USING_MODERN_API and getattr(self, 'rubric', None):
	self.rubric.reset()

	if seed is not None:
	import random
	random.seed(seed)

	# 1. Initialize Task
	self._internal_state.current_task = task or FlightCrisisTask()
	self.max_steps = getattr(self._internal_state.current_task, 'horizon', 30)

	# 2. Reset State
	self._internal_state.episode_id = episode_id
	self._internal_state.step_count = 0
	self._internal_state.current_metrics = LifeMetrics()
	self._internal_state.inspected_keys = []
	self._internal_state.consecutive_waits = 0
	self._internal_state.used_rollback = False
	self._internal_state.rollback_penalty_charged = False
	self._internal_state.previous_metrics = None
	self._internal_state.previous_budget = None
	self._internal_state.rollback_penalty_charged = False
	self._internal_state.cumulative_rel_delta = 0.0

	# Task state
	self._internal_state.world_state = copy.deepcopy(self._internal_state.current_task.mutable_world)
	self._internal_state.hidden_state = copy.deepcopy(self._internal_state.current_task.hidden_state)
	self._internal_state.milestones_achieved = []
	self._internal_state.active_route_id = None
	self._internal_state.fired_event_ids = []
	self._internal_state.exo_events_seen = 0
	self._internal_state.milestones_after_event = 0
	self._internal_state.closed_route_ids = set()

	self._internal_state.person = person
	self._internal_state.agent_history = agent_history or []
	self._internal_state.current_conflict = conflict

	self.world_engine = WorldEngine(self._internal_state.current_task)

	# 3. Budget Scaling
	scale = max(1.0, self.max_steps / 5.0)
	constraints = self._internal_state.current_task.constraints
	self._internal_state.budget = ResourceBudget(
	time_hours=budget.get("time", constraints.get("time", 20.0 * scale)) if budget else constraints.get("time", 20.0 * scale),
	money_dollars=budget.get("money", constraints.get("money", 500.0 * scale)) if budget else constraints.get("money", 500.0 * scale),
	energy_units=budget.get("energy", constraints.get("energy", 100.0 * scale)) if budget else constraints.get("energy", 100.0 * scale)
	)

	if conflict:
	# Legacy disruption support
	disruption = conflict.primary_disruption if hasattr(conflict, 'primary_disruption') else conflict
	self._internal_state.current_metrics = self.graph.cascade(self._internal_state.current_metrics, disruption)
	if budget is None and hasattr(conflict, 'resource_budget'):
	rb = conflict.resource_budget
	self._internal_state.budget = ResourceBudget(
	time_hours=rb.get("time", 20.0),
	money_dollars=rb.get("money", 500.0),
	energy_units=rb.get("energy", 100.0)
	)

	return self._get_obs()

	def _get_obs(self, done: bool = False, reward: Optional[float] = None,
	success: bool = False, failure: bool = False,
	failure_reason: str = "", routes_remaining: int = 0) -> LifeStackObservation:
	revealed_world = PartialObsFilter.filter(
	self._internal_state.current_task,
	self._internal_state.inspected_keys
	)

	return LifeStackObservation(
	metrics=self._internal_state.current_metrics.flatten(),
	resources={
	"time": self._internal_state.budget.time_hours,
	"money": self._internal_state.budget.money_dollars,
	"energy": self._internal_state.budget.energy_units
	},
	step=self._internal_state.step_count,
	done=done,
	reward=reward,
	metadata={
	"world_state": revealed_world,
	"goal": self._internal_state.current_task.goal,
	"active_route": self._internal_state.active_route_id,
	"milestones": self._internal_state.milestones_achieved,
	"events": self._internal_state.fired_event_ids,
	"success": success,
	"failure": failure,
	"failure_reason": failure_reason,
	"routes_remaining": routes_remaining,
	"conflict_title": self._internal_state.current_conflict.title if hasattr(self._internal_state.current_conflict, 'title') else "Custom Task",
	"person": self._internal_state.person.name if hasattr(self._internal_state.person, 'name') else "Unknown"
	}
	)

	def _update_metric(self, path: str, delta: float):
	"""Internal helper for non-cascading updates."""
	path = normalize_metric_path(path)
	if '.' not in path:
	return
	domain_name, sub_name = path.split('.', 1)
	domain = getattr(self._internal_state.current_metrics, domain_name, None)
	if domain and hasattr(domain, sub_name):
	val = getattr(domain, sub_name)
	setattr(domain, sub_name, max(0.0, min(100.0, val + delta)))

	def step(self, action: LifeStackAction, timeout_s: Optional[float] = None, **kwargs) -> LifeStackObservation:
	"""Executes one step in the environment using LifeStackAction logic."""
	if isinstance(action, dict):
	action = LifeStackAction(**action)

	task = self._internal_state.current_task
	state_before = copy.deepcopy(self._internal_state.current_metrics)
	info_msgs = []

	# 0. Personality Drift & Legacy Escalation
	if self._internal_state.person:
	drift_event = self._internal_state.person.drift(self._internal_state.step_count)
	if drift_event:
	path = drift_event.get('metric', '')
	delta = drift_event.get('delta', 0)
	if path and '.' in path:
	self._update_metric(path, delta)
	info_msgs.append(f"DRIFT: {drift_event['reason']}")

	if self._internal_state.current_conflict and self._internal_state.step_count == 2:
	from agent.conflict_generator import adaptive_escalate
	conflict = self._internal_state.current_conflict
	if hasattr(conflict, 'difficulty') and conflict.difficulty < 5:
	new_conflict, reason = adaptive_escalate(conflict, self._internal_state.agent_history)
	if new_conflict.id != conflict.id:
	self._internal_state.current_conflict = new_conflict
	info_msgs.append(f"ESCALATION: {reason} -> {new_conflict.title}")
	fired_events = self.world_engine.inject_events(
	self._internal_state.step_count,
	self._internal_state.world_state,
	self._internal_state.hidden_state
	)
	if fired_events:
	self._internal_state.exo_events_seen += len(fired_events)
	for e in fired_events:
	self._internal_state.fired_event_ids.append(e.id)
	info_msgs.append(f"EVENT_FIRED: {e.description}")

	self._internal_state.closed_route_ids.update(self.world_engine.get_closed_routes())

	# 2. Tool Logic & Metric Changes
	tool_type = action.action_type or (
	"rollback" if action.is_rollback else
	"inspect" if action.inspect_target else
	"execute"
	)

	allowed_keys = set(self._internal_state.current_metrics.flatten().keys())
	metric_changes = {k: v for k, v in action.metric_changes.items() if k in allowed_keys}
	resource_cost = copy.deepcopy(action.resource_cost)

	# Handle Rollback
	if tool_type == "rollback":
	self._internal_state.step_count += 1
	if self._internal_state.used_rollback:
	info_msgs.append("ROLLBACK_DENIED: Already used once.")
	return self._get_obs(reward=-0.1)
	if not self._internal_state.previous_metrics:
	return self._get_obs(reward=0.0)
	self._internal_state.current_metrics = copy.deepcopy(self._internal_state.previous_metrics)
	self._internal_state.budget = copy.deepcopy(self._internal_state.previous_budget)
	self._internal_state.used_rollback = True
	self._internal_state.rollback_penalty_charged = True # Penalty baked into the -0.1 return above
	return self._get_obs(reward=-0.1)

	# Save state for future rollback
	self._internal_state.previous_metrics = copy.deepcopy(self._internal_state.current_metrics)
	self._internal_state.previous_budget = copy.deepcopy(self._internal_state.budget)

	# Handle Inspect
	if tool_type == "inspect":
	target = action.target or action.inspect_target
	if target:
	if target in self._internal_state.inspected_keys:
	info_msgs.append(f"INSPECT_REDUNDANT: {target}")
	else:
	self._internal_state.inspected_keys.append(target)
	info_msgs.append(f"INSPECT_REVEALED: {target}")
	# Emit an explicit signal when a hidden-state value is uncovered.
	if target in task.hidden_state:
	info_msgs.append(
	f"INSPECT_REVEALED_HIDDEN: {target} = {task.hidden_state[target]}"
	)

	# Handle Wait
	if tool_type == "wait":
	self._internal_state.consecutive_waits += 1
	if self._internal_state.consecutive_waits >= 4:
	metric_changes["mental_wellbeing.stress_level"] = metric_changes.get("mental_wellbeing.stress_level", 0) + 15.0
	info_msgs.append("WAIT_CAP_EXCEEDED: Forced stress applied.")
	else:
	self._internal_state.consecutive_waits = 0

	# Handle Route Execution
	if tool_type == "execute" and action.target:
	route = next((r for r in task.viable_routes if r.id == action.target), None)
	if route:
	# Check closed
	if route.id in self._internal_state.closed_route_ids:
	info_msgs.append(f"ROUTE_BLOCKED: {route.name}")
	else:
	# Check preconditions
	pre_ok = True
	for k, v in route.preconditions.items():
	current_v = self._internal_state.hidden_state.get(k, self._internal_state.world_state.get(k))
	if current_v != v:
	pre_ok = False
	break

	if not pre_ok:
	info_msgs.append(f"PRECONDITIONS_FAILED for {route.name}")
	else:
	# Success: Apply route
	self._internal_state.active_route_id = route.id
	self._internal_state.world_state.update(route.consequences)
	info_msgs.append(f"ROUTE_SUCCESS: {route.name}")

	# 3. Resource Deduction (must happen BEFORE metric changes to prevent budget-bypass exploit)
	deduct_ok = self._internal_state.budget.deduct(
	time=resource_cost.get('time', 0.0),
	money=resource_cost.get('money', 0.0),
	energy=resource_cost.get('energy', 0.0)
	)
	if not deduct_ok:
	info_msgs.append("RESOURCE_DEPLETED_ACTION_BLOCKED")
	metric_changes = {} # Discard changes — agent can't afford this action

	# 4. Apply Metric and Cascade
	sig_changes = {k: v for k, v in metric_changes.items() if abs(v) > 5.0}
	for k, v in metric_changes.items():
	if k not in sig_changes:
	self._update_metric(k, v)

	if sig_changes:
	self._internal_state.current_metrics = self.graph.cascade(self._internal_state.current_metrics, sig_changes)

	# 5. Task Progression Check
	success_mets = LifeStackVerifier.check_success(task, self._internal_state.world_state, self._internal_state.hidden_state)
	failure_mets = LifeStackVerifier.check_failure(task, self._internal_state.world_state, self._internal_state.hidden_state, self._internal_state.current_metrics.flatten())

	# Check milestones dynamically
	newly_met = LifeStackVerifier.check_new_milestones(task, self._internal_state.world_state, self._internal_state.hidden_state, self._internal_state.milestones_achieved)
	for mid in newly_met:
	self._internal_state.milestones_achieved.append(mid)
	if self._internal_state.exo_events_seen > 0:
	self._internal_state.milestones_after_event += 1
	info_msgs.append(f"MILESTONE_UNLOCKED: {mid}")

	# 6. Reward Calculation (Task-Aware)
	routes_rem, _ = LifeStackVerifier.get_route_status(task, self._internal_state.closed_route_ids, self._internal_state.world_state, self._internal_state.hidden_state)

	# Determine cascade collapse
	metrics_after = self._internal_state.current_metrics.flatten()
	metrics_before = state_before.flatten()
	collapse = any(metrics_after[k] < 20 and metrics_before[k] >= 20 for k in metrics_after)

	# Track cumulative relationship erosion across steps
	rel_keys_cum = [k for k in metrics_after if k.startswith('relationships.')]
	if rel_keys_cum:
	step_rel_delta = sum(metrics_after[k] - metrics_before[k] for k in rel_keys_cum) / len(rel_keys_cum)
	self._internal_state.cumulative_rel_delta += step_rel_delta

	# Increment step_count BEFORE reward so timeout_check fires correctly
	self._internal_state.step_count += 1

	# Rollback penalty fires only once per episode
	rollback_this_step = self._internal_state.used_rollback and not self._internal_state.rollback_penalty_charged
	if rollback_this_step:
	self._internal_state.rollback_penalty_charged = True

	# conflict_domain from task.domain (not conflict.title) to prevent empty-string bypass
	conflict_domain = task.domain if task and hasattr(task, 'domain') else ""

	if task:
	reward, breakdown = compute_task_reward(
	state_before=state_before,
	state_after=self._internal_state.current_metrics,
	resources_used=resource_cost,
	actions_taken=action.actions_taken,
	milestones_achieved=self._internal_state.milestones_achieved,
	success_conditions_met=success_mets,
	exo_events_seen=self._internal_state.exo_events_seen,
	milestones_after_event=self._internal_state.milestones_after_event,
	routes_remaining=routes_rem,
	rollback_used=rollback_this_step,
	cascade_collapse=collapse,
	task=task,
	reasoning=getattr(action, 'reasoning', ""),
	completion=getattr(action, 'completion', ""),
	conflict_domain=conflict_domain,
	step_count=self._internal_state.step_count,
	max_steps=self.max_steps,
	metric_changes=metric_changes,
	cumulative_rel_delta=self._internal_state.cumulative_rel_delta,
	action_type=tool_type
	)
	# Charge the rollback penalty only once per episode
	if self._internal_state.used_rollback and not self._internal_state.rollback_penalty_charged:
	self._internal_state.rollback_penalty_charged = True
	else:
	reward, breakdown = compute_reward(
	state_before=state_before,
	state_after=self._internal_state.current_metrics,
	resources_used=resource_cost,
	actions_taken=action.actions_taken,
	metric_changes=metric_changes,
	completion=getattr(action, 'completion', ""),
	action_type=tool_type
	)

	# 7. End Conditions
	# Check if ANY success condition is met.
	# For multi-goal tasks with mutually exclusive routes, any() allows termination.
	is_success = any(success_mets) if (success_mets and len(task.success_conditions) > 0) else False
	is_task_failure = any(val == True for val in failure_mets)
	metric_death = any(v <= 10 for v in metrics_after.values())

	failure_reason = ""
	if is_task_failure:
	reasons = [cond['key'] for i, cond in enumerate(task.failure_conditions) if failure_mets[i]]
	failure_reason = f"Condition failed: {', '.join(reasons)}"
	elif metric_death:
	dead_metrics = [k for k, v in metrics_after.items() if v <= 0]
	failure_reason = f"Metrics hit zero: {', '.join(dead_metrics)}"
	elif routes_rem == 0 and not is_success:
	failure_reason = "Dead end: No reachable routes left."

	terminated = is_task_failure or metric_death
	truncated = self._internal_state.step_count >= self.max_steps
	if is_success:
	truncated = True
	done = terminated or truncated

	observation = self._get_obs(
	done,
	reward,
	success=is_success,
	failure=terminated,
	failure_reason=failure_reason,
	routes_remaining=routes_rem
	)
	observation.metadata["breakdown"] = breakdown
	observation.metadata["info"] = info_msgs
	return observation

	def rollout(self, n_steps: int = 7, gamma: float = 0.9) -> dict:
	"""
	Simulate n_steps null/rest actions starting from the current env state.

	Intended to be called immediately AFTER env.step(model_action) so it
	models "what happens to your life over the next N days if nothing
	extraordinary occurs."

	The env state is fully restored after the rollout — calling this is
	side-effect-free from the caller's perspective.

	Returns:
	{
	"discounted_reward": float, # γ-discounted cumulative
	"immediate_r0": float, # reward from the action (caller supplies)
	"trajectory": [ # one entry per simulated day
	{
	"step": int, # 1-indexed future day
	"reward": float,
	"metrics": Dict[str, float], # flattened snapshot
	"discounted_contribution": float,
	},
	...
	],
	"n_steps_completed": int,
	}
	"""
	saved_state = copy.deepcopy(self._internal_state)

	null_action = LifeStackAction(
	action_type="rest",
	target="time",
	metric_changes={},
	resource_cost={},
	actions_taken=0,
	)

	trajectory = []
	cumulative = 0.0

	for t in range(n_steps):
	obs = self.step(null_action)
	disc = (gamma ** (t + 1)) * float(obs.reward)
	cumulative += disc
	trajectory.append({
	"step": t + 1,
	"reward": float(obs.reward),
	"metrics": dict(obs.metrics),
	"discounted_contribution": round(disc, 5),
	})
	if obs.done:
	break

	# Restore — rollout must not mutate the env visible to the caller
	self._internal_state = saved_state

	return {
	"discounted_reward": round(cumulative, 5),
	"trajectory": trajectory,
	"n_steps_completed": len(trajectory),
	}

	def render(self):
	"""Vibrant status report of the current state and task progress."""
	task = self._internal_state.current_task
	print("\n" + "═"*70)
	print(f"🎯 GOAL: {task.goal} \| Horizon: {self._internal_state.step_count}/{self.max_steps}")
	print(f"⌛ TIME: {self._internal_state.budget.time_hours:.1f}h \| 💵 MONEY: ${self._internal_state.budget.money_dollars:.1f} \| ⚡ ENERGY: {self._internal_state.budget.energy_units:.1f}")

	if self._internal_state.active_route_id:
	print(f"🛣️ ACTIVE ROUTE: {self._internal_state.active_route_id}")

	print(f"⭐ MILESTONES: {', '.join(self._internal_state.milestones_achieved) or 'None'}")

	if self._internal_state.fired_event_ids:
	print(f"🚨 EVENTS: {', '.join(self._internal_state.fired_event_ids)}")

	flat = self._internal_state.current_metrics.flatten()
	domain_labels = {
	"career": "💼 CAREER",
	"finances": "💰 FINANCES",
	"relationships": "❤️ RELATIONSHIPS",
	"physical_health": "💪 PHYSICAL",
	"mental_wellbeing": "🧠 MENTAL",
	"time": "📅 TIME"
	}

	for dom, label in domain_labels.items():
	print(f"\n{label}")
	submetrics = {k: v for k, v in flat.items() if k.startswith(dom + ".")}
	inverted = {"stress_level", "debt_pressure", "workload", "commute_burden", "admin_overhead"}
	for name, val in submetrics.items():
	short = name.split('.')[1]
	icon = ("🔴" if val > 70 else "🟢") if short in inverted else ("🟢" if val > 70 else "🔴")
	if 40 <= val <= 70: icon = "🟡"
	print(f" {icon} {short:20} : {val:5.2f}")
	print("═"*70)


	def env_render_compact(env, obs):
	"""Compact printer for testing."""
	print(f"STEP: {obs.step} \| REWARD: {obs.reward:.3f} \| DONE: {obs.done}")
	if obs.metadata.get("breakdown", {}).get("penalties_fired"):
	print(f" ⚠️ PENALTIES: {obs.metadata['breakdown']['penalties_fired']}")


	def main():
	env = LifeStackEnv()

	# 1. Reset with Friday 6PM Conflict
	conflict = {
	"career.workload": 30.0,
	"finances.liquidity": -40.0
	}
	print("Initializing environment with Friday 6PM conflict...")
	env.reset(conflict=conflict)
	env.render()

	total_reward = 0
	metrics_history = []

	# 2. Sequential Actions
	scenarios = [
	{
	"name": "GOOD ACTION: Delegating and budget review",
	"action": {
	"metric_changes": {"career.workload": -15.0, "finances.liquidity": 10.0, "mental_wellbeing.stress_level": -5.0},
	"resource_cost": {"time": 4.0, "money": 100.0, "energy": 20.0},
	"actions_taken": 2
	}
	},
	{
	"name": "MEDIUM ACTION: Small self-care rest",
	"action": {
	"metric_changes": {"physical_health.sleep_quality": 6.0, "mental_wellbeing.clarity": 3.0},
	"resource_cost": {"time": 2.0, "energy": -20.0}, # Rest recovers energy
	"actions_taken": 1
	}
	},
	{
	"name": "INACTION: Let the cascade run",
	"action": {
	"metric_changes": {},
	"resource_cost": {},
	"actions_taken": 0
	}
	}
	]

	for sce in scenarios:
	print(f"\nTaking Action: {sce['name']}...")
	action_obj = LifeStackAction(**sce['action'])
	obs = env.step(action_obj)
	env_render_compact(env, obs)
	total_reward += (obs.reward or 0.0)

	# 3. Final Summary
	final_flat = env.state.current_metrics.flatten()
	critical = [k for k, v in final_flat.items() if v < 20]

	print("\n" + "█"*60)
	print("EPISODE SUMMARY")
	print(f"Steps Taken : {env.state.step_count}")
	print(f"Total Cumulative Reward : {total_reward:.4f}")
	if critical:
	print(f"Critical Floor Violations: {', '.join(critical)}")
	else:
	print("Critical Violations: NONE")
	print("█"*60)

	if __name__ == "__main__":
	main()