Spaces:

Not-OmKar
/

grid

Sleeping

App Files Files Community

grid / smartgrid_mas /env.py

Not-OmKar

Big update

427a79e about 1 month ago

raw

history blame contribute delete

21.7 kB

	import random
	import uuid
	from dataclasses import dataclass, field
	from typing import Dict, Optional

	from smartgrid_mas.engine.policies import (
	adaptive_stackelberg_action,
	heuristic_joint_action,
	random_joint_action,
	)
	from smartgrid_mas.engine.control import ReliabilityDispatchControlAgent
	from smartgrid_mas.engine.dynamics import evolve_grid
	from smartgrid_mas.engine.ldu import enforce_dispatch
	from smartgrid_mas.engine.market import clear_market
	from smartgrid_mas.engine.reward import compute_reward
	from smartgrid_mas.models import (
	DispatchAction,
	JointAction,
	MarketObservation,
	MarketReward,
	ResetResponse,
	StateResponse,
	StepResponse,
	)
	from smartgrid_mas.tasks import TaskConfig, get_task, list_tasks


	SCHEMA_INFO = (
	"Provide a JointAction with supply and demand bids from multiple agents plus EV charge/discharge "
	"commands. Market clears bids first, then the Reliability Dispatch Control Agent proposes corrective dispatch, "
	"and the Physics-Constrained Safety Shield enforces physical feasibility and logs corrections."
	)


	@dataclass
	class Session:
	task: TaskConfig
	rng: random.Random
	session_id: str = field(default_factory=lambda: str(uuid.uuid4()))
	step: int = 0
	done: bool = False
	demand_mwh: float = 0.0
	renewable_mwh: float = 0.0
	peaker_capacity_mwh: float = 0.0
	ev_storage_mwh: float = 0.0
	ev_storage_capacity_mwh: float = 0.0
	base_price: float = 0.0
	last_clearing_price: float = 0.0
	prior_gap: float = 0.0
	correction_count: int = 0
	infeasible_actions: int = 0
	total_demand_met: float = 0.0
	total_cost: float = 0.0
	reward_history: list = field(default_factory=list)
	event_log: list = field(default_factory=list)
	shock_seen: bool = False
	contingency_seen: bool = False
	contingency_type: str = "none"
	operator_override_enabled: bool = False
	forecast_demand_mwh: float = 0.0
	forecast_renewable_mwh: float = 0.0
	load_forecast_error_mwh: float = 0.0
	renewable_forecast_error_mwh: float = 0.0
	previous_peaker_dispatch_mwh: float = 0.0
	previous_ev_discharge_mwh: float = 0.0
	peaker_online: bool = False
	contingency_peaker_multiplier: float = 1.0
	contingency_loss_multiplier: float = 1.0
	total_emissions_tco2: float = 0.0
	blackout_steps: int = 0
	reserve_commitment_events: int = 0
	emergency_dispatch_events: int = 0
	stability_events: int = 0
	peaker_activation_timer: int = 0
	personalities: Dict[str, str] = field(default_factory=dict)

	def to_observation(self, hint: Optional[str] = None, error_message: Optional[str] = None) -> MarketObservation:
	public_signal = (
	"Shock regime active; renewable volatility is elevated"
	if self.shock_seen
	else "Normal regime; optimize demand satisfaction with low infeasibility"
	)
	return MarketObservation(
	step=self.step,
	steps_taken=self.step,
	max_steps=self.task.max_steps,
	demand_mwh=round(self.demand_mwh, 3),
	renewable_availability_mwh=round(self.renewable_mwh, 3),
	peaker_capacity_mwh=round(self.peaker_capacity_mwh, 3),
	ev_storage_mwh=round(self.ev_storage_mwh, 3),
	ev_storage_capacity_mwh=round(self.ev_storage_capacity_mwh, 3),
	last_clearing_price=round(self.last_clearing_price, 3),
	leader_price_signal=round(self.base_price, 3),
	scarcity_index=round(max(0.0, (self.demand_mwh - self.renewable_mwh) / max(self.demand_mwh, 1e-6)), 4),
	shock_active=self.shock_seen,
	forecast_demand_mwh=round(self.forecast_demand_mwh, 3),
	forecast_renewable_mwh=round(self.forecast_renewable_mwh, 3),
	load_forecast_error_mwh=round(self.load_forecast_error_mwh, 3),
	renewable_forecast_error_mwh=round(self.renewable_forecast_error_mwh, 3),
	contingency_active=self.contingency_seen,
	contingency_type=self.contingency_type,
	operator_override_enabled=self.operator_override_enabled,
	public_signal=public_signal,
	schema_info=SCHEMA_INFO,
	hint=hint,
	error_message=error_message,
	)


	class SmartGridMarketEnv:
	def __init__(self):
	self._sessions: Dict[str, Session] = {}
	self._latest_session_id: Optional[str] = None

	def reset(self, task_id: str = "default", seed: Optional[int] = None) -> ResetResponse:
	task = get_task(task_id)
	rng = random.Random(seed)
	session = Session(
	task=task,
	rng=rng,
	demand_mwh=task.initial_demand_mwh,
	renewable_mwh=task.initial_renewable_mwh,
	peaker_capacity_mwh=task.peaker_capacity_mwh,
	ev_storage_mwh=task.ev_storage_mwh,
	ev_storage_capacity_mwh=task.ev_storage_capacity_mwh,
	base_price=task.base_price_usd_per_mwh,
	last_clearing_price=task.base_price_usd_per_mwh,
	personalities={
	"renewable_1": rng.choice(["opportunistic", "balanced"]),
	"peaker_1": rng.choice(["greedy", "balanced", "risk_averse"]),
	"industrial_1": rng.choice(["risk_averse", "balanced"]),
	"ev_1": rng.choice(["balanced", "risk_averse"]),
	},
	forecast_demand_mwh=task.initial_demand_mwh,
	forecast_renewable_mwh=task.initial_renewable_mwh,
	)
	self._sessions[session.session_id] = session
	self._latest_session_id = session.session_id

	return ResetResponse(
	session_id=session.session_id,
	task_id=task.task_id,
	task_description=task.description,
	schema_info=SCHEMA_INFO,
	steps_taken=0,
	observation=session.to_observation(hint=task.hint),
	)

	def step(
	self,
	action: JointAction,
	session_id: Optional[str] = None,
	dispatch_action: Optional[DispatchAction] = None,
	) -> StepResponse:
	session = self._get_session(session_id)
	if session.done:
	return StepResponse(
	observation=session.to_observation(error_message="Episode finished. Call reset."),
	reward=compute_reward(
	dispatch={
	"delivered_supply_mwh": 0.0,
	"unmet_demand_mwh": 0.0,
	"oversupply_mwh": 0.0,
	"correction_count": 0,
	"storage_loss_mwh": 0.0,
	"renewable_dispatch_mwh": 0.0,
	},
	clearing_price=session.last_clearing_price,
	demand_mwh=max(1.0, session.demand_mwh),
	prior_gap=0.0,
	),
	done=True,
	truncated=False,
	info={"error": "episode_done"},
	)

	applied_action = action
	if session.operator_override_enabled:
	applied_action = heuristic_joint_action(session.to_observation(), personality="risk_averse")
	market = clear_market(applied_action.bids, leader_price_signal=session.base_price)
	dispatch_action = dispatch_action or self._resolve_dispatch_action(session, market, session.to_observation())
	effective_peaker_capacity = session.peaker_capacity_mwh * session.contingency_peaker_multiplier
	effective_peaker_capacity += dispatch_action.reserve_activation_mwh + dispatch_action.peaker_adjustment_mwh
	applied_ev_charge = applied_action.ev_charge_mwh
	applied_ev_discharge = applied_action.ev_discharge_mwh
	if dispatch_action.storage_dispatch_mwh >= 0.0:
	applied_ev_discharge += dispatch_action.storage_dispatch_mwh
	else:
	applied_ev_charge += abs(dispatch_action.storage_dispatch_mwh)
	expected_residual = max(0.0, market.get("cleared_mwh", 0.0) - session.renewable_mwh)
	if (
	session.task.peaker_activation_delay_steps > 0
	and not session.peaker_online
	and session.peaker_activation_timer == 0
	and expected_residual > 0.0
	):
	session.peaker_activation_timer = session.task.peaker_activation_delay_steps
	session.event_log.append(
	{
	"step": session.step,
	"type": "peaker_startup_delay",
	"delay_steps": session.task.peaker_activation_delay_steps,
	}
	)
	dispatch_override_active = (
	dispatch_action.reserve_activation_mwh > 0.0
	or dispatch_action.peaker_adjustment_mwh > 0.0
	or dispatch_action.storage_dispatch_mwh > 0.0
	or dispatch_action.corrective_redispatch_mwh > 0.0
	)
	if dispatch_override_active and session.peaker_activation_timer > 0:
	session.peaker_activation_timer = 0
	if session.peaker_activation_timer > 0:
	effective_peaker_capacity = 0.0
	session.peaker_activation_timer -= 1

	adjusted_market = dict(market)
	dispatch_target_shift = dispatch_action.corrective_redispatch_mwh
	adjusted_market["cleared_mwh"] = max(0.0, adjusted_market.get("cleared_mwh", 0.0) + dispatch_target_shift)
	adjusted_market["dispatcher_action"] = dispatch_action.model_dump()

	dispatch, next_storage = enforce_dispatch(
	market_result=adjusted_market,
	demand_mwh=session.demand_mwh,
	renewable_available_mwh=session.renewable_mwh,
	peaker_capacity_mwh=effective_peaker_capacity,
	ev_storage_mwh=session.ev_storage_mwh,
	ev_storage_capacity_mwh=session.ev_storage_capacity_mwh,
	ev_charge_mwh=applied_ev_charge,
	ev_discharge_mwh=applied_ev_discharge,
	reserve_margin_ratio=session.task.reserve_margin_ratio,
	reserve_commitment_threshold_ratio=session.task.reserve_commitment_threshold_ratio,
	peaker_ramp_limit_mwh=session.task.peaker_ramp_limit_mwh,
	ev_ramp_limit_mwh=session.task.ev_ramp_limit_mwh,
	previous_peaker_dispatch_mwh=session.previous_peaker_dispatch_mwh,
	previous_ev_discharge_mwh=session.previous_ev_discharge_mwh,
	previous_peaker_online=session.peaker_online,
	peaker_startup_cost_usd=session.task.peaker_startup_cost_usd,
	peaker_emission_factor_tco2_per_mwh=session.task.peaker_emission_factor_tco2_per_mwh,
	transmission_loss_multiplier=session.contingency_loss_multiplier,
	carbon_price_usd_per_tco2=session.task.carbon_price_usd_per_tco2,
	enable_reserve_logic=session.task.enable_reserve_logic,
	enable_ramp_limits=session.task.enable_ramp_limits,
	enable_startup_emissions=session.task.enable_startup_emissions,
	)

	reward = compute_reward(
	dispatch=dispatch,
	clearing_price=market["clearing_price"] or session.base_price,
	demand_mwh=session.demand_mwh,
	prior_gap=session.prior_gap,
	carbon_price_usd_per_tco2=session.task.carbon_price_usd_per_tco2,
	)

	session.step += 1
	session.ev_storage_mwh = next_storage
	session.last_clearing_price = market["clearing_price"] or session.base_price
	session.prior_gap = dispatch["delivered_supply_mwh"] - session.demand_mwh
	session.previous_peaker_dispatch_mwh = dispatch.get("peaker_dispatch_mwh", 0.0)
	session.previous_ev_discharge_mwh = dispatch.get("ev_discharge_mwh", 0.0)
	session.peaker_online = bool(dispatch.get("peaker_online", False))
	session.correction_count += dispatch["correction_count"]
	if dispatch["correction_count"] > 0:
	session.infeasible_actions += 1
	session.total_demand_met += min(session.demand_mwh, dispatch["delivered_supply_mwh"])
	energy_cost = dispatch["delivered_supply_mwh"] * session.last_clearing_price
	session.total_cost += energy_cost + dispatch.get("startup_cost_usd", 0.0) + dispatch.get("emissions_cost_usd", 0.0)
	session.total_emissions_tco2 += dispatch.get("emissions_tco2", 0.0)
	if dispatch["unmet_demand_mwh"] > 0.0:
	session.blackout_steps += 1
	if dispatch.get("reserve_commitment_active", False):
	session.reserve_commitment_events += 1
	if dispatch.get("emergency_dispatch_triggered", False):
	session.emergency_dispatch_events += 1
	if dispatch.get("stability_risk_index", 0.0) >= 0.45:
	session.stability_events += 1
	session.reward_history.append(reward.score)

	private_views = self._build_private_agent_views(session, market, dispatch)

	next_demand, next_renewable, next_price, dyn_info = evolve_grid(
	demand_mwh=session.demand_mwh,
	renewable_mwh=session.renewable_mwh,
	base_price_usd_per_mwh=session.base_price,
	step=session.step,
	task=session.task,
	rng=session.rng,
	)
	session.demand_mwh = next_demand
	session.renewable_mwh = next_renewable
	session.base_price = next_price
	session.shock_seen = session.shock_seen or dyn_info["shock_active"]
	session.contingency_seen = session.contingency_seen or dyn_info.get("contingency_active", False)
	session.contingency_type = dyn_info.get("contingency_type", "none")
	session.forecast_demand_mwh = dyn_info.get("forecast_demand_mwh", session.demand_mwh)
	session.forecast_renewable_mwh = dyn_info.get("forecast_renewable_mwh", session.renewable_mwh)
	session.load_forecast_error_mwh = dyn_info.get("load_forecast_error_mwh", 0.0)
	session.renewable_forecast_error_mwh = dyn_info.get("renewable_forecast_error_mwh", 0.0)
	session.contingency_peaker_multiplier = dyn_info.get("peaker_capacity_multiplier", 1.0)
	session.contingency_loss_multiplier = dyn_info.get("transmission_loss_multiplier", 1.0)

	event = {
	"step": session.step,
	"market": market,
	"dispatch_action": dispatch_action.model_dump(),
	"dispatch": dispatch,
	"reward": reward.model_dump(),
	"dynamics": dyn_info,
	"agent_private_views": private_views,
	}
	session.event_log.append(event)

	done = session.step >= session.task.max_steps
	session.done = done

	info = {
	"market": market,
	"dispatch_action": dispatch_action.model_dump(),
	"dispatch": dispatch,
	"dynamics": dyn_info,
	"agent_private_views": private_views,
	"summary": {
	"avg_reward": round(sum(session.reward_history) / len(session.reward_history), 4),
	"total_demand_met_mwh": round(session.total_demand_met, 3),
	"total_cost_usd": round(session.total_cost, 3),
	"total_emissions_tco2": round(session.total_emissions_tco2, 4),
	"blackout_steps": session.blackout_steps,
	"infeasible_actions": session.infeasible_actions,
	"ldu_corrections": session.correction_count,
	"reserve_commitment_events": session.reserve_commitment_events,
	"emergency_dispatch_events": session.emergency_dispatch_events,
	"stability_events": session.stability_events,
	"leader_adjusted_bids": market["leader_adjusted_bids"],
	"personality_map": session.personalities,
	"operator_override_enabled": session.operator_override_enabled,
	},
	}

	return StepResponse(
	observation=session.to_observation(),
	reward=reward,
	done=done,
	truncated=False,
	info=info,
	)

	def policy_action(
	self,
	policy: str = "adaptive",
	personality: str = "balanced",
	session_id: Optional[str] = None,
	) -> JointAction:
	session = self._get_session(session_id)
	obs = session.to_observation()
	if policy == "random":
	return random_joint_action(obs, session.rng)
	if policy == "heuristic":
	return heuristic_joint_action(obs, personality=personality)
	return adaptive_stackelberg_action(obs, personality=personality)

	def dispatch_action(
	self,
	personality: str = "balanced",
	session_id: Optional[str] = None,
	cleared_mwh: Optional[float] = None,
	) -> DispatchAction:
	session = self._get_session(session_id)
	obs = session.to_observation()
	controller = ReliabilityDispatchControlAgent(personality=personality)
	return controller.act(obs, cleared_mwh=float(cleared_mwh if cleared_mwh is not None else obs.demand_mwh))

	def state(self, session_id: Optional[str] = None) -> StateResponse:
	session = self._get_session(session_id)
	return StateResponse(
	current_task_id=session.task.task_id,
	steps_taken=session.step,
	episode_done=session.done,
	observation=session.to_observation(),
	)

	def events(self, session_id: Optional[str] = None) -> Dict:
	session = self._get_session(session_id)
	return {"session_id": session.session_id, "events": session.event_log[-50:]}

	def inject_shock(self, session_id: Optional[str] = None, renewable_drop_mwh: float = 20.0) -> Dict:
	session = self._get_session(session_id)
	before = session.renewable_mwh
	session.renewable_mwh = max(0.0, session.renewable_mwh - max(0.0, renewable_drop_mwh))
	session.shock_seen = True
	event = {
	"step": session.step,
	"type": "manual_shock",
	"renewable_before_mwh": round(before, 3),
	"renewable_after_mwh": round(session.renewable_mwh, 3),
	"drop_mwh": round(max(0.0, renewable_drop_mwh), 3),
	}
	session.event_log.append(event)
	return {
	"session_id": session.session_id,
	"shock_event": event,
	"observation": session.to_observation(),
	}

	def get_schema(self) -> Dict:
	return {
	"action_schema": JointAction.model_json_schema(),
	"dispatch_action_schema": DispatchAction.model_json_schema(),
	"observation_schema": MarketObservation.model_json_schema(),
	"reward_schema": MarketReward.model_json_schema(),
	"tasks": list_tasks(),
	"notes": "Hybrid Theme 1+2+3.1 baseline implementation with the Physics-Constrained Safety Shield as core physical layer",
	}

	def set_operator_override(self, enabled: bool, session_id: Optional[str] = None) -> Dict:
	session = self._get_session(session_id)
	session.operator_override_enabled = bool(enabled)
	event = {
	"step": session.step,
	"type": "operator_override",
	"enabled": session.operator_override_enabled,
	}
	session.event_log.append(event)
	return {
	"session_id": session.session_id,
	"operator_override_enabled": session.operator_override_enabled,
	"event": event,
	}

	def _get_session(self, session_id: Optional[str]) -> Session:
	sid = session_id or self._latest_session_id
	if sid is None or sid not in self._sessions:
	raise KeyError("No active session. Call /reset first.")
	return self._sessions[sid]

	def _build_private_agent_views(self, session: Session, market: Dict, dispatch: Dict) -> Dict[str, Dict]:
	scarcity = max(0.0, (session.demand_mwh - session.renewable_mwh) / max(session.demand_mwh, 1e-6))
	spread = max(0.0, session.base_price - session.last_clearing_price)
	return {
	"renewable_1": {
	"personality": session.personalities.get("renewable_1", "balanced"),
	"curtailment_risk": round(max(0.0, session.renewable_mwh - market.get("cleared_mwh", 0.0)), 3),
	"forecast_bias": round(session.rng.uniform(-3.0, 3.0), 3),
	},
	"peaker_1": {
	"personality": session.personalities.get("peaker_1", "balanced"),
	"scarcity_index": round(scarcity, 4),
	"margin_signal": round(market.get("clearing_price", session.base_price) - 42.0, 3),
	},
	"industrial_1": {
	"personality": session.personalities.get("industrial_1", "balanced"),
	"budget_pressure": round(
	market.get("clearing_price", session.base_price) / max(session.base_price, 1e-6),
	4,
	),
	"unmet_demand_mwh": dispatch["unmet_demand_mwh"],
	},
	"ev_1": {
	"personality": session.personalities.get("ev_1", "balanced"),
	"soc_ratio": round(session.ev_storage_mwh / max(session.ev_storage_capacity_mwh, 1e-6), 4),
	"arbitrage_spread": round(spread, 3),
	},
	}

	def _resolve_dispatch_action(
	self,
	session: Session,
	market: Dict,
	observation: MarketObservation,
	personality: str = "balanced",
	) -> DispatchAction:
	controller = ReliabilityDispatchControlAgent(personality=personality)
	return controller.act(observation, cleared_mwh=float(market.get("cleared_mwh", observation.demand_mwh)))