Upload folder using huggingface_hub

3d2dbcf verified 3 months ago

7.8 kB

	from __future__ import annotations

	from dataclasses import dataclass

	import numpy as np
	import torch
	from torch import nn

	from env.intersection_config import DISTRICT_TYPES

	POLICY_ARCHES: tuple[str, ...] = (
	"multi_head",
	"single_head",
	"single_head_with_district_feature",
	)


	class TrafficControlQNetwork(nn.Module):
	"""Parameter-shared dueling Q-network for intersection-level control."""

	def __init__(
	self,
	observation_dim: int,
	action_dim: int = 2,
	hidden_dim: int = 256,
	num_layers: int = 2,
	district_types: tuple[str, ...] = DISTRICT_TYPES,
	policy_arch: str = "single_head_with_district_feature",
	dueling: bool = True,
	):
	super().__init__()
	if policy_arch not in POLICY_ARCHES:
	raise ValueError(
	f"Unsupported policy architecture: {policy_arch}. "
	f"Expected one of {POLICY_ARCHES}."
	)

	layers: list[nn.Module] = []
	input_dim = observation_dim
	for _ in range(num_layers):
	layers.extend(
	[
	nn.Linear(input_dim, hidden_dim),
	nn.ReLU(),
	]
	)
	input_dim = hidden_dim

	self.observation_dim = int(observation_dim)
	self.action_dim = int(action_dim)
	self.hidden_dim = int(hidden_dim)
	self.num_layers = int(num_layers)
	self.district_types = tuple(district_types)
	self.policy_arch = policy_arch
	self.dueling = bool(dueling)

	self.backbone = nn.Sequential(*layers)
	if self.policy_arch == "multi_head":
	self.advantage_heads = nn.ModuleList(
	[nn.Linear(hidden_dim, action_dim) for _ in self.district_types]
	)
	self.value_heads = nn.ModuleList(
	[nn.Linear(hidden_dim, 1) for _ in self.district_types]
	)
	self.advantage_head = None
	self.value_head = None
	else:
	self.advantage_heads = None
	self.value_heads = None
	self.advantage_head = nn.Linear(hidden_dim, action_dim)
	self.value_head = nn.Linear(hidden_dim, 1)

	def forward(
	self,
	observations: torch.Tensor,
	district_type_indices: torch.Tensor,
	action_mask: torch.Tensor \| None = None,
	) -> torch.Tensor:
	features = self.backbone(observations)
	advantages, values = self._q_streams(features, district_type_indices)
	if self.dueling:
	q_values = values + advantages - advantages.mean(dim=-1, keepdim=True)
	else:
	q_values = advantages
	if action_mask is not None:
	q_values = self._apply_action_mask(q_values, action_mask)
	return q_values

	def act(
	self,
	observations: torch.Tensor,
	district_type_indices: torch.Tensor,
	action_mask: torch.Tensor \| None = None,
	deterministic: bool = False,
	epsilon: float = 0.0,
	) -> torch.Tensor:
	q_values = self.forward(
	observations=observations,
	district_type_indices=district_type_indices,
	action_mask=action_mask,
	)
	greedy_actions = q_values.argmax(dim=-1)
	if deterministic or epsilon <= 0.0:
	return greedy_actions

	random_mask = torch.rand(greedy_actions.shape[0], device=greedy_actions.device) < float(
	epsilon
	)
	if not random_mask.any():
	return greedy_actions

	actions = greedy_actions.clone()
	valid_action_mask = (
	action_mask if action_mask is not None else torch.ones_like(q_values, dtype=torch.float32)
	)
	random_rows = torch.nonzero(random_mask, as_tuple=False).flatten()
	for row_index in random_rows.tolist():
	valid_actions = torch.nonzero(valid_action_mask[row_index] > 0.0, as_tuple=False).flatten()
	if valid_actions.numel() == 0:
	actions[row_index] = 0
	continue
	sample_index = torch.randint(
	low=0,
	high=valid_actions.numel(),
	size=(1,),
	device=actions.device,
	)
	actions[row_index] = valid_actions[sample_index].item()
	return actions

	def q_values_for_actions(
	self,
	observations: torch.Tensor,
	district_type_indices: torch.Tensor,
	actions: torch.Tensor,
	action_mask: torch.Tensor \| None = None,
	) -> torch.Tensor:
	q_values = self.forward(
	observations=observations,
	district_type_indices=district_type_indices,
	action_mask=action_mask,
	)
	return q_values.gather(dim=1, index=actions.view(-1, 1)).squeeze(1)

	def _q_streams(
	self,
	features: torch.Tensor,
	district_type_indices: torch.Tensor,
	) -> tuple[torch.Tensor, torch.Tensor]:
	if self.policy_arch == "multi_head":
	all_advantages = torch.stack(
	[head(features) for head in self.advantage_heads],
	dim=1,
	)
	all_values = torch.stack(
	[head(features) for head in self.value_heads],
	dim=1,
	)
	gather_adv = district_type_indices.view(-1, 1, 1).expand(-1, 1, self.action_dim)
	gather_val = district_type_indices.view(-1, 1, 1)
	advantages = all_advantages.gather(dim=1, index=gather_adv).squeeze(1)
	values = all_values.gather(dim=1, index=gather_val).squeeze(1)
	return advantages, values

	return self.advantage_head(features), self.value_head(features)

	def _apply_action_mask(
	self,
	q_values: torch.Tensor,
	action_mask: torch.Tensor,
	) -> torch.Tensor:
	masked_q_values = q_values.masked_fill(action_mask <= 0.0, -1.0e9)
	all_invalid = action_mask.sum(dim=-1) <= 0.0
	if all_invalid.any():
	masked_q_values[all_invalid, 0] = 0.0
	return masked_q_values


	@dataclass
	class RunningNormalizer:
	epsilon: float = 1e-6

	def __post_init__(self) -> None:
	self.count = 0
	self.mean: np.ndarray \| None = None
	self.m2: np.ndarray \| None = None

	def update(self, batch: np.ndarray) -> None:
	array = np.asarray(batch, dtype=np.float64)
	if array.ndim != 2:
	raise ValueError("Normalizer expects a 2D batch of observations.")

	if self.mean is None:
	self.mean = np.zeros(array.shape[1], dtype=np.float64)
	self.m2 = np.zeros(array.shape[1], dtype=np.float64)

	for row in array:
	self.count += 1
	delta = row - self.mean
	self.mean += delta / self.count
	delta2 = row - self.mean
	self.m2 += delta * delta2

	def normalize(self, batch: np.ndarray) -> np.ndarray:
	array = np.asarray(batch, dtype=np.float32)
	if self.mean is None or self.m2 is None or self.count < 2:
	return array

	variance = self.m2 / max(1, self.count - 1)
	std = np.sqrt(np.maximum(variance, self.epsilon))
	return ((array - self.mean.astype(np.float32)) / std.astype(np.float32)).astype(
	np.float32
	)

	def state_dict(self) -> dict:
	return {
	"count": self.count,
	"mean": self.mean,
	"m2": self.m2,
	"epsilon": self.epsilon,
	}

	def load_state_dict(self, state_dict: dict) -> None:
	self.count = int(state_dict["count"])
	self.mean = state_dict["mean"]
	self.m2 = state_dict["m2"]
	self.epsilon = float(state_dict.get("epsilon", self.epsilon))