Spaces:

lil58
/

interview

Running

Lee93whut

docs: clean up R3/R4 record and consolidate technical narrative

92423f0 4 days ago

19 kB

	"""MazeEnv 环境核心 —— 符合 OpenAI Gymnasium 标准接口（生产级）。

	设计要点
	--------
	* 唯一随机源：所有随机操作统一使用 Gymnasium 注入的 ``self.np_random``
	句柄（``numpy.random.Generator``），通过 ``super().reset(seed=seed)``
	初始化，严格禁止 ``numpy.random.*`` 全局函数或标准库 ``random``。
	* 连通性保证：``reset()`` 内嵌 BFS，确保生成的迷宫起点→终点绝对
	可达，不可达时自动重新采样，直到满足条件。
	* 终止语义区分：

	* ``terminated = True`` —— Agent 到达终点（任务成功完成）。
	* ``truncated = True`` —— 超出 ``max_steps`` 步数上限（时间截断）。
	* 二者严格互斥，不会同时为 ``True``。

	* 奖励语义：撞墙时同时扣除时间惩罚（``reward_step``）与撞墙惩罚
	（``reward_wall_hit``），体现每一步都有时间成本。

	典型用法::

	from maze_env import MazeEnv, Action

	env = MazeEnv.from_yaml("config.yaml")
	obs, info = env.reset()

	for _ in range(500):
	action = env.action_space.sample()
	obs, reward, terminated, truncated, info = env.step(action)
	if terminated or truncated:
	obs, info = env.reset()

	env.close()
	"""

	from __future__ import annotations

	from pathlib import Path
	from typing import Any, Optional, SupportsFloat

	import numpy as np
	import yaml
	import gymnasium as gym
	from gymnasium import spaces

	from maze_env.actions import Action, DELTAS
	from maze_env.generator import bfs_reachable, generate_maze
	from maze_env.renderer import render_frame


	__all__ = ["MazeEnv"]


	class MazeEnv(gym.Env):
	"""二维迷宫环境，遵循 OpenAI Gymnasium ``Env`` 标准接口（生产级）。

	状态空间
	--------
	``Box(0, 1, shape=(4, N, N), dtype=np.float32)``

	* 通道 0 —— 墙壁层：``1.0`` 表示墙，``0.0`` 表示可通行格子。
	* 通道 1 —— Agent 层：Agent 当前所在格子为 ``1.0``，其余为 ``0.0``。
	* 通道 2 —— 终点层：终点格子为 ``1.0``，其余为 ``0.0``。
	* 通道 3 —— 访问历史层：本 episode 内已访问过的格子为 ``1.0``，未访问为 ``0.0``。

	动作空间
	--------
	``Discrete(4)``：使用 :class:`~maze_env.actions.Action` 枚举或整数均可。

	奖励设计
	--------
	* 到达终点：``+reward_goal``（默认 +100），``terminated=True``。
	* 撞墙/越界：``reward_step + reward_wall_hit``（默认 −11），位置保持不变。
	* 正常移动：``reward_step``（默认 −1）。

	Note:
	撞墙时同时扣除时间惩罚与撞墙惩罚（体现每步均有时间成本）。

	Example:
	>>> from maze_env import MazeEnv, Action
	>>> env = MazeEnv(grid_size=6, obstacle_density=0.0, seed=0)
	>>> obs, info = env.reset()
	>>> obs.shape
	(4, 6, 6)
	>>> obs, reward, terminated, truncated, info = env.step(Action.RIGHT)
	>>> info["agent_pos"]
	(1, 2)
	"""

	metadata: dict[str, Any] = {"render_modes": ["human", "ansi"], "render_fps": 4}

	# ------------------------------------------------------------------
	# 构造与参数校验
	# ------------------------------------------------------------------

	def __init__(
	self,
	grid_size: int = 10,
	obstacle_density: float = 0.25,
	max_steps: int = 200,
	seed: Optional[int] = None,
	reward_goal: float = 100.0,
	reward_wall_hit: float = -10.0,
	reward_step: float = -1.0,
	distance_shaping_alpha: float = 0.0,
	render_mode: Optional[str] = None,
	) -> None:
	"""初始化迷宫环境。

	Args:
	grid_size: 迷宫边长 N，最小值为 4。
	obstacle_density: 内部格子成为墙壁的概率，范围 ``[0.0, 1.0)``。
	max_steps: 单幕最大步数，超出后触发 ``truncated=True``。
	seed: 构造期随机种子；每次 ``reset()`` 也可独立传入。
	reward_goal: 到达终点的奖励（建议为正数）。
	reward_wall_hit: 撞墙惩罚（建议为负数）。
	reward_step: 每步时间惩罚（建议为负数）。
	distance_shaping_alpha: 距离 shaping 系数（默认 0.0 = 关闭）。
	每步额外奖励 = alpha × (移动前曼哈顿距离 − 移动后曼哈顿距离)，
	靠近目标为正，远离为负；撞墙步不计入（位置未变）。
	render_mode: 渲染模式，可选 ``"human"`` 或 ``"ansi"``。

	Raises:
	ValueError: 若 ``grid_size < 4``、``obstacle_density`` 越界、
	``max_steps < 1``，或 ``render_mode`` 不在合法值列表中。
	"""
	super().__init__()

	# ── 参数校验 ───────────────────────────────────────────────────
	if grid_size < 4:
	raise ValueError(f"grid_size 必须 >= 4，当前值：{grid_size}")
	if not (0.0 <= obstacle_density < 1.0):
	raise ValueError(
	f"obstacle_density 必须在 [0.0, 1.0) 内，当前值：{obstacle_density}"
	)
	if max_steps < 1:
	raise ValueError(f"max_steps 必须 >= 1，当前值：{max_steps}")
	if render_mode is not None and render_mode not in self.metadata["render_modes"]:
	raise ValueError(
	f"不支持的 render_mode '{render_mode}'，"
	f"可选值：{self.metadata['render_modes']}"
	)

	# ── 超参数（不可变） ───────────────────────────────────────────
	self.grid_size: int = grid_size
	self.obstacle_density: float = obstacle_density
	self.max_steps: int = max_steps
	self.init_seed: Optional[int] = seed
	self.reward_goal: float = reward_goal
	self.reward_wall_hit: float = reward_wall_hit
	self.reward_step: float = reward_step
	self.distance_shaping_alpha: float = distance_shaping_alpha
	self.render_mode: Optional[str] = render_mode

	# ── 空间声明 ───────────────────────────────────────────────────
	self.observation_space: spaces.Box = spaces.Box(
	low=0.0,
	high=1.0,
	shape=(4, grid_size, grid_size), # ch0=wall, ch1=agent, ch2=goal, ch3=visited
	dtype=np.float32,
	)
	self.action_space: spaces.Discrete = spaces.Discrete(len(Action))

	# ── 运行时状态（占位，由 reset() 正式填充） ────────────────────
	self._wall_map: np.ndarray = np.zeros(
	(grid_size, grid_size), dtype=np.float32
	)
	self._visited_map: np.ndarray = np.zeros(
	(grid_size, grid_size), dtype=np.float32
	)
	self._agent_pos: tuple[int, int] = (1, 1)
	self._goal_pos: tuple[int, int] = (grid_size - 2, grid_size - 2)
	self._step_count: int = 0
	self._hit_wall_count: int = 0
	self._episode_success: bool = False

	# ------------------------------------------------------------------
	# 公开只读属性（封装内部状态，供训练脚本等外部代码合法访问）
	# ------------------------------------------------------------------

	@property
	def wall_map(self) -> np.ndarray:
	"""当前幕的墙壁图，形状 ``(N, N)`` float32，1.0=墙，0.0=可通行。

	返回只读视图（zero-copy），防止外部意外篡改环境内部状态。
	若需要可写副本，请显式调用 ``.copy()``。
	"""
	view = self._wall_map.view()
	view.flags.writeable = False
	return view

	@property
	def goal_pos(self) -> tuple[int, int]:
	"""当前幕的终点坐标 ``(row, col)``，只读。"""
	return self._goal_pos

	@property
	def agent_pos(self) -> tuple[int, int]:
	"""Agent 当前坐标 ``(row, col)``，只读。"""
	return self._agent_pos

	@classmethod
	def from_config(
	cls,
	config: dict[str, Any],
	render_mode: Optional[str] = None,
	) -> "MazeEnv":
	"""从已解析的配置字典创建环境实例。

	配置格式::

	maze:
	grid_size: 10
	obstacle_density: 0.25
	max_steps: 200
	rewards:
	goal: 100
	wall_hit: -10
	step: -1

	注：``maze.seed`` 不被此方法读取。需固定地图时，
	请在创建实例后显式调用 ``env.reset(seed=X)``。

	Args:
	config: ``yaml.safe_load`` 等工具解析得到的字典。
	render_mode: 渲染模式。

	Returns:
	配置好的 ``MazeEnv`` 实例。
	"""
	maze_cfg: dict[str, Any] = config["maze"]
	reward_cfg: dict[str, Any] = config.get("rewards", {})
	return cls(
	grid_size=int(maze_cfg.get("grid_size", 10)),
	obstacle_density=float(maze_cfg.get("obstacle_density", 0.25)),
	max_steps=int(maze_cfg.get("max_steps", 200)),
	# seed 不从 config 读取：调用方按需显式传入。
	# config.yaml 中 maze.seed 仅用于 overfit 调试节，
	# 透传此处会导致普通调用者意外锁死到同一张地图。
	reward_goal=float(reward_cfg.get("goal", 100.0)),
	reward_wall_hit=float(reward_cfg.get("wall_hit", -10.0)),
	reward_step=float(reward_cfg.get("step", -1.0)),
	distance_shaping_alpha=float(reward_cfg.get("distance_shaping_alpha", 0.0)),
	render_mode=render_mode,
	)

	@classmethod
	def from_yaml(
	cls,
	path: str \| Path = "config.yaml",
	render_mode: Optional[str] = None,
	) -> "MazeEnv":
	"""从 YAML 文件路径直接创建环境实例。

	Args:
	path: YAML 配置文件路径，默认 ``"config.yaml"``。
	render_mode: 渲染模式。

	Returns:
	配置好的 ``MazeEnv`` 实例。
	"""
	with open(path, "r", encoding="utf-8") as fh:
	cfg = yaml.safe_load(fh)
	return cls.from_config(cfg, render_mode=render_mode)

	# ------------------------------------------------------------------
	# Gymnasium 核心接口
	# ------------------------------------------------------------------

	def reset(
	self,
	*,
	seed: Optional[int] = None,
	options: Optional[dict[str, Any]] = None,
	) -> tuple[np.ndarray, dict[str, Any]]:
	"""重置环境，生成新迷宫并将 Agent 放置到起点。

	Args:
	seed: 本幕随机种子。优先级：``reset(seed=X)`` > 构造期 ``seed``。
	options: 可选注入字典，支持以下键：

	* ``"wall_map"`` (np.ndarray) — 直接使用外部提供的墙壁图，
	跳过随机生成（形状须为 ``(N, N)``，非零为墙）。
	* ``"start"`` (tuple[int,int]) — Agent 起点坐标，
	默认 ``(1, 1)``。
	* ``"goal"`` (tuple[int,int]) — 终点坐标，
	默认 ``(N-2, N-2)``。

	注入外部地图时，调用方须自行保证起点→终点连通。

	Returns:
	``(observation, info)``：初始观测张量与 info 字典。
	"""
	effective_seed = seed if seed is not None else self.init_seed
	super().reset(seed=effective_seed)

	opts: dict[str, Any] = options or {}

	# 重置幕级统计
	self._step_count = 0
	self._hit_wall_count = 0
	self._episode_success = False
	self._visited_map = np.zeros((self.grid_size, self.grid_size), dtype=np.float32)
	self._agent_pos = opts.get("start", (1, 1))
	self._goal_pos = opts.get("goal", (self.grid_size - 2, self.grid_size - 2))
	# 起点标记为已访问
	ar, ac = self._agent_pos
	self._visited_map[ar, ac] = 1.0

	if "wall_map" in opts:
	# ── 外部注入地图（用于推理 / 可视化，跳过随机生成）────────────
	wall_map = np.asarray(opts["wall_map"], dtype=np.float32)
	expected = (self.grid_size, self.grid_size)
	if wall_map.shape != expected:
	raise ValueError(
	f"注入的 wall_map 形状 {wall_map.shape} 与环境 "
	f"grid_size={self.grid_size} 不匹配，期望 {expected}"
	)
	self._wall_map = wall_map
	else:
	# ── 随机生成，BFS 保证连通 ────────────────────────────────────
	while True:
	self._wall_map = generate_maze(
	self.grid_size, self.obstacle_density, self.np_random
	)
	if bfs_reachable(self._wall_map, self._agent_pos, self._goal_pos):
	break

	return self._build_observation(), self._build_info()

	def step(
	self,
	action: int,
	) -> tuple[np.ndarray, SupportsFloat, bool, bool, dict[str, Any]]:
	"""执行一步动作并返回转移结果。

	Args:
	action: 动作编号，合法值 ``{0,1,2,3}`` 或 :class:`Action` 枚举。

	Returns:
	``(observation, reward, terminated, truncated, info)``

	Raises:
	AssertionError: 若 ``action`` 不在合法动作空间内。
	"""
	assert self.action_space.contains(action), (
	f"非法动作 {action!r}，合法范围：{self.action_space}"
	)

	dr, dc = DELTAS[action]
	cur_row, cur_col = self._agent_pos
	new_row, new_col = cur_row + dr, cur_col + dc
	N = self.grid_size

	# 移动前的曼哈顿距离（用于距离 shaping）
	gr, gc = self._goal_pos
	dist_before: int = abs(cur_row - gr) + abs(cur_col - gc)

	# 碰撞检测（显式 bool() 强转，避免 numpy.bool_ 与 Python bool 不一致）
	hit_wall: bool = bool(
	new_row < 0 or new_row >= N
	or new_col < 0 or new_col >= N
	or self._wall_map[new_row, new_col] == 1.0
	)

	if hit_wall:
	self._hit_wall_count += 1
	# 撞墙：时间惩罚 + 撞墙惩罚（体现每步均有时间成本）；位置不变，不计入 shaping
	reward: float = self.reward_step + self.reward_wall_hit
	else:
	self._agent_pos = (new_row, new_col)
	reward = self.reward_step
	# 距离 shaping：靠近目标为正，远离为负（仅有效移动步计入）
	# 注：本项目 config 固定 distance_shaping_alpha=0.0，train.py 也未透传该字段，
	# 故此 if 分支在当前训练/评估流程中永不执行，保留作为参数设计的可扩展点。
	if self.distance_shaping_alpha != 0.0:
	dist_after: int = abs(new_row - gr) + abs(new_col - gc)
	reward += self.distance_shaping_alpha * (dist_before - dist_after)
	# 更新访问地图（有效移动后标记新格子）
	self._visited_map[new_row, new_col] = 1.0

	self._step_count += 1

	# 终止判断（terminated 与 truncated 严格互斥）
	terminated: bool = self._agent_pos == self._goal_pos
	if terminated:
	reward += self.reward_goal
	self._episode_success = True

	truncated: bool = (not terminated) and (self._step_count >= self.max_steps)

	info = self._build_info()
	info["hit_wall"] = hit_wall # 本步撞墙标志（单步，非幕级）

	if self.render_mode == "human":
	self.render()

	return self._build_observation(), float(reward), terminated, truncated, info

	def render(self) -> Optional[str]:
	"""渲染当前状态为 ASCII 网格。

	Returns:
	* ``"ansi"`` 模式：返回字符串。
	* ``"human"`` 模式：打印到 stdout，返回 ``None``。
	* ``None`` 模式：无操作，返回 ``None``。
	"""
	if self.render_mode is None:
	return None

	output = render_frame(
	wall_map=self._wall_map,
	agent_pos=self._agent_pos,
	goal_pos=self._goal_pos,
	step_count=self._step_count,
	max_steps=self.max_steps,
	hit_wall_count=self._hit_wall_count,
	episode_success=self._episode_success,
	)

	if self.render_mode == "human":
	print(output)
	return None
	return output

	def close(self) -> None:
	"""释放资源（当前无外部资源，保留以满足 Gymnasium 接口规范）。"""

	# ------------------------------------------------------------------
	# 私有辅助
	# ------------------------------------------------------------------

	def _build_observation(self) -> np.ndarray:
	"""将当前状态编码为四通道观测张量 ``(4, N, N)``。

	通道说明：
	ch0 — wall_map：墙壁位置（1=墙，0=通路）
	ch1 — agent_map：agent 当前位置（one-hot）
	ch2 — goal_map：终点位置（one-hot）
	ch3 — visited_map：本 episode 内已访问过的格子（二值，1=到达过，0=未到达）
	"""
	N = self.grid_size
	obs = np.zeros((4, N, N), dtype=np.float32)
	obs[0] = self._wall_map
	ar, ac = self._agent_pos
	obs[1, ar, ac] = 1.0
	gr, gc = self._goal_pos
	obs[2, gr, gc] = 1.0
	obs[3] = self._visited_map
	return obs

	def _build_info(self) -> dict[str, Any]:
	"""构建幕级统计 info 字典。

	Returns:
	包含 ``agent_pos``、``goal_pos``、``step_count``、
	``hit_wall_count``、``success`` 五个字段的字典。

	Note:
	``step()`` 会在此基础上额外追加 ``"hit_wall": bool``（单步标志）；
	``reset()`` 返回的 info 不含该字段（初始无此概念），
	调用方需注意两处 info 结构的微小差异。
	"""
	return {
	"agent_pos": self._agent_pos,
	"goal_pos": self._goal_pos,
	"step_count": self._step_count,
	"hit_wall_count": self._hit_wall_count,
	"success": self._episode_success,
	}