Spaces:

lil58
/

interview

Running

interview / config.yaml

Lee93whut

docs: clean up R3/R4 record and consolidate technical narrative

92423f0 3 days ago

6.11 kB

	# ─────────────────────────────────────────────
	# Maze Environment Configuration
	# ─────────────────────────────────────────────
	maze:
	grid_size: 10
	obstacle_density: 0.25
	max_steps: 200
	# seed 字段已移除：正常训练地图随机多样化，保证泛化能力。
	# 需固定地图时请使用 overfit 节或显式调用 env.reset(seed=X)。

	# ─────────────────────────────────────────────
	# Reward shaping
	# ─────────────────────────────────────────────
	rewards:
	goal: 100
	wall_hit: -10
	step: -1
	distance_shaping_alpha: 0.0 # 距离 shaping 系数；0 = 关闭
	# env.py 内部支持该参数（每步额外奖励 = alpha × Δ曼哈顿距离），
	# 但当前 train.py 重构后未透传此字段，实际为 0.0。
	# 若需启用，需在 src/train.py 手工构造 MazeEnv(...) 处追加
	# `distance_shaping_alpha=distance_shaping_alpha` 并在配置读取处
	# 解析 reward_cfg.get("distance_shaping_alpha", 0.0)。
	revisit_penalty: 0.0 # 已移至状态层：visited_map 第4通道编码访问历史（Markov-correct）
	# 奖励层 revisit_penalty 违反马尔可夫性，已弃用

	# ─────────────────────────────────────────────
	# DQN Training Hyperparameters
	# ─────────────────────────────────────────────
	dqn:
	# ── Reproducibility ──────────────────────────
	seed: 42

	# ── Algorithm variant ─────────────────────────────────────────────────
	# vanilla : DQNNetwork + Vanilla Target (Mnih et al., 2015)
	# double : DQNNetwork + Double DQN (van Hasselt et al., AAAI 2016)
	# dueling : DuelingDQN + Vanilla Target (Wang et al., 2016) ← 最优（R4 Holdout 84%）
	# double_dueling : DuelingDQN + Double DQN (两项改进正交叠加)
	algorithm: "dueling"

	# ── Replay Buffer ────────────────────────────
	buffer_capacity: 80000 # max transitions stored (ring-list, O(batch_size) sampling)
	# r2=20000 约 250 局轮换，成功样本快速消失，r3 起扩至 80000（约 1000 局）
	batch_size: 64 # SGD mini-batch size

	# ── Training schedule ────────────────────────
	num_episodes: 5000 # total training episodes
	# r1=2000 时曲线未收敛，r2 起调整为 6000
	# r4 起改为 5000：R3 峰值在 ep=3750，5000 有余量且节省时间
	learning_rate: 0.0005
	gamma: 0.99 # discount factor

	# ── ε-greedy exploration ─────────────────────
	epsilon_start: 1.0
	epsilon_end: 0.05
	epsilon_decay: 0.9985 # multiplicative decay per episode (after warmup)
	# r1=0.995 导致 ep≈800 探索触底，后 1200 ep 样本多样性枯竭
	# r2 起调整为 0.9985，ep≈2189 才触底，覆盖完整有效训练期

	# ── Target network sync ──────────────────────
	target_update_freq: 1500 # hard-copy every N gradient update steps
	# r2=500 随机起终点 Q 方差大，同步过频导致目标漂移；r3 起调整为 1500

	# ── Episode-based warmup ─────────────────────
	warmup_episodes: 200 # first N episodes: pure random (ε=1.0), no grad updates

	# ── TensorBoard three-category logging ───────
	eval_every: 100 # Evaluation_Exam/ frequency (episodes)
	# r4 从 50 改为 100，减少 EVAL 开销，加速训练（节省约 20%）
	num_test_mazes: 50 # blind test mazes per evaluation

	# ── Logging & saving ─────────────────────────
	log_dir: "runs" # TensorBoard log root
	save_dir: "results" # directory for best_model.pth
	success_window: 100 # rolling window for success-rate metric
	save_window: 50 # rolling window for best-model save trigger
	print_every: 10 # console print frequency (episodes)

	# ── Start / Goal position ─────────────────────
	# false（默认）：固定起点 (1,1)、终点 (N-2,N-2)，与现有训练模型兼容
	# true ：每局随机选取起终点，评估也随机化，需重新训练模型
	random_start_goal: true

	# ─────────────────────────────────────────────
	# Overfit (debug) mode — 5×5 tiny maze
	# ─────────────────────────────────────────────
	overfit:
	grid_size: 5
	obstacle_density: 0.0 # no random obstacles → deterministic map
	max_steps: 50
	seed: 0
	num_episodes: 500
	epsilon_decay: 0.990
	warmup_episodes: 50 # shorter warmup for overfit debug
	batch_size: 32
	target_update_freq: 100
	eval_every: 50
	num_test_mazes: 10
	print_every: 50
	algorithm: "double_dueling"