Spaces:

lil58
/

interview

Running

Lee93whut commited on 4 days ago

Commit

a888a00

1 Parent(s): f3ed6b3

fix(demo): strengthen anti-loop by penalizing moves toward high-frequency cells

原逻辑只惩罚「离开高频格的argmax动作」，无法阻止 A→B→A→B 振荡。
新增：对每个动作预判目标格，目标格访问次数≥2时同样施加 3.0×cnt 惩罚，
从源头封堵回头路，消除两格死循环。

Files changed (1) hide show

app.py CHANGED Viewed

@@ -40,6 +40,7 @@ import yaml
 # ── maze_env 包（已安装，直接导入）──────────────────────────────────────────
 from maze_env import MazeEnv
 from maze_env.bfs import bfs as bfs_solve
 # ── src 包（pip install -e . 后可直接导入）───────────────────────────────────
 import torch.nn as nn
@@ -247,6 +248,16 @@ def dqn_rollout(
             action_candidate = int(q_values.argmax().item())
             q_values[action_candidate] -= 3.0 * cnt
         action = int(q_values.argmax().item())
         visited_count[cur_pos] = cnt + 1
         obs, _reward, terminated, truncated, info = env.step(action)

 # ── maze_env 包（已安装，直接导入）──────────────────────────────────────────
 from maze_env import MazeEnv
 from maze_env.bfs import bfs as bfs_solve
+from maze_env.actions import DELTAS
 # ── src 包（pip install -e . 后可直接导入）───────────────────────────────────
 import torch.nn as nn
             action_candidate = int(q_values.argmax().item())
             q_values[action_candidate] -= 3.0 * cnt
+        # 对每个动作预判目标格，若目标格也是高频访问格则额外惩罚
+        cur_r, cur_c = cur_pos
+        N = env.grid_size
+        for a, (dr, dc) in enumerate(DELTAS):
+            nr, nc = cur_r + dr, cur_c + dc
+            if 0 <= nr < N and 0 <= nc < N:
+                next_cnt = visited_count.get((nr, nc), 0)
+                if next_cnt >= 2:
+                    q_values[a] -= 3.0 * next_cnt
         action = int(q_values.argmax().item())
         visited_count[cur_pos] = cnt + 1
         obs, _reward, terminated, truncated, info = env.step(action)