ICML-2027 / docs /Embodied-Step-RL-Paper-Code-DeepDive.md

Upload EasyR1-V4-Embody code and docs

2f59739 verified 27 days ago

39.1 kB

	# EasyR1-V4-Embody 当前实现与两篇论文的完整串讲

	本文档把三件事串起来讲清楚：

	1. arXiv:2505.22050, Reinforced Reasoning for Embodied Planning。
	2. arXiv:2605.27140v1, StepOPSD: Step-Aware Online Preference Distillation for Agent Reinforcement Learning。
	3. 当前仓库 `EasyR1-V4-Embody` 的代码实现，尤其是 `grpo_step`、`rule` step reward、`forward_proxy`、residual gate / prompt gate。

	结论先放在前面：

	```text
	2505.22050 是一个 embodied VLM 训练 recipe：
	SFT 初始化 + rule-based reward + GRPO/RFT，让 Qwen2.5-VL 学会输出多步可执行计划。

	2605.27140 StepOPSD 是一个 agent RL 信用分配算法：
	把 OPSD teacher-student logp gap 放到 step/action span 上，做 GRPO advantage shaping。

	当前 EasyR1-V4-Embody 介于两者之间：
	任务设定、数据和输出形式更像 2505.22050；
	算法改动、step-level advantage shaping 和 forward_proxy 更像 StepOPSD；
	同时又额外实现了 rule step reward、GT-reference teacher、additive advantage、action_id/action_name span control、residual/prompt gates。
	```

	---

	## 1. 三个对象各自解决什么问题

	### 1.1 2505.22050 解决的是“怎么训练 embodied planner”

	这篇论文的主问题是：开源 VLM 在具身场景里很难做长程、多步、视觉条件下的 planning。模型要看当前视觉 observation、历史动作、自然语言任务，然后输出后续 action sequence。

	它的方案是两阶段：

	```text
	Stage 1: SFT
	用强闭源模型 Gemini-2.0-flash 蒸馏出高质量 reasoning + plan 数据。
	让 Qwen2.5-VL-7B 先学会任务分解、空间常识、输出格式。

	Stage 2: RFT / GRPO
	构造 ALFRED 轨迹分解数据。
	对模型输出的多步 action plan 设计 rule-based reward。
	用 GRPO 做 reinforcement fine-tuning。
	```

	它的 reward 是规则式的：

	```text
	R = R_format + R_accuracy

	R_format:
	JSON 结构是否正确；
	必需字段是否存在；
	action_id / action_name 是否有效匹配。

	R_accuracy:
	按 action sequence 和 gold sequence 做 prefix matching。
	若连续匹配 n 步，gold 总长为 k：
	R(n; k) = n(n + 1) / (k(k + 1))
	```

	所以 2505.22050 的重点不是“OPSD 信号怎么改 advantage”，而是“具身规划任务上，SFT + 规则奖励 + GRPO 这条 pipeline 能不能训动”。

	### 1.2 StepOPSD 解决的是“长轨迹 sparse reward 怎么分给关键 step”

	StepOPSD 的主问题是 agent RL 的 credit assignment：

	```text
	一条长 rollout 可能因为一个局部 action 错了而失败。
	标准 GRPO 只有一个 terminal reward。
	这个 reward 被广播到整条 response 的所有 token。
	结果是：模型知道整条轨迹不好，但不知道是哪一步导致不好。
	```

	StepOPSD 的核心流程：

	```text
	rollout
	-> trajectory reward / GRPO advantage
	-> parse action-centered step spans
	-> hindsight teacher context rescoring
	-> compute token-level logp gap Delta
	-> convert Delta into bounded multiplicative weights
	-> reshape GRPO advantage
	-> policy update
	```

	它的信号是：

	```text
	Delta_{k,j}
	= log pi_T(z_{k,j} \| hindsight context, prefix)
	- log pi_S(z_{k,j} \| causal context, prefix)
	```

	它的 advantage 注入方式是：

	```text
	w_raw = 2 * sigmoid(sign(A) * Delta)
	w = clip(w_raw, 1 - alpha_clip, 1 + alpha_clip)

	A_tilde = (1 - lambda_mix) * A + lambda_mix * (w * A)
	```

	关键性质：

	```text
	w 始终为正。
	因此 StepOPSD 只改变原始 GRPO advantage 的 magnitude，不改变 sign。
	它是 sign-preserving 的 credit redistribution。
	```

	StepOPSD 的 hindsight 来源主要是同一个 GRPO group 中的 successful peer trajectory；teacher 是 stale reference policy，避免 moving target。

	### 1.3 当前代码解决的是“one-shot embodied JSON plan 内部的 step credit assignment”

	当前仓库的任务形态：

	```text
	输入：
	图像 + human instruction + action history + action list

	输出：
	一次性生成完整 JSON：
	{
	"visual_state_description": "...",
	"reasoning_and_reflection": "...",
	"language_plan": [...],
	"executable_plan": [
	{"action_id": 133, "action_name": "..."},
	...
	]
	}
	```

	注意：当前代码不是多轮在线环境交互。它是一行样本生成一整条后续 trajectory plan。

	代码里的核心目标：

	```text
	原来只有整条 trajectory 的 scalar reward。
	现在希望在同一条 response 内部，把不同 step 的 token 赋予不同 advantage。

	A_token = A^E + omega * A^S

	A^E:
	原始 GRPO episode advantage。
	来自整条轨迹 scalar reward 的组内归一化。

	A^S:
	新增 step-level per-token advantage。
	可以来自 rule action_id 匹配，也可以来自 forward_proxy teacher-student logp contrast。
	```

	因此，当前实现和 2505.22050 的任务设定很近，和 StepOPSD 的算法思想也很近。

	---

	## 2. 当前代码端到端数据流

	### 2.1 Dataset：把 EB-ALFRED 样本变成 VLM prompt

	主要文件：

	```text
	verl/utils/dataset.py
	```

	当前 embodied dataset 的 `__getitem__` 做了这些事：

	1. 从 parquet 行里读：

	```text
	instruction
	history
	action_id # 可用动作列表
	image
	gt_bbox
	gt_action
	gt_input_text
	gt_action_close / gt_action_open 等字段保留在 row_dict 中
	```

	2. 构造 prompt：

	```text
	You are Embodied-R1 ...
	Given the current visual state <image> ...
	Current context: {history}

	Action Descriptions and Validity Rules
	...

	The available action names are:
	{actionlist}

	Output ONLY a valid JSON object:
	visual_state_description
	reasoning_and_reflection
	language_plan
	executable_plan
	```

	3. 把 `<image>` 替换为 Qwen-VL 视觉占位：

	```text
	<\|vision_start\|><\|image_pad\|><\|vision_end\|>
	```

	4. 用 processor 编码图像和 prompt，生成：

	```text
	input_ids
	attention_mask
	position_ids
	raw_prompt_ids
	multi_modal_data = {"images": raw_images}
	ground_truth = json.dumps(gt)
	```

	这里的 `ground_truth` 不是直接的 `executable_plan` list，而是一个包装后的 JSON，内部包含：

	```text
	action
	gt_bbox
	input_text
	gt_open_ans
	```

	其中 `input_text` 里还能解析出 GT 的 `executable_plan`。

	### 2.2 Rollout：模型一次性生成 response

	训练主循环在：

	```text
	verl/trainer/ray_trainer.py
	```

	核心顺序：

	```text
	prepare_rollout_engine
	-> _make_batch_data
	-> release_rollout_engine
	-> _balance_batch
	-> compute_reward
	-> compute_old_log_probs
	-> compute_ref_log_probs
	-> build step_adv_raw if adv_estimator == grpo_step
	-> compute_advantage
	-> update actor
	```

	这里的 response 是完整 JSON plan，不是一步环境 action。

	### 2.3 Trajectory-level reward：verify model 给整条计划打分

	主要文件：

	```text
	verl/workers/reward/function.py
	verl/workers/reward/verify.py
	```

	`compute_reward_batch` 的行为是：

	1. decode response。
	2. 尝试解析 JSON。
	3. 从 response 中提取：

	```text
	executable_plan
	```

	4. 从 ground truth 中提取：

	```text
	ground_truth_open = json.loads(ground_truth["input_text"])["executable_plan"]
	```

	5. 构造 verify prompt：

	```text
	Sentence 1: {GT executable_plan}
	Sentence 2: {pred executable_plan}

	You are judging whether a predicted embodied action trajectory matches
	the ground-truth trajectory at the intent level.

	Focus on FUNCTIONAL EQUIVALENCE ...
	Compare mainly by action_name, not exact action_id.
	Be lenient about extra/missing find steps ...
	Only output: True or False.
	```

	6. 调用 `ask_llm`，用 verify VLM 生成一个 token，取 True / False 相关概率。

	7. 得到：

	```text
	format = 1.0 if JSON parse ok else 0.0
	accuracy = verify probability, False 会转成负值
	overall = 0.8 * accuracy + 0.2 * format
	```

	8. 把 `overall` 写到最后一个 response token：

	```text
	reward_tensor[i, cur_response_length - 1] = score["overall"]
	```

	这意味着整条 trajectory 的 reward 在张量里仍然是一个 terminal scalar。

	### 2.4 原始 GRPO：A^E 怎么来

	主要文件：

	```text
	verl/trainer/core_algos.py
	```

	标准 GRPO advantage 逻辑是：

	```text
	scores = token_level_rewards.sum(-1)

	按 uid 分组：
	同一个 prompt 的 n 条 rollout 共享 uid。

	对每个 uid group：
	A^E_i = (R_i - mean(R_group)) / (std(R_group) + eps)

	然后：
	A^E_i 广播到该 response 的所有有效 token。
	```

	所以没有 step reward 时，同一条 response 里的每个 token 都拿同一个 advantage。

	这正是当前工作要改的地方。

	### 2.5 grpo_step：在 A^E 上加 A^S

	主要文件：

	```text
	verl/trainer/core_algos.py
	verl/trainer/ray_trainer.py
	verl/trainer/step_reward.py
	```

	新增 estimator：

	```text
	AdvantageEstimator.GRPO_STEP = "grpo_step"
	```

	核心函数：

	```python
	episode_adv, _ = compute_grpo_outcome_advantage(...)

	if step_adv_raw is None:
	return episode_adv, episode_adv

	step_adv = step_adv_raw * response_mask
	advantages = episode_adv + step_advantage_w * step_adv
	return advantages, advantages
	```

	公式就是：

	```text
	A_token = A^E + omega * A^S_token
	```

	其中：

	```text
	A^E:
	仍然是原始 GRPO，完全复用。

	A^S:
	shape = (bs, response_length)
	response 内不同 token 可以不同。
	解析失败、scaffolding、非目标 token 为 0。
	```

	这个点非常关键：当前实现不是额外加一个 KL loss，也不是重写 GRPO，而是在 advantage 估计阶段加一条旁路信号。

	---

	## 3. step_adv_raw 的两条来源

	当前代码把 `step_adv_raw` 做成可切换的：

	```yaml
	algorithm.adv_estimator: grpo_step
	algorithm.step_reward_kind: rule \| forward_proxy
	```

	### 3.1 Rule：硬规则 step reward

	文件：

	```text
	verl/trainer/step_reward.py
	```

	入口：

	```text
	build_step_adv_raw
	-> build_step_adv_vector
	-> compute_step_match_rewards
	```

	流程：

	1. decode response。
	2. 容错解析 `executable_plan`。
	3. 解析 GT：

	```text
	gt_steps_from_close(gt_close)
	```

	4. 对 predicted steps 和 GT steps 做匹配。

	支持三种匹配：

	```text
	exact:
	pred[i] == gt[i] 才算对。

	prefix:
	最长正确前缀；第一个错后面全算错。

	lcs:
	longest common subsequence，对顺序扰动更宽松。
	```

	默认匹配键：

	```yaml
	algorithm.step_match_key: action_id
	```

	reward 转 advantage：

	```text
	匹配：+1
	不匹配：-1
	scaffolding / 非 step token：0
	解析失败：整条 A^S = 0，退化为纯 GRPO
	```

	这条路和 2505.22050 很接近：都是用 GT action sequence 做 rule-based correctness signal。

	但也有差别：

	```text
	2505.22050:
	rule reward 先变成 response-level scalar reward，再进入 GRPO。
	prefix reward R(n;k) 是整条 response 的 reward。

	当前代码 rule:
	rule reward 直接变成 per-token step advantage A^S。
	一条 response 内部可以前两步 +1，第三步 -1。
	```

	也就是说，当前 rule 比 2505.22050 更细：不是只给整条轨迹一个分，而是把 step 对错广播到对应 token。

	### 3.2 Forward Proxy：GT-aware teacher-student logp contrast

	文件：

	```text
	verl/trainer/teacher_proxy.py
	verl/workers/reward/function.py
	verl/workers/reward/verify.py
	verl/trainer/step_reward.py
	```

	配置：

	```yaml
	algorithm.step_reward_kind: forward_proxy
	algorithm.step_squash: contrast
	algorithm.step_teacher_path: ...
	algorithm.step_score_source: action_name \| action_id \| semantic
	algorithm.step_credit_target: action_name \| action_id \| semantic
	```

	#### 3.2.1 为什么要跑在 reward actor 上

	最初如果在 driver 上做 teacher forward，会遇到：

	```text
	driver 进程没有 GPU。
	verl/Ray 中 GPU 分给 worker actor。
	teacher.to("cuda") 会失败。
	```

	所以当前代码把 forward_proxy 放到 reward actor：

	```text
	ray.get(self.reward_fn.compute_step_adv.remote(...))
	```

	reward actor 本来就有 verify model 的 GPU 资源，因此可以 lazy-load teacher scorer。

	#### 3.2.2 TeacherLogpScorer 做什么

	`TeacherLogpScorer.logp_teacher_student` 对同一段 predicted response tokens 跑两次 forward：

	```text
	teacher context:
	image + "Here is a reference successful language plan:"
	+ GT reference plan
	+ transition
	+ predicted response tokens

	student context:
	image + "Problem: {instruction}"
	+ student instruction
	+ predicted response tokens
	```

	返回：

	```text
	teacher_logp[t] = log p_model(response_token_t \| image, GT context, response_prefix)
	student_logp[t] = log p_model(response_token_t \| image, problem context, response_prefix)
	```

	然后：

	```text
	Delta_t = teacher_logp[t] - student_logp[t]
	```

	这个 Delta 的语义是：

	```text
	如果模型看了 GT 后更支持这个 response token，Delta 为正。
	如果模型看了 GT 后更不支持这个 response token，Delta 为负。
	```

	#### 3.2.3 当前代码里的一个重要现实：teacher 不一定等于 policy

	`teacher_proxy.py` 和 `config.py` 的注释里仍然写着：

	```text
	teacher should be same path as policy
	same tokenizer, true OPSD self-distillation
	```

	但当前运行脚本 `examples/qwen25_vl_3b_Domain.sh` 实际是：

	```text
	policy = Qwen2.5-VL-3B-RobotGPT-R1
	teacher = Qwen2.5-VL-3B-Instruct
	```

	这意味着当前 forward_proxy 的真实语义不是严格的“policy 自蒸馏 OPSD”，而是：

	```text
	冻结外部 Instruct teacher 在 GT context 和 no-GT context 下的 logp contrast。
	```

	这点要在论文/报告中说准。

	如果 teacher 等于 policy：

	```text
	更像原始 OPSD / self-distillation。
	但实测容易因为 policy 对自己生成的 token 过度自信而 logp diff 塌平。
	```

	如果 teacher 是未微调 Instruct：

	```text
	信号更容易有波动。
	但它不再代表 policy 自己的 preference shift；
	而是外部 teacher 的 GT-conditioned preference shift。
	```

	当前 `step_adv_heatmaps/_diag.txt` 中能看到 forward_proxy 已有波动，例如：

	```text
	std ~= 0.9 - 2.3
	mean 通常为正
	min/max 可到约 -15 / +13
	```

	这说明“信号活了”，但不自动说明“信号方向一定奖对惩错”。

	#### 3.2.4 Delta 怎么变成 step score

	文件：

	```text
	verl/trainer/step_reward.py
	build_step_adv_vector_from_logp
	```

	先选 score tokens：

	```yaml
	step_score_source:
	action_name # 默认
	action_id
	semantic # action_id + action_name
	```

	对这些 token 聚合：

	```text
	contrast 模式：
	token_signal = teacher_logp - student_logp
	raw_step = robust_mean(token_signal over score tokens)
	score = tanh(normalize(raw_step) / score_tau)

	prob 模式：
	score = 2 * exp(mean teacher_logp) - 1
	```

	代码和实验笔记都说明：`prob` 容易恒平，因为 GT-conditioned teacher 对很多 token 都很自信；真正有意义的是 `contrast`。

	#### 3.2.5 score 写回哪些 token

	再选 credit target：

	```yaml
	step_credit_target:
	action_name
	action_id
	semantic
	```

	默认 `action_name`，一些 ablation 用：

	```yaml
	step_score_source: semantic
	step_credit_target: action_id
	step_action_name_weight: 0.0
	```

	这个设计很重要：

	```text
	score_source 决定“用哪些 token 判断这一步好坏”。
	credit_target 决定“训练时把 advantage 写到哪些 token 上”。
	```

	例如：

	```text
	score_source = semantic:
	用 action_id + action_name 一起估计这步是否被支持。

	credit_target = action_id:
	主要更新离散动作选择，而不是训练自然语言措辞。
	```

	这是当前实现相对 StepOPSD 的一个具身 JSON plan 特化点。

	---

	## 4. Token span 对齐：当前实现的工程核心

	step reward 最终要进入 PPO/GRPO loss，因此必须是 token 级。

	当前代码做了以下事情：

	```text
	response_ids
	-> decode response text
	-> extract executable_plan
	-> locate each step's action_id / action_name character span
	-> map character span back to token indices
	-> write step score into selected token positions
	```

	主要函数：

	```text
	extract_plan_steps
	pred_step_token_spans
	_token_char_offsets
	_find_action_id_value_span
	_find_action_name_value_span
	_select_span_tokens
	```

	### 4.1 JSON 解析

	`extract_plan_steps` 能处理：

	```text
	正常 JSON dict
	带 json 标记的 fenced code block
	前后有散文的 response
	尾部 <\|im_end\|> / <\|endoftext\|>
	bare list
	```

	解析失败返回 `None`，后续整条 A^S 为 0。

	### 4.2 char offset

	`_token_char_offsets` 先尝试：

	```text
	tokenizer(text, return_offsets_mapping=True)
	```

	如果 re-tokenize 后 input_ids 和原始 response_ids 一致，就用 tokenizer offset。

	如果不一致，则降级为 prefix decode：

	```text
	逐 token decode ids[:t+1]
	用字符串长度差构造 offsets
	```

	这样比“decode 后重编码”更稳，因为 Qwen/VL tokenizer 在 special token、空格清理、JSON 标点附近可能 round-trip 不一致。

	### 4.3 step span

	代码先找到 `"executable_plan":` 后面的 list 起点，然后按顺序找每一步：

	```text
	action_id value span
	action_name value span
	```

	每个 step 得到：

	```python
	StepTokenSpans(
	action_id_tokens=[...],
	action_name_tokens=[...],
	)
	```

	然后根据配置选择：

	```text
	action_id tokens
	action_name tokens
	semantic tokens = action_id + action_name
	```

	### 4.4 当前 span 设计与 StepOPSD 的差别

	StepOPSD 面向的是一般 agent trajectory，常见 span 是：

	```text
	<action>...</action>
	clean_step_no_observation
	```

	当前代码面向的是 embodied JSON plan，span 是：

	```text
	action_id value
	action_name value
	```

	所以当前实现对 `executable_plan` 的结构假设更强，但也更精确：可以只训练 action id，不训练 JSON scaffold 或语言描述。

	---

	## 5. Gate 扩展：控制 forward_proxy 信号进来的位置和强度

	当前代码不止有 plain forward_proxy，还实现了两类 gate。

	### 5.1 Residual contrast gate

	配置：

	```yaml
	algorithm.step_gate: residual_contrast
	algorithm.step_gate_residual: response_median
	algorithm.step_gate_threshold: 0.0
	algorithm.step_gate_tau: 1.0
	algorithm.step_budget_tau: 1.0
	algorithm.step_min_score_tokens: 2
	```

	逻辑：

	1. 先对 token_signal 去 response-level median：

	```text
	d'_t = d_t - median(d over valid response tokens)
	```

	2. 每步算 raw score：

	```text
	raw_k = robust_mean(d'_t over score tokens)
	soft_score_k = tanh(z_k / score_tau)
	```

	3. 再用 unsigned contrast 估计 importance：

	```text
	imp_k = robust_mean(abs(d'_t) over score tokens)
	```

	4. 组合三个 gate：

	```text
	decision_gate = sigmoid((imp_z - threshold) / gate_tau)
	budget_gate = clamp(softmax(imp / budget_tau) * num_steps, 0, 1)
	confidence = len_gate * var_gate

	gate_k = decision_gate * budget_gate * confidence
	```

	5. 最终：

	```text
	A^S_k = gate_k * soft_score_k
	```

	直觉：

	```text
	soft_score 决定方向：支持还是反对。
	gate 决定强度：这一步是否值得更新。
	```

	### 5.2 Prompt gate

	配置：

	```yaml
	algorithm.step_gate: prompt
	algorithm.step_prompt_gate_mode: generation
	algorithm.step_prompt_gate_model_path: ...
	algorithm.step_prompt_kl_weight: ...
	algorithm.step_use_prompt_causal_gate: true
	algorithm.step_use_prompt_redundancy_gate: true
	```

	`PromptGateScorer` 会让 judge 输出每个 predicted step 的：

	```json
	{
	"decision_gate": 0.0,
	"redundancy_gate": 0.0,
	"causal_gate": 0.0,
	"prompt_kl_score": 0.0,
	"reason": "..."
	}
	```

	代码把 gate 合成：

	```text
	gate = decision * (1 - redundancy) * (0.5 + 0.5 * causal)
	```

	并可把 prompt score 加进 supervised KL score：

	```text
	supervised_scores =
	step_supervised_kl_weight * supervised_scores
	+ step_prompt_kl_weight * prompt_scores
	```

	这个版本的目标是处理 residual contrast 看不懂的情况：

	```text
	某步 KL 波动很大，但其实只是冗余 find；
	某步看起来错，但由于前一步已经错了，后续动作不该被强烈惩罚；
	某步是关键 causal action，应该放大。
	```

	这已经超出 StepOPSD 原始设计，属于当前实现的额外探索。

	---

	## 6. 当前实现与 2505.22050 的详细对比

	### 6.1 共同点

	两者共同点很多：

	```text
	都做 embodied planning。
	都使用 Qwen2.5-VL 系列。
	都要求模型输出结构化 multi-step plan。
	都使用 GRPO/RFT。
	都重视 action sequence 的正确性。
	都有格式约束。
	都不直接在真实机器人上训练。
	```

	### 6.2 数据和任务形式

	2505.22050：

	```text
	训练：
	SFT 数据来自 Gemini-2.0-flash 蒸馏。
	RFT 数据来自 ALFRED 轨迹分解。

	评测：
	Embench。
	EB-ALFRED seen。
	EB-Habitat unseen。

	模型：
	Qwen2.5-VL-7B。
	```

	当前代码：

	```text
	训练文件：
	eb_alfred_success_opsd_cot_multimodal_v2_embody.parquet

	输入：
	当前图像 + instruction + history + action list。

	输出：
	一次性完整 JSON plan。

	policy:
	Qwen2.5-VL-3B-RobotGPT-R1。

	teacher for forward_proxy:
	Qwen2.5-VL-3B-Instruct。
	```

	因此，当前代码更像把 2505.22050 的 embodied planning setting 改成了 3B policy + EasyR1/verl 风格训练。

	### 6.3 Reward 设计差异

	2505.22050 的 reward：

	```text
	R_total = R_format + R_accuracy
	R_accuracy = prefix curve n(n+1)/k(k+1)
	```

	它是 response-level reward。即使 accuracy 来自 step prefix，最后仍然变成一个 scalar reward 给 GRPO。

	当前代码的 reward 分两层：

	```text
	trajectory-level reward:
	verify model 判断 pred plan 与 GT plan 是否 functional equivalent。
	overall = 0.8 * verify + 0.2 * format。
	写到最后一个 token。

	step-level A^S:
	rule: action_id exact/prefix/lcs -> per-token +/-1。
	forward_proxy: teacher-student logp contrast -> per-token [-1,1]。
	```

	也就是说，当前代码比 2505.22050 多了一个显式 step advantage 通道。

	### 6.4 GRPO 使用方式差异

	2505.22050：

	```text
	GRPO 直接用 composite reward。
	每条 sampled response 得一个 reward。
	组内归一化后更新整条 response。
	```

	当前代码：

	```text
	GRPO 仍然用 trajectory reward 得到 A^E。
	但在 compute_advantage 之前额外构造 step_adv_raw。
	最终 A = A^E + omega * A^S。
	```

	所以当前实现是：

	```text
	GRPO + per-token step advantage shaping
	```

	而不是单纯的：

	```text
	GRPO + rule scalar reward
	```

	### 6.5 输出格式差异

	2505.22050 论文要求输出类似：

	```text
	visual_state_description
	reasoning_and_reflection
	language_plan
	executable_plan
	```

	当前代码的 prompt 也要求这些字段，而且 reward JSON parser 优先取 `executable_plan`。

	但当前代码的 step credit 只关注 `executable_plan` 中的：

	```text
	action_id
	action_name
	```

	不会给 `visual_state_description`、`reasoning_and_reflection`、`language_plan` 里的 token 直接加 step advantage。

	这和当前方法目标一致：训练动作决策，而不是训练解释文本。

	---

	## 7. 当前实现与 StepOPSD 的详细对比

	### 7.1 最大共同点

	两者都可以概括为：

	```text
	step-aware advantage shaping for GRPO。
	```

	更具体：

	```text
	都不是把 teacher signal 单独做一个 KL/distillation loss。
	都在 rollout 完成后处理 sampled response。
	都解析 step/action span。
	都把局部 step 信号注入 policy gradient 的 advantage 通道。
	都试图修正 trajectory-level sparse reward 的信用分配问题。
	```

	如果当前论文主方法强调 `forward_proxy`，那和 StepOPSD 的相似度很高，不能写成“完全不同路线”。

	### 7.2 Hindsight / teacher 来源

	StepOPSD：

	```text
	teacher context = causal prefix + peer-trajectory hindsight
	teacher model = stale reference policy

	peer-trajectory hindsight:
	同一个 GRPO group 中，如果有成功 rollout，
	用第一个成功 peer 给失败 trajectory 提供 hindsight。
	```

	当前 forward_proxy：

	```text
	teacher context = image + GT reference plan + transition
	student context = image + problem instruction
	teacher model = step_teacher_path 指定的模型
	```

	当前脚本实际：

	```text
	teacher = 未微调 Qwen2.5-VL-3B-Instruct
	policy = Qwen2.5-VL-3B-RobotGPT-R1
	```

	差异：

	```text
	StepOPSD 更通用：
	不要求数据集中有显式 GT action plan。
	只要 group 里有 successful peer。

	当前代码监督更强：
	直接使用数据集 GT reference plan。
	更适合 EB-ALFRED 这种有 reference trajectory 的任务。
	```

	### 7.3 Delta 到 advantage 的变换方式

	StepOPSD：

	```text
	Delta -> token weight w
	w > 0
	A_tilde = (1-lambda)A + lambda(wA)
	```

	性质：

	```text
	只改变 A 的大小。
	不改变 A 的正负。
	如果整条 trajectory 的 GRPO advantage 是负的，
	局部 step 也不会被改成正方向，只能少罚或多罚。
	```

	当前代码：

	```text
	Delta -> step scalar A^S_k = tanh(...)
	A = A^E + omega * A^S_k
	```

	性质：

	```text
	可以改变局部 token 的训练方向。
	如果整条 trajectory A^E 为负，但某一步 rule/teacher 认为是对的，
	该 step 的 token 可能被加到正方向。

	如果整条 trajectory A^E 为正，但某一步是错的，
	该 step 的 token 可能被拉成负方向。
	```

	这是当前实现和 StepOPSD 最核心的算法差异：

	```text
	StepOPSD:
	sign-preserving multiplicative reweighting。

	当前代码:
	additive local step advantage。
	```

	### 7.4 step 粒度

	StepOPSD：

	```text
	token-level Delta
	token-level weight
	step normalization 用来控制每个 step 的 credit budget
	```

	当前代码：

	```text
	先把 token_signal 聚合成 step scalar。
	再把 step scalar 写回 action_id/action_name/semantic tokens。
	```

	当前代码更强调：

	```text
	step 是决策单位。
	token 只是承载这个 step 决策的优化位置。
	```

	这和 embodied action plan 更匹配，因为 `{"action_id": 133, "action_name": ...}` 整体是一个动作选择。

	### 7.5 span 定义

	StepOPSD：

	```text
	ALFWorld:
	action_only

	Search-QA:
	clean_step_no_observation
	```

	当前代码：

	```text
	pred_step_token_spans:
	action_id_tokens
	action_name_tokens
	semantic_tokens = union
	```

	这不是泛化的 agent transcript span，而是 embodied JSON plan 的结构化 span。

	### 7.6 normalization / clipping

	StepOPSD 有两个核心 knob：

	```text
	alpha_clip:
	控制局部 weight trust region。

	lambda_mix:
	控制 shaped signal 与原始 advantage 的混合强度。
	```

	当前代码的 knob：

	```text
	step_advantage_w:
	A^S 总权重 omega。

	step_score_tau:
	tanh 温度。

	step_score_norm:
	none / per_response。

	step_gate:
	none / residual_contrast / prompt。

	step_budget_tau:
	residual gate 的 per-response budget 控制。
	```

	当前代码没有实现 StepOPSD 同款：

	```text
	w = clip(2 * sigmoid(sign(A) * Delta), 1-alpha, 1+alpha)
	```

	也没有完全等价的：

	```text
	equal_step_mean_abs
	```

	但 residual gate 里的 budget gate 有类似“不要让所有 step 都满强度更新”的意图。

	### 7.7 对原始 rollout 的干预

	两者都不改 rollout：

	```text
	先采样 rollout。
	再做 post-rollout step credit。
	最后更新 policy。
	```

	这点是共同点。

	---

	## 8. 当前实现的优点、风险和需要说准的地方

	### 8.1 优点

	#### 优点 1：把 trajectory reward 和 step credit 分开

	当前实现没有破坏原始 verify reward：

	```text
	verify reward 仍然决定整条 trajectory 的 A^E。
	step reward 只作为 A^S 叠加。
	```

	因此：

	```text
	omega = 0 可以退回纯 GRPO。
	解析失败可以 A^S=0，不影响主训练。
	```

	#### 优点 2：rule step reward 对当前任务非常强

	因为 action space 是离散的 `action_id`，且 GT 中有 reference trajectory：

	```text
	action_id exact/prefix/lcs 是直接的 correctness signal。
	```

	相比 forward_proxy，它：

	```text
	不需要额外 teacher。
	不占 GPU。
	不会自蒸馏塌平。
	不会把“像正确动作的错误动作”误判为正。
	```

	#### 优点 3：forward_proxy 是一个活的软信号对照

	当前诊断显示 teacher-student logp diff 不再全平：

	```text
	std 约 1-2
	min/max 有明显波动
	```

	这意味着 forward_proxy 至少具备可训练信号，不是全 0 对照。

	#### 优点 4：action_id/action_name 分离很适合 embodied plan

	当前代码可以：

	```text
	用 semantic tokens 算分。
	只把 credit 写到 action_id token。
	不给 JSON scaffold 梯度。
	```

	这比直接对整段 JSON 做 KL 更贴近“动作选择”。

	### 8.2 风险

	#### 风险 1：forward_proxy 的 Delta 不等于动作正确性

	Delta 表示：

	```text
	teacher 看 GT 后是否更愿意生成这个 token。
	```

	它不一定表示：

	```text
	这个 action 是否真的等于 GT action。
	```

	典型问题：

	```text
	GT 是 find DiningTable。
	预测是 find Sofa。
	teacher 可能因为 "find a furniture" 这个模式合理而给正 Delta。
	```

	所以 forward_proxy 的正确性需要专门验证，不能只看 diff std。

	#### 风险 2：外部 teacher 改变了 OPSD 语义

	如果 teacher 是 `Qwen2.5-VL-3B-Instruct`，policy 是 `RobotGPT-R1`：

	```text
	Delta = Instruct(GT context) - Instruct(no-GT context)
	```

	而不是：

	```text
	Delta = policy_or_stale_ref(GT context) - policy(causal context)
	```

	这在论文写法上必须说明，否则会被质疑“这不是 StepOPSD/OPSD 的同模型 rescoring”。

	#### 风险 3：additive advantage 可能过强

	当前：

	```text
	A = A^E + omega * A^S
	```

	如果 `omega=1`，而 A^E 的 group-normalized magnitude 也大约在 0-1 附近，A^S 可能显著改变更新方向。

	这既是能力，也是风险：

	```text
	能力：
	能在失败轨迹里保留正确 step。

	风险：
	如果 A^S 判错，会直接反向更新局部动作。
	```

	StepOPSD 的 sign-preserving 设计更保守，当前 additive 设计更激进。

	#### 风险 4：rule exact 可能太硬

	`action_id` exact 对当前任务很干净，但也可能：

	```text
	对等价替代路径不宽容。
	对多余 find / 顺序轻微变化不宽容。
	对 object instance 探索不宽容。
	```

	代码已经提供 `prefix` 和 `lcs`，但默认 `exact`，需要用实验比较。

	---

	## 9. 三方总表

	\| 维度 \| 2505.22050 \| StepOPSD \| 当前 EasyR1-V4-Embody \|
	\|---\|---\|---\|---\|
	\| 主问题 \| 训练 embodied VLM planner \| agent RL credit assignment \| one-shot embodied JSON plan 的 step credit assignment \|
	\| 基础算法 \| SFT + GRPO/RFT \| GRPO + step-aware OPSD shaping \| GRPO + additive step advantage \|
	\| 模型 \| Qwen2.5-VL-7B \| Qwen3-1.7B / Qwen2.5-3B \| Qwen2.5-VL-3B RobotGPT-R1 \|
	\| 任务 \| Embench / EB-ALFRED / EB-Habitat \| ALFWorld / Search-QA \| EB-ALFRED parquet embodied planning \|
	\| 输出 \| structured reasoning + executable_plan \| agent trajectory / actions / search steps \| JSON with executable_plan \|
	\| trajectory reward \| rule format + prefix accuracy \| env/QA reward \| verify VLM functional equivalence + format \|
	\| step 信号 \| prefix correctness 汇总成 scalar \| teacher-student logp gap \| rule action_id 或 forward_proxy logp gap \|
	\| step 信号进入方式 \| 作为 response reward 的一部分 \| multiplicative reweight A \| additive A = A^E + omega A^S \|
	\| 是否保留 A 符号 \| GRPO scalar reward 决定 \| 是 \| 否，可能局部翻转 \|
	\| teacher / hindsight \| Gemini 用于 SFT，不是 RFT teacher \| successful peer + stale ref \| GT reference + configured teacher \|
	\| span \| action sequence prefix \| action-centered step \| action_id/action_name token span \|
	\| 是否需要 GT step \| 需要 gold sequence \| 不需要显式 GT，依赖 peer success \| rule 需要；forward_proxy 使用 GT context \|
	\| 是否额外 KL loss \| 否 \| 否 \| 否 \|
	\| 最大风险 \| reward 仍较粗，长程困难 \| 与当前方法撞车点强 \| forward_proxy 正确性、additive 过强、GT 依赖 \|

	---

	## 10. 应该如何给当前方法定位

	### 10.1 不建议的写法

	如果主方法是 forward_proxy，不建议写：

	```text
	We propose to use OPSD-style teacher-student logp gap for step-level GRPO advantage shaping.
	```

	这个表述和 StepOPSD 撞得太正。

	也不建议写：

	```text
	Our method is fundamentally different from StepOPSD.
	```

	因为两者确实同属 step-aware OPSD advantage shaping。

	### 10.2 更准确的写法

	可以这样定位：

	```text
	We study step-level credit assignment for one-shot embodied trajectory planning,
	where a VLM generates a structured JSON executable plan in a single response.
	Unlike general multi-turn agent trajectories, the decision variables are explicit
	action_id/action_name fields. We inject step-local advantages into GRPO by mapping
	either GT action matching or GT-reference-privileged teacher contrast onto these
	structured action spans.
	```

	中文表达：

	```text
	我们不是提出“OPSD 信号用于 advantage shaping”这个大方向本身；
	这个方向 StepOPSD 已经非常接近。

	我们的具体切入点是：
	在 one-shot embodied JSON trajectory planning 中，
	利用显式 action_id/action_name 结构，把 GT-reference 或 rule step signal
	映射到动作字段 token，并以 additive local step advantage 的方式注入 GRPO。
	```

	### 10.3 当前实现最清楚的贡献点

	可以强调：

	1. 任务形态差异：

	```text
	one-shot embodied trajectory planning，不是一般 multi-turn agent transcript。
	```

	2. 结构化 action span：

	```text
	显式区分 action_id 和 action_name。
	可以 score semantic tokens，但只 credit action_id。
	```

	3. additive local advantage：

	```text
	允许局部 step 改变更新方向。
	这和 StepOPSD 的 sign-preserving multiplicative reweighting 不同。
	```

	4. rule vs forward_proxy 的系统比较：

	```text
	当任务有干净离散 action_id GT 时，hard rule step reward 可能比 KL soft proxy 更可靠。
	forward_proxy 作为软信号和无 step verifier 场景的泛化对照。
	```

	5. gate 机制：

	```text
	residual gate / prompt gate 用来控制 soft KL 信号进入 action tokens 的强度。
	```

	---

	## 11. 建议补的实验和分析

	### 11.1 必做：四个主 baseline

	建议最小实验表：

	```text
	1. GRPO
	2. GRPO + rule step reward
	3. GRPO + forward_proxy additive
	4. GRPO + forward_proxy + residual gate
	```

	如果资源允许，再加：

	```text
	5. GRPO + forward_proxy + prompt gate
	6. GRPO + StepOPSD-style multiplicative reweighting
	```

	### 11.2 强烈建议实现 StepOPSD-style multiplicative baseline

	为了和 StepOPSD 讲清楚，建议在当前代码里加一个模式：

	```text
	step_injection_mode:
	additive # current
	multiplicative_stepopsd
	```

	multiplicative 公式：

	```text
	Delta_step 或 Delta_token 来自 forward_proxy。
	w = clip(2 * sigmoid(sign(A^E) * Delta), 1 - alpha_clip, 1 + alpha_clip)
	A = (1 - lambda_mix) * A^E + lambda_mix * (w * A^E)
	```

	然后比较：

	```text
	additive 是否真的优于 sign-preserving？
	additive 的 sign flip 是否带来收益？
	```

	这个实验对论文非常关键，因为它直接回应 StepOPSD。

	### 11.3 sign flip 统计

	当前 additive 最大差异是可能局部翻转方向。建议统计：

	```text
	sign_flip_ratio =
	mean[ sign(A^E + omega*A^S) != sign(A^E) over action tokens ]
	```

	并分组看：

	```text
	成功 trajectory vs 失败 trajectory
	正确 step vs 错误 step
	Heat/Cool/Clean/PickTwo 等长程任务
	```

	如果能证明：

	```text
	失败轨迹中的正确前缀 step 被 additive 保留下来；
	成功轨迹中的错误/冗余 step 被局部压低；
	```

	那就是相对 StepOPSD 的强证据。

	### 11.4 forward_proxy 正确性分析

	不要只看：

	```text
	teacher-student diff std
	```

	还要看：

	```text
	rule match = 1 的 step，forward_proxy A^S 分布。
	rule match = 0 的 step，forward_proxy A^S 分布。
	```

	理想情况：

	```text
	correct steps: mean A^S > 0
	wrong steps: mean A^S < 0
	```

	如果 wrong steps 也大量为正，说明 forward_proxy 更像 style/trajectory prior，而不是 correctness signal。

	### 11.5 rule mode 消融

	比较：

	```text
	exact
	prefix
	lcs
	```

	可能结论：

	```text
	exact:
	信号干净但太硬。

	prefix:
	更符合 embodied execution，一旦前面错了后面不该继续强判。

	lcs:
	对顺序和多余 find 更宽容，但可能奖励不可执行的乱序计划。
	```

	### 11.6 credit target 消融

	比较：

	```text
	score_source=action_name, credit_target=action_name
	score_source=semantic, credit_target=action_id
	score_source=semantic, credit_target=semantic
	```

	重点看：

	```text
	只训练 action_id 是否比训练 action_name 更稳定。
	action_name token 是否引入措辞/格式梯度噪声。
	```

	---

	## 12. 当前代码路径速查

	### 12.1 数据和 prompt

	```text
	verl/utils/dataset.py
	embodied prompt 构造
	image processor
	multi_modal_data
	ground_truth 包装
	```

	### 12.2 trajectory reward

	```text
	verl/workers/reward/function.py
	compute_reward_batch
	verify prompt
	overall = 0.8 * accuracy + 0.2 * format
	reward 写最后一个 token

	verl/workers/reward/verify.py
	ask_llm
	load_verify / load_verify_qwen3
	```

	### 12.3 step reward / step advantage

	```text
	verl/trainer/step_reward.py
	extract_plan_steps
	compute_step_match_rewards
	pred_step_token_spans
	build_step_adv_vector
	build_step_adv_vector_from_logp
	build_step_adv_raw
	```

	### 12.4 forward_proxy teacher

	```text
	verl/trainer/teacher_proxy.py
	TeacherLogpScorer
	PromptGateScorer

	verl/workers/reward/verify.py
	step_logp_vl

	verl/workers/reward/function.py
	AutoRewardManager.compute_step_adv
	```

	### 12.5 GRPO 接线

	```text
	verl/trainer/core_algos.py
	AdvantageEstimator.GRPO_STEP
	compute_grpo_step_outcome_advantage

	verl/trainer/ray_trainer.py
	compute_advantage
	_build_step_adv
	_dump_adv_heatmaps
	_save_total_adv_heatmaps
	```

	### 12.6 配置和脚本

	```text
	verl/trainer/config.py
	AlgorithmConfig 中所有 step_* 字段

	examples/qwen25_vl_3b_Domain.sh
	当前 forward_proxy 主运行脚本

	examples/qwen25_vl_3b_residual_gate_ablation.sh
	residual gate 消融

	examples/qwen25_vl_3b_prompt_gate_ablation.sh
	prompt gate 消融
	```

	---

	## 13. 最后总结

	如果用一句话串起来：

	```text
	2505.22050 告诉我们 embodied planning 可以用 SFT + rule reward + GRPO 训；
	StepOPSD 告诉我们长轨迹 agent RL 的关键是 step-aware advantage shaping；
	当前 EasyR1-V4-Embody 把这两个方向接到一起：
	在 one-shot embodied JSON plan 上，用 verify model 给整轨 reward，
	再用 rule 或 GT-aware forward_proxy 给 executable_plan 的 action spans 加 step-local advantage。
	```

	当前实现最应该讲清楚的不是“我们用了 GRPO”，也不是“我们用了 OPSD”，而是：

	```text
	我们如何把 embodied JSON plan 中的结构化动作字段变成可训练的 token-level step credit；
	以及 additive step advantage 相比 StepOPSD sign-preserving reweighting 的差异、收益和风险。
	```

	当前代码已经具备一套完整实验框架：

	```text
	GRPO
	GRPO + rule
	GRPO + forward_proxy
	GRPO + residual gate
	GRPO + prompt gate
	```

	下一步最有价值的是补：

	```text
	StepOPSD-style multiplicative baseline
	sign-flip analysis
	forward_proxy correctness-vs-rule correlation
	rule exact/prefix/lcs 消融
	credit target 消融
	```

	这些实验能把“和两篇论文的关系”从文字解释变成可验证证据。