SimToken / TubeToken_Experiment_Plan_v4_Final.md

Add files using upload-large-folder tool

0f55e72 verified 21 days ago

66.8 kB

TubeToken 实验计划 v4（Final / Experiment-Ready）

主线：以 TubeToken 为核心框架，将 Existence / Null 建模 与 Text-Audio Conditional Compression 作为 TubeToken 的自然组成部分，而不是作为 SimToken 的外接补丁。
v4 目标：在 v3 Reviewer-Revised 的基础上完成最后一轮实验前定稿，固定 matched-compute baseline 的实现，修正 Phase 0 红灯条件，精确化 H3 CosSim baseline，补充 multi-expression training 的梯度冲突风险，重构主表与公平性分析表，并明确多 expression 场景下的 proposal amortization efficiency。

0. v4 最终修改摘要

本版是实验启动前的最终方案。v3 已经具备启动实验的完整框架；v4 只做定稿级别的精修，重点消除可能导致后期 Reviewer 质疑或实验返工的模糊点。

相较 v3，v4 做了以下最终修改：

固定 SimToken + matched compute 的唯一实现：不再保留四个候选方案，明确使用 SimToken + multiple keyframe prompting with the same number of keyframes as TubeToken-Fast。该对照在概念上最接近 TubeToken-Fast 的额外计算来源，也避免实验结束后选择有利 baseline 的嫌疑。
修正 Milestone 1 第三条红灯条件：删除 “预计 TubeToken-Minimal 无法获得 selection 收益” 这类 Phase 0 不可观测判断，改为完全基于 Phase 0 可测量量：Recall@32、Oracle Tube J/F、Oracle Refined J/F。
精确化 Fixed Q-Former 的 H3 CosSim baseline：Fixed Q-Former 对同一 tube 的不同 expression 输出完全相同，因此 cross-expression CosSim 恒等于 1.0，不是“接近 1”。Conditioned Q-Former 是否显著低于 1.0 是 H3 的直接证据。
补充 multi-expression training 的梯度冲突风险与缓解方案：若不同 expressions 对同一 tube 要求矛盾的 temporal / audio / spatial attention，可使用 gradient accumulation 分开累积，或先采样语义差异较小的 expression pair。
重构主表为顶会友好格式：主表精简为 8 行，只保留主要公开 baseline 与 TubeToken 主配置；SimToken + SAM2 proposals、learned reranker、matched compute、TubeToken-Minimal、TubeToken-Fast 移入独立 Fairness Analysis Table。
在 efficiency 中明确 per-video 与 per-expression 成本：SAM2 proposals 是 per video 一次性成本；在同一视频有 K 个 expressions 时，proposal cost 可在 expressions 间摊销，CondQFormer 与 selector 才是 per-expression 成本。
澄清 Selection Acc@3 对 null tube 的处理：正样本计算 object-level Top-3 时排除 null tube；“GT tube Top-3 but Null Top-1” 作为独立 null calibration 指标在全 ranking 中计算。
明确 error decomposition 的互斥优先级：每个失败样本只归入一个错误类别，按 Proposal miss → Null FN with GT Top-3 → Null FN without GT Top-3 → Selection error → Refinement error → Null FP 的优先级判定。
更新 Phase -1 Go/No-Go 标准：SimToken 复现与 multi-expression audit 可并行启动；若 SimToken 复现差异 > 1.5 J&F，则暂停后续实验；若 multi-expression 不足，则将 H3 direct validation 从 P0 降为 P2 并采用回退叙事。
更新 Appendix 检查表：把最终 Reviewer 精修建议全部纳入落地状态，形成实验前 checklist。

1. 核心研究假设

1.1 任务重述

Referring Audio-Visual Segmentation, Ref-AVS, 不应仅被建模为：

[ \text{MLLM} \rightarrow \langle SEG \rangle \rightarrow \text{SAM} ]

而应被建模为：

[ \text{Candidate Object Tubes} \rightarrow \text{Text-Audio Conditioned Tube Selection} \rightarrow \text{SAM Refinement} ]

也就是说，Ref-AVS 的本质更接近 object-level retrieval + mask refinement：

视频中有哪些候选对象实例？
哪一个对象实例被文本和音频共同指代？
如果没有符合条件的对象，模型能否显式选择 Null？
选中的对象 tube 是否能被进一步精修为高质量 mask？

1.2 主要假设

H1: Object tube 是比 global <SEG> token 更适合 Ref-AVS 的中间表示。
Tube 可以显式保持跨帧身份一致性，降低同类多实例、遮挡、出入画面情况下的 identity switch 风险。

H2: Null / Existence 应该通过显式候选建模解决。
TubeToken 中引入 learnable null tube，将 Null 判断转化为候选选择问题，而不是依赖 SAM decoder 被动输出空 mask。

H3: 同一 candidate tube 在不同 referring expression 下应暴露不同的时序证据，因此 tube 表征必须由 text/audio condition 动态调制。
在 TubeToken 中，conditional compression 不是全视频 token pooling 的替代品，而是 tube-level evidence summarization。同一 object tube 对于不同表达可能需要关注不同帧、不同动作、不同音频片段或不同空间关系。

H3 的成立前提与验证要求：

数据层面必须先确认 Ref-AVSBench 中是否存在多个 expression 指向同一视频或同一目标。
若存在 multi-expression 结构，训练阶段必须显式利用它：对同一视频 / 同一 tube 使用至少两个不同 expressions 进行 forward pass，共享 proposals，但使用不同 conditional queries。
验证 H3 时不能只报告 AC。AC 只能证明模型是否关注正确区域 / 正确 tube，不能证明同一 tube 在不同 expression 下产生了差异化证据摘要。
H3 的直接验证指标是：同一视频、同一 matched GT tube、不同 expression 下 (\tilde{z}_i) 的 cosine similarity。Fixed Q-Former 因为不依赖 expression，对同一 tube 的不同 expression 输出完全相同，CosSim (\equiv 1.0)；conditioned Q-Former 的 similarity 应显著低于 1.0，并且 selection performance 不下降。
若数据审计发现每个视频平均只有一个 expression，则 H3 不作为主贡献，论文主线应回退为 “proposal-conditioned instance grounding + explicit null reasoning”。

H4: TubeToken 的收益必须通过 proposal recall、oracle upper bound、selection accuracy、refinement quality 和 efficiency breakdown 分别解释。
不能只报告最终 J/F/S，否则无法回答性能提升来自哪里，也无法判断瓶颈位于 proposal、selection 还是 refinement。

H5: TubeToken 的提升必须在公平计算量和公平 proposal 条件下仍然成立。
必须通过 SimToken + SAM2 proposals、SimToken + matched compute、SAM2 proposals + learned reranker（no null tube）等对照排除 “只是 SAM2 proposal 更强” 或 “只是计算量更多” 的解释。

2. 方法版本定义

2.1 TubeToken-Full

完整方法包含四个阶段。

Stage 1: Candidate tube generation

在关键帧上使用 SAM2 automatic mask generation 产生候选 masks，并用 SAM2 tracking / memory 机制向前后帧传播，得到候选 object tubes：

[ \mathcal{O} = {o_1, o_2, \dots, o_N} ]

每个 tube：

[ o_i = {m_{i,t}, b_{i,t}, f_{i,t}}_{t=1}^{T} ]

其中：

(m_{i,t})：第 (t) 帧 mask；
(b_{i,t})：第 (t) 帧 bbox；
(f_{i,t})：mask-pooled visual feature。

实现约定：
默认在关键帧上运行 SAM2 AMG，在非关键帧上使用 SAM2 propagation，而不是每帧重新运行 AMG。这样可以避免 proposal 阶段计算量过高。

Stage 2: Text-audio conditioned tube representation

文本表达编码为 (e_{text})，音频编码为 (e_{audio})。构造条件化 query：

[ Q = Q_0 + W_t e_{text} + W_a e_{audio} + W_{ta}(e_{text} \odot e_{audio}) ]

对每个 tube 的时序特征 ({f_{i,t}}_{t=1}^{T}) 进行条件化压缩：

[ \tilde{z}i = \text{CondQFormer}(Q, {f{i,t}}_{t=1}^{T}) ]

该模块的目标不是单纯减少 token 数，而是让同一 tube 在不同 expression 下形成不同的证据摘要。

v3 约束： 如果数据集中存在多 expression 样本，Stage 2 的训练必须在 batch 内显式包含同一视频 / 同一 tube 的不同 expression forward pass。否则 H3 只能作为推理假设，不能作为强实验证明。

2.2 特征来源说明

默认设定：

[ f_{i,t} = \text{MaskPool}(\text{SAM2ImageEncoder}(I_t), m_{i,t}) ]

也就是说，Stage 2 复用 SAM2 image encoder 特征，不额外引入独立 ViT 或 CLIP visual encoder。这样有三个好处：

proposal generation 与 tube representation 使用一致的视觉特征；
避免额外视觉 encoder 带来的计算量和公平性争议；
efficiency table 更清楚，便于与 SimToken 和 SAM2-based baselines 对比。

可选扩展：若 SAM2 encoder feature 与文本/音频语义对齐不足，可增加一个轻量 projector：

[ f'{i,t} = W_v f{i,t} ]

但默认不引入额外大规模 visual-language encoder。

Stage 3: Tube selection with null tube

加入一个 learnable null tube：

[ z_{null} ]

将所有候选 tubes 与 null tube 一起输入 tube selector：

[ P(i \mid video, audio, text) = \text{Softmax}([s_1, s_2, \dots, s_N, s_{null}]) ]

若 (P(null)) 最大，则输出空 mask；否则选择得分最高的 object tube。

Existence probability 自然定义为：

[ p_{exist} = 1 - P(null) ]

Tube selector 默认结构

默认采用：

reference query (q_{ref}=\text{MLP}([e_{text},e_{audio}]))；
tube tokens ({\tilde{z}i}{i=1}^{N})；
inter-tube self-attention；
reference-conditioned cross-attention；
per-tube classification head。

必须做消融：

w/ inter-tube self-attention；
w/o inter-tube self-attention；
independent tube scoring，即每个 tube 独立通过 ([q_{ref}; \tilde{z}_i]) 的线性层打分。

Stage 4: SAM refinement

选中 tube 后，默认只使用 tube bbox 作为 box prompt，并结合 text/audio semantic prompt 进行 SAM refinement：

[ \hat{m}t = \text{SAMRefine}(I_t, b{i,t}, q_{ref}) ]

默认不使用 tube mask 作为 mask prompt，避免“自我精修”带来的解释问题。tube mask 只用于：

生成 bbox；
提取 tube feature；
proposal matching；
oracle upper bound 计算。

需要额外做对照：

bbox-only prompt；
bbox + semantic prompt；
bbox + mask prompt。

如果 bbox + mask prompt 没有明显收益，正文采用 bbox-only 或 bbox + semantic prompt 作为默认版本。

3. 数据审计与诊断子集构建

正式训练前必须先完成数据审计。该步骤决定后续实验是否有足够说服力。v3 将数据审计升级为 Phase -1，其中 multi-expression 结构与 SimToken 复现是进入 Phase 0 的前置条件。

3.1 必统计项目

项目	目的
每个视频的 referring expression 数量	判断 H3 是否可以被直接训练和验证
每个 GT object / tube 对应的 expression 数量	构建 H3 direct validation subset
SimToken alignment loss 中正样本表达集 (\mathcal{P}_i) 是否可复用	决定 multi-expression training 的实现路径
Null 样本比例	判断 null tube / weighted CE 的训练难度
GT 目标可见帧比例	决定是否需要 frame-level existence；若比例低则不引入
目标首次出现时间分布	构建 late-target subset，验证是否缓解 first-frame bias
同类多实例比例	验证 inter-tube reasoning 和 hard negative 是否必要
小目标 / 遮挡目标比例	评估 proposal recall 风险
音频依赖表达比例	验证 audio-conditioned compression 是否有空间
空间关系表达比例	验证 spatial/relation query 是否必要
Proposal miss 与目标属性关系	分析 SAM2 proposal 对小目标、遮挡、unseen 类别的系统性偏差

3.1.1 Multi-expression audit 的决策规则

审计结果	对 H3 和 CondQFormer 的影响
每个视频平均 expression 数 > 1.5，且同一 GT object 有多个 expression	正常推进 H3；使用 multi-expression training 和 direct cosine validation
多数视频只有 1 个 expression，但少量视频有多 expression	H3 作为诊断性贡献；在 multi-expression subset 上报告直接验证
每个视频基本只有 1 个 expression	不把 H3 作为核心 claim；CondQFormer 改述为 learned tube compression / multimodal query adaptation

3.2 诊断子集

至少构建以下子集。

3.2.1 Late-target subset

目标首次可见帧位于视频后 50% 的样本。

定义：

[ t_{first} = \min {t \mid g_t \neq \emptyset} ]

若：

[ t_{first} > 0.5T ]

则归入 late-target subset。

3.2.2 Audio-critical subset

v3 继续采用两阶段定义。

Stage A: 初筛

通过文本关键词筛选：

sounding；
making sound；
longest sound；
intermittent sound；
silent；
audio；
heard；
emitting sound；
playing instrument 等。

Stage B: 精筛

训练出 w/o Audio 版本后，将满足以下条件的样本归入 strict audio-critical subset：

Full model 预测正确或显著优于阈值；
w/o Audio 模型预测错误或 J/F 显著下降；
视频中存在至少两个视觉候选，单靠视觉无法稳定区分目标。

这样避免“表达包含音频词但视觉上唯一可解”的伪 audio-critical 样本。

3.2.3 Same-category distractor subset

视频中存在多个同类别或高度相似候选对象，表达需要区分实例。

优先数据来源：

数据集原始 object annotations；
若无现成标注，使用 CLIP / Grounding DINO / OWL-ViT 进行 zero-shot object discovery；
结合 SAM2 proposals 的 mask-pooled CLIP similarity 聚类，近似识别同类候选。

该子集需要报告构建方式和人工抽查准确率，避免 Reviewer 质疑子集可靠性。

3.2.4 Null subset

原始 Null 样本，并进一步区分：

visual object exists but not referred；
audio exists but no valid visual target；
text refers to absent object；
audio-text conflict / ambiguous null。

3.2.5 Small / occluded target subset

用于分析 proposal miss。

初始定义：

small：GT mask area 小于图像面积的 5%；
heavily occluded：连续可见帧少于 (0.5T)，或 mask area 在时序上剧烈波动；
partial target：目标只在部分帧出现。

3.2.6 Multi-expression H3 subset

用于直接验证 H3。

样本条件：

同一视频中存在至少两个 referring expressions；
这些 expressions 指向同一 GT object / GT tube，或至少指向可稳定匹配的同一 target instance；
expressions 在语义上存在差异，例如类别、动作、音频、空间关系、交互对象或时序片段不同；
SAM2 proposals 中存在 matched GT tube，避免 proposal miss 干扰 H3 验证。

报告内容：

每个视频平均 expression 数；
每个 GT object 平均 expression 数；
H3 subset 样本数量；
expression 差异类型分布；
人工抽查准确率。

4. Phase 0: Proposal Recall 与 Oracle 上界预实验

这是 TubeToken 的 go / no-go 实验。若 proposal recall 或 oracle upper bound 不足，TubeToken 的性能上限会被 proposal 阶段限制。

4.0 Phase -1 前置基准线：SimToken 复现

在运行 Proposal Recall 与 Oracle 上界之前，必须先完成 SimToken 复现。

要求：

使用与 TubeToken 后续实验一致的数据划分、输入分辨率、音频特征、训练 epoch、batch size、optimizer、scheduler 和 evaluation script。
以作者复现的 SimToken J/F/S 作为所有 Go/No-Go 条件中的主基准。
官方 SimToken 数字只作为旁注；若复现数字与官方数字差异超过 1.5 J&F，需要先定位差异来源。
论文中明确写作：

All comparisons are conducted under the same training configuration as SimToken (reproduced), with official results cited where applicable.

4.1 设置

Proposal model: SAM2 automatic mask generation。
关键帧策略：
- stride = 4；
- stride = 8；
- stride = 16；
- first / middle / last + audio-peak frames；
- uniform + motion-peak frames；
- uniform + audio-peak + motion-peak frames。
Propagation: 使用 SAM2 memory / tracking 机制生成完整 tube。
Candidate numbers: (N=16,32,64,128)。

4.2 Tube matching 定义

v3 使用 GT-visible-frame mean tube IoU，避免 late-target 或 partial target 样本被空帧稀释。

令：

[ \mathcal{T}_g = {t \mid g_t \neq \emptyset} ]

则：

[ IoU_{tube}(o_i, g)= \frac{1}{|\mathcal{T}g|} \sum{t \in \mathcal{T}g} IoU(m{i,t}, g_t) ]

若：

[ \max_i IoU_{tube}(o_i, g) \ge 0.5 ]

则认为 GT 被 proposal 覆盖。

同时报告更严格版本：

[ IoU_{tube}^{all}

\frac{1}{T} \sum_{t=1}^{T} IoU(m_{i,t}, g_t) ]

用于分析 tube 在 GT 不存在帧是否产生多余 mask。

4.2.1 Oracle Refined J/F 精确定义

Oracle Tube J/F：在 top-N candidate tubes 中选择 (IoU_{tube}) 最高的 tube，直接评估该 tube mask 的 J/F。

Oracle Refined J/F：在 top-N candidate tubes 中选择 oracle tube，只使用该 tube 的 bbox 作为 SAM / SAM2 box prompt，经 refinement 后评估 J/F。

约束：

不允许使用 GT mask 作为 mask prompt；
不允许使用 oracle GT box；
bbox 来自 oracle proposal tube；
refinement 设置必须与实际 Stage 4 默认设置一致。

这样 Oracle Refined J/F 才是实际 TubeToken refinement 的可达上界，而不是依赖 GT mask 的理想化上界。

4.3 指标

指标	解释
Recall@16 / 32 / 64 / 128	top-N tubes 中是否存在 GT tube
Oracle Tube J/F	总是选择 (IoU_{tube}) 最高 tube 的 proposal 上界
Oracle Refined J/F	选择 oracle tube 后，仅用 proposal bbox prompt 做 SAM refinement 的上界
Proposal coverage by subset	在 late-target、small、occluded、unseen 上分别报告
Proposal miss %	未覆盖 GT 的样本比例
Average tubes per video	计算量和 pruning 难度
Proposal generation latency	评估效率
Tube temporal purity	tube 是否在 GT 不存在帧产生大量 false positive

4.4 Go / No-Go 决策标准

下列阈值中的 SimToken 均指 作者复现的 SimToken，不是仅引用官方数字。

4.4.1 Milestone 1 绿灯条件

同时满足：

Recall@32 ≥ 85%，其中 matching 使用 GT-visible-frame IoU ≥ 0.5；
Oracle Tube J/F ≥ reproduced SimToken J/F + 5%；
Oracle Refined J/F ≥ Oracle Tube J/F + 3%，说明 SAM refinement 有明确提升空间；
Small / occluded subset Recall@32 ≥ 70%，避免 proposal 对关键困难样本存在系统性盲区。

策略：TubeToken 正常推进，默认 Balanced 配置使用 (N=32)。

4.4.2 Milestone 1 黄灯条件

条件	后续策略
Recall@32 为 80%-85%，且 Oracle Tube J/F 满足绿灯条件	继续推进，但默认 (N=64)，并在论文中重点分析 proposal miss
Oracle Tube J/F 仅 ≥ SimToken + 2%，但 Oracle Refined J/F ≥ SimToken + 5%	继续推进，但论文重心从 selection 转向 refinement；强调 proposal-conditioned refinement
Recall@32 ≥ 85%，但 small/occluded Recall@32 < 70%	继续推进主线，但必须增加 detector-assisted proposals 或 high-resolution proposals 的备选实验

4.4.3 Milestone 1 红灯条件

任一条件满足即暂停 TubeToken 主线，优先切换 EC-SimToken 或重做 proposal 阶段：

Recall@64 < 80%；
Oracle Tube J/F ≤ reproduced SimToken J/F；
Recall@32 ≥ 85%，且 Oracle Refined J/F 与 Oracle Tube J/F 差距 < 1%，且 Oracle Tube J/F ≤ reproduced SimToken J/F + 2%。

第三条红灯条件只使用 Phase 0 可观测量。其含义是：proposal 质量本身只比 SimToken 略好，bbox-only refinement 又几乎无增益，此时 TubeToken 在该数据集上缺少足够立足点，不应依赖 Milestone 2 之前无法验证的 selection 收益预期。

4.5 若 recall 不足的备选策略

增加关键帧数量；
使用 audio-peak / motion-peak keyframes；
对文本中出现的类别词使用 open-vocabulary detector 生成 boxes，再送 SAM2；
使用 SimToken / EC-SimToken 的 mask 作为额外 proposal；
引入 hybrid fallback：若 proposal confidence 低，则回退到 global semantic prompt segmentation。

5. Baseline 与模型变体

5.1 必须复现 / 对比的模型

模型	用途
EEMC	原始 Ref-AVS baseline
TSAM	SAM-based Ref-AVS baseline
SAM2-LOVE	SAM2-based Ref-AVS baseline
SimToken	最直接对比对象，必须复现
EC-SimToken	强化后的 global token baseline，用于证明 TubeToken 不是只打 weak baseline
SimToken + SAM2 proposals	控制 SAM2 proposals 带来的收益，采用零参数 reranking
SAM2 proposals + learned reranker（no null tube）	分离 learned tube reranker 与 null tube 的贡献
SimToken + matched compute	等计算量公平对照
TubeToken-Minimal	最小 tube selection 框架
TubeToken-Full	完整方法

如果无法完整复现 EEMC、TSAM、SAM2-LOVE，可引用官方结果；但 SimToken、SimToken + SAM2 proposals、SAM2 proposals + learned reranker、SimToken + matched compute、TubeToken 必须在同一训练 / 输入 / 评估设置下比较。

5.2 TubeToken 主要消融

变体	目的
TubeToken-Full	完整模型
TubeToken-Minimal	SAM2 proposals + fixed tube feature + selector + null tube，无 CondQFormer，无 refinement
SAM2 proposals + learned reranker（no null tube）	分离 learned selector 与 null tube 的贡献
w/o null tube	验证显式 Null 建模
null tube → binary existence head	比较 null tube 与额外二分类 head
w/o null tube + mask-area threshold	区分 Null 性能来自 tube 框架还是 null tube 设计
fixed Q-Former	验证 conditioning 是否有效，而非参数量增加
text-conditioned only	验证文本条件贡献
audio-conditioned only	验证音频条件贡献
text+audio-conditioned	完整条件化压缩
w/o inter-tube self-attention	验证 tube 间相对比较是否必要
independent tube scoring	每个 tube 独立通过 ([q_{ref};z_i]) 线性打分
w/o SAM refinement	验证 tube selection 本身能力
bbox prompt refinement	默认 refinement 方案
bbox + semantic prompt refinement	验证 semantic prompt 是否有贡献
bbox + mask prompt refinement	检查 mask prompt 是否会带来收益或过拟合
N=16/32/64/128	分析 candidate 数量和 recall/效率 trade-off
stride=4/8/16	分析关键帧数量和效率 trade-off

5.3 公平性控制变体

5.3.1 SimToken + SAM2 proposals：零参数 proposal reranking baseline

目的：回答 “TubeToken 的提升是否只是因为使用了 SAM2 proposals？”

该 baseline 必须采用参数无关的 reranking，不能使用模糊的 “rerank or fusion” 写法。

实现：

保持 SimToken 的 global <SEG> 生成方式，得到 (F_{seg})。
使用与 TubeToken 完全相同的 SAM2 proposals 和 tube construction。
对每个 proposal tube 提取时序 mask-pooled feature (f_{i,t})。
使用如下零参数分数：

[ \text{score}(o_i)

F_{seg}^{\top} \cdot \frac{1}{|\mathcal{T}|} \sum_t f_{i,t} ]

选择分数最高的 proposal tube，并使用与 TubeToken-Minimal 一致的输出设置。

该方案不引入额外可学习参数，与 SimToken 的 (F_{seg}) 使用方式一致，能最大限度避免 Reviewer 质疑对照组被弱化。

5.3.2 SAM2 proposals + learned reranker（no null tube）

目的：回答 “TubeToken-Minimal 的提升来自 learned tube selector，还是来自 null tube？”

实现：

使用与 TubeToken-Minimal 相同的 SAM2 proposals、tube construction、tube feature 和 (q_{ref})。
训练一个 learned reranker / classifier 对非 null candidate tubes 打分。
不加入 learnable null tube。
Null case 使用 mask-area threshold 或 calibrated score threshold 处理。
与 TubeToken-Minimal 对比：若 TubeToken-Minimal 明显更好，说明 null tube 有独立贡献；若 learned reranker 已接近 TubeToken-Minimal，说明主要收益来自 learned tube selection。

5.3.3 SimToken + matched compute：预注册等计算量 baseline

目的：回答 “TubeToken 是否只是计算量换性能？”

v4 固定唯一实现，不再保留多个候选方案：

SimToken + multiple keyframe prompting with the same number of keyframes as TubeToken-Fast.

实现约定：

使用与 TubeToken-Fast 相同数量的关键帧，默认对应 TubeToken-Fast 的 stride=16 keyframe budget。
对每个关键帧分别运行 SimToken 的 global <SEG> / SAM prompting 流程。
将多个 keyframe 的预测通过同一 propagation / aggregation 规则合成为视频级 mask，规则必须在实验前固定。
不使用 SAM2 proposal tube reranking，不引入 learned tube selector，不引入 null tube。
报告 latency、FLOPs、SAM/SAM2 call 数、MLLM token count，使其与 TubeToken-Fast 的计算预算尽可能接近。

选择该实现的原因：TubeToken-Fast 的额外计算主要来自更多关键帧与 proposal/propagation 处理，而 multiple keyframe prompting 是 SimToken 侧最直接、最可解释、最难被质疑的等计算量增强方式。该 baseline 必须在实验开始前预注册，不能根据最终结果临时更换。

6. 训练设计

6.1 Tube label assignment

正样本视频中，选择 GT-visible-frame mean tube IoU 最大的 candidate tube 作为正 tube：

[ i^* = \arg\max_i IoU_{tube}(o_i,g) ]

若最大 IoU 小于 0.5，则标记为 proposal miss。训练时：

不用于 tube classification loss；
可用于 proposal miss 统计；
不建议强行把低 IoU tube 当正样本，以免污染 selector。

Null 样本中，正类为 null tube。

6.2 Loss function

v3 默认总损失中 不包含未定义的 (\mathcal{L}_{cond})。Null 加权并入 tube classification CE，而不是单独写成独立的 (\mathcal{L}_{null})。

默认总损失：

[ \mathcal{L}

\mathcal{L}{tube}^{weighted} + \lambda_m y\mathcal{L}{mask} + \lambda_r\mathcal{L}_{rank} ]

其中：

[ \mathcal{L}_{tube}^{weighted}

\sum_i w_i \cdot \text{CE}(P(i \mid video,audio,text), y_i) ]

正样本：(w_i=1)；
Null 样本：(w_i=w_{null})，由 curriculum 控制；
(\mathcal{L}_{mask})：BCE + Dice，只对非 Null 且非 proposal miss 样本计算；
(\mathcal{L}_{rank})：hard negative ranking loss。

Hard negative ranking：

[ \mathcal{L}_{rank}

\sum_{j\in\mathcal{N}} \max(0,\Delta-s_{i^*}+s_j) ]

6.2.1 Optional (\mathcal{L}_{cond}) 辅助项

如果实验中决定使用 attention supervision，则 (\mathcal{L}_{cond}) 必须单独定义、单独消融，不能作为默认损失悬空出现。

可选定义：

[ \mathcal{L}_{cond}

\sum_{t,l} \bar{M}{t,l} \log A{t,l} ]

其中：

(A_{t,l})：CondQFormer 对第 (t) 帧第 (l) 个 patch / region 的 attention；
(\bar{M}_{t,l})：归一化后的 GT mask 或 matched proposal mask；
该项只在有可靠 GT spatial supervision 的样本上使用。

若使用该项，则总损失写为：

[ \mathcal{L}

\mathcal{L}{tube}^{weighted} + \lambda_m y\mathcal{L}{mask} + \lambda_r\mathcal{L}{rank} + \lambda_c\mathcal{L}{cond} ]

并报告 with / without (\mathcal{L}_{cond})。

6.3 Multi-expression training for CondQFormer

这是 H3 在训练层面的必要实现。

适用前提：数据审计确认同一视频或同一 GT object 存在多个 referring expressions。

训练方式：

对每个 multi-expression 样本，先生成一次 SAM2 proposals，得到共享 candidate tubes (\mathcal{O})。
在同一个 batch 或 gradient accumulation window 中采样至少两个不同 expressions：(r_a, r_b)。
对同一组 tubes 分别构造条件化 query：

[ Q_a = Q_0 + W_t e_{text}^{a} + W_a e_{audio}^{a} + W_{ta}(e_{text}^{a} \odot e_{audio}^{a}) ]

[ Q_b = Q_0 + W_t e_{text}^{b} + W_a e_{audio}^{b} + W_{ta}(e_{text}^{b} \odot e_{audio}^{b}) ]

分别得到：

[ \tilde{z}{i}^{a} = \text{CondQFormer}(Q_a, {f{i,t}}_{t=1}^{T}) ]

[ \tilde{z}{i}^{b} = \text{CondQFormer}(Q_b, {f{i,t}}_{t=1}^{T}) ]

共享 tube proposals，但每个 expression 独立计算 tube selection loss。
如果两个 expressions 指向同一 GT tube，则要求 selection 都正确；不强制 (\tilde{z}{i}^{a}) 与 (\tilde{z}{i}^{b}) 相同，因为 H3 恰恰要求不同 expression 暴露不同证据。
如果两个 expressions 指向不同 targets，则作为 inter-expression hard negatives，用于强化同视频 instance discrimination。

实现注记：梯度冲突风险。
当两个 expressions 对同一 tube 需要关注不同证据时，例如一个表达依赖音频活跃帧，另一个表达依赖空间位置，CondQFormer 的共享参数可能收到相互冲突的梯度，造成训练振荡。若出现 loss oscillation、attention collapse 或正样本 Selection Acc 明显下降，采用以下缓解策略：

将不同 expression 的 forward / backward 放入同一 gradient accumulation window，但分开计算梯度后再累积，而不是在一个合并 forward 中强行混合；
训练早期优先采样语义差异较小的 expression pair，例如同为视觉表达或同为音频表达；
训练稳定后再逐步加入 cross-modality expression pair，例如 audio-expression vs spatial-expression；
单独记录 multi-expression pair 类型与训练稳定性，避免把梯度冲突误判为 conditioning 无效。

训练记录：

batch 中 multi-expression 样本比例；
每个 shared proposal set 对应的 expression 数；
expression pair 类型分布：visual-visual、audio-audio、visual-audio、spatial-audio；
使用 multi-expression training 与不使用该训练策略的对比结果。

若数据集不支持 multi-expression training，则必须在论文中降低 H3 的表述强度。

6.4 Null tube curriculum

Null tube 训练初期不稳定，因此采用 curriculum：

阶段	epoch	Null 权重 (w_{null})
Warmup	0-2	2.0
Middle	3-6	1.0
Final	7+	0.5

同时使用 Null oversampling，但必须明确目标比例。

默认设置：

每个 batch 中 Null 样本目标比例：25%；
若原始 Null 比例高于 25%，不额外下采样，直接使用自然分布；
若原始 Null 比例低于 25%，通过 oversampling 补足；
单个 batch 中 Null 比例原则上不超过 33%，除非专门做采样比例消融。

必须报告 Null sampling ratio 对以下指标的影响：

Null FPR；
Positive FNR；
Null S；
Tube Selection Acc@1；
“GT tube Top-3 but null tube Top-1” 错误比例。

Null sampling ratio 消融：

Ratio	目的
0%	no oversampling baseline
12.5%	弱 oversampling
25%	默认设置
33%	较强 oversampling
50%	检查是否导致过度保守预测 null

6.5 Hard negative mining

Hard negative mining 分阶段引入，避免工程依赖混乱。

Milestone 2: TubeToken-Minimal 阶段

只使用不依赖 CondQFormer 的 hard negatives：

tube IoU 与 GT 较高但不是目标；
与 GT bbox / mask 空间位置接近；
mask-pooled visual feature 与 GT 相似；
若有类别标签，则加入同类别不同实例。

Milestone 3: CondQFormer 阶段

加入 text/audio mismatch negatives：

与文本相似但音频不匹配；
与音频同步但文本不匹配；
与 audio-critical expression 高相关但不是 GT 的 tube；
same-category distractor 中的高分错误 tube；
同一视频不同 expression 指向不同目标时，将非当前 expression 的目标 tube 作为 hard negative。

7. 评价指标

7.1 标准指标

指标	说明
Seen J / F / J&F	seen categories 分割质量
Unseen J / F / J&F	unseen categories 泛化能力
Mix J / F / J&F	综合表现
Null S	Null subset 空目标表现

7.2 TubeToken 专属指标

指标	说明
Recall@N	proposal 阶段是否覆盖 GT
Oracle Tube J/F	proposal 上界
Oracle Refined J/F	proposal + bbox-only refinement 上界
Tube Selection Acc@1	GT tube 被覆盖时，Top-1 预测是否为 matched GT tube
Tube Selection Acc@3	matched GT tube 是否进入 Top-3
GT Top-3 but Null Top-1 Rate	GT tube 已在 Top-3，但 null tube 排名第 1 的比例
Null Accuracy	是否正确选择 null tube
Null FPR	Null 视频中错误选择非空 tube 的比例
Positive FNR	正样本视频中错误选择 null tube 的比例
Existence AUC	(p_{exist}=1-P(null)) 的判别能力
Reliability Diagram / ECE	existence probability 是否校准
Refinement Gain	SAM refinement 前后 J/F 提升
Latency / FPS / Memory	效率指标
(AC)	attention mass 是否集中在 GT region / GT tube
(\widehat{AC}_{tube})	标准化 tube-level AC，定义为 (N\cdot AC_{tube})，用于不同 N 之间比较
H3 Cosine Similarity Gap	同一 tube 不同 expression 下 conditioned 与 fixed Q-Former 的 (\tilde{z}_i) 相似度差异

Tube Selection Acc 定义：
在 GT tube 被 proposal 覆盖的样本中，selector 的 Top-1 预测与 matched GT tube 一致的比例。proposal miss 样本不计入该指标，但必须单独报告。

Selection Acc@3 的 null 处理：
针对正样本评估 object-level Top-3 时，先从候选排名中排除 null tube，再判断 matched GT tube 是否进入 Top-3。否则 null tube 排名第 2 但 GT tube 排名第 3 的情况会被误计为 object selection 成功。与 null 校准相关的情况单独用 GT Top-3 but Null Top-1 Rate 报告，该指标在包含 null tube 的完整 ranking 上计算。

若 Null 样本少于 200 个，Reliability Diagram 作为主要校准分析，ECE 仅作为辅助数字。

7.3 Error decomposition

每个失败样本归类为：

错误类型	判定标准
Proposal miss	top-N candidate tubes 中无 tube 与 GT-visible-frame mean IoU ≥ 0.5
Selection error	GT tube 存在，且非 null tube 被错误选择为其他 object tube
Refinement error	selector 选对，但 refined mask J/F 明显低
Null false positive	Null 视频中选择了非空 tube
Null false negative	正样本视频中选择了 null tube
GT tube Top-3 but Null Top-1	正样本中 matched GT tube 已进入 Top-3，但 null tube 得分最高

最后一类不应简单并入 Selection error 或 Null FN。它说明模型具备候选识别能力，但 existence / null 校准存在问题。

互斥归类优先级：
Error decomposition 必须保证每个失败样本只落入一个类别，避免各项占比相互重叠。默认优先级为：

Proposal miss；
Null FN with GT Top-3，即正样本中 null ranked 1st 且 matched GT tube 进入 object-level Top-3；
Null FN without GT Top-3；
Selection error；
Refinement error；
Null FP。

报告时可以把第 2、3 类合并成总 Null FN，同时单独列出 GT Top-3 but Null Top-1 作为 Null FN 的校准子类型。

该分析需要在 Seen、Unseen、Null、late-target、same-category distractor、audio-critical 子集上分别报告。

8. 诊断实验

8.1 Conditioning 是否真的有效

v3 将 conditioning 诊断拆成两个层次：

Correctness level：模型是否关注正确 GT 区域 / GT tube。对应 AC 与 (\widehat{AC}_{tube})。
Expression-sensitivity level：同一 tube 在不同 referring expressions 下是否产生不同证据摘要。对应 H3 direct validation。

这两个层次不能混淆。高 AC 只能说明模型关注正确对象，不能直接证明 H3。

8.1.1 H3 direct validation：同一 tube 不同 expression 的表示差异

适用子集：3.2.6 Multi-expression H3 subset。

实验设置：

对同一视频生成一次 shared candidate tubes；
找到 matched GT tube (o_{i^*})；
对同一视频的两个 expressions (r_a,r_b) 分别运行 fixed Q-Former 与 conditioned Q-Former；
记录同一 tube 的输出表示：(\tilde{z}{i^*}^{a})、(\tilde{z}{i^*}^{b})。

指标：

[ \text{CosSim}_{same\ tube}

\cos(\tilde{z}{i^*}^{a},\tilde{z}{i^*}^{b}) ]

报告：

Model	Same-tube cross-expression CosSim	H3 解释
Fixed Q-Former	1.0	不依赖 expression，确定性恒等 baseline
Text-conditioned		文本差异是否改变 tube summary
Audio-conditioned		音频差异是否改变 tube summary
Text+Audio-conditioned		完整条件化是否产生最大差异

期望结果：

Fixed Q-Former 的 cross-expression CosSim (\equiv 1.0)，这是确定性 baseline，而不是经验近似；
Text+Audio-conditioned Q-Former 的 CosSim 显著低于 1.0；
CosSim 降低不能以 Selection Acc 下降为代价；
若 CosSim 无差异但性能提升存在，则论文表述应改为 “learned compression improves selection”，而不是强称 “expression-conditioned evidence summarization”。

8.1.2 Attention Concentration 指标

对于 patch-level 或 frame-level attention (A)，定义：

[ AC

\frac{ \sum_{t,l} A_{t,l} \cdot \mathbf{1}[(t,l)\in GT] }{ \sum_{t,l} A_{t,l} } ]

若 attention 是 tube-level，则原始 tube attention concentration 为：

[ AC_{tube}

\sum_i A_i \cdot \mathbf{1}[i=i^*] ]

但 (AC_{tube}) 受 candidate 数 (N) 影响。为保证不同 N 下可比较，v3 使用标准化版本：

[ \widehat{AC}{tube}=N\cdot AC{tube} ]

其中随机基准恒为 1.0，完全集中在 GT tube 上时为 (N)。

比较：

fixed Q-Former；
text-conditioned；
audio-conditioned；
text+audio-conditioned。

并在以下表达类型上分别报告：

audio-related expressions；
spatial relation expressions；
category-only expressions；
same-category distractor samples；
multi-expression H3 subset。

8.2 Audio robustness

实验	目的
audio removed	测试音频模块整体贡献
audio amplitude zeroed, temporal length preserved	区分音频缺失与全零音频特征；检查模型是否只利用“有无音频”信号
audio shuffled	测试是否依赖时间同步
same-category audio swapped	测试是否依赖细粒度音频差异
cross-category audio swapped	测试是否使用音频语义，而非只检测音频存在
audio-text conflict	测试冲突条件下模型是否合理退化
strict audio-critical subset	测试音频关键样本上的收益

Audio swapped 分组要求：

Same-category swap：例如吉他声换另一段吉他声；
Cross-category swap：例如吉他声换狗叫或人声。

只有 cross-category swap 导致显著下降，并且 zeroed audio 与 removed audio 呈现可解释差异，才能更有力证明模型确实使用音频语义。

8.3 First-frame bias / temporal coverage

实验	目的
late-target subset	目标后半段出现时是否优于 SimToken
keyframe stride ablation	分析关键帧覆盖对性能影响
partial target subset	测试目标只在部分帧出现的鲁棒性
target disappears subset	测试 tracking 稳定性
GT-visible-frame IoU vs all-frame IoU	区分目标定位质量和多余 mask 问题

8.4 Same-category distractor

报告：

TubeToken vs SimToken；
w/ self-attention vs w/o self-attention；
hard-negative ranking loss ablation；
Selection Acc@1 / Acc@3；
同类干扰样本上的 error decomposition。

重点验证 TubeToken 是否减少同类实例混淆。

8.5 Null threshold sensitivity

虽然 TubeToken 使用 null tube，不需要手工 mask area threshold，但仍需要展示：

[ p_{exist}=1-P(null) ]

在不同 threshold 下的：

Null FPR；
Positive FNR；
J&F；
Null S；
GT tube Top-3 but Null Top-1 Rate。

这能说明模型是否对阈值敏感。

同时比较：

null tube；
binary existence head；
mask-area threshold。

9. Efficiency 与公平计算量对比

Reviewer 会质疑 TubeToken 是否只是计算量换性能，因此必须主动报告效率与等计算量对照。

9.1 需要报告的效率项

项目	说明
Proposal generation time	SAM2 AMG + keyframe processing，按 per video 统计
Tracking / propagation time	SAM2 memory propagation
Tube selection time	conditional compression + selector，按 per expression 统计
SAM refinement time	bbox prompt refinement
Total latency per video	完整推理耗时，需区分单 expression 与多 expression 场景
FPS	视频级速度
Peak GPU memory	显存
MLLM token count	与 SimToken 比较
Number of SAM/SAM2 calls	计算量透明化
Candidate tube number	N=16/32/64/128
Keyframe stride	stride=4/8/16
Amortized proposal cost per expression	多 expression 场景下，SAM2 proposal generation 对同一视频只运行一次，在 K 个 expressions 间摊销
Per-expression incremental cost	CondQFormer、selector、refinement 对每个 expression 的增量耗时

9.2 TubeToken 三种配置

配置	默认设置	目的
Fast	N=16, stride=16	接近 SimToken 计算预算
Balanced	N=32, stride=8	性能与效率折中
Accuracy	N=64 或 128, stride=4	追求最好性能

9.3 等计算量对比

必须加入：

SimToken + matched compute，固定为 multiple keyframe prompting with the same number of keyframes as TubeToken-Fast；
SimToken + SAM2 proposals；
SAM2 proposals + learned reranker（no null tube）；
TubeToken-Fast。

报告这些变体在接近 latency / FLOPs / SAM call 数量下的性能。matched compute baseline 的实现必须在实验前固定，不能在实验后根据结果从 multi-scale prompting、multiple decode attempts 等候选方案中挑选。

若 TubeToken-Fast 显著优于 SimToken + matched compute，则可以有力回应“只是计算量换性能”的质疑。

9.4 多 expression 场景下的 proposal amortization

若同一视频有 (K) 个 referring expressions，TubeToken 的推理成本应拆分为：

[ C_{video}

C_{proposal}^{video} + K\cdot(C_{cond}^{expr}+C_{select}^{expr}+C_{refine}^{expr}) ]

其中 (C_{proposal}^{video}) 是 SAM2 AMG + propagation 的一次性 per-video 成本，不应被错误地重复计算 (K) 次。因此需要额外报告：

指标	定义
Proposal cost per video	同一视频生成 candidate tubes 的一次性成本
Amortized proposal cost per expression	(C_{proposal}^{video}/K)
Incremental expression cost	CondQFormer + selector + refinement 的 per-expression 成本
Total cost for K expressions	(C_{proposal}^{video}+K\cdot C_{expr})

这既避免 Reviewer 误解 TubeToken 每个 expression 都要重跑 SAM2 proposals，也能展示 TubeToken 在多 expression 视频上的潜在效率优势。

10. 主表设计

10.1 Main comparison table

主表只保留公开 baseline、复现主基线和 TubeToken 主配置，避免把公平性控制变体全部塞入主表导致结构臃肿。公平性控制单独放入 10.2。

Method	Seen J&F	Unseen J&F	Mix J&F	Null S	FPS	Memory
EEMC
TSAM
SAM2-LOVE
SimToken official
SimToken reproduced
EC-SimToken
TubeToken-Balanced
TubeToken-Accuracy

10.2 Fairness analysis table

该表专门回答公平性问题：TubeToken 的收益是否来自 SAM2 proposals、learned reranking、null tube 或额外计算量。

Method	Matched Proposal?	Matched Compute?	Null Modeling
SimToken reproduced	No	Base	Implicit / mask output
SimToken + SAM2 proposals zero-param rerank	Yes	No	SimToken implicit
SAM2 proposals + learned reranker（no null tube）	Yes	Partial	threshold / calibrated score
SimToken + matched compute（multiple keyframe prompting）	No	Yes, TubeToken-Fast budget	SimToken implicit
TubeToken-Minimal	Yes	TubeToken-Fast/Balanced reported	learnable null tube
TubeToken-Fast	Yes	Yes	learnable null tube

10.3 Proposal analysis table

Split	Recall@16	Recall@32	Recall@64	Oracle Tube J&F	Oracle Refined J&F bbox-only	Proposal Miss %
Seen
Unseen
Late-target
Small/occluded
Audio-critical
Multi-expression H3 subset

10.4 Ablation table

Variant	Seen J&F	Unseen J&F	Null S	Selection Acc@1	Null FPR	GT Top-3 Null Top-1	FPS
Full
TubeToken-Minimal
SAM2 proposals + learned reranker（no null tube）
w/o null tube
binary existence head
mask-area threshold
fixed Q-Former
text-only cond
audio-only cond
text+audio cond
w/o multi-expression training
w/ optional (\mathcal{L}_{cond})
w/o self-attn
independent scoring
w/o refinement
bbox+mask prompt

10.5 Error decomposition table

Split	Proposal Miss	Selection Error	Refinement Error	Null FP	Null FN	GT Top-3 but Null Top-1
Seen				-
Unseen				-
Null	-	-	-		-	-
Same-category				-
Late-target				-
Audio-critical				-
Multi-expression H3 subset				-

说明：Late-target、Same-category、Audio-critical 通常为正样本子集，因此 Null FP 不适用，用 “-” 标记；若某个子集定义中包含 Null 样本，则需要拆成 positive / null 两行。

10.6 Conditioning analysis table

Model	Overall (\widehat{AC}_{tube})	Audio-expression (\widehat{AC}_{tube})	Spatial-expression (\widehat{AC}_{tube})	Same-category (\widehat{AC}_{tube})	Cross-expression CosSim	Selection Acc@1
Fixed Q-Former
Text-conditioned
Audio-conditioned
Text+Audio-conditioned

11. 可视化计划

11.1 必做可视化

Tube selection visualization
展示 top-5 candidate tubes、selector score、最终选择。
Null case visualization
展示 null tube 得分最高，输出空 mask。
Same-category distractor
展示两个相似对象，TubeToken 正确选择目标 tube。
Late-target case
展示目标不在第一帧时，TubeToken 仍能通过 tube 选择找到目标。
Conditional attention map
同一视频、不同 expression 下，compressor 关注不同 tube/时间片段。
Attention Concentration visualization
展示 fixed Q-Former 与 conditioned Q-Former 的 attention mass 差异。
Failure cases
至少展示 proposal miss、selection error、refinement error 三类失败。

11.2 可视化标准

每个案例应包含：

输入视频关键帧；
expression；
audio waveform 或 audio activity；
candidate tubes；
selection scores；
selected tube；
final mask；
GT mask；
对应的 error category 或 diagnostic subset 标签。

12. 实施顺序与里程碑

Phase -1: 数据审计与 SimToken 复现

目标：确认 H3 是否具备数据基础，并建立所有 Go/No-Go 判断的主基准。

交付物：

SimToken reproduced result；
reproduced vs official 差异分析；
multi-expression audit；
H3 subset 构建结果；
Null 样本比例与 batch sampling 计划。

Phase -1 的两个任务可以并行启动：SimToken 复现用于建立所有阈值的主基准，multi-expression audit 用于决定 H3 的叙事强度。

Go / No-Go 条件：

Phase -1 结果	建议
SimToken 复现与官方差异 ≤ 1.5 J&F，且每个视频平均 expression 数 > 1.5	按 v4 计划全面推进 Phase 0，H3 保持 P0 级直接验证
SimToken 复现与官方差异 ≤ 1.5 J&F，但每个视频基本只有 1 个 expression	推进 Phase 0，但 H3 direct validation 从 P0 降为 P2，论文采用回退叙事
SimToken 复现差异 > 1.5 J&F	暂停后续实验，先定位复现差异，因为所有 Go/No-Go 阈值都依赖该基准

Phase -1 结束时必须明确说明 H3 属于强验证、弱验证还是叙事回退。

Milestone 1: 数据审计与 proposal recall

目标：判断 TubeToken 是否可行。

交付物：

数据统计表；
Recall@N；
Oracle Tube J/F；
Oracle Refined J/F bbox-only；
proposal miss 分析；
go / no-go 决策。

绿灯条件：

Recall@32 ≥ 85%；
Oracle Tube J/F ≥ reproduced SimToken J/F + 5%；
Oracle Refined J/F ≥ Oracle Tube J/F + 3%；
Small / occluded subset Recall@32 ≥ 70%。

黄灯条件：

Recall@32 为 80%-85%，但 Oracle Tube J/F 满足绿灯条件：推进但默认 N=64；
Oracle Tube J/F 仅 ≥ SimToken + 2%，但 Oracle Refined J/F ≥ SimToken + 5%：推进但论文重心转向 refinement。

红灯条件：

Recall@64 < 80%；
Oracle Tube J/F ≤ reproduced SimToken J/F；
Recall@32 ≥ 85%，且 Oracle Refined J/F 与 Oracle Tube J/F 差距 < 1%，且 Oracle Tube J/F ≤ reproduced SimToken J/F + 2%；
proposal 对 small / occluded / unseen 存在不可接受的系统性盲区。

Milestone 2: TubeToken-Minimal + Fairness Controls

实现最小版本：

SAM2 proposals；
tube construction；
fixed tube feature；
selector + null tube；
no conditional Q-Former；
no SAM refinement。

同时实现公平性控制：

SimToken + SAM2 proposals 零参数 reranking；
SAM2 proposals + learned reranker（no null tube）；
SimToken + matched compute；
w/o null tube + mask-area threshold。

目标：验证 object tube selection 是否优于 global token baseline，并排除“只是 SAM2 proposals 更强”或“只是计算量更多”的解释。

绿灯条件：

TubeToken-Minimal 的 Seen / Unseen J&F 均优于 reproduced SimToken ≥ 2%；
TubeToken-Minimal 优于 SimToken + SAM2 proposals；
TubeToken-Minimal 的 Null S ≤ SimToken Null S × 1.5；
Tube Selection Acc@1 ≥ 70%。

黄灯条件：

TubeToken-Minimal 优于 SimToken 但不优于 SimToken + SAM2 proposals：说明 proposal 贡献占主导，需要强化 selector 或调整论文叙事；
TubeToken-Minimal 仅在 Null 子集优于 SimToken，Seen / Unseen 持平：继续推进 Milestone 3，但不能把 Minimal 作为主要贡献。

红灯条件：

TubeToken-Minimal 在 Seen / Unseen 均不优于 SimToken，且不优于 SimToken + SAM2 proposals：重新设计 selector 或回退 EC-SimToken。

Milestone 3: 加入 Conditional Compression

实现：

fixed Q-Former；
text-conditioned Q-Former；
audio-conditioned Q-Former；
text+audio-conditioned Q-Former；
multi-expression training；
H3 cosine similarity validation。

目标：证明 conditioning 本身有效，而非 learnable Q-Former 参数量带来的提升。

必须交付：

conditioning ablation；
(\widehat{AC}_{tube})；
H3 cross-expression CosSim；
attention visualization；
audio-critical subset 结果；
audio zeroed / removed / shuffled / swapped robustness。

绿灯条件：

Text+Audio conditioned Q-Former 在 Seen / Unseen 均优于 Fixed Q-Former ≥ 1.5%；
(\widehat{AC}_{tube}) 在 audio-related expressions 上 conditioned ≥ fixed × 1.3；
同一视频不同 expression 下，CondQFormer 的 (\tilde{z}_i) CosSim 明显低于 Fixed Q-Former；
strict audio-critical subset 上性能提升 ≥ 2%。

黄灯条件：

CondQFormer 整体提升明显，但 (\widehat{AC}_{tube}) 差异不显著：论文改述为 learned tube compression；
Text-only 已足够好，Audio conditioning 额外收益 < 0.5%：audio conditioning 改为 robustness improvement，不作为主贡献。

红灯条件：

Fixed Q-Former 与 Text+Audio conditioned Q-Former 差距 < 0.5%，且所有子集无收益：conditioning 无效，考虑 CLIP visual features 或回退论文叙事。

Milestone 4: 加入 SAM Refinement

实现：

bbox prompt refinement；
bbox + semantic prompt refinement；
bbox + mask prompt 作为对照。

目标：证明 refinement 的贡献，并确认默认方案。

绿灯条件：

Bbox prompt refinement 在 J 上优于 w/o refinement ≥ 2%；
Oracle Refined J/F 与实际 TubeToken-Full J/F 的差距 ≤ 10%；
Bbox + mask prompt 不显著优于 bbox-only。

黄灯条件：

Refinement 提升 < 1%：将 SAM refinement 降为 optional module，论文重心转回 tube selection。

红灯条件：

Bbox + mask prompt 显著优于 bbox-only，且差距来自 mask prompt 的 GT-quality dependency：说明 proposal mask 质量不足，需要回到 Milestone 1 改 proposal。

Milestone 5: 完整实验与论文分析

完成：

主表；
消融；
hard subset；
error decomposition；
efficiency；
equal-compute comparison；
可视化；
failure case；
reliability diagram / threshold sensitivity。

13. 风险与应对

风险	严重程度	应对
Ref-AVSBench 缺少 multi-expression 结构	极高	不将 H3 作为主贡献；叙事回退为 learned tube compression / proposal-conditioned instance grounding
SimToken 复现与官方数字差异过大	高	先定位训练、输入、评估差异；所有后续 Go/No-Go 使用 reproduced number
Multi-expression training 出现梯度冲突	中高	使用 gradient accumulation 分开累积不同 expression 的梯度；早期采样语义差异较小的 expression pair，稳定后再引入 cross-modality pair
SimToken + matched compute 实现被质疑	高	实验前固定为 multiple keyframe prompting with TubeToken-Fast keyframe budget，不保留事后选择空间
多 expression efficiency 被误解为每个 expression 重跑 proposals	中	报告 proposal per-video cost、amortized proposal cost per expression 和 incremental expression cost

| Recall@32 低于 80% | 极高 | 增加 proposal 数、引入 detector、使用 hybrid fallback | | Oracle Tube J/F 不高于 reproduced SimToken | 极高 | 暂停 TubeToken 主线，改 refinement、高分辨率特征、proposal 方法或回退 EC-SimToken | | Oracle Refined J/F 定义不公平 | 高 | 固定为 oracle proposal bbox-only，不使用 GT mask prompt | | SimToken + SAM2 proposals 对照过弱 | 高 | 使用零参数 (F_{seg}) reranking，并公开公式 | | TubeToken-Minimal 优于 SimToken 但不优于 SimToken + SAM2 proposals | 高 | 说明 proposal 是主要贡献，需强化 tube selector 或调整论文叙事 | | learned reranker 与 TubeToken-Minimal 差距很小 | 中高 | null tube 贡献有限；Null 相关 claim 降级 | | (\mathcal{L}{cond}) 定义不清 | 中高 | 默认删除；若使用则单独定义并做 with/without 消融 | | Null tube 不稳定 | 中高 | 25% Null oversampling + weighted CE curriculum；报告采样比例敏感性 | | Null oversampling 过强导致正样本误判 Null | 高 | 监控 Positive FNR 与 GT Top-3 but Null Top-1 Rate | | conditioning 只带来小幅提升 | 高 | 强化诊断子集、(\widehat{AC}{tube})、H3 CosSim、fixed Q-Former 对照 | | H3 CosSim 无明显差异 | 高 | 不强调 expression-conditioned summarization；改强调 learned compression 或 selection architecture | | TubeToken 计算量过大 | 高 | 报告 Fast/Balanced/Accuracy 与 matched-compute baseline | | refinement 提升不明显 | 中 | 将重点转向 selection accuracy 与 hard cases；refinement 作为 optional module | | self-attention 无贡献 | 低 | 删除 self-attention，采用更简洁 selector | | attention map 不可解释 | 中高 | 使用 (\widehat{AC}_{tube})、query 分组、H3 CosSim 重新诊断 | | 与 SAM2 工程强绑定 | 中 | 明确核心贡献在 tube-level text/audio selection，不在 proposal generation |

14. 实验优先级

P0: 必须完成

SimToken 复现与官方结果差异分析；
Multi-expression audit；
Proposal Recall@N；
Oracle Tube J/F 和 bbox-only Oracle Refined J/F；
TubeToken-Minimal vs SimToken；
TubeToken-Minimal vs SimToken + SAM2 proposals；
SAM2 proposals + learned reranker（no null tube）；
TubeToken-Fast vs SimToken + matched compute（固定为 multiple keyframe prompting）；
Null tube ablation；
mask-area threshold Null baseline；
Null oversampling ratio ablation；
fixed Q-Former vs text+audio conditioned Q-Former；
(\widehat{AC}_{tube})；
H3 cross-expression CosSim（若 multi-expression audit 支持；否则降为 P2）；
Error decomposition；
GT Top-3 but Null Top-1 Rate；
Efficiency table。

P1: 强烈建议完成

late-target subset；
strict audio-critical subset；
same-category distractor subset；
threshold sensitivity；
conditioning attention visualization；
H3 cross-expression visualization；
self-attention ablation；
Reliability Diagram；
same-category vs cross-category audio swap；
audio amplitude zeroed, temporal length preserved。

P2: 有时间再做

audio shuffled；
cross-dataset validation, e.g., AVSBench / MeViS；
frame-level existence；
open-vocabulary detector assisted proposals；
manual hard negative benchmark；
hybrid fallback with EC-SimToken；
optional (\mathcal{L}_{cond}) attention supervision。

15. 预期论文叙事

15.1 正常叙事：H3 成立时

若 multi-expression audit、multi-expression training、H3 CosSim 和 (\widehat{AC}_{tube}) 均支持 H3，建议论文主线写成：

Existing Ref-AVS methods often compress multimodal evidence into a global semantic token, implicitly coupling existence judgment, instance grounding, and frame-level segmentation. We find that this implicit coupling becomes fragile in samples requiring instance-level comparison, temporal coverage, explicit null reasoning, or expression-dependent temporal evidence. We therefore formulate Ref-AVS as text-audio conditioned object-tube retrieval followed by mask refinement. Based on this view, we propose TubeToken, which constructs candidate object tubes, summarizes each tube with expression-conditioned temporal evidence, selects the referred tube through multimodal reasoning, handles Null cases via a learnable null tube, and refines the selected tube with SAM.

Introduction 中建议加入数据驱动的动机，例如：

SimToken 在 same-category distractor subset 上下降多少；
SimToken 在 late-target subset 上下降多少；
去掉 audio 后 audio-critical subset 上下降多少；
Null false positive 是否集中在某类样本；
fixed Q-Former 与 conditioned Q-Former 在 H3 subset 上的 CosSim 差异。

这能把叙事从“我们认为 global token 不好”升级为“我们用诊断数据证明 global token 有系统性弱点”。

15.2 回退叙事：H3 不强时

若数据集中 multi-expression 不足，或 conditioned Q-Former 的 H3 CosSim / (\widehat{AC}_{tube}) 证据不足，避免强称 “expression-conditioned evidence summarization”。建议改为：

We formulate Ref-AVS as proposal-conditioned instance grounding with explicit null reasoning. TubeToken improves robustness by decomposing global segmentation into candidate object tube construction, learned tube selection, null-aware existence modeling, and optional mask refinement.

此时论文主贡献应改为：

candidate object tube formulation；
explicit null tube / existence modeling；
fairness-controlled comparison with SimToken + SAM2 proposals and matched compute；
diagnostic error decomposition；
optional learned compression rather than strong conditioning claim。

16. 最小可接受结论标准

若最终结果满足以下条件，可以支撑一篇完整论文：

SimToken 复现可信，且所有关键比较基于 reproduced SimToken；
Recall@32 或 Recall@64 足够高，且 Oracle Tube J/F 明确高于 reproduced SimToken，证明 proposal 不是不可接受的瓶颈；
Oracle Refined J/F 使用 bbox-only prompt，且明确高于 Oracle Tube J/F，证明 refinement 有可达收益；
TubeToken 在 Seen / Unseen / Mix 不低于 SimToken 超过 2 个点；若主集只持平，必须在 Null、late-target、same-category、audio-critical 子集上有显著提升，并提供效率-鲁棒性-可解释性三维论证；
TubeToken-Fast 在接近计算预算下优于 SimToken + matched compute（multiple keyframe prompting）；
TubeToken-Minimal 优于 SimToken + SAM2 proposals，证明 tube selection 框架本身有效；
SAM2 proposals + learned reranker（no null tube）与 TubeToken-Minimal 的对比能解释 selector 与 null tube 的各自贡献；
fixed Q-Former 明显弱于 text+audio conditioned Q-Former；
如果主张 H3，则必须满足：multi-expression audit 支持、multi-expression training 有效、Fixed Q-Former CosSim (\equiv 1.0) 而 conditioned CosSim 显著低于 1.0，且 (\widehat{AC}_{tube}) 有提升；
null tube 明显优于 mask-area threshold 和 binary existence head；
Null oversampling 没有导致 Positive FNR 或 GT Top-3 but Null Top-1 Rate 不可接受地上升；
error decomposition 能清楚说明主要失败来自 proposal miss、selection error、refinement error、Null FP/FN 还是 Null 校准；
efficiency 虽然可能更高，但 Fast/Balanced/Accuracy setting 显示计算-性能 trade-off 合理。

如果第 2 点不成立，应及时回退到 EC-SimToken 路线，避免在低 recall 的 TubeToken 上投入过多。如果第 9 点不成立，应保留 TubeToken 框架，但下调 CondQFormer / H3 的论文权重。

17. 最终执行建议

推荐按照以下顺序推进：

先做 Phase -1：SimToken 复现 + multi-expression audit。
这是所有 Go/No-Go 条件和 H3 叙事是否成立的前提。
再做 Phase 0：proposal recall + bbox-only Oracle Tube / Refined J/F。
这是 TubeToken 能否成立的硬前提，且 Oracle Refined J/F 必须与实际 refinement 设置一致。
再做 Milestone 2 的 fairness controls。
TubeToken-Minimal、SimToken + SAM2 proposals 零参数 reranking、SAM2 proposals + learned reranker（no null tube）、SimToken + matched compute（multiple keyframe prompting）必须同时完成。
确认 tube 框架有效后再加入 CondQFormer。
若 multi-expression 数据充足，必须同步加入 multi-expression training 与 H3 CosSim；若不足，则不要把 H3 写成主贡献。
最后加入 refinement。
refinement 是性能增强项，不应成为论文叙事的唯一支柱。若 bbox-only refinement 提升很小，应将其降为 optional module。

这一路径可以最大程度降低风险：如果 proposal recall 或 oracle upper bound 不理想，可以及时切回 EC-SimToken；如果 TubeToken-Minimal 已经显示出明显优势，再继续投入完整 TubeToken 是合理的；如果 H3 验证不足，可以保留 tube-level retrieval 贡献，同时修改 CondQFormer 的叙事。

Appendix A. Reviewer 建议落地检查表

Reviewer 建议	v3 落地位置	状态
增加 H3 直接验证，不能只用 AC	1.2, 3.2.6, 8.1.1, 10.5, 12	已落实
检查数据集 multi-expression 结构	3.1, 3.1.1, Phase -1	已落实
CondQFormer 显式利用 multi-expression training	6.3, 12 Milestone 3	已落实
Go/No-Go 使用 reproduced SimToken，而非不明来源数字	4.0, 4.4, 12	已落实
Oracle Refined J/F 使用 bbox-only prompt，不用 GT mask	4.2.1, 4.3, 10.2	已落实
SimToken + SAM2 proposals 使用零参数 reranking	5.3.1	已落实
增加 SAM2 proposals + learned reranker（no null tube）	5.1, 5.2, 5.3.2, 10.1, 10.3, 12	已落实
删除或定义悬空的 (\mathcal{L}_{cond})	6.2, 6.2.1	已落实
明确 Null oversampling 比例	6.4, 14	已落实
增加 GT Top-3 but Null Top-1 错误类型	7.2, 7.3, 10.4	已落实
使用标准化 (\widehat{AC}_{tube})	7.2, 8.1.2, 10.5	已落实
增加 audio amplitude zeroed 控制实验	8.2, 14	已落实
修正 Error decomposition 表 Late-target 缺列	10.4	已落实
Main table 加入 TubeToken-Minimal	10.1	已落实
写入各 Milestone 绿灯 / 黄灯 / 红灯条件	12	已落实
增加叙事回退方案	15.2, 16, 17	已落实
固定 SimToken + matched compute 的唯一实现	5.3.3, 9.3, 10.2, 12	v4 已落实
修正 Phase 0 第三条红灯条件为可观测量	4.4.3, 12 Milestone 1	v4 已落实
Fixed Q-Former CosSim baseline 精确为 1.0	1.2, 8.1.1, 10.6, 16	v4 已落实
增加 multi-expression training 梯度冲突风险	6.3, 13	v4 已落实
主表精简，公平性控制移入独立表	10.1, 10.2	v4 已落实
增加多 expression proposal amortization efficiency	9.1, 9.4	v4 已落实
Selection Acc@3 排除 null tube	7.2	v4 已落实
Error decomposition 使用互斥优先级	7.3	v4 已落实
Phase -1 Go/No-Go 明确 SimToken 复现与 H3 audit 分支	12 Phase -1	v4 已落实