TubeToken 实验计划 v4(Final / Experiment-Ready)
主线:以 TubeToken 为核心框架,将 Existence / Null 建模 与 Text-Audio Conditional Compression 作为 TubeToken 的自然组成部分,而不是作为 SimToken 的外接补丁。
v4 目标:在 v3 Reviewer-Revised 的基础上完成最后一轮实验前定稿,固定 matched-compute baseline 的实现,修正 Phase 0 红灯条件,精确化 H3 CosSim baseline,补充 multi-expression training 的梯度冲突风险,重构主表与公平性分析表,并明确多 expression 场景下的 proposal amortization efficiency。
0. v4 最终修改摘要
本版是实验启动前的最终方案。v3 已经具备启动实验的完整框架;v4 只做定稿级别的精修,重点消除可能导致后期 Reviewer 质疑或实验返工的模糊点。
相较 v3,v4 做了以下最终修改:
- 固定 SimToken + matched compute 的唯一实现:不再保留四个候选方案,明确使用 SimToken + multiple keyframe prompting with the same number of keyframes as TubeToken-Fast。该对照在概念上最接近 TubeToken-Fast 的额外计算来源,也避免实验结束后选择有利 baseline 的嫌疑。
- 修正 Milestone 1 第三条红灯条件:删除 “预计 TubeToken-Minimal 无法获得 selection 收益” 这类 Phase 0 不可观测判断,改为完全基于 Phase 0 可测量量:Recall@32、Oracle Tube J/F、Oracle Refined J/F。
- 精确化 Fixed Q-Former 的 H3 CosSim baseline:Fixed Q-Former 对同一 tube 的不同 expression 输出完全相同,因此 cross-expression CosSim 恒等于 1.0,不是“接近 1”。Conditioned Q-Former 是否显著低于 1.0 是 H3 的直接证据。
- 补充 multi-expression training 的梯度冲突风险与缓解方案:若不同 expressions 对同一 tube 要求矛盾的 temporal / audio / spatial attention,可使用 gradient accumulation 分开累积,或先采样语义差异较小的 expression pair。
- 重构主表为顶会友好格式:主表精简为 8 行,只保留主要公开 baseline 与 TubeToken 主配置;SimToken + SAM2 proposals、learned reranker、matched compute、TubeToken-Minimal、TubeToken-Fast 移入独立 Fairness Analysis Table。
- 在 efficiency 中明确 per-video 与 per-expression 成本:SAM2 proposals 是 per video 一次性成本;在同一视频有 K 个 expressions 时,proposal cost 可在 expressions 间摊销,CondQFormer 与 selector 才是 per-expression 成本。
- 澄清 Selection Acc@3 对 null tube 的处理:正样本计算 object-level Top-3 时排除 null tube;“GT tube Top-3 but Null Top-1” 作为独立 null calibration 指标在全 ranking 中计算。
- 明确 error decomposition 的互斥优先级:每个失败样本只归入一个错误类别,按 Proposal miss → Null FN with GT Top-3 → Null FN without GT Top-3 → Selection error → Refinement error → Null FP 的优先级判定。
- 更新 Phase -1 Go/No-Go 标准:SimToken 复现与 multi-expression audit 可并行启动;若 SimToken 复现差异 > 1.5 J&F,则暂停后续实验;若 multi-expression 不足,则将 H3 direct validation 从 P0 降为 P2 并采用回退叙事。
- 更新 Appendix 检查表:把最终 Reviewer 精修建议全部纳入落地状态,形成实验前 checklist。
1. 核心研究假设
1.1 任务重述
Referring Audio-Visual Segmentation, Ref-AVS, 不应仅被建模为:
[ \text{MLLM} \rightarrow \langle SEG \rangle \rightarrow \text{SAM} ]
而应被建模为:
[ \text{Candidate Object Tubes} \rightarrow \text{Text-Audio Conditioned Tube Selection} \rightarrow \text{SAM Refinement} ]
也就是说,Ref-AVS 的本质更接近 object-level retrieval + mask refinement:
- 视频中有哪些候选对象实例?
- 哪一个对象实例被文本和音频共同指代?
- 如果没有符合条件的对象,模型能否显式选择 Null?
- 选中的对象 tube 是否能被进一步精修为高质量 mask?
1.2 主要假设
H1: Object tube 是比 global <SEG> token 更适合 Ref-AVS 的中间表示。
Tube 可以显式保持跨帧身份一致性,降低同类多实例、遮挡、出入画面情况下的 identity switch 风险。
H2: Null / Existence 应该通过显式候选建模解决。
TubeToken 中引入 learnable null tube,将 Null 判断转化为候选选择问题,而不是依赖 SAM decoder 被动输出空 mask。
H3: 同一 candidate tube 在不同 referring expression 下应暴露不同的时序证据,因此 tube 表征必须由 text/audio condition 动态调制。
在 TubeToken 中,conditional compression 不是全视频 token pooling 的替代品,而是 tube-level evidence summarization。同一 object tube 对于不同表达可能需要关注不同帧、不同动作、不同音频片段或不同空间关系。
H3 的成立前提与验证要求:
- 数据层面必须先确认 Ref-AVSBench 中是否存在多个 expression 指向同一视频或同一目标。
- 若存在 multi-expression 结构,训练阶段必须显式利用它:对同一视频 / 同一 tube 使用至少两个不同 expressions 进行 forward pass,共享 proposals,但使用不同 conditional queries。
- 验证 H3 时不能只报告 AC。AC 只能证明模型是否关注正确区域 / 正确 tube,不能证明同一 tube 在不同 expression 下产生了差异化证据摘要。
- H3 的直接验证指标是:同一视频、同一 matched GT tube、不同 expression 下 (\tilde{z}_i) 的 cosine similarity。Fixed Q-Former 因为不依赖 expression,对同一 tube 的不同 expression 输出完全相同,CosSim (\equiv 1.0);conditioned Q-Former 的 similarity 应显著低于 1.0,并且 selection performance 不下降。
- 若数据审计发现每个视频平均只有一个 expression,则 H3 不作为主贡献,论文主线应回退为 “proposal-conditioned instance grounding + explicit null reasoning”。
H4: TubeToken 的收益必须通过 proposal recall、oracle upper bound、selection accuracy、refinement quality 和 efficiency breakdown 分别解释。
不能只报告最终 J/F/S,否则无法回答性能提升来自哪里,也无法判断瓶颈位于 proposal、selection 还是 refinement。
H5: TubeToken 的提升必须在公平计算量和公平 proposal 条件下仍然成立。
必须通过 SimToken + SAM2 proposals、SimToken + matched compute、SAM2 proposals + learned reranker(no null tube)等对照排除 “只是 SAM2 proposal 更强” 或 “只是计算量更多” 的解释。
2. 方法版本定义
2.1 TubeToken-Full
完整方法包含四个阶段。
Stage 1: Candidate tube generation
在关键帧上使用 SAM2 automatic mask generation 产生候选 masks,并用 SAM2 tracking / memory 机制向前后帧传播,得到候选 object tubes:
[ \mathcal{O} = {o_1, o_2, \dots, o_N} ]
每个 tube:
[ o_i = {m_{i,t}, b_{i,t}, f_{i,t}}_{t=1}^{T} ]
其中:
- (m_{i,t}):第 (t) 帧 mask;
- (b_{i,t}):第 (t) 帧 bbox;
- (f_{i,t}):mask-pooled visual feature。
实现约定:
默认在关键帧上运行 SAM2 AMG,在非关键帧上使用 SAM2 propagation,而不是每帧重新运行 AMG。这样可以避免 proposal 阶段计算量过高。
Stage 2: Text-audio conditioned tube representation
文本表达编码为 (e_{text}),音频编码为 (e_{audio})。构造条件化 query:
[ Q = Q_0 + W_t e_{text} + W_a e_{audio} + W_{ta}(e_{text} \odot e_{audio}) ]
对每个 tube 的时序特征 ({f_{i,t}}_{t=1}^{T}) 进行条件化压缩:
[ \tilde{z}i = \text{CondQFormer}(Q, {f{i,t}}_{t=1}^{T}) ]
该模块的目标不是单纯减少 token 数,而是让同一 tube 在不同 expression 下形成不同的证据摘要。
v3 约束: 如果数据集中存在多 expression 样本,Stage 2 的训练必须在 batch 内显式包含同一视频 / 同一 tube 的不同 expression forward pass。否则 H3 只能作为推理假设,不能作为强实验证明。
2.2 特征来源说明
默认设定:
[ f_{i,t} = \text{MaskPool}(\text{SAM2ImageEncoder}(I_t), m_{i,t}) ]
也就是说,Stage 2 复用 SAM2 image encoder 特征,不额外引入独立 ViT 或 CLIP visual encoder。这样有三个好处:
- proposal generation 与 tube representation 使用一致的视觉特征;
- 避免额外视觉 encoder 带来的计算量和公平性争议;
- efficiency table 更清楚,便于与 SimToken 和 SAM2-based baselines 对比。
可选扩展:若 SAM2 encoder feature 与文本/音频语义对齐不足,可增加一个轻量 projector:
[ f'{i,t} = W_v f{i,t} ]
但默认不引入额外大规模 visual-language encoder。
Stage 3: Tube selection with null tube
加入一个 learnable null tube:
[ z_{null} ]
将所有候选 tubes 与 null tube 一起输入 tube selector:
[ P(i \mid video, audio, text) = \text{Softmax}([s_1, s_2, \dots, s_N, s_{null}]) ]
若 (P(null)) 最大,则输出空 mask;否则选择得分最高的 object tube。
Existence probability 自然定义为:
[ p_{exist} = 1 - P(null) ]
Tube selector 默认结构
默认采用:
- reference query (q_{ref}=\text{MLP}([e_{text},e_{audio}]));
- tube tokens ({\tilde{z}i}{i=1}^{N});
- inter-tube self-attention;
- reference-conditioned cross-attention;
- per-tube classification head。
必须做消融:
- w/ inter-tube self-attention;
- w/o inter-tube self-attention;
- independent tube scoring,即每个 tube 独立通过 ([q_{ref}; \tilde{z}_i]) 的线性层打分。
Stage 4: SAM refinement
选中 tube 后,默认只使用 tube bbox 作为 box prompt,并结合 text/audio semantic prompt 进行 SAM refinement:
[ \hat{m}t = \text{SAMRefine}(I_t, b{i,t}, q_{ref}) ]
默认不使用 tube mask 作为 mask prompt,避免“自我精修”带来的解释问题。tube mask 只用于:
- 生成 bbox;
- 提取 tube feature;
- proposal matching;
- oracle upper bound 计算。
需要额外做对照:
- bbox-only prompt;
- bbox + semantic prompt;
- bbox + mask prompt。
如果 bbox + mask prompt 没有明显收益,正文采用 bbox-only 或 bbox + semantic prompt 作为默认版本。
3. 数据审计与诊断子集构建
正式训练前必须先完成数据审计。该步骤决定后续实验是否有足够说服力。v3 将数据审计升级为 Phase -1,其中 multi-expression 结构与 SimToken 复现是进入 Phase 0 的前置条件。
3.1 必统计项目
| 项目 | 目的 |
|---|---|
| 每个视频的 referring expression 数量 | 判断 H3 是否可以被直接训练和验证 |
| 每个 GT object / tube 对应的 expression 数量 | 构建 H3 direct validation subset |
| SimToken alignment loss 中正样本表达集 (\mathcal{P}_i) 是否可复用 | 决定 multi-expression training 的实现路径 |
| Null 样本比例 | 判断 null tube / weighted CE 的训练难度 |
| GT 目标可见帧比例 | 决定是否需要 frame-level existence;若比例低则不引入 |
| 目标首次出现时间分布 | 构建 late-target subset,验证是否缓解 first-frame bias |
| 同类多实例比例 | 验证 inter-tube reasoning 和 hard negative 是否必要 |
| 小目标 / 遮挡目标比例 | 评估 proposal recall 风险 |
| 音频依赖表达比例 | 验证 audio-conditioned compression 是否有空间 |
| 空间关系表达比例 | 验证 spatial/relation query 是否必要 |
| Proposal miss 与目标属性关系 | 分析 SAM2 proposal 对小目标、遮挡、unseen 类别的系统性偏差 |
3.1.1 Multi-expression audit 的决策规则
| 审计结果 | 对 H3 和 CondQFormer 的影响 |
|---|---|
| 每个视频平均 expression 数 > 1.5,且同一 GT object 有多个 expression | 正常推进 H3;使用 multi-expression training 和 direct cosine validation |
| 多数视频只有 1 个 expression,但少量视频有多 expression | H3 作为诊断性贡献;在 multi-expression subset 上报告直接验证 |
| 每个视频基本只有 1 个 expression | 不把 H3 作为核心 claim;CondQFormer 改述为 learned tube compression / multimodal query adaptation |
3.2 诊断子集
至少构建以下子集。
3.2.1 Late-target subset
目标首次可见帧位于视频后 50% 的样本。
定义:
[ t_{first} = \min {t \mid g_t \neq \emptyset} ]
若:
[ t_{first} > 0.5T ]
则归入 late-target subset。
3.2.2 Audio-critical subset
v3 继续采用两阶段定义。
Stage A: 初筛
通过文本关键词筛选:
- sounding;
- making sound;
- longest sound;
- intermittent sound;
- silent;
- audio;
- heard;
- emitting sound;
- playing instrument 等。
Stage B: 精筛
训练出 w/o Audio 版本后,将满足以下条件的样本归入 strict audio-critical subset:
- Full model 预测正确或显著优于阈值;
- w/o Audio 模型预测错误或 J/F 显著下降;
- 视频中存在至少两个视觉候选,单靠视觉无法稳定区分目标。
这样避免“表达包含音频词但视觉上唯一可解”的伪 audio-critical 样本。
3.2.3 Same-category distractor subset
视频中存在多个同类别或高度相似候选对象,表达需要区分实例。
优先数据来源:
- 数据集原始 object annotations;
- 若无现成标注,使用 CLIP / Grounding DINO / OWL-ViT 进行 zero-shot object discovery;
- 结合 SAM2 proposals 的 mask-pooled CLIP similarity 聚类,近似识别同类候选。
该子集需要报告构建方式和人工抽查准确率,避免 Reviewer 质疑子集可靠性。
3.2.4 Null subset
原始 Null 样本,并进一步区分:
- visual object exists but not referred;
- audio exists but no valid visual target;
- text refers to absent object;
- audio-text conflict / ambiguous null。
3.2.5 Small / occluded target subset
用于分析 proposal miss。
初始定义:
- small:GT mask area 小于图像面积的 5%;
- heavily occluded:连续可见帧少于 (0.5T),或 mask area 在时序上剧烈波动;
- partial target:目标只在部分帧出现。
3.2.6 Multi-expression H3 subset
用于直接验证 H3。
样本条件:
- 同一视频中存在至少两个 referring expressions;
- 这些 expressions 指向同一 GT object / GT tube,或至少指向可稳定匹配的同一 target instance;
- expressions 在语义上存在差异,例如类别、动作、音频、空间关系、交互对象或时序片段不同;
- SAM2 proposals 中存在 matched GT tube,避免 proposal miss 干扰 H3 验证。
报告内容:
- 每个视频平均 expression 数;
- 每个 GT object 平均 expression 数;
- H3 subset 样本数量;
- expression 差异类型分布;
- 人工抽查准确率。
4. Phase 0: Proposal Recall 与 Oracle 上界预实验
这是 TubeToken 的 go / no-go 实验。若 proposal recall 或 oracle upper bound 不足,TubeToken 的性能上限会被 proposal 阶段限制。
4.0 Phase -1 前置基准线:SimToken 复现
在运行 Proposal Recall 与 Oracle 上界之前,必须先完成 SimToken 复现。
要求:
- 使用与 TubeToken 后续实验一致的数据划分、输入分辨率、音频特征、训练 epoch、batch size、optimizer、scheduler 和 evaluation script。
- 以作者复现的 SimToken J/F/S 作为所有 Go/No-Go 条件中的主基准。
- 官方 SimToken 数字只作为旁注;若复现数字与官方数字差异超过 1.5 J&F,需要先定位差异来源。
- 论文中明确写作:
All comparisons are conducted under the same training configuration as SimToken (reproduced), with official results cited where applicable.
4.1 设置
- Proposal model: SAM2 automatic mask generation。
- 关键帧策略:
- stride = 4;
- stride = 8;
- stride = 16;
- first / middle / last + audio-peak frames;
- uniform + motion-peak frames;
- uniform + audio-peak + motion-peak frames。
- Propagation: 使用 SAM2 memory / tracking 机制生成完整 tube。
- Candidate numbers: (N=16,32,64,128)。
4.2 Tube matching 定义
v3 使用 GT-visible-frame mean tube IoU,避免 late-target 或 partial target 样本被空帧稀释。
令:
[ \mathcal{T}_g = {t \mid g_t \neq \emptyset} ]
则:
[ IoU_{tube}(o_i, g)= \frac{1}{|\mathcal{T}g|} \sum{t \in \mathcal{T}g} IoU(m{i,t}, g_t) ]
若:
[ \max_i IoU_{tube}(o_i, g) \ge 0.5 ]
则认为 GT 被 proposal 覆盖。
同时报告更严格版本:
[ IoU_{tube}^{all}
\frac{1}{T} \sum_{t=1}^{T} IoU(m_{i,t}, g_t) ]
用于分析 tube 在 GT 不存在帧是否产生多余 mask。
4.2.1 Oracle Refined J/F 精确定义
Oracle Tube J/F:在 top-N candidate tubes 中选择 (IoU_{tube}) 最高的 tube,直接评估该 tube mask 的 J/F。
Oracle Refined J/F:在 top-N candidate tubes 中选择 oracle tube,只使用该 tube 的 bbox 作为 SAM / SAM2 box prompt,经 refinement 后评估 J/F。
约束:
- 不允许使用 GT mask 作为 mask prompt;
- 不允许使用 oracle GT box;
- bbox 来自 oracle proposal tube;
- refinement 设置必须与实际 Stage 4 默认设置一致。
这样 Oracle Refined J/F 才是实际 TubeToken refinement 的可达上界,而不是依赖 GT mask 的理想化上界。
4.3 指标
| 指标 | 解释 |
|---|---|
| Recall@16 / 32 / 64 / 128 | top-N tubes 中是否存在 GT tube |
| Oracle Tube J/F | 总是选择 (IoU_{tube}) 最高 tube 的 proposal 上界 |
| Oracle Refined J/F | 选择 oracle tube 后,仅用 proposal bbox prompt 做 SAM refinement 的上界 |
| Proposal coverage by subset | 在 late-target、small、occluded、unseen 上分别报告 |
| Proposal miss % | 未覆盖 GT 的样本比例 |
| Average tubes per video | 计算量和 pruning 难度 |
| Proposal generation latency | 评估效率 |
| Tube temporal purity | tube 是否在 GT 不存在帧产生大量 false positive |
4.4 Go / No-Go 决策标准
下列阈值中的 SimToken 均指 作者复现的 SimToken,不是仅引用官方数字。
4.4.1 Milestone 1 绿灯条件
同时满足:
- Recall@32 ≥ 85%,其中 matching 使用 GT-visible-frame IoU ≥ 0.5;
- Oracle Tube J/F ≥ reproduced SimToken J/F + 5%;
- Oracle Refined J/F ≥ Oracle Tube J/F + 3%,说明 SAM refinement 有明确提升空间;
- Small / occluded subset Recall@32 ≥ 70%,避免 proposal 对关键困难样本存在系统性盲区。
策略:TubeToken 正常推进,默认 Balanced 配置使用 (N=32)。
4.4.2 Milestone 1 黄灯条件
| 条件 | 后续策略 |
|---|---|
| Recall@32 为 80%-85%,且 Oracle Tube J/F 满足绿灯条件 | 继续推进,但默认 (N=64),并在论文中重点分析 proposal miss |
| Oracle Tube J/F 仅 ≥ SimToken + 2%,但 Oracle Refined J/F ≥ SimToken + 5% | 继续推进,但论文重心从 selection 转向 refinement;强调 proposal-conditioned refinement |
| Recall@32 ≥ 85%,但 small/occluded Recall@32 < 70% | 继续推进主线,但必须增加 detector-assisted proposals 或 high-resolution proposals 的备选实验 |
4.4.3 Milestone 1 红灯条件
任一条件满足即暂停 TubeToken 主线,优先切换 EC-SimToken 或重做 proposal 阶段:
- Recall@64 < 80%;
- Oracle Tube J/F ≤ reproduced SimToken J/F;
- Recall@32 ≥ 85%,且 Oracle Refined J/F 与 Oracle Tube J/F 差距 < 1%,且 Oracle Tube J/F ≤ reproduced SimToken J/F + 2%。
第三条红灯条件只使用 Phase 0 可观测量。其含义是:proposal 质量本身只比 SimToken 略好,bbox-only refinement 又几乎无增益,此时 TubeToken 在该数据集上缺少足够立足点,不应依赖 Milestone 2 之前无法验证的 selection 收益预期。
4.5 若 recall 不足的备选策略
- 增加关键帧数量;
- 使用 audio-peak / motion-peak keyframes;
- 对文本中出现的类别词使用 open-vocabulary detector 生成 boxes,再送 SAM2;
- 使用 SimToken / EC-SimToken 的 mask 作为额外 proposal;
- 引入 hybrid fallback:若 proposal confidence 低,则回退到 global semantic prompt segmentation。
5. Baseline 与模型变体
5.1 必须复现 / 对比的模型
| 模型 | 用途 |
|---|---|
| EEMC | 原始 Ref-AVS baseline |
| TSAM | SAM-based Ref-AVS baseline |
| SAM2-LOVE | SAM2-based Ref-AVS baseline |
| SimToken | 最直接对比对象,必须复现 |
| EC-SimToken | 强化后的 global token baseline,用于证明 TubeToken 不是只打 weak baseline |
| SimToken + SAM2 proposals | 控制 SAM2 proposals 带来的收益,采用零参数 reranking |
| SAM2 proposals + learned reranker(no null tube) | 分离 learned tube reranker 与 null tube 的贡献 |
| SimToken + matched compute | 等计算量公平对照 |
| TubeToken-Minimal | 最小 tube selection 框架 |
| TubeToken-Full | 完整方法 |
如果无法完整复现 EEMC、TSAM、SAM2-LOVE,可引用官方结果;但 SimToken、SimToken + SAM2 proposals、SAM2 proposals + learned reranker、SimToken + matched compute、TubeToken 必须在同一训练 / 输入 / 评估设置下比较。
5.2 TubeToken 主要消融
| 变体 | 目的 |
|---|---|
| TubeToken-Full | 完整模型 |
| TubeToken-Minimal | SAM2 proposals + fixed tube feature + selector + null tube,无 CondQFormer,无 refinement |
| SAM2 proposals + learned reranker(no null tube) | 分离 learned selector 与 null tube 的贡献 |
| w/o null tube | 验证显式 Null 建模 |
| null tube → binary existence head | 比较 null tube 与额外二分类 head |
| w/o null tube + mask-area threshold | 区分 Null 性能来自 tube 框架还是 null tube 设计 |
| fixed Q-Former | 验证 conditioning 是否有效,而非参数量增加 |
| text-conditioned only | 验证文本条件贡献 |
| audio-conditioned only | 验证音频条件贡献 |
| text+audio-conditioned | 完整条件化压缩 |
| w/o inter-tube self-attention | 验证 tube 间相对比较是否必要 |
| independent tube scoring | 每个 tube 独立通过 ([q_{ref};z_i]) 线性打分 |
| w/o SAM refinement | 验证 tube selection 本身能力 |
| bbox prompt refinement | 默认 refinement 方案 |
| bbox + semantic prompt refinement | 验证 semantic prompt 是否有贡献 |
| bbox + mask prompt refinement | 检查 mask prompt 是否会带来收益或过拟合 |
| N=16/32/64/128 | 分析 candidate 数量和 recall/效率 trade-off |
| stride=4/8/16 | 分析关键帧数量和效率 trade-off |
5.3 公平性控制变体
5.3.1 SimToken + SAM2 proposals:零参数 proposal reranking baseline
目的:回答 “TubeToken 的提升是否只是因为使用了 SAM2 proposals?”
该 baseline 必须采用参数无关的 reranking,不能使用模糊的 “rerank or fusion” 写法。
实现:
- 保持 SimToken 的 global
<SEG>生成方式,得到 (F_{seg})。 - 使用与 TubeToken 完全相同的 SAM2 proposals 和 tube construction。
- 对每个 proposal tube 提取时序 mask-pooled feature (f_{i,t})。
- 使用如下零参数分数:
[ \text{score}(o_i)
F_{seg}^{\top} \cdot \frac{1}{|\mathcal{T}|} \sum_t f_{i,t} ]
- 选择分数最高的 proposal tube,并使用与 TubeToken-Minimal 一致的输出设置。
该方案不引入额外可学习参数,与 SimToken 的 (F_{seg}) 使用方式一致,能最大限度避免 Reviewer 质疑对照组被弱化。
5.3.2 SAM2 proposals + learned reranker(no null tube)
目的:回答 “TubeToken-Minimal 的提升来自 learned tube selector,还是来自 null tube?”
实现:
- 使用与 TubeToken-Minimal 相同的 SAM2 proposals、tube construction、tube feature 和 (q_{ref})。
- 训练一个 learned reranker / classifier 对非 null candidate tubes 打分。
- 不加入 learnable null tube。
- Null case 使用 mask-area threshold 或 calibrated score threshold 处理。
- 与 TubeToken-Minimal 对比:若 TubeToken-Minimal 明显更好,说明 null tube 有独立贡献;若 learned reranker 已接近 TubeToken-Minimal,说明主要收益来自 learned tube selection。
5.3.3 SimToken + matched compute:预注册等计算量 baseline
目的:回答 “TubeToken 是否只是计算量换性能?”
v4 固定唯一实现,不再保留多个候选方案:
SimToken + multiple keyframe prompting with the same number of keyframes as TubeToken-Fast.
实现约定:
- 使用与 TubeToken-Fast 相同数量的关键帧,默认对应 TubeToken-Fast 的 stride=16 keyframe budget。
- 对每个关键帧分别运行 SimToken 的 global
<SEG>/ SAM prompting 流程。 - 将多个 keyframe 的预测通过同一 propagation / aggregation 规则合成为视频级 mask,规则必须在实验前固定。
- 不使用 SAM2 proposal tube reranking,不引入 learned tube selector,不引入 null tube。
- 报告 latency、FLOPs、SAM/SAM2 call 数、MLLM token count,使其与 TubeToken-Fast 的计算预算尽可能接近。
选择该实现的原因:TubeToken-Fast 的额外计算主要来自更多关键帧与 proposal/propagation 处理,而 multiple keyframe prompting 是 SimToken 侧最直接、最可解释、最难被质疑的等计算量增强方式。该 baseline 必须在实验开始前预注册,不能根据最终结果临时更换。
6. 训练设计
6.1 Tube label assignment
正样本视频中,选择 GT-visible-frame mean tube IoU 最大的 candidate tube 作为正 tube:
[ i^* = \arg\max_i IoU_{tube}(o_i,g) ]
若最大 IoU 小于 0.5,则标记为 proposal miss。训练时:
- 不用于 tube classification loss;
- 可用于 proposal miss 统计;
- 不建议强行把低 IoU tube 当正样本,以免污染 selector。
Null 样本中,正类为 null tube。
6.2 Loss function
v3 默认总损失中 不包含未定义的 (\mathcal{L}_{cond})。Null 加权并入 tube classification CE,而不是单独写成独立的 (\mathcal{L}_{null})。
默认总损失:
[ \mathcal{L}
\mathcal{L}{tube}^{weighted} + \lambda_m y\mathcal{L}{mask} + \lambda_r\mathcal{L}_{rank} ]
其中:
[ \mathcal{L}_{tube}^{weighted}
\sum_i w_i \cdot \text{CE}(P(i \mid video,audio,text), y_i) ]
- 正样本:(w_i=1);
- Null 样本:(w_i=w_{null}),由 curriculum 控制;
- (\mathcal{L}_{mask}):BCE + Dice,只对非 Null 且非 proposal miss 样本计算;
- (\mathcal{L}_{rank}):hard negative ranking loss。
Hard negative ranking:
[ \mathcal{L}_{rank}
\sum_{j\in\mathcal{N}} \max(0,\Delta-s_{i^*}+s_j) ]
6.2.1 Optional (\mathcal{L}_{cond}) 辅助项
如果实验中决定使用 attention supervision,则 (\mathcal{L}_{cond}) 必须单独定义、单独消融,不能作为默认损失悬空出现。
可选定义:
[ \mathcal{L}_{cond}
- \sum_{t,l} \bar{M}{t,l} \log A{t,l} ]
其中:
- (A_{t,l}):CondQFormer 对第 (t) 帧第 (l) 个 patch / region 的 attention;
- (\bar{M}_{t,l}):归一化后的 GT mask 或 matched proposal mask;
- 该项只在有可靠 GT spatial supervision 的样本上使用。
若使用该项,则总损失写为:
[ \mathcal{L}
\mathcal{L}{tube}^{weighted} + \lambda_m y\mathcal{L}{mask} + \lambda_r\mathcal{L}{rank} + \lambda_c\mathcal{L}{cond} ]
并报告 with / without (\mathcal{L}_{cond})。
6.3 Multi-expression training for CondQFormer
这是 H3 在训练层面的必要实现。
适用前提:数据审计确认同一视频或同一 GT object 存在多个 referring expressions。
训练方式:
- 对每个 multi-expression 样本,先生成一次 SAM2 proposals,得到共享 candidate tubes (\mathcal{O})。
- 在同一个 batch 或 gradient accumulation window 中采样至少两个不同 expressions:(r_a, r_b)。
- 对同一组 tubes 分别构造条件化 query:
[ Q_a = Q_0 + W_t e_{text}^{a} + W_a e_{audio}^{a} + W_{ta}(e_{text}^{a} \odot e_{audio}^{a}) ]
[ Q_b = Q_0 + W_t e_{text}^{b} + W_a e_{audio}^{b} + W_{ta}(e_{text}^{b} \odot e_{audio}^{b}) ]
- 分别得到:
[ \tilde{z}{i}^{a} = \text{CondQFormer}(Q_a, {f{i,t}}_{t=1}^{T}) ]
[ \tilde{z}{i}^{b} = \text{CondQFormer}(Q_b, {f{i,t}}_{t=1}^{T}) ]
- 共享 tube proposals,但每个 expression 独立计算 tube selection loss。
- 如果两个 expressions 指向同一 GT tube,则要求 selection 都正确;不强制 (\tilde{z}{i}^{a}) 与 (\tilde{z}{i}^{b}) 相同,因为 H3 恰恰要求不同 expression 暴露不同证据。
- 如果两个 expressions 指向不同 targets,则作为 inter-expression hard negatives,用于强化同视频 instance discrimination。
实现注记:梯度冲突风险。
当两个 expressions 对同一 tube 需要关注不同证据时,例如一个表达依赖音频活跃帧,另一个表达依赖空间位置,CondQFormer 的共享参数可能收到相互冲突的梯度,造成训练振荡。若出现 loss oscillation、attention collapse 或正样本 Selection Acc 明显下降,采用以下缓解策略:
- 将不同 expression 的 forward / backward 放入同一 gradient accumulation window,但分开计算梯度后再累积,而不是在一个合并 forward 中强行混合;
- 训练早期优先采样语义差异较小的 expression pair,例如同为视觉表达或同为音频表达;
- 训练稳定后再逐步加入 cross-modality expression pair,例如 audio-expression vs spatial-expression;
- 单独记录 multi-expression pair 类型与训练稳定性,避免把梯度冲突误判为 conditioning 无效。
训练记录:
- batch 中 multi-expression 样本比例;
- 每个 shared proposal set 对应的 expression 数;
- expression pair 类型分布:visual-visual、audio-audio、visual-audio、spatial-audio;
- 使用 multi-expression training 与不使用该训练策略的对比结果。
若数据集不支持 multi-expression training,则必须在论文中降低 H3 的表述强度。
6.4 Null tube curriculum
Null tube 训练初期不稳定,因此采用 curriculum:
| 阶段 | epoch | Null 权重 (w_{null}) |
|---|---|---|
| Warmup | 0-2 | 2.0 |
| Middle | 3-6 | 1.0 |
| Final | 7+ | 0.5 |
同时使用 Null oversampling,但必须明确目标比例。
默认设置:
- 每个 batch 中 Null 样本目标比例:25%;
- 若原始 Null 比例高于 25%,不额外下采样,直接使用自然分布;
- 若原始 Null 比例低于 25%,通过 oversampling 补足;
- 单个 batch 中 Null 比例原则上不超过 33%,除非专门做采样比例消融。
必须报告 Null sampling ratio 对以下指标的影响:
- Null FPR;
- Positive FNR;
- Null S;
- Tube Selection Acc@1;
- “GT tube Top-3 but null tube Top-1” 错误比例。
Null sampling ratio 消融:
| Ratio | 目的 |
|---|---|
| 0% | no oversampling baseline |
| 12.5% | 弱 oversampling |
| 25% | 默认设置 |
| 33% | 较强 oversampling |
| 50% | 检查是否导致过度保守预测 null |
6.5 Hard negative mining
Hard negative mining 分阶段引入,避免工程依赖混乱。
Milestone 2: TubeToken-Minimal 阶段
只使用不依赖 CondQFormer 的 hard negatives:
- tube IoU 与 GT 较高但不是目标;
- 与 GT bbox / mask 空间位置接近;
- mask-pooled visual feature 与 GT 相似;
- 若有类别标签,则加入同类别不同实例。
Milestone 3: CondQFormer 阶段
加入 text/audio mismatch negatives:
- 与文本相似但音频不匹配;
- 与音频同步但文本不匹配;
- 与 audio-critical expression 高相关但不是 GT 的 tube;
- same-category distractor 中的高分错误 tube;
- 同一视频不同 expression 指向不同目标时,将非当前 expression 的目标 tube 作为 hard negative。
7. 评价指标
7.1 标准指标
| 指标 | 说明 |
|---|---|
| Seen J / F / J&F | seen categories 分割质量 |
| Unseen J / F / J&F | unseen categories 泛化能力 |
| Mix J / F / J&F | 综合表现 |
| Null S | Null subset 空目标表现 |
7.2 TubeToken 专属指标
| 指标 | 说明 |
|---|---|
| Recall@N | proposal 阶段是否覆盖 GT |
| Oracle Tube J/F | proposal 上界 |
| Oracle Refined J/F | proposal + bbox-only refinement 上界 |
| Tube Selection Acc@1 | GT tube 被覆盖时,Top-1 预测是否为 matched GT tube |
| Tube Selection Acc@3 | matched GT tube 是否进入 Top-3 |
| GT Top-3 but Null Top-1 Rate | GT tube 已在 Top-3,但 null tube 排名第 1 的比例 |
| Null Accuracy | 是否正确选择 null tube |
| Null FPR | Null 视频中错误选择非空 tube 的比例 |
| Positive FNR | 正样本视频中错误选择 null tube 的比例 |
| Existence AUC | (p_{exist}=1-P(null)) 的判别能力 |
| Reliability Diagram / ECE | existence probability 是否校准 |
| Refinement Gain | SAM refinement 前后 J/F 提升 |
| Latency / FPS / Memory | 效率指标 |
| (AC) | attention mass 是否集中在 GT region / GT tube |
| (\widehat{AC}_{tube}) | 标准化 tube-level AC,定义为 (N\cdot AC_{tube}),用于不同 N 之间比较 |
| H3 Cosine Similarity Gap | 同一 tube 不同 expression 下 conditioned 与 fixed Q-Former 的 (\tilde{z}_i) 相似度差异 |
Tube Selection Acc 定义:
在 GT tube 被 proposal 覆盖的样本中,selector 的 Top-1 预测与 matched GT tube 一致的比例。proposal miss 样本不计入该指标,但必须单独报告。
Selection Acc@3 的 null 处理:
针对正样本评估 object-level Top-3 时,先从候选排名中排除 null tube,再判断 matched GT tube 是否进入 Top-3。否则 null tube 排名第 2 但 GT tube 排名第 3 的情况会被误计为 object selection 成功。与 null 校准相关的情况单独用 GT Top-3 but Null Top-1 Rate 报告,该指标在包含 null tube 的完整 ranking 上计算。
若 Null 样本少于 200 个,Reliability Diagram 作为主要校准分析,ECE 仅作为辅助数字。
7.3 Error decomposition
每个失败样本归类为:
| 错误类型 | 判定标准 |
|---|---|
| Proposal miss | top-N candidate tubes 中无 tube 与 GT-visible-frame mean IoU ≥ 0.5 |
| Selection error | GT tube 存在,且非 null tube 被错误选择为其他 object tube |
| Refinement error | selector 选对,但 refined mask J/F 明显低 |
| Null false positive | Null 视频中选择了非空 tube |
| Null false negative | 正样本视频中选择了 null tube |
| GT tube Top-3 but Null Top-1 | 正样本中 matched GT tube 已进入 Top-3,但 null tube 得分最高 |
最后一类不应简单并入 Selection error 或 Null FN。它说明模型具备候选识别能力,但 existence / null 校准存在问题。
互斥归类优先级:
Error decomposition 必须保证每个失败样本只落入一个类别,避免各项占比相互重叠。默认优先级为:
- Proposal miss;
- Null FN with GT Top-3,即正样本中 null ranked 1st 且 matched GT tube 进入 object-level Top-3;
- Null FN without GT Top-3;
- Selection error;
- Refinement error;
- Null FP。
报告时可以把第 2、3 类合并成总 Null FN,同时单独列出 GT Top-3 but Null Top-1 作为 Null FN 的校准子类型。
该分析需要在 Seen、Unseen、Null、late-target、same-category distractor、audio-critical 子集上分别报告。
8. 诊断实验
8.1 Conditioning 是否真的有效
v3 将 conditioning 诊断拆成两个层次:
- Correctness level:模型是否关注正确 GT 区域 / GT tube。对应 AC 与 (\widehat{AC}_{tube})。
- Expression-sensitivity level:同一 tube 在不同 referring expressions 下是否产生不同证据摘要。对应 H3 direct validation。
这两个层次不能混淆。高 AC 只能说明模型关注正确对象,不能直接证明 H3。
8.1.1 H3 direct validation:同一 tube 不同 expression 的表示差异
适用子集:3.2.6 Multi-expression H3 subset。
实验设置:
- 对同一视频生成一次 shared candidate tubes;
- 找到 matched GT tube (o_{i^*});
- 对同一视频的两个 expressions (r_a,r_b) 分别运行 fixed Q-Former 与 conditioned Q-Former;
- 记录同一 tube 的输出表示:(\tilde{z}{i^*}^{a})、(\tilde{z}{i^*}^{b})。
指标:
[ \text{CosSim}_{same\ tube}
\cos(\tilde{z}{i^*}^{a},\tilde{z}{i^*}^{b}) ]
报告:
| Model | Same-tube cross-expression CosSim | Selection Acc@1 | H3 解释 |
|---|---|---|---|
| Fixed Q-Former | 1.0 | 不依赖 expression,确定性恒等 baseline | |
| Text-conditioned | 文本差异是否改变 tube summary | ||
| Audio-conditioned | 音频差异是否改变 tube summary | ||
| Text+Audio-conditioned | 完整条件化是否产生最大差异 |
期望结果:
- Fixed Q-Former 的 cross-expression CosSim (\equiv 1.0),这是确定性 baseline,而不是经验近似;
- Text+Audio-conditioned Q-Former 的 CosSim 显著低于 1.0;
- CosSim 降低不能以 Selection Acc 下降为代价;
- 若 CosSim 无差异但性能提升存在,则论文表述应改为 “learned compression improves selection”,而不是强称 “expression-conditioned evidence summarization”。
8.1.2 Attention Concentration 指标
对于 patch-level 或 frame-level attention (A),定义:
[ AC
\frac{ \sum_{t,l} A_{t,l} \cdot \mathbf{1}[(t,l)\in GT] }{ \sum_{t,l} A_{t,l} } ]
若 attention 是 tube-level,则原始 tube attention concentration 为:
[ AC_{tube}
\sum_i A_i \cdot \mathbf{1}[i=i^*] ]
但 (AC_{tube}) 受 candidate 数 (N) 影响。为保证不同 N 下可比较,v3 使用标准化版本:
[ \widehat{AC}{tube}=N\cdot AC{tube} ]
其中随机基准恒为 1.0,完全集中在 GT tube 上时为 (N)。
比较:
- fixed Q-Former;
- text-conditioned;
- audio-conditioned;
- text+audio-conditioned。
并在以下表达类型上分别报告:
- audio-related expressions;
- spatial relation expressions;
- category-only expressions;
- same-category distractor samples;
- multi-expression H3 subset。
8.2 Audio robustness
| 实验 | 目的 |
|---|---|
| audio removed | 测试音频模块整体贡献 |
| audio amplitude zeroed, temporal length preserved | 区分音频缺失与全零音频特征;检查模型是否只利用“有无音频”信号 |
| audio shuffled | 测试是否依赖时间同步 |
| same-category audio swapped | 测试是否依赖细粒度音频差异 |
| cross-category audio swapped | 测试是否使用音频语义,而非只检测音频存在 |
| audio-text conflict | 测试冲突条件下模型是否合理退化 |
| strict audio-critical subset | 测试音频关键样本上的收益 |
Audio swapped 分组要求:
- Same-category swap:例如吉他声换另一段吉他声;
- Cross-category swap:例如吉他声换狗叫或人声。
只有 cross-category swap 导致显著下降,并且 zeroed audio 与 removed audio 呈现可解释差异,才能更有力证明模型确实使用音频语义。
8.3 First-frame bias / temporal coverage
| 实验 | 目的 |
|---|---|
| late-target subset | 目标后半段出现时是否优于 SimToken |
| keyframe stride ablation | 分析关键帧覆盖对性能影响 |
| partial target subset | 测试目标只在部分帧出现的鲁棒性 |
| target disappears subset | 测试 tracking 稳定性 |
| GT-visible-frame IoU vs all-frame IoU | 区分目标定位质量和多余 mask 问题 |
8.4 Same-category distractor
报告:
- TubeToken vs SimToken;
- w/ self-attention vs w/o self-attention;
- hard-negative ranking loss ablation;
- Selection Acc@1 / Acc@3;
- 同类干扰样本上的 error decomposition。
重点验证 TubeToken 是否减少同类实例混淆。
8.5 Null threshold sensitivity
虽然 TubeToken 使用 null tube,不需要手工 mask area threshold,但仍需要展示:
[ p_{exist}=1-P(null) ]
在不同 threshold 下的:
- Null FPR;
- Positive FNR;
- J&F;
- Null S;
- GT tube Top-3 but Null Top-1 Rate。
这能说明模型是否对阈值敏感。
同时比较:
- null tube;
- binary existence head;
- mask-area threshold。
9. Efficiency 与公平计算量对比
Reviewer 会质疑 TubeToken 是否只是计算量换性能,因此必须主动报告效率与等计算量对照。
9.1 需要报告的效率项
| 项目 | 说明 |
|---|---|
| Proposal generation time | SAM2 AMG + keyframe processing,按 per video 统计 |
| Tracking / propagation time | SAM2 memory propagation |
| Tube selection time | conditional compression + selector,按 per expression 统计 |
| SAM refinement time | bbox prompt refinement |
| Total latency per video | 完整推理耗时,需区分单 expression 与多 expression 场景 |
| FPS | 视频级速度 |
| Peak GPU memory | 显存 |
| MLLM token count | 与 SimToken 比较 |
| Number of SAM/SAM2 calls | 计算量透明化 |
| Candidate tube number | N=16/32/64/128 |
| Keyframe stride | stride=4/8/16 |
| Amortized proposal cost per expression | 多 expression 场景下,SAM2 proposal generation 对同一视频只运行一次,在 K 个 expressions 间摊销 |
| Per-expression incremental cost | CondQFormer、selector、refinement 对每个 expression 的增量耗时 |
9.2 TubeToken 三种配置
| 配置 | 默认设置 | 目的 |
|---|---|---|
| Fast | N=16, stride=16 | 接近 SimToken 计算预算 |
| Balanced | N=32, stride=8 | 性能与效率折中 |
| Accuracy | N=64 或 128, stride=4 | 追求最好性能 |
9.3 等计算量对比
必须加入:
- SimToken + matched compute,固定为 multiple keyframe prompting with the same number of keyframes as TubeToken-Fast;
- SimToken + SAM2 proposals;
- SAM2 proposals + learned reranker(no null tube);
- TubeToken-Fast。
报告这些变体在接近 latency / FLOPs / SAM call 数量下的性能。matched compute baseline 的实现必须在实验前固定,不能在实验后根据结果从 multi-scale prompting、multiple decode attempts 等候选方案中挑选。
若 TubeToken-Fast 显著优于 SimToken + matched compute,则可以有力回应“只是计算量换性能”的质疑。
9.4 多 expression 场景下的 proposal amortization
若同一视频有 (K) 个 referring expressions,TubeToken 的推理成本应拆分为:
[ C_{video}
C_{proposal}^{video} + K\cdot(C_{cond}^{expr}+C_{select}^{expr}+C_{refine}^{expr}) ]
其中 (C_{proposal}^{video}) 是 SAM2 AMG + propagation 的一次性 per-video 成本,不应被错误地重复计算 (K) 次。因此需要额外报告:
| 指标 | 定义 |
|---|---|
| Proposal cost per video | 同一视频生成 candidate tubes 的一次性成本 |
| Amortized proposal cost per expression | (C_{proposal}^{video}/K) |
| Incremental expression cost | CondQFormer + selector + refinement 的 per-expression 成本 |
| Total cost for K expressions | (C_{proposal}^{video}+K\cdot C_{expr}) |
这既避免 Reviewer 误解 TubeToken 每个 expression 都要重跑 SAM2 proposals,也能展示 TubeToken 在多 expression 视频上的潜在效率优势。
10. 主表设计
10.1 Main comparison table
主表只保留公开 baseline、复现主基线和 TubeToken 主配置,避免把公平性控制变体全部塞入主表导致结构臃肿。公平性控制单独放入 10.2。
| Method | Seen J&F | Unseen J&F | Mix J&F | Null S | FPS | Memory |
|---|---|---|---|---|---|---|
| EEMC | ||||||
| TSAM | ||||||
| SAM2-LOVE | ||||||
| SimToken official | ||||||
| SimToken reproduced | ||||||
| EC-SimToken | ||||||
| TubeToken-Balanced | ||||||
| TubeToken-Accuracy |
10.2 Fairness analysis table
该表专门回答公平性问题:TubeToken 的收益是否来自 SAM2 proposals、learned reranking、null tube 或额外计算量。
| Method | Matched Proposal? | Matched Compute? | Null Modeling | Seen J&F | Unseen J&F | Mix J&F | Null S | FPS |
|---|---|---|---|---|---|---|---|---|
| SimToken reproduced | No | Base | Implicit / mask output | |||||
| SimToken + SAM2 proposals zero-param rerank | Yes | No | SimToken implicit | |||||
| SAM2 proposals + learned reranker(no null tube) | Yes | Partial | threshold / calibrated score | |||||
| SimToken + matched compute(multiple keyframe prompting) | No | Yes, TubeToken-Fast budget | SimToken implicit | |||||
| TubeToken-Minimal | Yes | TubeToken-Fast/Balanced reported | learnable null tube | |||||
| TubeToken-Fast | Yes | Yes | learnable null tube |
10.3 Proposal analysis table
| Split | Recall@16 | Recall@32 | Recall@64 | Oracle Tube J&F | Oracle Refined J&F bbox-only | Proposal Miss % |
|---|---|---|---|---|---|---|
| Seen | ||||||
| Unseen | ||||||
| Late-target | ||||||
| Small/occluded | ||||||
| Audio-critical | ||||||
| Multi-expression H3 subset |
10.4 Ablation table
| Variant | Seen J&F | Unseen J&F | Null S | Selection Acc@1 | Null FPR | GT Top-3 Null Top-1 | FPS |
|---|---|---|---|---|---|---|---|
| Full | |||||||
| TubeToken-Minimal | |||||||
| SAM2 proposals + learned reranker(no null tube) | |||||||
| w/o null tube | |||||||
| binary existence head | |||||||
| mask-area threshold | |||||||
| fixed Q-Former | |||||||
| text-only cond | |||||||
| audio-only cond | |||||||
| text+audio cond | |||||||
| w/o multi-expression training | |||||||
| w/ optional (\mathcal{L}_{cond}) | |||||||
| w/o self-attn | |||||||
| independent scoring | |||||||
| w/o refinement | |||||||
| bbox+mask prompt |
10.5 Error decomposition table
| Split | Proposal Miss | Selection Error | Refinement Error | Null FP | Null FN | GT Top-3 but Null Top-1 |
|---|---|---|---|---|---|---|
| Seen | - | |||||
| Unseen | - | |||||
| Null | - | - | - | - | - | |
| Same-category | - | |||||
| Late-target | - | |||||
| Audio-critical | - | |||||
| Multi-expression H3 subset | - |
说明:Late-target、Same-category、Audio-critical 通常为正样本子集,因此 Null FP 不适用,用 “-” 标记;若某个子集定义中包含 Null 样本,则需要拆成 positive / null 两行。
10.6 Conditioning analysis table
| Model | Overall (\widehat{AC}_{tube}) | Audio-expression (\widehat{AC}_{tube}) | Spatial-expression (\widehat{AC}_{tube}) | Same-category (\widehat{AC}_{tube}) | Cross-expression CosSim | Selection Acc@1 |
|---|---|---|---|---|---|---|
| Fixed Q-Former | ||||||
| Text-conditioned | ||||||
| Audio-conditioned | ||||||
| Text+Audio-conditioned |
11. 可视化计划
11.1 必做可视化
Tube selection visualization
展示 top-5 candidate tubes、selector score、最终选择。Null case visualization
展示 null tube 得分最高,输出空 mask。Same-category distractor
展示两个相似对象,TubeToken 正确选择目标 tube。Late-target case
展示目标不在第一帧时,TubeToken 仍能通过 tube 选择找到目标。Conditional attention map
同一视频、不同 expression 下,compressor 关注不同 tube/时间片段。Attention Concentration visualization
展示 fixed Q-Former 与 conditioned Q-Former 的 attention mass 差异。Failure cases
至少展示 proposal miss、selection error、refinement error 三类失败。
11.2 可视化标准
每个案例应包含:
- 输入视频关键帧;
- expression;
- audio waveform 或 audio activity;
- candidate tubes;
- selection scores;
- selected tube;
- final mask;
- GT mask;
- 对应的 error category 或 diagnostic subset 标签。
12. 实施顺序与里程碑
Phase -1: 数据审计与 SimToken 复现
目标:确认 H3 是否具备数据基础,并建立所有 Go/No-Go 判断的主基准。
交付物:
- SimToken reproduced result;
- reproduced vs official 差异分析;
- multi-expression audit;
- H3 subset 构建结果;
- Null 样本比例与 batch sampling 计划。
Phase -1 的两个任务可以并行启动:SimToken 复现用于建立所有阈值的主基准,multi-expression audit 用于决定 H3 的叙事强度。
Go / No-Go 条件:
| Phase -1 结果 | 建议 |
|---|---|
| SimToken 复现与官方差异 ≤ 1.5 J&F,且每个视频平均 expression 数 > 1.5 | 按 v4 计划全面推进 Phase 0,H3 保持 P0 级直接验证 |
| SimToken 复现与官方差异 ≤ 1.5 J&F,但每个视频基本只有 1 个 expression | 推进 Phase 0,但 H3 direct validation 从 P0 降为 P2,论文采用回退叙事 |
| SimToken 复现差异 > 1.5 J&F | 暂停后续实验,先定位复现差异,因为所有 Go/No-Go 阈值都依赖该基准 |
Phase -1 结束时必须明确说明 H3 属于强验证、弱验证还是叙事回退。
Milestone 1: 数据审计与 proposal recall
目标:判断 TubeToken 是否可行。
交付物:
- 数据统计表;
- Recall@N;
- Oracle Tube J/F;
- Oracle Refined J/F bbox-only;
- proposal miss 分析;
- go / no-go 决策。
绿灯条件:
- Recall@32 ≥ 85%;
- Oracle Tube J/F ≥ reproduced SimToken J/F + 5%;
- Oracle Refined J/F ≥ Oracle Tube J/F + 3%;
- Small / occluded subset Recall@32 ≥ 70%。
黄灯条件:
- Recall@32 为 80%-85%,但 Oracle Tube J/F 满足绿灯条件:推进但默认 N=64;
- Oracle Tube J/F 仅 ≥ SimToken + 2%,但 Oracle Refined J/F ≥ SimToken + 5%:推进但论文重心转向 refinement。
红灯条件:
- Recall@64 < 80%;
- Oracle Tube J/F ≤ reproduced SimToken J/F;
- Recall@32 ≥ 85%,且 Oracle Refined J/F 与 Oracle Tube J/F 差距 < 1%,且 Oracle Tube J/F ≤ reproduced SimToken J/F + 2%;
- proposal 对 small / occluded / unseen 存在不可接受的系统性盲区。
Milestone 2: TubeToken-Minimal + Fairness Controls
实现最小版本:
- SAM2 proposals;
- tube construction;
- fixed tube feature;
- selector + null tube;
- no conditional Q-Former;
- no SAM refinement。
同时实现公平性控制:
- SimToken + SAM2 proposals 零参数 reranking;
- SAM2 proposals + learned reranker(no null tube);
- SimToken + matched compute;
- w/o null tube + mask-area threshold。
目标:验证 object tube selection 是否优于 global token baseline,并排除“只是 SAM2 proposals 更强”或“只是计算量更多”的解释。
绿灯条件:
- TubeToken-Minimal 的 Seen / Unseen J&F 均优于 reproduced SimToken ≥ 2%;
- TubeToken-Minimal 优于 SimToken + SAM2 proposals;
- TubeToken-Minimal 的 Null S ≤ SimToken Null S × 1.5;
- Tube Selection Acc@1 ≥ 70%。
黄灯条件:
- TubeToken-Minimal 优于 SimToken 但不优于 SimToken + SAM2 proposals:说明 proposal 贡献占主导,需要强化 selector 或调整论文叙事;
- TubeToken-Minimal 仅在 Null 子集优于 SimToken,Seen / Unseen 持平:继续推进 Milestone 3,但不能把 Minimal 作为主要贡献。
红灯条件:
- TubeToken-Minimal 在 Seen / Unseen 均不优于 SimToken,且不优于 SimToken + SAM2 proposals:重新设计 selector 或回退 EC-SimToken。
Milestone 3: 加入 Conditional Compression
实现:
- fixed Q-Former;
- text-conditioned Q-Former;
- audio-conditioned Q-Former;
- text+audio-conditioned Q-Former;
- multi-expression training;
- H3 cosine similarity validation。
目标:证明 conditioning 本身有效,而非 learnable Q-Former 参数量带来的提升。
必须交付:
- conditioning ablation;
- (\widehat{AC}_{tube});
- H3 cross-expression CosSim;
- attention visualization;
- audio-critical subset 结果;
- audio zeroed / removed / shuffled / swapped robustness。
绿灯条件:
- Text+Audio conditioned Q-Former 在 Seen / Unseen 均优于 Fixed Q-Former ≥ 1.5%;
- (\widehat{AC}_{tube}) 在 audio-related expressions 上 conditioned ≥ fixed × 1.3;
- 同一视频不同 expression 下,CondQFormer 的 (\tilde{z}_i) CosSim 明显低于 Fixed Q-Former;
- strict audio-critical subset 上性能提升 ≥ 2%。
黄灯条件:
- CondQFormer 整体提升明显,但 (\widehat{AC}_{tube}) 差异不显著:论文改述为 learned tube compression;
- Text-only 已足够好,Audio conditioning 额外收益 < 0.5%:audio conditioning 改为 robustness improvement,不作为主贡献。
红灯条件:
- Fixed Q-Former 与 Text+Audio conditioned Q-Former 差距 < 0.5%,且所有子集无收益:conditioning 无效,考虑 CLIP visual features 或回退论文叙事。
Milestone 4: 加入 SAM Refinement
实现:
- bbox prompt refinement;
- bbox + semantic prompt refinement;
- bbox + mask prompt 作为对照。
目标:证明 refinement 的贡献,并确认默认方案。
绿灯条件:
- Bbox prompt refinement 在 J 上优于 w/o refinement ≥ 2%;
- Oracle Refined J/F 与实际 TubeToken-Full J/F 的差距 ≤ 10%;
- Bbox + mask prompt 不显著优于 bbox-only。
黄灯条件:
- Refinement 提升 < 1%:将 SAM refinement 降为 optional module,论文重心转回 tube selection。
红灯条件:
- Bbox + mask prompt 显著优于 bbox-only,且差距来自 mask prompt 的 GT-quality dependency:说明 proposal mask 质量不足,需要回到 Milestone 1 改 proposal。
Milestone 5: 完整实验与论文分析
完成:
- 主表;
- 消融;
- hard subset;
- error decomposition;
- efficiency;
- equal-compute comparison;
- 可视化;
- failure case;
- reliability diagram / threshold sensitivity。
13. 风险与应对
| 风险 | 严重程度 | 应对 |
|---|---|---|
| Ref-AVSBench 缺少 multi-expression 结构 | 极高 | 不将 H3 作为主贡献;叙事回退为 learned tube compression / proposal-conditioned instance grounding |
| SimToken 复现与官方数字差异过大 | 高 | 先定位训练、输入、评估差异;所有后续 Go/No-Go 使用 reproduced number |
| Multi-expression training 出现梯度冲突 | 中高 | 使用 gradient accumulation 分开累积不同 expression 的梯度;早期采样语义差异较小的 expression pair,稳定后再引入 cross-modality pair |
| SimToken + matched compute 实现被质疑 | 高 | 实验前固定为 multiple keyframe prompting with TubeToken-Fast keyframe budget,不保留事后选择空间 |
| 多 expression efficiency 被误解为每个 expression 重跑 proposals | 中 | 报告 proposal per-video cost、amortized proposal cost per expression 和 incremental expression cost |
| Recall@32 低于 80% | 极高 | 增加 proposal 数、引入 detector、使用 hybrid fallback | | Oracle Tube J/F 不高于 reproduced SimToken | 极高 | 暂停 TubeToken 主线,改 refinement、高分辨率特征、proposal 方法或回退 EC-SimToken | | Oracle Refined J/F 定义不公平 | 高 | 固定为 oracle proposal bbox-only,不使用 GT mask prompt | | SimToken + SAM2 proposals 对照过弱 | 高 | 使用零参数 (F_{seg}) reranking,并公开公式 | | TubeToken-Minimal 优于 SimToken 但不优于 SimToken + SAM2 proposals | 高 | 说明 proposal 是主要贡献,需强化 tube selector 或调整论文叙事 | | learned reranker 与 TubeToken-Minimal 差距很小 | 中高 | null tube 贡献有限;Null 相关 claim 降级 | | (\mathcal{L}{cond}) 定义不清 | 中高 | 默认删除;若使用则单独定义并做 with/without 消融 | | Null tube 不稳定 | 中高 | 25% Null oversampling + weighted CE curriculum;报告采样比例敏感性 | | Null oversampling 过强导致正样本误判 Null | 高 | 监控 Positive FNR 与 GT Top-3 but Null Top-1 Rate | | conditioning 只带来小幅提升 | 高 | 强化诊断子集、(\widehat{AC}{tube})、H3 CosSim、fixed Q-Former 对照 | | H3 CosSim 无明显差异 | 高 | 不强调 expression-conditioned summarization;改强调 learned compression 或 selection architecture | | TubeToken 计算量过大 | 高 | 报告 Fast/Balanced/Accuracy 与 matched-compute baseline | | refinement 提升不明显 | 中 | 将重点转向 selection accuracy 与 hard cases;refinement 作为 optional module | | self-attention 无贡献 | 低 | 删除 self-attention,采用更简洁 selector | | attention map 不可解释 | 中高 | 使用 (\widehat{AC}_{tube})、query 分组、H3 CosSim 重新诊断 | | 与 SAM2 工程强绑定 | 中 | 明确核心贡献在 tube-level text/audio selection,不在 proposal generation |
14. 实验优先级
P0: 必须完成
- SimToken 复现与官方结果差异分析;
- Multi-expression audit;
- Proposal Recall@N;
- Oracle Tube J/F 和 bbox-only Oracle Refined J/F;
- TubeToken-Minimal vs SimToken;
- TubeToken-Minimal vs SimToken + SAM2 proposals;
- SAM2 proposals + learned reranker(no null tube);
- TubeToken-Fast vs SimToken + matched compute(固定为 multiple keyframe prompting);
- Null tube ablation;
- mask-area threshold Null baseline;
- Null oversampling ratio ablation;
- fixed Q-Former vs text+audio conditioned Q-Former;
- (\widehat{AC}_{tube});
- H3 cross-expression CosSim(若 multi-expression audit 支持;否则降为 P2);
- Error decomposition;
- GT Top-3 but Null Top-1 Rate;
- Efficiency table。
P1: 强烈建议完成
- late-target subset;
- strict audio-critical subset;
- same-category distractor subset;
- threshold sensitivity;
- conditioning attention visualization;
- H3 cross-expression visualization;
- self-attention ablation;
- Reliability Diagram;
- same-category vs cross-category audio swap;
- audio amplitude zeroed, temporal length preserved。
P2: 有时间再做
- audio shuffled;
- cross-dataset validation, e.g., AVSBench / MeViS;
- frame-level existence;
- open-vocabulary detector assisted proposals;
- manual hard negative benchmark;
- hybrid fallback with EC-SimToken;
- optional (\mathcal{L}_{cond}) attention supervision。
15. 预期论文叙事
15.1 正常叙事:H3 成立时
若 multi-expression audit、multi-expression training、H3 CosSim 和 (\widehat{AC}_{tube}) 均支持 H3,建议论文主线写成:
Existing Ref-AVS methods often compress multimodal evidence into a global semantic token, implicitly coupling existence judgment, instance grounding, and frame-level segmentation. We find that this implicit coupling becomes fragile in samples requiring instance-level comparison, temporal coverage, explicit null reasoning, or expression-dependent temporal evidence. We therefore formulate Ref-AVS as text-audio conditioned object-tube retrieval followed by mask refinement. Based on this view, we propose TubeToken, which constructs candidate object tubes, summarizes each tube with expression-conditioned temporal evidence, selects the referred tube through multimodal reasoning, handles Null cases via a learnable null tube, and refines the selected tube with SAM.
Introduction 中建议加入数据驱动的动机,例如:
- SimToken 在 same-category distractor subset 上下降多少;
- SimToken 在 late-target subset 上下降多少;
- 去掉 audio 后 audio-critical subset 上下降多少;
- Null false positive 是否集中在某类样本;
- fixed Q-Former 与 conditioned Q-Former 在 H3 subset 上的 CosSim 差异。
这能把叙事从“我们认为 global token 不好”升级为“我们用诊断数据证明 global token 有系统性弱点”。
15.2 回退叙事:H3 不强时
若数据集中 multi-expression 不足,或 conditioned Q-Former 的 H3 CosSim / (\widehat{AC}_{tube}) 证据不足,避免强称 “expression-conditioned evidence summarization”。建议改为:
We formulate Ref-AVS as proposal-conditioned instance grounding with explicit null reasoning. TubeToken improves robustness by decomposing global segmentation into candidate object tube construction, learned tube selection, null-aware existence modeling, and optional mask refinement.
此时论文主贡献应改为:
- candidate object tube formulation;
- explicit null tube / existence modeling;
- fairness-controlled comparison with SimToken + SAM2 proposals and matched compute;
- diagnostic error decomposition;
- optional learned compression rather than strong conditioning claim。
16. 最小可接受结论标准
若最终结果满足以下条件,可以支撑一篇完整论文:
- SimToken 复现可信,且所有关键比较基于 reproduced SimToken;
- Recall@32 或 Recall@64 足够高,且 Oracle Tube J/F 明确高于 reproduced SimToken,证明 proposal 不是不可接受的瓶颈;
- Oracle Refined J/F 使用 bbox-only prompt,且明确高于 Oracle Tube J/F,证明 refinement 有可达收益;
- TubeToken 在 Seen / Unseen / Mix 不低于 SimToken 超过 2 个点;若主集只持平,必须在 Null、late-target、same-category、audio-critical 子集上有显著提升,并提供效率-鲁棒性-可解释性三维论证;
- TubeToken-Fast 在接近计算预算下优于 SimToken + matched compute(multiple keyframe prompting);
- TubeToken-Minimal 优于 SimToken + SAM2 proposals,证明 tube selection 框架本身有效;
- SAM2 proposals + learned reranker(no null tube)与 TubeToken-Minimal 的对比能解释 selector 与 null tube 的各自贡献;
- fixed Q-Former 明显弱于 text+audio conditioned Q-Former;
- 如果主张 H3,则必须满足:multi-expression audit 支持、multi-expression training 有效、Fixed Q-Former CosSim (\equiv 1.0) 而 conditioned CosSim 显著低于 1.0,且 (\widehat{AC}_{tube}) 有提升;
- null tube 明显优于 mask-area threshold 和 binary existence head;
- Null oversampling 没有导致 Positive FNR 或 GT Top-3 but Null Top-1 Rate 不可接受地上升;
- error decomposition 能清楚说明主要失败来自 proposal miss、selection error、refinement error、Null FP/FN 还是 Null 校准;
- efficiency 虽然可能更高,但 Fast/Balanced/Accuracy setting 显示计算-性能 trade-off 合理。
如果第 2 点不成立,应及时回退到 EC-SimToken 路线,避免在低 recall 的 TubeToken 上投入过多。如果第 9 点不成立,应保留 TubeToken 框架,但下调 CondQFormer / H3 的论文权重。
17. 最终执行建议
推荐按照以下顺序推进:
先做 Phase -1:SimToken 复现 + multi-expression audit。
这是所有 Go/No-Go 条件和 H3 叙事是否成立的前提。再做 Phase 0:proposal recall + bbox-only Oracle Tube / Refined J/F。
这是 TubeToken 能否成立的硬前提,且 Oracle Refined J/F 必须与实际 refinement 设置一致。再做 Milestone 2 的 fairness controls。
TubeToken-Minimal、SimToken + SAM2 proposals 零参数 reranking、SAM2 proposals + learned reranker(no null tube)、SimToken + matched compute(multiple keyframe prompting)必须同时完成。确认 tube 框架有效后再加入 CondQFormer。
若 multi-expression 数据充足,必须同步加入 multi-expression training 与 H3 CosSim;若不足,则不要把 H3 写成主贡献。最后加入 refinement。
refinement 是性能增强项,不应成为论文叙事的唯一支柱。若 bbox-only refinement 提升很小,应将其降为 optional module。
这一路径可以最大程度降低风险:如果 proposal recall 或 oracle upper bound 不理想,可以及时切回 EC-SimToken;如果 TubeToken-Minimal 已经显示出明显优势,再继续投入完整 TubeToken 是合理的;如果 H3 验证不足,可以保留 tube-level retrieval 贡献,同时修改 CondQFormer 的叙事。
Appendix A. Reviewer 建议落地检查表
| Reviewer 建议 | v3 落地位置 | 状态 |
|---|---|---|
| 增加 H3 直接验证,不能只用 AC | 1.2, 3.2.6, 8.1.1, 10.5, 12 | 已落实 |
| 检查数据集 multi-expression 结构 | 3.1, 3.1.1, Phase -1 | 已落实 |
| CondQFormer 显式利用 multi-expression training | 6.3, 12 Milestone 3 | 已落实 |
| Go/No-Go 使用 reproduced SimToken,而非不明来源数字 | 4.0, 4.4, 12 | 已落实 |
| Oracle Refined J/F 使用 bbox-only prompt,不用 GT mask | 4.2.1, 4.3, 10.2 | 已落实 |
| SimToken + SAM2 proposals 使用零参数 reranking | 5.3.1 | 已落实 |
| 增加 SAM2 proposals + learned reranker(no null tube) | 5.1, 5.2, 5.3.2, 10.1, 10.3, 12 | 已落实 |
| 删除或定义悬空的 (\mathcal{L}_{cond}) | 6.2, 6.2.1 | 已落实 |
| 明确 Null oversampling 比例 | 6.4, 14 | 已落实 |
| 增加 GT Top-3 but Null Top-1 错误类型 | 7.2, 7.3, 10.4 | 已落实 |
| 使用标准化 (\widehat{AC}_{tube}) | 7.2, 8.1.2, 10.5 | 已落实 |
| 增加 audio amplitude zeroed 控制实验 | 8.2, 14 | 已落实 |
| 修正 Error decomposition 表 Late-target 缺列 | 10.4 | 已落实 |
| Main table 加入 TubeToken-Minimal | 10.1 | 已落实 |
| 写入各 Milestone 绿灯 / 黄灯 / 红灯条件 | 12 | 已落实 |
| 增加叙事回退方案 | 15.2, 16, 17 | 已落实 |
| 固定 SimToken + matched compute 的唯一实现 | 5.3.3, 9.3, 10.2, 12 | v4 已落实 |
| 修正 Phase 0 第三条红灯条件为可观测量 | 4.4.3, 12 Milestone 1 | v4 已落实 |
| Fixed Q-Former CosSim baseline 精确为 1.0 | 1.2, 8.1.1, 10.6, 16 | v4 已落实 |
| 增加 multi-expression training 梯度冲突风险 | 6.3, 13 | v4 已落实 |
| 主表精简,公平性控制移入独立表 | 10.1, 10.2 | v4 已落实 |
| 增加多 expression proposal amortization efficiency | 9.1, 9.4 | v4 已落实 |
| Selection Acc@3 排除 null tube | 7.2 | v4 已落实 |
| Error decomposition 使用互斥优先级 | 7.3 | v4 已落实 |
| Phase -1 Go/No-Go 明确 SimToken 复现与 H3 audit 分支 | 12 Phase -1 | v4 已落实 |