File size: 66,786 Bytes
0f55e72 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 594 595 596 597 598 599 600 601 602 603 604 605 606 607 608 609 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640 641 642 643 644 645 646 647 648 649 650 651 652 653 654 655 656 657 658 659 660 661 662 663 664 665 666 667 668 669 670 671 672 673 674 675 676 677 678 679 680 681 682 683 684 685 686 687 688 689 690 691 692 693 694 695 696 697 698 699 700 701 702 703 704 705 706 707 708 709 710 711 712 713 714 715 716 717 718 719 720 721 722 723 724 725 726 727 728 729 730 731 732 733 734 735 736 737 738 739 740 741 742 743 744 745 746 747 748 749 750 751 752 753 754 755 756 757 758 759 760 761 762 763 764 765 766 767 768 769 770 771 772 773 774 775 776 777 778 779 780 781 782 783 784 785 786 787 788 789 790 791 792 793 794 795 796 797 798 799 800 801 802 803 804 805 806 807 808 809 810 811 812 813 814 815 816 817 818 819 820 821 822 823 824 825 826 827 828 829 830 831 832 833 834 835 836 837 838 839 840 841 842 843 844 845 846 847 848 849 850 851 852 853 854 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 870 871 872 873 874 875 876 877 878 879 880 881 882 883 884 885 886 887 888 889 890 891 892 893 894 895 896 897 898 899 900 901 902 903 904 905 906 907 908 909 910 911 912 913 914 915 916 917 918 919 920 921 922 923 924 925 926 927 928 929 930 931 932 933 934 935 936 937 938 939 940 941 942 943 944 945 946 947 948 949 950 951 952 953 954 955 956 957 958 959 960 961 962 963 964 965 966 967 968 969 970 971 972 973 974 975 976 977 978 979 980 981 982 983 984 985 986 987 988 989 990 991 992 993 994 995 996 997 998 999 1000 1001 1002 1003 1004 1005 1006 1007 1008 1009 1010 1011 1012 1013 1014 1015 1016 1017 1018 1019 1020 1021 1022 1023 1024 1025 1026 1027 1028 1029 1030 1031 1032 1033 1034 1035 1036 1037 1038 1039 1040 1041 1042 1043 1044 1045 1046 1047 1048 1049 1050 1051 1052 1053 1054 1055 1056 1057 1058 1059 1060 1061 1062 1063 1064 1065 1066 1067 1068 1069 1070 1071 1072 1073 1074 1075 1076 1077 1078 1079 1080 1081 1082 1083 1084 1085 1086 1087 1088 1089 1090 1091 1092 1093 1094 1095 1096 1097 1098 1099 1100 1101 1102 1103 1104 1105 1106 1107 1108 1109 1110 1111 1112 1113 1114 1115 1116 1117 1118 1119 1120 1121 1122 1123 1124 1125 1126 1127 1128 1129 1130 1131 1132 1133 1134 1135 1136 1137 1138 1139 1140 1141 1142 1143 1144 1145 1146 1147 1148 1149 1150 1151 1152 1153 1154 1155 1156 1157 1158 1159 1160 1161 1162 1163 1164 1165 1166 1167 1168 1169 1170 1171 1172 1173 1174 1175 1176 1177 1178 1179 1180 1181 1182 1183 1184 1185 1186 1187 1188 1189 1190 1191 1192 1193 1194 1195 1196 1197 1198 1199 1200 1201 1202 1203 1204 1205 1206 1207 1208 1209 1210 1211 1212 1213 1214 1215 1216 1217 1218 1219 1220 1221 1222 1223 1224 1225 1226 1227 1228 1229 1230 1231 1232 1233 1234 1235 1236 1237 1238 1239 1240 1241 1242 1243 1244 1245 1246 1247 1248 1249 1250 1251 1252 1253 1254 1255 1256 1257 1258 1259 1260 1261 1262 1263 1264 1265 1266 1267 1268 1269 1270 1271 1272 1273 1274 1275 1276 1277 1278 1279 1280 1281 1282 1283 1284 1285 1286 1287 1288 1289 1290 1291 1292 1293 1294 1295 1296 1297 1298 1299 1300 1301 1302 1303 1304 1305 1306 1307 1308 1309 1310 1311 1312 1313 1314 1315 1316 1317 1318 1319 1320 1321 1322 1323 1324 1325 1326 1327 1328 1329 1330 1331 1332 1333 1334 1335 1336 1337 1338 1339 1340 1341 1342 1343 1344 1345 1346 1347 1348 1349 1350 1351 1352 1353 1354 1355 1356 1357 1358 1359 1360 1361 1362 1363 1364 1365 1366 1367 1368 1369 1370 1371 1372 1373 1374 1375 1376 1377 1378 1379 1380 1381 1382 1383 1384 1385 1386 1387 1388 1389 1390 1391 1392 1393 1394 1395 1396 1397 1398 1399 1400 1401 1402 1403 1404 1405 1406 1407 1408 1409 1410 1411 1412 1413 1414 1415 1416 1417 1418 1419 1420 1421 1422 1423 1424 1425 1426 1427 1428 1429 1430 1431 1432 1433 1434 1435 1436 1437 1438 1439 1440 1441 1442 1443 1444 1445 1446 1447 1448 1449 1450 1451 1452 1453 1454 1455 1456 1457 1458 1459 1460 1461 1462 1463 1464 1465 1466 1467 1468 1469 1470 1471 1472 1473 1474 1475 1476 1477 1478 1479 1480 1481 1482 1483 1484 1485 1486 1487 1488 1489 1490 1491 1492 1493 1494 1495 1496 1497 1498 1499 1500 1501 1502 1503 1504 1505 1506 1507 1508 1509 1510 1511 1512 1513 1514 1515 1516 1517 1518 1519 1520 1521 1522 1523 1524 1525 1526 1527 1528 1529 1530 1531 1532 1533 1534 1535 1536 1537 1538 1539 1540 1541 1542 1543 1544 1545 1546 1547 1548 1549 1550 1551 1552 1553 1554 1555 1556 1557 1558 1559 1560 1561 1562 1563 1564 1565 1566 1567 1568 1569 1570 1571 1572 1573 1574 1575 1576 1577 1578 1579 1580 1581 1582 1583 1584 1585 1586 1587 1588 1589 1590 1591 1592 1593 1594 1595 1596 1597 1598 1599 1600 1601 1602 1603 1604 1605 1606 1607 1608 1609 1610 1611 1612 1613 1614 1615 1616 1617 1618 1619 1620 1621 1622 1623 1624 1625 1626 1627 1628 1629 1630 1631 1632 1633 1634 1635 | # TubeToken 实验计划 v4(Final / Experiment-Ready)
> 主线:以 **TubeToken** 为核心框架,将 **Existence / Null 建模** 与 **Text-Audio Conditional Compression** 作为 TubeToken 的自然组成部分,而不是作为 SimToken 的外接补丁。
> v4 目标:在 v3 Reviewer-Revised 的基础上完成最后一轮实验前定稿,固定 matched-compute baseline 的实现,修正 Phase 0 红灯条件,精确化 H3 CosSim baseline,补充 multi-expression training 的梯度冲突风险,重构主表与公平性分析表,并明确多 expression 场景下的 proposal amortization efficiency。
---
## 0. v4 最终修改摘要
本版是实验启动前的最终方案。v3 已经具备启动实验的完整框架;v4 只做定稿级别的精修,重点消除可能导致后期 Reviewer 质疑或实验返工的模糊点。
相较 v3,v4 做了以下最终修改:
1. **固定 SimToken + matched compute 的唯一实现**:不再保留四个候选方案,明确使用 **SimToken + multiple keyframe prompting with the same number of keyframes as TubeToken-Fast**。该对照在概念上最接近 TubeToken-Fast 的额外计算来源,也避免实验结束后选择有利 baseline 的嫌疑。
2. **修正 Milestone 1 第三条红灯条件**:删除 “预计 TubeToken-Minimal 无法获得 selection 收益” 这类 Phase 0 不可观测判断,改为完全基于 Phase 0 可测量量:Recall@32、Oracle Tube J/F、Oracle Refined J/F。
3. **精确化 Fixed Q-Former 的 H3 CosSim baseline**:Fixed Q-Former 对同一 tube 的不同 expression 输出完全相同,因此 cross-expression CosSim **恒等于 1.0**,不是“接近 1”。Conditioned Q-Former 是否显著低于 1.0 是 H3 的直接证据。
4. **补充 multi-expression training 的梯度冲突风险与缓解方案**:若不同 expressions 对同一 tube 要求矛盾的 temporal / audio / spatial attention,可使用 gradient accumulation 分开累积,或先采样语义差异较小的 expression pair。
5. **重构主表为顶会友好格式**:主表精简为 8 行,只保留主要公开 baseline 与 TubeToken 主配置;SimToken + SAM2 proposals、learned reranker、matched compute、TubeToken-Minimal、TubeToken-Fast 移入独立 Fairness Analysis Table。
6. **在 efficiency 中明确 per-video 与 per-expression 成本**:SAM2 proposals 是 per video 一次性成本;在同一视频有 K 个 expressions 时,proposal cost 可在 expressions 间摊销,CondQFormer 与 selector 才是 per-expression 成本。
7. **澄清 Selection Acc@3 对 null tube 的处理**:正样本计算 object-level Top-3 时排除 null tube;“GT tube Top-3 but Null Top-1” 作为独立 null calibration 指标在全 ranking 中计算。
8. **明确 error decomposition 的互斥优先级**:每个失败样本只归入一个错误类别,按 Proposal miss → Null FN with GT Top-3 → Null FN without GT Top-3 → Selection error → Refinement error → Null FP 的优先级判定。
9. **更新 Phase -1 Go/No-Go 标准**:SimToken 复现与 multi-expression audit 可并行启动;若 SimToken 复现差异 > 1.5 J&F,则暂停后续实验;若 multi-expression 不足,则将 H3 direct validation 从 P0 降为 P2 并采用回退叙事。
10. **更新 Appendix 检查表**:把最终 Reviewer 精修建议全部纳入落地状态,形成实验前 checklist。
## 1. 核心研究假设
### 1.1 任务重述
Referring Audio-Visual Segmentation, Ref-AVS, 不应仅被建模为:
\[
\text{MLLM} \rightarrow \langle SEG \rangle \rightarrow \text{SAM}
\]
而应被建模为:
\[
\text{Candidate Object Tubes}
\rightarrow
\text{Text-Audio Conditioned Tube Selection}
\rightarrow
\text{SAM Refinement}
\]
也就是说,Ref-AVS 的本质更接近 **object-level retrieval + mask refinement**:
1. 视频中有哪些候选对象实例?
2. 哪一个对象实例被文本和音频共同指代?
3. 如果没有符合条件的对象,模型能否显式选择 Null?
4. 选中的对象 tube 是否能被进一步精修为高质量 mask?
### 1.2 主要假设
**H1: Object tube 是比 global `<SEG>` token 更适合 Ref-AVS 的中间表示。**
Tube 可以显式保持跨帧身份一致性,降低同类多实例、遮挡、出入画面情况下的 identity switch 风险。
**H2: Null / Existence 应该通过显式候选建模解决。**
TubeToken 中引入 learnable null tube,将 Null 判断转化为候选选择问题,而不是依赖 SAM decoder 被动输出空 mask。
**H3: 同一 candidate tube 在不同 referring expression 下应暴露不同的时序证据,因此 tube 表征必须由 text/audio condition 动态调制。**
在 TubeToken 中,conditional compression 不是全视频 token pooling 的替代品,而是 **tube-level evidence summarization**。同一 object tube 对于不同表达可能需要关注不同帧、不同动作、不同音频片段或不同空间关系。
**H3 的成立前提与验证要求:**
1. 数据层面必须先确认 Ref-AVSBench 中是否存在多个 expression 指向同一视频或同一目标。
2. 若存在 multi-expression 结构,训练阶段必须显式利用它:对同一视频 / 同一 tube 使用至少两个不同 expressions 进行 forward pass,共享 proposals,但使用不同 conditional queries。
3. 验证 H3 时不能只报告 AC。AC 只能证明模型是否关注正确区域 / 正确 tube,不能证明同一 tube 在不同 expression 下产生了差异化证据摘要。
4. H3 的直接验证指标是:同一视频、同一 matched GT tube、不同 expression 下 \(\tilde{z}_i\) 的 cosine similarity。Fixed Q-Former 因为不依赖 expression,对同一 tube 的不同 expression 输出完全相同,CosSim \(\equiv 1.0\);conditioned Q-Former 的 similarity 应显著低于 1.0,并且 selection performance 不下降。
5. 若数据审计发现每个视频平均只有一个 expression,则 H3 不作为主贡献,论文主线应回退为 “proposal-conditioned instance grounding + explicit null reasoning”。
**H4: TubeToken 的收益必须通过 proposal recall、oracle upper bound、selection accuracy、refinement quality 和 efficiency breakdown 分别解释。**
不能只报告最终 J/F/S,否则无法回答性能提升来自哪里,也无法判断瓶颈位于 proposal、selection 还是 refinement。
**H5: TubeToken 的提升必须在公平计算量和公平 proposal 条件下仍然成立。**
必须通过 SimToken + SAM2 proposals、SimToken + matched compute、SAM2 proposals + learned reranker(no null tube)等对照排除 “只是 SAM2 proposal 更强” 或 “只是计算量更多” 的解释。
## 2. 方法版本定义
### 2.1 TubeToken-Full
完整方法包含四个阶段。
---
### Stage 1: Candidate tube generation
在关键帧上使用 SAM2 automatic mask generation 产生候选 masks,并用 SAM2 tracking / memory 机制向前后帧传播,得到候选 object tubes:
\[
\mathcal{O} = \{o_1, o_2, \dots, o_N\}
\]
每个 tube:
\[
o_i = \{m_{i,t}, b_{i,t}, f_{i,t}\}_{t=1}^{T}
\]
其中:
- \(m_{i,t}\):第 \(t\) 帧 mask;
- \(b_{i,t}\):第 \(t\) 帧 bbox;
- \(f_{i,t}\):mask-pooled visual feature。
**实现约定**:
默认在关键帧上运行 SAM2 AMG,在非关键帧上使用 SAM2 propagation,而不是每帧重新运行 AMG。这样可以避免 proposal 阶段计算量过高。
---
### Stage 2: Text-audio conditioned tube representation
文本表达编码为 \(e_{text}\),音频编码为 \(e_{audio}\)。构造条件化 query:
\[
Q = Q_0 + W_t e_{text} + W_a e_{audio} + W_{ta}(e_{text} \odot e_{audio})
\]
对每个 tube 的时序特征 \(\{f_{i,t}\}_{t=1}^{T}\) 进行条件化压缩:
\[
\tilde{z}_i = \text{CondQFormer}(Q, \{f_{i,t}\}_{t=1}^{T})
\]
该模块的目标不是单纯减少 token 数,而是让同一 tube 在不同 expression 下形成不同的证据摘要。
**v3 约束:** 如果数据集中存在多 expression 样本,Stage 2 的训练必须在 batch 内显式包含同一视频 / 同一 tube 的不同 expression forward pass。否则 H3 只能作为推理假设,不能作为强实验证明。
#### 2.2 特征来源说明
默认设定:
\[
f_{i,t} = \text{MaskPool}(\text{SAM2ImageEncoder}(I_t), m_{i,t})
\]
也就是说,Stage 2 复用 SAM2 image encoder 特征,不额外引入独立 ViT 或 CLIP visual encoder。这样有三个好处:
1. proposal generation 与 tube representation 使用一致的视觉特征;
2. 避免额外视觉 encoder 带来的计算量和公平性争议;
3. efficiency table 更清楚,便于与 SimToken 和 SAM2-based baselines 对比。
可选扩展:若 SAM2 encoder feature 与文本/音频语义对齐不足,可增加一个轻量 projector:
\[
f'_{i,t} = W_v f_{i,t}
\]
但默认不引入额外大规模 visual-language encoder。
---
### Stage 3: Tube selection with null tube
加入一个 learnable null tube:
\[
z_{null}
\]
将所有候选 tubes 与 null tube 一起输入 tube selector:
\[
P(i \mid video, audio, text) =
\text{Softmax}([s_1, s_2, \dots, s_N, s_{null}])
\]
若 \(P(null)\) 最大,则输出空 mask;否则选择得分最高的 object tube。
Existence probability 自然定义为:
\[
p_{exist} = 1 - P(null)
\]
#### Tube selector 默认结构
默认采用:
1. reference query \(q_{ref}=\text{MLP}([e_{text},e_{audio}])\);
2. tube tokens \(\{\tilde{z}_i\}_{i=1}^{N}\);
3. inter-tube self-attention;
4. reference-conditioned cross-attention;
5. per-tube classification head。
必须做消融:
- w/ inter-tube self-attention;
- w/o inter-tube self-attention;
- independent tube scoring,即每个 tube 独立通过 \([q_{ref}; \tilde{z}_i]\) 的线性层打分。
---
### Stage 4: SAM refinement
选中 tube 后,默认只使用 tube bbox 作为 box prompt,并结合 text/audio semantic prompt 进行 SAM refinement:
\[
\hat{m}_t = \text{SAMRefine}(I_t, b_{i,t}, q_{ref})
\]
默认不使用 tube mask 作为 mask prompt,避免“自我精修”带来的解释问题。tube mask 只用于:
1. 生成 bbox;
2. 提取 tube feature;
3. proposal matching;
4. oracle upper bound 计算。
需要额外做对照:
- bbox-only prompt;
- bbox + semantic prompt;
- bbox + mask prompt。
如果 bbox + mask prompt 没有明显收益,正文采用 bbox-only 或 bbox + semantic prompt 作为默认版本。
---
## 3. 数据审计与诊断子集构建
正式训练前必须先完成数据审计。该步骤决定后续实验是否有足够说服力。v3 将数据审计升级为 **Phase -1**,其中 multi-expression 结构与 SimToken 复现是进入 Phase 0 的前置条件。
### 3.1 必统计项目
| 项目 | 目的 |
|---|---|
| 每个视频的 referring expression 数量 | 判断 H3 是否可以被直接训练和验证 |
| 每个 GT object / tube 对应的 expression 数量 | 构建 H3 direct validation subset |
| SimToken alignment loss 中正样本表达集 \(\mathcal{P}_i\) 是否可复用 | 决定 multi-expression training 的实现路径 |
| Null 样本比例 | 判断 null tube / weighted CE 的训练难度 |
| GT 目标可见帧比例 | 决定是否需要 frame-level existence;若比例低则不引入 |
| 目标首次出现时间分布 | 构建 late-target subset,验证是否缓解 first-frame bias |
| 同类多实例比例 | 验证 inter-tube reasoning 和 hard negative 是否必要 |
| 小目标 / 遮挡目标比例 | 评估 proposal recall 风险 |
| 音频依赖表达比例 | 验证 audio-conditioned compression 是否有空间 |
| 空间关系表达比例 | 验证 spatial/relation query 是否必要 |
| Proposal miss 与目标属性关系 | 分析 SAM2 proposal 对小目标、遮挡、unseen 类别的系统性偏差 |
### 3.1.1 Multi-expression audit 的决策规则
| 审计结果 | 对 H3 和 CondQFormer 的影响 |
|---|---|
| 每个视频平均 expression 数 > 1.5,且同一 GT object 有多个 expression | 正常推进 H3;使用 multi-expression training 和 direct cosine validation |
| 多数视频只有 1 个 expression,但少量视频有多 expression | H3 作为诊断性贡献;在 multi-expression subset 上报告直接验证 |
| 每个视频基本只有 1 个 expression | 不把 H3 作为核心 claim;CondQFormer 改述为 learned tube compression / multimodal query adaptation |
---
### 3.2 诊断子集
至少构建以下子集。
#### 3.2.1 Late-target subset
目标首次可见帧位于视频后 50% 的样本。
定义:
\[
t_{first} = \min \{t \mid g_t \neq \emptyset\}
\]
若:
\[
t_{first} > 0.5T
\]
则归入 late-target subset。
---
#### 3.2.2 Audio-critical subset
v3 继续采用两阶段定义。
**Stage A: 初筛**
通过文本关键词筛选:
- sounding;
- making sound;
- longest sound;
- intermittent sound;
- silent;
- audio;
- heard;
- emitting sound;
- playing instrument 等。
**Stage B: 精筛**
训练出 w/o Audio 版本后,将满足以下条件的样本归入 strict audio-critical subset:
1. Full model 预测正确或显著优于阈值;
2. w/o Audio 模型预测错误或 J/F 显著下降;
3. 视频中存在至少两个视觉候选,单靠视觉无法稳定区分目标。
这样避免“表达包含音频词但视觉上唯一可解”的伪 audio-critical 样本。
---
#### 3.2.3 Same-category distractor subset
视频中存在多个同类别或高度相似候选对象,表达需要区分实例。
优先数据来源:
1. 数据集原始 object annotations;
2. 若无现成标注,使用 CLIP / Grounding DINO / OWL-ViT 进行 zero-shot object discovery;
3. 结合 SAM2 proposals 的 mask-pooled CLIP similarity 聚类,近似识别同类候选。
该子集需要报告构建方式和人工抽查准确率,避免 Reviewer 质疑子集可靠性。
---
#### 3.2.4 Null subset
原始 Null 样本,并进一步区分:
1. visual object exists but not referred;
2. audio exists but no valid visual target;
3. text refers to absent object;
4. audio-text conflict / ambiguous null。
---
#### 3.2.5 Small / occluded target subset
用于分析 proposal miss。
初始定义:
- small:GT mask area 小于图像面积的 5%;
- heavily occluded:连续可见帧少于 \(0.5T\),或 mask area 在时序上剧烈波动;
- partial target:目标只在部分帧出现。
---
#### 3.2.6 Multi-expression H3 subset
用于直接验证 H3。
样本条件:
1. 同一视频中存在至少两个 referring expressions;
2. 这些 expressions 指向同一 GT object / GT tube,或至少指向可稳定匹配的同一 target instance;
3. expressions 在语义上存在差异,例如类别、动作、音频、空间关系、交互对象或时序片段不同;
4. SAM2 proposals 中存在 matched GT tube,避免 proposal miss 干扰 H3 验证。
报告内容:
- 每个视频平均 expression 数;
- 每个 GT object 平均 expression 数;
- H3 subset 样本数量;
- expression 差异类型分布;
- 人工抽查准确率。
## 4. Phase 0: Proposal Recall 与 Oracle 上界预实验
这是 TubeToken 的 go / no-go 实验。若 proposal recall 或 oracle upper bound 不足,TubeToken 的性能上限会被 proposal 阶段限制。
### 4.0 Phase -1 前置基准线:SimToken 复现
在运行 Proposal Recall 与 Oracle 上界之前,必须先完成 SimToken 复现。
要求:
1. 使用与 TubeToken 后续实验一致的数据划分、输入分辨率、音频特征、训练 epoch、batch size、optimizer、scheduler 和 evaluation script。
2. 以作者复现的 SimToken J/F/S 作为所有 Go/No-Go 条件中的主基准。
3. 官方 SimToken 数字只作为旁注;若复现数字与官方数字差异超过 1.5 J&F,需要先定位差异来源。
4. 论文中明确写作:
> All comparisons are conducted under the same training configuration as SimToken (reproduced), with official results cited where applicable.
### 4.1 设置
- Proposal model: SAM2 automatic mask generation。
- 关键帧策略:
- stride = 4;
- stride = 8;
- stride = 16;
- first / middle / last + audio-peak frames;
- uniform + motion-peak frames;
- uniform + audio-peak + motion-peak frames。
- Propagation: 使用 SAM2 memory / tracking 机制生成完整 tube。
- Candidate numbers: \(N=16,32,64,128\)。
---
### 4.2 Tube matching 定义
v3 使用 **GT-visible-frame mean tube IoU**,避免 late-target 或 partial target 样本被空帧稀释。
令:
\[
\mathcal{T}_g = \{t \mid g_t \neq \emptyset\}
\]
则:
\[
IoU_{tube}(o_i, g)=
\frac{1}{|\mathcal{T}_g|}
\sum_{t \in \mathcal{T}_g}
IoU(m_{i,t}, g_t)
\]
若:
\[
\max_i IoU_{tube}(o_i, g) \ge 0.5
\]
则认为 GT 被 proposal 覆盖。
同时报告更严格版本:
\[
IoU_{tube}^{all}
=
\frac{1}{T}
\sum_{t=1}^{T}
IoU(m_{i,t}, g_t)
\]
用于分析 tube 在 GT 不存在帧是否产生多余 mask。
### 4.2.1 Oracle Refined J/F 精确定义
**Oracle Tube J/F**:在 top-N candidate tubes 中选择 \(IoU_{tube}\) 最高的 tube,直接评估该 tube mask 的 J/F。
**Oracle Refined J/F**:在 top-N candidate tubes 中选择 oracle tube,只使用该 tube 的 bbox 作为 SAM / SAM2 box prompt,经 refinement 后评估 J/F。
约束:
1. 不允许使用 GT mask 作为 mask prompt;
2. 不允许使用 oracle GT box;
3. bbox 来自 oracle proposal tube;
4. refinement 设置必须与实际 Stage 4 默认设置一致。
这样 Oracle Refined J/F 才是实际 TubeToken refinement 的可达上界,而不是依赖 GT mask 的理想化上界。
---
### 4.3 指标
| 指标 | 解释 |
|---|---|
| Recall@16 / 32 / 64 / 128 | top-N tubes 中是否存在 GT tube |
| Oracle Tube J/F | 总是选择 \(IoU_{tube}\) 最高 tube 的 proposal 上界 |
| Oracle Refined J/F | 选择 oracle tube 后,仅用 proposal bbox prompt 做 SAM refinement 的上界 |
| Proposal coverage by subset | 在 late-target、small、occluded、unseen 上分别报告 |
| Proposal miss % | 未覆盖 GT 的样本比例 |
| Average tubes per video | 计算量和 pruning 难度 |
| Proposal generation latency | 评估效率 |
| Tube temporal purity | tube 是否在 GT 不存在帧产生大量 false positive |
---
### 4.4 Go / No-Go 决策标准
下列阈值中的 SimToken 均指 **作者复现的 SimToken**,不是仅引用官方数字。
#### 4.4.1 Milestone 1 绿灯条件
同时满足:
1. Recall@32 ≥ 85%,其中 matching 使用 GT-visible-frame IoU ≥ 0.5;
2. Oracle Tube J/F ≥ reproduced SimToken J/F + 5%;
3. Oracle Refined J/F ≥ Oracle Tube J/F + 3%,说明 SAM refinement 有明确提升空间;
4. Small / occluded subset Recall@32 ≥ 70%,避免 proposal 对关键困难样本存在系统性盲区。
策略:TubeToken 正常推进,默认 Balanced 配置使用 \(N=32\)。
#### 4.4.2 Milestone 1 黄灯条件
| 条件 | 后续策略 |
|---|---|
| Recall@32 为 80%-85%,且 Oracle Tube J/F 满足绿灯条件 | 继续推进,但默认 \(N=64\),并在论文中重点分析 proposal miss |
| Oracle Tube J/F 仅 ≥ SimToken + 2%,但 Oracle Refined J/F ≥ SimToken + 5% | 继续推进,但论文重心从 selection 转向 refinement;强调 proposal-conditioned refinement |
| Recall@32 ≥ 85%,但 small/occluded Recall@32 < 70% | 继续推进主线,但必须增加 detector-assisted proposals 或 high-resolution proposals 的备选实验 |
#### 4.4.3 Milestone 1 红灯条件
任一条件满足即暂停 TubeToken 主线,优先切换 EC-SimToken 或重做 proposal 阶段:
1. Recall@64 < 80%;
2. Oracle Tube J/F ≤ reproduced SimToken J/F;
3. Recall@32 ≥ 85%,且 Oracle Refined J/F 与 Oracle Tube J/F 差距 < 1%,且 Oracle Tube J/F ≤ reproduced SimToken J/F + 2%。
第三条红灯条件只使用 Phase 0 可观测量。其含义是:proposal 质量本身只比 SimToken 略好,bbox-only refinement 又几乎无增益,此时 TubeToken 在该数据集上缺少足够立足点,不应依赖 Milestone 2 之前无法验证的 selection 收益预期。
---
### 4.5 若 recall 不足的备选策略
1. 增加关键帧数量;
2. 使用 audio-peak / motion-peak keyframes;
3. 对文本中出现的类别词使用 open-vocabulary detector 生成 boxes,再送 SAM2;
4. 使用 SimToken / EC-SimToken 的 mask 作为额外 proposal;
5. 引入 hybrid fallback:若 proposal confidence 低,则回退到 global semantic prompt segmentation。
## 5. Baseline 与模型变体
### 5.1 必须复现 / 对比的模型
| 模型 | 用途 |
|---|---|
| EEMC | 原始 Ref-AVS baseline |
| TSAM | SAM-based Ref-AVS baseline |
| SAM2-LOVE | SAM2-based Ref-AVS baseline |
| SimToken | 最直接对比对象,必须复现 |
| EC-SimToken | 强化后的 global token baseline,用于证明 TubeToken 不是只打 weak baseline |
| SimToken + SAM2 proposals | 控制 SAM2 proposals 带来的收益,采用零参数 reranking |
| SAM2 proposals + learned reranker(no null tube) | 分离 learned tube reranker 与 null tube 的贡献 |
| SimToken + matched compute | 等计算量公平对照 |
| TubeToken-Minimal | 最小 tube selection 框架 |
| TubeToken-Full | 完整方法 |
如果无法完整复现 EEMC、TSAM、SAM2-LOVE,可引用官方结果;但 SimToken、SimToken + SAM2 proposals、SAM2 proposals + learned reranker、SimToken + matched compute、TubeToken 必须在同一训练 / 输入 / 评估设置下比较。
---
### 5.2 TubeToken 主要消融
| 变体 | 目的 |
|---|---|
| TubeToken-Full | 完整模型 |
| TubeToken-Minimal | SAM2 proposals + fixed tube feature + selector + null tube,无 CondQFormer,无 refinement |
| SAM2 proposals + learned reranker(no null tube) | 分离 learned selector 与 null tube 的贡献 |
| w/o null tube | 验证显式 Null 建模 |
| null tube → binary existence head | 比较 null tube 与额外二分类 head |
| w/o null tube + mask-area threshold | 区分 Null 性能来自 tube 框架还是 null tube 设计 |
| fixed Q-Former | 验证 conditioning 是否有效,而非参数量增加 |
| text-conditioned only | 验证文本条件贡献 |
| audio-conditioned only | 验证音频条件贡献 |
| text+audio-conditioned | 完整条件化压缩 |
| w/o inter-tube self-attention | 验证 tube 间相对比较是否必要 |
| independent tube scoring | 每个 tube 独立通过 \([q_{ref};z_i]\) 线性打分 |
| w/o SAM refinement | 验证 tube selection 本身能力 |
| bbox prompt refinement | 默认 refinement 方案 |
| bbox + semantic prompt refinement | 验证 semantic prompt 是否有贡献 |
| bbox + mask prompt refinement | 检查 mask prompt 是否会带来收益或过拟合 |
| N=16/32/64/128 | 分析 candidate 数量和 recall/效率 trade-off |
| stride=4/8/16 | 分析关键帧数量和效率 trade-off |
---
### 5.3 公平性控制变体
#### 5.3.1 SimToken + SAM2 proposals:零参数 proposal reranking baseline
目的:回答 “TubeToken 的提升是否只是因为使用了 SAM2 proposals?”
该 baseline 必须采用参数无关的 reranking,不能使用模糊的 “rerank or fusion” 写法。
实现:
1. 保持 SimToken 的 global `<SEG>` 生成方式,得到 \(F_{seg}\)。
2. 使用与 TubeToken 完全相同的 SAM2 proposals 和 tube construction。
3. 对每个 proposal tube 提取时序 mask-pooled feature \(f_{i,t}\)。
4. 使用如下零参数分数:
\[
\text{score}(o_i)
=
F_{seg}^{\top}
\cdot
\frac{1}{|\mathcal{T}|}
\sum_t f_{i,t}
\]
5. 选择分数最高的 proposal tube,并使用与 TubeToken-Minimal 一致的输出设置。
该方案不引入额外可学习参数,与 SimToken 的 \(F_{seg}\) 使用方式一致,能最大限度避免 Reviewer 质疑对照组被弱化。
---
#### 5.3.2 SAM2 proposals + learned reranker(no null tube)
目的:回答 “TubeToken-Minimal 的提升来自 learned tube selector,还是来自 null tube?”
实现:
1. 使用与 TubeToken-Minimal 相同的 SAM2 proposals、tube construction、tube feature 和 \(q_{ref}\)。
2. 训练一个 learned reranker / classifier 对非 null candidate tubes 打分。
3. 不加入 learnable null tube。
4. Null case 使用 mask-area threshold 或 calibrated score threshold 处理。
5. 与 TubeToken-Minimal 对比:若 TubeToken-Minimal 明显更好,说明 null tube 有独立贡献;若 learned reranker 已接近 TubeToken-Minimal,说明主要收益来自 learned tube selection。
---
#### 5.3.3 SimToken + matched compute:预注册等计算量 baseline
目的:回答 “TubeToken 是否只是计算量换性能?”
v4 固定唯一实现,不再保留多个候选方案:
> **SimToken + multiple keyframe prompting with the same number of keyframes as TubeToken-Fast.**
实现约定:
1. 使用与 TubeToken-Fast 相同数量的关键帧,默认对应 TubeToken-Fast 的 stride=16 keyframe budget。
2. 对每个关键帧分别运行 SimToken 的 global `<SEG>` / SAM prompting 流程。
3. 将多个 keyframe 的预测通过同一 propagation / aggregation 规则合成为视频级 mask,规则必须在实验前固定。
4. 不使用 SAM2 proposal tube reranking,不引入 learned tube selector,不引入 null tube。
5. 报告 latency、FLOPs、SAM/SAM2 call 数、MLLM token count,使其与 TubeToken-Fast 的计算预算尽可能接近。
选择该实现的原因:TubeToken-Fast 的额外计算主要来自更多关键帧与 proposal/propagation 处理,而 multiple keyframe prompting 是 SimToken 侧最直接、最可解释、最难被质疑的等计算量增强方式。该 baseline 必须在实验开始前预注册,不能根据最终结果临时更换。
## 6. 训练设计
### 6.1 Tube label assignment
正样本视频中,选择 GT-visible-frame mean tube IoU 最大的 candidate tube 作为正 tube:
\[
i^* = \arg\max_i IoU_{tube}(o_i,g)
\]
若最大 IoU 小于 0.5,则标记为 proposal miss。训练时:
- 不用于 tube classification loss;
- 可用于 proposal miss 统计;
- 不建议强行把低 IoU tube 当正样本,以免污染 selector。
Null 样本中,正类为 null tube。
---
### 6.2 Loss function
v3 默认总损失中 **不包含未定义的 \(\mathcal{L}_{cond}\)**。Null 加权并入 tube classification CE,而不是单独写成独立的 \(\mathcal{L}_{null}\)。
默认总损失:
\[
\mathcal{L}
=
\mathcal{L}_{tube}^{weighted}
+
\lambda_m y\mathcal{L}_{mask}
+
\lambda_r\mathcal{L}_{rank}
\]
其中:
\[
\mathcal{L}_{tube}^{weighted}
=
\sum_i
w_i \cdot
\text{CE}(P(i \mid video,audio,text), y_i)
\]
- 正样本:\(w_i=1\);
- Null 样本:\(w_i=w_{null}\),由 curriculum 控制;
- \(\mathcal{L}_{mask}\):BCE + Dice,只对非 Null 且非 proposal miss 样本计算;
- \(\mathcal{L}_{rank}\):hard negative ranking loss。
Hard negative ranking:
\[
\mathcal{L}_{rank}
=
\sum_{j\in\mathcal{N}}
\max(0,\Delta-s_{i^*}+s_j)
\]
#### 6.2.1 Optional \(\mathcal{L}_{cond}\) 辅助项
如果实验中决定使用 attention supervision,则 \(\mathcal{L}_{cond}\) 必须单独定义、单独消融,不能作为默认损失悬空出现。
可选定义:
\[
\mathcal{L}_{cond}
=
-
\sum_{t,l}
\bar{M}_{t,l}
\log A_{t,l}
\]
其中:
- \(A_{t,l}\):CondQFormer 对第 \(t\) 帧第 \(l\) 个 patch / region 的 attention;
- \(\bar{M}_{t,l}\):归一化后的 GT mask 或 matched proposal mask;
- 该项只在有可靠 GT spatial supervision 的样本上使用。
若使用该项,则总损失写为:
\[
\mathcal{L}
=
\mathcal{L}_{tube}^{weighted}
+
\lambda_m y\mathcal{L}_{mask}
+
\lambda_r\mathcal{L}_{rank}
+
\lambda_c\mathcal{L}_{cond}
\]
并报告 with / without \(\mathcal{L}_{cond}\)。
---
### 6.3 Multi-expression training for CondQFormer
这是 H3 在训练层面的必要实现。
适用前提:数据审计确认同一视频或同一 GT object 存在多个 referring expressions。
训练方式:
1. 对每个 multi-expression 样本,先生成一次 SAM2 proposals,得到共享 candidate tubes \(\mathcal{O}\)。
2. 在同一个 batch 或 gradient accumulation window 中采样至少两个不同 expressions:\(r_a, r_b\)。
3. 对同一组 tubes 分别构造条件化 query:
\[
Q_a = Q_0 + W_t e_{text}^{a} + W_a e_{audio}^{a} + W_{ta}(e_{text}^{a} \odot e_{audio}^{a})
\]
\[
Q_b = Q_0 + W_t e_{text}^{b} + W_a e_{audio}^{b} + W_{ta}(e_{text}^{b} \odot e_{audio}^{b})
\]
4. 分别得到:
\[
\tilde{z}_{i}^{a} = \text{CondQFormer}(Q_a, \{f_{i,t}\}_{t=1}^{T})
\]
\[
\tilde{z}_{i}^{b} = \text{CondQFormer}(Q_b, \{f_{i,t}\}_{t=1}^{T})
\]
5. 共享 tube proposals,但每个 expression 独立计算 tube selection loss。
6. 如果两个 expressions 指向同一 GT tube,则要求 selection 都正确;不强制 \(\tilde{z}_{i}^{a}\) 与 \(\tilde{z}_{i}^{b}\) 相同,因为 H3 恰恰要求不同 expression 暴露不同证据。
7. 如果两个 expressions 指向不同 targets,则作为 inter-expression hard negatives,用于强化同视频 instance discrimination。
**实现注记:梯度冲突风险。**
当两个 expressions 对同一 tube 需要关注不同证据时,例如一个表达依赖音频活跃帧,另一个表达依赖空间位置,CondQFormer 的共享参数可能收到相互冲突的梯度,造成训练振荡。若出现 loss oscillation、attention collapse 或正样本 Selection Acc 明显下降,采用以下缓解策略:
1. 将不同 expression 的 forward / backward 放入同一 gradient accumulation window,但分开计算梯度后再累积,而不是在一个合并 forward 中强行混合;
2. 训练早期优先采样语义差异较小的 expression pair,例如同为视觉表达或同为音频表达;
3. 训练稳定后再逐步加入 cross-modality expression pair,例如 audio-expression vs spatial-expression;
4. 单独记录 multi-expression pair 类型与训练稳定性,避免把梯度冲突误判为 conditioning 无效。
训练记录:
- batch 中 multi-expression 样本比例;
- 每个 shared proposal set 对应的 expression 数;
- expression pair 类型分布:visual-visual、audio-audio、visual-audio、spatial-audio;
- 使用 multi-expression training 与不使用该训练策略的对比结果。
若数据集不支持 multi-expression training,则必须在论文中降低 H3 的表述强度。
---
### 6.4 Null tube curriculum
Null tube 训练初期不稳定,因此采用 curriculum:
| 阶段 | epoch | Null 权重 \(w_{null}\) |
|---|---:|---:|
| Warmup | 0-2 | 2.0 |
| Middle | 3-6 | 1.0 |
| Final | 7+ | 0.5 |
同时使用 Null oversampling,但必须明确目标比例。
默认设置:
- 每个 batch 中 Null 样本目标比例:25%;
- 若原始 Null 比例高于 25%,不额外下采样,直接使用自然分布;
- 若原始 Null 比例低于 25%,通过 oversampling 补足;
- 单个 batch 中 Null 比例原则上不超过 33%,除非专门做采样比例消融。
必须报告 Null sampling ratio 对以下指标的影响:
- Null FPR;
- Positive FNR;
- Null S;
- Tube Selection Acc@1;
- “GT tube Top-3 but null tube Top-1” 错误比例。
Null sampling ratio 消融:
| Ratio | 目的 |
|---:|---|
| 0% | no oversampling baseline |
| 12.5% | 弱 oversampling |
| 25% | 默认设置 |
| 33% | 较强 oversampling |
| 50% | 检查是否导致过度保守预测 null |
---
### 6.5 Hard negative mining
Hard negative mining 分阶段引入,避免工程依赖混乱。
#### Milestone 2: TubeToken-Minimal 阶段
只使用不依赖 CondQFormer 的 hard negatives:
1. tube IoU 与 GT 较高但不是目标;
2. 与 GT bbox / mask 空间位置接近;
3. mask-pooled visual feature 与 GT 相似;
4. 若有类别标签,则加入同类别不同实例。
#### Milestone 3: CondQFormer 阶段
加入 text/audio mismatch negatives:
1. 与文本相似但音频不匹配;
2. 与音频同步但文本不匹配;
3. 与 audio-critical expression 高相关但不是 GT 的 tube;
4. same-category distractor 中的高分错误 tube;
5. 同一视频不同 expression 指向不同目标时,将非当前 expression 的目标 tube 作为 hard negative。
## 7. 评价指标
### 7.1 标准指标
| 指标 | 说明 |
|---|---|
| Seen J / F / J&F | seen categories 分割质量 |
| Unseen J / F / J&F | unseen categories 泛化能力 |
| Mix J / F / J&F | 综合表现 |
| Null S | Null subset 空目标表现 |
---
### 7.2 TubeToken 专属指标
| 指标 | 说明 |
|---|---|
| Recall@N | proposal 阶段是否覆盖 GT |
| Oracle Tube J/F | proposal 上界 |
| Oracle Refined J/F | proposal + bbox-only refinement 上界 |
| Tube Selection Acc@1 | GT tube 被覆盖时,Top-1 预测是否为 matched GT tube |
| Tube Selection Acc@3 | matched GT tube 是否进入 Top-3 |
| GT Top-3 but Null Top-1 Rate | GT tube 已在 Top-3,但 null tube 排名第 1 的比例 |
| Null Accuracy | 是否正确选择 null tube |
| Null FPR | Null 视频中错误选择非空 tube 的比例 |
| Positive FNR | 正样本视频中错误选择 null tube 的比例 |
| Existence AUC | \(p_{exist}=1-P(null)\) 的判别能力 |
| Reliability Diagram / ECE | existence probability 是否校准 |
| Refinement Gain | SAM refinement 前后 J/F 提升 |
| Latency / FPS / Memory | 效率指标 |
| \(AC\) | attention mass 是否集中在 GT region / GT tube |
| \(\widehat{AC}_{tube}\) | 标准化 tube-level AC,定义为 \(N\cdot AC_{tube}\),用于不同 N 之间比较 |
| H3 Cosine Similarity Gap | 同一 tube 不同 expression 下 conditioned 与 fixed Q-Former 的 \(\tilde{z}_i\) 相似度差异 |
**Tube Selection Acc 定义:**
在 GT tube 被 proposal 覆盖的样本中,selector 的 Top-1 预测与 matched GT tube 一致的比例。proposal miss 样本不计入该指标,但必须单独报告。
**Selection Acc@3 的 null 处理:**
针对正样本评估 object-level Top-3 时,先从候选排名中排除 null tube,再判断 matched GT tube 是否进入 Top-3。否则 null tube 排名第 2 但 GT tube 排名第 3 的情况会被误计为 object selection 成功。与 null 校准相关的情况单独用 **GT Top-3 but Null Top-1 Rate** 报告,该指标在包含 null tube 的完整 ranking 上计算。
若 Null 样本少于 200 个,Reliability Diagram 作为主要校准分析,ECE 仅作为辅助数字。
---
### 7.3 Error decomposition
每个失败样本归类为:
| 错误类型 | 判定标准 |
|---|---|
| Proposal miss | top-N candidate tubes 中无 tube 与 GT-visible-frame mean IoU ≥ 0.5 |
| Selection error | GT tube 存在,且非 null tube 被错误选择为其他 object tube |
| Refinement error | selector 选对,但 refined mask J/F 明显低 |
| Null false positive | Null 视频中选择了非空 tube |
| Null false negative | 正样本视频中选择了 null tube |
| GT tube Top-3 but Null Top-1 | 正样本中 matched GT tube 已进入 Top-3,但 null tube 得分最高 |
最后一类不应简单并入 Selection error 或 Null FN。它说明模型具备候选识别能力,但 existence / null 校准存在问题。
**互斥归类优先级:**
Error decomposition 必须保证每个失败样本只落入一个类别,避免各项占比相互重叠。默认优先级为:
1. Proposal miss;
2. Null FN with GT Top-3,即正样本中 null ranked 1st 且 matched GT tube 进入 object-level Top-3;
3. Null FN without GT Top-3;
4. Selection error;
5. Refinement error;
6. Null FP。
报告时可以把第 2、3 类合并成总 Null FN,同时单独列出 GT Top-3 but Null Top-1 作为 Null FN 的校准子类型。
该分析需要在 Seen、Unseen、Null、late-target、same-category distractor、audio-critical 子集上分别报告。
## 8. 诊断实验
### 8.1 Conditioning 是否真的有效
v3 将 conditioning 诊断拆成两个层次:
1. **Correctness level**:模型是否关注正确 GT 区域 / GT tube。对应 AC 与 \(\widehat{AC}_{tube}\)。
2. **Expression-sensitivity level**:同一 tube 在不同 referring expressions 下是否产生不同证据摘要。对应 H3 direct validation。
这两个层次不能混淆。高 AC 只能说明模型关注正确对象,不能直接证明 H3。
#### 8.1.1 H3 direct validation:同一 tube 不同 expression 的表示差异
适用子集:3.2.6 Multi-expression H3 subset。
实验设置:
1. 对同一视频生成一次 shared candidate tubes;
2. 找到 matched GT tube \(o_{i^*}\);
3. 对同一视频的两个 expressions \(r_a,r_b\) 分别运行 fixed Q-Former 与 conditioned Q-Former;
4. 记录同一 tube 的输出表示:\(\tilde{z}_{i^*}^{a}\)、\(\tilde{z}_{i^*}^{b}\)。
指标:
\[
\text{CosSim}_{same\ tube}
=
\cos(\tilde{z}_{i^*}^{a},\tilde{z}_{i^*}^{b})
\]
报告:
| Model | Same-tube cross-expression CosSim | Selection Acc@1 | H3 解释 |
|---|---:|---:|---|
| Fixed Q-Former | 1.0 | | 不依赖 expression,确定性恒等 baseline |
| Text-conditioned | | | 文本差异是否改变 tube summary |
| Audio-conditioned | | | 音频差异是否改变 tube summary |
| Text+Audio-conditioned | | | 完整条件化是否产生最大差异 |
期望结果:
- Fixed Q-Former 的 cross-expression CosSim \(\equiv 1.0\),这是确定性 baseline,而不是经验近似;
- Text+Audio-conditioned Q-Former 的 CosSim 显著低于 1.0;
- CosSim 降低不能以 Selection Acc 下降为代价;
- 若 CosSim 无差异但性能提升存在,则论文表述应改为 “learned compression improves selection”,而不是强称 “expression-conditioned evidence summarization”。
---
#### 8.1.2 Attention Concentration 指标
对于 patch-level 或 frame-level attention \(A\),定义:
\[
AC
=
\frac{
\sum_{t,l} A_{t,l} \cdot \mathbf{1}[(t,l)\in GT]
}{
\sum_{t,l} A_{t,l}
}
\]
若 attention 是 tube-level,则原始 tube attention concentration 为:
\[
AC_{tube}
=
\sum_i A_i \cdot \mathbf{1}[i=i^*]
\]
但 \(AC_{tube}\) 受 candidate 数 \(N\) 影响。为保证不同 N 下可比较,v3 使用标准化版本:
\[
\widehat{AC}_{tube}=N\cdot AC_{tube}
\]
其中随机基准恒为 1.0,完全集中在 GT tube 上时为 \(N\)。
比较:
- fixed Q-Former;
- text-conditioned;
- audio-conditioned;
- text+audio-conditioned。
并在以下表达类型上分别报告:
1. audio-related expressions;
2. spatial relation expressions;
3. category-only expressions;
4. same-category distractor samples;
5. multi-expression H3 subset。
---
### 8.2 Audio robustness
| 实验 | 目的 |
|---|---|
| audio removed | 测试音频模块整体贡献 |
| audio amplitude zeroed, temporal length preserved | 区分音频缺失与全零音频特征;检查模型是否只利用“有无音频”信号 |
| audio shuffled | 测试是否依赖时间同步 |
| same-category audio swapped | 测试是否依赖细粒度音频差异 |
| cross-category audio swapped | 测试是否使用音频语义,而非只检测音频存在 |
| audio-text conflict | 测试冲突条件下模型是否合理退化 |
| strict audio-critical subset | 测试音频关键样本上的收益 |
**Audio swapped 分组要求**:
1. Same-category swap:例如吉他声换另一段吉他声;
2. Cross-category swap:例如吉他声换狗叫或人声。
只有 cross-category swap 导致显著下降,并且 zeroed audio 与 removed audio 呈现可解释差异,才能更有力证明模型确实使用音频语义。
---
### 8.3 First-frame bias / temporal coverage
| 实验 | 目的 |
|---|---|
| late-target subset | 目标后半段出现时是否优于 SimToken |
| keyframe stride ablation | 分析关键帧覆盖对性能影响 |
| partial target subset | 测试目标只在部分帧出现的鲁棒性 |
| target disappears subset | 测试 tracking 稳定性 |
| GT-visible-frame IoU vs all-frame IoU | 区分目标定位质量和多余 mask 问题 |
---
### 8.4 Same-category distractor
报告:
- TubeToken vs SimToken;
- w/ self-attention vs w/o self-attention;
- hard-negative ranking loss ablation;
- Selection Acc@1 / Acc@3;
- 同类干扰样本上的 error decomposition。
重点验证 TubeToken 是否减少同类实例混淆。
---
### 8.5 Null threshold sensitivity
虽然 TubeToken 使用 null tube,不需要手工 mask area threshold,但仍需要展示:
\[
p_{exist}=1-P(null)
\]
在不同 threshold 下的:
- Null FPR;
- Positive FNR;
- J&F;
- Null S;
- GT tube Top-3 but Null Top-1 Rate。
这能说明模型是否对阈值敏感。
同时比较:
1. null tube;
2. binary existence head;
3. mask-area threshold。
## 9. Efficiency 与公平计算量对比
Reviewer 会质疑 TubeToken 是否只是计算量换性能,因此必须主动报告效率与等计算量对照。
### 9.1 需要报告的效率项
| 项目 | 说明 |
|---|---|
| Proposal generation time | SAM2 AMG + keyframe processing,按 per video 统计 |
| Tracking / propagation time | SAM2 memory propagation |
| Tube selection time | conditional compression + selector,按 per expression 统计 |
| SAM refinement time | bbox prompt refinement |
| Total latency per video | 完整推理耗时,需区分单 expression 与多 expression 场景 |
| FPS | 视频级速度 |
| Peak GPU memory | 显存 |
| MLLM token count | 与 SimToken 比较 |
| Number of SAM/SAM2 calls | 计算量透明化 |
| Candidate tube number | N=16/32/64/128 |
| Keyframe stride | stride=4/8/16 |
| Amortized proposal cost per expression | 多 expression 场景下,SAM2 proposal generation 对同一视频只运行一次,在 K 个 expressions 间摊销 |
| Per-expression incremental cost | CondQFormer、selector、refinement 对每个 expression 的增量耗时 |
---
### 9.2 TubeToken 三种配置
| 配置 | 默认设置 | 目的 |
|---|---|---|
| Fast | N=16, stride=16 | 接近 SimToken 计算预算 |
| Balanced | N=32, stride=8 | 性能与效率折中 |
| Accuracy | N=64 或 128, stride=4 | 追求最好性能 |
---
### 9.3 等计算量对比
必须加入:
1. **SimToken + matched compute**,固定为 multiple keyframe prompting with the same number of keyframes as TubeToken-Fast;
2. **SimToken + SAM2 proposals**;
3. **SAM2 proposals + learned reranker(no null tube)**;
4. **TubeToken-Fast**。
报告这些变体在接近 latency / FLOPs / SAM call 数量下的性能。matched compute baseline 的实现必须在实验前固定,不能在实验后根据结果从 multi-scale prompting、multiple decode attempts 等候选方案中挑选。
若 TubeToken-Fast 显著优于 SimToken + matched compute,则可以有力回应“只是计算量换性能”的质疑。
### 9.4 多 expression 场景下的 proposal amortization
若同一视频有 \(K\) 个 referring expressions,TubeToken 的推理成本应拆分为:
\[
C_{video}
=
C_{proposal}^{video}
+
K\cdot(C_{cond}^{expr}+C_{select}^{expr}+C_{refine}^{expr})
\]
其中 \(C_{proposal}^{video}\) 是 SAM2 AMG + propagation 的一次性 per-video 成本,不应被错误地重复计算 \(K\) 次。因此需要额外报告:
| 指标 | 定义 |
|---|---|
| Proposal cost per video | 同一视频生成 candidate tubes 的一次性成本 |
| Amortized proposal cost per expression | \(C_{proposal}^{video}/K\) |
| Incremental expression cost | CondQFormer + selector + refinement 的 per-expression 成本 |
| Total cost for K expressions | \(C_{proposal}^{video}+K\cdot C_{expr}\) |
这既避免 Reviewer 误解 TubeToken 每个 expression 都要重跑 SAM2 proposals,也能展示 TubeToken 在多 expression 视频上的潜在效率优势。
---
## 10. 主表设计
### 10.1 Main comparison table
主表只保留公开 baseline、复现主基线和 TubeToken 主配置,避免把公平性控制变体全部塞入主表导致结构臃肿。公平性控制单独放入 10.2。
| Method | Seen J&F | Unseen J&F | Mix J&F | Null S | FPS | Memory |
|---|---:|---:|---:|---:|---:|---:|
| EEMC | | | | | | |
| TSAM | | | | | | |
| SAM2-LOVE | | | | | | |
| SimToken official | | | | | | |
| SimToken reproduced | | | | | | |
| EC-SimToken | | | | | | |
| TubeToken-Balanced | | | | | | |
| TubeToken-Accuracy | | | | | | |
---
### 10.2 Fairness analysis table
该表专门回答公平性问题:TubeToken 的收益是否来自 SAM2 proposals、learned reranking、null tube 或额外计算量。
| Method | Matched Proposal? | Matched Compute? | Null Modeling | Seen J&F | Unseen J&F | Mix J&F | Null S | FPS |
|---|---|---|---|---:|---:|---:|---:|---:|
| SimToken reproduced | No | Base | Implicit / mask output | | | | | |
| SimToken + SAM2 proposals zero-param rerank | Yes | No | SimToken implicit | | | | | |
| SAM2 proposals + learned reranker(no null tube) | Yes | Partial | threshold / calibrated score | | | | | |
| SimToken + matched compute(multiple keyframe prompting) | No | Yes, TubeToken-Fast budget | SimToken implicit | | | | | |
| TubeToken-Minimal | Yes | TubeToken-Fast/Balanced reported | learnable null tube | | | | | |
| TubeToken-Fast | Yes | Yes | learnable null tube | | | | | |
---
### 10.3 Proposal analysis table
| Split | Recall@16 | Recall@32 | Recall@64 | Oracle Tube J&F | Oracle Refined J&F bbox-only | Proposal Miss % |
|---|---:|---:|---:|---:|---:|---:|
| Seen | | | | | | |
| Unseen | | | | | | |
| Late-target | | | | | | |
| Small/occluded | | | | | | |
| Audio-critical | | | | | | |
| Multi-expression H3 subset | | | | | | |
---
### 10.4 Ablation table
| Variant | Seen J&F | Unseen J&F | Null S | Selection Acc@1 | Null FPR | GT Top-3 Null Top-1 | FPS |
|---|---:|---:|---:|---:|---:|---:|---:|
| Full | | | | | | | |
| TubeToken-Minimal | | | | | | | |
| SAM2 proposals + learned reranker(no null tube) | | | | | | | |
| w/o null tube | | | | | | | |
| binary existence head | | | | | | | |
| mask-area threshold | | | | | | | |
| fixed Q-Former | | | | | | | |
| text-only cond | | | | | | | |
| audio-only cond | | | | | | | |
| text+audio cond | | | | | | | |
| w/o multi-expression training | | | | | | | |
| w/ optional \(\mathcal{L}_{cond}\) | | | | | | | |
| w/o self-attn | | | | | | | |
| independent scoring | | | | | | | |
| w/o refinement | | | | | | | |
| bbox+mask prompt | | | | | | | |
---
### 10.5 Error decomposition table
| Split | Proposal Miss | Selection Error | Refinement Error | Null FP | Null FN | GT Top-3 but Null Top-1 |
|---|---:|---:|---:|---:|---:|---:|
| Seen | | | | - | | |
| Unseen | | | | - | | |
| Null | - | - | - | | - | - |
| Same-category | | | | - | | |
| Late-target | | | | - | | |
| Audio-critical | | | | - | | |
| Multi-expression H3 subset | | | | - | | |
说明:Late-target、Same-category、Audio-critical 通常为正样本子集,因此 Null FP 不适用,用 “-” 标记;若某个子集定义中包含 Null 样本,则需要拆成 positive / null 两行。
---
### 10.6 Conditioning analysis table
| Model | Overall \(\widehat{AC}_{tube}\) | Audio-expression \(\widehat{AC}_{tube}\) | Spatial-expression \(\widehat{AC}_{tube}\) | Same-category \(\widehat{AC}_{tube}\) | Cross-expression CosSim | Selection Acc@1 |
|---|---:|---:|---:|---:|---:|---:|
| Fixed Q-Former | | | | | | |
| Text-conditioned | | | | | | |
| Audio-conditioned | | | | | | |
| Text+Audio-conditioned | | | | | | |
## 11. 可视化计划
### 11.1 必做可视化
1. **Tube selection visualization**
展示 top-5 candidate tubes、selector score、最终选择。
2. **Null case visualization**
展示 null tube 得分最高,输出空 mask。
3. **Same-category distractor**
展示两个相似对象,TubeToken 正确选择目标 tube。
4. **Late-target case**
展示目标不在第一帧时,TubeToken 仍能通过 tube 选择找到目标。
5. **Conditional attention map**
同一视频、不同 expression 下,compressor 关注不同 tube/时间片段。
6. **Attention Concentration visualization**
展示 fixed Q-Former 与 conditioned Q-Former 的 attention mass 差异。
7. **Failure cases**
至少展示 proposal miss、selection error、refinement error 三类失败。
---
### 11.2 可视化标准
每个案例应包含:
- 输入视频关键帧;
- expression;
- audio waveform 或 audio activity;
- candidate tubes;
- selection scores;
- selected tube;
- final mask;
- GT mask;
- 对应的 error category 或 diagnostic subset 标签。
---
## 12. 实施顺序与里程碑
### Phase -1: 数据审计与 SimToken 复现
目标:确认 H3 是否具备数据基础,并建立所有 Go/No-Go 判断的主基准。
交付物:
- SimToken reproduced result;
- reproduced vs official 差异分析;
- multi-expression audit;
- H3 subset 构建结果;
- Null 样本比例与 batch sampling 计划。
Phase -1 的两个任务可以并行启动:SimToken 复现用于建立所有阈值的主基准,multi-expression audit 用于决定 H3 的叙事强度。
Go / No-Go 条件:
| Phase -1 结果 | 建议 |
|---|---|
| SimToken 复现与官方差异 ≤ 1.5 J&F,且每个视频平均 expression 数 > 1.5 | 按 v4 计划全面推进 Phase 0,H3 保持 P0 级直接验证 |
| SimToken 复现与官方差异 ≤ 1.5 J&F,但每个视频基本只有 1 个 expression | 推进 Phase 0,但 H3 direct validation 从 P0 降为 P2,论文采用回退叙事 |
| SimToken 复现差异 > 1.5 J&F | 暂停后续实验,先定位复现差异,因为所有 Go/No-Go 阈值都依赖该基准 |
Phase -1 结束时必须明确说明 H3 属于强验证、弱验证还是叙事回退。
---
### Milestone 1: 数据审计与 proposal recall
目标:判断 TubeToken 是否可行。
交付物:
- 数据统计表;
- Recall@N;
- Oracle Tube J/F;
- Oracle Refined J/F bbox-only;
- proposal miss 分析;
- go / no-go 决策。
绿灯条件:
- Recall@32 ≥ 85%;
- Oracle Tube J/F ≥ reproduced SimToken J/F + 5%;
- Oracle Refined J/F ≥ Oracle Tube J/F + 3%;
- Small / occluded subset Recall@32 ≥ 70%。
黄灯条件:
- Recall@32 为 80%-85%,但 Oracle Tube J/F 满足绿灯条件:推进但默认 N=64;
- Oracle Tube J/F 仅 ≥ SimToken + 2%,但 Oracle Refined J/F ≥ SimToken + 5%:推进但论文重心转向 refinement。
红灯条件:
- Recall@64 < 80%;
- Oracle Tube J/F ≤ reproduced SimToken J/F;
- Recall@32 ≥ 85%,且 Oracle Refined J/F 与 Oracle Tube J/F 差距 < 1%,且 Oracle Tube J/F ≤ reproduced SimToken J/F + 2%;
- proposal 对 small / occluded / unseen 存在不可接受的系统性盲区。
---
### Milestone 2: TubeToken-Minimal + Fairness Controls
实现最小版本:
- SAM2 proposals;
- tube construction;
- fixed tube feature;
- selector + null tube;
- no conditional Q-Former;
- no SAM refinement。
同时实现公平性控制:
1. SimToken + SAM2 proposals 零参数 reranking;
2. SAM2 proposals + learned reranker(no null tube);
3. SimToken + matched compute;
4. w/o null tube + mask-area threshold。
目标:验证 object tube selection 是否优于 global token baseline,并排除“只是 SAM2 proposals 更强”或“只是计算量更多”的解释。
绿灯条件:
- TubeToken-Minimal 的 Seen / Unseen J&F 均优于 reproduced SimToken ≥ 2%;
- TubeToken-Minimal 优于 SimToken + SAM2 proposals;
- TubeToken-Minimal 的 Null S ≤ SimToken Null S × 1.5;
- Tube Selection Acc@1 ≥ 70%。
黄灯条件:
- TubeToken-Minimal 优于 SimToken 但不优于 SimToken + SAM2 proposals:说明 proposal 贡献占主导,需要强化 selector 或调整论文叙事;
- TubeToken-Minimal 仅在 Null 子集优于 SimToken,Seen / Unseen 持平:继续推进 Milestone 3,但不能把 Minimal 作为主要贡献。
红灯条件:
- TubeToken-Minimal 在 Seen / Unseen 均不优于 SimToken,且不优于 SimToken + SAM2 proposals:重新设计 selector 或回退 EC-SimToken。
---
### Milestone 3: 加入 Conditional Compression
实现:
- fixed Q-Former;
- text-conditioned Q-Former;
- audio-conditioned Q-Former;
- text+audio-conditioned Q-Former;
- multi-expression training;
- H3 cosine similarity validation。
目标:证明 conditioning 本身有效,而非 learnable Q-Former 参数量带来的提升。
必须交付:
- conditioning ablation;
- \(\widehat{AC}_{tube}\);
- H3 cross-expression CosSim;
- attention visualization;
- audio-critical subset 结果;
- audio zeroed / removed / shuffled / swapped robustness。
绿灯条件:
- Text+Audio conditioned Q-Former 在 Seen / Unseen 均优于 Fixed Q-Former ≥ 1.5%;
- \(\widehat{AC}_{tube}\) 在 audio-related expressions 上 conditioned ≥ fixed × 1.3;
- 同一视频不同 expression 下,CondQFormer 的 \(\tilde{z}_i\) CosSim 明显低于 Fixed Q-Former;
- strict audio-critical subset 上性能提升 ≥ 2%。
黄灯条件:
- CondQFormer 整体提升明显,但 \(\widehat{AC}_{tube}\) 差异不显著:论文改述为 learned tube compression;
- Text-only 已足够好,Audio conditioning 额外收益 < 0.5%:audio conditioning 改为 robustness improvement,不作为主贡献。
红灯条件:
- Fixed Q-Former 与 Text+Audio conditioned Q-Former 差距 < 0.5%,且所有子集无收益:conditioning 无效,考虑 CLIP visual features 或回退论文叙事。
---
### Milestone 4: 加入 SAM Refinement
实现:
- bbox prompt refinement;
- bbox + semantic prompt refinement;
- bbox + mask prompt 作为对照。
目标:证明 refinement 的贡献,并确认默认方案。
绿灯条件:
- Bbox prompt refinement 在 J 上优于 w/o refinement ≥ 2%;
- Oracle Refined J/F 与实际 TubeToken-Full J/F 的差距 ≤ 10%;
- Bbox + mask prompt 不显著优于 bbox-only。
黄灯条件:
- Refinement 提升 < 1%:将 SAM refinement 降为 optional module,论文重心转回 tube selection。
红灯条件:
- Bbox + mask prompt 显著优于 bbox-only,且差距来自 mask prompt 的 GT-quality dependency:说明 proposal mask 质量不足,需要回到 Milestone 1 改 proposal。
---
### Milestone 5: 完整实验与论文分析
完成:
- 主表;
- 消融;
- hard subset;
- error decomposition;
- efficiency;
- equal-compute comparison;
- 可视化;
- failure case;
- reliability diagram / threshold sensitivity。
## 13. 风险与应对
| 风险 | 严重程度 | 应对 |
|---|---|---|
| Ref-AVSBench 缺少 multi-expression 结构 | 极高 | 不将 H3 作为主贡献;叙事回退为 learned tube compression / proposal-conditioned instance grounding |
| SimToken 复现与官方数字差异过大 | 高 | 先定位训练、输入、评估差异;所有后续 Go/No-Go 使用 reproduced number |
| Multi-expression training 出现梯度冲突 | 中高 | 使用 gradient accumulation 分开累积不同 expression 的梯度;早期采样语义差异较小的 expression pair,稳定后再引入 cross-modality pair |
| SimToken + matched compute 实现被质疑 | 高 | 实验前固定为 multiple keyframe prompting with TubeToken-Fast keyframe budget,不保留事后选择空间 |
| 多 expression efficiency 被误解为每个 expression 重跑 proposals | 中 | 报告 proposal per-video cost、amortized proposal cost per expression 和 incremental expression cost |
| Recall@32 低于 80% | 极高 | 增加 proposal 数、引入 detector、使用 hybrid fallback |
| Oracle Tube J/F 不高于 reproduced SimToken | 极高 | 暂停 TubeToken 主线,改 refinement、高分辨率特征、proposal 方法或回退 EC-SimToken |
| Oracle Refined J/F 定义不公平 | 高 | 固定为 oracle proposal bbox-only,不使用 GT mask prompt |
| SimToken + SAM2 proposals 对照过弱 | 高 | 使用零参数 \(F_{seg}\) reranking,并公开公式 |
| TubeToken-Minimal 优于 SimToken 但不优于 SimToken + SAM2 proposals | 高 | 说明 proposal 是主要贡献,需强化 tube selector 或调整论文叙事 |
| learned reranker 与 TubeToken-Minimal 差距很小 | 中高 | null tube 贡献有限;Null 相关 claim 降级 |
| \(\mathcal{L}_{cond}\) 定义不清 | 中高 | 默认删除;若使用则单独定义并做 with/without 消融 |
| Null tube 不稳定 | 中高 | 25% Null oversampling + weighted CE curriculum;报告采样比例敏感性 |
| Null oversampling 过强导致正样本误判 Null | 高 | 监控 Positive FNR 与 GT Top-3 but Null Top-1 Rate |
| conditioning 只带来小幅提升 | 高 | 强化诊断子集、\(\widehat{AC}_{tube}\)、H3 CosSim、fixed Q-Former 对照 |
| H3 CosSim 无明显差异 | 高 | 不强调 expression-conditioned summarization;改强调 learned compression 或 selection architecture |
| TubeToken 计算量过大 | 高 | 报告 Fast/Balanced/Accuracy 与 matched-compute baseline |
| refinement 提升不明显 | 中 | 将重点转向 selection accuracy 与 hard cases;refinement 作为 optional module |
| self-attention 无贡献 | 低 | 删除 self-attention,采用更简洁 selector |
| attention map 不可解释 | 中高 | 使用 \(\widehat{AC}_{tube}\)、query 分组、H3 CosSim 重新诊断 |
| 与 SAM2 工程强绑定 | 中 | 明确核心贡献在 tube-level text/audio selection,不在 proposal generation |
## 14. 实验优先级
### P0: 必须完成
1. SimToken 复现与官方结果差异分析;
2. Multi-expression audit;
3. Proposal Recall@N;
4. Oracle Tube J/F 和 bbox-only Oracle Refined J/F;
5. TubeToken-Minimal vs SimToken;
6. TubeToken-Minimal vs SimToken + SAM2 proposals;
7. SAM2 proposals + learned reranker(no null tube);
8. TubeToken-Fast vs SimToken + matched compute(固定为 multiple keyframe prompting);
9. Null tube ablation;
10. mask-area threshold Null baseline;
11. Null oversampling ratio ablation;
12. fixed Q-Former vs text+audio conditioned Q-Former;
13. \(\widehat{AC}_{tube}\);
14. H3 cross-expression CosSim(若 multi-expression audit 支持;否则降为 P2);
15. Error decomposition;
16. GT Top-3 but Null Top-1 Rate;
17. Efficiency table。
---
### P1: 强烈建议完成
1. late-target subset;
2. strict audio-critical subset;
3. same-category distractor subset;
4. threshold sensitivity;
5. conditioning attention visualization;
6. H3 cross-expression visualization;
7. self-attention ablation;
8. Reliability Diagram;
9. same-category vs cross-category audio swap;
10. audio amplitude zeroed, temporal length preserved。
---
### P2: 有时间再做
1. audio shuffled;
2. cross-dataset validation, e.g., AVSBench / MeViS;
3. frame-level existence;
4. open-vocabulary detector assisted proposals;
5. manual hard negative benchmark;
6. hybrid fallback with EC-SimToken;
7. optional \(\mathcal{L}_{cond}\) attention supervision。
## 15. 预期论文叙事
### 15.1 正常叙事:H3 成立时
若 multi-expression audit、multi-expression training、H3 CosSim 和 \(\widehat{AC}_{tube}\) 均支持 H3,建议论文主线写成:
> Existing Ref-AVS methods often compress multimodal evidence into a global semantic token, implicitly coupling existence judgment, instance grounding, and frame-level segmentation. We find that this implicit coupling becomes fragile in samples requiring instance-level comparison, temporal coverage, explicit null reasoning, or expression-dependent temporal evidence. We therefore formulate Ref-AVS as text-audio conditioned object-tube retrieval followed by mask refinement. Based on this view, we propose TubeToken, which constructs candidate object tubes, summarizes each tube with expression-conditioned temporal evidence, selects the referred tube through multimodal reasoning, handles Null cases via a learnable null tube, and refines the selected tube with SAM.
Introduction 中建议加入数据驱动的动机,例如:
- SimToken 在 same-category distractor subset 上下降多少;
- SimToken 在 late-target subset 上下降多少;
- 去掉 audio 后 audio-critical subset 上下降多少;
- Null false positive 是否集中在某类样本;
- fixed Q-Former 与 conditioned Q-Former 在 H3 subset 上的 CosSim 差异。
这能把叙事从“我们认为 global token 不好”升级为“我们用诊断数据证明 global token 有系统性弱点”。
### 15.2 回退叙事:H3 不强时
若数据集中 multi-expression 不足,或 conditioned Q-Former 的 H3 CosSim / \(\widehat{AC}_{tube}\) 证据不足,避免强称 “expression-conditioned evidence summarization”。建议改为:
> We formulate Ref-AVS as proposal-conditioned instance grounding with explicit null reasoning. TubeToken improves robustness by decomposing global segmentation into candidate object tube construction, learned tube selection, null-aware existence modeling, and optional mask refinement.
此时论文主贡献应改为:
1. candidate object tube formulation;
2. explicit null tube / existence modeling;
3. fairness-controlled comparison with SimToken + SAM2 proposals and matched compute;
4. diagnostic error decomposition;
5. optional learned compression rather than strong conditioning claim。
## 16. 最小可接受结论标准
若最终结果满足以下条件,可以支撑一篇完整论文:
1. SimToken 复现可信,且所有关键比较基于 reproduced SimToken;
2. Recall@32 或 Recall@64 足够高,且 Oracle Tube J/F 明确高于 reproduced SimToken,证明 proposal 不是不可接受的瓶颈;
3. Oracle Refined J/F 使用 bbox-only prompt,且明确高于 Oracle Tube J/F,证明 refinement 有可达收益;
4. TubeToken 在 Seen / Unseen / Mix 不低于 SimToken 超过 2 个点;若主集只持平,必须在 Null、late-target、same-category、audio-critical 子集上有显著提升,并提供效率-鲁棒性-可解释性三维论证;
5. TubeToken-Fast 在接近计算预算下优于 SimToken + matched compute(multiple keyframe prompting);
6. TubeToken-Minimal 优于 SimToken + SAM2 proposals,证明 tube selection 框架本身有效;
7. SAM2 proposals + learned reranker(no null tube)与 TubeToken-Minimal 的对比能解释 selector 与 null tube 的各自贡献;
8. fixed Q-Former 明显弱于 text+audio conditioned Q-Former;
9. 如果主张 H3,则必须满足:multi-expression audit 支持、multi-expression training 有效、Fixed Q-Former CosSim \(\equiv 1.0\) 而 conditioned CosSim 显著低于 1.0,且 \(\widehat{AC}_{tube}\) 有提升;
10. null tube 明显优于 mask-area threshold 和 binary existence head;
11. Null oversampling 没有导致 Positive FNR 或 GT Top-3 but Null Top-1 Rate 不可接受地上升;
12. error decomposition 能清楚说明主要失败来自 proposal miss、selection error、refinement error、Null FP/FN 还是 Null 校准;
13. efficiency 虽然可能更高,但 Fast/Balanced/Accuracy setting 显示计算-性能 trade-off 合理。
如果第 2 点不成立,应及时回退到 EC-SimToken 路线,避免在低 recall 的 TubeToken 上投入过多。如果第 9 点不成立,应保留 TubeToken 框架,但下调 CondQFormer / H3 的论文权重。
## 17. 最终执行建议
推荐按照以下顺序推进:
1. **先做 Phase -1:SimToken 复现 + multi-expression audit。**
这是所有 Go/No-Go 条件和 H3 叙事是否成立的前提。
2. **再做 Phase 0:proposal recall + bbox-only Oracle Tube / Refined J/F。**
这是 TubeToken 能否成立的硬前提,且 Oracle Refined J/F 必须与实际 refinement 设置一致。
3. **再做 Milestone 2 的 fairness controls。**
TubeToken-Minimal、SimToken + SAM2 proposals 零参数 reranking、SAM2 proposals + learned reranker(no null tube)、SimToken + matched compute(multiple keyframe prompting)必须同时完成。
4. **确认 tube 框架有效后再加入 CondQFormer。**
若 multi-expression 数据充足,必须同步加入 multi-expression training 与 H3 CosSim;若不足,则不要把 H3 写成主贡献。
5. **最后加入 refinement。**
refinement 是性能增强项,不应成为论文叙事的唯一支柱。若 bbox-only refinement 提升很小,应将其降为 optional module。
这一路径可以最大程度降低风险:如果 proposal recall 或 oracle upper bound 不理想,可以及时切回 EC-SimToken;如果 TubeToken-Minimal 已经显示出明显优势,再继续投入完整 TubeToken 是合理的;如果 H3 验证不足,可以保留 tube-level retrieval 贡献,同时修改 CondQFormer 的叙事。
---
## Appendix A. Reviewer 建议落地检查表
| Reviewer 建议 | v3 落地位置 | 状态 |
|---|---|---|
| 增加 H3 直接验证,不能只用 AC | 1.2, 3.2.6, 8.1.1, 10.5, 12 | 已落实 |
| 检查数据集 multi-expression 结构 | 3.1, 3.1.1, Phase -1 | 已落实 |
| CondQFormer 显式利用 multi-expression training | 6.3, 12 Milestone 3 | 已落实 |
| Go/No-Go 使用 reproduced SimToken,而非不明来源数字 | 4.0, 4.4, 12 | 已落实 |
| Oracle Refined J/F 使用 bbox-only prompt,不用 GT mask | 4.2.1, 4.3, 10.2 | 已落实 |
| SimToken + SAM2 proposals 使用零参数 reranking | 5.3.1 | 已落实 |
| 增加 SAM2 proposals + learned reranker(no null tube) | 5.1, 5.2, 5.3.2, 10.1, 10.3, 12 | 已落实 |
| 删除或定义悬空的 \(\mathcal{L}_{cond}\) | 6.2, 6.2.1 | 已落实 |
| 明确 Null oversampling 比例 | 6.4, 14 | 已落实 |
| 增加 GT Top-3 but Null Top-1 错误类型 | 7.2, 7.3, 10.4 | 已落实 |
| 使用标准化 \(\widehat{AC}_{tube}\) | 7.2, 8.1.2, 10.5 | 已落实 |
| 增加 audio amplitude zeroed 控制实验 | 8.2, 14 | 已落实 |
| 修正 Error decomposition 表 Late-target 缺列 | 10.4 | 已落实 |
| Main table 加入 TubeToken-Minimal | 10.1 | 已落实 |
| 写入各 Milestone 绿灯 / 黄灯 / 红灯条件 | 12 | 已落实 |
| 增加叙事回退方案 | 15.2, 16, 17 | 已落实 |
| 固定 SimToken + matched compute 的唯一实现 | 5.3.3, 9.3, 10.2, 12 | v4 已落实 |
| 修正 Phase 0 第三条红灯条件为可观测量 | 4.4.3, 12 Milestone 1 | v4 已落实 |
| Fixed Q-Former CosSim baseline 精确为 1.0 | 1.2, 8.1.1, 10.6, 16 | v4 已落实 |
| 增加 multi-expression training 梯度冲突风险 | 6.3, 13 | v4 已落实 |
| 主表精简,公平性控制移入独立表 | 10.1, 10.2 | v4 已落实 |
| 增加多 expression proposal amortization efficiency | 9.1, 9.4 | v4 已落实 |
| Selection Acc@3 排除 null tube | 7.2 | v4 已落实 |
| Error decomposition 使用互斥优先级 | 7.3 | v4 已落实 |
| Phase -1 Go/No-Go 明确 SimToken 复现与 H3 audit 分支 | 12 Phase -1 | v4 已落实 |
|