多模态大模型数据大盘
Data Volume Overview: Pre-training & Post-training
⚡ 预训练阶段 (Pre-training)
🖼️ T2I (Text-to-Image)
~ 812M+
华山落盘数据:800M
含 240M Qwen3vl4b 重打标 Dense 数据
平均387 tokens
,其余为短标注
Banana 蒸馏数据:2.2M
Gemini标注
自收集开源数据:10M
高质量美学图片
🎵 T2A (Text-to-Audio)
56,300 Hours+
Audio 数据:6,300 小时
(约 2.3M)
Speech 数据:50,000 小时
(约 33M)
自收集开源数据
(补充来源)
🎬 T2V (Text-to-Video)
~ 100M+
>480p
时长 3~10s
华山数据:100M
含 22M 数据经 Gemini 重打标注
Seedance 蒸馏:350K
🎞️ T2AV (Text-to-Audio-Video)
2M
🎯 后训练阶段 (Post-training)
✨ I2I (Image-to-Image)
5M
Nano Banana 蒸馏数据:5M
1K 分辨率
📽️ I2V (Image-to-Video)
5M
精选图生视频数据:5M
🎮 交互数据 (Interactive)
1M
游戏交互控制数据:1M
🔧 构造链路:
YouTube游戏视频
➔
VGGt估计姿态
➔
提取控制信号