多模态大模型数据大盘

Data Volume Overview: Pre-training & Post-training
⚡ 预训练阶段 (Pre-training)
🖼️ T2I (Text-to-Image)
~ 812M+
  • 华山落盘数据:800M
    含 240M Qwen3vl4b 重打标 Dense 数据 平均387 tokens,其余为短标注
  • Banana 蒸馏数据:2.2M Gemini标注
  • 自收集开源数据:10M 高质量美学图片
🎵 T2A (Text-to-Audio)
56,300 Hours+
  • Audio 数据:6,300 小时 (约 2.3M)
  • Speech 数据:50,000 小时 (约 33M)
  • 自收集开源数据 (补充来源)
🎬 T2V (Text-to-Video)
~ 100M+
>480p 时长 3~10s
  • 华山数据:100M
    含 22M 数据经 Gemini 重打标注
  • Seedance 蒸馏:350K
🎞️ T2AV (Text-to-Audio-Video)
2M
🎯 后训练阶段 (Post-training)
✨ I2I (Image-to-Image)
5M
  • Nano Banana 蒸馏数据:5M 1K 分辨率
📽️ I2V (Image-to-Video)
5M
  • 精选图生视频数据:5M
🎮 交互数据 (Interactive)
1M
  • 游戏交互控制数据:1M
🔧 构造链路:
YouTube游戏视频 VGGt估计姿态 提取控制信号