--- license: mit datasets: - uoft-cs/cifar10 language: - zh - en metrics: - accuracy pipeline_tag: image-classification tags: - multimodal - cifar10 - cnn - bert - vision-language ---

UprmT_T

多模态图像分类 · 从依赖文本到真正看图

--- ## 模型概览 | 版本 | 图像输入 | CNN 层数 | BN | 噪声 | 准确率 | GPU 利用率 | |------|----------|---------|----|------|--------|------------| | v01 | 32×32 | 2 | ❌ | ✅ | 72.3% | 34% | | v02 | 128×128 | 3 | ✅ | ❌ | **86.7%** | **78%** | > **核心升级**：三层 CNN + BN + 高分辨率输入 → 解决「看不清图」「GPU 吃不饱」两大痛点 --- ## 实验日志（完整记录）

2025/11/6 · test_v_02.py （点击展开）

```text 模型训练完成时间：2025.10.31 模型文件：multimodal_cifar10_epoch10.pth 结构升级： 2层图像特征解析 → 3层解析层新增：BatchNorm 层移除：训练时噪声注入问题发现： • 训练集分辨率过低（32×32），无法泛化到高分辨率图像 • 显卡算力增加，但利用率低（<40%） • 可能原因：输入太小、batch_size 不足、数据加载瓶颈模型文件： • multimodal_model_epoch50.pth • multimodal_model_epoch50_1.pth 结构： • 双层图像特征解析 • BERT 预生成文本解码问题： • 模型严重依赖文本提示 • 为逼模型学习图像，加入大量噪声 • 但 CNN 结构极简 → 学到的图像特征过于浅层下一步计划 -[ ] 升输入到 224×224 -[ ] 替换 CNN 为 ViT-tiny -[ ] 加入 CLIP-style 对比学习 -[ ] 开放 Inference API