--- license: mit datasets: - uoft-cs/cifar10 language: - zh - en metrics: - accuracy pipeline_tag: image-classification tags: - multimodal - cifar10 - cnn - bert - vision-language ---
UprmT_T AI

UprmT_T

多模态图像分类 · 从依赖文本到真正看图

HF SwanLab GitHub
--- ## 模型概览 | 版本 | 图像输入 | CNN 层数 | BN | 噪声 | 准确率 | GPU 利用率 | |------|----------|---------|----|------|--------|------------| | v01 | 32×32 | 2 | ❌ | ✅ | 72.3% | 34% | | v02 | 128×128 | 3 | ✅ | ❌ | **86.7%** | **78%** | > **核心升级**:三层 CNN + BN + 高分辨率输入 → 解决「看不清图」「GPU 吃不饱」两大痛点 --- ## 实验日志(完整记录)
2025/11/6 · test_v_02.py (点击展开) ```text 模型训练完成时间:2025.10.31 模型文件:multimodal_cifar10_epoch10.pth 结构升级: 2层图像特征解析 → 3层解析层 新增:BatchNorm 层 移除:训练时噪声注入 问题发现: • 训练集分辨率过低(32×32),无法泛化到高分辨率图像 • 显卡算力增加,但利用率低(<40%) • 可能原因:输入太小、batch_size 不足、数据加载瓶颈 模型文件: • multimodal_model_epoch50.pth • multimodal_model_epoch50_1.pth 结构: • 双层图像特征解析 • BERT 预生成文本解码 问题: • 模型严重依赖文本提示 • 为逼模型学习图像,加入大量噪声 • 但 CNN 结构极简 → 学到的图像特征过于浅层 下一步计划 -[ ] 升输入到 224×224 -[ ] 替换 CNN 为 ViT-tiny -[ ] 加入 CLIP-style 对比学习 -[ ] 开放 Inference API