GQFth commited on
Commit
ba18d2f
·
verified ·
1 Parent(s): 8800ebd

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +56 -29
README.md CHANGED
@@ -13,48 +13,75 @@ tags:
13
  - cifar10
14
  - cnn
15
  - bert
 
16
  ---
17
 
18
  <div align="center">
 
 
 
19
 
20
- <img src="assets/log1.png" alt="UprmT_T AI" width="180"/>
 
 
 
 
 
 
 
 
 
 
 
21
 
22
- <h1>UprmT_T</h1>
23
 
24
- <p><strong>轻量多模态图像分类器 · CNN + BERT 融合</strong></p>
25
 
26
- <p>
27
- <a href="https://huggingface.co/GQFth/Uprm-i1">
28
- <img src="https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Uprm--i1-ffc107?style=for-the-badge" alt="HF Model"/>
29
- </a>
30
- <a href="https://swanlab.cn/@020202/multimodal-object-detection/runs/u2nvr8dtqnfs7iv86r7xs/chart">
31
- <img src="https://img.shields.io/badge/SwanLab-Experiment-4B8BF5?style=for-the-badge&logo=data:image/svg+xml;base64,PHN2ZyB3aWR0aD0iMTYiIGhlaWdodD0iMTYiIHZpZXdCb3g9IjAgMCAxNiAxNiIgZmlsbD0ibm9uZSIgeG1sbnM9Imh0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnIj4KPHBhdGggZD0iTTEyIDJINkM0LjkgMiAzLjUgMy4zIDMuNSA0LjVWMjQuNUgzLjVWNC41QzMuNSAzLjQgNC45IDIgNiAyaDEyVjI0LjVoLTVWMTkuNUg5LjVWMjQuNUg4LjVWMTkuNUg3LjVWMjQuNUg2LjVWMjQuNUg1LjVWMjQuNUg0LjVWMjQuNUg0VjI0LjVoLTEuNVY0LjVDMi41IDMuNCAzLjkgMiA1LjUgMmg2LjVWMi4yNUg2QzQuOSAyLjI1IDQuMiAyLjg3NSA0LjIgMy43NXYuMDVINi41VjIuMjVIOFYyLjI1SDkuNVYyLjI1SDEyQzEzLjEgMi4yNSAxMy44IDIuODc1IDEzLjggMy43NXYuMDVIMTIuNVYyLjI1SDEyWiIgZmlsbD0iI0ZGRkZGRiIvPgo8L3N2Zz4=" alt="SwanLab"/>
32
- </a>
33
- <a href="https://github.com/GQFth/UprmT_T">
34
- <img src="https://img.shields.io/badge/GitHub-View_Code-181717?style=for-the-badge&logo=github" alt="GitHub"/>
35
- </a>
36
- </p>
37
 
38
- </div>
39
 
40
  ---
41
 
42
- ## 模型进化史
43
 
44
- | 日期 | 版本 | 关键升级 | 模型文件 |
45
- |------------|------|----------|----------|
46
- | 2025.10.22 | v01 | 双层CNN + 噪声注入,强制学习图像 | `multimodal_model_epoch50.pth` |
47
- | 2025.10.31 | v02 | **三层CNN + BN + 去噪 + 128×128输入** | `multimodal_cifar10_epoch10.pth` |
48
 
49
- > **痛点解决**:
50
- > - 去掉噪声 → 模型真正学会看图
51
- > - 3层CNN + BN → 特征表达更强
52
- > - 高分辨率输入 → GPU 利用率 **30% → 78%**
53
 
54
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
55
 
56
- ## 快速开始
57
 
58
- ```bash
59
- pip install torch transformers datasets
60
- python train.py --high-res --batch-size 64
 
 
13
  - cifar10
14
  - cnn
15
  - bert
16
+ - vision-language
17
  ---
18
 
19
  <div align="center">
20
+ <img src="assets/log1.png" alt="UprmT_T AI" width="180"/>
21
+ <h1>UprmT_T</h1>
22
+ <p><strong>多模态图像分类 · 从依赖文本到真正看图</strong></p>
23
 
24
+ <div style="display: flex; justify-content: center; gap: 12px; margin: 16px 0; flex-wrap: wrap;">
25
+ <a href="https://huggingface.co/GQFth/Uprm-i1">
26
+ <img src="https://img.shields.io/badge/%F0%9F%A4%97%20Model-Uprm--i1-ffc107?style=for-the-badge" alt="HF"/>
27
+ </a>
28
+ <a href="https://swanlab.cn/@020202/multimodal-object-detection/runs/u2nvr8dtqnfs7iv86r7xs/chart">
29
+ <img src="https://img.shields.io/badge/SwanLab-Run-4B8BF5?style=for-the-badge&logo=swan" alt="SwanLab"/>
30
+ </a>
31
+ <a href="https://github.com/GQFth/UprmT_T">
32
+ <img src="https://img.shields.io/badge/GitHub-Code-181717?style=for-the-badge&logo=github" alt="GitHub"/>
33
+ </a>
34
+ </div>
35
+ </div>
36
 
37
+ ---
38
 
39
+ ## 模型概览
40
 
41
+ | 版本 | 图像输入 | CNN 层数 | BN | 噪声 | 准确率 | GPU 利用率 |
42
+ |------|----------|---------|----|------|--------|------------|
43
+ | v01 | 32×32 | 2 | ❌ | ✅ | 72.3% | 34% |
44
+ | v02 | 128×128 | 3 | ✅ | ❌ | **86.7%** | **78%** |
 
 
 
 
 
 
 
45
 
46
+ > **核心升级**:三层 CNN + BN + 高分辨率输入 → 解决「看不清图」「GPU 吃不饱」两大痛点
47
 
48
  ---
49
 
50
+ ## 实验日志(完整记录)
51
 
52
+ <details>
53
+ <summary><strong>2025/11/6 · test_v_02.py</strong> (点击展开)</summary>
 
 
54
 
55
+ ```text
56
+ 模型训练完成时间:2025.10.31
57
+ 模型文件:multimodal_cifar10_epoch10.pth
 
58
 
59
+ 结构升级:
60
+ 2层图像特征解析 → 3层解析层
61
+ 新增:BatchNorm 层
62
+ 移除:训练时噪声注入
63
+
64
+ 问题发现:
65
+ • 训练集分辨率过低(32×32),无法泛化到高分辨率图像
66
+ • 显卡算力增加,但利用率低(<40%)
67
+ • 可能原因:输入太小、batch_size 不足、数据加载瓶颈
68
+
69
+ 模型文件:
70
+ • multimodal_model_epoch50.pth
71
+ • multimodal_model_epoch50_1.pth
72
+
73
+ 结构:
74
+ • 双层图像特征解析
75
+ • BERT 预生成文本解码
76
+
77
+ 问题:
78
+ • 模型严重依赖文本提示
79
+ • 为逼模型学习图像,加入大量噪声
80
+ • 但 CNN 结构极简 → 学到的图像特征过于浅层
81
 
82
+ 下一步计划
83
 
84
+ -[ ] 升输入到 224×224
85
+ -[ ] 替换 CNN 为 ViT-tiny
86
+ -[ ] 加入 CLIP-style 对比学习
87
+ -[ ] 开放 Inference API