AD-Styles commited on
Commit
f0023ba
·
verified ·
1 Parent(s): 869d2fd

Add v4 model card

Browse files
Files changed (1) hide show
  1. README.md +33 -0
README.md ADDED
@@ -0,0 +1,33 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ library_name: peft
4
+ base_model: Qwen/Qwen2.5-1.5B-Instruct
5
+ tags:
6
+ - vision-language
7
+ - multimodal
8
+ - llava
9
+ - qlora
10
+ ---
11
+
12
+ # Mini-LLaVA v4 — weights
13
+
14
+ 처음부터 조립한 멀티모달 LLM (`vlm-from-scratch-v4`) 의 학습된 가중치.
15
+
16
+ - **구조**: CLIP-ViT-B/32 (frozen) + 2-layer MLP Projector + Qwen2.5-1.5B-Instruct + LoRA
17
+ - **학습**: QLoRA 4-bit NF4 · Stage 1 정렬 40K → Stage 2 instruction 40K · RTX 4060 8GB
18
+ - **평가**: 배포 게이트 5/5 통과 — VQAv2 57.6% · POPE 69.0% (n=400, raw 모델)
19
+
20
+ ## 파일
21
+
22
+ | 파일 | 설명 |
23
+ |---|---|
24
+ | `projector.pt` | MultiModalProjector (CLIP 768 → LLM 1536) state_dict |
25
+ | `lora_adapter/` | Qwen2.5-1.5B 전 linear layer LoRA 어댑터 (r=16) |
26
+
27
+ `<image>` 토큰으로 Qwen2.5 내장 `<|image_pad|>` 를 재사용하므로 adapter 에
28
+ embedding 군더더기가 없다 (70 MB 전부 LoRA).
29
+
30
+ ## 사용
31
+
32
+ 추론 코드는 [github.com/AD-Styles/vlm-from-scratch-v4](https://github.com/AD-Styles/vlm-from-scratch-v4)
33
+ 의 `src/` 참고. 데모: HF Space `AD-Styles/mini-llava-v4-demo`.