AD-Styles
/

mini-llava-v4

vision-language

Model card Files Files and versions

AD-Styles commited on 24 days ago

Commit

f0023ba

·

verified ·

1 Parent(s): 869d2fd

Add v4 model card

Files changed (1) hide show

README.md +33 -0

README.md ADDED Viewed

	@@ -0,0 +1,33 @@

+---
+license: apache-2.0
+library_name: peft
+base_model: Qwen/Qwen2.5-1.5B-Instruct
+tags:
+  - vision-language
+  - multimodal
+  - llava
+  - qlora
+---
+# Mini-LLaVA v4 — weights
+처음부터 조립한 멀티모달 LLM (`vlm-from-scratch-v4`) 의 학습된 가중치.
+- **구조**: CLIP-ViT-B/32 (frozen) + 2-layer MLP Projector + Qwen2.5-1.5B-Instruct + LoRA
+- **학습**: QLoRA 4-bit NF4 · Stage 1 정렬 40K → Stage 2 instruction 40K · RTX 4060 8GB
+- **평가**: 배포 게이트 5/5 통과 — VQAv2 57.6% · POPE 69.0% (n=400, raw 모델)
+## 파일
+| 파일 | 설명 |
+|---|---|
+| `projector.pt` | MultiModalProjector (CLIP 768 → LLM 1536) state_dict |
+| `lora_adapter/` | Qwen2.5-1.5B 전 linear layer LoRA 어댑터 (r=16) |
+`<image>` 토큰으로 Qwen2.5 내장 `<|image_pad|>` 를 재사용하므로 adapter 에
+embedding 군더더기가 없다 (70 MB 전부 LoRA).
+## 사용
+추론 코드는 [github.com/AD-Styles/vlm-from-scratch-v4](https://github.com/AD-Styles/vlm-from-scratch-v4)
+의 `src/` 참고. 데모: HF Space `AD-Styles/mini-llava-v4-demo`.