Instructions to use AD-Styles/mini-llava-v4 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- PEFT
How to use AD-Styles/mini-llava-v4 with PEFT:
Task type is invalid.
- Notebooks
- Google Colab
- Kaggle
Add v4 model card
Browse files
README.md
ADDED
|
@@ -0,0 +1,33 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
license: apache-2.0
|
| 3 |
+
library_name: peft
|
| 4 |
+
base_model: Qwen/Qwen2.5-1.5B-Instruct
|
| 5 |
+
tags:
|
| 6 |
+
- vision-language
|
| 7 |
+
- multimodal
|
| 8 |
+
- llava
|
| 9 |
+
- qlora
|
| 10 |
+
---
|
| 11 |
+
|
| 12 |
+
# Mini-LLaVA v4 — weights
|
| 13 |
+
|
| 14 |
+
처음부터 조립한 멀티모달 LLM (`vlm-from-scratch-v4`) 의 학습된 가중치.
|
| 15 |
+
|
| 16 |
+
- **구조**: CLIP-ViT-B/32 (frozen) + 2-layer MLP Projector + Qwen2.5-1.5B-Instruct + LoRA
|
| 17 |
+
- **학습**: QLoRA 4-bit NF4 · Stage 1 정렬 40K → Stage 2 instruction 40K · RTX 4060 8GB
|
| 18 |
+
- **평가**: 배포 게이트 5/5 통과 — VQAv2 57.6% · POPE 69.0% (n=400, raw 모델)
|
| 19 |
+
|
| 20 |
+
## 파일
|
| 21 |
+
|
| 22 |
+
| 파일 | 설명 |
|
| 23 |
+
|---|---|
|
| 24 |
+
| `projector.pt` | MultiModalProjector (CLIP 768 → LLM 1536) state_dict |
|
| 25 |
+
| `lora_adapter/` | Qwen2.5-1.5B 전 linear layer LoRA 어댑터 (r=16) |
|
| 26 |
+
|
| 27 |
+
`<image>` 토큰으로 Qwen2.5 내장 `<|image_pad|>` 를 재사용하므로 adapter 에
|
| 28 |
+
embedding 군더더기가 없다 (70 MB 전부 LoRA).
|
| 29 |
+
|
| 30 |
+
## 사용
|
| 31 |
+
|
| 32 |
+
추론 코드는 [github.com/AD-Styles/vlm-from-scratch-v4](https://github.com/AD-Styles/vlm-from-scratch-v4)
|
| 33 |
+
의 `src/` 참고. 데모: HF Space `AD-Styles/mini-llava-v4-demo`.
|