File size: 1,240 Bytes

---
license: apache-2.0
library_name: peft
base_model: Qwen/Qwen2.5-1.5B-Instruct
tags:
  - vision-language
  - multimodal
  - llava
  - qlora
---

# Mini-LLaVA v4 — weights

처음부터 조립한 멀티모달 LLM (`vlm-from-scratch-v4`) 의 학습된 가중치.

- **구조**: CLIP-ViT-B/32 (frozen) + 2-layer MLP Projector + Qwen2.5-1.5B-Instruct + LoRA
- **학습**: QLoRA 4-bit NF4 · Stage 1 정렬 → Stage 2 instruction 46K (영문 + 한국어 균형 믹스) · RTX 4060 8GB
- **평가**: raw 모델 기준 VQAv2 56.8% / POPE 71.8% (n=400, wrapper 없음). 8GB GPU·약 9만 샘플로 학습한 소형 모델이라 절대 성능은 공개 VLM 에 못 미칩니다 — 자세한 내용은 GitHub README.

## 파일

| 파일 | 설명 |
|---|---|
| `projector.pt` | MultiModalProjector (CLIP 768 → LLM 1536) state_dict |
| `lora_adapter/` | Qwen2.5-1.5B 전 linear layer LoRA 어댑터 (r=16) |

`<image>` 토큰으로 Qwen2.5 내장 `<|image_pad|>` 를 재사용하므로 adapter 에
embedding 군더더기가 없다 (70 MB 전부 LoRA).

## 사용

추론 코드는 [github.com/AD-Styles/vlm-from-scratch-v4](https://github.com/AD-Styles/vlm-from-scratch-v4)
의 `src/` 참고. 데모: HF Space `AD-Styles/mini-llava-v4-demo`.