--- license: apache-2.0 library_name: peft base_model: Qwen/Qwen2.5-1.5B-Instruct tags: - vision-language - multimodal - llava - qlora --- # Mini-LLaVA v4 — weights 처음부터 조립한 멀티모달 LLM (`vlm-from-scratch-v4`) 의 학습된 가중치. - **구조**: CLIP-ViT-B/32 (frozen) + 2-layer MLP Projector + Qwen2.5-1.5B-Instruct + LoRA - **학습**: QLoRA 4-bit NF4 · Stage 1 정렬 → Stage 2 instruction 46K (영문 + 한국어 균형 믹스) · RTX 4060 8GB - **평가**: raw 모델 기준 VQAv2 56.8% / POPE 71.8% (n=400, wrapper 없음). 8GB GPU·약 9만 샘플로 학습한 소형 모델이라 절대 성능은 공개 VLM 에 못 미칩니다 — 자세한 내용은 GitHub README. ## 파일 | 파일 | 설명 | |---|---| | `projector.pt` | MultiModalProjector (CLIP 768 → LLM 1536) state_dict | | `lora_adapter/` | Qwen2.5-1.5B 전 linear layer LoRA 어댑터 (r=16) | `` 토큰으로 Qwen2.5 내장 `<|image_pad|>` 를 재사용하므로 adapter 에 embedding 군더더기가 없다 (70 MB 전부 LoRA). ## 사용 추론 코드는 [github.com/AD-Styles/vlm-from-scratch-v4](https://github.com/AD-Styles/vlm-from-scratch-v4) 의 `src/` 참고. 데모: HF Space `AD-Styles/mini-llava-v4-demo`.