AD-Styles
/

mini-llava-v4

vision-language

Model card Files Files and versions

mini-llava-v4 / README.md

AD-Styles's picture

Tone down model card wording

e68a22a verified 18 days ago

|

history blame contribute delete

1.24 kB

	---
	license: apache-2.0
	library_name: peft
	base_model: Qwen/Qwen2.5-1.5B-Instruct
	tags:
	- vision-language
	- multimodal
	- llava
	- qlora
	---

	# Mini-LLaVA v4 — weights

	처음부터 조립한 멀티모달 LLM (`vlm-from-scratch-v4`) 의 학습된 가중치.

	- 구조: CLIP-ViT-B/32 (frozen) + 2-layer MLP Projector + Qwen2.5-1.5B-Instruct + LoRA
	- 학습: QLoRA 4-bit NF4 · Stage 1 정렬 → Stage 2 instruction 46K (영문 + 한국어 균형 믹스) · RTX 4060 8GB
	- 평가: raw 모델 기준 VQAv2 56.8% / POPE 71.8% (n=400, wrapper 없음). 8GB GPU·약 9만 샘플로 학습한 소형 모델이라 절대 성능은 공개 VLM 에 못 미칩니다 — 자세한 내용은 GitHub README.

	## 파일

	\| 파일 \| 설명 \|
	\|---\|---\|
	\| `projector.pt` \| MultiModalProjector (CLIP 768 → LLM 1536) state_dict \|
	\| `lora_adapter/` \| Qwen2.5-1.5B 전 linear layer LoRA 어댑터 (r=16) \|

	`<image>` 토큰으로 Qwen2.5 내장 `<\|image_pad\|>` 를 재사용하므로 adapter 에
	embedding 군더더기가 없다 (70 MB 전부 LoRA).

	## 사용

	추론 코드는 [github.com/AD-Styles/vlm-from-scratch-v4](https://github.com/AD-Styles/vlm-from-scratch-v4)
	의 `src/` 참고. 데모: HF Space `AD-Styles/mini-llava-v4-demo`.