Mini-LLaVA v4 — weights

처음부터 조립한 멀티모달 LLM (vlm-from-scratch-v4) 의 학습된 가중치.

구조: CLIP-ViT-B/32 (frozen) + 2-layer MLP Projector + Qwen2.5-1.5B-Instruct + LoRA
학습: QLoRA 4-bit NF4 · Stage 1 정렬 → Stage 2 instruction 46K (영문 + 한국어 균형 믹스) · RTX 4060 8GB
평가: raw 모델 기준 VQAv2 56.8% / POPE 71.8% (n=400, wrapper 없음). 8GB GPU·약 9만 샘플로 학습한 소형 모델이라 절대 성능은 공개 VLM 에 못 미칩니다 — 자세한 내용은 GitHub README.

파일

파일	설명
`projector.pt`	MultiModalProjector (CLIP 768 → LLM 1536) state_dict
`lora_adapter/`	Qwen2.5-1.5B 전 linear layer LoRA 어댑터 (r=16)

<image> 토큰으로 Qwen2.5 내장 <|image_pad|> 를 재사용하므로 adapter 에 embedding 군더더기가 없다 (70 MB 전부 LoRA).

추론 코드는 github.com/AD-Styles/vlm-from-scratch-v4 의 src/ 참고. 데모: HF Space AD-Styles/mini-llava-v4-demo.

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Base model

Finetuned

Adapter

this model