Upload README.md with huggingface_hub

a869dac verified 20 days ago

4.93 kB

	---
	license: mit
	language:
	- en
	- ko
	library_name: peft
	tags:
	- vision-language-model
	- multimodal
	- lora
	- llava
	- mini-llava
	- vlm
	base_model:
	- Qwen/Qwen2.5-0.5B-Instruct
	- openai/clip-vit-base-patch32
	pipeline_tag: image-to-text
	---

	# Mini-LLaVA — Stage 2 LoRA Weights

	LLaVA-1.5 의 핵심 아키텍처를 처음부터 직접 구현한 멀티모달 LLM 의 학습된 가중치.
	HuggingFace 의 `LlavaForConditionalGeneration` 같은 고수준 추상화 미사용, 융합 로직 직접 구현.

	🚀 Live Demo: https://huggingface.co/spaces/AD-Styles/mini-llava-demo (설치 없이 즉시 체험)
	📂 코드 레포: https://github.com/AD-Styles/vlm-from-scratch
	📝 상세 분석 (v1→v2 회고록 포함): [GitHub README](https://github.com/AD-Styles/vlm-from-scratch#readme)
	📊 Test A/B/C 결과 표: [GitHub README #-results](https://github.com/AD-Styles/vlm-from-scratch#-results)

	## 🧩 구성

	\| 파일 \| 크기 \| 역할 \|
	\|------\|------\|------\|
	\| `projector.pt` \| 5.7 MB \| CLIP-ViT-B/32 → Qwen2.5 임베딩 공간 매핑 (2-layer MLP) \|
	\| `lora_adapter/adapter_config.json` \| 1 KB \| PEFT LoRA 설정 \|
	\| `lora_adapter/adapter_model.safetensors` \| ~1 GB \| LoRA r=16 가중치 + embed_tokens / lm_head (학습 시 변경분 포함) \|

	> 왜 1GB? PEFT 가 `<image>` 특수 토큰 추가로 인한 embedding resize 를 감지해 `embed_tokens` / `lm_head` 를 함께 저장. 이를 단순 분리 시도했으나 (코드 레포 [scripts/extract_lora.py](https://github.com/AD-Styles/vlm-from-scratch/blob/main/scripts/extract_lora.py)), 5문항 중 3문항이 완전히 다른 응답으로 변하면서 embed_tokens 가 학습된 상태의 일부임을 실험으로 확인. 따라서 원본 1GB 그대로 배포.

	## 🚀 사용법

	```bash
	# 1. 코드 + 환경 준비
	git clone https://github.com/AD-Styles/vlm-from-scratch
	cd vlm-from-scratch
	pip install --upgrade "torch>=2.6.0" "torchvision>=0.21.0" --index-url https://download.pytorch.org/whl/cu124
	pip install -r requirements.txt

	# 2. 이 레포에서 가중치 다운로드 (~1 GB)
	huggingface-cli download AD-Styles/mini-llava-stage2 --local-dir checkpoints/v2_stage2_lora

	# 3. Gradio 데모 실행
	python app.py \
	--checkpoint checkpoints/v2_stage2_lora/projector.pt \
	--lora-adapter checkpoints/v2_stage2_lora/lora_adapter
	```

	브라우저에서 `http://localhost:7860` 접속 → 이미지 업로드 → 자연어 질문.

	## 📊 학습 설정

	\| 항목 \| 값 \|
	\|------\|-----\|
	\| Base 모델 \| `openai/clip-vit-base-patch32` (frozen) + `Qwen/Qwen2.5-0.5B-Instruct` (frozen + LoRA) \|
	\| 데이터 \| `HuggingFaceM4/the_cauldron` 3-config 믹스 (localized_narratives + aokvqa + vqav2), 9,000 샘플 \|
	\| LoRA \| rank=16, alpha=32, target=q/k/v/o projection \|
	\| Epochs \| 2 \|
	\| Batch size \| 2 (grad_accum=4 → effective 8) \|
	\| Learning rate \| 2e-4 (cosine) \|
	\| GPU \| NVIDIA RTX 4060 Laptop (8GB VRAM) \|
	\| 학습 시간 \| 47 분 \|
	\| 학습 가능 파라미터 \| 3,655,424 (전체의 0.66%) \|
	\| Init \| v1 baseline projector 이어 학습 (Stage 1 → Stage 2) \|

	## ✅ 검증 결과 (영문 VQA, 강아지 사진)

	\| 질문 \| 응답 \| 정확도 \|
	\|------\|------\|--------\|
	\| What is in this image? \| "Dog." \| ✅ \|
	\| What color is the dog? \| "White." \| ✅ \|
	\| Is the dog wearing anything on its head? \| "Yes." \| ✅ \|
	\| What is on the dog's head? \| "Hat." \| ✅ \|
	\| Describe this image in one sentence. \| "...cat on the floor." \| ⚠️ (헬로키티 모자 영향) \|

	Test A: 4/5 정확, instruction format 자동 매칭 성공.

	## ⚠️ 한계 (정직한 명시)

	- 한국어: LoRA의 catastrophic forgetting — 학습 데이터 100% 영어. "이 강아지는 머리에 무엇을 쓰고 있나요?" → "개." (영어 단답 편향이 한국어 표현으로 잘못 변환)
	- OOD (만화/애니메이션): CLIP-ViT-B/32 표현 한계. 피카츄 → "Giraffe" (학습 분포 내 가장 가까운 동물로 매핑)
	- Hallucination: "모른다" 답변 못 함 (VLM 공통 문제)

	자세한 분석은 [GitHub README의 Test B/C 섹션](https://github.com/AD-Styles/vlm-from-scratch#-results) 참조.

	## 🔮 향후 개선 (v3 로드맵)

	1. 한국어 instruction 데이터 30%+ 추가 → catastrophic forgetting 해소
	2. CLIP-ViT-L/14 (576 patches) 업그레이드 → OOD 견고성 ↑
	3. OOD detection module → "모른다" 답변 학습
	4. vLLM / Triton Inference Server 통합 → 프로덕션 서빙

	## 📚 References

	- LLaVA-1.5 (Liu et al., 2023) — [arxiv:2310.03744](https://arxiv.org/abs/2310.03744)
	- CLIP (Radford et al., 2021) — [arxiv:2103.00020](https://arxiv.org/abs/2103.00020)
	- LoRA (Hu et al., 2022) — [arxiv:2106.09685](https://arxiv.org/abs/2106.09685)
	- the_cauldron (Laurençon et al., 2024) — [arxiv:2405.02246](https://arxiv.org/abs/2405.02246)

	## License

	MIT — 자유롭게 사용 / 수정 / 배포 가능.

	---

	🤖 김도윤 (AD-Styles) · 2026