Image-Text-to-Text
PEFT
Safetensors
English
Korean
vision-language
multimodal
clip
qwen2.5
lora
llava
korean
ood-detection
mini-llava
Instructions to use AD-Styles/mini-llava-v3 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- PEFT
How to use AD-Styles/mini-llava-v3 with PEFT:
Task type is invalid.
- Notebooks
- Google Colab
- Kaggle
docs: soften OOD claim, name slim as PEFT workaround, clarify VQA scope
Browse files
README.md
CHANGED
|
@@ -24,7 +24,7 @@ tags:
|
|
| 24 |
> v2 baseline ์์ **capability 2๊ฐ (KoreanยทOOD) ์ถ๊ฐ + deployment 1๊ฐ (Slim packaging) ์ต์ ํ**.
|
| 25 |
> CLIP-ViT-B/32 + MLP Projector + Qwen2.5-0.5B + LoRA(r=16) ๋ฅผ ์ง์ ๊ตฌํํ Vision-Language Model ์ ํ์ต ๊ฐ์ค์น.
|
| 26 |
>
|
| 27 |
-
> โ ๏ธ **ํฌ๊ธฐ โ ์ฑ๋ฅ ๋ช
์**: Slim adapter (8.28 MB) ๋ **๊ฐ์ ๋ชจ๋ธ, ๊ฐ์ ์ถ๋ ฅ** (greedy 7/7 ๋นํธ ์ผ์น). ๋ชจ๋ธ์ด ๋ ๋๋ํด์ง ๊ฒ์ด ์๋๋ผ ํจํค์ง๋ง ํจ์จํ. ์ง์ง capability ๊ฐ์ ์ Korean
|
| 28 |
|
| 29 |
## ๐ฆ ์ด ๋ ํฌ์ ๊ตฌ์ฑ (~14 MB total)
|
| 30 |
|
|
@@ -87,7 +87,7 @@ detector = OODDetector(threshold=0.5, device="cpu")
|
|
| 87 |
| ํญ๋ชฉ | v2 | **v3 (์ด ๋ ํฌ)** |
|
| 88 |
|---|---|---|
|
| 89 |
| ๋ค๊ตญ์ด ์๋ต | โ ์๋ฌธ only (catastrophic forgetting) | โ
**์๋ฌธ + ํ๊ตญ์ด** |
|
| 90 |
-
| OOD ์ ํธ | โ ๋ฌด์กฐ๊ฑด ๋ต๋ณ (hallucination) | โ
**"์ ๋ชจ๋ฅด๊ฒ ์" ๊ฐ
|
| 91 |
|
| 92 |
### ๐ต deployment ์ต์ ํ (์ฑ๋ฅ ๋ณํ 0, ๋ฐฐํฌ ํจ์จ๋ง)
|
| 93 |
|
|
@@ -100,7 +100,7 @@ detector = OODDetector(threshold=0.5, device="cpu")
|
|
| 100 |
### ๐ก ๋ณํ์ง ์์ ๊ฒ (์ ์งํ ๋ช
์)
|
| 101 |
|
| 102 |
- ์ด๋ฏธ์ง ์ดํด ์ ํ๋ โ 0.5B LLM ํ๊ณ๋ก v2/v3 ๋์ผ ์์ค (v4 LLM size up ์ผ๋ก ํด๊ฒฐ ์์ )
|
| 103 |
-
- ์๋ฌธ VQA โ v3 baseline 36.67%
|
| 104 |
|
| 105 |
## ๐ง ํ์ต ๋ฐ์ดํฐ (Step 1, 175๋ถ)
|
| 106 |
|
|
@@ -124,7 +124,7 @@ entropy_signal: H(LLM first-token logits) / 8.0 nats
|
|
| 124 |
|
| 125 |
๊ฒ์ฆ ๊ฒฐ๊ณผ (`scripts/test_ood_integration.py`): In-Dist (์ค์ ๊ฐ) 0.365 (โ
) ยท OOD (Pikachu ์นดํฐ) 0.505 (โ ๏ธ)
|
| 126 |
|
| 127 |
-
## ๐ชถ Slim Adapter โ
|
| 128 |
|
| 129 |
PEFT ํ์ค์ `modules_to_save` (embed_tokens + lm_head) ์ **ํต์งธ๋ก** ์ ์ฅ โ 1 GB.
|
| 130 |
ํ์ง๋ง ์ฌ์ ๋ถ์์ผ๋ก ๋ฐ๊ฒฌ:
|
|
@@ -138,6 +138,8 @@ saved embed_tokens vs base Qwen2.5:
|
|
| 138 |
โ `image_token_row.safetensors` (7 KB) ๋ง ๋ณ๋ ์ ์ฅํ๊ณ , ์ถ๋ก ์ base Qwen2.5 ์ ๋ง์ง๋ง row ๋ง patch.
|
| 139 |
โ **greedy decoding 7/7 ์๋ต ๋นํธ ๋จ์ ์ผ์น** (`scripts/verify_slim_adapter.py`).
|
| 140 |
|
|
|
|
|
|
|
| 141 |
## โ ๏ธ ํ๊ณ
|
| 142 |
|
| 143 |
- **0.5B LLM** โ ์ด๋ฏธ์ง ๋ด์ฉ ์ ํ๋๋ ์ฌ์ ํ ํ๊ณ (๊ฐ๋ฅผ ์๋ก ์ค์ธ ๋ฑ)
|
|
|
|
| 24 |
> v2 baseline ์์ **capability 2๊ฐ (KoreanยทOOD) ์ถ๊ฐ + deployment 1๊ฐ (Slim packaging) ์ต์ ํ**.
|
| 25 |
> CLIP-ViT-B/32 + MLP Projector + Qwen2.5-0.5B + LoRA(r=16) ๋ฅผ ์ง์ ๊ตฌํํ Vision-Language Model ์ ํ์ต ๊ฐ์ค์น.
|
| 26 |
>
|
| 27 |
+
> โ ๏ธ **ํฌ๊ธฐ โ ์ฑ๋ฅ ๋ช
์**: Slim adapter (8.28 MB) ๋ **๊ฐ์ ๋ชจ๋ธ, ๊ฐ์ ์ถ๋ ฅ** (greedy 7/7 ๋นํธ ์ผ์น). ๋ชจ๋ธ์ด ๋ ๋๋ํด์ง ๊ฒ์ด ์๋๋ผ ํจํค์ง๋ง ํจ์จํ. ์ง์ง capability ๊ฐ์ ์ Korean (ํ๊ตญ์ด ์๋ต ๊ฐ๋ฅ). OOD ๋ ๊ตฌํ + 2 ์ผ์ด์ค sanity check ์์ค์ด๋ฉฐ ๋ณธ๊ฒฉ ๊ฒ์ฆ์ v4.
|
| 28 |
|
| 29 |
## ๐ฆ ์ด ๋ ํฌ์ ๊ตฌ์ฑ (~14 MB total)
|
| 30 |
|
|
|
|
| 87 |
| ํญ๋ชฉ | v2 | **v3 (์ด ๋ ํฌ)** |
|
| 88 |
|---|---|---|
|
| 89 |
| ๋ค๊ตญ์ด ์๋ต | โ ์๋ฌธ only (catastrophic forgetting) | โ
**์๋ฌธ + ํ๊ตญ์ด** |
|
| 90 |
+
| OOD ์ ํธ | โ ๋ฌด์กฐ๊ฑด ๋ต๋ณ (hallucination) | โ
**"์ ๋ชจ๋ฅด๊ฒ ์" layer ์ถ๊ฐ** (CLIP+entropy, ๊ฒ์ฆ N=2 โ ๋ณธ๊ฒฉ ROC ๋ถ์์ v4) |
|
| 91 |
|
| 92 |
### ๐ต deployment ์ต์ ํ (์ฑ๋ฅ ๋ณํ 0, ๋ฐฐํฌ ํจ์จ๋ง)
|
| 93 |
|
|
|
|
| 100 |
### ๐ก ๋ณํ์ง ์์ ๊ฒ (์ ์งํ ๋ช
์)
|
| 101 |
|
| 102 |
- ์ด๋ฏธ์ง ์ดํด ์ ํ๋ โ 0.5B LLM ํ๊ณ๋ก v2/v3 ๋์ผ ์์ค (v4 LLM size up ์ผ๋ก ํด๊ฒฐ ์์ )
|
| 103 |
+
- ์๋ฌธ VQA โ v3 baseline 36.67% vs v2 34.67% (+2.00%p, VQAv2 50 samples greedy decoding). ์ถ๋ก wrapper ์ถ๊ฐ๋ ์์ ์์ ํ ์ง๋ฌธ ์ ์์๋ ์ํฅ ์์ โ wrapper ์ ์๋ฏธ ์๋ ๊ฐ์ ์ POPE ํ๊ฐ ์ฐจ๋จ ์ชฝ (+3 ~ +20%p, ์์ธํ ๋ด์ฉ์ GitHub README)
|
| 104 |
|
| 105 |
## ๐ง ํ์ต ๋ฐ์ดํฐ (Step 1, 175๋ถ)
|
| 106 |
|
|
|
|
| 124 |
|
| 125 |
๊ฒ์ฆ ๊ฒฐ๊ณผ (`scripts/test_ood_integration.py`): In-Dist (์ค์ ๊ฐ) 0.365 (โ
) ยท OOD (Pikachu ์นดํฐ) 0.505 (โ ๏ธ)
|
| 126 |
|
| 127 |
+
## ๐ชถ Slim Adapter โ PEFT default ๋์ ์ฐํ (๋ชจ๋ธ ์์ถ X)
|
| 128 |
|
| 129 |
PEFT ํ์ค์ `modules_to_save` (embed_tokens + lm_head) ์ **ํต์งธ๋ก** ์ ์ฅ โ 1 GB.
|
| 130 |
ํ์ง๋ง ์ฌ์ ๋ถ์์ผ๋ก ๋ฐ๊ฒฌ:
|
|
|
|
| 138 |
โ `image_token_row.safetensors` (7 KB) ๋ง ๋ณ๋ ์ ์ฅํ๊ณ , ์ถ๋ก ์ base Qwen2.5 ์ ๋ง์ง๋ง row ๋ง patch.
|
| 139 |
โ **greedy decoding 7/7 ์๋ต ๋นํธ ๋จ์ ์ผ์น** (`scripts/verify_slim_adapter.py`).
|
| 140 |
|
| 141 |
+
> ์ ์งํ๊ฒ ์ ์๋ฉด ์ด 99% ์ ๊ฐ์ ๋ชจ๋ธ ์์ถ์ด ์๋๋ผ **PEFT ์ `modules_to_save` default ๊ฐ tied embedding ๊ณผ ๊ฒฐํฉ๋๋ฉฐ ํ์ต๋์ง ์์ ํ๊น์ง ํต์งธ๋ก ์ ์ฅํ๋ ๋์์ ์ฐํํ ๊ฒฐ๊ณผ**. ๋์ผ ๋ฌธ์ ๋ก ๋ต๋ตํดํ ๋ค๋ฅธ ์ฌ์ฉ์๋ฅผ ์ํด PEFT issue ์ ์ ๋ฆฌํด ๋ณด๋ผ ๊ณํ.
|
| 142 |
+
|
| 143 |
## โ ๏ธ ํ๊ณ
|
| 144 |
|
| 145 |
- **0.5B LLM** โ ์ด๋ฏธ์ง ๋ด์ฉ ์ ํ๋๋ ์ฌ์ ํ ํ๊ณ (๊ฐ๋ฅผ ์๋ก ์ค์ธ ๋ฑ)
|