Image-Text-to-Text
PEFT
Safetensors
English
Korean
vision-language
multimodal
clip
qwen2.5
lora
llava
korean
ood-detection
mini-llava
Instructions to use AD-Styles/mini-llava-v3 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- PEFT
How to use AD-Styles/mini-llava-v3 with PEFT:
Task type is invalid.
- Notebooks
- Google Colab
- Kaggle
docs: portfolio-tone rebalance (drop self-deprecating PEFT callout, neutral Slim heading)
Browse files
README.md
CHANGED
|
@@ -24,7 +24,7 @@ tags:
|
|
| 24 |
> v2 baseline ์์ **capability 2๊ฐ (KoreanยทOOD) ์ถ๊ฐ + deployment 1๊ฐ (Slim packaging) ์ต์ ํ**.
|
| 25 |
> CLIP-ViT-B/32 + MLP Projector + Qwen2.5-0.5B + LoRA(r=16) ๋ฅผ ์ง์ ๊ตฌํํ Vision-Language Model ์ ํ์ต ๊ฐ์ค์น.
|
| 26 |
>
|
| 27 |
-
> โ ๏ธ **ํฌ๊ธฐ โ ์ฑ๋ฅ ๋ช
์**: Slim adapter (8.28 MB) ๋ **๊ฐ์ ๋ชจ๋ธ, ๊ฐ์ ์ถ๋ ฅ** (greedy 7/7 ๋นํธ ์ผ์น). ๋ชจ๋ธ์ด ๋ ๋๋ํด์ง ๊ฒ์ด ์๋๋ผ ํจํค์ง๋ง ํจ์จํ. ์ง์ง capability ๊ฐ์ ์ Korean
|
| 28 |
|
| 29 |
## ๐ฆ ์ด ๋ ํฌ์ ๊ตฌ์ฑ (~14 MB total)
|
| 30 |
|
|
@@ -124,7 +124,7 @@ entropy_signal: H(LLM first-token logits) / 8.0 nats
|
|
| 124 |
|
| 125 |
๊ฒ์ฆ ๊ฒฐ๊ณผ (`scripts/test_ood_integration.py`): In-Dist (์ค์ ๊ฐ) 0.365 (โ
) ยท OOD (Pikachu ์นดํฐ) 0.505 (โ ๏ธ)
|
| 126 |
|
| 127 |
-
## ๐ชถ Slim Adapter โ
|
| 128 |
|
| 129 |
PEFT ํ์ค์ `modules_to_save` (embed_tokens + lm_head) ์ **ํต์งธ๋ก** ์ ์ฅ โ 1 GB.
|
| 130 |
ํ์ง๋ง ์ฌ์ ๋ถ์์ผ๋ก ๋ฐ๊ฒฌ:
|
|
@@ -138,8 +138,6 @@ saved embed_tokens vs base Qwen2.5:
|
|
| 138 |
โ `image_token_row.safetensors` (7 KB) ๋ง ๋ณ๋ ์ ์ฅํ๊ณ , ์ถ๋ก ์ base Qwen2.5 ์ ๋ง์ง๋ง row ๋ง patch.
|
| 139 |
โ **greedy decoding 7/7 ์๋ต ๋นํธ ๋จ์ ์ผ์น** (`scripts/verify_slim_adapter.py`).
|
| 140 |
|
| 141 |
-
> ์ ์งํ๊ฒ ์ ์๋ฉด ์ด 99% ์ ๊ฐ์ ๋ชจ๋ธ ์์ถ์ด ์๋๋ผ **PEFT ์ `modules_to_save` default ๊ฐ tied embedding ๊ณผ ๊ฒฐํฉ๋๋ฉฐ ํ์ต๋์ง ์์ ํ๊น์ง ํต์งธ๋ก ์ ์ฅํ๋ ๋์์ ์ฐํํ ๊ฒฐ๊ณผ**. ๋์ผ ๋ฌธ์ ๋ก ๋ต๋ตํดํ ๋ค๋ฅธ ์ฌ์ฉ์๋ฅผ ์ํด PEFT issue ์ ์ ๋ฆฌํด ๋ณด๋ผ ๊ณํ.
|
| 142 |
-
|
| 143 |
## โ ๏ธ ํ๊ณ
|
| 144 |
|
| 145 |
- **0.5B LLM** โ ์ด๋ฏธ์ง ๋ด์ฉ ์ ํ๋๋ ์ฌ์ ํ ํ๊ณ (๊ฐ๋ฅผ ์๋ก ์ค์ธ ๋ฑ)
|
|
|
|
| 24 |
> v2 baseline ์์ **capability 2๊ฐ (KoreanยทOOD) ์ถ๊ฐ + deployment 1๊ฐ (Slim packaging) ์ต์ ํ**.
|
| 25 |
> CLIP-ViT-B/32 + MLP Projector + Qwen2.5-0.5B + LoRA(r=16) ๋ฅผ ์ง์ ๊ตฌํํ Vision-Language Model ์ ํ์ต ๊ฐ์ค์น.
|
| 26 |
>
|
| 27 |
+
> โ ๏ธ **ํฌ๊ธฐ โ ์ฑ๋ฅ ๋ช
์**: Slim adapter (8.28 MB) ๋ **๊ฐ์ ๋ชจ๋ธ, ๊ฐ์ ์ถ๋ ฅ** (greedy 7/7 ๋นํธ ์ผ์น). ๋ชจ๋ธ์ด ๋ ๋๋ํด์ง ๊ฒ์ด ์๋๋ผ ํจํค์ง๋ง ํจ์จํ. ์ง์ง capability ๊ฐ์ ์ KoreanยทOOD ๋ ๊ฐ์ง (์์ธํ trade-off ๋ ํ๊ณ ํ ์ฐธ์กฐ).
|
| 28 |
|
| 29 |
## ๐ฆ ์ด ๋ ํฌ์ ๊ตฌ์ฑ (~14 MB total)
|
| 30 |
|
|
|
|
| 124 |
|
| 125 |
๊ฒ์ฆ ๊ฒฐ๊ณผ (`scripts/test_ood_integration.py`): In-Dist (์ค์ ๊ฐ) 0.365 (โ
) ยท OOD (Pikachu ์นดํฐ) 0.505 (โ ๏ธ)
|
| 126 |
|
| 127 |
+
## ๐ชถ Slim Adapter โ 99% ์ ๊ฐ (1045 MB โ 8.28 MB)
|
| 128 |
|
| 129 |
PEFT ํ์ค์ `modules_to_save` (embed_tokens + lm_head) ์ **ํต์งธ๋ก** ์ ์ฅ โ 1 GB.
|
| 130 |
ํ์ง๋ง ์ฌ์ ๋ถ์์ผ๋ก ๋ฐ๊ฒฌ:
|
|
|
|
| 138 |
โ `image_token_row.safetensors` (7 KB) ๋ง ๋ณ๋ ์ ์ฅํ๊ณ , ์ถ๋ก ์ base Qwen2.5 ์ ๋ง์ง๋ง row ๋ง patch.
|
| 139 |
โ **greedy decoding 7/7 ์๋ต ๋นํธ ๋จ์ ์ผ์น** (`scripts/verify_slim_adapter.py`).
|
| 140 |
|
|
|
|
|
|
|
| 141 |
## โ ๏ธ ํ๊ณ
|
| 142 |
|
| 143 |
- **0.5B LLM** โ ์ด๋ฏธ์ง ๋ด์ฉ ์ ํ๋๋ ์ฌ์ ํ ํ๊ณ (๊ฐ๋ฅผ ์๋ก ์ค์ธ ๋ฑ)
|