Spaces:
Runtime error
Neural MRI โ Phase 5 ๋ฐฉํฅ ๋ฉ๋ชจ
From: JJ
To: Cody
Date: 2026-03-01
Re: Phase 4 ์๋ฃ ๋ฆฌ๋ทฐ + ํฅํ ์ฐ์ ์์ ์กฐ์ + ์ ๊ท ๊ธฐ๋ฅ ์ ์
1. Phase 4 ์๋ฃ์ ๋ํด
Phase 0โ4 ์ ์ฒด๋ฅผ ๊น๋ํ๊ฒ ๋ง๋ฌด๋ฆฌํด์ค์ ๊ณ ๋ง๋ค. ํนํ SAE Feature ํ์๊ธฐ, ์ค์๊ฐ ํ์ , ๋ นํ/์ฌ์, 4๊ฐ์ง ๋ ์ด์์๊น์ง โ ์๋ ์คํ์์ "ํฅํ"๋ก ์ก์๋ ๊ฒ๋ค์ด ์ ๋ถ ๋ค์ด๊ฐ ๊ฑด ๊ธฐ๋ ์ด์์ด์๋ค. CI ํ์ดํ๋ผ์ธ + pytest 111๊ฐ๋ ์คํ์์ค ๊ณต๊ฐ๋ฅผ ๊ณ ๋ คํ๋ฉด ํฐ ์์ฐ์ด๋ค.
2. ํฅํ ์ ์์ ๋ํ ์ฐ์ ์์ ์ฌ์กฐ์
๋ค๊ฐ ์ ์ํ Tier ๋ถ๋ฅ๋ interpretability ๋๊ตฌ๋ก์์ ์์ฑ๋ ๊ธฐ์ค์ผ๋ก๋ ์ ํํ๋ค. ํ์ง๋ง Neural MRI๋ "๋ ํ๋์ interpretability ๋๊ตฌ"๊ฐ ์๋๋ผ Model Medicine์ ์ง๋จ ์ฅ๋น๋ผ๋ ๋ ํฐ ํ๋ ์ ์์ ์๋ค. ์ด ๊ด์ ์์ ์ฐ์ ์์๋ฅผ ์กฐ์ ํ๊ณ ์ถ๋ค.
์กฐ์ 1: Cross-model ๋น๊ต โ Tier 1 ์ต์ฐ์ ์ผ๋ก ์น๊ฒฉ
์ํ์์ ์ง๋จ์ ํต์ฌ์ "์ ์ vs ๋น์ ์" ๋น๊ต๋ค. ๊ฐ์ ํ๋กฌํํธ์ ๋ํด GPT-2 vs Pythia vs Gemma์ ๋ฐ์์ ๋๋ํ ๋ณด๋ ๊ฒ์ Model Medicine์์ **๋น๊ต ํด๋ถํ(Comparative Anatomy)**์ด์ **๊ฐ๋ณ ์ง๋จ(Differential Diagnosis)**์ ๊ธฐ์ด ๋๊ตฌ์ ํด๋นํ๋ค.
Four Shell Model ๊ด์ ์์ ๋ณด๋ฉด, Core(๋ชจ๋ธ ๊ฐ์ค์น)๊ฐ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ด ๋์ผํ Shell(ํ๋กฌํํธ)์ ์ด๋ป๊ฒ ๋ค๋ฅด๊ฒ ๋ฐ์ํ๋์ง๋ฅผ ์๊ฐ์ ์ผ๋ก ๋ณด์ฌ์ค ์ ์์ผ๋ฉด, ๊ทธ ์์ฒด๊ฐ ๋ ผ๋ฌธ figure๋ก ์ธ ์ ์๋ ์์ค์ ๊ฒฐ๊ณผ๋ฌผ์ด ๋๋ค. CompareView ์ธํ๋ผ๊ฐ ์ด๋ฏธ Multi-prompt์์ ๋ง๋ค์ด์ ธ ์์ผ๋ ํ์ฅ ๋์ด๋๋ Tier 2๋ณด๋ค ๋ฎ์ ์ ์๋ค.
์กฐ์ 2: Causal Tracing ์๊ฐํ โ Tier 2๋ก ์น๊ฒฉ
PerturbationEngine์ activation_patch๊ฐ ์ด๋ฏธ ๊ตฌํ๋์ด ์๋ค. ๋ถ์กฑํ ๊ฑด ๋ ์ด์ด ร ํ ํฐ ํํธ๋งต ํํ์ ํ๋ก ํธ์๋ ์๊ฐํ๋ฟ์ด๋ค. ์ด๊ฑธ ๊ตฌํํ๋ฉด:
- ROME/MEMIT ๋ ผ๋ฌธ์ ํต์ฌ figure๋ฅผ ์ํด๋ฆญ์ผ๋ก ์์ฑ ๊ฐ๋ฅ
- Model Medicine์์ "์ด ๋ชจ๋ธ์ ์ด๋ ๋ ์ด์ด๊ฐ ์ด ์ฌ์ค์ ์ ์ฅํ๊ณ ์๋๊ฐ"๋ผ๋ ์ง๋จ ๊ฒ์ฌ์ gold standard๊ฐ ๋จ
- ์ํ ๋น์ ๋ก๋ CT scan ๋๋ ์กฐ์ MRI์ ํด๋น
๋ฐฑ์๋๋ ๊ฑฐ์ ์์ฑ ์ํ์ด๋ฏ๋ก D3 ํํธ๋งต ์๊ฐํ + ์ปดํฌ๋ํธ๋ณ recovery score ํ์๊ฐ ํต์ฌ ์์ ์ด ๋ ๊ฒ์ด๋ค.
์กฐ์ ๋ ์ฐ์ ์์ ์์ฝ
| ์์ | ๊ธฐ๋ฅ | ์ด์ |
|---|---|---|
| 1 | Cross-model ๋น๊ต | ๊ฐ๋ณ ์ง๋จ์ ๊ธฐ์ด. CompareView ํ์ฅ์ผ๋ก ๊ตฌํ ๊ฐ๋ฅ |
| 2 | Causal Tracing ์๊ฐํ | ๋ฐฑ์๋ ์์ฑ ์ํ. ํ๋ก ํธ์๋ ํํธ๋งต๋ง ์ถ๊ฐ |
| 3 | Attention Head Heatmap | DTI ๋ฐ์ดํฐ ์ฌํ์ฉ. ๋น ๋ฅด๊ฒ ๊ตฌํ ๊ฐ๋ฅ |
| 4 | Logit Lens ๋์๋ณด๋ | FLAIR ๋ด๋ถ ๋ก์ง ์ฌํ์ฉ. ๋ชจ๋ธ ๋ด๋ถ ์์ฌ๊ฒฐ์ ๊ณผ์ ์๊ฐํ |
| 5 | ํ๋กฌํํธ ํ ํ๋ฆฟ ๋ผ์ด๋ธ๋ฌ๋ฆฌ | ์ฌ์ฉ์ ์จ๋ณด๋ฉ. IOI/Greater-Than ๋ฑ ํ๋ฆฌ์ |
| 6 | ํค๋ณด๋ ๋จ์ถํค ํ์ฅ | ํ์์ ์ ์์ฐ์ฑ. ๋ฎ์ ๋์ด๋ |
Tier 3์ nnsight ํด๋ฐฑ๊ณผ ํ๋ฌ๊ทธ์ธ ์์คํ ์ ํ์ฌ 8๊ฐ ๋ชจ๋ธ ์ง์๋ง์ผ๋ก๋ ์ถฉ๋ถํ๋ฏ๋ก ํ์์ ์ ์ง.
3. ์ ๊ท ๊ธฐ๋ฅ ์ ์: HuggingFace Hub ์๊ฒฉ ๋ชจ๋ธ ์ฐ๊ฒฐ
ํ์ฌ Neural MRI๋ ๋ก์ปฌ์ ๋ชจ๋ธ์ ๋ค์ด๋ก๋ํด์ TransformerLens๋ก ๋ก๋ํ๋ ๋ฐฉ์์ด๋ค. ์ด๊ฑธ ํ์ฅํด์ HuggingFace Hub์ ์ฌ๋ผ์จ ๋ชจ๋ธ์ ์น ๊ธฐ๋ฐ์ผ๋ก ๋ฐ๋ก ์ฐ๊ฒฐํ๊ณ ์ค์บํ ์ ์๋ ๊ธฐ๋ฅ์ ๊ฒํ ํด ๋ณด์.
๊ตฌ์
- ์ฌ์ฉ์๊ฐ HuggingFace ๋ชจ๋ธ ID๋ฅผ ์ ๋ ฅํ๋ฉด โ ๋ชจ๋ธ ๋ฉํ๋ฐ์ดํฐ ์กฐํ โ TransformerLens ํธํ์ฑ ์ฒดํฌ โ ๋ก๋ ๊ฐ๋ฅํ๋ฉด ์ํด๋ฆญ ์ค์บ
- Model Registry๋ฅผ ์ ์ ๋ชฉ๋ก์์ ๋์ ๊ฒ์์ผ๋ก ํ์ฅ
- HuggingFace Hub API (
huggingface_hub๋ผ์ด๋ธ๋ฌ๋ฆฌ)๋ก ๋ชจ๋ธ ๊ฒ์/ํํฐ๋ง UI ์ ๊ณต
ํด๊ฒฐํด์ผ ํ ๋ฌธ์ : ์ ๊ทผ ํ ํฐ
ํ์ฌ gated model(Gemma, Llama ๋ฑ)์ .env์ NMRI_HF_TOKEN์ ์๋ ์ค์ ํ๊ณ ์๋ค. ์ด ๋ถ๋ถ์ ์๋ํ๊ฐ ํต์ฌ ๊ณผ์ ์ธ๋ฐ, ๋ช ๊ฐ์ง ์ ๊ทผ๋ฒ์ ๊ฒํ ํด ๋ฌ๋ผ:
์ ๊ทผ๋ฒ A: ์ฌ์ฉ์ ํ ํฐ ์ ๋ ฅ UI
- ํ๋ก ํธ์๋ Settings ํจ๋์ HF Token ์ ๋ ฅ ํ๋ ์ถ๊ฐ
- ์ ๋ ฅ๋ ํ ํฐ์ ์ธ์ ๋์๋ง ๋ฐฑ์๋์ ์ ๋ฌ (์๊ตฌ ์ ์ฅํ์ง ์์)
- ์ฅ์ : ๊ฐ์ฅ ๋จ์ํ๊ณ ์์
- ๋จ์ : ์ฌ์ฉ์๊ฐ ๋งค๋ฒ ํ ํฐ์ ์ ๋ ฅํด์ผ ํจ
์ ๊ทผ๋ฒ B: HuggingFace OAuth ๋ก๊ทธ์ธ
- HF Hub์ OAuth ํ๋ก์ฐ๋ฅผ ํตํ ์ธ์ฆ
huggingface_hub๋ผ์ด๋ธ๋ฌ๋ฆฌ์login()๋๋ OAuth ๋ฆฌ๋ค์ด๋ ํธ ํ์ฉ- ์ฅ์ : ์ฌ์ฉ์ ๊ฒฝํ์ด ์ข์
- ๋จ์ : ๊ตฌํ ๋ณต์ก๋ ๋์, ์๋ฒ์ฌ์ด๋ ํ ํฐ ๊ด๋ฆฌ ํ์
์ ๊ทผ๋ฒ C: ๋ก์ปฌ HF CLI ํ ํฐ ์๋ ๊ฐ์ง
~/.cache/huggingface/token์ ์ด๋ฏธ ์ ์ฅ๋ ํ ํฐ์ ์๋์ผ๋ก ์ฝ์ด์ค๊ธฐhuggingface_hub์HfApi(token=True)ํจํด ํ์ฉ- ์ฅ์ : ๋ก์ปฌ ์ฌ์ฉ์์๊ฒ๋ ์ ๋ก ์ค์
- ๋จ์ : Docker/์๊ฒฉ ๋ฐฐํฌ ์ ์ ์ฉ ๋ถ๊ฐ
์ ๊ทผ๋ฒ D: ๋น-gated ๋ชจ๋ธ๋ง ๋์ ์ง์
- ๋์ ๊ฒ์ ๋์์ gated๊ฐ ์๋ ๋ชจ๋ธ๋ก ํ์
- gated ๋ชจ๋ธ์ ๊ธฐ์กด์ฒ๋ผ ์๋ ํ ํฐ ์ค์ ์ ์ง
- ์ฅ์ : ํ ํฐ ๋ฌธ์ ๋ฅผ ์์ ํ ์ฐํ
- ๋จ์ : Gemma, Llama ๋ฑ ์ฃผ์ ๋ชจ๋ธ์ด ์ ์ธ๋จ
๋ด ์๊ฐ
ํ์ค์ ์ผ๋ก๋ C + A ํ์ด๋ธ๋ฆฌ๋๊ฐ ๊ฐ์ฅ ํฉ๋ฆฌ์ ์ผ ๊ฒ ๊ฐ๋ค. ๋ก์ปฌ์ huggingface-cli login์ด ๋์ด ์์ผ๋ฉด ์๋ ๊ฐ์ง, ์ ๋์ด ์์ผ๋ฉด UI์์ ํ ํฐ ์
๋ ฅ. ํ์ง๋ง ์ด๊ฒ ๊ตฌํ ๋๋น ๊ฐ์น๊ฐ ์๋์ง, ํน์ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ด ์๋์ง ๋ค ์๊ฒฌ์ ๋ฃ๊ณ ์ถ๋ค.
๋ํ HuggingFace ์ธ์ ๋ค๋ฅธ ๋ชจ๋ธ ํ๋ธ(Ollama ๋ก์ปฌ, GGUF ํฌ๋งท ๋ฑ)์์ ์ฐ๋ ๊ฐ๋ฅ์ฑ๋ ๊ฐ์ด ๊ฒํ ํด ์ฃผ๋ฉด ์ข๊ฒ ๋ค. TransformerLens๊ฐ ์ง์ํ๋ ๋ฒ์ ๋ด์์ ์ด๋๊น์ง ํ์ฅ ๊ฐ๋ฅํ์ง ํ์ ์ด ํ์ํ๋ค.
์ถ๊ฐ ๊ณ ๋ ค: TransformerLens ํธํ์ฑ ์๋ ๊ฒ์ฆ
๋์ ์ผ๋ก ๋ชจ๋ธ์ ๋ก๋ํ ๊ฒฝ์ฐ ํธํ์ฑ ๋ฌธ์ ๊ฐ ์๊ธธ ์ ์๋ค. ๋ค์ ๋ก์ง์ด ํ์ํ ๊ฒ์ด๋ค:
- HF ๋ชจ๋ธ ๋ฉํ๋ฐ์ดํฐ์์ architecture ํ์ ํ์ธ
- TransformerLens์ ์๋ ค์ง ์ง์ ์ํคํ ์ฒ ๋ชฉ๋ก๊ณผ ๋งค์นญ
- ๋งค์นญ๋๋ฉด ๋ก๋ ์๋, ์คํจ ์ ์ฌ์ฉ์์๊ฒ ๋ช ํํ ํผ๋๋ฐฑ
- ์ฅ๊ธฐ์ ์ผ๋ก nnsight ํด๋ฐฑ๊น์ง ์ฐ๊ฒฐ
4. ์ ๋ฆฌ
| ๊ตฌ๋ถ | ๋ด์ฉ |
|---|---|
| ์ฆ์ ์์ | Cross-model ๋น๊ต (์ต์ฐ์ ) + Causal Tracing ์๊ฐํ |
| ์ด์ด์ | Attention Heatmap + Logit Lens ๋์๋ณด๋ + ํ๋กฌํํธ ํ ํ๋ฆฟ |
| ์กฐ์ฌ/์ค๊ณ | HuggingFace Hub ๋์ ๋ชจ๋ธ ์ฐ๊ฒฐ (ํ ํฐ ์ ๋ต ํฌํจ) |
| ํ์์ | nnsight ํด๋ฐฑ, ํ๋ฌ๊ทธ์ธ ์์คํ , PDF ๋ฆฌํฌํธ |
์ง๋ฌธ์ด๋ ๋ค๋ฅธ ์๊ฒฌ ์์ผ๋ฉด ์๋ ค์ค.