A newer version of this model is available: kakaocorp/kanana-1.5-2.1b-instruct-2505
Kanana-1.5 2.1B ๋ชจ๋ธ์ GRPO๋ฅผ ์ฌ์ฉํ์ฌ Chain-of-Thought์ ํ๋๋ก ํ์ต์ํจ ๋ชจ๋ธ ์ ๋๋ค.
์๋ ๋ฐ์ดํฐ ์ ์ ํ์ฉํด A100 40GB GPU๋ก 3100 step (์ฝ 8์๊ฐ) ๋งํผ ํ์ต ๋์์. https://huggingface.co/datasets/heegyu/CoT-collection-ko
(์์ธํ ๋ด์ฉ ์ถ๊ฐ ์์ )
System Prompt :
SYSTEM_PROMPT = (
"์ฌ์ฉ์์ ์ด์์คํดํธ ๊ฐ์ ๋ํ์
๋๋ค. ์ฌ์ฉ์๊ฐ ์ง๋ฌธ์ ํ๋ฉด ์ด์์คํดํธ๊ฐ ์ด๋ฅผ ํด๊ฒฐํฉ๋๋ค."
"์ด์์คํดํธ๋ ๋จผ์ ๋จธ๋ฆฟ์์ผ๋ก ์ถ๋ก ๊ณผ์ ์ ์๊ฐํ ๋ค์ ์ฌ์ฉ์์๊ฒ ๋ต๋ณ์ ์ ๊ณตํฉ๋๋ค."
"์ถ๋ก ๊ณผ์ ๊ณผ ๋ต๋ณ์ ๊ฐ๊ฐ <์๊ฐ> </์๊ฐ> ๋ฐ <๋ต๋ณ> </๋ต๋ณ> ํ๊ทธ ์์ ๋ฌถ์ฌ ์์ต๋๋ค."
"์์: <์๊ฐ> ์ถ๋ก ๋ด์ฉ </์๊ฐ> <๋ต๋ณ> ์ต์ข
๋ต๋ณ </๋ต๋ณ>"
)
๋ชจ๋ธ ์ถ๋ ฅ ์์ :
User: ๋ํ๋ฏผ๊ตญ๊ณผ ๋ฏธ๊ตญ์ ๋ฏธ๋ ๊ด๊ณ์ ๋ํด ์์ธํ ์์ ํ์์ค.
Assistant: <์๊ฐ> ๋ํ๋ฏผ๊ตญ๊ณผ ๋ฏธ๊ตญ์ ๋ฏธ๋ ๊ด๊ณ๋ ์๊ตญ ๊ฐ ์ ์น, ๊ฒฝ์ ์ ์ํธ ์์กด๋๊ฐ ๋์์ง์๋ก ๊ธด๋ฐํด์ง๋๋ค. ํนํ ํ๋ฏธ ์์ ๋ฌด์ญํ์ (FTA) ๋ฑ์ผ๋ก ์ธํ ๊ต๋ฅ ํ๋์ ๊ตฐ์ฌ ๋๋งน ๊ฐํ๊ฐ ๋ํ์ ์ธ ์์
๋๋ค.
<์๊ฐ> ๋ํ ๋ฏธ๊ตญ์ด ๋ถํต ๋ฌธ์ ํด๊ฒฐ์ ์ํด ๋ํ๋ฏผ๊ตญ์ ํ๋ ฅ ์์ฒญํ ๊ฐ๋ฅ์ฑ๋ ์์ต๋๋ค.
<๋ต๋ณ> ๋ํ๋ฏผ๊ตญ๊ณผ ๋ฏธ๊ตญ์ ๋ฏธ๋ ๊ด๊ณ๋ ์๊ตญ ๊ฐ ์ ์น, ๊ฒฝ์ ์ ์ํธ ์์กด๋๊ฐ ๋์์ง์๋ก ๊ธด๋ฐํด์ง๋๋ค. ํนํ ํ๋ฏธ ์์ ๋ฌด์ญํ์ (FTA) ๋ฑ์ผ๋ก ์ธ
ํ ๊ต๋ฅ ํ๋์ ๊ตฐ์ฌ ๋๋งน ๊ฐํ๊ฐ ๋ํ์ ์ธ ์์
๋๋ค.
๋ํ ๋ถํต ๋ฌธ์ ํด๊ฒฐ์ ์ํด ๋ฏธ๊ตญ์ด ๋ํ๋ฏผ๊ตญ์ ํ๋ ฅ ์์ฒญํ ๊ฐ๋ฅ์ฑ๋ ์์ต๋๋ค.
--
User: ์นด์นด์ค๋ ์ด๋ค ํ์ฌ์ผ?
Assistant: Llama.generate: 332 prefix-match hit, remaining 17 prompt tokens to eval
<์๊ฐ> ์นด์นด์ค๋ ๋ํ๋ฏผ๊ตญ์ ๋ํ์ ์ธ IT ๊ธฐ์
์ค ํ๋์
๋๋ค.
- ๋ฉ์ ์ (์นดํก) ์๋น์ค๋ฅผ ํตํด ๊ตญ๋ด์ธ์์ ๋งค์ฐ ๋๋ฆฌ ์ฌ์ฉ๋๊ณ ์์ต๋๋ค.
- ๋ค์ํ ํ๋ซํผ์ ์ด์ํ๊ณ ์์ด, ๋ชจ๋ฐ์ผ ๊ฒ์ยท์ฝํ
์ธ ์ ์ ๋ฑ ์ฌ๋ฌ ๋ถ์ผ์ ์ง์ถํด ์์ต๋๋ค.
<๋ต๋ณ> ์นด์นด์ค๋ ๋ํ๋ฏผ๊ตญ์ ๋ํ์ ์ธ IT ๊ธฐ์
์ผ๋ก์ ๋ฉ์ ์ ์ธ '์นดํก' ์๋น์ค๋ฅผ ์ค์ฌ์ผ๋ก ์จ๋ผ์ธ ์ปค๋ฎค๋์ผ์ด์
๊ณผ ์ฝํ
์ธ ์ฐ์
์ ๋ฐ์์ ํ์ฝํ๋
ํ์ฌ์
๋๋ค.
license: apache-2.0 datasets: - heegyu/CoT-collection-ko language: - ko base_model: - kakaocorp/kanana-1.5-2.1b-instruct-2505 base_model_relation: finetune pipeline_tag: text-generation tags: - grpo - cot
- Downloads last month
- 1
Hardware compatibility
Log In to add your hardware
16-bit
Inference Providers NEW
This model isn't deployed by any Inference Provider. ๐ Ask for provider support