Improve language tag
#1
by
lbourdois
- opened
README.md
CHANGED
|
@@ -1,123 +1,135 @@
|
|
| 1 |
-
---
|
| 2 |
-
license: apache-2.0
|
| 3 |
-
language:
|
| 4 |
-
-
|
| 5 |
-
|
| 6 |
-
-
|
| 7 |
-
|
| 8 |
-
-
|
| 9 |
-
-
|
| 10 |
-
-
|
| 11 |
-
|
| 12 |
-
-
|
| 13 |
-
-
|
| 14 |
-
-
|
| 15 |
-
-
|
| 16 |
-
|
| 17 |
-
|
| 18 |
-
|
| 19 |
-
|
| 20 |
-
|
| 21 |
-
|
| 22 |
-
|
| 23 |
-
|
| 24 |
-
|
| 25 |
-
|
| 26 |
-
|
| 27 |
-
|
| 28 |
-
|
| 29 |
-
|
| 30 |
-
|
| 31 |
-
|
| 32 |
-
|
| 33 |
-
|
| 34 |
-
|
| 35 |
-
"
|
| 36 |
-
|
| 37 |
-
|
| 38 |
-
|
| 39 |
-
|
| 40 |
-
|
| 41 |
-
|
| 42 |
-
|
| 43 |
-
|
| 44 |
-
|
| 45 |
-
|
| 46 |
-
|
| 47 |
-
|
| 48 |
-
|
| 49 |
-
|
| 50 |
-
|
| 51 |
-
|
| 52 |
-
|
| 53 |
-
|
| 54 |
-
|
| 55 |
-
|
| 56 |
-
|
| 57 |
-
|
| 58 |
-
##
|
| 59 |
-
|
| 60 |
-
|
| 61 |
-
|
| 62 |
-
|
| 63 |
-
|
| 64 |
-
|
| 65 |
-
|
| 66 |
-
|
| 67 |
-
|
| 68 |
-
|
| 69 |
-
|
| 70 |
-
|
| 71 |
-
|
| 72 |
-
|
| 73 |
-
|
| 74 |
-
|
| 75 |
-
|
| 76 |
-
|
| 77 |
-
|
| 78 |
-
|
| 79 |
-
|
| 80 |
-
|
| 81 |
-
|
| 82 |
-
|
| 83 |
-
|
| 84 |
-
|
| 85 |
-
|
| 86 |
-
|
| 87 |
-
|
| 88 |
-
|
| 89 |
-
|
| 90 |
-
|
| 91 |
-
|
| 92 |
-
|
| 93 |
-
|
| 94 |
-
|
| 95 |
-
|
| 96 |
-
|
| 97 |
-
|
| 98 |
-
|
| 99 |
-
|
| 100 |
-
|
| 101 |
-
|
| 102 |
-
|
| 103 |
-
|
| 104 |
-
|
| 105 |
-
|
| 106 |
-
|
| 107 |
-
|
| 108 |
-
-
|
| 109 |
-
-
|
| 110 |
-
-
|
| 111 |
-
-
|
| 112 |
-
-
|
| 113 |
-
-
|
| 114 |
-
-
|
| 115 |
-
-
|
| 116 |
-
-
|
| 117 |
-
-
|
| 118 |
-
|
| 119 |
-
##
|
| 120 |
-
-
|
| 121 |
-
-
|
| 122 |
-
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 123 |
- contact@surromind.ai
|
|
|
|
| 1 |
+
---
|
| 2 |
+
license: apache-2.0
|
| 3 |
+
language:
|
| 4 |
+
- zho
|
| 5 |
+
- eng
|
| 6 |
+
- fra
|
| 7 |
+
- spa
|
| 8 |
+
- por
|
| 9 |
+
- deu
|
| 10 |
+
- ita
|
| 11 |
+
- rus
|
| 12 |
+
- jpn
|
| 13 |
+
- kor
|
| 14 |
+
- vie
|
| 15 |
+
- tha
|
| 16 |
+
- ara
|
| 17 |
+
base_model:
|
| 18 |
+
- Qwen/Qwen2.5-14B
|
| 19 |
+
tags:
|
| 20 |
+
- RAG
|
| 21 |
+
- Ko-LLM
|
| 22 |
+
- QA
|
| 23 |
+
datasets:
|
| 24 |
+
- kyujinpy/KoCoT_2000
|
| 25 |
+
- MarkrAI/KoCommercial-Dataset
|
| 26 |
+
- CarrotAI/ko-instruction-dataset
|
| 27 |
+
- heegyu/CoT-collection-ko
|
| 28 |
+
pipeline_tag: text-generation
|
| 29 |
+
---
|
| 30 |
+
|
| 31 |
+
## Introduction
|
| 32 |
+
Command r plus ๋ชจ๋ธ์ ์ด์ฉํ์ฌ ์์ฒด ๊ตฌ์ถํ RAG ํนํ ๋ฐ์ดํฐ์
, CoT ๋ฐ์ดํฐ์
, ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์ผ๋ก Qwen2.5 14B ๋ชจ๋ธ์ Full fine-tuning ํ ๋ชจ๋ธ์
๋๋ค.
|
| 33 |
+
ํด๋น ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ธ RAG ์๋น์ค์ ์
๋ ฅ๋ฐ์ดํฐ์ ๋ํด์ ์ ํํ ๋ต๋ณ๊ณผ ๋ต๋ณ ์ถ์ฒ๋ฅผ ์์ฑํ ์ ์์ผ๋ฉฐ, Json ํํ๋ก ๋ต๋ณ์ ์ถ๋ ฅํ๋ ํน์ง์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
|
| 34 |
+
์ถ๋ ฅ ํค๊ฐ์ ์๋์ ๊ฐ์ต๋๋ค.
|
| 35 |
+
1. "related_document"์ ๊ฐ : ์ง๋ฌธ๊ณผ ๊ด๋ จ ์๋ ๋ฌธ์ doc_id, ์ ๋ชฉ (key : ๋ฌธ์ ๋ฒํธ, Value : ๋ฌธ์ ์ ๋ชฉ)
|
| 36 |
+
2. "source" : ์ง๋ฌธ๊ณผ ๊ด๋ จ์๋ ๋ฌธ์ doc_id์ ๋ต๋ณ์ ์์ฑํ ์ธ์ฉ๊ตฌ ๊ตฌ์
|
| 37 |
+
3. "answer"์ ๊ฐ : ์ถ์ฒ๋ฅผ ํ๊ธฐํ์ง ์์ 3~6๋ฌธ์ฅ ์ค๋ช
ํ ๋ต๋ณ
|
| 38 |
+
4. "grounded_answer"์ ๊ฐ : answer๊ณผ ๋์ผํ๋ <co: doc_id>์ </co: doc_id> ๊ธฐํธ๋ก ์ธ์ฉ ์ถ์ฒ๋ฅผ ๋ช
์ํ ๋ต๋ณ
|
| 39 |
+
|
| 40 |
+
### ๋ต๋ณ ์ถ๋ ฅ ์์
|
| 41 |
+
```
|
| 42 |
+
{
|
| 43 |
+
"related_document": {
|
| 44 |
+
"D0000042284685": "๊ฐ๋ฝ๋ชฐ ์ ๋ ์ผ๋ฅ์ฐจ ํ์ฌ์๋ฐฉ ์ถ์ง ๋์ฑ
",
|
| 45 |
+
"4895": "์ฐจ์ธ๋ ๊ณ ์ ๋ขฐ์ฑ ๊ณ ์ถ๋ ฅ ์ํผ์ถ์ ๊ธฐ"
|
| 46 |
+
},
|
| 47 |
+
"source": {
|
| 48 |
+
"D0000042284685": "ใ๋ฌผ๋ฅ์ด๋ฐ์ฅ๋น ์ถฉ์ ์ฅ์น(๋ฆฌํฌ์ด์จ ๋ฐฐํฐ๋ฆฌ) ...",
|
| 49 |
+
"4895": "์ํผ์ถ์ ๊ธฐ์ ๋ฆฌํฌ์ด์ฐจ์ ์ง์ ๋น๊ต ..."
|
| 50 |
+
},
|
| 51 |
+
"answer": "๊ฐ๋ฝ๋ชฐ ์ ๋ ์ผ๋ฅ์ฐจ์ ๋ฆฌํฌ์ด์จ ๋ฐฐํฐ๋ฆฌ์ ์ํผ์ถ์ ๊ธฐ๋ ๋ฉ...",
|
| 52 |
+
"grounded_answer": "๊ฐ๋ฝ๋ชฐ ์ ๋ ์ผ๋ฅ์ฐจ์ ๋ฆฌํฌ์ด์จ ๋ฐฐํฐ๋ฆฌ์ ์ํผ์ถ์ ๊ธฐ๋ <co: 4895>๋ฉ์ปค๋์ฆ, ์์ฌ, ์๋ช
, ๋ณดํธํ๋ก, ๊ทน์ฑ, ๊ณผ์ ์, ์์กด์ฉ๋์ธก์ , ํน์ง</co: 4895> ๋ฑ์์ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ๋ฆฌํฌ์ด์จ ๋ฐฐํฐ๋ฆฌ๋ <co: 4895>๋ฆฌํฌ์ด์จ ์ด๋ ๋ฉ์ปค๋์ฆ</co: 4895>์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ,... "
|
| 53 |
+
}
|
| 54 |
+
```
|
| 55 |
+
|
| 56 |
+
## RAG Prompt
|
| 57 |
+
```
|
| 58 |
+
RAG_PROMPT = """<|im_start|>system\n\n ๋น์ ์ ๋ํํ AI๋ก์, ์ฌ์ฉ์์ ์ง๋ฌธ์ ์ ๋ขฐํ ์ ์๋ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ๊ฒ์ด ์ฃผ์ ์ญํ ์
๋๋ค. ์ฌ์ฉ์์ ์๊ตฌ๋ฅผ ์ ํํ ์ดํดํ๊ณ , ๊ด๋ จ ๋ฌธ์๋ฅผ ๋ถ์ํ์ฌ ์ต์ ์ ๋ต๋ณ์ ์์ฑํด์ผ ํฉ๋๋ค. \n๋น์ ์ ๋ค์๊ณผ ๊ฐ์ ์์น์ ์ค์ํด์ผ ํฉ๋๋ค:\n1. ํญ์ ์ฌ์ฉ์์ ์์ฒญ์ ์ต์ฐ์ ์ผ๋ก ๊ณ ๋ คํ๋ฉฐ, ๋ช
ํํ๊ณ ์ดํดํ๊ธฐ ์ฌ์ด ๋ต๋ณ์ ์ ๊ณตํฉ๋๋ค.\n2. ์ ๊ณต๋ ๋ฌธ์๋ฅผ ์ต๋ํ ํ์ฉํ์ฌ ์๋ต์ ๊ตฌ์ฑํ๋, ์ถ๊ฐ์ ์ธ ๋ถ์๊ณผ ๋
ผ๋ฆฌ๋ฅผ ํตํด ์๋ต์ ์ง์ ๋์
๋๋ค.\n3. ์๋ต์ ์์ฑํ ๋๋ ๋ฐ๋์ ์ฃผ์ด์ง ์ง์นจ์ ๋ฐ๋ฅด๊ณ , ๋ช
ํํ ์ถ์ฒ๋ฅผ ์ ๊ณตํด์ผ ํฉ๋๋ค.\n4. ์ฌ์ฉ์์ ์ง๋ฌธ์ด ๋ชจํธํ ๊ฒฝ์ฐ, ๋ช
ํ์ฑ์ ํ๋ณดํ๊ธฐ ์ํด ์ง๋ฌธ์ ์ฌ๊ตฌ์ฑํ๋ ๋ฐฉ์์ ๊ณ ๋ คํ ์ ์์ต๋๋ค.\n\n# ์ฌ์ฉ์ ์๋ด๋ฌธ\n## ์์
๋ฐ ๋งฅ๋ฝ\n๋น์ ์ ์ฌ์ฉ์ ์ง๋ฌธ์ ๋ํด ๊ด๋ จ ๋ฌธ์๋ฅผ ๋ถ์ํ๊ณ , ์ ๋ขฐํ ์ ์๋ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ์๋ต์ ์์ฑํด์ผ ํฉ๋๋ค. ๋จ์ํ ์ ๋ณด ์ ๋ฌ์ ๋์ด, ๋ฌธ๋งฅ์ ๊ณ ๋ คํ์ฌ ๊ฐ์ฅ ์ ์ ํ ํํ๋ก ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.\n\n## ์คํ์ผ ๊ฐ์ด๋\njson ํ์์ผ๋ก ๋ต๋ณ์ ์ถ๋ ฅํ์ธ์.[
|
| 59 |
+
{{
|
| 60 |
+
"related_document" : {{"๋ฌธ์ ์ ๋ณด์์ ์ฐพ์ doc_id"}}
|
| 61 |
+
"source" : {{"๋ฌธ์ ์ ๋ณด์์ ์ฐพ์ doc_id" : "ํด๋น ๋ฌธ์์์ ์ฐพ์ ์ ์๋ ์ธ์ฉ๊ตฌ ๊ตฌ์ , ์๋ฌธ ๊ทธ๋๋ก ํ๊ธฐ",
|
| 62 |
+
"๋ฌธ์ ์ ๋ณด์์ ์ฐพ์ doc_id" : "ํด๋น ๋ฌธ์์์ ์ฐพ์ ์ ์๋ ์ธ์ฉ๊ตฌ ๊ตฌ์ , ์๋ฌธ ๊ทธ๋๋ก ํ๊ธฐ"}},
|
| 63 |
+
"answer" : "์ถ์ฒ๋ฅผ ํ๊ธฐํ์ง ์์ 3~6๋ฌธ์ฅ ์ค๋ช
ํ ๋ต๋ณ",
|
| 64 |
+
"grounded_answer" : "answer๊ณผ ๋์ผํ๋ <co: doc_id>์ </co: doc_id> ๊ธฐํธ๋ก ์ธ์ฉ ์ถ์ฒ๋ฅผ ๋ช
์ํ ๋ต๋ณ"
|
| 65 |
+
}}
|
| 66 |
+
]\n
|
| 67 |
+
<|im_end|>\n<|im_start|>user\n {instruction} <|im_end|>\n<|im_start|>assistant\n"""
|
| 68 |
+
```
|
| 69 |
+
|
| 70 |
+
## Quickstart
|
| 71 |
+
```
|
| 72 |
+
from transformers import AutoModelForCausalLM, AutoTokenizer
|
| 73 |
+
|
| 74 |
+
model_name = "Surromind/RAG-Specialized-LLM"
|
| 75 |
+
model = AutoModelForCausalLM.from_pretrained(
|
| 76 |
+
model_name, torch_dtype="auto", device_map="auto"
|
| 77 |
+
)
|
| 78 |
+
tokenizer = AutoTokenizer.from_pretrained(model_name)
|
| 79 |
+
|
| 80 |
+
prompt = """ ์ง๋ฌธ : NAOG ์ธ์ ๋ชฝ๊ณจ์ ์ด๋ค ์ฌ๋๋ค์ด ํ์ ์์น๋ถ ์ง๋ฐฉํ์ ์ฐ์์์ ๊ต์ก ํ๋ก๊ทธ๋จ์ ์ฐธ๊ฐํด์์ง?\n\n doc_id : 44365 / title : ํ๊ตญ ์ง๋ฐฉ์ธ์ฌ๊ฐ๋ฐ์ ๋ต ๋ฒ ํธ๋จ์ ์ ์๋๋ค. / content : ํ๊ตญ ์ง๋ฐฉ์ธ์ฌ๊ฐ๋ฐ์ ๋ต ๋ฒ ํธ๋จ์ ์ ์๋๋ค.\nโก ๋ฒ ํธ๋จ ๋์ ์ฑ ์ง๋ฐฉ์ ๋ถ ๊ณต๋ฌด์๋ค์ด ๊ณต๋ฌด์ ์ธ์ฌ์ฑ์ฉ ๋ฐ ๊ต์ก ํ๋ จ์ ๋ ์์คํ
๋ฑ ํ๊ตญ์ ์ธ์ ์์๊ฐ๋ฐ์ ๋ต์ ๋ฐฐ์ฐ๋ฌ ์ฐ๋ฆฌ๋๋ผ๋ฅผ ์ฐพ์๋ค. \nโ ํ์ ์์น๋ถ ์ง๋ฐฉํ์ ์ฐ์์(์์ฅ ***, ์ดํ ์ฐ์์)์ ํ๊ตญ๊ตญ์ ํ๋ ฅ๋จ(KOICA)๊ณผ ๊ณต๋์ผ๋ก 11์ 26์ผ๋ถํฐ 12์ 9์ผ๊น์ง 2์ฃผ๊ฐ ๋ฒ ํธ๋จ ๋์ ์ฑ ์ง๋ฐฉ์ ๋ถ ๊ณต๋ฌด์ 15๋ช
์ ๋์์ผ๋กใ๋ฒ ํธ๋จ ๋์ ์ฑ ์ง๋ฐฉ์ ๋ถ ๊ณต๋ฌด์ ์ญ๋๊ฐํ๊ณผ์ (Capacity Building for Vietnamese Local Government Officials from Lan Son Provinceใ์ ์ด์ํ๋ค.\nโก ์ด๋ฒ ๊ณผ์ ์ ์ฐ์์ ๋๋ถ๋ถ์ด ๋ฒ ํธ๋จ ๋์ ์ฑ ์์๊ณต๋ฌด์์ธ ๋งํผ ํด๋น ์ง๋ฐฉ์ ๋ถ๊ฐ ์์ฒญํ ์ง๋ฐฉํ์ , ๊ณต๋ฌด์ ์ฑ์ฉยท๊ต์ก, ์ง์ญ๊ฒฝ์ ํ์ฑํ ๊ฐ์ ๋ฐ ํ์ฅ๊ฒฌํ ๋ฑ์ ๋ง์ถคํ ์ฐ์๊ณผ์ ์ผ๋ก ์ค๊ณ๋์๋ค. \nโ ํนํ, ๋ฒ ํธ๋จ ์ง๋ฐฉ์ ๋ถ ๊ณต๋ฌด์๋ค์ ๋ฆฌ๋์ญ๊ณผ ์ญ๋์ ๊ฐํํ๊ธฐ ์ํด ๊ณต๋ฌด์ ์ธ์ฌ์ฑ์ฉ ๋ฐ ๊ต์กํ๋ จ์ ๋ ์์คํ
์ ๋ํ ํ ๋ก ์ ์ธ๋ฏธ๋ ๋ฐฉ์์ผ๋ก Action Plan์ ์๋ฆฝํ๋๋ก ํ์ฌ ์ฐ์์์ด ๋์ ์ฑ์ ์ธ์ ์์๊ฐ๋ฐ ์ ์ฑ
์๋ฆฝ์ ์ ์ฉํ ์ ์๋๋ก ์ง์ํ ์์ ์ด๋ค.\nโ ์์ธ๋ฌ, ์ฐ์๋จ์ ๋์
์๋์ฆ๋์ ์ง์ญ๊ฒฝ์ ํ์ฑํ ์ฑ๊ณต์ฌ๋ก๋ก ํ๊ฐ ๋ฐ๊ณ ์๋ ์์ฃผ๊ตฐ ๊ฑฐ์ ๋๋ฏผ๊ฐ๊ณต์ผํฐ, ์ง์ญ๊ฒฝ์ ์ํ์ผํฐ ๋ฑ์ ๋ฐฉ๋ฌธํ์ฌ ์ง์ญ๋๋ฏผ์ด ์์ฐํ ๋์ฐ๋ฌผ์ด 2์ฐจ, 3์ฐจ ์ํ ๊ฐ๊ณต ๊ณผ์ ์ ๊ฑฐ์ณ ์์ ์ ์ผ๋ก ํ๋งค๋ ์ ์๋๋ก ์ง์ํ๋ ๋์ฐ๋ฌผ ๊ฐ๊ณต ์์คํ
ํ์ฅ์ ์ดํด ๋ณผ ์์ ์ด๋ค. \nโ ์ด์ธ์๋ ๋ฒ ํธ๋จ ๋์ ์ฑ์์ ๊ด์ฌ์ด ๋ง์ ์ธ์ฒ๊ฒฝ์ ์์ ๊ตฌ์ญ์ฒญ์ ๊ฒฌํํ์ฌ ํ๊ตญ์ ๊ฒฝ์ ๋ฐ์ ์ ๋ฑ ํ์ฅ์ ๋๋ฌ๋ณด๋ฉด์ ๋์ ์ฑ ์ง์ญ ๊ฒฝ์ ์ ์ ๋ชฉํ ์ ์๋ ์ฒดํ์ ๊ธฐํ๋ ๊ฐ์ง ์์ ์ด๋ค. \nโก ํํธ, ์ฐ์์์ 2006๋
๋ถํฐ ๋ฒ ํธ๋จ ์ง๋ฐฉ ๊ณต๋ฌด์๋ค์ ๋์์ผ๋ก ์ฐ์๊ณผ์ ์ ์ด์ํ ์ดํ 5๊ฐ ๋ฒ ํธ๋จ ๊ณผ์ ๊ณผ ๊ธฐํ ๋ค๊ตญ ๊ณผ์ ์ ํตํ์ฌ ์ด 130๋ช
์ ์ฐ์์์ ๋์ฐฝ์์ผ๋ก ๋ฐฐ์ถํ๋ค.doc_id : 45112 / title : โํ๊ตญ ๊ณต๊ธฐ์
ํ์ ์ฌ๋ก ๋ฐฐ์ฐ๋ฌ ์์ด์!โ / content : ๋ชฝ๊ณจ NAOG ๊ต์๋จ ๋ฐ ๊ณ ์๊ณต๋ฌด์ ๋ฐฉํ โํ๊ตญ ๊ณต๊ธฐ์
ํ์ ์ฌ๋ก ๋ฐฐ์ฐ๋ฌ ์์ด์!โ - ์ง๋ฐฉํ์ ์ฐ์์, 13๋
์งธ ๋ชฝ๊ณจ ๋ง์ถคํ ๊ต์ก์ค์-\nโก ํ์ ์์น๋ถ ์ง๋ฐฉํ์ ์ฐ์์(์์ฅ ์ต๋์, ์ดํ ์ฐ์์)์ 3์ 1์ผ๋ถํฐ 3์ 8์ผ๊น์ง ใ๋ชฝ๊ณจ NAOG* ์ญ๋๊ฐํ๊ณผ์ ใ์ ์ด์ํ๋ค. \nโ ์ด๋ฒ ๊ณผ์ ์๋ ๊ต์, ๊ณ ์๊ณต๋ฌด์, ์ฐ์๊ด๊ณ๊ด 14๋ช
์ด ์ฐธ๊ฐํ๋ค. \n* NAOG (๊ตญ๋ฆฝ๊ฑฐ๋ฒ๋์ค ์์นด๋ฐ๋ฏธ, National Academy of Governance) : ๊ณต๋ฌด์์ ๋ฌผ๋ก ์ ์น์ธยท๋ฏผ๊ฐ์ธ ๋ฑ ๋ชฝ๊ณจ์ ์คํผ๋์ธ ๋ฆฌ๋๋ค์ ๊ต์กํ๋ ๋ชฝ๊ณจ ์ต๋์ ๊ต์ก๊ธฐ๊ด์ผ๋ก ์โค๋ฐ์ฌํ์ ์์ฌ\nโก ์ฐ์์์ ๋ชฝ๊ณจ NAOG์ 2002๋
๊ต๋ฅํ๋ ฅ MOU๋ฅผ ์ฒด๊ฒฐํ ์ดํ, 13๊ฐ ๊ต์ก๊ณผ์ (ํ์ ๊ฐํ, ๊ฒฝ์ ๋ฐ์ ์ ๋ต, ํ์ ์ ํฌ๋ช
์ฑ ์ ๊ณ ๋ฐฉ์ ๋ฑ)์ ์ด์ํด 158๋ช
์ NAOG ๊ต์์ ๊ณ ์ ๊ณต๋ฌด์์ ๋์ฐฝ์์ผ๋ก ๋ฐฐ์ถํ๊ณ , \nโ ๊ทธ ์ด์ธ์๋ ๋ชฝ๊ณจ์ ๋์ง์ฌ, ๊ตฐ์ ๋ฑ ์ง๋ฐฉ๊ณต๋ฌด์ 1,310๋ช
์ ๋์์ผ๋ก ํ๊ตญ ์ง๋ฐฉํ์ ์ ์ฐ์์ฌ๋ก๋ฅผ ๋ฒค์น๋งํนํ ์ ์๋ ๋ชฝ๊ณจ๊ตฐ์ ๊ณผ์ ๋ฑ ๋ค์ํ ๊ต์กํ๋ก๊ทธ๋จ์ ์ด์ํด ์ค๊ณ ์๋ค.
|
| 81 |
+
"""
|
| 82 |
+
messages = [
|
| 83 |
+
{
|
| 84 |
+
"role": "system",
|
| 85 |
+
"content": """๋น์ ์ ๋ํํ AI๋ก์, ์ฌ์ฉ์์ ์ง๋ฌธ์ ์ ๋ขฐํ ์ ์๋ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ๊ฒ์ด ์ฃผ์ ์ญํ ์
๋๋ค. ์ฌ์ฉ์์ ์๊ตฌ๋ฅผ ์ ํํ ์ดํดํ๊ณ , ๊ด๋ จ ๋ฌธ์๋ฅผ ๋ถ์ํ์ฌ ์ต์ ์ ๋ต๋ณ์ ์์ฑํด์ผ ํฉ๋๋ค. \n๋น์ ์ ๋ค์๊ณผ ๊ฐ์ ์์น์ ์ค์ํด์ผ ํฉ๋๋ค:\n1. ํญ์ ์ฌ์ฉ์์ ์์ฒญ์ ์ต์ฐ์ ์ผ๋ก ๊ณ ๋ คํ๋ฉฐ, ๋ช
ํํ๊ณ ์ดํดํ๊ธฐ ์ฌ์ด ๋ต๋ณ์ ์ ๊ณตํฉ๋๋ค.\n2. ์ ๊ณต๋ ๋ฌธ์๋ฅผ ์ต๋ํ ํ์ฉํ์ฌ ์๋ต์ ๊ตฌ์ฑํ๋, ์ถ๊ฐ์ ์ธ ๋ถ์๊ณผ ๋
ผ๋ฆฌ๋ฅผ ํตํด ์๋ต์ ์ง์ ๋์
๋๋ค.\n3. ์๋ต์ ์์ฑํ ๋๋ ๋ฐ๋์ ์ฃผ์ด์ง ์ง์นจ์ ๋ฐ๋ฅด๊ณ , ๋ช
ํํ ์ถ์ฒ๋ฅผ ์ ๊ณตํด์ผ ํฉ๋๋ค.\n4. ์ฌ์ฉ์์ ์ง๋ฌธ์ด ๋ชจํธํ ๊ฒฝ์ฐ, ๋ช
ํ์ฑ์ ํ๋ณดํ๊ธฐ ์ํด ์ง๋ฌธ์ ์ฌ๊ตฌ์ฑํ๋ ๋ฐฉ์์ ๊ณ ๋ คํ ์ ์์ต๋๋ค.\n\n# ์ฌ์ฉ์ ์๋ด๋ฌธ\n## ์์
๋ฐ ๋งฅ๋ฝ\n๋น์ ์ ์ฌ์ฉ์ ์ง๋ฌธ์ ๋ํด ๊ด๋ จ ๋ฌธ์๋ฅผ ๋ถ์ํ๊ณ , ์ ๋ขฐํ ์ ์๋ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ์๋ต์ ์์ฑํด์ผ ํฉ๋๋ค. ๋จ์ํ ์ ๋ณด ์ ๋ฌ์ ๋์ด, ๋ฌธ๋งฅ์ ๊ณ ๋ คํ์ฌ ๊ฐ์ฅ ์ ์ ํ ํํ๋ก ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.\n\n## ์คํ์ผ ๊ฐ์ด๋\njson ํ์์ผ๋ก ๋ต๋ณ์ ์ถ๋ ฅํ์ธ์.[{"related_document" : {"๋ฌธ์ ์ ๋ณด์์ ์ฐพ์ doc_id"}, "source" : {"๋ฌธ์ ์ ๋ณด์์ ์ฐพ์ doc_id" : "ํด๋น ๋ฌธ์์์ ์ฐพ์ ์ ์๋ ์ธ์ฉ๊ตฌ ๊ตฌ์ , ์๋ฌธ ๊ทธ๋๋ก ํ๊ธฐ", "๋ฌธ์ ์ ๋ณด์์ ์ฐพ์ doc_id" : "ํด๋น ๋ฌธ์์์ ์ฐพ์ ์ ์๋ ์ธ์ฉ๊ตฌ ๊ตฌ์ , ์๋ฌธ ๊ทธ๋๋ก ํ๊ธฐ"},"answer" : "์ถ์ฒ๋ฅผ ํ๊ธฐํ์ง ์์ 3~6๋ฌธ์ฅ ์ค๋ช
ํ ๋ต๋ณ","grounded_answer" : "answer๊ณผ ๋์ผํ๋ <co: doc_id>์ </co: doc_id> ๊ธฐํธ๋ก ์ธ์ฉ ์ถ์ฒ๋ฅผ ๋ช
์ํ ๋ต๋ณ"}]\n""",
|
| 86 |
+
},
|
| 87 |
+
{"role": "user", "content": prompt},
|
| 88 |
+
]
|
| 89 |
+
text = tokenizer.apply_chat_template(
|
| 90 |
+
messages, tokenize=False, add_generation_prompt=True
|
| 91 |
+
)
|
| 92 |
+
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
|
| 93 |
+
|
| 94 |
+
generated_ids = model.generate(**model_inputs, max_new_tokens=512)
|
| 95 |
+
generated_ids = [
|
| 96 |
+
output_ids[len(input_ids) :]
|
| 97 |
+
for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
|
| 98 |
+
]
|
| 99 |
+
|
| 100 |
+
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
|
| 101 |
+
print(response)
|
| 102 |
+
```
|
| 103 |
+
|
| 104 |
+
## ํ์ต ํ๊ฒฝ ๋ฐ ํ๋ผ๋ฏธํฐ
|
| 105 |
+
- ํ๋ ํ๊ฒฝ
|
| 106 |
+
- H100(80GB) * 8
|
| 107 |
+
- ํ๋ผ๋ฏธํฐ
|
| 108 |
+
- tokenizer_model_mex_length 4500
|
| 109 |
+
- use_flash_attn True
|
| 110 |
+
- num_train_epochs 3.0
|
| 111 |
+
- weight_decay 0.001
|
| 112 |
+
- lr_scheduler_type "linear"
|
| 113 |
+
- per_device_train_batch_size 1
|
| 114 |
+
- gradient_accumulation_steps 64
|
| 115 |
+
- learning_rate 5e-06
|
| 116 |
+
- bf16 True
|
| 117 |
+
- deepspeed ds_stage2.json
|
| 118 |
+
|
| 119 |
+
## ์ฌ์ฉ ๋ฐ์ดํฐ์
|
| 120 |
+
- AIhub 16 ํ์ ๋ฌธ์ ๋์ ๊ธฐ๊ณ๋
ํด ๋ฐ์ดํฐ
|
| 121 |
+
- AIhub 17 ๋ด์ค ๊ธฐ์ฌ ๊ธฐ๊ณ๋
ํด ๋ฐ์ดํฐ
|
| 122 |
+
- AIhub 21 ๋์์๋ฃ ๊ธฐ๊ณ๋
ํด
|
| 123 |
+
- AIhub 149 ํ ์ ๋ณด ์ง์์๋ต ๋ฐ์ดํฐ
|
| 124 |
+
- AIhub 150 ์ซ์์ฐ์ฐ ๊ธฐ๊ณ๋
ํด ๋ฐ์ดํฐ
|
| 125 |
+
- AIhub 151 ๊ธ์ต, ๋ฒ๋ฅ ๋ฌธ์ ๊ธฐ๊ณ๋
ํด ๋ฐ์ดํฐ
|
| 126 |
+
- kyujinpy/KoCoT_2000
|
| 127 |
+
- MarkrAI/KoCommercial-Dataset
|
| 128 |
+
- CarrotAI/ko-instruction-dataset
|
| 129 |
+
- heegyu/CoT-collection-ko
|
| 130 |
+
|
| 131 |
+
## Contact us
|
| 132 |
+
- ์จ๋ก๋ง์ธ๋
|
| 133 |
+
- ์์ธ์ ๊ด์
๊ตฌ ๋จ๋ถ์ํ๋ก 1802, 2์ธต
|
| 134 |
+
- 02-872-5127
|
| 135 |
- contact@surromind.ai
|