Update README.md
Browse files
README.md
CHANGED
|
@@ -16,7 +16,7 @@ datasets:
|
|
| 16 |
---
|
| 17 |
|
| 18 |
## Introduction
|
| 19 |
-
|
| 20 |
ν΄λΉ λͺ¨λΈμ μΌλ°μ μΈ RAG μλΉμ€μ μ
λ ₯λ°μ΄ν°μ λν΄μ μ νν λ΅λ³κ³Ό λ΅λ³ μΆμ²λ₯Ό μμ±ν μ μμΌλ©° Json ννλ‘ λ΅λ³μ μΆλ ₯νλ νΉμ§μ κ°μ§κ³ μμ΅λλ€.
|
| 21 |
μΆλ ₯ keyκ°μ μλμ κ°μ΅λλ€.
|
| 22 |
1. "related_document"μ κ° : μ§λ¬Έκ³Ό κ΄λ ¨ μλ λ¬Έμ doc_id, μ λͺ© (key : λ¬Έμ λ²νΈ, Value : λ¬Έμ μ λͺ©)
|
|
@@ -40,6 +40,31 @@ Qwen2.5 14B λͺ¨λΈμ Command r plus λͺ¨λΈμ μ΄μ©νμ¬ μ체 ꡬμΆν RAG
|
|
| 40 |
}
|
| 41 |
```
|
| 42 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 43 |
## RAG Prompt
|
| 44 |
```
|
| 45 |
RAG_PROMPT = """<|im_start|>system\n\n λΉμ μ λνν AIλ‘μ, μ¬μ©μμ μ§λ¬Έμ μ λ’°ν μ μλ μ 보λ₯Ό μ 곡νλ κ²μ΄ μ£Όμ μν μ
λλ€. μ¬μ©μμ μꡬλ₯Ό μ νν μ΄ν΄νκ³ , κ΄λ ¨ λ¬Έμλ₯Ό λΆμνμ¬ μ΅μ μ λ΅λ³μ μμ±ν΄μΌ ν©λλ€. \nλΉμ μ λ€μκ³Ό κ°μ μμΉμ μ€μν΄μΌ ν©λλ€:\n1. νμ μ¬μ©μμ μμ²μ μ΅μ°μ μΌλ‘ κ³ λ €νλ©°, λͺ
ννκ³ μ΄ν΄νκΈ° μ¬μ΄ λ΅λ³μ μ 곡ν©λλ€.\n2. μ 곡λ λ¬Έμλ₯Ό μ΅λν νμ©νμ¬ μλ΅μ ꡬμ±νλ, μΆκ°μ μΈ λΆμκ³Ό λ
Όλ¦¬λ₯Ό ν΅ν΄ μλ΅μ μ§μ λμ
λλ€.\n3. μλ΅μ μμ±ν λλ λ°λμ μ£Όμ΄μ§ μ§μΉ¨μ λ°λ₯΄κ³ , λͺ
νν μΆμ²λ₯Ό μ 곡ν΄μΌ ν©λλ€.\n4. μ¬μ©μμ μ§λ¬Έμ΄ λͺ¨νΈν κ²½μ°, λͺ
νμ±μ ν보νκΈ° μν΄ μ§λ¬Έμ μ¬κ΅¬μ±νλ λ°©μμ κ³ λ €ν μ μμ΅λλ€.\n\n# μ¬μ©μ μλ΄λ¬Έ\n## μμ
λ° λ§₯λ½\nλΉμ μ μ¬μ©μ μ§λ¬Έμ λν΄ κ΄λ ¨ λ¬Έμλ₯Ό λΆμνκ³ , μ λ’°ν μ μλ μ 보λ₯Ό λ°νμΌλ‘ μλ΅μ μμ±ν΄μΌ ν©λλ€. λ¨μν μ 보 μ λ¬μ λμ΄, λ¬Έλ§₯μ κ³ λ €νμ¬ κ°μ₯ μ μ ν ννλ‘ μ 보λ₯Ό μ 곡νλ κ²μ΄ μ€μν©λλ€.\n\n## μ€νμΌ κ°μ΄λ\njson νμμΌλ‘ λ΅λ³μ μΆλ ₯νμΈμ.[
|
|
@@ -86,4 +111,5 @@ generated_ids = [
|
|
| 86 |
|
| 87 |
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
|
| 88 |
print(response)
|
| 89 |
-
```
|
|
|
|
|
|
| 16 |
---
|
| 17 |
|
| 18 |
## Introduction
|
| 19 |
+
Command r plus λͺ¨λΈμ μ΄μ©νμ¬ μ체 ꡬμΆν RAG νΉν λ°μ΄ν°μ
, CoT λ°μ΄ν°μ
, λ²€μΉλ§ν¬ λ°μ΄ν°μ
μΌλ‘ Qwen2.5 14B λͺ¨λΈμ Full fine-tuning ν λͺ¨λΈμ
λλ€.
|
| 20 |
ν΄λΉ λͺ¨λΈμ μΌλ°μ μΈ RAG μλΉμ€μ μ
λ ₯λ°μ΄ν°μ λν΄μ μ νν λ΅λ³κ³Ό λ΅λ³ μΆμ²λ₯Ό μμ±ν μ μμΌλ©° Json ννλ‘ λ΅λ³μ μΆλ ₯νλ νΉμ§μ κ°μ§κ³ μμ΅λλ€.
|
| 21 |
μΆλ ₯ keyκ°μ μλμ κ°μ΅λλ€.
|
| 22 |
1. "related_document"μ κ° : μ§λ¬Έκ³Ό κ΄λ ¨ μλ λ¬Έμ doc_id, μ λͺ© (key : λ¬Έμ λ²νΈ, Value : λ¬Έμ μ λͺ©)
|
|
|
|
| 40 |
}
|
| 41 |
```
|
| 42 |
|
| 43 |
+
## νμ΅ νκ²½ λ° νλΌλ―Έν°
|
| 44 |
+
νλ νκ²½ : H100(80GB) * 8
|
| 45 |
+
-tokenizer_model_mex_length 4500
|
| 46 |
+
-use_flash_attn True
|
| 47 |
+
-num_train_epochs 3.0
|
| 48 |
+
-weight_decay 0.001
|
| 49 |
+
-lr_scheduler_type "linear"
|
| 50 |
+
-per_device_train_batch_size 1
|
| 51 |
+
-gradient_accumulation_steps 64
|
| 52 |
+
-learning_rate 5e-06
|
| 53 |
+
-bf16 True
|
| 54 |
+
-deepspeed ds_stage2.json
|
| 55 |
+
|
| 56 |
+
## μ¬μ© λ°μ΄ν°μ
|
| 57 |
+
- AIhub 16 νμ λ¬Έμ λμ κΈ°κ³λ
ν΄ λ°μ΄ν°
|
| 58 |
+
- AIhub 17 λ΄μ€ κΈ°μ¬ κΈ°κ³λ
ν΄ λ°μ΄ν°
|
| 59 |
+
- AIhub 21 λμμλ£ κΈ°κ³λ
ν΄
|
| 60 |
+
- AIhub 149 ν μ 보 μ§μμλ΅ λ°μ΄ν°
|
| 61 |
+
- AIhub 150 μ«μμ°μ° κΈ°κ³λ
ν΄ λ°μ΄ν°
|
| 62 |
+
- AIhub 151 κΈμ΅, λ²λ₯ λ¬Έμ κΈ°κ³λ
ν΄ λ°μ΄ν°
|
| 63 |
+
- kyujinpy/KoCoT_2000
|
| 64 |
+
- MarkrAI/KoCommercial-Dataset
|
| 65 |
+
- CarrotAI/ko-instruction-dataset
|
| 66 |
+
- heegyu/CoT-collection-ko
|
| 67 |
+
|
| 68 |
## RAG Prompt
|
| 69 |
```
|
| 70 |
RAG_PROMPT = """<|im_start|>system\n\n λΉμ μ λνν AIλ‘μ, μ¬μ©μμ μ§λ¬Έμ μ λ’°ν μ μλ μ 보λ₯Ό μ 곡νλ κ²μ΄ μ£Όμ μν μ
λλ€. μ¬μ©μμ μꡬλ₯Ό μ νν μ΄ν΄νκ³ , κ΄λ ¨ λ¬Έμλ₯Ό λΆμνμ¬ μ΅μ μ λ΅λ³μ μμ±ν΄μΌ ν©λλ€. \nλΉμ μ λ€μκ³Ό κ°μ μμΉμ μ€μν΄μΌ ν©λλ€:\n1. νμ μ¬μ©μμ μμ²μ μ΅μ°μ μΌλ‘ κ³ λ €νλ©°, λͺ
ννκ³ μ΄ν΄νκΈ° μ¬μ΄ λ΅λ³μ μ 곡ν©λλ€.\n2. μ 곡λ λ¬Έμλ₯Ό μ΅λν νμ©νμ¬ μλ΅μ ꡬμ±νλ, μΆκ°μ μΈ λΆμκ³Ό λ
Όλ¦¬λ₯Ό ν΅ν΄ μλ΅μ μ§μ λμ
λλ€.\n3. μλ΅μ μμ±ν λλ λ°λμ μ£Όμ΄μ§ μ§μΉ¨μ λ°λ₯΄κ³ , λͺ
νν μΆμ²λ₯Ό μ 곡ν΄μΌ ν©λλ€.\n4. μ¬μ©μμ μ§λ¬Έμ΄ λͺ¨νΈν κ²½μ°, λͺ
νμ±μ ν보νκΈ° μν΄ μ§λ¬Έμ μ¬κ΅¬μ±νλ λ°©μμ κ³ λ €ν μ μμ΅λλ€.\n\n# μ¬μ©μ μλ΄λ¬Έ\n## μμ
λ° λ§₯λ½\nλΉμ μ μ¬μ©μ μ§λ¬Έμ λν΄ κ΄λ ¨ λ¬Έμλ₯Ό λΆμνκ³ , μ λ’°ν μ μλ μ 보λ₯Ό λ°νμΌλ‘ μλ΅μ μμ±ν΄μΌ ν©λλ€. λ¨μν μ 보 μ λ¬μ λμ΄, λ¬Έλ§₯μ κ³ λ €νμ¬ κ°μ₯ μ μ ν ννλ‘ μ 보λ₯Ό μ 곡νλ κ²μ΄ μ€μν©λλ€.\n\n## μ€νμΌ κ°μ΄λ\njson νμμΌλ‘ λ΅λ³μ μΆλ ₯νμΈμ.[
|
|
|
|
| 111 |
|
| 112 |
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
|
| 113 |
print(response)
|
| 114 |
+
```
|
| 115 |
+
|