Create README.md
Browse files
README.md
ADDED
|
@@ -0,0 +1,38 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
language:
|
| 3 |
+
- ko
|
| 4 |
+
base_model:
|
| 5 |
+
- beomi/KoAlpaca-Polyglot-5.8B
|
| 6 |
+
pipeline_tag: question-answering
|
| 7 |
+
---
|
| 8 |
+
|
| 9 |
+
```@Update : 2024-11-27 ```
|
| 10 |
+
|
| 11 |
+
# KoAlpaca-Polyglot-5.8B
|
| 12 |
+
- 이준범님 모델 기반으로 생성
|
| 13 |
+
- 데이터셋 : AiHub 채용 면접 인터뷰 데이터 : https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71592
|
| 14 |
+
|
| 15 |
+
------
|
| 16 |
+
```
|
| 17 |
+
'loss': 2.1778, 'grad_norm': 5.742631912231445, 'learning_rate': 1.831713150322434e-07, 'epoch': 4.86
|
| 18 |
+
```
|
| 19 |
+
|
| 20 |
+
```
|
| 21 |
+
Trainargument
|
| 22 |
+
epochs : 5
|
| 23 |
+
batch_size : 2
|
| 24 |
+
gradient_accumulation_steps : 32
|
| 25 |
+
weight_decay : 0.02
|
| 26 |
+
optim : paged_adamw_32bit
|
| 27 |
+
learning_rate: 1e-5
|
| 28 |
+
```
|
| 29 |
+
|
| 30 |
+
----
|
| 31 |
+
## 총론
|
| 32 |
+
1. GCP V100 1대 사용
|
| 33 |
+
- 아쉽게도 배치사이즈를 늘릴 수가 없는 상황(최소 A100은 되어야 RAM 보장됨, V100으로는 훈련중 터짐 )
|
| 34 |
+
2. Validation 불가
|
| 35 |
+
- 램 용량 부하로 인해 validation을 불가한 상황
|
| 36 |
+
3. 인퍼런스 및 양자화
|
| 37 |
+
- 추후 재 설계 예정
|
| 38 |
+
|