tiendung commited on
Commit
41babee
·
1 Parent(s): fad87a2

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -41
README.md CHANGED
@@ -15,7 +15,7 @@ Tài trợ bởi Nvidia Việt Nam
15
  - [x] Tknz theo symato_16k_refined (~5g filtered text = ~1.2 tỉ tokens)
16
  - Tỉ lệ nén bằng 86% sentencepiece_16k trên toàn bộ tập dữ liệu và tập trung nén âm tiết
17
 
18
- - [z] Huấn luyện các mô hình sau với dữ liệu laws:
19
  - [x] Model-1: symato_2944 3 lượt:
20
  - [x] Lấy mẫu ngẫu nhiên
21
  - [x] Cách lấy mẫu mới đảm bảo mỗi token được huấn luyện 1 lần
@@ -34,43 +34,3 @@ Tài trợ bởi Nvidia Việt Nam
34
  - [x] Mỗi mẫu huấn luyện 1 lần data_shift = 0
35
  - [x] Mỗi mẫu huấn luyện 1 lần data_shift = 170
36
  - [x] Mỗi mẫu huấn luyện 1 lần data_shift = 340
37
-
38
-
39
- - - -
40
-
41
-
42
- Mỗi round = đi 1 lượt datasset = mỗi token đc huấn luyện 1 lần
43
-
44
- laws-sentencepiece-16k round 2 (epoch 8 là test)
45
- ```
46
- >>> Sampling: idx/ii 50000/2073046, i/n 1061399722/1160986539
47
- Epoch 8: 18% 500/2787 [05:24<24:42, 1.54it/s, loss=1.530, lr=7.79e-5, REAL it/s=1.540, Kt/s=75.90]
48
- Epoch 8: 36% 1001/2787 [10:48<19:17, 1.54it/s, loss=1.510, lr=7.63e-5, REAL it/s=1.550, Kt/s=76.00]
49
- Epoch 8: 47% 1322/2787 [14:16<15:48, 1.54it/s, loss=1.400, lr=7.53e-5, REAL it/s=1.540, Kt/s=75.90]
50
- ```
51
-
52
- laws-sentencepiece-16k round 3 (epoch 8 là test)
53
- ```
54
- >>> Sampling: idx/ii 50000/2073046, i/n 1061399552/1160986539
55
- Epoch 8: 34% 954/2787 [10:17<19:46, 1.54it/s, loss=1.530, lr=4.11e-5, REAL it/s=1.550, Kt/s=76.00]
56
- Epoch 8: 47% 1322/2787 [14:15<15:48, 1.54it/s, loss=1.390, lr=4.06e-5, REAL it/s=1.550, Kt/s=76.10]
57
- ```
58
-
59
- laws-symato-16k-refined round 1 (epoch 8 là test)
60
- ```
61
- >>> Sampling: idx/ii 50000/2073046, i/n 1061399552/1202049050
62
- Epoch 8: 25% 710/2787 [07:39<22:24, 1.54it/s, loss=1.310, lr=0.000128, REAL it/s=1.540, Kt/s=75.90]
63
- Epoch 8: 77% 2157/2787 [23:15<06:47, 1.55it/s, loss=1.330, lr=0.000119, REAL it/s=1.550, Kt/s=76.00]
64
- ```
65
-
66
- laws-symato-16k-refined round 2 (epoch 8 là test)
67
- ```
68
- >>> Sampling: idx/ii 0/1873046, i/n 958999722/1202049050
69
- Epoch 8: 34% 939/2787 [10:07<19:56, 1.54it/s, loss=1.280, lr=5.79e-5, REAL it/s=1.550, Kt/s=75.90]
70
- ```
71
-
72
- laws-symato-16k-refined round 3 (epoch 8 là test)
73
- ```
74
- >>> Sampling: idx/ii 0/1873046, i/n 958999892/1202049050
75
- Epoch 8: 77% 2157/2787 [23:19<06:48, 1.54it/s, loss=1.350, lr=3.28e-5, REAL it/s=1.540, Kt/s=75.60]
76
- ```
 
15
  - [x] Tknz theo symato_16k_refined (~5g filtered text = ~1.2 tỉ tokens)
16
  - Tỉ lệ nén bằng 86% sentencepiece_16k trên toàn bộ tập dữ liệu và tập trung nén âm tiết
17
 
18
+ - [x] Huấn luyện các mô hình sau với dữ liệu laws:
19
  - [x] Model-1: symato_2944 3 lượt:
20
  - [x] Lấy mẫu ngẫu nhiên
21
  - [x] Cách lấy mẫu mới đảm bảo mỗi token được huấn luyện 1 lần
 
34
  - [x] Mỗi mẫu huấn luyện 1 lần data_shift = 0
35
  - [x] Mỗi mẫu huấn luyện 1 lần data_shift = 170
36
  - [x] Mỗi mẫu huấn luyện 1 lần data_shift = 340