tiendung
/

symato-nvidia-vn

Model card Files Files and versions

tiendung commited on Mar 9, 2023

Commit

41babee

·

1 Parent(s): fad87a2

Update README.md

Files changed (1) hide show

README.md +1 -41

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ Tài trợ bởi Nvidia Việt Nam
   - [x] Tknz theo symato_16k_refined (~5g filtered text = ~1.2 tỉ tokens)
     - Tỉ lệ nén bằng 86% sentencepiece_16k trên toàn bộ tập dữ liệu và tập trung nén âm tiết
-- [z] Huấn luyện các mô hình sau với dữ liệu laws:
   - [x] Model-1: symato_2944 3 lượt:
     - [x] Lấy mẫu ngẫu nhiên
     - [x] Cách lấy mẫu mới đảm bảo mỗi token được huấn luyện 1 lần
@@ -34,43 +34,3 @@ Tài trợ bởi Nvidia Việt Nam
       - [x] Mỗi mẫu huấn luyện 1 lần data_shift = 0
       - [x] Mỗi mẫu huấn luyện 1 lần data_shift = 170
       - [x] Mỗi mẫu huấn luyện 1 lần data_shift = 340
-- - -
-Mỗi round = đi 1 lượt datasset = mỗi token đc huấn luyện 1 lần
-laws-sentencepiece-16k round 2 (epoch 8 là test)
-```
->>> Sampling: idx/ii 50000/2073046, i/n 1061399722/1160986539
-Epoch 8:  18%  500/2787 [05:24<24:42,  1.54it/s, loss=1.530, lr=7.79e-5, REAL it/s=1.540, Kt/s=75.90]
-Epoch 8:  36% 1001/2787 [10:48<19:17,  1.54it/s, loss=1.510, lr=7.63e-5, REAL it/s=1.550, Kt/s=76.00]
-Epoch 8:  47% 1322/2787 [14:16<15:48,  1.54it/s, loss=1.400, lr=7.53e-5, REAL it/s=1.540, Kt/s=75.90]
-```
-laws-sentencepiece-16k round 3 (epoch 8 là test)
-```
->>> Sampling: idx/ii 50000/2073046, i/n 1061399552/1160986539
-Epoch 8:  34%  954/2787 [10:17<19:46,  1.54it/s, loss=1.530, lr=4.11e-5, REAL it/s=1.550, Kt/s=76.00]
-Epoch 8:  47% 1322/2787 [14:15<15:48,  1.54it/s, loss=1.390, lr=4.06e-5, REAL it/s=1.550, Kt/s=76.10]
-```
-laws-symato-16k-refined round 1 (epoch 8 là test)
-```
->>> Sampling: idx/ii 50000/2073046, i/n 1061399552/1202049050
-Epoch 8:  25%  710/2787 [07:39<22:24,  1.54it/s, loss=1.310, lr=0.000128, REAL it/s=1.540, Kt/s=75.90]
-Epoch 8:  77% 2157/2787 [23:15<06:47,  1.55it/s, loss=1.330, lr=0.000119, REAL it/s=1.550, Kt/s=76.00]
-```
-laws-symato-16k-refined round 2 (epoch 8 là test)
-```
->>> Sampling: idx/ii 0/1873046, i/n 958999722/1202049050
-Epoch 8:  34%  939/2787 [10:07<19:56,  1.54it/s, loss=1.280, lr=5.79e-5, REAL it/s=1.550, Kt/s=75.90]
-```
-laws-symato-16k-refined round 3 (epoch 8 là test)
-```
->>> Sampling: idx/ii 0/1873046, i/n 958999892/1202049050
-Epoch 8:  77% 2157/2787 [23:19<06:48,  1.54it/s, loss=1.350, lr=3.28e-5, REAL it/s=1.540, Kt/s=75.60]
-```

   - [x] Tknz theo symato_16k_refined (~5g filtered text = ~1.2 tỉ tokens)
     - Tỉ lệ nén bằng 86% sentencepiece_16k trên toàn bộ tập dữ liệu và tập trung nén âm tiết
+- [x] Huấn luyện các mô hình sau với dữ liệu laws:
   - [x] Model-1: symato_2944 3 lượt:
     - [x] Lấy mẫu ngẫu nhiên
     - [x] Cách lấy mẫu mới đảm bảo mỗi token được huấn luyện 1 lần
       - [x] Mỗi mẫu huấn luyện 1 lần data_shift = 0
       - [x] Mỗi mẫu huấn luyện 1 lần data_shift = 170
       - [x] Mỗi mẫu huấn luyện 1 lần data_shift = 340