Spaces:
Running
Running
Update README.md
Browse files
README.md
CHANGED
|
@@ -12,3 +12,4 @@ Chúng tôi làm AI cho tiếng Việt. Bắt đầu với mô hình ngôn ngữ
|
|
| 12 |
Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
|
| 13 |

|
| 14 |
|
|
|
|
|
|
| 12 |
Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
|
| 13 |

|
| 14 |
|
| 15 |
+
Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.
|