Spaces:
Running
Running
Update README.md
Browse files
README.md
CHANGED
|
@@ -11,5 +11,6 @@ Chúng tôi làm AI cho tiếng Việt. Bắt đầu với mô hình ngôn ngữ
|
|
| 11 |
|
| 12 |
Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
|
| 13 |

|
|
|
|
| 14 |
|
| 15 |
Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.
|
|
|
|
| 11 |
|
| 12 |
Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
|
| 13 |

|
| 14 |
+
credit: https://huggingface.co/nampdn-ai
|
| 15 |
|
| 16 |
Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.
|