tiendung commited on
Commit
2f2cef6
·
verified ·
1 Parent(s): c38b96a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -0
README.md CHANGED
@@ -12,3 +12,4 @@ Chúng tôi làm AI cho tiếng Việt. Bắt đầu với mô hình ngôn ngữ
12
  Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
13
  ![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/60c953fa9cacafb192d805fd/puSGRRQ1XUh0aHxuZ36do.jpeg)
14
 
 
 
12
  Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
13
  ![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/60c953fa9cacafb192d805fd/puSGRRQ1XUh0aHxuZ36do.jpeg)
14
 
15
+ Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.