Spaces:
Running
Running
Update README.md
Browse files
README.md
CHANGED
|
@@ -7,11 +7,12 @@ sdk: static
|
|
| 7 |
pinned: false
|
| 8 |
---
|
| 9 |
|
| 10 |
-
#
|
| 11 |
|
| 12 |
Bắt đầu với mô hình ngôn ngữ lớn, với những thử nghiệm về tokenization và xây dựng bộ dữ liệu
|
| 13 |
|
| 14 |
-
##
|
|
|
|
| 15 |
|
| 16 |
Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt hoặc cho tiếng Việt-Anh-Trung và code, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
|
| 17 |

|
|
@@ -19,7 +20,7 @@ credit: https://huggingface.co/nampdn-ai
|
|
| 19 |
|
| 20 |
Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.
|
| 21 |
|
| 22 |
-
## Bộ dữ liệu
|
| 23 |
Chúng tôi là những người đầu tiên crawl toàn bộ common crawl để lọc dữ liệu tiếng Việt tại https://huggingface.co/datasets/Symato/cc (shout out to
|
| 24 |
[binhvq](https://huggingface.co/binhvq), [nampdn-ai](https://huggingface.co/nampdn-ai) và [iambestfeed](https://huggingface.co/iambestfeed))
|
| 25 |
|
|
@@ -27,11 +28,12 @@ Bạn có thể tìm thấy các datasets khác tại [Vietnamese Text Corpus Co
|
|
| 27 |
|
| 28 |
Và bộ dữ liệu có độ chắt lọc cao hơn tại [Knowledge Base Collection](https://huggingface.co/collections/Symato/knowledge-base-66f614977024ed3df9531db9)
|
| 29 |
|
| 30 |
-
## Góp phần tạo ra [Viet-Mistral](https://huggingface.co/Viet-Mistral)
|
| 31 |
Shout out to [anh Hữu](https://huggingface.co/huu-ontocord) và Viet-Mistral team đã tạo ra một open LLM "sõi" tiếng Việt nhất. LLMs phát triển quá nhanh và nhiều model sau vượt trội viet-mistral nhưng lượng tokens tiếng Việt không nhiều bằng viet-mistral.
|
| 32 |
Nếu cần LLM to với nhiều kỹ năng hãy dùng các LLM đa ngôn ngữ mới release gần đây, nếu cần LLM thành thạo tiếng Việt hãy dùng viet-mistral.
|
| 33 |
|
| 34 |
-
##
|
|
|
|
| 35 |
|
| 36 |
<a href="https://huggingface.co/collections/Symato/dot-66f7743758b5ce30d51d56db"><svg xmlns="http://www.w3.org/2000/svg"
|
| 37 |
viewBox="0 0 530 160">
|
|
|
|
| 7 |
pinned: false
|
| 8 |
---
|
| 9 |
|
| 10 |
+
# Chúng tôi làm AI tiếng Việt
|
| 11 |
|
| 12 |
Bắt đầu với mô hình ngôn ngữ lớn, với những thử nghiệm về tokenization và xây dựng bộ dữ liệu
|
| 13 |
|
| 14 |
+
## What's done?
|
| 15 |
+
### Tokenization
|
| 16 |
|
| 17 |
Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt hoặc cho tiếng Việt-Anh-Trung và code, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
|
| 18 |

|
|
|
|
| 20 |
|
| 21 |
Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.
|
| 22 |
|
| 23 |
+
### Bộ dữ liệu
|
| 24 |
Chúng tôi là những người đầu tiên crawl toàn bộ common crawl để lọc dữ liệu tiếng Việt tại https://huggingface.co/datasets/Symato/cc (shout out to
|
| 25 |
[binhvq](https://huggingface.co/binhvq), [nampdn-ai](https://huggingface.co/nampdn-ai) và [iambestfeed](https://huggingface.co/iambestfeed))
|
| 26 |
|
|
|
|
| 28 |
|
| 29 |
Và bộ dữ liệu có độ chắt lọc cao hơn tại [Knowledge Base Collection](https://huggingface.co/collections/Symato/knowledge-base-66f614977024ed3df9531db9)
|
| 30 |
|
| 31 |
+
### Góp phần tạo ra [Viet-Mistral](https://huggingface.co/Viet-Mistral)
|
| 32 |
Shout out to [anh Hữu](https://huggingface.co/huu-ontocord) và Viet-Mistral team đã tạo ra một open LLM "sõi" tiếng Việt nhất. LLMs phát triển quá nhanh và nhiều model sau vượt trội viet-mistral nhưng lượng tokens tiếng Việt không nhiều bằng viet-mistral.
|
| 33 |
Nếu cần LLM to với nhiều kỹ năng hãy dùng các LLM đa ngôn ngữ mới release gần đây, nếu cần LLM thành thạo tiếng Việt hãy dùng viet-mistral.
|
| 34 |
|
| 35 |
+
## What's next?
|
| 36 |
+
### DOT series
|
| 37 |
|
| 38 |
<a href="https://huggingface.co/collections/Symato/dot-66f7743758b5ce30d51d56db"><svg xmlns="http://www.w3.org/2000/svg"
|
| 39 |
viewBox="0 0 530 160">
|