tiendung commited on
Commit
4a357e0
·
verified ·
1 Parent(s): 743f00c

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +7 -5
README.md CHANGED
@@ -7,11 +7,12 @@ sdk: static
7
  pinned: false
8
  ---
9
 
10
- ## Chúng tôi làm AI tiếng Việt
11
 
12
  Bắt đầu với mô hình ngôn ngữ lớn, với những thử nghiệm về tokenization và xây dựng bộ dữ liệu
13
 
14
- ## Tokenization
 
15
 
16
  Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt hoặc cho tiếng Việt-Anh-Trung và code, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
17
  ![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/60c953fa9cacafb192d805fd/puSGRRQ1XUh0aHxuZ36do.jpeg)
@@ -19,7 +20,7 @@ credit: https://huggingface.co/nampdn-ai
19
 
20
  Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.
21
 
22
- ## Bộ dữ liệu
23
  Chúng tôi là những người đầu tiên crawl toàn bộ common crawl để lọc dữ liệu tiếng Việt tại https://huggingface.co/datasets/Symato/cc (shout out to
24
  [binhvq](https://huggingface.co/binhvq), [nampdn-ai](https://huggingface.co/nampdn-ai) và [iambestfeed](https://huggingface.co/iambestfeed))
25
 
@@ -27,11 +28,12 @@ Bạn có thể tìm thấy các datasets khác tại [Vietnamese Text Corpus Co
27
 
28
  Và bộ dữ liệu có độ chắt lọc cao hơn tại [Knowledge Base Collection](https://huggingface.co/collections/Symato/knowledge-base-66f614977024ed3df9531db9)
29
 
30
- ## Góp phần tạo ra [Viet-Mistral](https://huggingface.co/Viet-Mistral)
31
  Shout out to [anh Hữu](https://huggingface.co/huu-ontocord) và Viet-Mistral team đã tạo ra một open LLM "sõi" tiếng Việt nhất. LLMs phát triển quá nhanh và nhiều model sau vượt trội viet-mistral nhưng lượng tokens tiếng Việt không nhiều bằng viet-mistral.
32
  Nếu cần LLM to với nhiều kỹ năng hãy dùng các LLM đa ngôn ngữ mới release gần đây, nếu cần LLM thành thạo tiếng Việt hãy dùng viet-mistral.
33
 
34
- ## DOT series
 
35
 
36
  <a href="https://huggingface.co/collections/Symato/dot-66f7743758b5ce30d51d56db"><svg xmlns="http://www.w3.org/2000/svg"
37
  viewBox="0 0 530 160">
 
7
  pinned: false
8
  ---
9
 
10
+ # Chúng tôi làm AI tiếng Việt
11
 
12
  Bắt đầu với mô hình ngôn ngữ lớn, với những thử nghiệm về tokenization và xây dựng bộ dữ liệu
13
 
14
+ ## What's done?
15
+ ### Tokenization
16
 
17
  Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt hoặc cho tiếng Việt-Anh-Trung và code, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
18
  ![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/60c953fa9cacafb192d805fd/puSGRRQ1XUh0aHxuZ36do.jpeg)
 
20
 
21
  Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.
22
 
23
+ ### Bộ dữ liệu
24
  Chúng tôi là những người đầu tiên crawl toàn bộ common crawl để lọc dữ liệu tiếng Việt tại https://huggingface.co/datasets/Symato/cc (shout out to
25
  [binhvq](https://huggingface.co/binhvq), [nampdn-ai](https://huggingface.co/nampdn-ai) và [iambestfeed](https://huggingface.co/iambestfeed))
26
 
 
28
 
29
  Và bộ dữ liệu có độ chắt lọc cao hơn tại [Knowledge Base Collection](https://huggingface.co/collections/Symato/knowledge-base-66f614977024ed3df9531db9)
30
 
31
+ ### Góp phần tạo ra [Viet-Mistral](https://huggingface.co/Viet-Mistral)
32
  Shout out to [anh Hữu](https://huggingface.co/huu-ontocord) và Viet-Mistral team đã tạo ra một open LLM "sõi" tiếng Việt nhất. LLMs phát triển quá nhanh và nhiều model sau vượt trội viet-mistral nhưng lượng tokens tiếng Việt không nhiều bằng viet-mistral.
33
  Nếu cần LLM to với nhiều kỹ năng hãy dùng các LLM đa ngôn ngữ mới release gần đây, nếu cần LLM thành thạo tiếng Việt hãy dùng viet-mistral.
34
 
35
+ ## What's next?
36
+ ### DOT series
37
 
38
  <a href="https://huggingface.co/collections/Symato/dot-66f7743758b5ce30d51d56db"><svg xmlns="http://www.w3.org/2000/svg"
39
  viewBox="0 0 530 160">