Spaces:

Symato
/

README

Running

App Files Files Community

tiendung commited on Sep 28, 2024

Commit

4a357e0

verified ·

1 Parent(s): 743f00c

Update README.md

Browse files

Files changed (1) hide show

README.md +7 -5

README.md CHANGED Viewed

@@ -7,11 +7,12 @@ sdk: static
 pinned: false
 ---
-## Chúng tôi làm AI tiếng Việt
 Bắt đầu với mô hình ngôn ngữ lớn, với những thử nghiệm về tokenization và xây dựng bộ dữ liệu
-## Tokenization
 Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt hoặc cho tiếng Việt-Anh-Trung và code, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
 ![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/60c953fa9cacafb192d805fd/puSGRRQ1XUh0aHxuZ36do.jpeg)
@@ -19,7 +20,7 @@ credit: https://huggingface.co/nampdn-ai
 Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.
-## Bộ dữ liệu
 Chúng tôi là những người đầu tiên crawl toàn bộ common crawl để lọc dữ liệu tiếng Việt tại https://huggingface.co/datasets/Symato/cc (shout out to
 [binhvq](https://huggingface.co/binhvq), [nampdn-ai](https://huggingface.co/nampdn-ai) và [iambestfeed](https://huggingface.co/iambestfeed))
@@ -27,11 +28,12 @@ Bạn có thể tìm thấy các datasets khác tại [Vietnamese Text Corpus Co
 Và bộ dữ liệu có độ chắt lọc cao hơn tại [Knowledge Base Collection](https://huggingface.co/collections/Symato/knowledge-base-66f614977024ed3df9531db9)
-## Góp phần tạo ra [Viet-Mistral](https://huggingface.co/Viet-Mistral)
 Shout out to [anh Hữu](https://huggingface.co/huu-ontocord) và Viet-Mistral team đã tạo ra một open LLM "sõi" tiếng Việt nhất. LLMs phát triển quá nhanh và nhiều model sau vượt trội viet-mistral nhưng lượng tokens tiếng Việt không nhiều bằng viet-mistral.
 Nếu cần LLM to với nhiều kỹ năng hãy dùng các LLM đa ngôn ngữ mới release gần đây, nếu cần LLM thành thạo tiếng Việt hãy dùng viet-mistral.
-## DOT series
 <a href="https://huggingface.co/collections/Symato/dot-66f7743758b5ce30d51d56db"><svg xmlns="http://www.w3.org/2000/svg"
                                                                                    viewBox="0 0 530 160">

 pinned: false
 ---
+# Chúng tôi làm AI tiếng Việt
 Bắt đầu với mô hình ngôn ngữ lớn, với những thử nghiệm về tokenization và xây dựng bộ dữ liệu
+## What's done?
+### Tokenization
 Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt hoặc cho tiếng Việt-Anh-Trung và code, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
 ![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/60c953fa9cacafb192d805fd/puSGRRQ1XUh0aHxuZ36do.jpeg)
 Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.
+### Bộ dữ liệu
 Chúng tôi là những người đầu tiên crawl toàn bộ common crawl để lọc dữ liệu tiếng Việt tại https://huggingface.co/datasets/Symato/cc (shout out to
 [binhvq](https://huggingface.co/binhvq), [nampdn-ai](https://huggingface.co/nampdn-ai) và [iambestfeed](https://huggingface.co/iambestfeed))
 Và bộ dữ liệu có độ chắt lọc cao hơn tại [Knowledge Base Collection](https://huggingface.co/collections/Symato/knowledge-base-66f614977024ed3df9531db9)
+### Góp phần tạo ra [Viet-Mistral](https://huggingface.co/Viet-Mistral)
 Shout out to [anh Hữu](https://huggingface.co/huu-ontocord) và Viet-Mistral team đã tạo ra một open LLM "sõi" tiếng Việt nhất. LLMs phát triển quá nhanh và nhiều model sau vượt trội viet-mistral nhưng lượng tokens tiếng Việt không nhiều bằng viet-mistral.
 Nếu cần LLM to với nhiều kỹ năng hãy dùng các LLM đa ngôn ngữ mới release gần đây, nếu cần LLM thành thạo tiếng Việt hãy dùng viet-mistral.
+## What's next?
+### DOT series
 <a href="https://huggingface.co/collections/Symato/dot-66f7743758b5ce30d51d56db"><svg xmlns="http://www.w3.org/2000/svg"
                                                                                    viewBox="0 0 530 160">