Update README.md
Browse files
README.md
CHANGED
|
@@ -87,9 +87,7 @@ print(f"Tokens: {tokens}")
|
|
| 87 |
If you use this tokenizer in your research or project, please cite it as follows:
|
| 88 |
|
| 89 |
### APA 7th Edition
|
| 90 |
-
```APA
|
| 91 |
Khant Sint Heinn. (2026). *myX-Tokenizer: A Syllable-aware Bilingual Unigram Tokenizer for Burmese and English (Version 1.0)* [Computer software]. Hugging Face. https://huggingface.co/DatarrX/myX-Tokenizer
|
| 92 |
-
```
|
| 93 |
|
| 94 |
### BibTeX
|
| 95 |
```BibTeX
|
|
@@ -133,7 +131,6 @@ We are committed to advancing the Burmese NLP ecosystem. For feedback or collabo
|
|
| 133 |
### အသုံးပြုထားသော Dataset (Training Data)
|
| 134 |
ဤ Model ကို [kalixlouiis/myX-Corpus](https://huggingface.co/datasets/kalixlouiis/myX-Corpus) ကို အသုံးပြု၍ လေ့ကျင့်ထားခြင်း ဖြစ်ပါသည်။ ၎င်း Corpus ထဲမှ အရည်အသွေးမြင့် စာကြောင်းပေါင်း **၁.၅ သန်း (1.5 Million)** ကို Random Sample ယူ၍ Train ထားခြင်း ဖြစ်ပါသည်။
|
| 135 |
|
| 136 |
-
|
| 137 |
---
|
| 138 |
|
| 139 |
## ⚠️ သိထားရန် ကန့်သတ်ချက်များ (Limitations & Bias)
|
|
@@ -174,9 +171,7 @@ print(f"Pieces: {sp.encode_as_pieces(text)}")
|
|
| 174 |
အကယ်၍ သင်သည် ဤ model ကို သင်၏ သုတေသနလုပ်ငန်းများတွင် အသုံးပြုခဲ့ပါက အောက်ပါအတိုင်း ကိုးကားပေးရန် မေတ္တာရပ်ခံအပ်ပါသည်။
|
| 175 |
|
| 176 |
### APA 7th Edition
|
| 177 |
-
```APA
|
| 178 |
Khant Sint Heinn. (2026). *myX-Tokenizer: A Syllable-aware Bilingual Unigram Tokenizer for Burmese and English (Version 1.0)* [Computer software]. Hugging Face. https://huggingface.co/DatarrX/myX-Tokenizer
|
| 179 |
-
```
|
| 180 |
|
| 181 |
### BibTeX
|
| 182 |
```BibTeX
|
|
|
|
| 87 |
If you use this tokenizer in your research or project, please cite it as follows:
|
| 88 |
|
| 89 |
### APA 7th Edition
|
|
|
|
| 90 |
Khant Sint Heinn. (2026). *myX-Tokenizer: A Syllable-aware Bilingual Unigram Tokenizer for Burmese and English (Version 1.0)* [Computer software]. Hugging Face. https://huggingface.co/DatarrX/myX-Tokenizer
|
|
|
|
| 91 |
|
| 92 |
### BibTeX
|
| 93 |
```BibTeX
|
|
|
|
| 131 |
### အသုံးပြုထားသော Dataset (Training Data)
|
| 132 |
ဤ Model ကို [kalixlouiis/myX-Corpus](https://huggingface.co/datasets/kalixlouiis/myX-Corpus) ကို အသုံးပြု၍ လေ့ကျင့်ထားခြင်း ဖြစ်ပါသည်။ ၎င်း Corpus ထဲမှ အရည်အသွေးမြင့် စာကြောင်းပေါင်း **၁.၅ သန်း (1.5 Million)** ကို Random Sample ယူ၍ Train ထားခြင်း ဖြစ်ပါသည်။
|
| 133 |
|
|
|
|
| 134 |
---
|
| 135 |
|
| 136 |
## ⚠️ သိထားရန် ကန့်သတ်ချက်များ (Limitations & Bias)
|
|
|
|
| 171 |
အကယ်၍ သင်သည် ဤ model ကို သင်၏ သုတေသနလုပ်ငန်းများတွင် အသုံးပြုခဲ့ပါက အောက်ပါအတိုင်း ကိုးကားပေးရန် မေတ္တာရပ်ခံအပ်ပါသည်။
|
| 172 |
|
| 173 |
### APA 7th Edition
|
|
|
|
| 174 |
Khant Sint Heinn. (2026). *myX-Tokenizer: A Syllable-aware Bilingual Unigram Tokenizer for Burmese and English (Version 1.0)* [Computer software]. Hugging Face. https://huggingface.co/DatarrX/myX-Tokenizer
|
|
|
|
| 175 |
|
| 176 |
### BibTeX
|
| 177 |
```BibTeX
|