DatarrX
/

myX-Tokenizer-BPE

Feature Extraction

Transformers

Burmese

Model card Files Files and versions

xet

Community

kalixlouiis commited on 19 days ago

Commit

134468a

verified ·

1 Parent(s): c67e29c

Update README.md

Browse files

Files changed (1) hide show

README.md +41 -1

README.md CHANGED Viewed

@@ -5,7 +5,7 @@ datasets:
 - kalixlouiis/raw-data
 language:
 - my
-new_version: DatarrX/myX-Tokenizer-Unigram
 pipeline_tag: feature-extraction
 ---
 # DatarrX / myX-Tokenizer-BPE ⚙️
@@ -33,6 +33,26 @@ Trained on [kalixlouiis/raw-data](https://huggingface.co/datasets/kalixlouiis/ra
 * **English Language Weakness:** Since this model was trained purely on Burmese data, it is notably weak in processing English text, often leading to excessive character-level fragmentation for Latin scripts.
 * **BPE Nature:** Compared to our Unigram models, this BPE version may offer different segmentation logic which might affect certain downstream NLP tasks.
 ---
 # DatarrX - myX-Tokenizer-BPE (မြန်မာဘာသာ) ⚙️
@@ -78,3 +98,23 @@ print(sp.encode_as_pieces(text))
 # ✍️ Project Authors
 - Developer: [**Khant Sint Heinn (Kalix Louis)**](https://huggingface.co/kalixlouiis)
 - Organization: [**DatarrX (Myanmar Open Source NGO)**](https://huggingface.co/DatarrX)

 - kalixlouiis/raw-data
 language:
 - my
+new_version: DatarrX/myX-Tokenizer
 pipeline_tag: feature-extraction
 ---
 # DatarrX / myX-Tokenizer-BPE ⚙️
 * **English Language Weakness:** Since this model was trained purely on Burmese data, it is notably weak in processing English text, often leading to excessive character-level fragmentation for Latin scripts.
 * **BPE Nature:** Compared to our Unigram models, this BPE version may offer different segmentation logic which might affect certain downstream NLP tasks.
+## Citation
+If you use this tokenizer in your research or project, please cite it as follows:
+### APA 7th Edition
+Khant Sint Heinn. (2026). *myX-Tokenizer-BPE: Byte Pair Encoding Baseline for Burmese (Version 1.0)* [Computer software]. Hugging Face. https://huggingface.co/DatarrX/myX-Tokenizer-BPE
+### BibTeX
+```BibTeX
+@software{khantsintheinn2026bpe,
+  author = {Khant Sint Heinn},
+  title = {myX-Tokenizer-BPE: Byte Pair Encoding Baseline for Burmese},
+  version = {1.0},
+  year = {2026},
+  publisher = {Hugging Face},
+  url = {https://huggingface.co/DatarrX/myX-Tokenizer-BPE},
+  note = {BPE algorithm based on Burmese raw data}
+}
+```
 ---
 # DatarrX - myX-Tokenizer-BPE (မြန်မာဘာသာ) ⚙️
 # ✍️ Project Authors
 - Developer: [**Khant Sint Heinn (Kalix Louis)**](https://huggingface.co/kalixlouiis)
 - Organization: [**DatarrX (Myanmar Open Source NGO)**](https://huggingface.co/DatarrX)
+## Citation
+အကယ်၍ သင်သည် ဤ model ကို သင်၏ သုတေသနလုပ်ငန်းများတွင် အသုံးပြုခဲ့ပါက အောက်ပါအတိုင်း ကိုးကားပေးရန် မေတ္တာရပ်ခံအပ်ပါသည်။
+### APA 7th Edition
+Khant Sint Heinn. (2026). *myX-Tokenizer-BPE: Byte Pair Encoding Baseline for Burmese (Version 1.0)* [Computer software]. Hugging Face. https://huggingface.co/DatarrX/myX-Tokenizer-BPE
+### BibTeX
+```BibTeX
+@software{khantsintheinn2026bpe,
+  author = {Khant Sint Heinn},
+  title = {myX-Tokenizer-BPE: Byte Pair Encoding Baseline for Burmese},
+  version = {1.0},
+  year = {2026},
+  publisher = {Hugging Face},
+  url = {https://huggingface.co/DatarrX/myX-Tokenizer-BPE},
+  note = {BPE algorithm based on Burmese raw data}
+}
+```