File size: 18,782 Bytes
eb33606 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 | ---
license: apache-2.0
language:
- my
pipeline_tag: sentence-similarity
tags:
- myanmar
- burmese
- nlp
- embeddings
- fasttext
library_name: fasttext
datasets:
- DatarrX/myX-Mega-Corpus
---
# myX-Static: High-Performance Word Embeddings for Burmese (Myanmar)
## 1. Introduction
**myX-Static** is a robust word embedding model designed specifically for the Burmese (Myanmar) language. Built using the FastText (Skip-gram) architecture, it transforms Burmese text into dense vector representations. The model is engineered to capture both semantic meanings and morphological nuances, making it highly effective for various downstream Natural Language Processing (NLP) tasks in the Myanmar digital ecosystem.
## 2. Developer Information
This model is developed by [**Khant Sint Heinn (Kalix Louis)**](https://huggingface.co/kalixlouiis) and published by [**DatarrX**](https://huggingface.co/DatarrX), a Myanmar-based Open Source NGO dedicated to expanding NLP resources and AI accessibility for the Burmese language.
## 3. Intended Use Cases
**myX-Static** serves as a lightweight yet powerful foundation for:
* **Semantic Search:** Retrieving documents based on meaning rather than just keyword matching.
* **Smart Spell Correction:** Utilizing subword information to suggest corrections for misspelled Burmese words.
* **Text Classification:** Providing high-quality features for sentiment analysis or news categorization.
* **Efficiency-First Apps:** Ideal for environments with limited hardware (CPU-only) where heavy Transformer models are not feasible.
* **Foundational Layer:** Acting as a lexical base for more complex models like **myX-Semantic**.
## 4. Technical Specifications
The model was trained with high-density parameters to ensure stability across diverse domains:
* **Architecture:** FastText (Skip-gram)
* **Training Corpus:** [**myX-Mega-Corpus**](https://huggingface.co/datasets/DatarrX/myX-Mega-Corpus) (18.6 Million sentences / ~393 Million words)
* **Tokenizer:** [**myX-Tokenizer**](https://huggingface.co/DatarrX/myX-Tokenizer) (SentencePiece, Unigram)
* **Vocabulary Size:** 107,694 unique tokens
* **Vector Dimension:** 100
* **Hyperparameters:** `minCount: 20`, `windowSize: 5`, `epochs: 3`, `negSampling: 5`
## 5. Quick Start Guide
### Installation
```bash
pip install fasttext huggingface_hub
```
### Loading the Model
You can download and load the model directly from the Hugging Face Hub:
```python
import fasttext
from huggingface_hub import hf_hub_download
# Download the binary file from HF
model_path = hf_hub_download(repo_id="DatarrX/myX-Static", filename="model.bin")
# Load using FastText
model = fasttext.load_model(model_path)
```
### Basic Operations
**A) Find Semantically Similar Words**
```python
neighbors = model.get_nearest_neighbors("နည်းပညာ") # "Technology"
for score, neighbor in neighbors:
print(f"{neighbor}: {score:.4f}")
```
**B) Calculate Similarity Score**
```python
import numpy as np
def get_similarity(w1, w2):
v1 = model.get_word_vector(w1)
v2 = model.get_word_vector(w2)
return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
print(f"Similarity: {get_similarity('ပျော်တယ်', 'ဝမ်းသာတယ်'):.4f}")
```
## 6. Training Procedure Summary
The training pipeline involved a two-stage process:
1. **Optimized Tokenization:** Large-scale multiprocessing was used to tokenize 18M+ sentences into subword units using the `myX-Tokenizer`.
2. **Unsupervised Training:** The tokens were fed into the FastText engine using a Skip-gram approach, allowing the model to learn word representations by predicting surrounding context.
## 7. Limitations & Ethics
* **Encoding:** This model is strictly optimized for **Unicode** Burmese text. It will not perform correctly with non-standard encodings (e.g., Zawgyi).
* **Bias:** Like all models trained on web data, it may reflect biases present in the training corpus.
* **Language Scope:** Designed exclusively for the Burmese language.
## 8. License
This model is released under the **Apache License 2.0**. It is free for both commercial and research use, provided that proper attribution is given to the original authors.
## 9. About DatarrX
[**DatarrX**](https://huggingface.co/DatarrX) is an Open-source NGO focused on building high-quality NLP datasets and AI models for the Myanmar language. Our mission is to bridge the digital gap and provide everyone with access to free, high-performance AI tools.
## 10. Citation
If you use this model in your research or production environment, please cite it as follows:
**BibTeX:**
```bibtex
@software{khantsintheinn2026myxstatic,
author = {Khant Sint Heinn},
title = {myX-Static: High-Performance Burmese Word Embedding Model},
year = {2026},
publisher = {DatarrX},
url = {https://huggingface.co/DatarrX/myX-Static},
note = {Myanmar Open Source NGO}
}
```
## Model Card Contact
For inquiries, please contact through **DatarrX** or **Kalix Louis**.
## About the Author
**Khant Sint Heinn**, working under the name **Kalix Louis**, is a **Machine Learning Engineer focused on Natural Language Processing (NLP), data foundations, and open-source AI development**. His work is centered on improving support for the Burmese (Myanmar) language in modern AI systems by building high-quality datasets, practical tools, and scalable infrastructure for language technology.
He is currently the **Lead Developer at DatarrX**, where he develops data pipelines, manages large-scale data collection workflows, and helps create open-source resources for researchers, developers, and organizations. His experience includes data engineering, web scripting, dataset curation, and building systems that support real-world machine learning applications.
Khant Sint Heinn is especially interested in advancing low-resource languages and making AI more accessible to underrepresented communities. Through his open-source contributions, he works to strengthen the Burmese (Myanmar) tech ecosystem and provide reliable building blocks for future language models, search systems, and intelligent applications.
His goal is simple: to turn limited language resources into practical opportunities through clean data, useful tools, and community-driven innovation.
**Connect with the Author:**
[GitHub](https://github.com/kalixlouiis) | [Hugging Face](https://huggingface.co/kalixlouiis) | [Kaggle](https://www.kaggle.com/organizations/kalixlouiis)
---
## ၁။ နိဒါန်း (Introduction)
**myX-Static** သည် မြန်မာဘာသာစကား၏ စကားလုံးများအကြား အနက်အဓိပ္ပာယ် ဆက်စပ်မှုများကို (Word Embedding) အဖြစ် ပြောင်းလဲပေးနိုင်သော မော်ဒယ်တစ်ခုဖြစ်သည်။ ဤမော်ဒယ်သည် မြန်မာစာသားများအတွင်းရှိ စကားလုံးများ၏ ရုပ်သွင်ဆင်တူမှုနှင့် အခြေခံအဓိပ္ပာယ်တူညီမှုများကို နားလည်နိုင်ရန် FastText (Skip-gram) နည်းပညာကို အခြေခံ၍ တည်ဆောက်ထားခြင်းဖြစ်သည်။
## ၂။ ထုတ်လုပ်သူ (Developer Information)
ဤ Model ကို [**DatarrX (Myanmar Open Source NGO)**](https://huggingface.co/DatarrX) မှ ထုတ်ဝေခြင်းဖြစ်ပြီး [**Khant Sint Heinn (Kalix Louis)**(https://huggingface.co/kalixlouiis)] မှ အဓိက ဖန်တီးတည်ဆောက်ထားခြင်း ဖြစ်ပါသည်။ မြန်မာဘာသာစကားဆိုင်ရာ သဘာဝဘာသာစကား စီမံဆောင်ရွက်မှု (Natural Language Processing - NLP) အရင်းအမြစ်များကို ပိုမိုပေါများလာစေရန် ရည်ရွယ်၍ ဖန်တီးခဲ့ခြင်းဖြစ်သည်။
## ၃။ အသုံးပြုနိုင်သည့် နယ်ပယ်များ (Intended Use)
myX-Static ကို အောက်ပါ NLP လုပ်ငန်းစဉ်များတွင် အခြေခံအုတ်မြစ်အဖြစ် အသုံးပြုနိုင်သည် -
* **Keyword Similarity:** အဓိပ္ပာယ်တူ စကားလုံးများ ရှာဖွေခြင်း။
* **Spell Correction Support:** စာလုံးပေါင်း မှားယွင်းမှုများကို subword pattern များဖြင့် ပြန်လည်ရှာဖွေခြင်း။
* **Fast Text Processing:** CPU သာရှိသော အခြေအနေများတွင် မြန်ဆန်စွာ အသုံးပြုနိုင်ခြင်း။
* **Foundation for myX-Semantic:** ပိုမိုနက်နဲသော Contextual tasks များအတွက် အခြေခံအုတ်မြစ်အဖြစ် သုံးနိုင်ခြင်း။
## ၄။ နည်းပညာဆိုင်ရာ အချက်အလက်များ (Technical Details)
* **Architecture:** FastText (Skip-gram)
* **Training Data:** 18.6 Million sentences (Approx. 393 Million words) from [myX-Mega-Corpus](https://huggingface.co/datasets/DatarrX/myX-Mega-Corpus).
* **Tokenizer:** [myX-Tokenizer](https://huggingface.co/DatarrX/myX-Tokenizer) (SentencePiece pieces, Unigram)
* **Vocabulary Size:** 107,694 unique tokens.
* **Vector Dimension:** 100
* **Min Count:** 20 | **Window Size:** 5 | **Epochs:** 3
## ၅။ ကန့်သတ်ချက်များနှင့် လိုင်စင် (Limitations and License)
### ၅.၁ ကန့်သတ်ချက်များ (Limitations)
* ဤမော်ဒယ်သည် Unicode စံနှုန်းဖြင့် ရေးသားထားသော စာသားများတွင်သာ အကောင်းဆုံး စွမ်းဆောင်နိုင်မည်ဖြစ်သည်။
* လေ့ကျင့်ထားသော ဒေတာများအတွင်းမှ ဘက်လိုက်မှု (Bias) များသည် မော်ဒယ်၏ ရလဒ်အပေါ် သက်ရောက်မှု ရှိနိုင်သည်။
### ၅.၂ လိုင်စင် (License)
ဤမော်ဒယ်အား **Apache License 2.0** အောက်တွင် ထုတ်ဝေထားပါသည်။ စီးပွားရေးလုပ်ငန်းများနှင့် သုတေသနလုပ်ငန်းများတွင် လွတ်လပ်စွာ အသုံးပြုနိုင်သော်လည်း မူရင်းဖန်တီးသူကို သတ်မှတ်ထားသည့်အတိုင်း ကိုးကားဖော်ပြရမည်ဖြစ်သည်။
## ၆။ အသုံးပြုနည်း လမ်းညွှန် (How to Use)
ဤ Model ကို Python environment တွင် အောက်ပါအဆင့်များအတိုင်း အသုံးပြုနိုင်သည်။
### ၆.၁ လိုအပ်သော Library များ ထည့်သွင်းခြင်း (Installation)
ပထမဦးစွာ Model ကို Load လုပ်ရန်နှင့် Hugging Face မှ Download ရယူရန် လိုအပ်သော Library များကို Install လုပ်ပါ။
```BASH
pip install fasttext huggingface_hub
```
### ၆.၂ Model ကို Load လုပ်ခြင်း (Loading the Model)
Hugging Face Hub မှ Model ကို တိုက်ရိုက် Download ရယူပြီး Load လုပ်ရန် အောက်ပါ Code ကို အသုံးပြုပါ။
```Python
import fasttext
from huggingface_hub import hf_hub_download
# Hugging Face မှ model ဖိုင်ကို download ဆွဲခြင်း
model_path = hf_hub_download(repo_id="DatarrX/myX-Static", filename="model.bin")
# fasttext ကို သုံးပြီး model ကို load လုပ်ခြင်း
model = fasttext.load_model(model_path)
```
### ၆.၃ အခြေခံ အသုံးပြုနည်းများ (Basic Operations)
Model ရရှိပြီးနောက် အောက်ပါ NLP လုပ်ငန်းစဉ်များကို စမ်းသပ်နိုင်သည်။
- က) အဓိပ္ပာယ်တူညီသော စကားလုံးများ ရှာဖွေခြင်း (Finding Nearest Neighbors)
စကားလုံးတစ်လုံးနှင့် အနီးစပ်ဆုံး အဓိပ္ပာယ်ရှိသော စကားလုံး (၁၀) လုံးကို ရှာဖွေရန်:
```Python
# 'နည်းပညာ' နှင့် အနီးစပ်ဆုံးစကားလုံးများ ရှာခြင်း
neighbors = model.get_nearest_neighbors("နည်းပညာ")
for score, neighbor in neighbors:
print(f"{neighbor}: {score:.4f}")
```
- ခ) စကားလုံးနှစ်လုံး၏ အဓိပ္ပာယ် နီးစပ်မှုကို စစ်ဆေးခြင်း (Calculating Similarity Score)
စကားလုံးနှစ်လုံးသည် အဓိပ္ပာယ်အရ မည်မျှ နီးစပ်သလဲဆိုသည်ကို တွက်ချက်ရန်:
```Python
import numpy as np
def get_similarity(w1, w2):
v1 = model.get_word_vector(w1)
v2 = model.get_word_vector(w2)
return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
score = get_similarity("ပျော်တယ်", "ဝမ်းသာတယ်")
print(f"Similarity Score: {score:.4f}")
```
- ဂ) စာကြောင်းတစ်ခုလုံး၏ Vector ကို ရယူခြင်း (Getting Sentence Vector)
စာကြောင်းတစ်ခုလုံးကို Vector အဖြစ် ပြောင်းလဲရန် (Text Classification သို့မဟုတ် Semantic Search လုပ်ရန်အတွက် အသုံးဝင်သည်):
```Python
sentence_vector = model.get_sentence_vector("မြန်မာနိုင်ငံ၏ နည်းပညာ ကဏ္ဍ တိုးတက်လာပုံ")
print(sentence_vector)
```
## ၇။ လေ့ကျင့်မှု ဖြစ်စဉ် အကျဉ်းချုပ် (Training Procedure Summary)
ဤမော်ဒယ်ကို အဆင့် (၂) ဆင့်ဖြင့် စနစ်တကျ လေ့ကျင့်ခဲ့သည် -
* **အဆင့် (၁) - Tokenization:** [myX-Tokenizer](https://huggingface.co/DatarrX/myX-Tokenizer) ကို အသုံးပြု၍ ၁၆ သန်းကျော်သော စာကြောင်းများကို Subword units များအဖြစ် ခွဲခြားခဲ့သည်။ လုပ်ဆောင်ချက် မြန်ဆန်စေရန် Multiprocessing စနစ်ကို အသုံးပြုခဲ့သည်။
* **အဆင့် (၂) - FastText Training:** ခွဲခြားထားသော Token များကို FastText (Skip-gram) algorithm သုံး၍ Dimension 100 ဖြင့် လေ့ကျင့်ခဲ့သည်။ ပိုမိုတိကျသော Context များရရှိရန် Window Size 5 နှင့် Negative Sampling နည်းလမ်းကို အသုံးပြုခဲ့သည်။
## ၈။ မော်ဒယ်ဆိုင်ရာ အချက်အလက်များ (Model File Info)
* **Model Version:** 1.0
* **File Format:** Binary (.bin)
* **File Size:** ~889.62 MB
* **Vector Dimension:** 100
* **Architecture:** FastText (Skip-gram)
## ၉။ DatarrX အကြောင်း (About DatarrX)
[**DatarrX**](https://huggingface.co/DatarrX) သည် မြန်မာဘာသာစကားအတွက် အဆင့်မြင့် သဘာဝဘာသာစကား စီမံဆောင်ရွက်မှု (Natural Language Processing) အရင်းအမြစ်များကို ဖန်တီးပေးနေသည့် Open-source NGO အဖွဲ့အစည်းတစ်ခုဖြစ်သည်။ မြန်မာနိုင်ငံ၏ ဒစ်ဂျစ်တယ်နည်းပညာကဏ္ဍတွင် AI နှင့် Open Data များ ပိုမိုပေါများလာစေရန်နှင့် မြန်မာဘာသာစကားဆိုင်ရာ ဒေတာစုများ၊ မော်ဒယ်များကို လူတိုင်း အခမဲ့ အသုံးပြုနိုင်ရန် ရည်ရွယ်၍ ဖွဲ့စည်းထားခြင်းဖြစ်သည်။
## ၁၀။ ကိုးကားအသုံးပြုရန် (Citation)
သင်၏ သုတေသန သို့မဟုတ် ပရောဂျက်များတွင် ဤမော်ဒယ်ကို အသုံးပြုပါက အောက်ပါအတိုင်း ကိုးကားပေးပါရန် မေတ္တာရပ်ခံအပ်ပါသည် -
### APA Style
Khant Sint Heinn. (2026). *myX-Static: A Burmese word embedding model for NLP tasks* [Computer software]. DatarrX. https://huggingface.co/DatarrX/myX-Static
### BibTeX
```bibtex
@software{khantsintheinn2026myxstatic,
author = {Khant Sint Heinn},
title = {myX-Static: A Burmese Word Embedding Model for NLP Tasks},
year = {2026},
publisher = {DatarrX},
url = {https://huggingface.co/DatarrX/myX-Static},
note = {Myanmar Open Source NGO}
}
```
## ၁၂။ အသုံးပြုနိုင်သည့် ဘာသာစကား (Intended Language)
ဤမော်ဒယ်ကို **မြန်မာဘာသာစကား (Burmese)** တစ်မျိုးတည်းအတွက်သာ ရည်ရွယ်၍ တည်ဆောက်ထားခြင်းဖြစ်သည်။ အခြားဘာသာစကားများအတွက် အသုံးပြုပါက ရလဒ်ကောင်းမွန်ရန် အာမမခံပါ။ |