File size: 18,782 Bytes
eb33606
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
---
license: apache-2.0
language:
- my
pipeline_tag: sentence-similarity
tags:
- myanmar
- burmese
- nlp
- embeddings
- fasttext
library_name: fasttext
datasets:
- DatarrX/myX-Mega-Corpus
---

# myX-Static: High-Performance Word Embeddings for Burmese (Myanmar)

## 1. Introduction
**myX-Static** is a robust word embedding model designed specifically for the Burmese (Myanmar) language. Built using the FastText (Skip-gram) architecture, it transforms Burmese text into dense vector representations. The model is engineered to capture both semantic meanings and morphological nuances, making it highly effective for various downstream Natural Language Processing (NLP) tasks in the Myanmar digital ecosystem.

## 2. Developer Information
This model is developed by [**Khant Sint Heinn (Kalix Louis)**](https://huggingface.co/kalixlouiis) and published by [**DatarrX**](https://huggingface.co/DatarrX), a Myanmar-based Open Source NGO dedicated to expanding NLP resources and AI accessibility for the Burmese language.

## 3. Intended Use Cases
**myX-Static** serves as a lightweight yet powerful foundation for:
* **Semantic Search:** Retrieving documents based on meaning rather than just keyword matching.
* **Smart Spell Correction:** Utilizing subword information to suggest corrections for misspelled Burmese words.
* **Text Classification:** Providing high-quality features for sentiment analysis or news categorization.
* **Efficiency-First Apps:** Ideal for environments with limited hardware (CPU-only) where heavy Transformer models are not feasible.
* **Foundational Layer:** Acting as a lexical base for more complex models like **myX-Semantic**.

## 4. Technical Specifications
The model was trained with high-density parameters to ensure stability across diverse domains:

*   **Architecture:** FastText (Skip-gram)
*   **Training Corpus:** [**myX-Mega-Corpus**](https://huggingface.co/datasets/DatarrX/myX-Mega-Corpus) (18.6 Million sentences / ~393 Million words)
*   **Tokenizer:** [**myX-Tokenizer**](https://huggingface.co/DatarrX/myX-Tokenizer) (SentencePiece, Unigram)
*   **Vocabulary Size:** 107,694 unique tokens
*   **Vector Dimension:** 100
*   **Hyperparameters:** `minCount: 20`, `windowSize: 5`, `epochs: 3`, `negSampling: 5`

## 5. Quick Start Guide

### Installation
```bash
pip install fasttext huggingface_hub
```

### Loading the Model
You can download and load the model directly from the Hugging Face Hub:

```python
import fasttext
from huggingface_hub import hf_hub_download

# Download the binary file from HF
model_path = hf_hub_download(repo_id="DatarrX/myX-Static", filename="model.bin")

# Load using FastText
model = fasttext.load_model(model_path)
```

### Basic Operations

**A) Find Semantically Similar Words**
```python
neighbors = model.get_nearest_neighbors("နည်းပညာ") # "Technology"
for score, neighbor in neighbors:
    print(f"{neighbor}: {score:.4f}")
```

**B) Calculate Similarity Score**
```python
import numpy as np

def get_similarity(w1, w2):
    v1 = model.get_word_vector(w1)
    v2 = model.get_word_vector(w2)
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

print(f"Similarity: {get_similarity('ပျော်တယ်', 'ဝမ်းသာတယ်'):.4f}")
```

## 6. Training Procedure Summary
The training pipeline involved a two-stage process:
1.  **Optimized Tokenization:** Large-scale multiprocessing was used to tokenize 18M+ sentences into subword units using the `myX-Tokenizer`.
2.  **Unsupervised Training:** The tokens were fed into the FastText engine using a Skip-gram approach, allowing the model to learn word representations by predicting surrounding context.

## 7. Limitations & Ethics
*   **Encoding:** This model is strictly optimized for **Unicode** Burmese text. It will not perform correctly with non-standard encodings (e.g., Zawgyi).
*   **Bias:** Like all models trained on web data, it may reflect biases present in the training corpus.
*   **Language Scope:** Designed exclusively for the Burmese language.

## 8. License
This model is released under the **Apache License 2.0**. It is free for both commercial and research use, provided that proper attribution is given to the original authors.

## 9. About DatarrX
[**DatarrX**](https://huggingface.co/DatarrX) is an Open-source NGO focused on building high-quality NLP datasets and AI models for the Myanmar language. Our mission is to bridge the digital gap and provide everyone with access to free, high-performance AI tools.

## 10. Citation
If you use this model in your research or production environment, please cite it as follows:

**BibTeX:**
```bibtex
@software{khantsintheinn2026myxstatic,
  author = {Khant Sint Heinn},
  title = {myX-Static: High-Performance Burmese Word Embedding Model},
  year = {2026},
  publisher = {DatarrX},
  url = {https://huggingface.co/DatarrX/myX-Static},
  note = {Myanmar Open Source NGO}
}
```

## Model Card Contact

For inquiries, please contact through **DatarrX** or **Kalix Louis**.

## About the Author

**Khant Sint Heinn**, working under the name **Kalix Louis**, is a **Machine Learning Engineer focused on Natural Language Processing (NLP), data foundations, and open-source AI development**. His work is centered on improving support for the Burmese (Myanmar) language in modern AI systems by building high-quality datasets, practical tools, and scalable infrastructure for language technology.

He is currently the **Lead Developer at DatarrX**, where he develops data pipelines, manages large-scale data collection workflows, and helps create open-source resources for researchers, developers, and organizations. His experience includes data engineering, web scripting, dataset curation, and building systems that support real-world machine learning applications.

Khant Sint Heinn is especially interested in advancing low-resource languages and making AI more accessible to underrepresented communities. Through his open-source contributions, he works to strengthen the Burmese (Myanmar) tech ecosystem and provide reliable building blocks for future language models, search systems, and intelligent applications.

His goal is simple: to turn limited language resources into practical opportunities through clean data, useful tools, and community-driven innovation.

**Connect with the Author:**  
[GitHub](https://github.com/kalixlouiis) | [Hugging Face](https://huggingface.co/kalixlouiis) | [Kaggle](https://www.kaggle.com/organizations/kalixlouiis)

--- 

## ၁။ နိဒါန်း (Introduction)
**myX-Static** သည် မြန်မာဘာသာစကား၏ စကားလုံးများအကြား အနက်အဓိပ္ပာယ် ဆက်စပ်မှုများကို (Word Embedding) အဖြစ် ပြောင်းလဲပေးနိုင်သော မော်ဒယ်တစ်ခုဖြစ်သည်။ ဤမော်ဒယ်သည် မြန်မာစာသားများအတွင်းရှိ စကားလုံးများ၏ ရုပ်သွင်ဆင်တူမှုနှင့် အခြေခံအဓိပ္ပာယ်တူညီမှုများကို နားလည်နိုင်ရန် FastText (Skip-gram) နည်းပညာကို အခြေခံ၍ တည်ဆောက်ထားခြင်းဖြစ်သည်။

## ၂။ ထုတ်လုပ်သူ (Developer Information)
ဤ Model ကို [**DatarrX (Myanmar Open Source NGO)**](https://huggingface.co/DatarrX) မှ ထုတ်ဝေခြင်းဖြစ်ပြီး [**Khant Sint Heinn (Kalix Louis)**(https://huggingface.co/kalixlouiis)] မှ အဓိက ဖန်တီးတည်ဆောက်ထားခြင်း ဖြစ်ပါသည်။ မြန်မာဘာသာစကားဆိုင်ရာ သဘာဝဘာသာစကား စီမံဆောင်ရွက်မှု (Natural Language Processing - NLP) အရင်းအမြစ်များကို ပိုမိုပေါများလာစေရန် ရည်ရွယ်၍ ဖန်တီးခဲ့ခြင်းဖြစ်သည်။

## ၃။ အသုံးပြုနိုင်သည့် နယ်ပယ်များ (Intended Use)
myX-Static ကို အောက်ပါ NLP လုပ်ငန်းစဉ်များတွင် အခြေခံအုတ်မြစ်အဖြစ် အသုံးပြုနိုင်သည် -
* **Keyword Similarity:** အဓိပ္ပာယ်တူ စကားလုံးများ ရှာဖွေခြင်း။
* **Spell Correction Support:** စာလုံးပေါင်း မှားယွင်းမှုများကို subword pattern များဖြင့် ပြန်လည်ရှာဖွေခြင်း။
* **Fast Text Processing:** CPU သာရှိသော အခြေအနေများတွင် မြန်ဆန်စွာ အသုံးပြုနိုင်ခြင်း။
* **Foundation for myX-Semantic:** ပိုမိုနက်နဲသော Contextual tasks များအတွက် အခြေခံအုတ်မြစ်အဖြစ် သုံးနိုင်ခြင်း။

## ၄။ နည်းပညာဆိုင်ရာ အချက်အလက်များ (Technical Details)

* **Architecture:** FastText (Skip-gram)
* **Training Data:** 18.6 Million sentences (Approx. 393 Million words) from [myX-Mega-Corpus](https://huggingface.co/datasets/DatarrX/myX-Mega-Corpus).
* **Tokenizer:** [myX-Tokenizer](https://huggingface.co/DatarrX/myX-Tokenizer) (SentencePiece pieces, Unigram)
* **Vocabulary Size:** 107,694 unique tokens.
* **Vector Dimension:** 100
* **Min Count:** 20 | **Window Size:** 5 | **Epochs:** 3

## ၅။ ကန့်သတ်ချက်များနှင့် လိုင်စင် (Limitations and License)

### ၅.၁ ကန့်သတ်ချက်များ (Limitations)
* ဤမော်ဒယ်သည် Unicode စံနှုန်းဖြင့် ရေးသားထားသော စာသားများတွင်သာ အကောင်းဆုံး စွမ်းဆောင်နိုင်မည်ဖြစ်သည်။
* လေ့ကျင့်ထားသော ဒေတာများအတွင်းမှ ဘက်လိုက်မှု (Bias) များသည် မော်ဒယ်၏ ရလဒ်အပေါ် သက်ရောက်မှု ရှိနိုင်သည်။

### ၅.၂ လိုင်စင် (License)
ဤမော်ဒယ်အား **Apache License 2.0** အောက်တွင် ထုတ်ဝေထားပါသည်။ စီးပွားရေးလုပ်ငန်းများနှင့် သုတေသနလုပ်ငန်းများတွင် လွတ်လပ်စွာ အသုံးပြုနိုင်သော်လည်း မူရင်းဖန်တီးသူကို သတ်မှတ်ထားသည့်အတိုင်း ကိုးကားဖော်ပြရမည်ဖြစ်သည်။

## ၆။ အသုံးပြုနည်း လမ်းညွှန် (How to Use)
ဤ Model ကို Python environment တွင် အောက်ပါအဆင့်များအတိုင်း အသုံးပြုနိုင်သည်။

### ၆.၁ လိုအပ်သော Library များ ထည့်သွင်းခြင်း (Installation)

ပထမဦးစွာ Model ကို Load လုပ်ရန်နှင့် Hugging Face မှ Download ရယူရန် လိုအပ်သော Library များကို Install လုပ်ပါ။
```BASH
pip install fasttext huggingface_hub
```
### ၆.၂ Model ကို Load လုပ်ခြင်း (Loading the Model)

Hugging Face Hub မှ Model ကို တိုက်ရိုက် Download ရယူပြီး Load လုပ်ရန် အောက်ပါ Code ကို အသုံးပြုပါ။

```Python
import fasttext
from huggingface_hub import hf_hub_download

# Hugging Face မှ model ဖိုင်ကို download ဆွဲခြင်း
model_path = hf_hub_download(repo_id="DatarrX/myX-Static", filename="model.bin")

# fasttext ကို သုံးပြီး model ကို load လုပ်ခြင်း
model = fasttext.load_model(model_path)
```
### ၆.၃ အခြေခံ အသုံးပြုနည်းများ (Basic Operations)
Model ရရှိပြီးနောက် အောက်ပါ NLP လုပ်ငန်းစဉ်များကို စမ်းသပ်နိုင်သည်။

- က) အဓိပ္ပာယ်တူညီသော စကားလုံးများ ရှာဖွေခြင်း (Finding Nearest Neighbors)
စကားလုံးတစ်လုံးနှင့် အနီးစပ်ဆုံး အဓိပ္ပာယ်ရှိသော စကားလုံး (၁၀) လုံးကို ရှာဖွေရန်:

```Python
# 'နည်းပညာ' နှင့် အနီးစပ်ဆုံးစကားလုံးများ ရှာခြင်း
neighbors = model.get_nearest_neighbors("နည်းပညာ")
for score, neighbor in neighbors:
    print(f"{neighbor}: {score:.4f}")
```
- ခ) စကားလုံးနှစ်လုံး၏ အဓိပ္ပာယ် နီးစပ်မှုကို စစ်ဆေးခြင်း (Calculating Similarity Score)
စကားလုံးနှစ်လုံးသည် အဓိပ္ပာယ်အရ မည်မျှ နီးစပ်သလဲဆိုသည်ကို တွက်ချက်ရန်:

```Python
import numpy as np

def get_similarity(w1, w2):
    v1 = model.get_word_vector(w1)
    v2 = model.get_word_vector(w2)
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

score = get_similarity("ပျော်တယ်", "ဝမ်းသာတယ်")
print(f"Similarity Score: {score:.4f}")
```

- ဂ) စာကြောင်းတစ်ခုလုံး၏ Vector ကို ရယူခြင်း (Getting Sentence Vector)
စာကြောင်းတစ်ခုလုံးကို Vector အဖြစ် ပြောင်းလဲရန် (Text Classification သို့မဟုတ် Semantic Search လုပ်ရန်အတွက် အသုံးဝင်သည်):

```Python
sentence_vector = model.get_sentence_vector("မြန်မာနိုင်ငံ၏ နည်းပညာ ကဏ္ဍ တိုးတက်လာပုံ")
print(sentence_vector)
```

## ၇။ လေ့ကျင့်မှု ဖြစ်စဉ် အကျဉ်းချုပ် (Training Procedure Summary)
ဤမော်ဒယ်ကို အဆင့် (၂) ဆင့်ဖြင့် စနစ်တကျ လေ့ကျင့်ခဲ့သည် -
* **အဆင့် (၁) - Tokenization:** [myX-Tokenizer](https://huggingface.co/DatarrX/myX-Tokenizer) ကို အသုံးပြု၍ ၁၆ သန်းကျော်သော စာကြောင်းများကို Subword units များအဖြစ် ခွဲခြားခဲ့သည်။ လုပ်ဆောင်ချက် မြန်ဆန်စေရန် Multiprocessing စနစ်ကို အသုံးပြုခဲ့သည်။
* **အဆင့် (၂) - FastText Training:** ခွဲခြားထားသော Token များကို FastText (Skip-gram) algorithm သုံး၍ Dimension 100 ဖြင့် လေ့ကျင့်ခဲ့သည်။ ပိုမိုတိကျသော Context များရရှိရန် Window Size 5 နှင့် Negative Sampling နည်းလမ်းကို အသုံးပြုခဲ့သည်။

## ၈။ မော်ဒယ်ဆိုင်ရာ အချက်အလက်များ (Model File Info)
* **Model Version:** 1.0
* **File Format:** Binary (.bin)
* **File Size:** ~889.62 MB
* **Vector Dimension:** 100
* **Architecture:** FastText (Skip-gram)

## ၉။ DatarrX အကြောင်း (About DatarrX)
[**DatarrX**](https://huggingface.co/DatarrX) သည် မြန်မာဘာသာစကားအတွက် အဆင့်မြင့် သဘာဝဘာသာစကား စီမံဆောင်ရွက်မှု (Natural Language Processing) အရင်းအမြစ်များကို ဖန်တီးပေးနေသည့် Open-source NGO အဖွဲ့အစည်းတစ်ခုဖြစ်သည်။ မြန်မာနိုင်ငံ၏ ဒစ်ဂျစ်တယ်နည်းပညာကဏ္ဍတွင် AI နှင့် Open Data များ ပိုမိုပေါများလာစေရန်နှင့် မြန်မာဘာသာစကားဆိုင်ရာ ဒေတာစုများ၊ မော်ဒယ်များကို လူတိုင်း အခမဲ့ အသုံးပြုနိုင်ရန် ရည်ရွယ်၍ ဖွဲ့စည်းထားခြင်းဖြစ်သည်။ 

## ၁၀။ ကိုးကားအသုံးပြုရန် (Citation)
သင်၏ သုတေသန သို့မဟုတ် ပရောဂျက်များတွင် ဤမော်ဒယ်ကို အသုံးပြုပါက အောက်ပါအတိုင်း ကိုးကားပေးပါရန် မေတ္တာရပ်ခံအပ်ပါသည် -

### APA Style

Khant Sint Heinn. (2026). *myX-Static: A Burmese word embedding model for NLP tasks* [Computer software]. DatarrX. https://huggingface.co/DatarrX/myX-Static

### BibTeX
```bibtex
@software{khantsintheinn2026myxstatic,
  author = {Khant Sint Heinn},
  title = {myX-Static: A Burmese Word Embedding Model for NLP Tasks},
  year = {2026},
  publisher = {DatarrX},
  url = {https://huggingface.co/DatarrX/myX-Static},
  note = {Myanmar Open Source NGO}
}
```

## ၁၂။ အသုံးပြုနိုင်သည့် ဘာသာစကား (Intended Language)

ဤမော်ဒယ်ကို **မြန်မာဘာသာစကား (Burmese)** တစ်မျိုးတည်းအတွက်သာ ရည်ရွယ်၍ တည်ဆောက်ထားခြင်းဖြစ်သည်။ အခြားဘာသာစကားများအတွက် အသုံးပြုပါက ရလဒ်ကောင်းမွန်ရန် အာမမခံပါ။