--- license: apache-2.0 language: - my pipeline_tag: sentence-similarity tags: - myanmar - burmese - nlp - embeddings - fasttext library_name: fasttext datasets: - DatarrX/myX-Mega-Corpus --- # myX-Static: High-Performance Word Embeddings for Burmese (Myanmar) ## 1. Introduction **myX-Static** is a robust word embedding model designed specifically for the Burmese (Myanmar) language. Built using the FastText (Skip-gram) architecture, it transforms Burmese text into dense vector representations. The model is engineered to capture both semantic meanings and morphological nuances, making it highly effective for various downstream Natural Language Processing (NLP) tasks in the Myanmar digital ecosystem. ## 2. Developer Information This model is developed by [**Khant Sint Heinn (Kalix Louis)**](https://huggingface.co/kalixlouiis) and published by [**DatarrX**](https://huggingface.co/DatarrX), a Myanmar-based Open Source NGO dedicated to expanding NLP resources and AI accessibility for the Burmese language. ## 3. Intended Use Cases **myX-Static** serves as a lightweight yet powerful foundation for: * **Semantic Search:** Retrieving documents based on meaning rather than just keyword matching. * **Smart Spell Correction:** Utilizing subword information to suggest corrections for misspelled Burmese words. * **Text Classification:** Providing high-quality features for sentiment analysis or news categorization. * **Efficiency-First Apps:** Ideal for environments with limited hardware (CPU-only) where heavy Transformer models are not feasible. * **Foundational Layer:** Acting as a lexical base for more complex models like **myX-Semantic**. ## 4. Technical Specifications The model was trained with high-density parameters to ensure stability across diverse domains: * **Architecture:** FastText (Skip-gram) * **Training Corpus:** [**myX-Mega-Corpus**](https://huggingface.co/datasets/DatarrX/myX-Mega-Corpus) (18.6 Million sentences / ~393 Million words) * **Tokenizer:** [**myX-Tokenizer**](https://huggingface.co/DatarrX/myX-Tokenizer) (SentencePiece, Unigram) * **Vocabulary Size:** 107,694 unique tokens * **Vector Dimension:** 100 * **Hyperparameters:** `minCount: 20`, `windowSize: 5`, `epochs: 3`, `negSampling: 5` ## 5. Quick Start Guide ### Installation ```bash pip install fasttext huggingface_hub ``` ### Loading the Model You can download and load the model directly from the Hugging Face Hub: ```python import fasttext from huggingface_hub import hf_hub_download # Download the binary file from HF model_path = hf_hub_download(repo_id="DatarrX/myX-Static", filename="model.bin") # Load using FastText model = fasttext.load_model(model_path) ``` ### Basic Operations **A) Find Semantically Similar Words** ```python neighbors = model.get_nearest_neighbors("နည်းပညာ") # "Technology" for score, neighbor in neighbors: print(f"{neighbor}: {score:.4f}") ``` **B) Calculate Similarity Score** ```python import numpy as np def get_similarity(w1, w2): v1 = model.get_word_vector(w1) v2 = model.get_word_vector(w2) return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2)) print(f"Similarity: {get_similarity('ပျော်တယ်', 'ဝမ်းသာတယ်'):.4f}") ``` ## 6. Training Procedure Summary The training pipeline involved a two-stage process: 1. **Optimized Tokenization:** Large-scale multiprocessing was used to tokenize 18M+ sentences into subword units using the `myX-Tokenizer`. 2. **Unsupervised Training:** The tokens were fed into the FastText engine using a Skip-gram approach, allowing the model to learn word representations by predicting surrounding context. ## 7. Limitations & Ethics * **Encoding:** This model is strictly optimized for **Unicode** Burmese text. It will not perform correctly with non-standard encodings (e.g., Zawgyi). * **Bias:** Like all models trained on web data, it may reflect biases present in the training corpus. * **Language Scope:** Designed exclusively for the Burmese language. ## 8. License This model is released under the **Apache License 2.0**. It is free for both commercial and research use, provided that proper attribution is given to the original authors. ## 9. About DatarrX [**DatarrX**](https://huggingface.co/DatarrX) is an Open-source NGO focused on building high-quality NLP datasets and AI models for the Myanmar language. Our mission is to bridge the digital gap and provide everyone with access to free, high-performance AI tools. ## 10. Citation If you use this model in your research or production environment, please cite it as follows: **BibTeX:** ```bibtex @software{khantsintheinn2026myxstatic, author = {Khant Sint Heinn}, title = {myX-Static: High-Performance Burmese Word Embedding Model}, year = {2026}, publisher = {DatarrX}, url = {https://huggingface.co/DatarrX/myX-Static}, note = {Myanmar Open Source NGO} } ``` ## Model Card Contact For inquiries, please contact through **DatarrX** or **Kalix Louis**. ## About the Author **Khant Sint Heinn**, working under the name **Kalix Louis**, is a **Machine Learning Engineer focused on Natural Language Processing (NLP), data foundations, and open-source AI development**. His work is centered on improving support for the Burmese (Myanmar) language in modern AI systems by building high-quality datasets, practical tools, and scalable infrastructure for language technology. He is currently the **Lead Developer at DatarrX**, where he develops data pipelines, manages large-scale data collection workflows, and helps create open-source resources for researchers, developers, and organizations. His experience includes data engineering, web scripting, dataset curation, and building systems that support real-world machine learning applications. Khant Sint Heinn is especially interested in advancing low-resource languages and making AI more accessible to underrepresented communities. Through his open-source contributions, he works to strengthen the Burmese (Myanmar) tech ecosystem and provide reliable building blocks for future language models, search systems, and intelligent applications. His goal is simple: to turn limited language resources into practical opportunities through clean data, useful tools, and community-driven innovation. **Connect with the Author:** [GitHub](https://github.com/kalixlouiis) | [Hugging Face](https://huggingface.co/kalixlouiis) | [Kaggle](https://www.kaggle.com/organizations/kalixlouiis) --- ## ၁။ နိဒါန်း (Introduction) **myX-Static** သည် မြန်မာဘာသာစကား၏ စကားလုံးများအကြား အနက်အဓိပ္ပာယ် ဆက်စပ်မှုများကို (Word Embedding) အဖြစ် ပြောင်းလဲပေးနိုင်သော မော်ဒယ်တစ်ခုဖြစ်သည်။ ဤမော်ဒယ်သည် မြန်မာစာသားများအတွင်းရှိ စကားလုံးများ၏ ရုပ်သွင်ဆင်တူမှုနှင့် အခြေခံအဓိပ္ပာယ်တူညီမှုများကို နားလည်နိုင်ရန် FastText (Skip-gram) နည်းပညာကို အခြေခံ၍ တည်ဆောက်ထားခြင်းဖြစ်သည်။ ## ၂။ ထုတ်လုပ်သူ (Developer Information) ဤ Model ကို [**DatarrX (Myanmar Open Source NGO)**](https://huggingface.co/DatarrX) မှ ထုတ်ဝေခြင်းဖြစ်ပြီး [**Khant Sint Heinn (Kalix Louis)**(https://huggingface.co/kalixlouiis)] မှ အဓိက ဖန်တီးတည်ဆောက်ထားခြင်း ဖြစ်ပါသည်။ မြန်မာဘာသာစကားဆိုင်ရာ သဘာဝဘာသာစကား စီမံဆောင်ရွက်မှု (Natural Language Processing - NLP) အရင်းအမြစ်များကို ပိုမိုပေါများလာစေရန် ရည်ရွယ်၍ ဖန်တီးခဲ့ခြင်းဖြစ်သည်။ ## ၃။ အသုံးပြုနိုင်သည့် နယ်ပယ်များ (Intended Use) myX-Static ကို အောက်ပါ NLP လုပ်ငန်းစဉ်များတွင် အခြေခံအုတ်မြစ်အဖြစ် အသုံးပြုနိုင်သည် - * **Keyword Similarity:** အဓိပ္ပာယ်တူ စကားလုံးများ ရှာဖွေခြင်း။ * **Spell Correction Support:** စာလုံးပေါင်း မှားယွင်းမှုများကို subword pattern များဖြင့် ပြန်လည်ရှာဖွေခြင်း။ * **Fast Text Processing:** CPU သာရှိသော အခြေအနေများတွင် မြန်ဆန်စွာ အသုံးပြုနိုင်ခြင်း။ * **Foundation for myX-Semantic:** ပိုမိုနက်နဲသော Contextual tasks များအတွက် အခြေခံအုတ်မြစ်အဖြစ် သုံးနိုင်ခြင်း။ ## ၄။ နည်းပညာဆိုင်ရာ အချက်အလက်များ (Technical Details) * **Architecture:** FastText (Skip-gram) * **Training Data:** 18.6 Million sentences (Approx. 393 Million words) from [myX-Mega-Corpus](https://huggingface.co/datasets/DatarrX/myX-Mega-Corpus). * **Tokenizer:** [myX-Tokenizer](https://huggingface.co/DatarrX/myX-Tokenizer) (SentencePiece pieces, Unigram) * **Vocabulary Size:** 107,694 unique tokens. * **Vector Dimension:** 100 * **Min Count:** 20 | **Window Size:** 5 | **Epochs:** 3 ## ၅။ ကန့်သတ်ချက်များနှင့် လိုင်စင် (Limitations and License) ### ၅.၁ ကန့်သတ်ချက်များ (Limitations) * ဤမော်ဒယ်သည် Unicode စံနှုန်းဖြင့် ရေးသားထားသော စာသားများတွင်သာ အကောင်းဆုံး စွမ်းဆောင်နိုင်မည်ဖြစ်သည်။ * လေ့ကျင့်ထားသော ဒေတာများအတွင်းမှ ဘက်လိုက်မှု (Bias) များသည် မော်ဒယ်၏ ရလဒ်အပေါ် သက်ရောက်မှု ရှိနိုင်သည်။ ### ၅.၂ လိုင်စင် (License) ဤမော်ဒယ်အား **Apache License 2.0** အောက်တွင် ထုတ်ဝေထားပါသည်။ စီးပွားရေးလုပ်ငန်းများနှင့် သုတေသနလုပ်ငန်းများတွင် လွတ်လပ်စွာ အသုံးပြုနိုင်သော်လည်း မူရင်းဖန်တီးသူကို သတ်မှတ်ထားသည့်အတိုင်း ကိုးကားဖော်ပြရမည်ဖြစ်သည်။ ## ၆။ အသုံးပြုနည်း လမ်းညွှန် (How to Use) ဤ Model ကို Python environment တွင် အောက်ပါအဆင့်များအတိုင်း အသုံးပြုနိုင်သည်။ ### ၆.၁ လိုအပ်သော Library များ ထည့်သွင်းခြင်း (Installation) ပထမဦးစွာ Model ကို Load လုပ်ရန်နှင့် Hugging Face မှ Download ရယူရန် လိုအပ်သော Library များကို Install လုပ်ပါ။ ```BASH pip install fasttext huggingface_hub ``` ### ၆.၂ Model ကို Load လုပ်ခြင်း (Loading the Model) Hugging Face Hub မှ Model ကို တိုက်ရိုက် Download ရယူပြီး Load လုပ်ရန် အောက်ပါ Code ကို အသုံးပြုပါ။ ```Python import fasttext from huggingface_hub import hf_hub_download # Hugging Face မှ model ဖိုင်ကို download ဆွဲခြင်း model_path = hf_hub_download(repo_id="DatarrX/myX-Static", filename="model.bin") # fasttext ကို သုံးပြီး model ကို load လုပ်ခြင်း model = fasttext.load_model(model_path) ``` ### ၆.၃ အခြေခံ အသုံးပြုနည်းများ (Basic Operations) Model ရရှိပြီးနောက် အောက်ပါ NLP လုပ်ငန်းစဉ်များကို စမ်းသပ်နိုင်သည်။ - က) အဓိပ္ပာယ်တူညီသော စကားလုံးများ ရှာဖွေခြင်း (Finding Nearest Neighbors) စကားလုံးတစ်လုံးနှင့် အနီးစပ်ဆုံး အဓိပ္ပာယ်ရှိသော စကားလုံး (၁၀) လုံးကို ရှာဖွေရန်: ```Python # 'နည်းပညာ' နှင့် အနီးစပ်ဆုံးစကားလုံးများ ရှာခြင်း neighbors = model.get_nearest_neighbors("နည်းပညာ") for score, neighbor in neighbors: print(f"{neighbor}: {score:.4f}") ``` - ခ) စကားလုံးနှစ်လုံး၏ အဓိပ္ပာယ် နီးစပ်မှုကို စစ်ဆေးခြင်း (Calculating Similarity Score) စကားလုံးနှစ်လုံးသည် အဓိပ္ပာယ်အရ မည်မျှ နီးစပ်သလဲဆိုသည်ကို တွက်ချက်ရန်: ```Python import numpy as np def get_similarity(w1, w2): v1 = model.get_word_vector(w1) v2 = model.get_word_vector(w2) return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2)) score = get_similarity("ပျော်တယ်", "ဝမ်းသာတယ်") print(f"Similarity Score: {score:.4f}") ``` - ဂ) စာကြောင်းတစ်ခုလုံး၏ Vector ကို ရယူခြင်း (Getting Sentence Vector) စာကြောင်းတစ်ခုလုံးကို Vector အဖြစ် ပြောင်းလဲရန် (Text Classification သို့မဟုတ် Semantic Search လုပ်ရန်အတွက် အသုံးဝင်သည်): ```Python sentence_vector = model.get_sentence_vector("မြန်မာနိုင်ငံ၏ နည်းပညာ ကဏ္ဍ တိုးတက်လာပုံ") print(sentence_vector) ``` ## ၇။ လေ့ကျင့်မှု ဖြစ်စဉ် အကျဉ်းချုပ် (Training Procedure Summary) ဤမော်ဒယ်ကို အဆင့် (၂) ဆင့်ဖြင့် စနစ်တကျ လေ့ကျင့်ခဲ့သည် - * **အဆင့် (၁) - Tokenization:** [myX-Tokenizer](https://huggingface.co/DatarrX/myX-Tokenizer) ကို အသုံးပြု၍ ၁၆ သန်းကျော်သော စာကြောင်းများကို Subword units များအဖြစ် ခွဲခြားခဲ့သည်။ လုပ်ဆောင်ချက် မြန်ဆန်စေရန် Multiprocessing စနစ်ကို အသုံးပြုခဲ့သည်။ * **အဆင့် (၂) - FastText Training:** ခွဲခြားထားသော Token များကို FastText (Skip-gram) algorithm သုံး၍ Dimension 100 ဖြင့် လေ့ကျင့်ခဲ့သည်။ ပိုမိုတိကျသော Context များရရှိရန် Window Size 5 နှင့် Negative Sampling နည်းလမ်းကို အသုံးပြုခဲ့သည်။ ## ၈။ မော်ဒယ်ဆိုင်ရာ အချက်အလက်များ (Model File Info) * **Model Version:** 1.0 * **File Format:** Binary (.bin) * **File Size:** ~889.62 MB * **Vector Dimension:** 100 * **Architecture:** FastText (Skip-gram) ## ၉။ DatarrX အကြောင်း (About DatarrX) [**DatarrX**](https://huggingface.co/DatarrX) သည် မြန်မာဘာသာစကားအတွက် အဆင့်မြင့် သဘာဝဘာသာစကား စီမံဆောင်ရွက်မှု (Natural Language Processing) အရင်းအမြစ်များကို ဖန်တီးပေးနေသည့် Open-source NGO အဖွဲ့အစည်းတစ်ခုဖြစ်သည်။ မြန်မာနိုင်ငံ၏ ဒစ်ဂျစ်တယ်နည်းပညာကဏ္ဍတွင် AI နှင့် Open Data များ ပိုမိုပေါများလာစေရန်နှင့် မြန်မာဘာသာစကားဆိုင်ရာ ဒေတာစုများ၊ မော်ဒယ်များကို လူတိုင်း အခမဲ့ အသုံးပြုနိုင်ရန် ရည်ရွယ်၍ ဖွဲ့စည်းထားခြင်းဖြစ်သည်။ ## ၁၀။ ကိုးကားအသုံးပြုရန် (Citation) သင်၏ သုတေသန သို့မဟုတ် ပရောဂျက်များတွင် ဤမော်ဒယ်ကို အသုံးပြုပါက အောက်ပါအတိုင်း ကိုးကားပေးပါရန် မေတ္တာရပ်ခံအပ်ပါသည် - ### APA Style Khant Sint Heinn. (2026). *myX-Static: A Burmese word embedding model for NLP tasks* [Computer software]. DatarrX. https://huggingface.co/DatarrX/myX-Static ### BibTeX ```bibtex @software{khantsintheinn2026myxstatic, author = {Khant Sint Heinn}, title = {myX-Static: A Burmese Word Embedding Model for NLP Tasks}, year = {2026}, publisher = {DatarrX}, url = {https://huggingface.co/DatarrX/myX-Static}, note = {Myanmar Open Source NGO} } ``` ## ၁၂။ အသုံးပြုနိုင်သည့် ဘာသာစကား (Intended Language) ဤမော်ဒယ်ကို **မြန်မာဘာသာစကား (Burmese)** တစ်မျိုးတည်းအတွက်သာ ရည်ရွယ်၍ တည်ဆောက်ထားခြင်းဖြစ်သည်။ အခြားဘာသာစကားများအတွက် အသုံးပြုပါက ရလဒ်ကောင်းမွန်ရန် အာမမခံပါ။