amkyawdev's picture
|
download
raw
6.81 kB
metadata
annotations_creators:
  - no-annotation
language_creators:
  - found
languages:
  - my
  - en
licenses:
  - apache-2.0
multilinguality:
  - multilingual
size_categories:
  - n_1M_to_n_10M
source_datasets:
  - amkyawdev/myanmar-llm-data
  - amkyawdev/mm-llm-coder-agent-dataset
  - amkyawdev/mm-llm-coder-dataset

Combined Myanmar LLM Dataset

A comprehensive dataset combining three Myanmar-related datasets for training large language models, optimized for code generation and Myanmar language understanding.

English | မြန်မာဘာသာ


English

Overview

This dataset combines three source datasets for training LLMs with Myanmar language and coding capabilities:

Dataset Description Samples
amkyawdev/myanmar-llm-data Myanmar language conversations, translations, Q&A 20,327
amkyawdev/mm-llm-coder-agent-dataset Agent workflow for coding tasks 1,000,020
amkyawdev/mm-llm-coder-dataset Code generation tasks 2,000,000

Total Samples: 3,020,347

Dataset Structure

Each sample contains:

{
    "messages": [  # Chat messages (list of dicts with role/content)
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "User input here"},
        {"role": "assistant", "content": "Response here"}
    ],
    "instruction": "Task instruction (for code datasets)",
    "category": "Task category (greeting, translation, code_debugging, etc.)",
    "language": "en or my",
    "difficulty": "beginner, intermediate, or advanced",
    "response": "Expected response/output",
    "task_type": "Type of task (qa_conversation, agent_workflow, etc.)"
}

Extended Fields (from mm-llm-coder-agent-dataset)

Some samples include additional fields:

Field Description
framework Framework used (React, Express, etc.)
runtime Runtime environment
database Database system
environment Development environment
tools_used Tools used in the task
code_snippets Code examples
validated Whether validated
rating Quality rating
complexity_score Task complexity score

Usage

from datasets import load_dataset

# Load the entire dataset
dataset = load_dataset("amkyawdev/combined-myanmar-llm-dataset")

# Load specific split
train_ds = load_dataset("amkyawdev/combined-myanmar-llm-dataset", split="train")

# Access a single sample
sample = train_ds[0]
print(sample["messages"])

Use Cases

  • Myanmar Language Models: Training LLMs that understand Burmese/Myanmar language
  • Code Generation: Training models for programming tasks
  • Multilingual Tasks: Translation between English and Myanmar
  • Chatbots: Building conversational AI for Myanmar speakers
  • Agent Workflows: Training coding agents

Dataset Card Citation

If you use this dataset, please cite:

@dataset{combined_myanmar_llm,
  title={Combined Myanmar LLM Dataset},
  author={amkyawdev},
  year={2024},
  url={https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset}
}

မြန်မာဘာသာ

အနှစ်ချူပါ

ဒီ dataset သည် မြန်မာစာ နှင့် ကုဒ်ရေးလုပ်တဲ့ LLM များကို လေ့ကျင့်ဖို့အတွက် သုံးခုေကာင်း ဒေါင်းလုဒ်များကို ပေါင်းစပ်ထားပပါ။

ဒေါင်းလုဒ် ဖော်ပါ ပါဝင်မှု
amkyawdev/myanmar-llm-data မြန်မာစာပါးဆက်ပါ၊ ဘာသာပြန်၊ Q&A ၂၀,၃၂၇
amkyawdev/mm-llm-coder-agent-dataset ကုဒ်ရေးလုပ်တဲ့ agents များ ၁,၀၀၀,၀၂၀
amkyawdev/mm-llm-coder-dataset ကုဒ်ထုတ်လုပ်တဲ့ အလုပ်များ ၂,၀၀၀,၀၀၀

ပါဝင်မှု စုစုပါး: ၃,၀၂၀,၃၄၇

ဖွဲ့စည်းပါ

နမူနာတစ်ခုခုမှာ ပါဝင်တာများ:

{
    "messages": [  # ပါးဆက်ပါ (role/content ရှိတဲ့ dict များ)
        {"role": "system", "content": "သင်သည် အကူအညီပါ။"},
        {"role": "user", "content": "သုံးစွဲသူပါ"},
        {"role": "assistant", "content": "အဖြေပါ"}
    ],
    "instruction": "အလုပ်ညွှန်ကိုးကါ (ကုဒ် dataset များအတွက်)",
    "category": "အလုပ်အမျိုးအစား (greeting, translation, code_debugging, etc.)",
    "language": "en သို့မဟုတ် my",
    "difficulty": "beginner, intermediate, သို့မဟုတ် advanced",
    "response": "မျှော်လင့်တဲ့ အဖြေ/ထွက်ပါ",
    "task_type": "အလုပ်အမျိုးအစား (qa_conversation, agent_workflow, etc.)"
}

သုံးပါ

from datasets import load_dataset

# ဒေါင်းလုဒ်လုပ်ချက်
dataset = load_dataset("amkyawdev/combined-myanmar-llm-dataset")

# ပါဝင်မှု
train_ds = load_dataset("amkyawdev/combined-myanmar-llm-dataset", split="train")

# နမူနာတစ်ခုယူပါ
sample = train_ds[0]
print(sample["messages"])

သုံးပြုနည်း အမျိုးမျိုး

  • မြန်မာစာ LLM: မြန်မာစာနားလည်တဲ့ LLM များကို လေ့ကျင့်ခြင်း
  • ကုဒ်ထုတ်လုပ်ခြင်း: ပရိုဂရမ်ရေးလုပ်တဲ့ မော်ဒယ်များကို လေ့ကျင့်ခြင်း
  • ဘာသာပြန်: အင်္ဂလိပ်နဲ့ မြန်မာပါးကြား ပြန်ဆိုခြင်း
  • ခွန်းဖြေ: မြန်မာစာပါးဆက်ပါ AI များကို ဆောက်လုပ်ခြင်း

ကိုးကားချက်

ဒီဒေါင်းလုဒ်များကို သုံးပါက ကျေးဇူးပါ။:

@dataset{combined_myanmar_llm,
  title={Combined Myanmar LLM Dataset},
  author={amkyawdev},
  year={2024},
  url={https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset}
}

License

Apache 2.0 License

Dataset URL

https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset

Xet Storage Details

Size:
6.81 kB
·
Xet hash:
4f72481dd6a328797926c60db9247292f7fbbe6fe7540d772dbed4af336fe100

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.