Buckets:

amkyawdev
/

mm-llm-storage

Files

xet

amkyawdev/mm-llm-storage / README.md

amkyawdev

23 days ago

preview code

download

raw

6.81 kB

metadata

annotations_creators:
  - no-annotation
language_creators:
  - found
languages:
  - my
  - en
licenses:
  - apache-2.0
multilinguality:
  - multilingual
size_categories:
  - n_1M_to_n_10M
source_datasets:
  - amkyawdev/myanmar-llm-data
  - amkyawdev/mm-llm-coder-agent-dataset
  - amkyawdev/mm-llm-coder-dataset

Combined Myanmar LLM Dataset

A comprehensive dataset combining three Myanmar-related datasets for training large language models, optimized for code generation and Myanmar language understanding.

English | မြန်မာဘာသာ

English

Overview

This dataset combines three source datasets for training LLMs with Myanmar language and coding capabilities:

Dataset	Description	Samples
`amkyawdev/myanmar-llm-data`	Myanmar language conversations, translations, Q&A	20,327
`amkyawdev/mm-llm-coder-agent-dataset`	Agent workflow for coding tasks	1,000,020
`amkyawdev/mm-llm-coder-dataset`	Code generation tasks	2,000,000

Total Samples: 3,020,347

Dataset Structure

Each sample contains:

{
    "messages": [  # Chat messages (list of dicts with role/content)
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "User input here"},
        {"role": "assistant", "content": "Response here"}
    ],
    "instruction": "Task instruction (for code datasets)",
    "category": "Task category (greeting, translation, code_debugging, etc.)",
    "language": "en or my",
    "difficulty": "beginner, intermediate, or advanced",
    "response": "Expected response/output",
    "task_type": "Type of task (qa_conversation, agent_workflow, etc.)"
}

Extended Fields (from mm-llm-coder-agent-dataset)

Some samples include additional fields:

Field	Description
`framework`	Framework used (React, Express, etc.)
`runtime`	Runtime environment
`database`	Database system
`environment`	Development environment
`tools_used`	Tools used in the task
`code_snippets`	Code examples
`validated`	Whether validated
`rating`	Quality rating
`complexity_score`	Task complexity score

Usage

from datasets import load_dataset

# Load the entire dataset
dataset = load_dataset("amkyawdev/combined-myanmar-llm-dataset")

# Load specific split
train_ds = load_dataset("amkyawdev/combined-myanmar-llm-dataset", split="train")

# Access a single sample
sample = train_ds[0]
print(sample["messages"])

Use Cases

Myanmar Language Models: Training LLMs that understand Burmese/Myanmar language
Code Generation: Training models for programming tasks
Multilingual Tasks: Translation between English and Myanmar
Chatbots: Building conversational AI for Myanmar speakers
Agent Workflows: Training coding agents

Dataset Card Citation

If you use this dataset, please cite:

@dataset{combined_myanmar_llm,
  title={Combined Myanmar LLM Dataset},
  author={amkyawdev},
  year={2024},
  url={https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset}
}

မြန်မာဘာသာ

အနှစ်ချူပါ

ဒီ dataset သည် မြန်မာစာ နှင့် ကုဒ်ရေးလုပ်တဲ့ LLM များကို လေ့ကျင့်ဖို့အတွက် သုံးခုေကာင်း ဒေါင်းလုဒ်များကို ပေါင်းစပ်ထားပပါ။

ဒေါင်းလုဒ်	ဖော်ပါ	ပါဝင်မှု
`amkyawdev/myanmar-llm-data`	မြန်မာစာပါးဆက်ပါ၊ ဘာသာပြန်၊ Q&A	၂၀,၃၂၇
`amkyawdev/mm-llm-coder-agent-dataset`	ကုဒ်ရေးလုပ်တဲ့ agents များ	၁,၀၀၀,၀၂၀
`amkyawdev/mm-llm-coder-dataset`	ကုဒ်ထုတ်လုပ်တဲ့ အလုပ်များ	၂,၀၀၀,၀၀၀

ပါဝင်မှု စုစုပါး: ၃,၀၂၀,၃၄၇

ဖွဲ့စည်းပါ

နမူနာတစ်ခုခုမှာ ပါဝင်တာများ:

{
    "messages": [  # ပါးဆက်ပါ (role/content ရှိတဲ့ dict များ)
        {"role": "system", "content": "သင်သည် အကူအညီပါ။"},
        {"role": "user", "content": "သုံးစွဲသူပါ"},
        {"role": "assistant", "content": "အဖြေပါ"}
    ],
    "instruction": "အလုပ်ညွှန်ကိုးကါ (ကုဒ် dataset များအတွက်)",
    "category": "အလုပ်အမျိုးအစား (greeting, translation, code_debugging, etc.)",
    "language": "en သို့မဟုတ် my",
    "difficulty": "beginner, intermediate, သို့မဟုတ် advanced",
    "response": "မျှော်လင့်တဲ့ အဖြေ/ထွက်ပါ",
    "task_type": "အလုပ်အမျိုးအစား (qa_conversation, agent_workflow, etc.)"
}

သုံးပါ

from datasets import load_dataset

# ဒေါင်းလုဒ်လုပ်ချက်
dataset = load_dataset("amkyawdev/combined-myanmar-llm-dataset")

# ပါဝင်မှု
train_ds = load_dataset("amkyawdev/combined-myanmar-llm-dataset", split="train")

# နမူနာတစ်ခုယူပါ
sample = train_ds[0]
print(sample["messages"])

သုံးပြုနည်း အမျိုးမျိုး

မြန်မာစာ LLM: မြန်မာစာနားလည်တဲ့ LLM များကို လေ့ကျင့်ခြင်း
ကုဒ်ထုတ်လုပ်ခြင်း: ပရိုဂရမ်ရေးလုပ်တဲ့ မော်ဒယ်များကို လေ့ကျင့်ခြင်း
ဘာသာပြန်: အင်္ဂလိပ်နဲ့ မြန်မာပါးကြား ပြန်ဆိုခြင်း
ခွန်းဖြေ: မြန်မာစာပါးဆက်ပါ AI များကို ဆောက်လုပ်ခြင်း

ကိုးကားချက်

ဒီဒေါင်းလုဒ်များကို သုံးပါက ကျေးဇူးပါ။:

@dataset{combined_myanmar_llm,
  title={Combined Myanmar LLM Dataset},
  author={amkyawdev},
  year={2024},
  url={https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset}
}

License

Apache 2.0 License

Dataset URL

https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset

Xet Storage Details

Size:: 6.81 kB
Xet hash:: 4f72481dd6a328797926c60db9247292f7fbbe6fe7540d772dbed4af336fe100

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.