amkyawdev's picture
|
download
raw
6.81 kB
---
annotations_creators:
- no-annotation
language_creators:
- found
languages:
- my
- en
licenses:
- apache-2.0
multilinguality:
- multilingual
size_categories:
- n_1M_to_n_10M
source_datasets:
- amkyawdev/myanmar-llm-data
- amkyawdev/mm-llm-coder-agent-dataset
- amkyawdev/mm-llm-coder-dataset
---
# Combined Myanmar LLM Dataset
A comprehensive dataset combining three Myanmar-related datasets for training large language models, optimized for code generation and Myanmar language understanding.
[English](#english) | [မြန်မာဘာသာ](#myanmar)
---
## English
### Overview
This dataset combines three source datasets for training LLMs with Myanmar language and coding capabilities:
| Dataset | Description | Samples |
|---------|-------------|---------|
| `amkyawdev/myanmar-llm-data` | Myanmar language conversations, translations, Q&A | 20,327 |
| `amkyawdev/mm-llm-coder-agent-dataset` | Agent workflow for coding tasks | 1,000,020 |
| `amkyawdev/mm-llm-coder-dataset` | Code generation tasks | 2,000,000 |
**Total Samples: 3,020,347**
### Dataset Structure
Each sample contains:
```python
{
"messages": [ # Chat messages (list of dicts with role/content)
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "User input here"},
{"role": "assistant", "content": "Response here"}
],
"instruction": "Task instruction (for code datasets)",
"category": "Task category (greeting, translation, code_debugging, etc.)",
"language": "en or my",
"difficulty": "beginner, intermediate, or advanced",
"response": "Expected response/output",
"task_type": "Type of task (qa_conversation, agent_workflow, etc.)"
}
```
### Extended Fields (from mm-llm-coder-agent-dataset)
Some samples include additional fields:
| Field | Description |
|-------|-------------|
| `framework` | Framework used (React, Express, etc.) |
| `runtime` | Runtime environment |
| `database` | Database system |
| `environment` | Development environment |
| `tools_used` | Tools used in the task |
| `code_snippets` | Code examples |
| `validated` | Whether validated |
| `rating` | Quality rating |
| `complexity_score` | Task complexity score |
### Usage
```python
from datasets import load_dataset
# Load the entire dataset
dataset = load_dataset("amkyawdev/combined-myanmar-llm-dataset")
# Load specific split
train_ds = load_dataset("amkyawdev/combined-myanmar-llm-dataset", split="train")
# Access a single sample
sample = train_ds[0]
print(sample["messages"])
```
### Use Cases
- **Myanmar Language Models**: Training LLMs that understand Burmese/Myanmar language
- **Code Generation**: Training models for programming tasks
- **Multilingual Tasks**: Translation between English and Myanmar
- **Chatbots**: Building conversational AI for Myanmar speakers
- **Agent Workflows**: Training coding agents
### Dataset Card Citation
If you use this dataset, please cite:
```bibtex
@dataset{combined_myanmar_llm,
title={Combined Myanmar LLM Dataset},
author={amkyawdev},
year={2024},
url={https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset}
}
```
---
## မြန်မာဘာသာ
### အနှစ်ချူပါ
ဒီ dataset သည် မြန်မာစာ နှင့် ကုဒ်ရေးလုပ်တဲ့ LLM များကို လေ့ကျင့်ဖို့အတွက် သုံးခုေကာင်း ဒေါင်းလုဒ်များကို ပေါင်းစပ်ထားပပါ။
| ဒေါင်းလုဒ် | ဖော်ပါ | ပါဝင်မှု |
|---------|----------|----------|
| `amkyawdev/myanmar-llm-data` | မြန်မာစာပါးဆက်ပါ၊ ဘာသာပြန်၊ Q&A | ၂၀,၃၂၇ |
| `amkyawdev/mm-llm-coder-agent-dataset` | ကုဒ်ရေးလုပ်တဲ့ agents များ | ၁,၀၀၀,၀၂၀ |
| `amkyawdev/mm-llm-coder-dataset` | ကုဒ်ထုတ်လုပ်တဲ့ အလုပ်များ | ၂,၀၀၀,၀၀၀ |
**ပါဝင်မှု စုစုပါး: ၃,၀၂၀,၃၄၇**
### ဖွဲ့စည်းပါ
နမူနာတစ်ခုခုမှာ ပါဝင်တာများ:
```python
{
"messages": [ # ပါးဆက်ပါ (role/content ရှိတဲ့ dict များ)
{"role": "system", "content": "သင်သည် အကူအညီပါ။"},
{"role": "user", "content": "သုံးစွဲသူပါ"},
{"role": "assistant", "content": "အဖြေပါ"}
],
"instruction": "အလုပ်ညွှန်ကိုးကါ (ကုဒ် dataset များအတွက်)",
"category": "အလုပ်အမျိုးအစား (greeting, translation, code_debugging, etc.)",
"language": "en သို့မဟုတ် my",
"difficulty": "beginner, intermediate, သို့မဟုတ် advanced",
"response": "မျှော်လင့်တဲ့ အဖြေ/ထွက်ပါ",
"task_type": "အလုပ်အမျိုးအစား (qa_conversation, agent_workflow, etc.)"
}
```
### သုံးပါ
```python
from datasets import load_dataset
# ဒေါင်းလုဒ်လုပ်ချက်
dataset = load_dataset("amkyawdev/combined-myanmar-llm-dataset")
# ပါဝင်မှု
train_ds = load_dataset("amkyawdev/combined-myanmar-llm-dataset", split="train")
# နမူနာတစ်ခုယူပါ
sample = train_ds[0]
print(sample["messages"])
```
### သုံးပြုနည်း အမျိုးမျိုး
- **မြန်မာစာ LLM**: မြန်မာစာနားလည်တဲ့ LLM များကို လေ့ကျင့်ခြင်း
- **ကုဒ်ထုတ်လုပ်ခြင်း**: ပရိုဂရမ်ရေးလုပ်တဲ့ မော်ဒယ်များကို လေ့ကျင့်ခြင်း
- **ဘာသာပြန်**: အင်္ဂလိပ်နဲ့ မြန်မာပါးကြား ပြန်ဆိုခြင်း
- **ခွန်းဖြေ**: မြန်မာစာပါးဆက်ပါ AI များကို ဆောက်လုပ်ခြင်း
### ကိုးကားချက်
ဒီဒေါင်းလုဒ်များကို သုံးပါက ကျေးဇူးပါ။:
```bibtex
@dataset{combined_myanmar_llm,
title={Combined Myanmar LLM Dataset},
author={amkyawdev},
year={2024},
url={https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset}
}
```
---
### License
Apache 2.0 License
### Dataset URL
https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset

Xet Storage Details

Size:
6.81 kB
·
Xet hash:
4f72481dd6a328797926c60db9247292f7fbbe6fe7540d772dbed4af336fe100

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.