amkyawdev
/

mm-llm-code-v3

Burmese

English

Model card Files Files and versions

xet

Community

amkyawdev commited on 23 days ago

Commit

210ece5

verified ·

1 Parent(s): d922d70

Upload README.md with huggingface_hub

Browse files

Files changed (1) hide show

README.md +84 -61

README.md CHANGED Viewed

@@ -20,7 +20,7 @@ source_datasets:
 # Combined Myanmar LLM Dataset
-A comprehensive dataset combining three Myanmar-related datasets for training large language models, optimized for code generation and Myanmar language understanding.
 [English](#english) | [မြန်မာဘာသာ](#myanmar)
@@ -40,42 +40,60 @@ This dataset combines three source datasets for training LLMs with Myanmar langu
 **Total Samples: 3,020,347**
 ### Dataset Structure
 Each sample contains:
 ```python
 {
-    "messages": [  # Chat messages (list of dicts with role/content)
         {"role": "system", "content": "You are a helpful assistant."},
         {"role": "user", "content": "User input here"},
         {"role": "assistant", "content": "Response here"}
     ],
-    "instruction": "Task instruction (for code datasets)",
-    "category": "Task category (greeting, translation, code_debugging, etc.)",
     "language": "en or my",
     "difficulty": "beginner, intermediate, or advanced",
     "response": "Expected response/output",
-    "task_type": "Type of task (qa_conversation, agent_workflow, etc.)"
 }
 ```
-### Extended Fields (from mm-llm-coder-agent-dataset)
-Some samples include additional fields:
-| Field | Description |
-|-------|-------------|
-| `framework` | Framework used (React, Express, etc.) |
-| `runtime` | Runtime environment |
-| `database` | Database system |
-| `environment` | Development environment |
-| `tools_used` | Tools used in the task |
-| `code_snippets` | Code examples |
-| `validated` | Whether validated |
-| `rating` | Quality rating |
-| `complexity_score` | Task complexity score |
 ### Usage
 ```python
@@ -90,6 +108,7 @@ train_ds = load_dataset("amkyawdev/combined-myanmar-llm-dataset", split="train")
 # Access a single sample
 sample = train_ds[0]
 print(sample["messages"])
 ```
 ### Use Cases
@@ -98,11 +117,21 @@ print(sample["messages"])
 - **Code Generation**: Training models for programming tasks
 - **Multilingual Tasks**: Translation between English and Myanmar
 - **Chatbots**: Building conversational AI for Myanmar speakers
-- **Agent Workflows**: Training coding agents
-### Dataset Card Citation
-If you use this dataset, please cite:
 ```bibtex
 @dataset{combined_myanmar_llm,
@@ -119,33 +148,47 @@ If you use this dataset, please cite:
 ### အနှစ်ချူပါ
-ဒီ dataset သည် မြန်မာစာ နှင့် ကုဒ်ရေးလုပ်တဲ့ LLM များကို လေ့ကျင့်ဖို့အတွက် သုံးခုေကာင်း ဒေါင်းလုဒ်များကို ပေါင်းစပ်ထားပပါ။
 | ဒေ��င်းလုဒ် | ဖော်ပါ | ပါဝင်မှု |
 |---------|----------|----------|
-| `amkyawdev/myanmar-llm-data` | မြန်မာစာပါးဆက်ပါ၊ ဘာသာပြန်၊ Q&A | ၂၀,၃၂၇ |
 | `amkyawdev/mm-llm-coder-agent-dataset` | ကုဒ်ရေးလုပ်တဲ့ agents များ | ၁,၀၀၀,၀၂၀ |
 | `amkyawdev/mm-llm-coder-dataset` | ကုဒ်ထုတ်လုပ်တဲ့ အလုပ်များ | ၂,၀၀၀,၀၀၀ |
 **ပါဝင်မှု စုစုပါး: ၃,၀၂၀,၃၄၇**
-### ဖွဲ့စည်းပါ
-နမူနာတစ်ခုခုမှာ ပါဝင်တာများ:
 ```python
 {
-    "messages": [  # ပါးဆက်ပါ (role/content ရှိတဲ့ dict များ)
-        {"role": "system", "content": "သင်သည် အကူအညီပါ။"},
-        {"role": "user", "content": "သုံးစွဲသူပါ"},
-        {"role": "assistant", "content": "အဖြေပါ"}
-    ],
-    "instruction": "အလုပ်ညွှန်ကိုးကါ (ကုဒ် dataset များအတွက်)",
-    "category": "အလုပ်အမျိုးအစား (greeting, translation, code_debugging, etc.)",
-    "language": "en သို့မဟုတ် my",
-    "difficulty": "beginner, intermediate, သို့မဟုတ် advanced",
-    "response": "မျှော်လင့်တဲ့ အဖြေ/ထွက်ပါ",
-    "task_type": "အလုပ်အမျိုးအစား (qa_conversation, agent_workflow, etc.)"
 }
 ```
@@ -154,15 +197,9 @@ If you use this dataset, please cite:
 ```python
 from datasets import load_dataset
-# ဒေါင်းလုဒ်လုပ်ချက်
 dataset = load_dataset("amkyawdev/combined-myanmar-llm-dataset")
-# ပါဝင်မှု
-train_ds = load_dataset("amkyawdev/combined-myanmar-llm-dataset", split="train")
-# နမူနာတစ်ခုယူပါ
 sample = train_ds[0]
-print(sample["messages"])
 ```
 ### သုံးပြုနည်း အမျိုးမျိုး
@@ -171,21 +208,7 @@ print(sample["messages"])
 - **ကုဒ်ထုတ်လုပ်ခြင်း**: ပရိုဂရမ်ရေးလုပ်တဲ့ မော်ဒယ်များကို လေ့ကျင့်ခြင်း
 - **ဘာသာပြန်**: အင်္ဂလိပ်နဲ့ မြန်မာပါးကြား ပြန်ဆိုခြင်း
 - **ခွန်းဖြေ**: မြန်မာစာပါးဆက်ပါ AI များကို ဆောက်လုပ်ခြင်း
-### ကိုးကားချက်
-ဒီဒေါင်းလုဒ်များကို သုံးပါက ကျေးဇူးပါ။:
-```bibtex
-@dataset{combined_myanmar_llm,
-  title={Combined Myanmar LLM Dataset},
-  author={amkyawdev},
-  year={2024},
-  url={https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset}
-}
-```
----
 ### License

 # Combined Myanmar LLM Dataset
+A comprehensive dataset combining three Myanmar-related datasets for training large language models, optimized for code generation and Myanmar language understanding. This dataset follows the ADP (Agent Data Protocol) format with execution feedback.
 [English](#english) | [မြန်မာဘာသာ](#myanmar)
 **Total Samples: 3,020,347**
+### Features
+- **Myanmar Language Support**: Native Burmese (မြန်မာစာ) conversations and translations
+- **Code Generation**: Python, JavaScript, TypeScript, and other programming languages
+- **Agent Workflows**: Multi-step coding tasks with tool usage
+- **Execution Feedback**: Results from code execution including errors and test results
+- **Quality Metrics**: Ratings, validation status, and complexity scores
 ### Dataset Structure
 Each sample contains:
 ```python
 {
+    # Core Fields
+    "messages": [
         {"role": "system", "content": "You are a helpful assistant."},
         {"role": "user", "content": "User input here"},
         {"role": "assistant", "content": "Response here"}
     ],
+    # Task Definition
+    "instruction": "Task instruction",
+    "category": "Task category",
     "language": "en or my",
     "difficulty": "beginner, intermediate, or advanced",
     "response": "Expected response/output",
+    "task_type": "Type of task",
+    # Execution Feedback
+    "execution_feedback": {
+        "status": "completed or pending_validation",
+        "result": "Execution result",
+        "error_type": "runtime_error, syntax_error, etc.",
+        "error_message": "Error details",
+        "execution_time_ms": 1000,
+    },
+    # Extended Fields
+    "framework": "React, Express, etc.",
+    "runtime": "Node.js, Python, etc.",
+    "database": "MongoDB, PostgreSQL, etc.",
+    "validated": True/False,
+    "rating": 0.0 to 1.0,
+    "complexity_score": 1 to 10,
+    # Metadata
+    "metadata": {
+        "created_at": "2024-01-01T00:00:00",
+        "difficulty": "beginner/intermediate/advanced",
+    }
 }
 ```
 ### Usage
 ```python
 # Access a single sample
 sample = train_ds[0]
 print(sample["messages"])
+print(sample["execution_feedback"])
 ```
 ### Use Cases
 - **Code Generation**: Training models for programming tasks
 - **Multilingual Tasks**: Translation between English and Myanmar
 - **Chatbots**: Building conversational AI for Myanmar speakers
+- **Agent Workflows**: Training coding agents with execution feedback
+### Data Format
+This dataset is available in two formats:
+1. **HuggingFace Dataset**: Standard format with all fields
+2. **ADP Format**: JSONL format with execution feedback
+   - Location: `hf://buckets/amkyawdev/mm-llm-storage/myanmar-llm-adp-execution-feedback.jsonl`
+### License
+Apache 2.0 License
+### Citation
 ```bibtex
 @dataset{combined_myanmar_llm,
 ### အနှစ်ချူပါ
+ဒီ dataset သည် မြန်မာစာ နှင့် ကုဒ်ရေးလုပ်တဲ့ LLM များကို လေ့ကျင့်ဖို့အတွက် သုံးခုေကာင်း ဒေါင်းလုဒ်များကို ပေါင်းစပ်ထားပပါ။ ADP (Agent Data Protocol) format နှင့် ပါဝင်ပပါ။
 | ဒေ��င်းလုဒ် | ဖော်ပါ | ပါဝင်မှု |
 |---------|----------|----------|
+| `amkyawdev/myanmar-llm-data` | မြန်မာစာပါးဆက်၊ ဘာသာပြန်၊ Q&A | ၂၀,၃၂၇ |
 | `amkyawdev/mm-llm-coder-agent-dataset` | ကုဒ်ရေးလုပ်တဲ့ agents များ | ၁,၀၀၀,၀၂၀ |
 | `amkyawdev/mm-llm-coder-dataset` | ကုဒ်ထုတ်လုပ်တဲ့ အလုပ်များ | ၂,၀၀၀,၀၀၀ |
 **ပါဝင်မှု စုစုပါး: ၃,၀၂၀,၃၄၇**
+### ပါဝင်တဲ့ အချက်များ
+- **မြန်မာစာ ပါဝင်မှု**: မြန်မာစာ ပါးဆက်များနှင့် ဘာသာပြန်များ
+- **ကုဒ်ထုတ်လုပ်ခြင်း**: Python, JavaScript, TypeScript နှင့် အခြားပရိုဂရမ်ဘာသာများ
+- **Agent Workflows**: အလုပ်အများအဆင့်ဆင့်လုပ်တဲ့ ကုဒ်ရေးလုပ်တဲ့ အလုပ်များ
+- **Execution Feedback**: ကုဒ်လုပ်ခါင်းရလာဒ်၊ အမှားများ၊ စမ်းသပ်ချက်များ
+- **အရည်အသွေး**: Rating၊ validation status၊ complexity scores
+### ဖွဲ့စည်းပါ
 ```python
 {
+    # အခြေခံ ဖိုင်များ
+    "messages": [...],
+    "instruction": "...",
+    "category": "...",
+    "language": "my သို့မဟုတ် en",
+    "difficulty": "beginner, intermediate, advanced",
+    "response": "...",
+    "task_type": "...",
+    # Execution Feedback
+    "execution_feedback": {
+        "status": "completed သို့မဟုတ် pending_validation",
+        "result": "...",
+        "error_type": "...",
+        "error_message": "...",
+    },
+    # နောက်ထပ် ဖိုင်များ
+    "metadata": {...}
 }
 ```
 ```python
 from datasets import load_dataset
 dataset = load_dataset("amkyawdev/combined-myanmar-llm-dataset")
+train_ds = dataset["train"]
 sample = train_ds[0]
 ```
 ### သုံးပြုနည်း အမျိုးမျိုး
 - **ကုဒ်ထုတ်လုပ်ခြင်း**: ပရိုဂရမ်ရေးလုပ်တဲ့ မော်ဒယ်များကို လေ့ကျင့်ခြင်း
 - **ဘာသာပြန်**: အင်္ဂလိပ်နဲ့ မြန်မာပါးကြား ပြန်ဆိုခြင်း
 - **ခွန်းဖြေ**: မြန်မာစာပါးဆက်ပါ AI များကို ဆောက်လုပ်ခြင်း
+- **Agent Workflows**: Execution feedback နဲ့ ကုဒ် agents များကို လေ့ကျင့်ခြင်း
 ### License