amkyawdev commited on
Commit
210ece5
·
verified ·
1 Parent(s): d922d70

Upload README.md with huggingface_hub

Browse files
Files changed (1) hide show
  1. README.md +84 -61
README.md CHANGED
@@ -20,7 +20,7 @@ source_datasets:
20
 
21
  # Combined Myanmar LLM Dataset
22
 
23
- A comprehensive dataset combining three Myanmar-related datasets for training large language models, optimized for code generation and Myanmar language understanding.
24
 
25
  [English](#english) | [မြန်မာဘာသာ](#myanmar)
26
 
@@ -40,42 +40,60 @@ This dataset combines three source datasets for training LLMs with Myanmar langu
40
 
41
  **Total Samples: 3,020,347**
42
 
 
 
 
 
 
 
 
 
43
  ### Dataset Structure
44
 
45
  Each sample contains:
46
 
47
  ```python
48
  {
49
- "messages": [ # Chat messages (list of dicts with role/content)
 
50
  {"role": "system", "content": "You are a helpful assistant."},
51
  {"role": "user", "content": "User input here"},
52
  {"role": "assistant", "content": "Response here"}
53
  ],
54
- "instruction": "Task instruction (for code datasets)",
55
- "category": "Task category (greeting, translation, code_debugging, etc.)",
 
 
56
  "language": "en or my",
57
  "difficulty": "beginner, intermediate, or advanced",
58
  "response": "Expected response/output",
59
- "task_type": "Type of task (qa_conversation, agent_workflow, etc.)"
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
60
  }
61
  ```
62
 
63
- ### Extended Fields (from mm-llm-coder-agent-dataset)
64
-
65
- Some samples include additional fields:
66
-
67
- | Field | Description |
68
- |-------|-------------|
69
- | `framework` | Framework used (React, Express, etc.) |
70
- | `runtime` | Runtime environment |
71
- | `database` | Database system |
72
- | `environment` | Development environment |
73
- | `tools_used` | Tools used in the task |
74
- | `code_snippets` | Code examples |
75
- | `validated` | Whether validated |
76
- | `rating` | Quality rating |
77
- | `complexity_score` | Task complexity score |
78
-
79
  ### Usage
80
 
81
  ```python
@@ -90,6 +108,7 @@ train_ds = load_dataset("amkyawdev/combined-myanmar-llm-dataset", split="train")
90
  # Access a single sample
91
  sample = train_ds[0]
92
  print(sample["messages"])
 
93
  ```
94
 
95
  ### Use Cases
@@ -98,11 +117,21 @@ print(sample["messages"])
98
  - **Code Generation**: Training models for programming tasks
99
  - **Multilingual Tasks**: Translation between English and Myanmar
100
  - **Chatbots**: Building conversational AI for Myanmar speakers
101
- - **Agent Workflows**: Training coding agents
 
 
 
 
 
 
 
 
102
 
103
- ### Dataset Card Citation
 
 
104
 
105
- If you use this dataset, please cite:
106
 
107
  ```bibtex
108
  @dataset{combined_myanmar_llm,
@@ -119,33 +148,47 @@ If you use this dataset, please cite:
119
 
120
  ### အနှစ်ချူပါ
121
 
122
- ဒီ dataset သည် မြန်မာစာ နှင့် ကုဒ်ရေးလုပ်တဲ့ LLM များကို လေ့ကျင့်ဖို့အတွက် သုံးခုေကာင်း ဒေါင်းလုဒ်များကို ပေါင်းစပ်ထားပပါ။
123
 
124
  | ဒေ��င်းလုဒ် | ဖော်ပါ | ပါဝင်မှု |
125
  |---------|----------|----------|
126
- | `amkyawdev/myanmar-llm-data` | မြန်မာစာပါးဆက်ပါ၊ ဘာသာပြန်၊ Q&A | ၂၀,၃၂၇ |
127
  | `amkyawdev/mm-llm-coder-agent-dataset` | ကုဒ်ရေးလုပ်တဲ့ agents များ | ၁,၀၀၀,၀၂၀ |
128
  | `amkyawdev/mm-llm-coder-dataset` | ကုဒ်ထုတ်လုပ်တဲ့ အလုပ်များ | ၂,၀၀၀,၀၀၀ |
129
 
130
  **ပါဝင်မှု စုစုပါး: ၃,၀၂၀,၃၄၇**
131
 
132
- ### ဖွဲ့စည်းပါ
133
 
134
- နာစ်ခုခုမှာ ပါင်ာများ:
 
 
 
 
 
 
135
 
136
  ```python
137
  {
138
- "messages": [ # ပါးဆက်ပါ (role/content ရှတဲ့ dict များ)
139
- {"role": "system", "content": "သင်သည် အကူအညီပါ။"},
140
- {"role": "user", "content": "သုံးစွဲသူပါ"},
141
- {"role": "assistant", "content": "အဖြေပါ"}
142
- ],
143
- "instruction": "အလုပ်ညွှန်ကိုးကါ (ကုဒ် dataset များအတွက်)",
144
- "category": "အလုပ်အမျိုးအစား (greeting, translation, code_debugging, etc.)",
145
- "language": "en သို့မဟုတ် my",
146
- "difficulty": "beginner, intermediate, သို့မဟုတ် advanced",
147
- "response": "မျှော်လင့်တဲ့ အဖြေ/ထွက်ပါ",
148
- "task_type": "အလုပ်အမျိုးအစား (qa_conversation, agent_workflow, etc.)"
 
 
 
 
 
 
 
 
149
  }
150
  ```
151
 
@@ -154,15 +197,9 @@ If you use this dataset, please cite:
154
  ```python
155
  from datasets import load_dataset
156
 
157
- # ဒေါင်းလုဒ်လုပ်ချက်
158
  dataset = load_dataset("amkyawdev/combined-myanmar-llm-dataset")
159
-
160
- # ပါဝင်မှု
161
- train_ds = load_dataset("amkyawdev/combined-myanmar-llm-dataset", split="train")
162
-
163
- # နမူနာတစ်ခုယူပါ
164
  sample = train_ds[0]
165
- print(sample["messages"])
166
  ```
167
 
168
  ### သုံးပြုနည်း အမျိုးမျိုး
@@ -171,21 +208,7 @@ print(sample["messages"])
171
  - **ကုဒ်ထုတ်လုပ်ခြင်း**: ပရိုဂရမ်ရေးလုပ်တဲ့ မော်ဒယ်များကို လေ့ကျင့်ခြင်း
172
  - **ဘာသာပြန်**: အင်္ဂလိပ်နဲ့ မြန်မာပါးကြား ပြန်ဆိုခြင်း
173
  - **ခွန်းဖြေ**: မြန်မာစာပါးဆက်ပါ AI များကို ဆောက်လုပ်ခြင်း
174
-
175
- ### ကိုးကားချက်
176
-
177
- ဒီဒေါင်းလုဒ်များကို သုံးပါက ကျေးဇူးပါ။:
178
-
179
- ```bibtex
180
- @dataset{combined_myanmar_llm,
181
- title={Combined Myanmar LLM Dataset},
182
- author={amkyawdev},
183
- year={2024},
184
- url={https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset}
185
- }
186
- ```
187
-
188
- ---
189
 
190
  ### License
191
 
 
20
 
21
  # Combined Myanmar LLM Dataset
22
 
23
+ A comprehensive dataset combining three Myanmar-related datasets for training large language models, optimized for code generation and Myanmar language understanding. This dataset follows the ADP (Agent Data Protocol) format with execution feedback.
24
 
25
  [English](#english) | [မြန်မာဘာသာ](#myanmar)
26
 
 
40
 
41
  **Total Samples: 3,020,347**
42
 
43
+ ### Features
44
+
45
+ - **Myanmar Language Support**: Native Burmese (မြန်မာစာ) conversations and translations
46
+ - **Code Generation**: Python, JavaScript, TypeScript, and other programming languages
47
+ - **Agent Workflows**: Multi-step coding tasks with tool usage
48
+ - **Execution Feedback**: Results from code execution including errors and test results
49
+ - **Quality Metrics**: Ratings, validation status, and complexity scores
50
+
51
  ### Dataset Structure
52
 
53
  Each sample contains:
54
 
55
  ```python
56
  {
57
+ # Core Fields
58
+ "messages": [
59
  {"role": "system", "content": "You are a helpful assistant."},
60
  {"role": "user", "content": "User input here"},
61
  {"role": "assistant", "content": "Response here"}
62
  ],
63
+
64
+ # Task Definition
65
+ "instruction": "Task instruction",
66
+ "category": "Task category",
67
  "language": "en or my",
68
  "difficulty": "beginner, intermediate, or advanced",
69
  "response": "Expected response/output",
70
+ "task_type": "Type of task",
71
+
72
+ # Execution Feedback
73
+ "execution_feedback": {
74
+ "status": "completed or pending_validation",
75
+ "result": "Execution result",
76
+ "error_type": "runtime_error, syntax_error, etc.",
77
+ "error_message": "Error details",
78
+ "execution_time_ms": 1000,
79
+ },
80
+
81
+ # Extended Fields
82
+ "framework": "React, Express, etc.",
83
+ "runtime": "Node.js, Python, etc.",
84
+ "database": "MongoDB, PostgreSQL, etc.",
85
+ "validated": True/False,
86
+ "rating": 0.0 to 1.0,
87
+ "complexity_score": 1 to 10,
88
+
89
+ # Metadata
90
+ "metadata": {
91
+ "created_at": "2024-01-01T00:00:00",
92
+ "difficulty": "beginner/intermediate/advanced",
93
+ }
94
  }
95
  ```
96
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
97
  ### Usage
98
 
99
  ```python
 
108
  # Access a single sample
109
  sample = train_ds[0]
110
  print(sample["messages"])
111
+ print(sample["execution_feedback"])
112
  ```
113
 
114
  ### Use Cases
 
117
  - **Code Generation**: Training models for programming tasks
118
  - **Multilingual Tasks**: Translation between English and Myanmar
119
  - **Chatbots**: Building conversational AI for Myanmar speakers
120
+ - **Agent Workflows**: Training coding agents with execution feedback
121
+
122
+ ### Data Format
123
+
124
+ This dataset is available in two formats:
125
+
126
+ 1. **HuggingFace Dataset**: Standard format with all fields
127
+ 2. **ADP Format**: JSONL format with execution feedback
128
+ - Location: `hf://buckets/amkyawdev/mm-llm-storage/myanmar-llm-adp-execution-feedback.jsonl`
129
 
130
+ ### License
131
+
132
+ Apache 2.0 License
133
 
134
+ ### Citation
135
 
136
  ```bibtex
137
  @dataset{combined_myanmar_llm,
 
148
 
149
  ### အနှစ်ချူပါ
150
 
151
+ ဒီ dataset သည် မြန်မာစာ နှင့် ကုဒ်ရေးလုပ်တဲ့ LLM များကို လေ့ကျင့်ဖို့အတွက် သုံးခုေကာင်း ဒေါင်းလုဒ်များကို ပေါင်းစပ်ထားပပါ။ ADP (Agent Data Protocol) format နှင့် ပါဝင်ပပါ။
152
 
153
  | ဒေ��င်းလုဒ် | ဖော်ပါ | ပါဝင်မှု |
154
  |---------|----------|----------|
155
+ | `amkyawdev/myanmar-llm-data` | မြန်မာစာပါးဆက်၊ ဘာသာပြန်၊ Q&A | ၂၀,၃၂၇ |
156
  | `amkyawdev/mm-llm-coder-agent-dataset` | ကုဒ်ရေးလုပ်တဲ့ agents များ | ၁,၀၀၀,၀၂၀ |
157
  | `amkyawdev/mm-llm-coder-dataset` | ကုဒ်ထုတ်လုပ်တဲ့ အလုပ်များ | ၂,၀၀၀,၀၀၀ |
158
 
159
  **ပါဝင်မှု စုစုပါး: ၃,၀၂၀,၃၄၇**
160
 
161
+ ### ပါဝင်တဲ့ အချကမျာ
162
 
163
+ - **်မာစာ ပါဝင်မှု**: မြန်မစာ ပါးဆက်များနှသာပြန်များ
164
+ - **ကုဒ်ထုတ်လုပ်ခြင်း**: Python, JavaScript, TypeScript နှင့် အခြားပရိုဂရမ်ဘာသာများ
165
+ - **Agent Workflows**: အလုပ်အများအဆင့်ဆင့်လုပ်တဲ့ ကုဒ်ရေးလုပ်တဲ့ အလုပ်များ
166
+ - **Execution Feedback**: ကုဒ်လုပ်ခါင်းရလာဒ်၊ အမှားများ၊ စမ်းသပ်ချက်များ
167
+ - **အရည်အသွေး**: Rating၊ validation status၊ complexity scores
168
+
169
+ ### ဖွဲ့စည်းပါ
170
 
171
  ```python
172
  {
173
+ # အခြေခံ ုင်များ
174
+ "messages": [...],
175
+ "instruction": "...",
176
+ "category": "...",
177
+ "language": "my သို့မဟုတ် en",
178
+ "difficulty": "beginner, intermediate, advanced",
179
+ "response": "...",
180
+ "task_type": "...",
181
+
182
+ # Execution Feedback
183
+ "execution_feedback": {
184
+ "status": "completed သို့မဟုတ် pending_validation",
185
+ "result": "...",
186
+ "error_type": "...",
187
+ "error_message": "...",
188
+ },
189
+
190
+ # နောက်ထပ် ဖိုင်များ
191
+ "metadata": {...}
192
  }
193
  ```
194
 
 
197
  ```python
198
  from datasets import load_dataset
199
 
 
200
  dataset = load_dataset("amkyawdev/combined-myanmar-llm-dataset")
201
+ train_ds = dataset["train"]
 
 
 
 
202
  sample = train_ds[0]
 
203
  ```
204
 
205
  ### သုံးပြုနည်း အမျိုးမျိုး
 
208
  - **ကုဒ်ထုတ်လုပ်ခြင်း**: ပရိုဂရမ်ရေးလုပ်တဲ့ မော်ဒယ်များကို လေ့ကျင့်ခြင်း
209
  - **ဘာသာပြန်**: အင်္ဂလိပ်နဲ့ မြန်မာပါးကြား ပြန်ဆိုခြင်း
210
  - **ခွန်းဖြေ**: မြန်မာစာပါးဆက်ပါ AI များကို ဆောက်လုပ်ခြင်း
211
+ - **Agent Workflows**: Execution feedback နဲ့ ကုဒ် agents များကို လေ့ကျင့်ခြင်း
 
 
 
 
 
 
 
 
 
 
 
 
 
 
212
 
213
  ### License
214