Amkyaw-Core-L3-Space / generate_data.py
amkyawdev's picture
Upload folder using huggingface_hub
bb1a7cd verified
import json
import random
def generate_data(count=3000):
categories = [
{
"topic": "Greeting",
"keywords": ["မင်္ဂလာ", "ဟိုင်း", "ဘယ်လိုလဲ", "နေကောင်းလား", "အခြေအနေ"],
"step1": "🔍 အဆင့် ၁ - Perception: ဒါဟာ နှုတ်ခွန်းဆက်ခြင်း (Greeting) အမျိုးအစားဖြစ်ပါတယ်။ User က ယဉ်ကျေးစွာ စကားစမြည်ပြောဆိုလိုတာပါ။",
"step2": "🧠 အဆင့် ၂ - Logical Sequence:\n 1️⃣ ပထမ User ရဲ့ စကားထဲမှာ Greeting Pattern (မင်္ဂလာ၊ ဟိုင်း၊ နေကောင်းလား) စစ်ဆေးပါ။\n 2️⃣ ဒုတိယ အခြေအနေအရ Standard Greeting Response ကို ပြန်လည်ရွေးချယ်ပါ။\n 3️⃣ တတိယ Response ကို ယဉ်ကျေးပျူငှာစွာ ပြန်ဆိုရန် ပြင်ဆင်ပါ။",
"step3": "✅ အဆင့် ၃ - Verification: ပြန်ဆိုလိုက်တဲ့ Response ဟာ မြန်မာ့ယဉ်ကျေးမှုနဲ့ ကိုက်ညီပြီး လေးစားဖွယ်ရှိမရှိ ပြန်စစ်ပါ။ Politeness level သင့်တော်ကြောင်း အတည်ပြုပါ။",
"answers": ["🙏 အဖြေ: **မင်္ဂလာပါ။ နေကောင်းလား။** ခင်ဗျားရဲ့ မေးမြန်းမှုအတွက် ကျေးဇူးတင်ပါတယ်။", "🙏 အဖြေ: **မင်္ဂလာပါ။** ကျွန်တော် ဘာကူညီပေးရမလဲခင်ဗျာ။", "🙏 အဖြေ: **ဟိုင်း!** နေကောင်းပါတယ်။ သင်ရော နေကောင်းရဲ့လား။"]
},
{
"topic": "Thanking",
"keywords": ["ကျေးဇူး", "ကျေးဇူးတင်", "thank you", "thanks", "ကျေးဇူးပါ"],
"step1": "🔍 အဆင့် ၁ - Perception: ဒါဟာ ကျေးဇူးတင်စကား (Thanking) အမျိုးအစားဖြစ်ပါတယ်။ User က အကူအညီအတွက် ကျေးဇူးတင်ကြောင်း ဖော်ပြလိုတာပါ။",
"step2": "🧠 အဆင့် ၂ - Logical Sequence:\n 1️⃣ User ရဲ့ ကျေးဇူးတင်စကားကို အသိအမှတ်ပြုပါ။\n 2️⃣ ဝမ်းမြောက်ကြောင်း ပြန်လည်တုံ့ပြန်ပါ။\n 3️⃣ နောင်တွင်လည်း ကူညီရန် အသင့်ရှိကြောင်း ဖော်ပြပါ။",
"step3": "✅ အဆင့် ၃ - Verification: တုံ့ပြန်မှုဟာ ဖော်ရွေပြီး ကူညီလိုစိတ်ရှိကြောင်း ပေါ်လွင်စေရပါမယ်။",
"answers": ["🙏 အဖြေ: **ရပါတယ်ခင်ဗျာ။** ကူညီခွင့်ရတာ ဝမ်းသာပါတယ်။", "🙏 အဖြေ: **ကျေးဇူးတင်စရာ မလိုပါဘူး။** နောက်လည်း လိုအပ်တာရှိရင် ပြောပါဦး။", "🙏 အဖြေ: **မလိုပါဘူးခင်ဗျာ။** ကျွန်တော့်ဘက်က အမြဲအသင့်ရှိနေမှာပါ။"]
},
{
"topic": "Apology",
"keywords": ["ဆောရီး", "တောင်းပန်", "မှားသွား", "sorry", "ခွင့်လွှတ်"],
"step1": "🔍 အဆင့် ၁ - Perception: ဒါဟာ တောင်းပန်စကား (Apology) အမျိုးအစားဖြစ်ပါတယ်။ User က အမှားတစ်ခုခုအတွက် စိတ်မကောင်းဖြစ်နေတာပါ။",
"step2": "🧠 အဆင့် ၂ - Logical Sequence:\n 1️⃣ User ရဲ့ တောင်းပန်မှုကို လက်ခံပါ။\n 2️⃣ ကိစ္စမရှိကြောင်း သို့မဟုတ် နားလည်ကြောင်း ပြန်ပြောပါ။\n 3️⃣ အခြေအနေကို ပြေလည်အောင် ညှိနှိုင်းပါ။",
"step3": "✅ အဆင့် ၃ - Verification: တုံ့ပြန်မှုဟာ စာနာနားလည်မှုရှိပြီး အပြုသဘောဆောင်ရပါမယ်။",
"answers": ["🙏 အဖြေ: **ရပါတယ်ခင်ဗျာ။** စိတ်ထဲမထားပါနဲ့။", "🙏 အဖြေ: **ကိစ္စမရှိပါဘူး။** လူတိုင်း မှားတတ်တာပဲလေ။", "🙏 အဖြေ: **နားလည်ပေးလို့ ရပါတယ်။** နောက်တစ်ခါ သတိထားရင် ရပါပြီ။"]
},
{
"topic": "Asking for Help",
"keywords": ["ကူညီ", "အကူအညီ", "help", "မေးချင်", "သိချင်"],
"step1": "🔍 အဆင့် ၁ - Perception: ဒါဟာ အကူအညီတောင်းခံခြင်း (Requesting Help) အမျိုးအစားဖြစ်ပါတယ်။ User က တစ်ခုခုကို သိလိုတာ သို့မဟုတ် လုပ်ဆောင်ပေးစေလိုတာပါ။",
"step2": "🧠 အဆင့် ၂ - Logical Sequence:\n 1️⃣ User ရဲ့ လိုအပ်ချက်ကို သေချာနားထောင်ပါ။\n 2️⃣ ကူညီပေးနိုင်ကြောင်း အတည်ပြုပါ။\n 3️⃣ အသေးစိတ် အချက်အလက်ကို မေးမြန်းပါ။",
"step3": "✅ အဆင့် ၃ - Verification: တုံ့ပြန်မှုဟာ တက်ကြွပြီး အားကိုးထိုက်ကြောင်း ပြသရပါမယ်။",
"answers": ["🙏 အဖြေ: **ဟုတ်ကဲ့ခင်ဗျာ။** ဘာများ ကူညီပေးရမလဲ ပြောပြပေးပါ။", "🙏 အဖြေ: **သေချာပေါက် ကူညီပေးပါ့မယ်။** ဘာအကြောင်း သိချင်တာလဲခင်ဗျာ။", "🙏 အဖြေ: **ပြောပါခင်ဗျာ။** ကျွန်တော် တတ်နိုင်သလောက် အကောင်းဆုံး ကူညီပေးပါ့မယ်။"]
},
{
"topic": "Farewell",
"keywords": ["သွားပြီ", "နှုတ်ဆက်", "bye", "goodbye", "နောက်မှတွေ့မယ်"],
"step1": "🔍 အဆင့် ၁ - Perception: ဒါဟာ နှုတ်ဆက်ခြင်း (Farewell) အမျိုးအစားဖြစ်ပါတယ်။ User က စကားပြောခြင်းကို ရပ်နားလိုတာပါ။",
"step2": "🧠 အဆင့် ၂ - Logical Sequence:\n 1️⃣ User ရဲ့ နှုတ်ဆက်မှုကို အသိအမှတ်ပြုပါ။\n 2️⃣ ကောင်းမွန်တဲ့ ဆုတောင်းစကား ပြောကြားပါ။\n 3️⃣ နောက်တစ်ကြိမ် ပြန်လည်ဆုံတွေ့ရန် ဖိတ်ခေါ်ပါ။",
"step3": "✅ အဆင့် ၃ - Verification: တုံ့ပြန်မှုဟာ နွေးထွေးပြီး အဆုံးသတ်ကောင်းတစ်ခု ဖြစ်ရပါမယ်။",
"answers": ["🙏 အဖြေ: **ဟုတ်ကဲ့ပါ။** သွားပါဦးခင်ဗျာ။ ဘေးကင်းပါစေ။", "🙏 အဖြေ: **Bye Bye!** နောက်မှ ပြန်တွေ့ကြတာပေါ့။", "🙏 အဖြေ: **ကောင်းသောနေ့လေး ဖြစ်ပါစေ။** နောက်မှ ပြန်စကားပြောကြမယ်နော်။"]
}
]
data_list = []
for i in range(count):
cat = random.choice(categories)
entry = {
"keywords": cat["keywords"],
"step1": cat["step1"],
"step2": cat["step2"],
"step3": cat["step3"],
"answer": random.choice(cat["answers"])
}
data_list.append(entry)
return data_list
if __name__ == "__main__":
result = generate_data(3000)
with open("responses.jsonl", "w", encoding="utf-8") as f:
json.dump(result, f, ensure_ascii=False, indent=3)
print(f"Successfully generated 3000 entries.")