import json import random def generate_data(count=3000): categories = [ { "topic": "Greeting", "keywords": ["မင်္ဂလာ", "ဟိုင်း", "ဘယ်လိုလဲ", "နေကောင်းလား", "အခြေအနေ"], "step1": "🔍 အဆင့် ၁ - Perception: ဒါဟာ နှုတ်ခွန်းဆက်ခြင်း (Greeting) အမျိုးအစားဖြစ်ပါတယ်။ User က ယဉ်ကျေးစွာ စကားစမြည်ပြောဆိုလိုတာပါ။", "step2": "🧠 အဆင့် ၂ - Logical Sequence:\n 1️⃣ ပထမ User ရဲ့ စကားထဲမှာ Greeting Pattern (မင်္ဂလာ၊ ဟိုင်း၊ နေကောင်းလား) စစ်ဆေးပါ။\n 2️⃣ ဒုတိယ အခြေအနေအရ Standard Greeting Response ကို ပြန်လည်ရွေးချယ်ပါ။\n 3️⃣ တတိယ Response ကို ယဉ်ကျေးပျူငှာစွာ ပြန်ဆိုရန် ပြင်ဆင်ပါ။", "step3": "✅ အဆင့် ၃ - Verification: ပြန်ဆိုလိုက်တဲ့ Response ဟာ မြန်မာ့ယဉ်ကျေးမှုနဲ့ ကိုက်ညီပြီး လေးစားဖွယ်ရှိမရှိ ပြန်စစ်ပါ။ Politeness level သင့်တော်ကြောင်း အတည်ပြုပါ။", "answers": ["🙏 အဖြေ: **မင်္ဂလာပါ။ နေကောင်းလား။** ခင်ဗျားရဲ့ မေးမြန်းမှုအတွက် ကျေးဇူးတင်ပါတယ်။", "🙏 အဖြေ: **မင်္ဂလာပါ။** ကျွန်တော် ဘာကူညီပေးရမလဲခင်ဗျာ။", "🙏 အဖြေ: **ဟိုင်း!** နေကောင်းပါတယ်။ သင်ရော နေကောင်းရဲ့လား။"] }, { "topic": "Thanking", "keywords": ["ကျေးဇူး", "ကျေးဇူးတင်", "thank you", "thanks", "ကျေးဇူးပါ"], "step1": "🔍 အဆင့် ၁ - Perception: ဒါဟာ ကျေးဇူးတင်စကား (Thanking) အမျိုးအစားဖြစ်ပါတယ်။ User က အကူအညီအတွက် ကျေးဇူးတင်ကြောင်း ဖော်ပြလိုတာပါ။", "step2": "🧠 အဆင့် ၂ - Logical Sequence:\n 1️⃣ User ရဲ့ ကျေးဇူးတင်စကားကို အသိအမှတ်ပြုပါ။\n 2️⃣ ဝမ်းမြောက်ကြောင်း ပြန်လည်တုံ့ပြန်ပါ။\n 3️⃣ နောင်တွင်လည်း ကူညီရန် အသင့်ရှိကြောင်း ဖော်ပြပါ။", "step3": "✅ အဆင့် ၃ - Verification: တုံ့ပြန်မှုဟာ ဖော်ရွေပြီး ကူညီလိုစိတ်ရှိကြောင်း ပေါ်လွင်စေရပါမယ်။", "answers": ["🙏 အဖြေ: **ရပါတယ်ခင်ဗျာ။** ကူညီခွင့်ရတာ ဝမ်းသာပါတယ်။", "🙏 အဖြေ: **ကျေးဇူးတင်စရာ မလိုပါဘူး။** နောက်လည်း လိုအပ်တာရှိရင် ပြောပါဦး။", "🙏 အဖြေ: **မလိုပါဘူးခင်ဗျာ။** ကျွန်တော့်ဘက်က အမြဲအသင့်ရှိနေမှာပါ။"] }, { "topic": "Apology", "keywords": ["ဆောရီး", "တောင်းပန်", "မှားသွား", "sorry", "ခွင့်လွှတ်"], "step1": "🔍 အဆင့် ၁ - Perception: ဒါဟာ တောင်းပန်စကား (Apology) အမျိုးအစားဖြစ်ပါတယ်။ User က အမှားတစ်ခုခုအတွက် စိတ်မကောင်းဖြစ်နေတာပါ။", "step2": "🧠 အဆင့် ၂ - Logical Sequence:\n 1️⃣ User ရဲ့ တောင်းပန်မှုကို လက်ခံပါ။\n 2️⃣ ကိစ္စမရှိကြောင်း သို့မဟုတ် နားလည်ကြောင်း ပြန်ပြောပါ။\n 3️⃣ အခြေအနေကို ပြေလည်အောင် ညှိနှိုင်းပါ။", "step3": "✅ အဆင့် ၃ - Verification: တုံ့ပြန်မှုဟာ စာနာနားလည်မှုရှိပြီး အပြုသဘောဆောင်ရပါမယ်။", "answers": ["🙏 အဖြေ: **ရပါတယ်ခင်ဗျာ။** စိတ်ထဲမထားပါနဲ့။", "🙏 အဖြေ: **ကိစ္စမရှိပါဘူး။** လူတိုင်း မှားတတ်တာပဲလေ။", "🙏 အဖြေ: **နားလည်ပေးလို့ ရပါတယ်။** နောက်တစ်ခါ သတိထားရင် ရပါပြီ။"] }, { "topic": "Asking for Help", "keywords": ["ကူညီ", "အကူအညီ", "help", "မေးချင်", "သိချင်"], "step1": "🔍 အဆင့် ၁ - Perception: ဒါဟာ အကူအညီတောင်းခံခြင်း (Requesting Help) အမျိုးအစားဖြစ်ပါတယ်။ User က တစ်ခုခုကို သိလိုတာ သို့မဟုတ် လုပ်ဆောင်ပေးစေလိုတာပါ။", "step2": "🧠 အဆင့် ၂ - Logical Sequence:\n 1️⃣ User ရဲ့ လိုအပ်ချက်ကို သေချာနားထောင်ပါ။\n 2️⃣ ကူညီပေးနိုင်ကြောင်း အတည်ပြုပါ။\n 3️⃣ အသေးစိတ် အချက်အလက်ကို မေးမြန်းပါ။", "step3": "✅ အဆင့် ၃ - Verification: တုံ့ပြန်မှုဟာ တက်ကြွပြီး အားကိုးထိုက်ကြောင်း ပြသရပါမယ်။", "answers": ["🙏 အဖြေ: **ဟုတ်ကဲ့ခင်ဗျာ။** ဘာများ ကူညီပေးရမလဲ ပြောပြပေးပါ။", "🙏 အဖြေ: **သေချာပေါက် ကူညီပေးပါ့မယ်။** ဘာအကြောင်း သိချင်တာလဲခင်ဗျာ။", "🙏 အဖြေ: **ပြောပါခင်ဗျာ။** ကျွန်တော် တတ်နိုင်သလောက် အကောင်းဆုံး ကူညီပေးပါ့မယ်။"] }, { "topic": "Farewell", "keywords": ["သွားပြီ", "နှုတ်ဆက်", "bye", "goodbye", "နောက်မှတွေ့မယ်"], "step1": "🔍 အဆင့် ၁ - Perception: ဒါဟာ နှုတ်ဆက်ခြင်း (Farewell) အမျိုးအစားဖြစ်ပါတယ်။ User က စကားပြောခြင်းကို ရပ်နားလိုတာပါ။", "step2": "🧠 အဆင့် ၂ - Logical Sequence:\n 1️⃣ User ရဲ့ နှုတ်ဆက်မှုကို အသိအမှတ်ပြုပါ။\n 2️⃣ ကောင်းမွန်တဲ့ ဆုတောင်းစကား ပြောကြားပါ။\n 3️⃣ နောက်တစ်ကြိမ် ပြန်လည်ဆုံတွေ့ရန် ဖိတ်ခေါ်ပါ။", "step3": "✅ အဆင့် ၃ - Verification: တုံ့ပြန်မှုဟာ နွေးထွေးပြီး အဆုံးသတ်ကောင်းတစ်ခု ဖြစ်ရပါမယ်။", "answers": ["🙏 အဖြေ: **ဟုတ်ကဲ့ပါ။** သွားပါဦးခင်ဗျာ။ ဘေးကင်းပါစေ။", "🙏 အဖြေ: **Bye Bye!** နောက်မှ ပြန်တွေ့ကြတာပေါ့။", "🙏 အဖြေ: **ကောင်းသောနေ့လေး ဖြစ်ပါစေ။** နောက်မှ ပြန်စကားပြောကြမယ်နော်။"] } ] data_list = [] for i in range(count): cat = random.choice(categories) entry = { "keywords": cat["keywords"], "step1": cat["step1"], "step2": cat["step2"], "step3": cat["step3"], "answer": random.choice(cat["answers"]) } data_list.append(entry) return data_list if __name__ == "__main__": result = generate_data(3000) with open("responses.jsonl", "w", encoding="utf-8") as f: json.dump(result, f, ensure_ascii=False, indent=3) print(f"Successfully generated 3000 entries.")