Spaces:

amkyawdev
/

Amkyaw-Core-L3-Space

Runtime error

App Files Files Community

Amkyaw-Core-L3-Space / generate_data.py

amkyawdev

Upload folder using huggingface_hub

bb1a7cd verified about 2 months ago

raw

history blame contribute delete

9.52 kB

	import json
	import random


	def generate_data(count=3000):
	categories = [
	{
	"topic": "Greeting",
	"keywords": ["မင်္ဂလာ", "ဟိုင်း", "ဘယ်လိုလဲ", "နေကောင်းလား", "အခြေအနေ"],
	"step1": "🔍 အဆင့် ၁ - Perception: ဒါဟာ နှုတ်ခွန်းဆက်ခြင်း (Greeting) အမျိုးအစားဖြစ်ပါတယ်။ User က ယဉ်ကျေးစွာ စကားစမြည်ပြောဆိုလိုတာပါ။",
	"step2": "🧠 အဆင့် ၂ - Logical Sequence:\n 1️⃣ ပထမ User ရဲ့ စကားထဲမှာ Greeting Pattern (မင်္ဂလာ၊ ဟိုင်း၊ နေကောင်းလား) စစ်ဆေးပါ။\n 2️⃣ ဒုတိယ အခြေအနေအရ Standard Greeting Response ကို ပြန်လည်ရွေးချယ်ပါ။\n 3️⃣ တတိယ Response ကို ယဉ်ကျေးပျူငှာစွာ ပြန်ဆိုရန် ပြင်ဆင်ပါ။",
	"step3": "✅ အဆင့် ၃ - Verification: ပြန်ဆိုလိုက်တဲ့ Response ဟာ မြန်မာ့ယဉ်ကျေးမှုနဲ့ ကိုက်ညီပြီး လေးစားဖွယ်ရှိမရှိ ပြန်စစ်ပါ။ Politeness level သင့်တော်ကြောင်း အတည်ပြုပါ။",
	"answers": ["🙏 အဖြေ: မင်္ဂလာပါ။ နေကောင်းလား။ ခင်ဗျားရဲ့ မေးမြန်းမှုအတွက် ကျေးဇူးတင်ပါတယ်။", "🙏 အဖြေ: မင်္ဂလာပါ။ ကျွန်တော် ဘာကူညီပေးရမလဲခင်ဗျာ။", "🙏 အဖြေ: ဟိုင်း! နေကောင်းပါတယ်။ သင်ရော နေကောင်းရဲ့လား။"]
	},
	{
	"topic": "Thanking",
	"keywords": ["ကျေးဇူး", "ကျေးဇူးတင်", "thank you", "thanks", "ကျေးဇူးပါ"],
	"step1": "🔍 အဆင့် ၁ - Perception: ဒါဟာ ကျေးဇူးတင်စကား (Thanking) အမျိုးအစားဖြစ်ပါတယ်။ User က အကူအညီအတွက် ကျေးဇူးတင်ကြောင်း ဖော်ပြလိုတာပါ။",
	"step2": "🧠 အဆင့် ၂ - Logical Sequence:\n 1️⃣ User ရဲ့ ကျေးဇူးတင်စကားကို အသိအမှတ်ပြုပါ။\n 2️⃣ ဝမ်းမြောက်ကြောင်း ပြန်လည်တုံ့ပြန်ပါ။\n 3️⃣ နောင်တွင်လည်း ကူညီရန် အသင့်ရှိကြောင်း ဖော်ပြပါ။",
	"step3": "✅ အဆင့် ၃ - Verification: တုံ့ပြန်မှုဟာ ဖော်ရွေပြီး ကူညီလိုစိတ်ရှိကြောင်း ပေါ်လွင်စေရပါမယ်။",
	"answers": ["🙏 အဖြေ: ရပါတယ်ခင်ဗျာ။ ကူညီခွင့်ရတာ ဝမ်းသာပါတယ်။", "🙏 အဖြေ: ကျေးဇူးတင်စရာ မလိုပါဘူး။ နောက်လည်း လိုအပ်တာရှိရင် ပြောပါဦး။", "🙏 အဖြေ: မလိုပါဘူးခင်ဗျာ။ ကျွန်တော့်ဘက်က အမြဲအသင့်ရှိနေမှာပါ။"]
	},
	{
	"topic": "Apology",
	"keywords": ["ဆောရီး", "တောင်းပန်", "မှားသွား", "sorry", "ခွင့်လွှတ်"],
	"step1": "🔍 အဆင့် ၁ - Perception: ဒါဟာ တောင်းပန်စကား (Apology) အမျိုးအစားဖြစ်ပါတယ်။ User က အမှားတစ်ခုခုအတွက် စိတ်မကောင်းဖြစ်နေတာပါ။",
	"step2": "🧠 အဆင့် ၂ - Logical Sequence:\n 1️⃣ User ရဲ့ တောင်းပန်မှုကို လက်ခံပါ။\n 2️⃣ ကိစ္စမရှိကြောင်း သို့မဟုတ် နားလည်ကြောင်း ပြန်ပြောပါ။\n 3️⃣ အခြေအနေကို ပြေလည်အောင် ညှိနှိုင်းပါ။",
	"step3": "✅ အဆင့် ၃ - Verification: တုံ့ပြန်မှုဟာ စာနာနားလည်မှုရှိပြီး အပြုသဘောဆောင်ရပါမယ်။",
	"answers": ["🙏 အဖြေ: ရပါတယ်ခင်ဗျာ။ စိတ်ထဲမထားပါနဲ့။", "🙏 အဖြေ: ကိစ္စမရှိပါဘူး။ လူတိုင်း မှားတတ်တာပဲလေ။", "🙏 အဖြေ: နားလည်ပေးလို့ ရပါတယ်။ နောက်တစ်ခါ သတိထားရင် ရပါပြီ။"]
	},
	{
	"topic": "Asking for Help",
	"keywords": ["ကူညီ", "အကူအညီ", "help", "မေးချင်", "သိချင်"],
	"step1": "🔍 အဆင့် ၁ - Perception: ဒါဟာ အကူအညီတောင်းခံခြင်း (Requesting Help) အမျိုးအစားဖြစ်ပါတယ်။ User က တစ်ခုခုကို သိလိုတာ သို့မဟုတ် လုပ်ဆောင်ပေးစေလိုတာပါ။",
	"step2": "🧠 အဆင့် ၂ - Logical Sequence:\n 1️⃣ User ရဲ့ လိုအပ်ချက်ကို သေချာနားထောင်ပါ။\n 2️⃣ ကူညီပေးနိုင်ကြောင်း အတည်ပြုပါ။\n 3️⃣ အသေးစိတ် အချက်အလက်ကို မေးမြန်းပါ။",
	"step3": "✅ အဆင့် ၃ - Verification: တုံ့ပြန်မှုဟာ တက်ကြွပြီး အားကိုးထိုက်ကြောင်း ပြသရပါမယ်။",
	"answers": ["🙏 အဖြေ: ဟုတ်ကဲ့ခင်ဗျာ။ ဘာများ ကူညီပေးရမလဲ ပြောပြပေးပါ။", "🙏 အဖြေ: သေချာပေါက် ကူညီပေးပါ့မယ်။ ဘာအကြောင်း သိချင်တာလဲခင်ဗျာ။", "🙏 အဖြေ: ပြောပါခင်ဗျာ။ ကျွန်တော် တတ်နိုင်သလောက် အကောင်းဆုံး ကူညီပေးပါ့မယ်။"]
	},
	{
	"topic": "Farewell",
	"keywords": ["သွားပြီ", "နှုတ်ဆက်", "bye", "goodbye", "နောက်မှတွေ့မယ်"],
	"step1": "🔍 အဆင့် ၁ - Perception: ဒါဟာ နှုတ်ဆက်ခြင်း (Farewell) အမျိုးအစားဖြစ်ပါတယ်။ User က စကားပြောခြင်းကို ရပ်နားလိုတာပါ။",
	"step2": "🧠 အဆင့် ၂ - Logical Sequence:\n 1️⃣ User ရဲ့ နှုတ်ဆက်မှုကို အသိအမှတ်ပြုပါ။\n 2️⃣ ကောင်းမွန်တဲ့ ဆုတောင်းစကား ပြောကြားပါ။\n 3️⃣ နောက်တစ်ကြိမ် ပြန်လည်ဆုံတွေ့ရန် ဖိတ်ခေါ်ပါ။",
	"step3": "✅ အဆင့် ၃ - Verification: တုံ့ပြန်မှုဟာ နွေးထွေးပြီး အဆုံးသတ်ကောင်းတစ်ခု ဖြစ်ရပါမယ်။",
	"answers": ["🙏 အဖြေ: ဟုတ်ကဲ့ပါ။ သွားပါဦးခင်ဗျာ။ ဘေးကင်းပါစေ။", "🙏 အဖြေ: Bye Bye! နောက်မှ ပြန်တွေ့ကြတာပေါ့။", "🙏 အဖြေ: ကောင်းသောနေ့လေး ဖြစ်ပါစေ။ နောက်မှ ပြန်စကားပြောကြမယ်နော်။"]
	}
	]


	data_list = []
	for i in range(count):
	cat = random.choice(categories)
	entry = {
	"keywords": cat["keywords"],
	"step1": cat["step1"],
	"step2": cat["step2"],
	"step3": cat["step3"],
	"answer": random.choice(cat["answers"])
	}
	data_list.append(entry)

	return data_list


	if __name__ == "__main__":
	result = generate_data(3000)
	with open("responses.jsonl", "w", encoding="utf-8") as f:
	json.dump(result, f, ensure_ascii=False, indent=3)
	print(f"Successfully generated 3000 entries.")