linhhuonglinux
/

linhhuonglinux-office

Model card Files Files and versions

linhhuonglinux-office / scripts /dataset_builder /cluster_extended.py

tamhonvotri's picture

Upload folder using huggingface_hub

ccd9809 unverified 8 days ago

history blame contribute delete

2.75 kB

	import json
	import random
	from utils import push_alpaca_dataset_to_hf

	def generate_extended_dataset(num_samples=500):
	"""
	Sinh dữ liệu cho cụm Extended (Email, Tóm tắt báo cáo, Dịch thuật).
	"""
	chu_des = [
	"Xin nghỉ phép", "Báo cáo tiến độ dự án", "Phản hồi khách hàng phàn nàn",
	"Mời họp giao ban", "Đề xuất tăng lương", "Biên bản bàn giao công việc"
	]
	loai_hinhs = ["Email nội bộ", "Email gửi đối tác", "Tóm tắt báo cáo", "Dịch thuật (Anh-Việt)"]

	prompt_templates = [
	"Soạn một {loai_hinh} về việc {chu_de}.",
	"Đóng vai trợ lý văn phòng, xử lý yêu cầu sau: Viết {loai_hinh} liên quan đến {chu_de}.",
	"Bạn hãy soạn thảo {loai_hinh} với nội dung chính là: {chu_de}."
	]

	formatted_dataset = []
	print(f"Đang tạo {num_samples} mẫu cho cụm Extended (Mở rộng)...")

	for _ in range(num_samples):
	chu_de = random.choice(chu_des)
	loai = random.choice(loai_hinhs)

	# Cấu trúc JSON đa năng
	if "Email" in loai:
	structured_output = {
	"loai_van_ban": loai,
	"tieu_de_email": f"[{loai.upper()}] {chu_de}",
	"noi_dung_chinh": f"Kính gửi Anh/Chị,\n\nTôi viết email này để {chu_de.lower()}.\n[Chi tiết...]\n\nTrân trọng,\n[Tên của bạn]"
	}
	elif "Tóm tắt" in loai:
	structured_output = {
	"loai_van_ban": loai,
	"tieu_de": f"TÓM TẮT: {chu_de.upper()}",
	"bullet_points": [
	"Điểm chính 1: Đã hoàn thành 80% khối lượng công việc.",
	"Điểm chính 2: Cần thêm nguồn lực hỗ trợ trong tuần tới.",
	"Điểm chính 3: Kế hoạch triển khai giai đoạn 2 đã sẵn sàng."
	]
	}
	else:
	structured_output = {
	"loai_van_ban": loai,
	"chu_de": chu_de,
	"van_ban_goc": f"This is a sample text about {chu_de}.",
	"ban_dich": f"Đây là một đoạn văn bản mẫu về {chu_de}."
	}

	instruction = random.choice(prompt_templates).format(loai_hinh=loai, chu_de=chu_de)

	alpaca_item = {
	"instruction": instruction,
	"input": "",
	"output": json.dumps(structured_output, ensure_ascii=False, indent=2)
	}
	formatted_dataset.append(alpaca_item)

	repo_name = "linhhuong-office-extended-instruct"
	push_alpaca_dataset_to_hf(formatted_dataset, repo_name)