linhhuonglinux
/

linhhuonglinux-office

Model card Files Files and versions

linhhuonglinux-office / scripts /dataset_builder /main.py

tamhonvotri's picture

Upload folder using huggingface_hub

ccd9809 unverified 2 days ago

history blame contribute delete

1.87 kB

	import argparse
	from cluster_docs import generate_docs_dataset
	from cluster_spreadsheet import generate_spreadsheet_dataset
	from cluster_slides import generate_slides_dataset
	from cluster_creative import generate_creative_dataset
	from cluster_music import generate_music_dataset
	from cluster_extended import generate_extended_dataset
	from cluster_copilot import generate_copilot_dataset
	from utils import authenticate_huggingface

	def main():
	parser = argparse.ArgumentParser(description="Linh Hương Office Dataset Builder")
	parser.add_argument(
	'--cluster',
	choices=['docs', 'spreadsheet', 'slides', 'creative', 'music', 'extended', 'copilot', 'all'],
	required=True,
	help="Chọn cụm dữ liệu muốn tạo và đẩy lên Hugging Face"
	)

	args = parser.parse_args()

	print("🚀 Bắt đầu hệ thống tạo Dataset tự động...")
	authenticate_huggingface()

	if args.cluster == 'docs' or args.cluster == 'all':
	generate_docs_dataset(num_samples=1500)

	if args.cluster == 'spreadsheet' or args.cluster == 'all':
	generate_spreadsheet_dataset(num_samples=1500)

	if args.cluster == 'slides' or args.cluster == 'all':
	generate_slides_dataset(num_samples=1500)

	if args.cluster == 'creative' or args.cluster == 'all':
	generate_creative_dataset(num_samples=1500)

	if args.cluster == 'music' or args.cluster == 'all':
	generate_music_dataset(num_samples=1500)

	if args.cluster == 'extended' or args.cluster == 'all':
	generate_extended_dataset(num_samples=1500)

	if args.cluster == 'copilot' or args.cluster == 'all':
	generate_copilot_dataset(num_samples=1500)

	print("🎉 Hoàn tất toàn bộ tiến trình!")

	if __name__ == "__main__":
	main()