import argparse from cluster_docs import generate_docs_dataset from cluster_spreadsheet import generate_spreadsheet_dataset from cluster_slides import generate_slides_dataset from cluster_creative import generate_creative_dataset from cluster_music import generate_music_dataset from cluster_extended import generate_extended_dataset from cluster_copilot import generate_copilot_dataset from utils import authenticate_huggingface def main(): parser = argparse.ArgumentParser(description="Linh Hương Office Dataset Builder") parser.add_argument( '--cluster', choices=['docs', 'spreadsheet', 'slides', 'creative', 'music', 'extended', 'copilot', 'all'], required=True, help="Chọn cụm dữ liệu muốn tạo và đẩy lên Hugging Face" ) args = parser.parse_args() print("🚀 Bắt đầu hệ thống tạo Dataset tự động...") authenticate_huggingface() if args.cluster == 'docs' or args.cluster == 'all': generate_docs_dataset(num_samples=1500) if args.cluster == 'spreadsheet' or args.cluster == 'all': generate_spreadsheet_dataset(num_samples=1500) if args.cluster == 'slides' or args.cluster == 'all': generate_slides_dataset(num_samples=1500) if args.cluster == 'creative' or args.cluster == 'all': generate_creative_dataset(num_samples=1500) if args.cluster == 'music' or args.cluster == 'all': generate_music_dataset(num_samples=1500) if args.cluster == 'extended' or args.cluster == 'all': generate_extended_dataset(num_samples=1500) if args.cluster == 'copilot' or args.cluster == 'all': generate_copilot_dataset(num_samples=1500) print("🎉 Hoàn tất toàn bộ tiến trình!") if __name__ == "__main__": main()