| import argparse |
| from cluster_docs import generate_docs_dataset |
| from cluster_spreadsheet import generate_spreadsheet_dataset |
| from cluster_slides import generate_slides_dataset |
| from cluster_creative import generate_creative_dataset |
| from cluster_music import generate_music_dataset |
| from cluster_extended import generate_extended_dataset |
| from cluster_copilot import generate_copilot_dataset |
| from utils import authenticate_huggingface |
|
|
| def main(): |
| parser = argparse.ArgumentParser(description="Linh Hương Office Dataset Builder") |
| parser.add_argument( |
| '--cluster', |
| choices=['docs', 'spreadsheet', 'slides', 'creative', 'music', 'extended', 'copilot', 'all'], |
| required=True, |
| help="Chọn cụm dữ liệu muốn tạo và đẩy lên Hugging Face" |
| ) |
| |
| args = parser.parse_args() |
| |
| print("🚀 Bắt đầu hệ thống tạo Dataset tự động...") |
| authenticate_huggingface() |
| |
| if args.cluster == 'docs' or args.cluster == 'all': |
| generate_docs_dataset(num_samples=1500) |
| |
| if args.cluster == 'spreadsheet' or args.cluster == 'all': |
| generate_spreadsheet_dataset(num_samples=1500) |
| |
| if args.cluster == 'slides' or args.cluster == 'all': |
| generate_slides_dataset(num_samples=1500) |
| |
| if args.cluster == 'creative' or args.cluster == 'all': |
| generate_creative_dataset(num_samples=1500) |
| |
| if args.cluster == 'music' or args.cluster == 'all': |
| generate_music_dataset(num_samples=1500) |
| |
| if args.cluster == 'extended' or args.cluster == 'all': |
| generate_extended_dataset(num_samples=1500) |
| |
| if args.cluster == 'copilot' or args.cluster == 'all': |
| generate_copilot_dataset(num_samples=1500) |
| |
| print("🎉 Hoàn tất toàn bộ tiến trình!") |
|
|
| if __name__ == "__main__": |
| main() |
|
|