tamhonvotri's picture
Upload folder using huggingface_hub
ccd9809 unverified
import argparse
from cluster_docs import generate_docs_dataset
from cluster_spreadsheet import generate_spreadsheet_dataset
from cluster_slides import generate_slides_dataset
from cluster_creative import generate_creative_dataset
from cluster_music import generate_music_dataset
from cluster_extended import generate_extended_dataset
from cluster_copilot import generate_copilot_dataset
from utils import authenticate_huggingface
def main():
parser = argparse.ArgumentParser(description="Linh Hương Office Dataset Builder")
parser.add_argument(
'--cluster',
choices=['docs', 'spreadsheet', 'slides', 'creative', 'music', 'extended', 'copilot', 'all'],
required=True,
help="Chọn cụm dữ liệu muốn tạo và đẩy lên Hugging Face"
)
args = parser.parse_args()
print("🚀 Bắt đầu hệ thống tạo Dataset tự động...")
authenticate_huggingface()
if args.cluster == 'docs' or args.cluster == 'all':
generate_docs_dataset(num_samples=1500)
if args.cluster == 'spreadsheet' or args.cluster == 'all':
generate_spreadsheet_dataset(num_samples=1500)
if args.cluster == 'slides' or args.cluster == 'all':
generate_slides_dataset(num_samples=1500)
if args.cluster == 'creative' or args.cluster == 'all':
generate_creative_dataset(num_samples=1500)
if args.cluster == 'music' or args.cluster == 'all':
generate_music_dataset(num_samples=1500)
if args.cluster == 'extended' or args.cluster == 'all':
generate_extended_dataset(num_samples=1500)
if args.cluster == 'copilot' or args.cluster == 'all':
generate_copilot_dataset(num_samples=1500)
print("🎉 Hoàn tất toàn bộ tiến trình!")
if __name__ == "__main__":
main()