File size: 1,871 Bytes
ccd9809
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
import argparse
from cluster_docs import generate_docs_dataset
from cluster_spreadsheet import generate_spreadsheet_dataset
from cluster_slides import generate_slides_dataset
from cluster_creative import generate_creative_dataset
from cluster_music import generate_music_dataset
from cluster_extended import generate_extended_dataset
from cluster_copilot import generate_copilot_dataset
from utils import authenticate_huggingface

def main():
    parser = argparse.ArgumentParser(description="Linh Hương Office Dataset Builder")
    parser.add_argument(
        '--cluster', 
        choices=['docs', 'spreadsheet', 'slides', 'creative', 'music', 'extended', 'copilot', 'all'], 
        required=True,
        help="Chọn cụm dữ liệu muốn tạo và đẩy lên Hugging Face"
    )
    
    args = parser.parse_args()
    
    print("🚀 Bắt đầu hệ thống tạo Dataset tự động...")
    authenticate_huggingface()
    
    if args.cluster == 'docs' or args.cluster == 'all':
        generate_docs_dataset(num_samples=1500)
        
    if args.cluster == 'spreadsheet' or args.cluster == 'all':
        generate_spreadsheet_dataset(num_samples=1500)
        
    if args.cluster == 'slides' or args.cluster == 'all':
        generate_slides_dataset(num_samples=1500)
        
    if args.cluster == 'creative' or args.cluster == 'all':
        generate_creative_dataset(num_samples=1500)
        
    if args.cluster == 'music' or args.cluster == 'all':
        generate_music_dataset(num_samples=1500)
        
    if args.cluster == 'extended' or args.cluster == 'all':
        generate_extended_dataset(num_samples=1500)
        
    if args.cluster == 'copilot' or args.cluster == 'all':
        generate_copilot_dataset(num_samples=1500)
        
    print("🎉 Hoàn tất toàn bộ tiến trình!")

if __name__ == "__main__":
    main()