File size: 2,854 Bytes
8d7f03b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
###########################################################
#                   DATA SETTING                          #
###########################################################
data:
    path: "/dir/to/representations/"
    subset:
        train: "train_set_name"
        valid: "valid_set_name"
        test:  "test_set_name"

###########################################################
#                   MODEL SETTING                         #
###########################################################
model_params:
    input_channels: 768
    output_channels: 768
    encode_channels: 768
    decode_channels: 768
    code_dim: 768
    codebook_num: 1
    codebook_size: 1024
    bias: true
    enc_ratios: [1, 1]
    dec_ratios: [1, 1]
    enc_strides: [1, 1]  # no downsampling
    dec_strides: [1, 1]
    enc_kernel_size: 3
    dec_kernel_size: 3
    enc_block_dilations: [1, 1]
    enc_block_kernel_size: 3
    dec_block_dilations: [1, 1]
    dec_block_kernel_size: 3

###########################################################
#                 METRIC LOSS SETTING                     #
###########################################################
repr_reconstruct_loss_params:
    loss_type: l2

###########################################################
#                  LOSS WEIGHT SETTING                    #
###########################################################
lambda_vq_loss: 1.0      # Loss weight of vector quantize loss.
lambda_repr_reconstruct_loss: 45.0

###########################################################
#                  DATA LOADER SETTING                    #
###########################################################
batch_size: 32              # Batch size.
batch_length: 96            # Length of each audio in batch (training w/o adv).
pin_memory: true            # Whether to pin memory in Pytorch DataLoader.
num_workers: 4              # Number of workers in Pytorch DataLoader.

###########################################################
#             OPTIMIZER & SCHEDULER SETTING               #
###########################################################
model_optimizer_type: Adam
model_optimizer_params:
    lr: 1.0e-4
    betas: [0.5, 0.9]
    weight_decay: 0.0
model_scheduler_type: StepLR
model_scheduler_params:
    step_size: 200000      # Model's scheduler step size.
    gamma: 1.0
grad_norm: -1

###########################################################
#                    INTERVAL SETTING                     #
###########################################################
train_max_steps: 200000            # Number of training steps. (w/o adv)
save_interval_steps: 20000         # Interval steps to save checkpoint.
eval_interval_steps: 2000          # Interval steps to evaluate the network.
log_interval_steps: 100            # Interval steps to record the training log.