Spaces:

breadlicker45
/

WavTokenizer-demo

Build error

App Files Files Community

breadlicker45 commited on Sep 9, 2024

Commit

f8b640f

verified ·

1 Parent(s): c817048

Delete wavtokenizer_mediumdata_music_audio_frame75_3s_nq1_code4096_dim512_kmeans200_attn.yaml

Browse files

Files changed (1) hide show

wavtokenizer_mediumdata_music_audio_frame75_3s_nq1_code4096_dim512_kmeans200_attn.yaml +0 -93

wavtokenizer_mediumdata_music_audio_frame75_3s_nq1_code4096_dim512_kmeans200_attn.yaml DELETED Viewed

@@ -1,93 +0,0 @@
-seed_everything: 3407
-data:
-  class_path: vocos.dataset.VocosDataModule
-  init_args:
-    train_params:
-      filelist_path: /cpfs_speech/jishengpeng/Code/dataprocess/path/WavTokenizer/medium_train_audio_music
-      sampling_rate: 24000
-      num_samples: 72000
-      batch_size: 39  #18
-      num_workers: 8
-    val_params:
-      filelist_path: /cpfs_speech/jishengpeng/Code/dataprocess/path/WavTokenizer/medium_test_audio_music
-      sampling_rate: 24000
-      num_samples: 72000
-      batch_size: 2   # 10
-      num_workers: 8
-model:
-  class_path: vocos.experiment.VocosEncodecExp
-  init_args:
-    sample_rate: 24000
-    initial_learning_rate: 2e-4
-    mel_loss_coeff: 45
-    mrd_loss_coeff: 1.0
-    num_warmup_steps: 0 # Optimizers warmup steps
-    pretrain_mel_steps: 0  # 0 means GAN objective from the first iteration
-    # automatic evaluation
-    evaluate_utmos: true
-    evaluate_pesq: true
-    evaluate_periodicty: true
-    resume: true
-    resume_config: /cpfs_speech/jishengpeng/Code/WavTokenizer/configs/wavtokenizer_smalldata_frame75_3s_nq1_code16384_dim512_kmeans800_attn.yaml
-    resume_model: /cpfs_speech/jishengpeng/Code/WavTokenizer/result/train/wavtokenizer_mediumdata_music_audio_frame75_3s_nq1_code4096_dim512_kmeans200_attn/lightning_logs/version_2/checkpoints/vocos_checkpoint_epoch=1_step=45240_val_loss=8.8358.ckpt
-    feature_extractor:
-      class_path: vocos.feature_extractors.EncodecFeatures
-      init_args:
-        encodec_model: encodec_24khz
-        bandwidths: [6.6, 6.6, 6.6, 6.6]
-        train_codebooks: true
-        num_quantizers: 1
-        dowmsamples: [8, 5, 4, 2]
-        vq_bins: 4096
-        vq_kmeans: 200
-    backbone:
-      class_path: vocos.models.VocosBackbone
-      init_args:
-        input_channels: 512
-        dim: 768
-        intermediate_dim: 2304
-        num_layers: 12
-        adanorm_num_embeddings: 4  # len(bandwidths)
-    head:
-      class_path: vocos.heads.ISTFTHead
-      init_args:
-        dim: 768
-        n_fft: 1280  #4*hop_length
-        hop_length: 320  # 8*5*4*2
-        padding: same
-trainer:
-  logger:
-    class_path: pytorch_lightning.loggers.TensorBoardLogger
-    init_args:
-      save_dir: /cpfs_speech/jishengpeng/Code/WavTokenizer/result/train/wavtokenizer_mediumdata_music_audio_frame75_3s_nq1_code4096_dim512_kmeans200_attn/
-  callbacks:
-    - class_path: pytorch_lightning.callbacks.LearningRateMonitor
-    - class_path: pytorch_lightning.callbacks.ModelSummary
-      init_args:
-        max_depth: 2
-    - class_path: pytorch_lightning.callbacks.ModelCheckpoint
-      init_args:
-        monitor: val_loss
-        filename: vocos_checkpoint_{epoch}_{step}_{val_loss:.4f}
-        save_top_k: 10
-        save_last: true
-    - class_path: vocos.helpers.GradNormCallback
-  # Lightning calculates max_steps across all optimizer steps (rather than number of batches)
-  # This equals to 1M steps per generator and 1M per discriminator
-  max_steps: 20000000
-  # You might want to limit val batches when evaluating all the metrics, as they are time-consuming
-  limit_val_batches: 200
-  accelerator: gpu
-  strategy: ddp
-  devices: [0,1,2,3,4,5,6,7]
-  log_every_n_steps: 1000