rufaelfekadu
/

AAS-VC-ArVoice

Model card Files Files and versions

xet

Community

rufaelfekadu commited on Jun 20, 2025

Commit

239ec83

verified ·

1 Parent(s): edd23f7

Upload Wavenet-B-Wavenet-C/config.yml with huggingface_hub

Browse files

Files changed (1) hide show

Wavenet-B-Wavenet-C/config.yml +112 -0

Wavenet-B-Wavenet-C/config.yml ADDED Viewed

	@@ -0,0 +1,112 @@

+additional_config: null
+allow_cache: true
+batch_size: 1
+collater_type: NARVCCollater
+config: conf/aas_vc.melmelmel.v1.yaml
+criterions:
+  ForwardSumLoss: {}
+  L1Loss: {}
+  StochasticDurationPredictorLoss: {}
+dev_dp_input_dir: dump/ar-XA-Wavenet-B_dev/norm_self
+dev_duration_dir: null
+distributed: false
+dp_train_start_steps: 0
+duration_predictor_feat: mel
+eval_interval_steps: 1000
+feat_list:
+  mel: {}
+fft_size: 1024
+fmax: null
+fmin: 0
+format: hdf5
+global_gain_scale: 1.0
+grad_norm: 1.0
+gradient_accumulate_steps: 8
+hop_size: 256
+init_checkpoint: ''
+lambda_align: 2.0
+log_interval_steps: 10
+model_params:
+  adim: 384
+  aheads: 2
+  conformer_dec_kernel_size: 15
+  conformer_enc_kernel_size: 15
+  conformer_pos_enc_layer_type: rel_pos
+  conformer_self_attn_layer_type: rel_selfattn
+  decoder_normalize_before: true
+  decoder_reduction_factor: 1
+  decoder_type: conformer
+  dlayers: 4
+  dunits: 1536
+  duration_predictor_chans: 256
+  duration_predictor_input_dim: 80
+  duration_predictor_kernel_size: 3
+  duration_predictor_layers: 2
+  duration_predictor_type: stochastic
+  duration_predictor_use_encoder_outputs: false
+  elayers: 4
+  encoder_input_layer: linear
+  encoder_normalize_before: true
+  encoder_reduction_factor: 1
+  encoder_type: conformer
+  eunits: 1536
+  idim: 80
+  init_type: xavier_uniform
+  odim: 80
+  positionwise_conv_kernel_size: 1
+  positionwise_layer_type: linear
+  post_encoder_reduction_factor: 4
+  postnet_chans: 256
+  postnet_filts: 5
+  postnet_layers: 5
+  transformer_dec_attn_dropout_rate: 0.2
+  transformer_dec_dropout_rate: 0.2
+  transformer_dec_positional_dropout_rate: 0.2
+  transformer_enc_attn_dropout_rate: 0.2
+  transformer_enc_dropout_rate: 0.2
+  transformer_enc_positional_dropout_rate: 0.2
+  use_cnn_in_conformer: true
+  use_macaron_style_in_conformer: true
+  use_masking: true
+model_type: AASVC
+mp: false
+num_mels: 80
+num_save_intermediate_results: 4
+num_workers: 0
+optimizer_params:
+  lr: 8.0e-05
+optimizer_type: Adam
+outdir: exp/ar-XA-Wavenet-B_ar-XA-Wavenet-C_male_male
+pin_memory: true
+rank: 0
+resume: /workspace/seq2seq-vc/egs/ArVoice/vc2/exp/ar-XA-Wavenet-B_ar-XA-Wavenet-C_male_male/checkpoint-10632steps.pkl
+sampling_rate: 24000
+save_interval_steps: 5000
+scheduler: warmuplr
+scheduler_params:
+  warmup_steps: 4000
+src_dev_dumpdir: dump/ar-XA-Wavenet-B_dev/norm_self
+src_feat: mel
+src_feat_type: mel
+src_train_dumpdir: dump/ar-XA-Wavenet-B_train/norm_self
+train_dp_input_dir: dump/ar-XA-Wavenet-B_train/norm_self
+train_duration_dir: null
+train_max_steps: 50000
+trainer_type: AASVCTrainer
+trg_dev_dumpdir: dump/ar-XA-Wavenet-C_dev/norm_self
+trg_feat: mel
+trg_feat_type: mel
+trg_stats: exp/ar-XA-Wavenet-B_ar-XA-Wavenet-C_male_male/stats.h5
+trg_train_dumpdir: dump/ar-XA-Wavenet-C_train/norm_self
+trim_frame_size: 2048
+trim_hop_size: 512
+trim_silence: false
+trim_threshold_in_db: 60
+verbose: 1
+version: 0.1.0
+vocoder:
+  checkpoint: ./downloads/arvoice-syn-wavenet-vocoder/checkpoint-400000steps.pkl
+  config: ./downloads/arvoice-syn-wavenet-vocoder/config.yml
+  stats: ./downloads/arvoice-syn-wavenet-vocoder/stats.h5
+win_length: null
+window: hann