Piping
/

CosyAccent

+sample_rate: 24000
+hop_size: 480
+text_vocab_size: 80  # Adjusted according to vocab_file of tokenizer
+speech_encoder_input_dim: 1024
+speech_encoder_embed_dim: 512
+spk_embed_dim: 256  # Resemblyzer: 256; Campplus: 192
+speech_decoder_embed_dim: 512
+ctc_loss_weight: 0.5 # For sts_distil and sts_finetune
+pretraining: false
+model: !new:cosyaccent.model.cosy_accent.cosy_accent.CosyAccent
+    text_vocab_size: !ref <text_vocab_size>
+    spk_embed_dim: !ref <spk_embed_dim>
+    normalize_spk_embed: False  # As it is already normalized by Resemblyzer and processor, twice in total
+    ctc_loss_weight: !ref <ctc_loss_weight>
+    pretraining: !ref <pretraining>
+    frontend: !new:cosyaccent.model.cosy_accent.whisper_frontend.WhisperFrontend
+        whisper_size: "medium"
+    speech_encoder: !new:cosyaccent.transformer.encoder.ConformerEncoder
+        input_size: !ref <speech_encoder_input_dim>
+        output_size: !ref <speech_encoder_embed_dim>
+        attention_heads: 8
+        linear_units: 2048
+        num_blocks: 8
+        dropout_rate: 0.1
+        positional_dropout_rate: 0.1
+        attention_dropout_rate: 0.1
+        normalize_before: True
+        input_layer: 'linear'
+        pos_enc_layer_type: 'rel_pos_espnet'
+        selfattention_layer_type: 'rel_selfattn'
+        use_cnn_module: False
+        macaron_style: False
+        use_dynamic_chunk: False
+        use_dynamic_left_chunk: False
+    speech_decoder: !new:cosyaccent.model.cosy_accent.decoder.DiTSpeechDecoder
+        cond_dim: !ref <speech_encoder_embed_dim>
+        output_dim: 80
+        spk_dim: !ref <spk_embed_dim>
+        embed_dim: !ref <speech_decoder_embed_dim>
+        hidden_dim: !ref <speech_decoder_embed_dim>
+        num_layers: 12
+        num_heads: 8
+        postnet_mult: 2 # 0 to disable postnet
+        postnet_dim: 128
+        dropout_rate: 0.1
+        cond_cfg_rate: 0.25
+        spk_cfg_rate: 0.25
+    duration_predictor: !new:cosyaccent.model.cosy_accent.duration_predictor.FlowMatchingTotalDurationPredictor
+        input_dim: !ref <speech_encoder_embed_dim>
+        global_cond_dim: !ref <spk_embed_dim>
+        embed_dim: 256
+        num_heads: 4
+        num_layers: 4
+        dropout_rate: 0.1
+        log_scale: True
+        cfg_rate: 0.2
+hift: !new:cosyaccent.model.hift.generator.HiFTGenerator
+    in_channels: 80
+    base_channels: 512
+    nb_harmonics: 8
+    sampling_rate: !ref <sample_rate>
+    nsf_alpha: 0.1
+    nsf_sigma: 0.003
+    nsf_voiced_threshold: 10
+    upsample_rates: [8, 5, 3]
+    upsample_kernel_sizes: [16, 11, 7]
+    istft_params:
+        n_fft: 16
+        hop_len: 4
+    resblock_kernel_sizes: [3, 7, 11]
+    resblock_dilation_sizes: [[1, 3, 5], [1, 3, 5], [1, 3, 5]]
+    source_resblock_kernel_sizes: [7, 7, 11]
+    source_resblock_dilation_sizes: [[1, 3, 5], [1, 3, 5], [1, 3, 5]]
+    lrelu_slope: 0.1
+    audio_limit: 0.99
+    f0_predictor: !new:cosyaccent.model.hift.f0_predictor.ConvRNNF0Predictor
+        num_class: 1
+        in_channels: 80
+        cond_channels: 512