Upload 12 files

Browse files

Files changed (12) hide show

punjabi_latest/female/model/config.yaml +315 -0
punjabi_latest/female/model/energy_stats.npz +3 -0
punjabi_latest/female/model/feats_stats.npz +3 -0
punjabi_latest/female/model/feats_type +1 -0
punjabi_latest/female/model/model.pth +3 -0
punjabi_latest/female/model/pitch_stats.npz +3 -0
punjabi_latest/male/model/config.yaml +319 -0
punjabi_latest/male/model/energy_stats.npz +3 -0
punjabi_latest/male/model/feats_stats.npz +3 -0
punjabi_latest/male/model/feats_type +1 -0
punjabi_latest/male/model/model.pth +3 -0
punjabi_latest/male/model/pitch_stats.npz +3 -0

punjabi_latest/female/model/config.yaml ADDED Viewed

	@@ -0,0 +1,315 @@

+config: conf/tuning/train_fastspeech2.yaml
+print_config: false
+log_level: INFO
+drop_last_iter: false
+dry_run: false
+iterator_type: sequence
+valid_iterator_type: null
+output_dir: exp/tts_train_fastspeech2_raw_char_None
+ngpu: 1
+seed: 0
+num_workers: 1
+num_att_plot: 3
+dist_backend: nccl
+dist_init_method: env://
+dist_world_size: 2
+dist_rank: 0
+local_rank: 0
+dist_master_addr: localhost
+dist_master_port: 45599
+dist_launcher: null
+multiprocessing_distributed: true
+unused_parameters: false
+sharded_ddp: false
+cudnn_enabled: true
+cudnn_benchmark: false
+cudnn_deterministic: true
+collect_stats: false
+write_collected_feats: false
+max_epoch: 1000
+patience: null
+val_scheduler_criterion:
+- valid
+- loss
+early_stopping_criterion:
+- valid
+- loss
+- min
+best_model_criterion:
+-   - valid
+    - loss
+    - min
+-   - train
+    - loss
+    - min
+keep_nbest_models: 5
+nbest_averaging_interval: 0
+grad_clip: 1.0
+grad_clip_type: 2.0
+grad_noise: false
+accum_grad: 8
+no_forward_run: false
+resume: true
+train_dtype: float32
+use_amp: false
+log_interval: null
+use_matplotlib: true
+use_tensorboard: true
+create_graph_in_tensorboard: false
+use_wandb: false
+wandb_project: null
+wandb_id: null
+wandb_entity: null
+wandb_name: null
+wandb_model_log_interval: -1
+detect_anomaly: false
+use_adapter: false
+adapter: lora
+save_strategy: all
+adapter_conf: {}
+pretrain_path: null
+init_param: []
+ignore_init_mismatch: false
+freeze_param: []
+num_iters_per_epoch: 800
+batch_size: 20
+valid_batch_size: null
+batch_bins: 3000000
+valid_batch_bins: null
+train_shape_file:
+- exp/tts_stats_raw_char_None/train/text_shape.char
+- exp/tts_stats_raw_char_None/train/speech_shape
+valid_shape_file:
+- exp/tts_stats_raw_char_None/valid/text_shape.char
+- exp/tts_stats_raw_char_None/valid/speech_shape
+batch_type: numel
+valid_batch_type: null
+fold_length:
+- 150
+- 819200
+sort_in_batch: descending
+shuffle_within_batch: false
+sort_batch: descending
+multiple_iterator: false
+chunk_length: 500
+chunk_shift_ratio: 0.5
+num_cache_chunks: 1024
+chunk_excluded_key_prefixes: []
+chunk_default_fs: null
+chunk_max_abs_length: null
+chunk_discard_short_samples: true
+train_data_path_and_name_and_type:
+-   - dump/raw/tr_no_dev/text
+    - text
+    - text
+-   - duration_info/tr_no_dev/durations
+    - durations
+    - text_int
+-   - dump/raw/tr_no_dev/wav.scp
+    - speech
+    - sound
+-   - exp/tts_stats_raw_char_None/train/collect_feats/pitch.scp
+    - pitch
+    - npy
+-   - exp/tts_stats_raw_char_None/train/collect_feats/energy.scp
+    - energy
+    - npy
+valid_data_path_and_name_and_type:
+-   - dump/raw/dev/text
+    - text
+    - text
+-   - duration_info/dev/durations
+    - durations
+    - text_int
+-   - dump/raw/dev/wav.scp
+    - speech
+    - sound
+-   - exp/tts_stats_raw_char_None/valid/collect_feats/pitch.scp
+    - pitch
+    - npy
+-   - exp/tts_stats_raw_char_None/valid/collect_feats/energy.scp
+    - energy
+    - npy
+allow_variable_data_keys: false
+max_cache_size: 0.0
+max_cache_fd: 32
+allow_multi_rates: false
+valid_max_cache_size: null
+exclude_weight_decay: false
+exclude_weight_decay_conf: {}
+optim: adam
+optim_conf:
+    lr: 1.0
+scheduler: noamlr
+scheduler_conf:
+    model_size: 384
+    warmup_steps: 4000
+token_list:
+- <blank>
+- <unk>
+- <space>
+- $
+- ','
+- .
+- M
+- q
+- H
+- k
+- ख
+- g
+- घ
+- ङ
+- c
+- C
+- j
+- J
+- ञ
+- ट
+- ठ
+- ड
+- ढ
+- ण
+- t
+- थ
+- d
+- ध
+- n
+- ऩ
+- p
+- P
+- b
+- B
+- m
+- y
+- r
+- ऱ
+- l
+- ള
+- Z
+- w
+- श
+- ष
+- s
+- h
+- Y
+- ऽ
+- क
+- K
+- G
+- z
+- D
+- T
+- f
+- ॠ
+- ൺ
+- N
+- ർ
+- ൽ
+- ൾ
+- a
+- A
+- i
+- I
+- u
+- U
+- R
+- ऍ
+- e
+- E
+- ऐ
+- ऑ
+- o
+- O
+- औ
+- உ
+- <sos/eos>
+odim: null
+model_conf: {}
+use_preprocessor: true
+token_type: char
+bpemodel: null
+non_linguistic_symbols: null
+cleaner: null
+g2p: null
+feats_extract: fbank
+feats_extract_conf:
+    n_fft: 8192
+    hop_length: 1024
+    win_length: 4096
+    fs: 48000
+    fmin: 0
+    fmax: 24000
+    n_mels: 160
+normalize: global_mvn
+normalize_conf:
+    stats_file: exp/tts_stats_raw_char_None/train/feats_stats.npz
+tts: fastspeech2
+tts_conf:
+    adim: 384
+    aheads: 2
+    elayers: 4
+    eunits: 1536
+    dlayers: 4
+    dunits: 1536
+    positionwise_layer_type: conv1d
+    positionwise_conv_kernel_size: 3
+    duration_predictor_layers: 2
+    duration_predictor_chans: 256
+    duration_predictor_kernel_size: 3
+    postnet_layers: 5
+    postnet_filts: 5
+    postnet_chans: 256
+    use_masking: true
+    use_scaled_pos_enc: true
+    encoder_normalize_before: true
+    decoder_normalize_before: true
+    reduction_factor: 1
+    init_type: xavier_uniform
+    init_enc_alpha: 1.0
+    init_dec_alpha: 1.0
+    transformer_enc_dropout_rate: 0.2
+    transformer_enc_positional_dropout_rate: 0.2
+    transformer_enc_attn_dropout_rate: 0.2
+    transformer_dec_dropout_rate: 0.2
+    transformer_dec_positional_dropout_rate: 0.2
+    transformer_dec_attn_dropout_rate: 0.2
+    pitch_predictor_layers: 5
+    pitch_predictor_chans: 256
+    pitch_predictor_kernel_size: 5
+    pitch_predictor_dropout: 0.5
+    pitch_embed_kernel_size: 1
+    pitch_embed_dropout: 0.0
+    stop_gradient_from_pitch_predictor: true
+    energy_predictor_layers: 2
+    energy_predictor_chans: 256
+    energy_predictor_kernel_size: 3
+    energy_predictor_dropout: 0.5
+    energy_embed_kernel_size: 1
+    energy_embed_dropout: 0.0
+    stop_gradient_from_energy_predictor: false
+pitch_extract: dio
+pitch_extract_conf:
+    fs: 48000
+    n_fft: 8192
+    hop_length: 1024
+    f0max: 400
+    f0min: 80
+    reduction_factor: 1
+pitch_normalize: global_mvn
+pitch_normalize_conf:
+    stats_file: exp/tts_stats_raw_char_None/train/pitch_stats.npz
+energy_extract: energy
+energy_extract_conf:
+    fs: 48000
+    n_fft: 8192
+    hop_length: 1024
+    win_length: 4096
+    reduction_factor: 1
+energy_normalize: global_mvn
+energy_normalize_conf:
+    stats_file: exp/tts_stats_raw_char_None/train/energy_stats.npz
+required:
+- output_dir
+- token_list
+version: '202402'
+distributed: true

punjabi_latest/female/model/energy_stats.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b6bc915e07125a441c1331d9d8055688ebfefef3e377fa9d83d2f0e3f239e59
+size 770

punjabi_latest/female/model/feats_stats.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b51a82bc8431f31cb26c16a10e920cd9d48ece5b3f5a0964cd95b0201f06391
+size 2042

punjabi_latest/female/model/feats_type ADDED Viewed

	@@ -0,0 +1 @@


1	+ raw

punjabi_latest/female/model/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ede8cf91cbbe639a621568b11eced54cdf44f3fd9a3e04f84e612069ad262dad
+size 152128410

punjabi_latest/female/model/pitch_stats.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ae45737310f98a7f83fd81d3b22eb02a513386a814d7f6fcde0cbf55f254828
+size 770

punjabi_latest/male/model/config.yaml ADDED Viewed

	@@ -0,0 +1,319 @@

+accum_grad: 8
+adapter: lora
+adapter_conf: {}
+allow_multi_rates: false
+allow_variable_data_keys: false
+batch_bins: 3000000
+batch_size: 20
+batch_type: numel
+best_model_criterion:
+- - valid
+  - loss
+  - min
+- - train
+  - loss
+  - min
+bpemodel: null
+chunk_default_fs: null
+chunk_discard_short_samples: true
+chunk_excluded_key_prefixes: []
+chunk_length: 500
+chunk_max_abs_length: null
+chunk_shift_ratio: 0.5
+cleaner: null
+collect_stats: false
+config: conf/tuning/train_fastspeech2.yaml
+create_graph_in_tensorboard: false
+cudnn_benchmark: false
+cudnn_deterministic: true
+cudnn_enabled: true
+deepspeed_config: null
+detect_anomaly: false
+dist_backend: nccl
+dist_init_method: env://
+dist_launcher: null
+dist_master_addr: localhost
+dist_master_port: 59315
+dist_rank: 0
+dist_world_size: 2
+distributed: true
+drop_last_iter: false
+dry_run: false
+early_stopping_criterion:
+- valid
+- loss
+- min
+energy_extract: energy
+energy_extract_conf:
+  fs: 48000
+  hop_length: 1024
+  n_fft: 8192
+  reduction_factor: 1
+  win_length: 4096
+energy_normalize: global_mvn
+energy_normalize_conf:
+  stats_file: /home/speech/Fastspeech2_latest models/Fastspeech2_HS/punjabi_latest/male/model/energy_stats.npz
+exclude_weight_decay: false
+exclude_weight_decay_conf: {}
+feats_extract: fbank
+feats_extract_conf:
+  fmax: 24000
+  fmin: 0
+  fs: 48000
+  hop_length: 1024
+  n_fft: 8192
+  n_mels: 160
+  win_length: 4096
+fold_length:
+- 150
+- 819200
+freeze_param: []
+g2p: null
+grad_clip: 1.0
+grad_clip_type: 2.0
+grad_noise: false
+ignore_init_mismatch: false
+init_param: []
+iterator_type: sequence
+keep_nbest_models: 5
+local_rank: 0
+log_interval: null
+log_level: INFO
+max_cache_fd: 32
+max_cache_size: 0.0
+max_epoch: 1000
+model_conf: {}
+multi_task_dataset: false
+multiple_iterator: false
+multiprocessing_distributed: true
+nbest_averaging_interval: 0
+ngpu: 1
+no_forward_run: false
+non_linguistic_symbols: null
+normalize: global_mvn
+normalize_conf:
+  stats_file: /home/speech/Fastspeech2_latest models/Fastspeech2_HS/punjabi_latest/male/model/feats_stats.npz
+num_att_plot: 3
+num_cache_chunks: 1024
+num_iters_per_epoch: 800
+num_workers: 1
+odim: null
+optim: adam
+optim_conf:
+  lr: 1.0
+output_dir: exp/tts_train_fastspeech2_raw_char_None
+patience: null
+pitch_extract: dio
+pitch_extract_conf:
+  f0max: 350
+  f0min: 40
+  fs: 48000
+  hop_length: 1024
+  n_fft: 8192
+  reduction_factor: 1
+pitch_normalize: global_mvn
+pitch_normalize_conf:
+  stats_file: /home/speech/Fastspeech2_latest models/Fastspeech2_HS/punjabi_latest/male/model/pitch_stats.npz
+pretrain_path: null
+print_config: false
+required:
+- output_dir
+- token_list
+resume: true
+save_strategy: all
+scheduler: noamlr
+scheduler_conf:
+  model_size: 384
+  warmup_steps: 4000
+seed: 0
+sharded_ddp: false
+shuffle_within_batch: false
+sort_batch: descending
+sort_in_batch: descending
+token_list:
+- <blank>
+- <unk>
+- <space>
+- $
+- ','
+- .
+- M
+- q
+- H
+- k
+- "\u0916"
+- g
+- "\u0918"
+- "\u0919"
+- c
+- C
+- j
+- J
+- "\u091E"
+- "\u091F"
+- "\u0920"
+- "\u0921"
+- "\u0922"
+- "\u0923"
+- t
+- "\u0925"
+- d
+- "\u0927"
+- n
+- "\u0929"
+- p
+- P
+- b
+- B
+- m
+- y
+- r
+- "\u0931"
+- l
+- "\u0D33"
+- Z
+- w
+- "\u0936"
+- "\u0937"
+- s
+- h
+- Y
+- "\u093D"
+- "\u0915"
+- K
+- G
+- z
+- D
+- T
+- f
+- "\u0960"
+- "\u0D7A"
+- N
+- "\u0D7C"
+- "\u0D7D"
+- "\u0D7E"
+- a
+- A
+- i
+- I
+- u
+- U
+- R
+- "\u090D"
+- e
+- E
+- "\u0910"
+- "\u0911"
+- o
+- O
+- "\u0914"
+- "\u0B89"
+- <sos/eos>
+token_type: char
+train_data_path_and_name_and_type:
+- - dump/raw/tr_no_dev/text
+  - text
+  - text
+- - duration_info/tr_no_dev/durations
+  - durations
+  - text_int
+- - dump/raw/tr_no_dev/wav.scp
+  - speech
+  - sound
+- - exp/tts_stats_raw_char_None/train/collect_feats/pitch.scp
+  - pitch
+  - npy
+- - exp/tts_stats_raw_char_None/train/collect_feats/energy.scp
+  - energy
+  - npy
+train_dtype: float32
+train_shape_file:
+- exp/tts_stats_raw_char_None/train/text_shape.char
+- exp/tts_stats_raw_char_None/train/speech_shape
+tts: fastspeech2
+tts_conf:
+  adim: 384
+  aheads: 2
+  decoder_normalize_before: true
+  dlayers: 4
+  dunits: 1536
+  duration_predictor_chans: 256
+  duration_predictor_kernel_size: 3
+  duration_predictor_layers: 2
+  elayers: 4
+  encoder_normalize_before: true
+  energy_embed_dropout: 0.0
+  energy_embed_kernel_size: 1
+  energy_predictor_chans: 256
+  energy_predictor_dropout: 0.5
+  energy_predictor_kernel_size: 3
+  energy_predictor_layers: 2
+  eunits: 1536
+  init_dec_alpha: 1.0
+  init_enc_alpha: 1.0
+  init_type: xavier_uniform
+  pitch_embed_dropout: 0.0
+  pitch_embed_kernel_size: 1
+  pitch_predictor_chans: 256
+  pitch_predictor_dropout: 0.5
+  pitch_predictor_kernel_size: 5
+  pitch_predictor_layers: 5
+  positionwise_conv_kernel_size: 3
+  positionwise_layer_type: conv1d
+  postnet_chans: 256
+  postnet_filts: 5
+  postnet_layers: 5
+  reduction_factor: 1
+  stop_gradient_from_energy_predictor: false
+  stop_gradient_from_pitch_predictor: true
+  transformer_dec_attn_dropout_rate: 0.2
+  transformer_dec_dropout_rate: 0.2
+  transformer_dec_positional_dropout_rate: 0.2
+  transformer_enc_attn_dropout_rate: 0.2
+  transformer_enc_dropout_rate: 0.2
+  transformer_enc_positional_dropout_rate: 0.2
+  use_masking: true
+  use_scaled_pos_enc: true
+unused_parameters: false
+use_adapter: false
+use_amp: false
+use_deepspeed: false
+use_matplotlib: true
+use_preprocessor: true
+use_tensorboard: true
+use_tf32: false
+use_wandb: false
+val_scheduler_criterion:
+- valid
+- loss
+valid_batch_bins: null
+valid_batch_size: null
+valid_batch_type: null
+valid_data_path_and_name_and_type:
+- - dump/raw/dev/text
+  - text
+  - text
+- - duration_info/dev/durations
+  - durations
+  - text_int
+- - dump/raw/dev/wav.scp
+  - speech
+  - sound
+- - exp/tts_stats_raw_char_None/valid/collect_feats/pitch.scp
+  - pitch
+  - npy
+- - exp/tts_stats_raw_char_None/valid/collect_feats/energy.scp
+  - energy
+  - npy
+valid_iterator_type: null
+valid_max_cache_size: null
+valid_shape_file:
+- exp/tts_stats_raw_char_None/valid/text_shape.char
+- exp/tts_stats_raw_char_None/valid/speech_shape
+version: '202402'
+wandb_entity: null
+wandb_id: null
+wandb_model_log_interval: -1
+wandb_name: null
+wandb_project: null
+write_collected_feats: false

punjabi_latest/male/model/energy_stats.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7739f113c35af803bfed26b246efe8b2af520b13c40ae4c8c18a3b98ad5b40d7
+size 770

punjabi_latest/male/model/feats_stats.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2ee6c46dcdef0d592dc57879c746c20ba9e090d4317a5da52f0b76bf73ace64
+size 2042

punjabi_latest/male/model/feats_type ADDED Viewed

	@@ -0,0 +1 @@


1	+ raw

punjabi_latest/male/model/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:110eb19c4f58f6b77f63d2c6e50b8165bee691b2f3707c3c2173a46069d233f4
+size 152129434

punjabi_latest/male/model/pitch_stats.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4aa6db00b80b9671970c03ab13588fa388398b88d1331e9a42c637c5e6df4600
+size 770