Upload 11 files

Browse files

Files changed (11) hide show

hindi_latest/female/model/config.yaml +315 -0
hindi_latest/female/model/energy_stats.npz +3 -0
hindi_latest/female/model/feats_stats.npz +3 -0
hindi_latest/female/model/feats_type +1 -0
hindi_latest/female/model/model.pth +3 -0
hindi_latest/female/model/pitch_stats.npz +3 -0
hindi_latest/male/model/config.yaml +315 -0
hindi_latest/male/model/energy_stats.npz +3 -0
hindi_latest/male/model/feats_stats.npz +3 -0
hindi_latest/male/model/model.pth +3 -0
hindi_latest/male/model/pitch_stats.npz +3 -0

hindi_latest/female/model/config.yaml ADDED Viewed

	@@ -0,0 +1,315 @@

+accum_grad: 8
+adapter: lora
+adapter_conf: {}
+allow_multi_rates: false
+allow_variable_data_keys: false
+batch_bins: 3000000
+batch_size: 20
+batch_type: numel
+best_model_criterion:
+- - valid
+  - loss
+  - min
+- - train
+  - loss
+  - min
+bpemodel: null
+chunk_default_fs: null
+chunk_discard_short_samples: true
+chunk_excluded_key_prefixes: []
+chunk_length: 500
+chunk_max_abs_length: null
+chunk_shift_ratio: 0.5
+cleaner: null
+collect_stats: false
+config: conf/tuning/train_fastspeech2.yaml
+create_graph_in_tensorboard: false
+cudnn_benchmark: false
+cudnn_deterministic: true
+cudnn_enabled: true
+detect_anomaly: false
+dist_backend: nccl
+dist_init_method: env://
+dist_launcher: null
+dist_master_addr: localhost
+dist_master_port: 46493
+dist_rank: 0
+dist_world_size: 2
+distributed: true
+drop_last_iter: false
+dry_run: false
+early_stopping_criterion:
+- valid
+- loss
+- min
+energy_extract: energy
+energy_extract_conf:
+  fs: 48000
+  hop_length: 1024
+  n_fft: 8192
+  reduction_factor: 1
+  win_length: 4096
+energy_normalize: global_mvn
+energy_normalize_conf:
+  stats_file: /home/speech/Fastspeech2_latest models/Fastspeech2_HS/hindi_latest/female/model/energy_stats.npz
+exclude_weight_decay: false
+exclude_weight_decay_conf: {}
+feats_extract: fbank
+feats_extract_conf:
+  fmax: 24000
+  fmin: 0
+  fs: 48000
+  hop_length: 1024
+  n_fft: 8192
+  n_mels: 160
+  win_length: 4096
+fold_length:
+- 150
+- 819200
+freeze_param: []
+g2p: null
+grad_clip: 1.0
+grad_clip_type: 2.0
+grad_noise: false
+ignore_init_mismatch: false
+init_param: []
+iterator_type: sequence
+keep_nbest_models: 5
+local_rank: 0
+log_interval: null
+log_level: INFO
+max_cache_fd: 32
+max_cache_size: 0.0
+max_epoch: 1000
+model_conf: {}
+multiple_iterator: false
+multiprocessing_distributed: true
+nbest_averaging_interval: 0
+ngpu: 1
+no_forward_run: false
+non_linguistic_symbols: null
+normalize: global_mvn
+normalize_conf:
+  stats_file: /home/speech/Fastspeech2_latest models/Fastspeech2_HS/hindi_latest/female/model/feats_stats.npz
+num_att_plot: 3
+num_cache_chunks: 1024
+num_iters_per_epoch: 800
+num_workers: 1
+odim: null
+optim: adam
+optim_conf:
+  lr: 1.0
+output_dir: exp/tts_train_fastspeech2_raw_char_None
+patience: null
+pitch_extract: dio
+pitch_extract_conf:
+  f0max: 400
+  f0min: 80
+  fs: 48000
+  hop_length: 1024
+  n_fft: 8192
+  reduction_factor: 1
+pitch_normalize: global_mvn
+pitch_normalize_conf:
+  stats_file: /home/speech/Fastspeech2_latest models/Fastspeech2_HS/hindi_latest/female/model/pitch_stats.npz
+pretrain_path: null
+print_config: false
+required:
+- output_dir
+- token_list
+resume: true
+save_strategy: all
+scheduler: noamlr
+scheduler_conf:
+  model_size: 384
+  warmup_steps: 4000
+seed: 0
+sharded_ddp: false
+shuffle_within_batch: false
+sort_batch: descending
+sort_in_batch: descending
+token_list:
+- <blank>
+- <unk>
+- <space>
+- $
+- ','
+- .
+- M
+- q
+- H
+- k
+- "\u0916"
+- g
+- "\u0918"
+- "\u0919"
+- c
+- C
+- j
+- J
+- "\u091E"
+- "\u091F"
+- "\u0920"
+- "\u0921"
+- "\u0922"
+- "\u0923"
+- t
+- "\u0925"
+- d
+- "\u0927"
+- n
+- "\u0929"
+- p
+- P
+- b
+- B
+- m
+- y
+- r
+- "\u0931"
+- l
+- "\u0D33"
+- Z
+- w
+- "\u0936"
+- "\u0937"
+- s
+- h
+- Y
+- "\u093D"
+- "\u0915"
+- K
+- G
+- z
+- D
+- T
+- f
+- "\u0960"
+- "\u0D7A"
+- N
+- "\u0D7C"
+- "\u0D7D"
+- "\u0D7E"
+- a
+- A
+- i
+- I
+- u
+- U
+- R
+- "\u090D"
+- e
+- E
+- "\u0910"
+- "\u0911"
+- o
+- O
+- "\u0914"
+- "\u0B89"
+- <sos/eos>
+token_type: char
+train_data_path_and_name_and_type:
+- - dump/raw/tr_no_dev/text
+  - text
+  - text
+- - duration_info/tr_no_dev/durations
+  - durations
+  - text_int
+- - dump/raw/tr_no_dev/wav.scp
+  - speech
+  - sound
+- - exp/tts_stats_raw_char_None/train/collect_feats/pitch.scp
+  - pitch
+  - npy
+- - exp/tts_stats_raw_char_None/train/collect_feats/energy.scp
+  - energy
+  - npy
+train_dtype: float32
+train_shape_file:
+- exp/tts_stats_raw_char_None/train/text_shape.char
+- exp/tts_stats_raw_char_None/train/speech_shape
+tts: fastspeech2
+tts_conf:
+  adim: 384
+  aheads: 2
+  decoder_normalize_before: true
+  dlayers: 4
+  dunits: 1536
+  duration_predictor_chans: 256
+  duration_predictor_kernel_size: 3
+  duration_predictor_layers: 2
+  elayers: 4
+  encoder_normalize_before: true
+  energy_embed_dropout: 0.0
+  energy_embed_kernel_size: 1
+  energy_predictor_chans: 256
+  energy_predictor_dropout: 0.5
+  energy_predictor_kernel_size: 3
+  energy_predictor_layers: 2
+  eunits: 1536
+  init_dec_alpha: 1.0
+  init_enc_alpha: 1.0
+  init_type: xavier_uniform
+  pitch_embed_dropout: 0.0
+  pitch_embed_kernel_size: 1
+  pitch_predictor_chans: 256
+  pitch_predictor_dropout: 0.5
+  pitch_predictor_kernel_size: 5
+  pitch_predictor_layers: 5
+  positionwise_conv_kernel_size: 3
+  positionwise_layer_type: conv1d
+  postnet_chans: 256
+  postnet_filts: 5
+  postnet_layers: 5
+  reduction_factor: 1
+  stop_gradient_from_energy_predictor: false
+  stop_gradient_from_pitch_predictor: true
+  transformer_dec_attn_dropout_rate: 0.2
+  transformer_dec_dropout_rate: 0.2
+  transformer_dec_positional_dropout_rate: 0.2
+  transformer_enc_attn_dropout_rate: 0.2
+  transformer_enc_dropout_rate: 0.2
+  transformer_enc_positional_dropout_rate: 0.2
+  use_masking: true
+  use_scaled_pos_enc: true
+unused_parameters: false
+use_adapter: false
+use_amp: false
+use_matplotlib: true
+use_preprocessor: true
+use_tensorboard: true
+use_wandb: false
+val_scheduler_criterion:
+- valid
+- loss
+valid_batch_bins: null
+valid_batch_size: null
+valid_batch_type: null
+valid_data_path_and_name_and_type:
+- - dump/raw/dev/text
+  - text
+  - text
+- - duration_info/dev/durations
+  - durations
+  - text_int
+- - dump/raw/dev/wav.scp
+  - speech
+  - sound
+- - exp/tts_stats_raw_char_None/valid/collect_feats/pitch.scp
+  - pitch
+  - npy
+- - exp/tts_stats_raw_char_None/valid/collect_feats/energy.scp
+  - energy
+  - npy
+valid_iterator_type: null
+valid_max_cache_size: null
+valid_shape_file:
+- exp/tts_stats_raw_char_None/valid/text_shape.char
+- exp/tts_stats_raw_char_None/valid/speech_shape
+version: '202402'
+wandb_entity: null
+wandb_id: null
+wandb_model_log_interval: -1
+wandb_name: null
+wandb_project: null
+write_collected_feats: false

hindi_latest/female/model/energy_stats.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b44ea2ed74bc1e7af45af7648ab670dba4a3c730348ccb47577f6a39edcd0fcd
+size 770

hindi_latest/female/model/feats_stats.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c4dbc43b70f4a380b84a6ea2c333ebcbc6648fcd08b43a54f14eb4bcc48baef
+size 2042

hindi_latest/female/model/feats_type ADDED Viewed

	@@ -0,0 +1 @@


1	+ raw

hindi_latest/female/model/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:915f27d8dc30199fdcff8a69c33bb412639b0a8cac0c16508efe10a85e14c055
+size 152128410

hindi_latest/female/model/pitch_stats.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b27b409f5f96d40d22ab0ff6b229153ce9e7c1bb77901b474db52d7c32fd8be
+size 770

hindi_latest/male/model/config.yaml ADDED Viewed

	@@ -0,0 +1,315 @@

+accum_grad: 8
+adapter: lora
+adapter_conf: {}
+allow_multi_rates: false
+allow_variable_data_keys: false
+batch_bins: 3000000
+batch_size: 20
+batch_type: numel
+best_model_criterion:
+- - valid
+  - loss
+  - min
+- - train
+  - loss
+  - min
+bpemodel: null
+chunk_default_fs: null
+chunk_discard_short_samples: true
+chunk_excluded_key_prefixes: []
+chunk_length: 500
+chunk_max_abs_length: null
+chunk_shift_ratio: 0.5
+cleaner: null
+collect_stats: false
+config: conf/tuning/train_fastspeech2.yaml
+create_graph_in_tensorboard: false
+cudnn_benchmark: false
+cudnn_deterministic: true
+cudnn_enabled: true
+detect_anomaly: false
+dist_backend: nccl
+dist_init_method: env://
+dist_launcher: null
+dist_master_addr: localhost
+dist_master_port: 43833
+dist_rank: 0
+dist_world_size: 2
+distributed: true
+drop_last_iter: false
+dry_run: false
+early_stopping_criterion:
+- valid
+- loss
+- min
+energy_extract: energy
+energy_extract_conf:
+  fs: 48000
+  hop_length: 1024
+  n_fft: 8192
+  reduction_factor: 1
+  win_length: 4096
+energy_normalize: global_mvn
+energy_normalize_conf:
+  stats_file: /home/speech/Fastspeech2_latest models/Fastspeech2_HS/hindi_latest/male/model/energy_stats.npz
+exclude_weight_decay: false
+exclude_weight_decay_conf: {}
+feats_extract: fbank
+feats_extract_conf:
+  fmax: 24000
+  fmin: 0
+  fs: 48000
+  hop_length: 1024
+  n_fft: 8192
+  n_mels: 160
+  win_length: 4096
+fold_length:
+- 150
+- 819200
+freeze_param: []
+g2p: null
+grad_clip: 1.0
+grad_clip_type: 2.0
+grad_noise: false
+ignore_init_mismatch: false
+init_param: []
+iterator_type: sequence
+keep_nbest_models: 5
+local_rank: 0
+log_interval: null
+log_level: INFO
+max_cache_fd: 32
+max_cache_size: 0.0
+max_epoch: 1000
+model_conf: {}
+multiple_iterator: false
+multiprocessing_distributed: true
+nbest_averaging_interval: 0
+ngpu: 1
+no_forward_run: false
+non_linguistic_symbols: null
+normalize: global_mvn
+normalize_conf:
+  stats_file: /home/speech/Fastspeech2_latest models/Fastspeech2_HS/hindi_latest/male/model/feats_stats.npz
+num_att_plot: 3
+num_cache_chunks: 1024
+num_iters_per_epoch: 800
+num_workers: 1
+odim: null
+optim: adam
+optim_conf:
+  lr: 1.0
+output_dir: exp/tts_train_fastspeech2_raw_char_None
+patience: null
+pitch_extract: dio
+pitch_extract_conf:
+  f0max: 350
+  f0min: 40
+  fs: 48000
+  hop_length: 1024
+  n_fft: 8192
+  reduction_factor: 1
+pitch_normalize: global_mvn
+pitch_normalize_conf:
+  stats_file: /home/speech/Fastspeech2_latest models/Fastspeech2_HS/hindi_latest/male/model/pitch_stats.npz
+pretrain_path: null
+print_config: false
+required:
+- output_dir
+- token_list
+resume: true
+save_strategy: all
+scheduler: noamlr
+scheduler_conf:
+  model_size: 384
+  warmup_steps: 4000
+seed: 0
+sharded_ddp: false
+shuffle_within_batch: false
+sort_batch: descending
+sort_in_batch: descending
+token_list:
+- <blank>
+- <unk>
+- <space>
+- $
+- ','
+- .
+- M
+- q
+- H
+- k
+- "\u0916"
+- g
+- "\u0918"
+- "\u0919"
+- c
+- C
+- j
+- J
+- "\u091E"
+- "\u091F"
+- "\u0920"
+- "\u0921"
+- "\u0922"
+- "\u0923"
+- t
+- "\u0925"
+- d
+- "\u0927"
+- n
+- "\u0929"
+- p
+- P
+- b
+- B
+- m
+- y
+- r
+- "\u0931"
+- l
+- "\u0D33"
+- Z
+- w
+- "\u0936"
+- "\u0937"
+- s
+- h
+- Y
+- "\u093D"
+- "\u0915"
+- K
+- G
+- z
+- D
+- T
+- f
+- "\u0960"
+- "\u0D7A"
+- N
+- "\u0D7C"
+- "\u0D7D"
+- "\u0D7E"
+- a
+- A
+- i
+- I
+- u
+- U
+- R
+- "\u090D"
+- e
+- E
+- "\u0910"
+- "\u0911"
+- o
+- O
+- "\u0914"
+- "\u0B89"
+- <sos/eos>
+token_type: char
+train_data_path_and_name_and_type:
+- - dump/raw/tr_no_dev/text
+  - text
+  - text
+- - duration_info/tr_no_dev/durations
+  - durations
+  - text_int
+- - dump/raw/tr_no_dev/wav.scp
+  - speech
+  - sound
+- - exp/tts_stats_raw_char_None/train/collect_feats/pitch.scp
+  - pitch
+  - npy
+- - exp/tts_stats_raw_char_None/train/collect_feats/energy.scp
+  - energy
+  - npy
+train_dtype: float32
+train_shape_file:
+- exp/tts_stats_raw_char_None/train/text_shape.char
+- exp/tts_stats_raw_char_None/train/speech_shape
+tts: fastspeech2
+tts_conf:
+  adim: 384
+  aheads: 2
+  decoder_normalize_before: true
+  dlayers: 4
+  dunits: 1536
+  duration_predictor_chans: 256
+  duration_predictor_kernel_size: 3
+  duration_predictor_layers: 2
+  elayers: 4
+  encoder_normalize_before: true
+  energy_embed_dropout: 0.0
+  energy_embed_kernel_size: 1
+  energy_predictor_chans: 256
+  energy_predictor_dropout: 0.5
+  energy_predictor_kernel_size: 3
+  energy_predictor_layers: 2
+  eunits: 1536
+  init_dec_alpha: 1.0
+  init_enc_alpha: 1.0
+  init_type: xavier_uniform
+  pitch_embed_dropout: 0.0
+  pitch_embed_kernel_size: 1
+  pitch_predictor_chans: 256
+  pitch_predictor_dropout: 0.5
+  pitch_predictor_kernel_size: 5
+  pitch_predictor_layers: 5
+  positionwise_conv_kernel_size: 3
+  positionwise_layer_type: conv1d
+  postnet_chans: 256
+  postnet_filts: 5
+  postnet_layers: 5
+  reduction_factor: 1
+  stop_gradient_from_energy_predictor: false
+  stop_gradient_from_pitch_predictor: true
+  transformer_dec_attn_dropout_rate: 0.2
+  transformer_dec_dropout_rate: 0.2
+  transformer_dec_positional_dropout_rate: 0.2
+  transformer_enc_attn_dropout_rate: 0.2
+  transformer_enc_dropout_rate: 0.2
+  transformer_enc_positional_dropout_rate: 0.2
+  use_masking: true
+  use_scaled_pos_enc: true
+unused_parameters: false
+use_adapter: false
+use_amp: false
+use_matplotlib: true
+use_preprocessor: true
+use_tensorboard: true
+use_wandb: false
+val_scheduler_criterion:
+- valid
+- loss
+valid_batch_bins: null
+valid_batch_size: null
+valid_batch_type: null
+valid_data_path_and_name_and_type:
+- - dump/raw/dev/text
+  - text
+  - text
+- - duration_info/dev/durations
+  - durations
+  - text_int
+- - dump/raw/dev/wav.scp
+  - speech
+  - sound
+- - exp/tts_stats_raw_char_None/valid/collect_feats/pitch.scp
+  - pitch
+  - npy
+- - exp/tts_stats_raw_char_None/valid/collect_feats/energy.scp
+  - energy
+  - npy
+valid_iterator_type: null
+valid_max_cache_size: null
+valid_shape_file:
+- exp/tts_stats_raw_char_None/valid/text_shape.char
+- exp/tts_stats_raw_char_None/valid/speech_shape
+version: '202402'
+wandb_entity: null
+wandb_id: null
+wandb_model_log_interval: -1
+wandb_name: null
+wandb_project: null
+write_collected_feats: false

hindi_latest/male/model/energy_stats.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c4978d68634bc22b158ee2f763fb9d3e22fafc339e38526a16475645abb81da
+size 770

hindi_latest/male/model/feats_stats.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71f32e049987675bc9827b3d4bf42ce40cf205a173a13417be4a85406cb1a16d
+size 2042

hindi_latest/male/model/model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d01835e3969800080f4e006850c21ab4186edd5d451c4f7d6be71edb47ffacf0
+size 152128410

hindi_latest/male/model/pitch_stats.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:83c6cace2471652aa85ee6ebc9997c3cd81393782e2cc58e33a2461e4cbda8fd
+size 770