ayousanz commited on Mar 4, 2025

Commit

4fb706e

verified ·

1 Parent(s): e55f565

Upload folder using huggingface_hub

Browse files

Files changed (29) hide show

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.1.log +14 -14
exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.1/config.yaml +1 -1
exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.2.log +14 -14
exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.2/config.yaml +1 -1
exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.3.log +14 -14
exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.3/config.yaml +1 -1
exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.4.log +14 -14
exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.4/config.yaml +1 -1
exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.5.log +14 -14
exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.5/config.yaml +1 -1
exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.6.log +14 -14
exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.6/config.yaml +1 -1
exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.7.log +14 -14
exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.7/config.yaml +1 -1
exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.8.log +14 -14
exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.8/config.yaml +1 -1
exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/config.yaml +3 -3
exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/tensorboard/train/events.out.tfevents.1741091035.92b100c97f43.1159464.0 +2 -2
exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/tensorboard/train/events.out.tfevents.1741091448.92b100c97f43.1179446.0 +3 -0
exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/tensorboard/train/events.out.tfevents.1741091666.92b100c97f43.1289026.0 +3 -0
exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/tensorboard/train/events.out.tfevents.1741091743.92b100c97f43.1324139.0 +3 -0
exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/tensorboard/valid/events.out.tfevents.1741091448.92b100c97f43.1179446.1 +3 -0
exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/tensorboard/valid/events.out.tfevents.1741091666.92b100c97f43.1289026.1 +3 -0
exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/tensorboard/valid/events.out.tfevents.1741091743.92b100c97f43.1324139.1 +3 -0
exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/train.1.log +1342 -0
exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/train.2.log +0 -0
exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/train.3.log +1247 -0
exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/train.4.log +1212 -0
exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/train.log +6 -978

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.1.log CHANGED Viewed

@@ -1,14 +1,14 @@
 # python3 -m espnet2.bin.gan_tts_train --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.1.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.1.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.1 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
-# Started at Tue Mar  4 21:23:26 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.1.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.1.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.1 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
-[92b100c97f43] 2025-03-04 21:23:29,215 (gan_tts:304) INFO: Vocabulary size: 41
-[92b100c97f43] 2025-03-04 21:23:29,440 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43] 2025-03-04 21:23:29,563 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43] 2025-03-04 21:23:31,676 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
-[92b100c97f43] 2025-03-04 21:23:31,686 (abs_task:1158) INFO: Model structure:
 ESPnetGANTTSModel(
   (feats_extract): LogMelFbank(
     (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
@@ -844,7 +844,7 @@ Model summary:
     Number of trainable parameters: 83.28 M (100.0%)
     Size: 333.11 MB
     Type: torch.float32
-[92b100c97f43] 2025-03-04 21:23:31,686 (abs_task:1161) INFO: Optimizer:
 AdamW (
 Parameter Group 0
     amsgrad: False
@@ -854,8 +854,8 @@ Parameter Group 0
     lr: 0.0002
     weight_decay: 0.0
 )
-[92b100c97f43] 2025-03-04 21:23:31,686 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7fea878fb160>
-[92b100c97f43] 2025-03-04 21:23:31,686 (abs_task:1161) INFO: Optimizer2:
 AdamW (
 Parameter Group 0
     amsgrad: False
@@ -865,10 +865,10 @@ Parameter Group 0
     lr: 0.0002
     weight_decay: 0.0
 )
-[92b100c97f43] 2025-03-04 21:23:31,686 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7fea9681f280>
-[92b100c97f43] 2025-03-04 21:23:31,686 (abs_task:1171) INFO: Saving the configuration in exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.1/config.yaml
-[92b100c97f43] 2025-03-04 21:23:31,705 (abs_task:1182) INFO: Namespace(accum_grad=1, allow_variable_data_keys=False, batch_bins=6000000, batch_size=20, batch_type='numel', best_model_criterion=[['valid', 'text2mel_loss', 'min'], ['train', 'text2mel_loss', 'min'], ['train', 'total_count', 'max']], bpemodel=None, chunk_length=500, chunk_shift_ratio=0.5, cleaner='jaconv', collect_stats=True, config='conf/tuning/train_jets.yaml', cudnn_benchmark=False, cudnn_deterministic=False, cudnn_enabled=True, detect_anomaly=False, dist_backend='nccl', dist_init_method='env://', dist_launcher=None, dist_master_addr=None, dist_master_port=None, dist_rank=None, dist_world_size=None, distributed=False, dry_run=False, early_stopping_criterion=('valid', 'loss', 'min'), energy_extract='energy', energy_extract_conf={'reduction_factor': 1, 'use_token_averaged_energy': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'win_length': 1200}, energy_normalize=None, energy_normalize_conf={}, feats_extract='fbank', feats_extract_conf={'n_fft': 2048, 'hop_length': 300, 'win_length': 1200, 'fs': 24000, 'fmin': 80, 'fmax': 7600, 'n_mels': 80}, fold_length=[], freeze_param=[], g2p='pyopenjtalk', generator_first=True, grad_clip=-1, grad_clip_type=2.0, grad_noise=False, ignore_init_mismatch=False, init_param=[], iterator_type='sequence', keep_nbest_models=-1, local_rank=None, log_interval=50, log_level='INFO', max_cache_fd=32, max_cache_size=0.0, max_epoch=130, model_conf={}, multiple_iterator=False, multiprocessing_distributed=False, nbest_averaging_interval=0, ngpu=0, no_forward_run=False, non_linguistic_symbols=None, normalize=None, normalize_conf={}, num_att_plot=3, num_cache_chunks=1024, num_iters_per_epoch=1000, num_workers=16, odim=None, optim='adamw', optim2='adamw', optim2_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, optim_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, output_dir='exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.1', patience=None, pitch_extract='dio', pitch_extract_conf={'reduction_factor': 1, 'use_token_averaged_f0': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'f0max': 400, 'f0min': 80}, pitch_normalize=None, pitch_normalize_conf={}, pretrain_path=None, print_config=False, required=['output_dir', 'token_list'], resume=False, scheduler='exponentiallr', scheduler2='exponentiallr', scheduler2_conf={'gamma': 0.999875}, scheduler_conf={'gamma': 0.999875}, seed=777, sharded_ddp=False, sort_batch='descending', sort_in_batch='descending', token_list=['<blank>', '<unk>', 'o', 'a', 'u', 'i', 'e', 'k', 'r', 't', 'n', 'pau', 'N', 's', 'sh', 'd', 'm', 'g', 'w', 'b', 'cl', 'I', 'j', 'ch', 'y', 'U', 'h', 'p', 'ts', 'f', 'z', 'ky', 'ny', 'gy', 'ry', 'hy', 'my', 'by', 'py', 'v', '<sos/eos>'], token_type='phn', train_data_path_and_name_and_type=[('dump/raw/jvs010_tr_no_dev/text', 'text', 'text'), ('dump/raw/jvs010_tr_no_dev/wav.scp', 'speech', 'sound')], train_dtype='float32', train_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.1.scp'], tts='jets', tts_conf={'generator_type': 'jets_generator', 'generator_params': {'adim': 256, 'aheads': 2, 'elayers': 4, 'eunits': 1024, 'dlayers': 4, 'dunits': 1024, 'positionwise_layer_type': 'conv1d', 'positionwise_conv_kernel_size': 3, 'duration_predictor_layers': 2, 'duration_predictor_chans': 256, 'duration_predictor_kernel_size': 3, 'use_masking': True, 'encoder_normalize_before': True, 'decoder_normalize_before': True, 'encoder_type': 'transformer', 'decoder_type': 'transformer', 'conformer_rel_pos_type': 'latest', 'conformer_pos_enc_layer_type': 'rel_pos', 'conformer_self_attn_layer_type': 'rel_selfattn', 'conformer_activation_type': 'swish', 'use_macaron_style_in_conformer': True, 'use_cnn_in_conformer': True, 'conformer_enc_kernel_size': 7, 'conformer_dec_kernel_size': 31, 'init_type': 'xavier_uniform', 'transformer_enc_dropout_rate': 0.2, 'transformer_enc_positional_dropout_rate': 0.2, 'transformer_enc_attn_dropout_rate': 0.2, 'transformer_dec_dropout_rate': 0.2, 'transformer_dec_positional_dropout_rate': 0.2, 'transformer_dec_attn_dropout_rate': 0.2, 'pitch_predictor_layers': 5, 'pitch_predictor_chans': 256, 'pitch_predictor_kernel_size': 5, 'pitch_predictor_dropout': 0.5, 'pitch_embed_kernel_size': 1, 'pitch_embed_dropout': 0.0, 'stop_gradient_from_pitch_predictor': True, 'energy_predictor_layers': 2, 'energy_predictor_chans': 256, 'energy_predictor_kernel_size': 3, 'energy_predictor_dropout': 0.5, 'energy_embed_kernel_size': 1, 'energy_embed_dropout': 0.0, 'stop_gradient_from_energy_predictor': False, 'generator_out_channels': 1, 'generator_channels': 512, 'generator_global_channels': -1, 'generator_kernel_size': 7, 'generator_upsample_scales': [8, 8, 2, 2], 'generator_upsample_kernel_sizes': [16, 16, 4, 4], 'generator_resblock_kernel_sizes': [3, 7, 11], 'generator_resblock_dilations': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'generator_use_additional_convs': True, 'generator_bias': True, 'generator_nonlinear_activation': 'LeakyReLU', 'generator_nonlinear_activation_params': {'negative_slope': 0.1}, 'generator_use_weight_norm': True, 'segment_size': 64, 'idim': 41, 'odim': 80}, 'discriminator_type': 'hifigan_multi_scale_multi_period_discriminator', 'discriminator_params': {'scales': 1, 'scale_downsample_pooling': 'AvgPool1d', 'scale_downsample_pooling_params': {'kernel_size': 4, 'stride': 2, 'padding': 2}, 'scale_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [15, 41, 5, 3], 'channels': 128, 'max_downsample_channels': 1024, 'max_groups': 16, 'bias': True, 'downsample_scales': [2, 2, 4, 4, 1], 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}, 'follow_official_norm': False, 'periods': [2, 3, 5, 7, 11], 'period_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [5, 3], 'channels': 32, 'downsample_scales': [3, 3, 3, 3, 1], 'max_downsample_channels': 1024, 'bias': True, 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}}, 'generator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'discriminator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'feat_match_loss_params': {'average_by_discriminators': False, 'average_by_layers': False, 'include_final_outputs': True}, 'mel_loss_params': {'fs': 24000, 'n_fft': 1024, 'hop_length': 256, 'win_length': None, 'window': 'hann', 'n_mels': 80, 'fmin': 0, 'fmax': None, 'log_base': None}, 'lambda_adv': 1.0, 'lambda_mel': 45.0, 'lambda_feat_match': 2.0, 'lambda_var': 1.0, 'lambda_align': 2.0, 'sampling_rate': 24000, 'cache_generator_outputs': True}, unused_parameters=True, use_amp=False, use_matplotlib=True, use_preprocessor=True, use_tensorboard=True, use_wandb=False, val_scheduler_criterion=('valid', 'loss'), valid_batch_bins=None, valid_batch_size=None, valid_batch_type=None, valid_data_path_and_name_and_type=[('dump/raw/jvs010_dev/text', 'text', 'text'), ('dump/raw/jvs010_dev/wav.scp', 'speech', 'sound')], valid_max_cache_size=None, valid_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.1.scp'], version='202204', wandb_entity=None, wandb_id=None, wandb_model_log_interval=-1, wandb_name=None, wandb_project=None, write_collected_feats=False)
 /work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
   olens = (ilens - self.n_fft) // self.hop_length + 1
-# Accounting: time=11 threads=1
-# Ended (code 0) at Tue Mar  4 21:23:37 JST 2025, elapsed time 11 seconds

 # python3 -m espnet2.bin.gan_tts_train --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.1.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.1.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.1 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
+# Started at Tue Mar  4 22:09:35 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.1.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.1.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.1 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
+[92b100c97f43] 2025-03-04 22:09:38,621 (gan_tts:304) INFO: Vocabulary size: 41
+[92b100c97f43] 2025-03-04 22:09:38,843 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43] 2025-03-04 22:09:38,966 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43] 2025-03-04 22:09:41,174 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
+[92b100c97f43] 2025-03-04 22:09:41,185 (abs_task:1158) INFO: Model structure:
 ESPnetGANTTSModel(
   (feats_extract): LogMelFbank(
     (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
     Number of trainable parameters: 83.28 M (100.0%)
     Size: 333.11 MB
     Type: torch.float32
+[92b100c97f43] 2025-03-04 22:09:41,185 (abs_task:1161) INFO: Optimizer:
 AdamW (
 Parameter Group 0
     amsgrad: False
     lr: 0.0002
     weight_decay: 0.0
 )
+[92b100c97f43] 2025-03-04 22:09:41,185 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f8714e3e1c0>
+[92b100c97f43] 2025-03-04 22:09:41,185 (abs_task:1161) INFO: Optimizer2:
 AdamW (
 Parameter Group 0
     amsgrad: False
     lr: 0.0002
     weight_decay: 0.0
 )
+[92b100c97f43] 2025-03-04 22:09:41,185 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f8723d63280>
+[92b100c97f43] 2025-03-04 22:09:41,185 (abs_task:1171) INFO: Saving the configuration in exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.1/config.yaml
+[92b100c97f43] 2025-03-04 22:09:41,204 (abs_task:1182) INFO: Namespace(accum_grad=1, allow_variable_data_keys=False, batch_bins=6000000, batch_size=20, batch_type='numel', best_model_criterion=[['valid', 'text2mel_loss', 'min'], ['train', 'text2mel_loss', 'min'], ['train', 'total_count', 'max']], bpemodel=None, chunk_length=500, chunk_shift_ratio=0.5, cleaner='jaconv', collect_stats=True, config='conf/tuning/train_jets.yaml', cudnn_benchmark=False, cudnn_deterministic=False, cudnn_enabled=True, detect_anomaly=False, dist_backend='nccl', dist_init_method='env://', dist_launcher=None, dist_master_addr=None, dist_master_port=None, dist_rank=None, dist_world_size=None, distributed=False, dry_run=False, early_stopping_criterion=('valid', 'loss', 'min'), energy_extract='energy', energy_extract_conf={'reduction_factor': 1, 'use_token_averaged_energy': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'win_length': 1200}, energy_normalize=None, energy_normalize_conf={}, feats_extract='fbank', feats_extract_conf={'n_fft': 2048, 'hop_length': 300, 'win_length': 1200, 'fs': 24000, 'fmin': 80, 'fmax': 7600, 'n_mels': 80}, fold_length=[], freeze_param=[], g2p='pyopenjtalk', generator_first=True, grad_clip=-1, grad_clip_type=2.0, grad_noise=False, ignore_init_mismatch=False, init_param=[], iterator_type='sequence', keep_nbest_models=-1, local_rank=None, log_interval=50, log_level='INFO', max_cache_fd=32, max_cache_size=0.0, max_epoch=130, model_conf={}, multiple_iterator=False, multiprocessing_distributed=False, nbest_averaging_interval=0, ngpu=0, no_forward_run=False, non_linguistic_symbols=None, normalize=None, normalize_conf={}, num_att_plot=3, num_cache_chunks=1024, num_iters_per_epoch=1000, num_workers=32, odim=None, optim='adamw', optim2='adamw', optim2_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, optim_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, output_dir='exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.1', patience=None, pitch_extract='dio', pitch_extract_conf={'reduction_factor': 1, 'use_token_averaged_f0': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'f0max': 400, 'f0min': 80}, pitch_normalize=None, pitch_normalize_conf={}, pretrain_path=None, print_config=False, required=['output_dir', 'token_list'], resume=False, scheduler='exponentiallr', scheduler2='exponentiallr', scheduler2_conf={'gamma': 0.999875}, scheduler_conf={'gamma': 0.999875}, seed=777, sharded_ddp=False, sort_batch='descending', sort_in_batch='descending', token_list=['<blank>', '<unk>', 'o', 'a', 'u', 'i', 'e', 'k', 'r', 't', 'n', 'pau', 'N', 's', 'sh', 'd', 'm', 'g', 'w', 'b', 'cl', 'I', 'j', 'ch', 'y', 'U', 'h', 'p', 'ts', 'f', 'z', 'ky', 'ny', 'gy', 'ry', 'hy', 'my', 'by', 'py', 'v', '<sos/eos>'], token_type='phn', train_data_path_and_name_and_type=[('dump/raw/jvs010_tr_no_dev/text', 'text', 'text'), ('dump/raw/jvs010_tr_no_dev/wav.scp', 'speech', 'sound')], train_dtype='float32', train_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.1.scp'], tts='jets', tts_conf={'generator_type': 'jets_generator', 'generator_params': {'adim': 256, 'aheads': 2, 'elayers': 4, 'eunits': 1024, 'dlayers': 4, 'dunits': 1024, 'positionwise_layer_type': 'conv1d', 'positionwise_conv_kernel_size': 3, 'duration_predictor_layers': 2, 'duration_predictor_chans': 256, 'duration_predictor_kernel_size': 3, 'use_masking': True, 'encoder_normalize_before': True, 'decoder_normalize_before': True, 'encoder_type': 'transformer', 'decoder_type': 'transformer', 'conformer_rel_pos_type': 'latest', 'conformer_pos_enc_layer_type': 'rel_pos', 'conformer_self_attn_layer_type': 'rel_selfattn', 'conformer_activation_type': 'swish', 'use_macaron_style_in_conformer': True, 'use_cnn_in_conformer': True, 'conformer_enc_kernel_size': 7, 'conformer_dec_kernel_size': 31, 'init_type': 'xavier_uniform', 'transformer_enc_dropout_rate': 0.2, 'transformer_enc_positional_dropout_rate': 0.2, 'transformer_enc_attn_dropout_rate': 0.2, 'transformer_dec_dropout_rate': 0.2, 'transformer_dec_positional_dropout_rate': 0.2, 'transformer_dec_attn_dropout_rate': 0.2, 'pitch_predictor_layers': 5, 'pitch_predictor_chans': 256, 'pitch_predictor_kernel_size': 5, 'pitch_predictor_dropout': 0.5, 'pitch_embed_kernel_size': 1, 'pitch_embed_dropout': 0.0, 'stop_gradient_from_pitch_predictor': True, 'energy_predictor_layers': 2, 'energy_predictor_chans': 256, 'energy_predictor_kernel_size': 3, 'energy_predictor_dropout': 0.5, 'energy_embed_kernel_size': 1, 'energy_embed_dropout': 0.0, 'stop_gradient_from_energy_predictor': False, 'generator_out_channels': 1, 'generator_channels': 512, 'generator_global_channels': -1, 'generator_kernel_size': 7, 'generator_upsample_scales': [8, 8, 2, 2], 'generator_upsample_kernel_sizes': [16, 16, 4, 4], 'generator_resblock_kernel_sizes': [3, 7, 11], 'generator_resblock_dilations': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'generator_use_additional_convs': True, 'generator_bias': True, 'generator_nonlinear_activation': 'LeakyReLU', 'generator_nonlinear_activation_params': {'negative_slope': 0.1}, 'generator_use_weight_norm': True, 'segment_size': 64, 'idim': 41, 'odim': 80}, 'discriminator_type': 'hifigan_multi_scale_multi_period_discriminator', 'discriminator_params': {'scales': 1, 'scale_downsample_pooling': 'AvgPool1d', 'scale_downsample_pooling_params': {'kernel_size': 4, 'stride': 2, 'padding': 2}, 'scale_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [15, 41, 5, 3], 'channels': 128, 'max_downsample_channels': 1024, 'max_groups': 16, 'bias': True, 'downsample_scales': [2, 2, 4, 4, 1], 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}, 'follow_official_norm': False, 'periods': [2, 3, 5, 7, 11], 'period_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [5, 3], 'channels': 32, 'downsample_scales': [3, 3, 3, 3, 1], 'max_downsample_channels': 1024, 'bias': True, 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}}, 'generator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'discriminator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'feat_match_loss_params': {'average_by_discriminators': False, 'average_by_layers': False, 'include_final_outputs': True}, 'mel_loss_params': {'fs': 24000, 'n_fft': 1024, 'hop_length': 256, 'win_length': None, 'window': 'hann', 'n_mels': 80, 'fmin': 0, 'fmax': None, 'log_base': None}, 'lambda_adv': 1.0, 'lambda_mel': 45.0, 'lambda_feat_match': 2.0, 'lambda_var': 1.0, 'lambda_align': 2.0, 'sampling_rate': 24000, 'cache_generator_outputs': True}, unused_parameters=True, use_amp=False, use_matplotlib=True, use_preprocessor=True, use_tensorboard=True, use_wandb=False, val_scheduler_criterion=('valid', 'loss'), valid_batch_bins=None, valid_batch_size=None, valid_batch_type=None, valid_data_path_and_name_and_type=[('dump/raw/jvs010_dev/text', 'text', 'text'), ('dump/raw/jvs010_dev/wav.scp', 'speech', 'sound')], valid_max_cache_size=None, valid_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.1.scp'], version='202204', wandb_entity=None, wandb_id=None, wandb_model_log_interval=-1, wandb_name=None, wandb_project=None, write_collected_feats=False)
 /work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
   olens = (ilens - self.n_fft) // self.hop_length + 1
+# Accounting: time=15 threads=1
+# Ended (code 0) at Tue Mar  4 22:09:50 JST 2025, elapsed time 15 seconds

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.1/config.yaml CHANGED Viewed

@@ -6,7 +6,7 @@ iterator_type: sequence
 output_dir: exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.1
 ngpu: 0
 seed: 777
-num_workers: 16
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://

 output_dir: exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.1
 ngpu: 0
 seed: 777
+num_workers: 32
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.2.log CHANGED Viewed

@@ -1,14 +1,14 @@
 # python3 -m espnet2.bin.gan_tts_train --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.2.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.2.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.2 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
-# Started at Tue Mar  4 21:23:26 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.2.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.2.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.2 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
-[92b100c97f43] 2025-03-04 21:23:29,163 (gan_tts:304) INFO: Vocabulary size: 41
-[92b100c97f43] 2025-03-04 21:23:29,385 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43] 2025-03-04 21:23:29,507 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43] 2025-03-04 21:23:31,643 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
-[92b100c97f43] 2025-03-04 21:23:31,653 (abs_task:1158) INFO: Model structure:
 ESPnetGANTTSModel(
   (feats_extract): LogMelFbank(
     (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
@@ -844,7 +844,7 @@ Model summary:
     Number of trainable parameters: 83.28 M (100.0%)
     Size: 333.11 MB
     Type: torch.float32
-[92b100c97f43] 2025-03-04 21:23:31,654 (abs_task:1161) INFO: Optimizer:
 AdamW (
 Parameter Group 0
     amsgrad: False
@@ -854,8 +854,8 @@ Parameter Group 0
     lr: 0.0002
     weight_decay: 0.0
 )
-[92b100c97f43] 2025-03-04 21:23:31,654 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f31cda9c160>
-[92b100c97f43] 2025-03-04 21:23:31,654 (abs_task:1161) INFO: Optimizer2:
 AdamW (
 Parameter Group 0
     amsgrad: False
@@ -865,10 +865,10 @@ Parameter Group 0
     lr: 0.0002
     weight_decay: 0.0
 )
-[92b100c97f43] 2025-03-04 21:23:31,654 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f31dc9c2280>
-[92b100c97f43] 2025-03-04 21:23:31,654 (abs_task:1171) INFO: Saving the configuration in exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.2/config.yaml
-[92b100c97f43] 2025-03-04 21:23:31,672 (abs_task:1182) INFO: Namespace(accum_grad=1, allow_variable_data_keys=False, batch_bins=6000000, batch_size=20, batch_type='numel', best_model_criterion=[['valid', 'text2mel_loss', 'min'], ['train', 'text2mel_loss', 'min'], ['train', 'total_count', 'max']], bpemodel=None, chunk_length=500, chunk_shift_ratio=0.5, cleaner='jaconv', collect_stats=True, config='conf/tuning/train_jets.yaml', cudnn_benchmark=False, cudnn_deterministic=False, cudnn_enabled=True, detect_anomaly=False, dist_backend='nccl', dist_init_method='env://', dist_launcher=None, dist_master_addr=None, dist_master_port=None, dist_rank=None, dist_world_size=None, distributed=False, dry_run=False, early_stopping_criterion=('valid', 'loss', 'min'), energy_extract='energy', energy_extract_conf={'reduction_factor': 1, 'use_token_averaged_energy': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'win_length': 1200}, energy_normalize=None, energy_normalize_conf={}, feats_extract='fbank', feats_extract_conf={'n_fft': 2048, 'hop_length': 300, 'win_length': 1200, 'fs': 24000, 'fmin': 80, 'fmax': 7600, 'n_mels': 80}, fold_length=[], freeze_param=[], g2p='pyopenjtalk', generator_first=True, grad_clip=-1, grad_clip_type=2.0, grad_noise=False, ignore_init_mismatch=False, init_param=[], iterator_type='sequence', keep_nbest_models=-1, local_rank=None, log_interval=50, log_level='INFO', max_cache_fd=32, max_cache_size=0.0, max_epoch=130, model_conf={}, multiple_iterator=False, multiprocessing_distributed=False, nbest_averaging_interval=0, ngpu=0, no_forward_run=False, non_linguistic_symbols=None, normalize=None, normalize_conf={}, num_att_plot=3, num_cache_chunks=1024, num_iters_per_epoch=1000, num_workers=16, odim=None, optim='adamw', optim2='adamw', optim2_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, optim_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, output_dir='exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.2', patience=None, pitch_extract='dio', pitch_extract_conf={'reduction_factor': 1, 'use_token_averaged_f0': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'f0max': 400, 'f0min': 80}, pitch_normalize=None, pitch_normalize_conf={}, pretrain_path=None, print_config=False, required=['output_dir', 'token_list'], resume=False, scheduler='exponentiallr', scheduler2='exponentiallr', scheduler2_conf={'gamma': 0.999875}, scheduler_conf={'gamma': 0.999875}, seed=777, sharded_ddp=False, sort_batch='descending', sort_in_batch='descending', token_list=['<blank>', '<unk>', 'o', 'a', 'u', 'i', 'e', 'k', 'r', 't', 'n', 'pau', 'N', 's', 'sh', 'd', 'm', 'g', 'w', 'b', 'cl', 'I', 'j', 'ch', 'y', 'U', 'h', 'p', 'ts', 'f', 'z', 'ky', 'ny', 'gy', 'ry', 'hy', 'my', 'by', 'py', 'v', '<sos/eos>'], token_type='phn', train_data_path_and_name_and_type=[('dump/raw/jvs010_tr_no_dev/text', 'text', 'text'), ('dump/raw/jvs010_tr_no_dev/wav.scp', 'speech', 'sound')], train_dtype='float32', train_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.2.scp'], tts='jets', tts_conf={'generator_type': 'jets_generator', 'generator_params': {'adim': 256, 'aheads': 2, 'elayers': 4, 'eunits': 1024, 'dlayers': 4, 'dunits': 1024, 'positionwise_layer_type': 'conv1d', 'positionwise_conv_kernel_size': 3, 'duration_predictor_layers': 2, 'duration_predictor_chans': 256, 'duration_predictor_kernel_size': 3, 'use_masking': True, 'encoder_normalize_before': True, 'decoder_normalize_before': True, 'encoder_type': 'transformer', 'decoder_type': 'transformer', 'conformer_rel_pos_type': 'latest', 'conformer_pos_enc_layer_type': 'rel_pos', 'conformer_self_attn_layer_type': 'rel_selfattn', 'conformer_activation_type': 'swish', 'use_macaron_style_in_conformer': True, 'use_cnn_in_conformer': True, 'conformer_enc_kernel_size': 7, 'conformer_dec_kernel_size': 31, 'init_type': 'xavier_uniform', 'transformer_enc_dropout_rate': 0.2, 'transformer_enc_positional_dropout_rate': 0.2, 'transformer_enc_attn_dropout_rate': 0.2, 'transformer_dec_dropout_rate': 0.2, 'transformer_dec_positional_dropout_rate': 0.2, 'transformer_dec_attn_dropout_rate': 0.2, 'pitch_predictor_layers': 5, 'pitch_predictor_chans': 256, 'pitch_predictor_kernel_size': 5, 'pitch_predictor_dropout': 0.5, 'pitch_embed_kernel_size': 1, 'pitch_embed_dropout': 0.0, 'stop_gradient_from_pitch_predictor': True, 'energy_predictor_layers': 2, 'energy_predictor_chans': 256, 'energy_predictor_kernel_size': 3, 'energy_predictor_dropout': 0.5, 'energy_embed_kernel_size': 1, 'energy_embed_dropout': 0.0, 'stop_gradient_from_energy_predictor': False, 'generator_out_channels': 1, 'generator_channels': 512, 'generator_global_channels': -1, 'generator_kernel_size': 7, 'generator_upsample_scales': [8, 8, 2, 2], 'generator_upsample_kernel_sizes': [16, 16, 4, 4], 'generator_resblock_kernel_sizes': [3, 7, 11], 'generator_resblock_dilations': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'generator_use_additional_convs': True, 'generator_bias': True, 'generator_nonlinear_activation': 'LeakyReLU', 'generator_nonlinear_activation_params': {'negative_slope': 0.1}, 'generator_use_weight_norm': True, 'segment_size': 64, 'idim': 41, 'odim': 80}, 'discriminator_type': 'hifigan_multi_scale_multi_period_discriminator', 'discriminator_params': {'scales': 1, 'scale_downsample_pooling': 'AvgPool1d', 'scale_downsample_pooling_params': {'kernel_size': 4, 'stride': 2, 'padding': 2}, 'scale_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [15, 41, 5, 3], 'channels': 128, 'max_downsample_channels': 1024, 'max_groups': 16, 'bias': True, 'downsample_scales': [2, 2, 4, 4, 1], 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}, 'follow_official_norm': False, 'periods': [2, 3, 5, 7, 11], 'period_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [5, 3], 'channels': 32, 'downsample_scales': [3, 3, 3, 3, 1], 'max_downsample_channels': 1024, 'bias': True, 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}}, 'generator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'discriminator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'feat_match_loss_params': {'average_by_discriminators': False, 'average_by_layers': False, 'include_final_outputs': True}, 'mel_loss_params': {'fs': 24000, 'n_fft': 1024, 'hop_length': 256, 'win_length': None, 'window': 'hann', 'n_mels': 80, 'fmin': 0, 'fmax': None, 'log_base': None}, 'lambda_adv': 1.0, 'lambda_mel': 45.0, 'lambda_feat_match': 2.0, 'lambda_var': 1.0, 'lambda_align': 2.0, 'sampling_rate': 24000, 'cache_generator_outputs': True}, unused_parameters=True, use_amp=False, use_matplotlib=True, use_preprocessor=True, use_tensorboard=True, use_wandb=False, val_scheduler_criterion=('valid', 'loss'), valid_batch_bins=None, valid_batch_size=None, valid_batch_type=None, valid_data_path_and_name_and_type=[('dump/raw/jvs010_dev/text', 'text', 'text'), ('dump/raw/jvs010_dev/wav.scp', 'speech', 'sound')], valid_max_cache_size=None, valid_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.2.scp'], version='202204', wandb_entity=None, wandb_id=None, wandb_model_log_interval=-1, wandb_name=None, wandb_project=None, write_collected_feats=False)
 /work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
   olens = (ilens - self.n_fft) // self.hop_length + 1
-# Accounting: time=11 threads=1
-# Ended (code 0) at Tue Mar  4 21:23:37 JST 2025, elapsed time 11 seconds

 # python3 -m espnet2.bin.gan_tts_train --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.2.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.2.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.2 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
+# Started at Tue Mar  4 22:09:35 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.2.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.2.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.2 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
+[92b100c97f43] 2025-03-04 22:09:38,625 (gan_tts:304) INFO: Vocabulary size: 41
+[92b100c97f43] 2025-03-04 22:09:38,848 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43] 2025-03-04 22:09:38,971 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43] 2025-03-04 22:09:41,094 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
+[92b100c97f43] 2025-03-04 22:09:41,107 (abs_task:1158) INFO: Model structure:
 ESPnetGANTTSModel(
   (feats_extract): LogMelFbank(
     (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
     Number of trainable parameters: 83.28 M (100.0%)
     Size: 333.11 MB
     Type: torch.float32
+[92b100c97f43] 2025-03-04 22:09:41,107 (abs_task:1161) INFO: Optimizer:
 AdamW (
 Parameter Group 0
     amsgrad: False
     lr: 0.0002
     weight_decay: 0.0
 )
+[92b100c97f43] 2025-03-04 22:09:41,107 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f91b6d1e160>
+[92b100c97f43] 2025-03-04 22:09:41,107 (abs_task:1161) INFO: Optimizer2:
 AdamW (
 Parameter Group 0
     amsgrad: False
     lr: 0.0002
     weight_decay: 0.0
 )
+[92b100c97f43] 2025-03-04 22:09:41,107 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f91c5f45280>
+[92b100c97f43] 2025-03-04 22:09:41,108 (abs_task:1171) INFO: Saving the configuration in exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.2/config.yaml
+[92b100c97f43] 2025-03-04 22:09:41,127 (abs_task:1182) INFO: Namespace(accum_grad=1, allow_variable_data_keys=False, batch_bins=6000000, batch_size=20, batch_type='numel', best_model_criterion=[['valid', 'text2mel_loss', 'min'], ['train', 'text2mel_loss', 'min'], ['train', 'total_count', 'max']], bpemodel=None, chunk_length=500, chunk_shift_ratio=0.5, cleaner='jaconv', collect_stats=True, config='conf/tuning/train_jets.yaml', cudnn_benchmark=False, cudnn_deterministic=False, cudnn_enabled=True, detect_anomaly=False, dist_backend='nccl', dist_init_method='env://', dist_launcher=None, dist_master_addr=None, dist_master_port=None, dist_rank=None, dist_world_size=None, distributed=False, dry_run=False, early_stopping_criterion=('valid', 'loss', 'min'), energy_extract='energy', energy_extract_conf={'reduction_factor': 1, 'use_token_averaged_energy': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'win_length': 1200}, energy_normalize=None, energy_normalize_conf={}, feats_extract='fbank', feats_extract_conf={'n_fft': 2048, 'hop_length': 300, 'win_length': 1200, 'fs': 24000, 'fmin': 80, 'fmax': 7600, 'n_mels': 80}, fold_length=[], freeze_param=[], g2p='pyopenjtalk', generator_first=True, grad_clip=-1, grad_clip_type=2.0, grad_noise=False, ignore_init_mismatch=False, init_param=[], iterator_type='sequence', keep_nbest_models=-1, local_rank=None, log_interval=50, log_level='INFO', max_cache_fd=32, max_cache_size=0.0, max_epoch=130, model_conf={}, multiple_iterator=False, multiprocessing_distributed=False, nbest_averaging_interval=0, ngpu=0, no_forward_run=False, non_linguistic_symbols=None, normalize=None, normalize_conf={}, num_att_plot=3, num_cache_chunks=1024, num_iters_per_epoch=1000, num_workers=32, odim=None, optim='adamw', optim2='adamw', optim2_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, optim_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, output_dir='exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.2', patience=None, pitch_extract='dio', pitch_extract_conf={'reduction_factor': 1, 'use_token_averaged_f0': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'f0max': 400, 'f0min': 80}, pitch_normalize=None, pitch_normalize_conf={}, pretrain_path=None, print_config=False, required=['output_dir', 'token_list'], resume=False, scheduler='exponentiallr', scheduler2='exponentiallr', scheduler2_conf={'gamma': 0.999875}, scheduler_conf={'gamma': 0.999875}, seed=777, sharded_ddp=False, sort_batch='descending', sort_in_batch='descending', token_list=['<blank>', '<unk>', 'o', 'a', 'u', 'i', 'e', 'k', 'r', 't', 'n', 'pau', 'N', 's', 'sh', 'd', 'm', 'g', 'w', 'b', 'cl', 'I', 'j', 'ch', 'y', 'U', 'h', 'p', 'ts', 'f', 'z', 'ky', 'ny', 'gy', 'ry', 'hy', 'my', 'by', 'py', 'v', '<sos/eos>'], token_type='phn', train_data_path_and_name_and_type=[('dump/raw/jvs010_tr_no_dev/text', 'text', 'text'), ('dump/raw/jvs010_tr_no_dev/wav.scp', 'speech', 'sound')], train_dtype='float32', train_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.2.scp'], tts='jets', tts_conf={'generator_type': 'jets_generator', 'generator_params': {'adim': 256, 'aheads': 2, 'elayers': 4, 'eunits': 1024, 'dlayers': 4, 'dunits': 1024, 'positionwise_layer_type': 'conv1d', 'positionwise_conv_kernel_size': 3, 'duration_predictor_layers': 2, 'duration_predictor_chans': 256, 'duration_predictor_kernel_size': 3, 'use_masking': True, 'encoder_normalize_before': True, 'decoder_normalize_before': True, 'encoder_type': 'transformer', 'decoder_type': 'transformer', 'conformer_rel_pos_type': 'latest', 'conformer_pos_enc_layer_type': 'rel_pos', 'conformer_self_attn_layer_type': 'rel_selfattn', 'conformer_activation_type': 'swish', 'use_macaron_style_in_conformer': True, 'use_cnn_in_conformer': True, 'conformer_enc_kernel_size': 7, 'conformer_dec_kernel_size': 31, 'init_type': 'xavier_uniform', 'transformer_enc_dropout_rate': 0.2, 'transformer_enc_positional_dropout_rate': 0.2, 'transformer_enc_attn_dropout_rate': 0.2, 'transformer_dec_dropout_rate': 0.2, 'transformer_dec_positional_dropout_rate': 0.2, 'transformer_dec_attn_dropout_rate': 0.2, 'pitch_predictor_layers': 5, 'pitch_predictor_chans': 256, 'pitch_predictor_kernel_size': 5, 'pitch_predictor_dropout': 0.5, 'pitch_embed_kernel_size': 1, 'pitch_embed_dropout': 0.0, 'stop_gradient_from_pitch_predictor': True, 'energy_predictor_layers': 2, 'energy_predictor_chans': 256, 'energy_predictor_kernel_size': 3, 'energy_predictor_dropout': 0.5, 'energy_embed_kernel_size': 1, 'energy_embed_dropout': 0.0, 'stop_gradient_from_energy_predictor': False, 'generator_out_channels': 1, 'generator_channels': 512, 'generator_global_channels': -1, 'generator_kernel_size': 7, 'generator_upsample_scales': [8, 8, 2, 2], 'generator_upsample_kernel_sizes': [16, 16, 4, 4], 'generator_resblock_kernel_sizes': [3, 7, 11], 'generator_resblock_dilations': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'generator_use_additional_convs': True, 'generator_bias': True, 'generator_nonlinear_activation': 'LeakyReLU', 'generator_nonlinear_activation_params': {'negative_slope': 0.1}, 'generator_use_weight_norm': True, 'segment_size': 64, 'idim': 41, 'odim': 80}, 'discriminator_type': 'hifigan_multi_scale_multi_period_discriminator', 'discriminator_params': {'scales': 1, 'scale_downsample_pooling': 'AvgPool1d', 'scale_downsample_pooling_params': {'kernel_size': 4, 'stride': 2, 'padding': 2}, 'scale_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [15, 41, 5, 3], 'channels': 128, 'max_downsample_channels': 1024, 'max_groups': 16, 'bias': True, 'downsample_scales': [2, 2, 4, 4, 1], 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}, 'follow_official_norm': False, 'periods': [2, 3, 5, 7, 11], 'period_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [5, 3], 'channels': 32, 'downsample_scales': [3, 3, 3, 3, 1], 'max_downsample_channels': 1024, 'bias': True, 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}}, 'generator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'discriminator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'feat_match_loss_params': {'average_by_discriminators': False, 'average_by_layers': False, 'include_final_outputs': True}, 'mel_loss_params': {'fs': 24000, 'n_fft': 1024, 'hop_length': 256, 'win_length': None, 'window': 'hann', 'n_mels': 80, 'fmin': 0, 'fmax': None, 'log_base': None}, 'lambda_adv': 1.0, 'lambda_mel': 45.0, 'lambda_feat_match': 2.0, 'lambda_var': 1.0, 'lambda_align': 2.0, 'sampling_rate': 24000, 'cache_generator_outputs': True}, unused_parameters=True, use_amp=False, use_matplotlib=True, use_preprocessor=True, use_tensorboard=True, use_wandb=False, val_scheduler_criterion=('valid', 'loss'), valid_batch_bins=None, valid_batch_size=None, valid_batch_type=None, valid_data_path_and_name_and_type=[('dump/raw/jvs010_dev/text', 'text', 'text'), ('dump/raw/jvs010_dev/wav.scp', 'speech', 'sound')], valid_max_cache_size=None, valid_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.2.scp'], version='202204', wandb_entity=None, wandb_id=None, wandb_model_log_interval=-1, wandb_name=None, wandb_project=None, write_collected_feats=False)
 /work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
   olens = (ilens - self.n_fft) // self.hop_length + 1
+# Accounting: time=15 threads=1
+# Ended (code 0) at Tue Mar  4 22:09:50 JST 2025, elapsed time 15 seconds

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.2/config.yaml CHANGED Viewed

@@ -6,7 +6,7 @@ iterator_type: sequence
 output_dir: exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.2
 ngpu: 0
 seed: 777
-num_workers: 16
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://

 output_dir: exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.2
 ngpu: 0
 seed: 777
+num_workers: 32
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.3.log CHANGED Viewed

@@ -1,14 +1,14 @@
 # python3 -m espnet2.bin.gan_tts_train --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.3.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.3.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.3 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
-# Started at Tue Mar  4 21:23:26 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.3.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.3.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.3 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
-[92b100c97f43] 2025-03-04 21:23:29,166 (gan_tts:304) INFO: Vocabulary size: 41
-[92b100c97f43] 2025-03-04 21:23:29,388 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43] 2025-03-04 21:23:29,512 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43] 2025-03-04 21:23:31,615 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
-[92b100c97f43] 2025-03-04 21:23:31,624 (abs_task:1158) INFO: Model structure:
 ESPnetGANTTSModel(
   (feats_extract): LogMelFbank(
     (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
@@ -844,7 +844,7 @@ Model summary:
     Number of trainable parameters: 83.28 M (100.0%)
     Size: 333.11 MB
     Type: torch.float32
-[92b100c97f43] 2025-03-04 21:23:31,625 (abs_task:1161) INFO: Optimizer:
 AdamW (
 Parameter Group 0
     amsgrad: False
@@ -854,8 +854,8 @@ Parameter Group 0
     lr: 0.0002
     weight_decay: 0.0
 )
-[92b100c97f43] 2025-03-04 21:23:31,625 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f725c8cd0a0>
-[92b100c97f43] 2025-03-04 21:23:31,625 (abs_task:1161) INFO: Optimizer2:
 AdamW (
 Parameter Group 0
     amsgrad: False
@@ -865,10 +865,10 @@ Parameter Group 0
     lr: 0.0002
     weight_decay: 0.0
 )
-[92b100c97f43] 2025-03-04 21:23:31,625 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f7278a78280>
-[92b100c97f43] 2025-03-04 21:23:31,625 (abs_task:1171) INFO: Saving the configuration in exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.3/config.yaml
-[92b100c97f43] 2025-03-04 21:23:31,643 (abs_task:1182) INFO: Namespace(accum_grad=1, allow_variable_data_keys=False, batch_bins=6000000, batch_size=20, batch_type='numel', best_model_criterion=[['valid', 'text2mel_loss', 'min'], ['train', 'text2mel_loss', 'min'], ['train', 'total_count', 'max']], bpemodel=None, chunk_length=500, chunk_shift_ratio=0.5, cleaner='jaconv', collect_stats=True, config='conf/tuning/train_jets.yaml', cudnn_benchmark=False, cudnn_deterministic=False, cudnn_enabled=True, detect_anomaly=False, dist_backend='nccl', dist_init_method='env://', dist_launcher=None, dist_master_addr=None, dist_master_port=None, dist_rank=None, dist_world_size=None, distributed=False, dry_run=False, early_stopping_criterion=('valid', 'loss', 'min'), energy_extract='energy', energy_extract_conf={'reduction_factor': 1, 'use_token_averaged_energy': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'win_length': 1200}, energy_normalize=None, energy_normalize_conf={}, feats_extract='fbank', feats_extract_conf={'n_fft': 2048, 'hop_length': 300, 'win_length': 1200, 'fs': 24000, 'fmin': 80, 'fmax': 7600, 'n_mels': 80}, fold_length=[], freeze_param=[], g2p='pyopenjtalk', generator_first=True, grad_clip=-1, grad_clip_type=2.0, grad_noise=False, ignore_init_mismatch=False, init_param=[], iterator_type='sequence', keep_nbest_models=-1, local_rank=None, log_interval=50, log_level='INFO', max_cache_fd=32, max_cache_size=0.0, max_epoch=130, model_conf={}, multiple_iterator=False, multiprocessing_distributed=False, nbest_averaging_interval=0, ngpu=0, no_forward_run=False, non_linguistic_symbols=None, normalize=None, normalize_conf={}, num_att_plot=3, num_cache_chunks=1024, num_iters_per_epoch=1000, num_workers=16, odim=None, optim='adamw', optim2='adamw', optim2_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, optim_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, output_dir='exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.3', patience=None, pitch_extract='dio', pitch_extract_conf={'reduction_factor': 1, 'use_token_averaged_f0': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'f0max': 400, 'f0min': 80}, pitch_normalize=None, pitch_normalize_conf={}, pretrain_path=None, print_config=False, required=['output_dir', 'token_list'], resume=False, scheduler='exponentiallr', scheduler2='exponentiallr', scheduler2_conf={'gamma': 0.999875}, scheduler_conf={'gamma': 0.999875}, seed=777, sharded_ddp=False, sort_batch='descending', sort_in_batch='descending', token_list=['<blank>', '<unk>', 'o', 'a', 'u', 'i', 'e', 'k', 'r', 't', 'n', 'pau', 'N', 's', 'sh', 'd', 'm', 'g', 'w', 'b', 'cl', 'I', 'j', 'ch', 'y', 'U', 'h', 'p', 'ts', 'f', 'z', 'ky', 'ny', 'gy', 'ry', 'hy', 'my', 'by', 'py', 'v', '<sos/eos>'], token_type='phn', train_data_path_and_name_and_type=[('dump/raw/jvs010_tr_no_dev/text', 'text', 'text'), ('dump/raw/jvs010_tr_no_dev/wav.scp', 'speech', 'sound')], train_dtype='float32', train_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.3.scp'], tts='jets', tts_conf={'generator_type': 'jets_generator', 'generator_params': {'adim': 256, 'aheads': 2, 'elayers': 4, 'eunits': 1024, 'dlayers': 4, 'dunits': 1024, 'positionwise_layer_type': 'conv1d', 'positionwise_conv_kernel_size': 3, 'duration_predictor_layers': 2, 'duration_predictor_chans': 256, 'duration_predictor_kernel_size': 3, 'use_masking': True, 'encoder_normalize_before': True, 'decoder_normalize_before': True, 'encoder_type': 'transformer', 'decoder_type': 'transformer', 'conformer_rel_pos_type': 'latest', 'conformer_pos_enc_layer_type': 'rel_pos', 'conformer_self_attn_layer_type': 'rel_selfattn', 'conformer_activation_type': 'swish', 'use_macaron_style_in_conformer': True, 'use_cnn_in_conformer': True, 'conformer_enc_kernel_size': 7, 'conformer_dec_kernel_size': 31, 'init_type': 'xavier_uniform', 'transformer_enc_dropout_rate': 0.2, 'transformer_enc_positional_dropout_rate': 0.2, 'transformer_enc_attn_dropout_rate': 0.2, 'transformer_dec_dropout_rate': 0.2, 'transformer_dec_positional_dropout_rate': 0.2, 'transformer_dec_attn_dropout_rate': 0.2, 'pitch_predictor_layers': 5, 'pitch_predictor_chans': 256, 'pitch_predictor_kernel_size': 5, 'pitch_predictor_dropout': 0.5, 'pitch_embed_kernel_size': 1, 'pitch_embed_dropout': 0.0, 'stop_gradient_from_pitch_predictor': True, 'energy_predictor_layers': 2, 'energy_predictor_chans': 256, 'energy_predictor_kernel_size': 3, 'energy_predictor_dropout': 0.5, 'energy_embed_kernel_size': 1, 'energy_embed_dropout': 0.0, 'stop_gradient_from_energy_predictor': False, 'generator_out_channels': 1, 'generator_channels': 512, 'generator_global_channels': -1, 'generator_kernel_size': 7, 'generator_upsample_scales': [8, 8, 2, 2], 'generator_upsample_kernel_sizes': [16, 16, 4, 4], 'generator_resblock_kernel_sizes': [3, 7, 11], 'generator_resblock_dilations': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'generator_use_additional_convs': True, 'generator_bias': True, 'generator_nonlinear_activation': 'LeakyReLU', 'generator_nonlinear_activation_params': {'negative_slope': 0.1}, 'generator_use_weight_norm': True, 'segment_size': 64, 'idim': 41, 'odim': 80}, 'discriminator_type': 'hifigan_multi_scale_multi_period_discriminator', 'discriminator_params': {'scales': 1, 'scale_downsample_pooling': 'AvgPool1d', 'scale_downsample_pooling_params': {'kernel_size': 4, 'stride': 2, 'padding': 2}, 'scale_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [15, 41, 5, 3], 'channels': 128, 'max_downsample_channels': 1024, 'max_groups': 16, 'bias': True, 'downsample_scales': [2, 2, 4, 4, 1], 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}, 'follow_official_norm': False, 'periods': [2, 3, 5, 7, 11], 'period_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [5, 3], 'channels': 32, 'downsample_scales': [3, 3, 3, 3, 1], 'max_downsample_channels': 1024, 'bias': True, 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}}, 'generator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'discriminator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'feat_match_loss_params': {'average_by_discriminators': False, 'average_by_layers': False, 'include_final_outputs': True}, 'mel_loss_params': {'fs': 24000, 'n_fft': 1024, 'hop_length': 256, 'win_length': None, 'window': 'hann', 'n_mels': 80, 'fmin': 0, 'fmax': None, 'log_base': None}, 'lambda_adv': 1.0, 'lambda_mel': 45.0, 'lambda_feat_match': 2.0, 'lambda_var': 1.0, 'lambda_align': 2.0, 'sampling_rate': 24000, 'cache_generator_outputs': True}, unused_parameters=True, use_amp=False, use_matplotlib=True, use_preprocessor=True, use_tensorboard=True, use_wandb=False, val_scheduler_criterion=('valid', 'loss'), valid_batch_bins=None, valid_batch_size=None, valid_batch_type=None, valid_data_path_and_name_and_type=[('dump/raw/jvs010_dev/text', 'text', 'text'), ('dump/raw/jvs010_dev/wav.scp', 'speech', 'sound')], valid_max_cache_size=None, valid_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.3.scp'], version='202204', wandb_entity=None, wandb_id=None, wandb_model_log_interval=-1, wandb_name=None, wandb_project=None, write_collected_feats=False)
 /work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
   olens = (ilens - self.n_fft) // self.hop_length + 1
-# Accounting: time=11 threads=1
-# Ended (code 0) at Tue Mar  4 21:23:37 JST 2025, elapsed time 11 seconds

 # python3 -m espnet2.bin.gan_tts_train --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.3.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.3.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.3 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
+# Started at Tue Mar  4 22:09:35 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.3.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.3.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.3 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
+[92b100c97f43] 2025-03-04 22:09:38,630 (gan_tts:304) INFO: Vocabulary size: 41
+[92b100c97f43] 2025-03-04 22:09:38,851 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43] 2025-03-04 22:09:38,974 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43] 2025-03-04 22:09:41,143 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
+[92b100c97f43] 2025-03-04 22:09:41,153 (abs_task:1158) INFO: Model structure:
 ESPnetGANTTSModel(
   (feats_extract): LogMelFbank(
     (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
     Number of trainable parameters: 83.28 M (100.0%)
     Size: 333.11 MB
     Type: torch.float32
+[92b100c97f43] 2025-03-04 22:09:41,154 (abs_task:1161) INFO: Optimizer:
 AdamW (
 Parameter Group 0
     amsgrad: False
     lr: 0.0002
     weight_decay: 0.0
 )
+[92b100c97f43] 2025-03-04 22:09:41,154 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f44e9149100>
+[92b100c97f43] 2025-03-04 22:09:41,154 (abs_task:1161) INFO: Optimizer2:
 AdamW (
 Parameter Group 0
     amsgrad: False
     lr: 0.0002
     weight_decay: 0.0
 )
+[92b100c97f43] 2025-03-04 22:09:41,154 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f44f806f190>
+[92b100c97f43] 2025-03-04 22:09:41,154 (abs_task:1171) INFO: Saving the configuration in exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.3/config.yaml
+[92b100c97f43] 2025-03-04 22:09:41,173 (abs_task:1182) INFO: Namespace(accum_grad=1, allow_variable_data_keys=False, batch_bins=6000000, batch_size=20, batch_type='numel', best_model_criterion=[['valid', 'text2mel_loss', 'min'], ['train', 'text2mel_loss', 'min'], ['train', 'total_count', 'max']], bpemodel=None, chunk_length=500, chunk_shift_ratio=0.5, cleaner='jaconv', collect_stats=True, config='conf/tuning/train_jets.yaml', cudnn_benchmark=False, cudnn_deterministic=False, cudnn_enabled=True, detect_anomaly=False, dist_backend='nccl', dist_init_method='env://', dist_launcher=None, dist_master_addr=None, dist_master_port=None, dist_rank=None, dist_world_size=None, distributed=False, dry_run=False, early_stopping_criterion=('valid', 'loss', 'min'), energy_extract='energy', energy_extract_conf={'reduction_factor': 1, 'use_token_averaged_energy': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'win_length': 1200}, energy_normalize=None, energy_normalize_conf={}, feats_extract='fbank', feats_extract_conf={'n_fft': 2048, 'hop_length': 300, 'win_length': 1200, 'fs': 24000, 'fmin': 80, 'fmax': 7600, 'n_mels': 80}, fold_length=[], freeze_param=[], g2p='pyopenjtalk', generator_first=True, grad_clip=-1, grad_clip_type=2.0, grad_noise=False, ignore_init_mismatch=False, init_param=[], iterator_type='sequence', keep_nbest_models=-1, local_rank=None, log_interval=50, log_level='INFO', max_cache_fd=32, max_cache_size=0.0, max_epoch=130, model_conf={}, multiple_iterator=False, multiprocessing_distributed=False, nbest_averaging_interval=0, ngpu=0, no_forward_run=False, non_linguistic_symbols=None, normalize=None, normalize_conf={}, num_att_plot=3, num_cache_chunks=1024, num_iters_per_epoch=1000, num_workers=32, odim=None, optim='adamw', optim2='adamw', optim2_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, optim_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, output_dir='exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.3', patience=None, pitch_extract='dio', pitch_extract_conf={'reduction_factor': 1, 'use_token_averaged_f0': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'f0max': 400, 'f0min': 80}, pitch_normalize=None, pitch_normalize_conf={}, pretrain_path=None, print_config=False, required=['output_dir', 'token_list'], resume=False, scheduler='exponentiallr', scheduler2='exponentiallr', scheduler2_conf={'gamma': 0.999875}, scheduler_conf={'gamma': 0.999875}, seed=777, sharded_ddp=False, sort_batch='descending', sort_in_batch='descending', token_list=['<blank>', '<unk>', 'o', 'a', 'u', 'i', 'e', 'k', 'r', 't', 'n', 'pau', 'N', 's', 'sh', 'd', 'm', 'g', 'w', 'b', 'cl', 'I', 'j', 'ch', 'y', 'U', 'h', 'p', 'ts', 'f', 'z', 'ky', 'ny', 'gy', 'ry', 'hy', 'my', 'by', 'py', 'v', '<sos/eos>'], token_type='phn', train_data_path_and_name_and_type=[('dump/raw/jvs010_tr_no_dev/text', 'text', 'text'), ('dump/raw/jvs010_tr_no_dev/wav.scp', 'speech', 'sound')], train_dtype='float32', train_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.3.scp'], tts='jets', tts_conf={'generator_type': 'jets_generator', 'generator_params': {'adim': 256, 'aheads': 2, 'elayers': 4, 'eunits': 1024, 'dlayers': 4, 'dunits': 1024, 'positionwise_layer_type': 'conv1d', 'positionwise_conv_kernel_size': 3, 'duration_predictor_layers': 2, 'duration_predictor_chans': 256, 'duration_predictor_kernel_size': 3, 'use_masking': True, 'encoder_normalize_before': True, 'decoder_normalize_before': True, 'encoder_type': 'transformer', 'decoder_type': 'transformer', 'conformer_rel_pos_type': 'latest', 'conformer_pos_enc_layer_type': 'rel_pos', 'conformer_self_attn_layer_type': 'rel_selfattn', 'conformer_activation_type': 'swish', 'use_macaron_style_in_conformer': True, 'use_cnn_in_conformer': True, 'conformer_enc_kernel_size': 7, 'conformer_dec_kernel_size': 31, 'init_type': 'xavier_uniform', 'transformer_enc_dropout_rate': 0.2, 'transformer_enc_positional_dropout_rate': 0.2, 'transformer_enc_attn_dropout_rate': 0.2, 'transformer_dec_dropout_rate': 0.2, 'transformer_dec_positional_dropout_rate': 0.2, 'transformer_dec_attn_dropout_rate': 0.2, 'pitch_predictor_layers': 5, 'pitch_predictor_chans': 256, 'pitch_predictor_kernel_size': 5, 'pitch_predictor_dropout': 0.5, 'pitch_embed_kernel_size': 1, 'pitch_embed_dropout': 0.0, 'stop_gradient_from_pitch_predictor': True, 'energy_predictor_layers': 2, 'energy_predictor_chans': 256, 'energy_predictor_kernel_size': 3, 'energy_predictor_dropout': 0.5, 'energy_embed_kernel_size': 1, 'energy_embed_dropout': 0.0, 'stop_gradient_from_energy_predictor': False, 'generator_out_channels': 1, 'generator_channels': 512, 'generator_global_channels': -1, 'generator_kernel_size': 7, 'generator_upsample_scales': [8, 8, 2, 2], 'generator_upsample_kernel_sizes': [16, 16, 4, 4], 'generator_resblock_kernel_sizes': [3, 7, 11], 'generator_resblock_dilations': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'generator_use_additional_convs': True, 'generator_bias': True, 'generator_nonlinear_activation': 'LeakyReLU', 'generator_nonlinear_activation_params': {'negative_slope': 0.1}, 'generator_use_weight_norm': True, 'segment_size': 64, 'idim': 41, 'odim': 80}, 'discriminator_type': 'hifigan_multi_scale_multi_period_discriminator', 'discriminator_params': {'scales': 1, 'scale_downsample_pooling': 'AvgPool1d', 'scale_downsample_pooling_params': {'kernel_size': 4, 'stride': 2, 'padding': 2}, 'scale_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [15, 41, 5, 3], 'channels': 128, 'max_downsample_channels': 1024, 'max_groups': 16, 'bias': True, 'downsample_scales': [2, 2, 4, 4, 1], 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}, 'follow_official_norm': False, 'periods': [2, 3, 5, 7, 11], 'period_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [5, 3], 'channels': 32, 'downsample_scales': [3, 3, 3, 3, 1], 'max_downsample_channels': 1024, 'bias': True, 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}}, 'generator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'discriminator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'feat_match_loss_params': {'average_by_discriminators': False, 'average_by_layers': False, 'include_final_outputs': True}, 'mel_loss_params': {'fs': 24000, 'n_fft': 1024, 'hop_length': 256, 'win_length': None, 'window': 'hann', 'n_mels': 80, 'fmin': 0, 'fmax': None, 'log_base': None}, 'lambda_adv': 1.0, 'lambda_mel': 45.0, 'lambda_feat_match': 2.0, 'lambda_var': 1.0, 'lambda_align': 2.0, 'sampling_rate': 24000, 'cache_generator_outputs': True}, unused_parameters=True, use_amp=False, use_matplotlib=True, use_preprocessor=True, use_tensorboard=True, use_wandb=False, val_scheduler_criterion=('valid', 'loss'), valid_batch_bins=None, valid_batch_size=None, valid_batch_type=None, valid_data_path_and_name_and_type=[('dump/raw/jvs010_dev/text', 'text', 'text'), ('dump/raw/jvs010_dev/wav.scp', 'speech', 'sound')], valid_max_cache_size=None, valid_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.3.scp'], version='202204', wandb_entity=None, wandb_id=None, wandb_model_log_interval=-1, wandb_name=None, wandb_project=None, write_collected_feats=False)
 /work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
   olens = (ilens - self.n_fft) // self.hop_length + 1
+# Accounting: time=15 threads=1
+# Ended (code 0) at Tue Mar  4 22:09:50 JST 2025, elapsed time 15 seconds

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.3/config.yaml CHANGED Viewed

@@ -6,7 +6,7 @@ iterator_type: sequence
 output_dir: exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.3
 ngpu: 0
 seed: 777
-num_workers: 16
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://

 output_dir: exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.3
 ngpu: 0
 seed: 777
+num_workers: 32
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.4.log CHANGED Viewed

@@ -1,14 +1,14 @@
 # python3 -m espnet2.bin.gan_tts_train --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.4.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.4.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.4 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
-# Started at Tue Mar  4 21:23:26 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.4.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.4.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.4 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
-[92b100c97f43] 2025-03-04 21:23:29,214 (gan_tts:304) INFO: Vocabulary size: 41
-[92b100c97f43] 2025-03-04 21:23:29,437 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43] 2025-03-04 21:23:29,561 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43] 2025-03-04 21:23:31,634 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
-[92b100c97f43] 2025-03-04 21:23:31,644 (abs_task:1158) INFO: Model structure:
 ESPnetGANTTSModel(
   (feats_extract): LogMelFbank(
     (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
@@ -844,7 +844,7 @@ Model summary:
     Number of trainable parameters: 83.28 M (100.0%)
     Size: 333.11 MB
     Type: torch.float32
-[92b100c97f43] 2025-03-04 21:23:31,644 (abs_task:1161) INFO: Optimizer:
 AdamW (
 Parameter Group 0
     amsgrad: False
@@ -854,8 +854,8 @@ Parameter Group 0
     lr: 0.0002
     weight_decay: 0.0
 )
-[92b100c97f43] 2025-03-04 21:23:31,644 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f24e600b100>
-[92b100c97f43] 2025-03-04 21:23:31,645 (abs_task:1161) INFO: Optimizer2:
 AdamW (
 Parameter Group 0
     amsgrad: False
@@ -865,10 +865,10 @@ Parameter Group 0
     lr: 0.0002
     weight_decay: 0.0
 )
-[92b100c97f43] 2025-03-04 21:23:31,645 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f24f4f30190>
-[92b100c97f43] 2025-03-04 21:23:31,645 (abs_task:1171) INFO: Saving the configuration in exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.4/config.yaml
-[92b100c97f43] 2025-03-04 21:23:31,663 (abs_task:1182) INFO: Namespace(accum_grad=1, allow_variable_data_keys=False, batch_bins=6000000, batch_size=20, batch_type='numel', best_model_criterion=[['valid', 'text2mel_loss', 'min'], ['train', 'text2mel_loss', 'min'], ['train', 'total_count', 'max']], bpemodel=None, chunk_length=500, chunk_shift_ratio=0.5, cleaner='jaconv', collect_stats=True, config='conf/tuning/train_jets.yaml', cudnn_benchmark=False, cudnn_deterministic=False, cudnn_enabled=True, detect_anomaly=False, dist_backend='nccl', dist_init_method='env://', dist_launcher=None, dist_master_addr=None, dist_master_port=None, dist_rank=None, dist_world_size=None, distributed=False, dry_run=False, early_stopping_criterion=('valid', 'loss', 'min'), energy_extract='energy', energy_extract_conf={'reduction_factor': 1, 'use_token_averaged_energy': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'win_length': 1200}, energy_normalize=None, energy_normalize_conf={}, feats_extract='fbank', feats_extract_conf={'n_fft': 2048, 'hop_length': 300, 'win_length': 1200, 'fs': 24000, 'fmin': 80, 'fmax': 7600, 'n_mels': 80}, fold_length=[], freeze_param=[], g2p='pyopenjtalk', generator_first=True, grad_clip=-1, grad_clip_type=2.0, grad_noise=False, ignore_init_mismatch=False, init_param=[], iterator_type='sequence', keep_nbest_models=-1, local_rank=None, log_interval=50, log_level='INFO', max_cache_fd=32, max_cache_size=0.0, max_epoch=130, model_conf={}, multiple_iterator=False, multiprocessing_distributed=False, nbest_averaging_interval=0, ngpu=0, no_forward_run=False, non_linguistic_symbols=None, normalize=None, normalize_conf={}, num_att_plot=3, num_cache_chunks=1024, num_iters_per_epoch=1000, num_workers=16, odim=None, optim='adamw', optim2='adamw', optim2_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, optim_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, output_dir='exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.4', patience=None, pitch_extract='dio', pitch_extract_conf={'reduction_factor': 1, 'use_token_averaged_f0': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'f0max': 400, 'f0min': 80}, pitch_normalize=None, pitch_normalize_conf={}, pretrain_path=None, print_config=False, required=['output_dir', 'token_list'], resume=False, scheduler='exponentiallr', scheduler2='exponentiallr', scheduler2_conf={'gamma': 0.999875}, scheduler_conf={'gamma': 0.999875}, seed=777, sharded_ddp=False, sort_batch='descending', sort_in_batch='descending', token_list=['<blank>', '<unk>', 'o', 'a', 'u', 'i', 'e', 'k', 'r', 't', 'n', 'pau', 'N', 's', 'sh', 'd', 'm', 'g', 'w', 'b', 'cl', 'I', 'j', 'ch', 'y', 'U', 'h', 'p', 'ts', 'f', 'z', 'ky', 'ny', 'gy', 'ry', 'hy', 'my', 'by', 'py', 'v', '<sos/eos>'], token_type='phn', train_data_path_and_name_and_type=[('dump/raw/jvs010_tr_no_dev/text', 'text', 'text'), ('dump/raw/jvs010_tr_no_dev/wav.scp', 'speech', 'sound')], train_dtype='float32', train_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.4.scp'], tts='jets', tts_conf={'generator_type': 'jets_generator', 'generator_params': {'adim': 256, 'aheads': 2, 'elayers': 4, 'eunits': 1024, 'dlayers': 4, 'dunits': 1024, 'positionwise_layer_type': 'conv1d', 'positionwise_conv_kernel_size': 3, 'duration_predictor_layers': 2, 'duration_predictor_chans': 256, 'duration_predictor_kernel_size': 3, 'use_masking': True, 'encoder_normalize_before': True, 'decoder_normalize_before': True, 'encoder_type': 'transformer', 'decoder_type': 'transformer', 'conformer_rel_pos_type': 'latest', 'conformer_pos_enc_layer_type': 'rel_pos', 'conformer_self_attn_layer_type': 'rel_selfattn', 'conformer_activation_type': 'swish', 'use_macaron_style_in_conformer': True, 'use_cnn_in_conformer': True, 'conformer_enc_kernel_size': 7, 'conformer_dec_kernel_size': 31, 'init_type': 'xavier_uniform', 'transformer_enc_dropout_rate': 0.2, 'transformer_enc_positional_dropout_rate': 0.2, 'transformer_enc_attn_dropout_rate': 0.2, 'transformer_dec_dropout_rate': 0.2, 'transformer_dec_positional_dropout_rate': 0.2, 'transformer_dec_attn_dropout_rate': 0.2, 'pitch_predictor_layers': 5, 'pitch_predictor_chans': 256, 'pitch_predictor_kernel_size': 5, 'pitch_predictor_dropout': 0.5, 'pitch_embed_kernel_size': 1, 'pitch_embed_dropout': 0.0, 'stop_gradient_from_pitch_predictor': True, 'energy_predictor_layers': 2, 'energy_predictor_chans': 256, 'energy_predictor_kernel_size': 3, 'energy_predictor_dropout': 0.5, 'energy_embed_kernel_size': 1, 'energy_embed_dropout': 0.0, 'stop_gradient_from_energy_predictor': False, 'generator_out_channels': 1, 'generator_channels': 512, 'generator_global_channels': -1, 'generator_kernel_size': 7, 'generator_upsample_scales': [8, 8, 2, 2], 'generator_upsample_kernel_sizes': [16, 16, 4, 4], 'generator_resblock_kernel_sizes': [3, 7, 11], 'generator_resblock_dilations': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'generator_use_additional_convs': True, 'generator_bias': True, 'generator_nonlinear_activation': 'LeakyReLU', 'generator_nonlinear_activation_params': {'negative_slope': 0.1}, 'generator_use_weight_norm': True, 'segment_size': 64, 'idim': 41, 'odim': 80}, 'discriminator_type': 'hifigan_multi_scale_multi_period_discriminator', 'discriminator_params': {'scales': 1, 'scale_downsample_pooling': 'AvgPool1d', 'scale_downsample_pooling_params': {'kernel_size': 4, 'stride': 2, 'padding': 2}, 'scale_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [15, 41, 5, 3], 'channels': 128, 'max_downsample_channels': 1024, 'max_groups': 16, 'bias': True, 'downsample_scales': [2, 2, 4, 4, 1], 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}, 'follow_official_norm': False, 'periods': [2, 3, 5, 7, 11], 'period_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [5, 3], 'channels': 32, 'downsample_scales': [3, 3, 3, 3, 1], 'max_downsample_channels': 1024, 'bias': True, 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}}, 'generator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'discriminator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'feat_match_loss_params': {'average_by_discriminators': False, 'average_by_layers': False, 'include_final_outputs': True}, 'mel_loss_params': {'fs': 24000, 'n_fft': 1024, 'hop_length': 256, 'win_length': None, 'window': 'hann', 'n_mels': 80, 'fmin': 0, 'fmax': None, 'log_base': None}, 'lambda_adv': 1.0, 'lambda_mel': 45.0, 'lambda_feat_match': 2.0, 'lambda_var': 1.0, 'lambda_align': 2.0, 'sampling_rate': 24000, 'cache_generator_outputs': True}, unused_parameters=True, use_amp=False, use_matplotlib=True, use_preprocessor=True, use_tensorboard=True, use_wandb=False, val_scheduler_criterion=('valid', 'loss'), valid_batch_bins=None, valid_batch_size=None, valid_batch_type=None, valid_data_path_and_name_and_type=[('dump/raw/jvs010_dev/text', 'text', 'text'), ('dump/raw/jvs010_dev/wav.scp', 'speech', 'sound')], valid_max_cache_size=None, valid_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.4.scp'], version='202204', wandb_entity=None, wandb_id=None, wandb_model_log_interval=-1, wandb_name=None, wandb_project=None, write_collected_feats=False)
 /work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
   olens = (ilens - self.n_fft) // self.hop_length + 1
-# Accounting: time=11 threads=1
-# Ended (code 0) at Tue Mar  4 21:23:37 JST 2025, elapsed time 11 seconds

 # python3 -m espnet2.bin.gan_tts_train --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.4.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.4.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.4 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
+# Started at Tue Mar  4 22:09:35 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.4.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.4.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.4 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
+[92b100c97f43] 2025-03-04 22:09:38,646 (gan_tts:304) INFO: Vocabulary size: 41
+[92b100c97f43] 2025-03-04 22:09:38,867 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43] 2025-03-04 22:09:38,988 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43] 2025-03-04 22:09:41,192 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
+[92b100c97f43] 2025-03-04 22:09:41,203 (abs_task:1158) INFO: Model structure:
 ESPnetGANTTSModel(
   (feats_extract): LogMelFbank(
     (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
     Number of trainable parameters: 83.28 M (100.0%)
     Size: 333.11 MB
     Type: torch.float32
+[92b100c97f43] 2025-03-04 22:09:41,203 (abs_task:1161) INFO: Optimizer:
 AdamW (
 Parameter Group 0
     amsgrad: False
     lr: 0.0002
     weight_decay: 0.0
 )
+[92b100c97f43] 2025-03-04 22:09:41,203 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7fb42810e040>
+[92b100c97f43] 2025-03-04 22:09:41,203 (abs_task:1161) INFO: Optimizer2:
 AdamW (
 Parameter Group 0
     amsgrad: False
     lr: 0.0002
     weight_decay: 0.0
 )
+[92b100c97f43] 2025-03-04 22:09:41,203 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7fb4442b9280>
+[92b100c97f43] 2025-03-04 22:09:41,203 (abs_task:1171) INFO: Saving the configuration in exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.4/config.yaml
+[92b100c97f43] 2025-03-04 22:09:41,222 (abs_task:1182) INFO: Namespace(accum_grad=1, allow_variable_data_keys=False, batch_bins=6000000, batch_size=20, batch_type='numel', best_model_criterion=[['valid', 'text2mel_loss', 'min'], ['train', 'text2mel_loss', 'min'], ['train', 'total_count', 'max']], bpemodel=None, chunk_length=500, chunk_shift_ratio=0.5, cleaner='jaconv', collect_stats=True, config='conf/tuning/train_jets.yaml', cudnn_benchmark=False, cudnn_deterministic=False, cudnn_enabled=True, detect_anomaly=False, dist_backend='nccl', dist_init_method='env://', dist_launcher=None, dist_master_addr=None, dist_master_port=None, dist_rank=None, dist_world_size=None, distributed=False, dry_run=False, early_stopping_criterion=('valid', 'loss', 'min'), energy_extract='energy', energy_extract_conf={'reduction_factor': 1, 'use_token_averaged_energy': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'win_length': 1200}, energy_normalize=None, energy_normalize_conf={}, feats_extract='fbank', feats_extract_conf={'n_fft': 2048, 'hop_length': 300, 'win_length': 1200, 'fs': 24000, 'fmin': 80, 'fmax': 7600, 'n_mels': 80}, fold_length=[], freeze_param=[], g2p='pyopenjtalk', generator_first=True, grad_clip=-1, grad_clip_type=2.0, grad_noise=False, ignore_init_mismatch=False, init_param=[], iterator_type='sequence', keep_nbest_models=-1, local_rank=None, log_interval=50, log_level='INFO', max_cache_fd=32, max_cache_size=0.0, max_epoch=130, model_conf={}, multiple_iterator=False, multiprocessing_distributed=False, nbest_averaging_interval=0, ngpu=0, no_forward_run=False, non_linguistic_symbols=None, normalize=None, normalize_conf={}, num_att_plot=3, num_cache_chunks=1024, num_iters_per_epoch=1000, num_workers=32, odim=None, optim='adamw', optim2='adamw', optim2_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, optim_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, output_dir='exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.4', patience=None, pitch_extract='dio', pitch_extract_conf={'reduction_factor': 1, 'use_token_averaged_f0': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'f0max': 400, 'f0min': 80}, pitch_normalize=None, pitch_normalize_conf={}, pretrain_path=None, print_config=False, required=['output_dir', 'token_list'], resume=False, scheduler='exponentiallr', scheduler2='exponentiallr', scheduler2_conf={'gamma': 0.999875}, scheduler_conf={'gamma': 0.999875}, seed=777, sharded_ddp=False, sort_batch='descending', sort_in_batch='descending', token_list=['<blank>', '<unk>', 'o', 'a', 'u', 'i', 'e', 'k', 'r', 't', 'n', 'pau', 'N', 's', 'sh', 'd', 'm', 'g', 'w', 'b', 'cl', 'I', 'j', 'ch', 'y', 'U', 'h', 'p', 'ts', 'f', 'z', 'ky', 'ny', 'gy', 'ry', 'hy', 'my', 'by', 'py', 'v', '<sos/eos>'], token_type='phn', train_data_path_and_name_and_type=[('dump/raw/jvs010_tr_no_dev/text', 'text', 'text'), ('dump/raw/jvs010_tr_no_dev/wav.scp', 'speech', 'sound')], train_dtype='float32', train_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.4.scp'], tts='jets', tts_conf={'generator_type': 'jets_generator', 'generator_params': {'adim': 256, 'aheads': 2, 'elayers': 4, 'eunits': 1024, 'dlayers': 4, 'dunits': 1024, 'positionwise_layer_type': 'conv1d', 'positionwise_conv_kernel_size': 3, 'duration_predictor_layers': 2, 'duration_predictor_chans': 256, 'duration_predictor_kernel_size': 3, 'use_masking': True, 'encoder_normalize_before': True, 'decoder_normalize_before': True, 'encoder_type': 'transformer', 'decoder_type': 'transformer', 'conformer_rel_pos_type': 'latest', 'conformer_pos_enc_layer_type': 'rel_pos', 'conformer_self_attn_layer_type': 'rel_selfattn', 'conformer_activation_type': 'swish', 'use_macaron_style_in_conformer': True, 'use_cnn_in_conformer': True, 'conformer_enc_kernel_size': 7, 'conformer_dec_kernel_size': 31, 'init_type': 'xavier_uniform', 'transformer_enc_dropout_rate': 0.2, 'transformer_enc_positional_dropout_rate': 0.2, 'transformer_enc_attn_dropout_rate': 0.2, 'transformer_dec_dropout_rate': 0.2, 'transformer_dec_positional_dropout_rate': 0.2, 'transformer_dec_attn_dropout_rate': 0.2, 'pitch_predictor_layers': 5, 'pitch_predictor_chans': 256, 'pitch_predictor_kernel_size': 5, 'pitch_predictor_dropout': 0.5, 'pitch_embed_kernel_size': 1, 'pitch_embed_dropout': 0.0, 'stop_gradient_from_pitch_predictor': True, 'energy_predictor_layers': 2, 'energy_predictor_chans': 256, 'energy_predictor_kernel_size': 3, 'energy_predictor_dropout': 0.5, 'energy_embed_kernel_size': 1, 'energy_embed_dropout': 0.0, 'stop_gradient_from_energy_predictor': False, 'generator_out_channels': 1, 'generator_channels': 512, 'generator_global_channels': -1, 'generator_kernel_size': 7, 'generator_upsample_scales': [8, 8, 2, 2], 'generator_upsample_kernel_sizes': [16, 16, 4, 4], 'generator_resblock_kernel_sizes': [3, 7, 11], 'generator_resblock_dilations': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'generator_use_additional_convs': True, 'generator_bias': True, 'generator_nonlinear_activation': 'LeakyReLU', 'generator_nonlinear_activation_params': {'negative_slope': 0.1}, 'generator_use_weight_norm': True, 'segment_size': 64, 'idim': 41, 'odim': 80}, 'discriminator_type': 'hifigan_multi_scale_multi_period_discriminator', 'discriminator_params': {'scales': 1, 'scale_downsample_pooling': 'AvgPool1d', 'scale_downsample_pooling_params': {'kernel_size': 4, 'stride': 2, 'padding': 2}, 'scale_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [15, 41, 5, 3], 'channels': 128, 'max_downsample_channels': 1024, 'max_groups': 16, 'bias': True, 'downsample_scales': [2, 2, 4, 4, 1], 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}, 'follow_official_norm': False, 'periods': [2, 3, 5, 7, 11], 'period_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [5, 3], 'channels': 32, 'downsample_scales': [3, 3, 3, 3, 1], 'max_downsample_channels': 1024, 'bias': True, 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}}, 'generator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'discriminator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'feat_match_loss_params': {'average_by_discriminators': False, 'average_by_layers': False, 'include_final_outputs': True}, 'mel_loss_params': {'fs': 24000, 'n_fft': 1024, 'hop_length': 256, 'win_length': None, 'window': 'hann', 'n_mels': 80, 'fmin': 0, 'fmax': None, 'log_base': None}, 'lambda_adv': 1.0, 'lambda_mel': 45.0, 'lambda_feat_match': 2.0, 'lambda_var': 1.0, 'lambda_align': 2.0, 'sampling_rate': 24000, 'cache_generator_outputs': True}, unused_parameters=True, use_amp=False, use_matplotlib=True, use_preprocessor=True, use_tensorboard=True, use_wandb=False, val_scheduler_criterion=('valid', 'loss'), valid_batch_bins=None, valid_batch_size=None, valid_batch_type=None, valid_data_path_and_name_and_type=[('dump/raw/jvs010_dev/text', 'text', 'text'), ('dump/raw/jvs010_dev/wav.scp', 'speech', 'sound')], valid_max_cache_size=None, valid_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.4.scp'], version='202204', wandb_entity=None, wandb_id=None, wandb_model_log_interval=-1, wandb_name=None, wandb_project=None, write_collected_feats=False)
 /work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
   olens = (ilens - self.n_fft) // self.hop_length + 1
+# Accounting: time=15 threads=1
+# Ended (code 0) at Tue Mar  4 22:09:50 JST 2025, elapsed time 15 seconds

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.4/config.yaml CHANGED Viewed

@@ -6,7 +6,7 @@ iterator_type: sequence
 output_dir: exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.4
 ngpu: 0
 seed: 777
-num_workers: 16
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://

 output_dir: exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.4
 ngpu: 0
 seed: 777
+num_workers: 32
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.5.log CHANGED Viewed

@@ -1,14 +1,14 @@
 # python3 -m espnet2.bin.gan_tts_train --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.5.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.5.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.5 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
-# Started at Tue Mar  4 21:23:26 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.5.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.5.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.5 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
-[92b100c97f43] 2025-03-04 21:23:29,162 (gan_tts:304) INFO: Vocabulary size: 41
-[92b100c97f43] 2025-03-04 21:23:29,385 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43] 2025-03-04 21:23:29,507 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43] 2025-03-04 21:23:31,547 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
-[92b100c97f43] 2025-03-04 21:23:31,558 (abs_task:1158) INFO: Model structure:
 ESPnetGANTTSModel(
   (feats_extract): LogMelFbank(
     (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
@@ -844,7 +844,7 @@ Model summary:
     Number of trainable parameters: 83.28 M (100.0%)
     Size: 333.11 MB
     Type: torch.float32
-[92b100c97f43] 2025-03-04 21:23:31,558 (abs_task:1161) INFO: Optimizer:
 AdamW (
 Parameter Group 0
     amsgrad: False
@@ -854,8 +854,8 @@ Parameter Group 0
     lr: 0.0002
     weight_decay: 0.0
 )
-[92b100c97f43] 2025-03-04 21:23:31,558 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7fd4c5ad51c0>
-[92b100c97f43] 2025-03-04 21:23:31,558 (abs_task:1161) INFO: Optimizer2:
 AdamW (
 Parameter Group 0
     amsgrad: False
@@ -865,10 +865,10 @@ Parameter Group 0
     lr: 0.0002
     weight_decay: 0.0
 )
-[92b100c97f43] 2025-03-04 21:23:31,558 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7fd4d49fa280>
-[92b100c97f43] 2025-03-04 21:23:31,558 (abs_task:1171) INFO: Saving the configuration in exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.5/config.yaml
-[92b100c97f43] 2025-03-04 21:23:31,577 (abs_task:1182) INFO: Namespace(accum_grad=1, allow_variable_data_keys=False, batch_bins=6000000, batch_size=20, batch_type='numel', best_model_criterion=[['valid', 'text2mel_loss', 'min'], ['train', 'text2mel_loss', 'min'], ['train', 'total_count', 'max']], bpemodel=None, chunk_length=500, chunk_shift_ratio=0.5, cleaner='jaconv', collect_stats=True, config='conf/tuning/train_jets.yaml', cudnn_benchmark=False, cudnn_deterministic=False, cudnn_enabled=True, detect_anomaly=False, dist_backend='nccl', dist_init_method='env://', dist_launcher=None, dist_master_addr=None, dist_master_port=None, dist_rank=None, dist_world_size=None, distributed=False, dry_run=False, early_stopping_criterion=('valid', 'loss', 'min'), energy_extract='energy', energy_extract_conf={'reduction_factor': 1, 'use_token_averaged_energy': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'win_length': 1200}, energy_normalize=None, energy_normalize_conf={}, feats_extract='fbank', feats_extract_conf={'n_fft': 2048, 'hop_length': 300, 'win_length': 1200, 'fs': 24000, 'fmin': 80, 'fmax': 7600, 'n_mels': 80}, fold_length=[], freeze_param=[], g2p='pyopenjtalk', generator_first=True, grad_clip=-1, grad_clip_type=2.0, grad_noise=False, ignore_init_mismatch=False, init_param=[], iterator_type='sequence', keep_nbest_models=-1, local_rank=None, log_interval=50, log_level='INFO', max_cache_fd=32, max_cache_size=0.0, max_epoch=130, model_conf={}, multiple_iterator=False, multiprocessing_distributed=False, nbest_averaging_interval=0, ngpu=0, no_forward_run=False, non_linguistic_symbols=None, normalize=None, normalize_conf={}, num_att_plot=3, num_cache_chunks=1024, num_iters_per_epoch=1000, num_workers=16, odim=None, optim='adamw', optim2='adamw', optim2_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, optim_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, output_dir='exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.5', patience=None, pitch_extract='dio', pitch_extract_conf={'reduction_factor': 1, 'use_token_averaged_f0': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'f0max': 400, 'f0min': 80}, pitch_normalize=None, pitch_normalize_conf={}, pretrain_path=None, print_config=False, required=['output_dir', 'token_list'], resume=False, scheduler='exponentiallr', scheduler2='exponentiallr', scheduler2_conf={'gamma': 0.999875}, scheduler_conf={'gamma': 0.999875}, seed=777, sharded_ddp=False, sort_batch='descending', sort_in_batch='descending', token_list=['<blank>', '<unk>', 'o', 'a', 'u', 'i', 'e', 'k', 'r', 't', 'n', 'pau', 'N', 's', 'sh', 'd', 'm', 'g', 'w', 'b', 'cl', 'I', 'j', 'ch', 'y', 'U', 'h', 'p', 'ts', 'f', 'z', 'ky', 'ny', 'gy', 'ry', 'hy', 'my', 'by', 'py', 'v', '<sos/eos>'], token_type='phn', train_data_path_and_name_and_type=[('dump/raw/jvs010_tr_no_dev/text', 'text', 'text'), ('dump/raw/jvs010_tr_no_dev/wav.scp', 'speech', 'sound')], train_dtype='float32', train_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.5.scp'], tts='jets', tts_conf={'generator_type': 'jets_generator', 'generator_params': {'adim': 256, 'aheads': 2, 'elayers': 4, 'eunits': 1024, 'dlayers': 4, 'dunits': 1024, 'positionwise_layer_type': 'conv1d', 'positionwise_conv_kernel_size': 3, 'duration_predictor_layers': 2, 'duration_predictor_chans': 256, 'duration_predictor_kernel_size': 3, 'use_masking': True, 'encoder_normalize_before': True, 'decoder_normalize_before': True, 'encoder_type': 'transformer', 'decoder_type': 'transformer', 'conformer_rel_pos_type': 'latest', 'conformer_pos_enc_layer_type': 'rel_pos', 'conformer_self_attn_layer_type': 'rel_selfattn', 'conformer_activation_type': 'swish', 'use_macaron_style_in_conformer': True, 'use_cnn_in_conformer': True, 'conformer_enc_kernel_size': 7, 'conformer_dec_kernel_size': 31, 'init_type': 'xavier_uniform', 'transformer_enc_dropout_rate': 0.2, 'transformer_enc_positional_dropout_rate': 0.2, 'transformer_enc_attn_dropout_rate': 0.2, 'transformer_dec_dropout_rate': 0.2, 'transformer_dec_positional_dropout_rate': 0.2, 'transformer_dec_attn_dropout_rate': 0.2, 'pitch_predictor_layers': 5, 'pitch_predictor_chans': 256, 'pitch_predictor_kernel_size': 5, 'pitch_predictor_dropout': 0.5, 'pitch_embed_kernel_size': 1, 'pitch_embed_dropout': 0.0, 'stop_gradient_from_pitch_predictor': True, 'energy_predictor_layers': 2, 'energy_predictor_chans': 256, 'energy_predictor_kernel_size': 3, 'energy_predictor_dropout': 0.5, 'energy_embed_kernel_size': 1, 'energy_embed_dropout': 0.0, 'stop_gradient_from_energy_predictor': False, 'generator_out_channels': 1, 'generator_channels': 512, 'generator_global_channels': -1, 'generator_kernel_size': 7, 'generator_upsample_scales': [8, 8, 2, 2], 'generator_upsample_kernel_sizes': [16, 16, 4, 4], 'generator_resblock_kernel_sizes': [3, 7, 11], 'generator_resblock_dilations': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'generator_use_additional_convs': True, 'generator_bias': True, 'generator_nonlinear_activation': 'LeakyReLU', 'generator_nonlinear_activation_params': {'negative_slope': 0.1}, 'generator_use_weight_norm': True, 'segment_size': 64, 'idim': 41, 'odim': 80}, 'discriminator_type': 'hifigan_multi_scale_multi_period_discriminator', 'discriminator_params': {'scales': 1, 'scale_downsample_pooling': 'AvgPool1d', 'scale_downsample_pooling_params': {'kernel_size': 4, 'stride': 2, 'padding': 2}, 'scale_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [15, 41, 5, 3], 'channels': 128, 'max_downsample_channels': 1024, 'max_groups': 16, 'bias': True, 'downsample_scales': [2, 2, 4, 4, 1], 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}, 'follow_official_norm': False, 'periods': [2, 3, 5, 7, 11], 'period_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [5, 3], 'channels': 32, 'downsample_scales': [3, 3, 3, 3, 1], 'max_downsample_channels': 1024, 'bias': True, 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}}, 'generator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'discriminator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'feat_match_loss_params': {'average_by_discriminators': False, 'average_by_layers': False, 'include_final_outputs': True}, 'mel_loss_params': {'fs': 24000, 'n_fft': 1024, 'hop_length': 256, 'win_length': None, 'window': 'hann', 'n_mels': 80, 'fmin': 0, 'fmax': None, 'log_base': None}, 'lambda_adv': 1.0, 'lambda_mel': 45.0, 'lambda_feat_match': 2.0, 'lambda_var': 1.0, 'lambda_align': 2.0, 'sampling_rate': 24000, 'cache_generator_outputs': True}, unused_parameters=True, use_amp=False, use_matplotlib=True, use_preprocessor=True, use_tensorboard=True, use_wandb=False, val_scheduler_criterion=('valid', 'loss'), valid_batch_bins=None, valid_batch_size=None, valid_batch_type=None, valid_data_path_and_name_and_type=[('dump/raw/jvs010_dev/text', 'text', 'text'), ('dump/raw/jvs010_dev/wav.scp', 'speech', 'sound')], valid_max_cache_size=None, valid_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.5.scp'], version='202204', wandb_entity=None, wandb_id=None, wandb_model_log_interval=-1, wandb_name=None, wandb_project=None, write_collected_feats=False)
 /work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
   olens = (ilens - self.n_fft) // self.hop_length + 1
-# Accounting: time=11 threads=1
-# Ended (code 0) at Tue Mar  4 21:23:37 JST 2025, elapsed time 11 seconds

 # python3 -m espnet2.bin.gan_tts_train --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.5.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.5.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.5 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
+# Started at Tue Mar  4 22:09:35 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.5.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.5.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.5 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
+[92b100c97f43] 2025-03-04 22:09:38,637 (gan_tts:304) INFO: Vocabulary size: 41
+[92b100c97f43] 2025-03-04 22:09:38,858 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43] 2025-03-04 22:09:38,979 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43] 2025-03-04 22:09:41,208 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
+[92b100c97f43] 2025-03-04 22:09:41,219 (abs_task:1158) INFO: Model structure:
 ESPnetGANTTSModel(
   (feats_extract): LogMelFbank(
     (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
     Number of trainable parameters: 83.28 M (100.0%)
     Size: 333.11 MB
     Type: torch.float32
+[92b100c97f43] 2025-03-04 22:09:41,219 (abs_task:1161) INFO: Optimizer:
 AdamW (
 Parameter Group 0
     amsgrad: False
     lr: 0.0002
     weight_decay: 0.0
 )
+[92b100c97f43] 2025-03-04 22:09:41,219 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f900e5431c0>
+[92b100c97f43] 2025-03-04 22:09:41,219 (abs_task:1161) INFO: Optimizer2:
 AdamW (
 Parameter Group 0
     amsgrad: False
     lr: 0.0002
     weight_decay: 0.0
 )
+[92b100c97f43] 2025-03-04 22:09:41,219 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f901d469280>
+[92b100c97f43] 2025-03-04 22:09:41,219 (abs_task:1171) INFO: Saving the configuration in exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.5/config.yaml
+[92b100c97f43] 2025-03-04 22:09:41,238 (abs_task:1182) INFO: Namespace(accum_grad=1, allow_variable_data_keys=False, batch_bins=6000000, batch_size=20, batch_type='numel', best_model_criterion=[['valid', 'text2mel_loss', 'min'], ['train', 'text2mel_loss', 'min'], ['train', 'total_count', 'max']], bpemodel=None, chunk_length=500, chunk_shift_ratio=0.5, cleaner='jaconv', collect_stats=True, config='conf/tuning/train_jets.yaml', cudnn_benchmark=False, cudnn_deterministic=False, cudnn_enabled=True, detect_anomaly=False, dist_backend='nccl', dist_init_method='env://', dist_launcher=None, dist_master_addr=None, dist_master_port=None, dist_rank=None, dist_world_size=None, distributed=False, dry_run=False, early_stopping_criterion=('valid', 'loss', 'min'), energy_extract='energy', energy_extract_conf={'reduction_factor': 1, 'use_token_averaged_energy': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'win_length': 1200}, energy_normalize=None, energy_normalize_conf={}, feats_extract='fbank', feats_extract_conf={'n_fft': 2048, 'hop_length': 300, 'win_length': 1200, 'fs': 24000, 'fmin': 80, 'fmax': 7600, 'n_mels': 80}, fold_length=[], freeze_param=[], g2p='pyopenjtalk', generator_first=True, grad_clip=-1, grad_clip_type=2.0, grad_noise=False, ignore_init_mismatch=False, init_param=[], iterator_type='sequence', keep_nbest_models=-1, local_rank=None, log_interval=50, log_level='INFO', max_cache_fd=32, max_cache_size=0.0, max_epoch=130, model_conf={}, multiple_iterator=False, multiprocessing_distributed=False, nbest_averaging_interval=0, ngpu=0, no_forward_run=False, non_linguistic_symbols=None, normalize=None, normalize_conf={}, num_att_plot=3, num_cache_chunks=1024, num_iters_per_epoch=1000, num_workers=32, odim=None, optim='adamw', optim2='adamw', optim2_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, optim_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, output_dir='exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.5', patience=None, pitch_extract='dio', pitch_extract_conf={'reduction_factor': 1, 'use_token_averaged_f0': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'f0max': 400, 'f0min': 80}, pitch_normalize=None, pitch_normalize_conf={}, pretrain_path=None, print_config=False, required=['output_dir', 'token_list'], resume=False, scheduler='exponentiallr', scheduler2='exponentiallr', scheduler2_conf={'gamma': 0.999875}, scheduler_conf={'gamma': 0.999875}, seed=777, sharded_ddp=False, sort_batch='descending', sort_in_batch='descending', token_list=['<blank>', '<unk>', 'o', 'a', 'u', 'i', 'e', 'k', 'r', 't', 'n', 'pau', 'N', 's', 'sh', 'd', 'm', 'g', 'w', 'b', 'cl', 'I', 'j', 'ch', 'y', 'U', 'h', 'p', 'ts', 'f', 'z', 'ky', 'ny', 'gy', 'ry', 'hy', 'my', 'by', 'py', 'v', '<sos/eos>'], token_type='phn', train_data_path_and_name_and_type=[('dump/raw/jvs010_tr_no_dev/text', 'text', 'text'), ('dump/raw/jvs010_tr_no_dev/wav.scp', 'speech', 'sound')], train_dtype='float32', train_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.5.scp'], tts='jets', tts_conf={'generator_type': 'jets_generator', 'generator_params': {'adim': 256, 'aheads': 2, 'elayers': 4, 'eunits': 1024, 'dlayers': 4, 'dunits': 1024, 'positionwise_layer_type': 'conv1d', 'positionwise_conv_kernel_size': 3, 'duration_predictor_layers': 2, 'duration_predictor_chans': 256, 'duration_predictor_kernel_size': 3, 'use_masking': True, 'encoder_normalize_before': True, 'decoder_normalize_before': True, 'encoder_type': 'transformer', 'decoder_type': 'transformer', 'conformer_rel_pos_type': 'latest', 'conformer_pos_enc_layer_type': 'rel_pos', 'conformer_self_attn_layer_type': 'rel_selfattn', 'conformer_activation_type': 'swish', 'use_macaron_style_in_conformer': True, 'use_cnn_in_conformer': True, 'conformer_enc_kernel_size': 7, 'conformer_dec_kernel_size': 31, 'init_type': 'xavier_uniform', 'transformer_enc_dropout_rate': 0.2, 'transformer_enc_positional_dropout_rate': 0.2, 'transformer_enc_attn_dropout_rate': 0.2, 'transformer_dec_dropout_rate': 0.2, 'transformer_dec_positional_dropout_rate': 0.2, 'transformer_dec_attn_dropout_rate': 0.2, 'pitch_predictor_layers': 5, 'pitch_predictor_chans': 256, 'pitch_predictor_kernel_size': 5, 'pitch_predictor_dropout': 0.5, 'pitch_embed_kernel_size': 1, 'pitch_embed_dropout': 0.0, 'stop_gradient_from_pitch_predictor': True, 'energy_predictor_layers': 2, 'energy_predictor_chans': 256, 'energy_predictor_kernel_size': 3, 'energy_predictor_dropout': 0.5, 'energy_embed_kernel_size': 1, 'energy_embed_dropout': 0.0, 'stop_gradient_from_energy_predictor': False, 'generator_out_channels': 1, 'generator_channels': 512, 'generator_global_channels': -1, 'generator_kernel_size': 7, 'generator_upsample_scales': [8, 8, 2, 2], 'generator_upsample_kernel_sizes': [16, 16, 4, 4], 'generator_resblock_kernel_sizes': [3, 7, 11], 'generator_resblock_dilations': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'generator_use_additional_convs': True, 'generator_bias': True, 'generator_nonlinear_activation': 'LeakyReLU', 'generator_nonlinear_activation_params': {'negative_slope': 0.1}, 'generator_use_weight_norm': True, 'segment_size': 64, 'idim': 41, 'odim': 80}, 'discriminator_type': 'hifigan_multi_scale_multi_period_discriminator', 'discriminator_params': {'scales': 1, 'scale_downsample_pooling': 'AvgPool1d', 'scale_downsample_pooling_params': {'kernel_size': 4, 'stride': 2, 'padding': 2}, 'scale_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [15, 41, 5, 3], 'channels': 128, 'max_downsample_channels': 1024, 'max_groups': 16, 'bias': True, 'downsample_scales': [2, 2, 4, 4, 1], 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}, 'follow_official_norm': False, 'periods': [2, 3, 5, 7, 11], 'period_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [5, 3], 'channels': 32, 'downsample_scales': [3, 3, 3, 3, 1], 'max_downsample_channels': 1024, 'bias': True, 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}}, 'generator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'discriminator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'feat_match_loss_params': {'average_by_discriminators': False, 'average_by_layers': False, 'include_final_outputs': True}, 'mel_loss_params': {'fs': 24000, 'n_fft': 1024, 'hop_length': 256, 'win_length': None, 'window': 'hann', 'n_mels': 80, 'fmin': 0, 'fmax': None, 'log_base': None}, 'lambda_adv': 1.0, 'lambda_mel': 45.0, 'lambda_feat_match': 2.0, 'lambda_var': 1.0, 'lambda_align': 2.0, 'sampling_rate': 24000, 'cache_generator_outputs': True}, unused_parameters=True, use_amp=False, use_matplotlib=True, use_preprocessor=True, use_tensorboard=True, use_wandb=False, val_scheduler_criterion=('valid', 'loss'), valid_batch_bins=None, valid_batch_size=None, valid_batch_type=None, valid_data_path_and_name_and_type=[('dump/raw/jvs010_dev/text', 'text', 'text'), ('dump/raw/jvs010_dev/wav.scp', 'speech', 'sound')], valid_max_cache_size=None, valid_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.5.scp'], version='202204', wandb_entity=None, wandb_id=None, wandb_model_log_interval=-1, wandb_name=None, wandb_project=None, write_collected_feats=False)
 /work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
   olens = (ilens - self.n_fft) // self.hop_length + 1
+# Accounting: time=15 threads=1
+# Ended (code 0) at Tue Mar  4 22:09:50 JST 2025, elapsed time 15 seconds

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.5/config.yaml CHANGED Viewed

@@ -6,7 +6,7 @@ iterator_type: sequence
 output_dir: exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.5
 ngpu: 0
 seed: 777
-num_workers: 16
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://

 output_dir: exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.5
 ngpu: 0
 seed: 777
+num_workers: 32
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.6.log CHANGED Viewed

@@ -1,14 +1,14 @@
 # python3 -m espnet2.bin.gan_tts_train --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.6.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.6.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.6 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
-# Started at Tue Mar  4 21:23:26 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.6.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.6.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.6 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
-[92b100c97f43] 2025-03-04 21:23:29,162 (gan_tts:304) INFO: Vocabulary size: 41
-[92b100c97f43] 2025-03-04 21:23:29,383 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43] 2025-03-04 21:23:29,505 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43] 2025-03-04 21:23:31,676 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
-[92b100c97f43] 2025-03-04 21:23:31,687 (abs_task:1158) INFO: Model structure:
 ESPnetGANTTSModel(
   (feats_extract): LogMelFbank(
     (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
@@ -844,7 +844,7 @@ Model summary:
     Number of trainable parameters: 83.28 M (100.0%)
     Size: 333.11 MB
     Type: torch.float32
-[92b100c97f43] 2025-03-04 21:23:31,687 (abs_task:1161) INFO: Optimizer:
 AdamW (
 Parameter Group 0
     amsgrad: False
@@ -854,8 +854,8 @@ Parameter Group 0
     lr: 0.0002
     weight_decay: 0.0
 )
-[92b100c97f43] 2025-03-04 21:23:31,687 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f678ea391c0>
-[92b100c97f43] 2025-03-04 21:23:31,687 (abs_task:1161) INFO: Optimizer2:
 AdamW (
 Parameter Group 0
     amsgrad: False
@@ -865,10 +865,10 @@ Parameter Group 0
     lr: 0.0002
     weight_decay: 0.0
 )
-[92b100c97f43] 2025-03-04 21:23:31,687 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f679d95f280>
-[92b100c97f43] 2025-03-04 21:23:31,687 (abs_task:1171) INFO: Saving the configuration in exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.6/config.yaml
-[92b100c97f43] 2025-03-04 21:23:31,706 (abs_task:1182) INFO: Namespace(accum_grad=1, allow_variable_data_keys=False, batch_bins=6000000, batch_size=20, batch_type='numel', best_model_criterion=[['valid', 'text2mel_loss', 'min'], ['train', 'text2mel_loss', 'min'], ['train', 'total_count', 'max']], bpemodel=None, chunk_length=500, chunk_shift_ratio=0.5, cleaner='jaconv', collect_stats=True, config='conf/tuning/train_jets.yaml', cudnn_benchmark=False, cudnn_deterministic=False, cudnn_enabled=True, detect_anomaly=False, dist_backend='nccl', dist_init_method='env://', dist_launcher=None, dist_master_addr=None, dist_master_port=None, dist_rank=None, dist_world_size=None, distributed=False, dry_run=False, early_stopping_criterion=('valid', 'loss', 'min'), energy_extract='energy', energy_extract_conf={'reduction_factor': 1, 'use_token_averaged_energy': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'win_length': 1200}, energy_normalize=None, energy_normalize_conf={}, feats_extract='fbank', feats_extract_conf={'n_fft': 2048, 'hop_length': 300, 'win_length': 1200, 'fs': 24000, 'fmin': 80, 'fmax': 7600, 'n_mels': 80}, fold_length=[], freeze_param=[], g2p='pyopenjtalk', generator_first=True, grad_clip=-1, grad_clip_type=2.0, grad_noise=False, ignore_init_mismatch=False, init_param=[], iterator_type='sequence', keep_nbest_models=-1, local_rank=None, log_interval=50, log_level='INFO', max_cache_fd=32, max_cache_size=0.0, max_epoch=130, model_conf={}, multiple_iterator=False, multiprocessing_distributed=False, nbest_averaging_interval=0, ngpu=0, no_forward_run=False, non_linguistic_symbols=None, normalize=None, normalize_conf={}, num_att_plot=3, num_cache_chunks=1024, num_iters_per_epoch=1000, num_workers=16, odim=None, optim='adamw', optim2='adamw', optim2_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, optim_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, output_dir='exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.6', patience=None, pitch_extract='dio', pitch_extract_conf={'reduction_factor': 1, 'use_token_averaged_f0': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'f0max': 400, 'f0min': 80}, pitch_normalize=None, pitch_normalize_conf={}, pretrain_path=None, print_config=False, required=['output_dir', 'token_list'], resume=False, scheduler='exponentiallr', scheduler2='exponentiallr', scheduler2_conf={'gamma': 0.999875}, scheduler_conf={'gamma': 0.999875}, seed=777, sharded_ddp=False, sort_batch='descending', sort_in_batch='descending', token_list=['<blank>', '<unk>', 'o', 'a', 'u', 'i', 'e', 'k', 'r', 't', 'n', 'pau', 'N', 's', 'sh', 'd', 'm', 'g', 'w', 'b', 'cl', 'I', 'j', 'ch', 'y', 'U', 'h', 'p', 'ts', 'f', 'z', 'ky', 'ny', 'gy', 'ry', 'hy', 'my', 'by', 'py', 'v', '<sos/eos>'], token_type='phn', train_data_path_and_name_and_type=[('dump/raw/jvs010_tr_no_dev/text', 'text', 'text'), ('dump/raw/jvs010_tr_no_dev/wav.scp', 'speech', 'sound')], train_dtype='float32', train_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.6.scp'], tts='jets', tts_conf={'generator_type': 'jets_generator', 'generator_params': {'adim': 256, 'aheads': 2, 'elayers': 4, 'eunits': 1024, 'dlayers': 4, 'dunits': 1024, 'positionwise_layer_type': 'conv1d', 'positionwise_conv_kernel_size': 3, 'duration_predictor_layers': 2, 'duration_predictor_chans': 256, 'duration_predictor_kernel_size': 3, 'use_masking': True, 'encoder_normalize_before': True, 'decoder_normalize_before': True, 'encoder_type': 'transformer', 'decoder_type': 'transformer', 'conformer_rel_pos_type': 'latest', 'conformer_pos_enc_layer_type': 'rel_pos', 'conformer_self_attn_layer_type': 'rel_selfattn', 'conformer_activation_type': 'swish', 'use_macaron_style_in_conformer': True, 'use_cnn_in_conformer': True, 'conformer_enc_kernel_size': 7, 'conformer_dec_kernel_size': 31, 'init_type': 'xavier_uniform', 'transformer_enc_dropout_rate': 0.2, 'transformer_enc_positional_dropout_rate': 0.2, 'transformer_enc_attn_dropout_rate': 0.2, 'transformer_dec_dropout_rate': 0.2, 'transformer_dec_positional_dropout_rate': 0.2, 'transformer_dec_attn_dropout_rate': 0.2, 'pitch_predictor_layers': 5, 'pitch_predictor_chans': 256, 'pitch_predictor_kernel_size': 5, 'pitch_predictor_dropout': 0.5, 'pitch_embed_kernel_size': 1, 'pitch_embed_dropout': 0.0, 'stop_gradient_from_pitch_predictor': True, 'energy_predictor_layers': 2, 'energy_predictor_chans': 256, 'energy_predictor_kernel_size': 3, 'energy_predictor_dropout': 0.5, 'energy_embed_kernel_size': 1, 'energy_embed_dropout': 0.0, 'stop_gradient_from_energy_predictor': False, 'generator_out_channels': 1, 'generator_channels': 512, 'generator_global_channels': -1, 'generator_kernel_size': 7, 'generator_upsample_scales': [8, 8, 2, 2], 'generator_upsample_kernel_sizes': [16, 16, 4, 4], 'generator_resblock_kernel_sizes': [3, 7, 11], 'generator_resblock_dilations': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'generator_use_additional_convs': True, 'generator_bias': True, 'generator_nonlinear_activation': 'LeakyReLU', 'generator_nonlinear_activation_params': {'negative_slope': 0.1}, 'generator_use_weight_norm': True, 'segment_size': 64, 'idim': 41, 'odim': 80}, 'discriminator_type': 'hifigan_multi_scale_multi_period_discriminator', 'discriminator_params': {'scales': 1, 'scale_downsample_pooling': 'AvgPool1d', 'scale_downsample_pooling_params': {'kernel_size': 4, 'stride': 2, 'padding': 2}, 'scale_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [15, 41, 5, 3], 'channels': 128, 'max_downsample_channels': 1024, 'max_groups': 16, 'bias': True, 'downsample_scales': [2, 2, 4, 4, 1], 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}, 'follow_official_norm': False, 'periods': [2, 3, 5, 7, 11], 'period_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [5, 3], 'channels': 32, 'downsample_scales': [3, 3, 3, 3, 1], 'max_downsample_channels': 1024, 'bias': True, 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}}, 'generator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'discriminator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'feat_match_loss_params': {'average_by_discriminators': False, 'average_by_layers': False, 'include_final_outputs': True}, 'mel_loss_params': {'fs': 24000, 'n_fft': 1024, 'hop_length': 256, 'win_length': None, 'window': 'hann', 'n_mels': 80, 'fmin': 0, 'fmax': None, 'log_base': None}, 'lambda_adv': 1.0, 'lambda_mel': 45.0, 'lambda_feat_match': 2.0, 'lambda_var': 1.0, 'lambda_align': 2.0, 'sampling_rate': 24000, 'cache_generator_outputs': True}, unused_parameters=True, use_amp=False, use_matplotlib=True, use_preprocessor=True, use_tensorboard=True, use_wandb=False, val_scheduler_criterion=('valid', 'loss'), valid_batch_bins=None, valid_batch_size=None, valid_batch_type=None, valid_data_path_and_name_and_type=[('dump/raw/jvs010_dev/text', 'text', 'text'), ('dump/raw/jvs010_dev/wav.scp', 'speech', 'sound')], valid_max_cache_size=None, valid_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.6.scp'], version='202204', wandb_entity=None, wandb_id=None, wandb_model_log_interval=-1, wandb_name=None, wandb_project=None, write_collected_feats=False)
 /work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
   olens = (ilens - self.n_fft) // self.hop_length + 1
-# Accounting: time=11 threads=1
-# Ended (code 0) at Tue Mar  4 21:23:37 JST 2025, elapsed time 11 seconds

 # python3 -m espnet2.bin.gan_tts_train --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.6.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.6.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.6 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
+# Started at Tue Mar  4 22:09:35 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.6.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.6.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.6 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
+[92b100c97f43] 2025-03-04 22:09:38,622 (gan_tts:304) INFO: Vocabulary size: 41
+[92b100c97f43] 2025-03-04 22:09:38,844 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43] 2025-03-04 22:09:38,966 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43] 2025-03-04 22:09:41,158 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
+[92b100c97f43] 2025-03-04 22:09:41,169 (abs_task:1158) INFO: Model structure:
 ESPnetGANTTSModel(
   (feats_extract): LogMelFbank(
     (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
     Number of trainable parameters: 83.28 M (100.0%)
     Size: 333.11 MB
     Type: torch.float32
+[92b100c97f43] 2025-03-04 22:09:41,169 (abs_task:1161) INFO: Optimizer:
 AdamW (
 Parameter Group 0
     amsgrad: False
     lr: 0.0002
     weight_decay: 0.0
 )
+[92b100c97f43] 2025-03-04 22:09:41,169 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f3c0ac0f160>
+[92b100c97f43] 2025-03-04 22:09:41,169 (abs_task:1161) INFO: Optimizer2:
 AdamW (
 Parameter Group 0
     amsgrad: False
     lr: 0.0002
     weight_decay: 0.0
 )
+[92b100c97f43] 2025-03-04 22:09:41,169 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f3c19b35280>
+[92b100c97f43] 2025-03-04 22:09:41,169 (abs_task:1171) INFO: Saving the configuration in exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.6/config.yaml
+[92b100c97f43] 2025-03-04 22:09:41,188 (abs_task:1182) INFO: Namespace(accum_grad=1, allow_variable_data_keys=False, batch_bins=6000000, batch_size=20, batch_type='numel', best_model_criterion=[['valid', 'text2mel_loss', 'min'], ['train', 'text2mel_loss', 'min'], ['train', 'total_count', 'max']], bpemodel=None, chunk_length=500, chunk_shift_ratio=0.5, cleaner='jaconv', collect_stats=True, config='conf/tuning/train_jets.yaml', cudnn_benchmark=False, cudnn_deterministic=False, cudnn_enabled=True, detect_anomaly=False, dist_backend='nccl', dist_init_method='env://', dist_launcher=None, dist_master_addr=None, dist_master_port=None, dist_rank=None, dist_world_size=None, distributed=False, dry_run=False, early_stopping_criterion=('valid', 'loss', 'min'), energy_extract='energy', energy_extract_conf={'reduction_factor': 1, 'use_token_averaged_energy': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'win_length': 1200}, energy_normalize=None, energy_normalize_conf={}, feats_extract='fbank', feats_extract_conf={'n_fft': 2048, 'hop_length': 300, 'win_length': 1200, 'fs': 24000, 'fmin': 80, 'fmax': 7600, 'n_mels': 80}, fold_length=[], freeze_param=[], g2p='pyopenjtalk', generator_first=True, grad_clip=-1, grad_clip_type=2.0, grad_noise=False, ignore_init_mismatch=False, init_param=[], iterator_type='sequence', keep_nbest_models=-1, local_rank=None, log_interval=50, log_level='INFO', max_cache_fd=32, max_cache_size=0.0, max_epoch=130, model_conf={}, multiple_iterator=False, multiprocessing_distributed=False, nbest_averaging_interval=0, ngpu=0, no_forward_run=False, non_linguistic_symbols=None, normalize=None, normalize_conf={}, num_att_plot=3, num_cache_chunks=1024, num_iters_per_epoch=1000, num_workers=32, odim=None, optim='adamw', optim2='adamw', optim2_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, optim_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, output_dir='exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.6', patience=None, pitch_extract='dio', pitch_extract_conf={'reduction_factor': 1, 'use_token_averaged_f0': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'f0max': 400, 'f0min': 80}, pitch_normalize=None, pitch_normalize_conf={}, pretrain_path=None, print_config=False, required=['output_dir', 'token_list'], resume=False, scheduler='exponentiallr', scheduler2='exponentiallr', scheduler2_conf={'gamma': 0.999875}, scheduler_conf={'gamma': 0.999875}, seed=777, sharded_ddp=False, sort_batch='descending', sort_in_batch='descending', token_list=['<blank>', '<unk>', 'o', 'a', 'u', 'i', 'e', 'k', 'r', 't', 'n', 'pau', 'N', 's', 'sh', 'd', 'm', 'g', 'w', 'b', 'cl', 'I', 'j', 'ch', 'y', 'U', 'h', 'p', 'ts', 'f', 'z', 'ky', 'ny', 'gy', 'ry', 'hy', 'my', 'by', 'py', 'v', '<sos/eos>'], token_type='phn', train_data_path_and_name_and_type=[('dump/raw/jvs010_tr_no_dev/text', 'text', 'text'), ('dump/raw/jvs010_tr_no_dev/wav.scp', 'speech', 'sound')], train_dtype='float32', train_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.6.scp'], tts='jets', tts_conf={'generator_type': 'jets_generator', 'generator_params': {'adim': 256, 'aheads': 2, 'elayers': 4, 'eunits': 1024, 'dlayers': 4, 'dunits': 1024, 'positionwise_layer_type': 'conv1d', 'positionwise_conv_kernel_size': 3, 'duration_predictor_layers': 2, 'duration_predictor_chans': 256, 'duration_predictor_kernel_size': 3, 'use_masking': True, 'encoder_normalize_before': True, 'decoder_normalize_before': True, 'encoder_type': 'transformer', 'decoder_type': 'transformer', 'conformer_rel_pos_type': 'latest', 'conformer_pos_enc_layer_type': 'rel_pos', 'conformer_self_attn_layer_type': 'rel_selfattn', 'conformer_activation_type': 'swish', 'use_macaron_style_in_conformer': True, 'use_cnn_in_conformer': True, 'conformer_enc_kernel_size': 7, 'conformer_dec_kernel_size': 31, 'init_type': 'xavier_uniform', 'transformer_enc_dropout_rate': 0.2, 'transformer_enc_positional_dropout_rate': 0.2, 'transformer_enc_attn_dropout_rate': 0.2, 'transformer_dec_dropout_rate': 0.2, 'transformer_dec_positional_dropout_rate': 0.2, 'transformer_dec_attn_dropout_rate': 0.2, 'pitch_predictor_layers': 5, 'pitch_predictor_chans': 256, 'pitch_predictor_kernel_size': 5, 'pitch_predictor_dropout': 0.5, 'pitch_embed_kernel_size': 1, 'pitch_embed_dropout': 0.0, 'stop_gradient_from_pitch_predictor': True, 'energy_predictor_layers': 2, 'energy_predictor_chans': 256, 'energy_predictor_kernel_size': 3, 'energy_predictor_dropout': 0.5, 'energy_embed_kernel_size': 1, 'energy_embed_dropout': 0.0, 'stop_gradient_from_energy_predictor': False, 'generator_out_channels': 1, 'generator_channels': 512, 'generator_global_channels': -1, 'generator_kernel_size': 7, 'generator_upsample_scales': [8, 8, 2, 2], 'generator_upsample_kernel_sizes': [16, 16, 4, 4], 'generator_resblock_kernel_sizes': [3, 7, 11], 'generator_resblock_dilations': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'generator_use_additional_convs': True, 'generator_bias': True, 'generator_nonlinear_activation': 'LeakyReLU', 'generator_nonlinear_activation_params': {'negative_slope': 0.1}, 'generator_use_weight_norm': True, 'segment_size': 64, 'idim': 41, 'odim': 80}, 'discriminator_type': 'hifigan_multi_scale_multi_period_discriminator', 'discriminator_params': {'scales': 1, 'scale_downsample_pooling': 'AvgPool1d', 'scale_downsample_pooling_params': {'kernel_size': 4, 'stride': 2, 'padding': 2}, 'scale_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [15, 41, 5, 3], 'channels': 128, 'max_downsample_channels': 1024, 'max_groups': 16, 'bias': True, 'downsample_scales': [2, 2, 4, 4, 1], 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}, 'follow_official_norm': False, 'periods': [2, 3, 5, 7, 11], 'period_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [5, 3], 'channels': 32, 'downsample_scales': [3, 3, 3, 3, 1], 'max_downsample_channels': 1024, 'bias': True, 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}}, 'generator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'discriminator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'feat_match_loss_params': {'average_by_discriminators': False, 'average_by_layers': False, 'include_final_outputs': True}, 'mel_loss_params': {'fs': 24000, 'n_fft': 1024, 'hop_length': 256, 'win_length': None, 'window': 'hann', 'n_mels': 80, 'fmin': 0, 'fmax': None, 'log_base': None}, 'lambda_adv': 1.0, 'lambda_mel': 45.0, 'lambda_feat_match': 2.0, 'lambda_var': 1.0, 'lambda_align': 2.0, 'sampling_rate': 24000, 'cache_generator_outputs': True}, unused_parameters=True, use_amp=False, use_matplotlib=True, use_preprocessor=True, use_tensorboard=True, use_wandb=False, val_scheduler_criterion=('valid', 'loss'), valid_batch_bins=None, valid_batch_size=None, valid_batch_type=None, valid_data_path_and_name_and_type=[('dump/raw/jvs010_dev/text', 'text', 'text'), ('dump/raw/jvs010_dev/wav.scp', 'speech', 'sound')], valid_max_cache_size=None, valid_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.6.scp'], version='202204', wandb_entity=None, wandb_id=None, wandb_model_log_interval=-1, wandb_name=None, wandb_project=None, write_collected_feats=False)
 /work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
   olens = (ilens - self.n_fft) // self.hop_length + 1
+# Accounting: time=15 threads=1
+# Ended (code 0) at Tue Mar  4 22:09:50 JST 2025, elapsed time 15 seconds

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.6/config.yaml CHANGED Viewed

@@ -6,7 +6,7 @@ iterator_type: sequence
 output_dir: exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.6
 ngpu: 0
 seed: 777
-num_workers: 16
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://

 output_dir: exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.6
 ngpu: 0
 seed: 777
+num_workers: 32
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.7.log CHANGED Viewed

@@ -1,14 +1,14 @@
 # python3 -m espnet2.bin.gan_tts_train --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.7.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.7.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.7 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
-# Started at Tue Mar  4 21:23:26 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.7.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.7.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.7 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
-[92b100c97f43] 2025-03-04 21:23:29,162 (gan_tts:304) INFO: Vocabulary size: 41
-[92b100c97f43] 2025-03-04 21:23:29,385 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43] 2025-03-04 21:23:29,508 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43] 2025-03-04 21:23:31,651 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
-[92b100c97f43] 2025-03-04 21:23:31,661 (abs_task:1158) INFO: Model structure:
 ESPnetGANTTSModel(
   (feats_extract): LogMelFbank(
     (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
@@ -844,7 +844,7 @@ Model summary:
     Number of trainable parameters: 83.28 M (100.0%)
     Size: 333.11 MB
     Type: torch.float32
-[92b100c97f43] 2025-03-04 21:23:31,661 (abs_task:1161) INFO: Optimizer:
 AdamW (
 Parameter Group 0
     amsgrad: False
@@ -854,8 +854,8 @@ Parameter Group 0
     lr: 0.0002
     weight_decay: 0.0
 )
-[92b100c97f43] 2025-03-04 21:23:31,661 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f650237d1c0>
-[92b100c97f43] 2025-03-04 21:23:31,661 (abs_task:1161) INFO: Optimizer2:
 AdamW (
 Parameter Group 0
     amsgrad: False
@@ -865,10 +865,10 @@ Parameter Group 0
     lr: 0.0002
     weight_decay: 0.0
 )
-[92b100c97f43] 2025-03-04 21:23:31,661 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f65112a3280>
-[92b100c97f43] 2025-03-04 21:23:31,661 (abs_task:1171) INFO: Saving the configuration in exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.7/config.yaml
-[92b100c97f43] 2025-03-04 21:23:31,680 (abs_task:1182) INFO: Namespace(accum_grad=1, allow_variable_data_keys=False, batch_bins=6000000, batch_size=20, batch_type='numel', best_model_criterion=[['valid', 'text2mel_loss', 'min'], ['train', 'text2mel_loss', 'min'], ['train', 'total_count', 'max']], bpemodel=None, chunk_length=500, chunk_shift_ratio=0.5, cleaner='jaconv', collect_stats=True, config='conf/tuning/train_jets.yaml', cudnn_benchmark=False, cudnn_deterministic=False, cudnn_enabled=True, detect_anomaly=False, dist_backend='nccl', dist_init_method='env://', dist_launcher=None, dist_master_addr=None, dist_master_port=None, dist_rank=None, dist_world_size=None, distributed=False, dry_run=False, early_stopping_criterion=('valid', 'loss', 'min'), energy_extract='energy', energy_extract_conf={'reduction_factor': 1, 'use_token_averaged_energy': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'win_length': 1200}, energy_normalize=None, energy_normalize_conf={}, feats_extract='fbank', feats_extract_conf={'n_fft': 2048, 'hop_length': 300, 'win_length': 1200, 'fs': 24000, 'fmin': 80, 'fmax': 7600, 'n_mels': 80}, fold_length=[], freeze_param=[], g2p='pyopenjtalk', generator_first=True, grad_clip=-1, grad_clip_type=2.0, grad_noise=False, ignore_init_mismatch=False, init_param=[], iterator_type='sequence', keep_nbest_models=-1, local_rank=None, log_interval=50, log_level='INFO', max_cache_fd=32, max_cache_size=0.0, max_epoch=130, model_conf={}, multiple_iterator=False, multiprocessing_distributed=False, nbest_averaging_interval=0, ngpu=0, no_forward_run=False, non_linguistic_symbols=None, normalize=None, normalize_conf={}, num_att_plot=3, num_cache_chunks=1024, num_iters_per_epoch=1000, num_workers=16, odim=None, optim='adamw', optim2='adamw', optim2_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, optim_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, output_dir='exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.7', patience=None, pitch_extract='dio', pitch_extract_conf={'reduction_factor': 1, 'use_token_averaged_f0': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'f0max': 400, 'f0min': 80}, pitch_normalize=None, pitch_normalize_conf={}, pretrain_path=None, print_config=False, required=['output_dir', 'token_list'], resume=False, scheduler='exponentiallr', scheduler2='exponentiallr', scheduler2_conf={'gamma': 0.999875}, scheduler_conf={'gamma': 0.999875}, seed=777, sharded_ddp=False, sort_batch='descending', sort_in_batch='descending', token_list=['<blank>', '<unk>', 'o', 'a', 'u', 'i', 'e', 'k', 'r', 't', 'n', 'pau', 'N', 's', 'sh', 'd', 'm', 'g', 'w', 'b', 'cl', 'I', 'j', 'ch', 'y', 'U', 'h', 'p', 'ts', 'f', 'z', 'ky', 'ny', 'gy', 'ry', 'hy', 'my', 'by', 'py', 'v', '<sos/eos>'], token_type='phn', train_data_path_and_name_and_type=[('dump/raw/jvs010_tr_no_dev/text', 'text', 'text'), ('dump/raw/jvs010_tr_no_dev/wav.scp', 'speech', 'sound')], train_dtype='float32', train_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.7.scp'], tts='jets', tts_conf={'generator_type': 'jets_generator', 'generator_params': {'adim': 256, 'aheads': 2, 'elayers': 4, 'eunits': 1024, 'dlayers': 4, 'dunits': 1024, 'positionwise_layer_type': 'conv1d', 'positionwise_conv_kernel_size': 3, 'duration_predictor_layers': 2, 'duration_predictor_chans': 256, 'duration_predictor_kernel_size': 3, 'use_masking': True, 'encoder_normalize_before': True, 'decoder_normalize_before': True, 'encoder_type': 'transformer', 'decoder_type': 'transformer', 'conformer_rel_pos_type': 'latest', 'conformer_pos_enc_layer_type': 'rel_pos', 'conformer_self_attn_layer_type': 'rel_selfattn', 'conformer_activation_type': 'swish', 'use_macaron_style_in_conformer': True, 'use_cnn_in_conformer': True, 'conformer_enc_kernel_size': 7, 'conformer_dec_kernel_size': 31, 'init_type': 'xavier_uniform', 'transformer_enc_dropout_rate': 0.2, 'transformer_enc_positional_dropout_rate': 0.2, 'transformer_enc_attn_dropout_rate': 0.2, 'transformer_dec_dropout_rate': 0.2, 'transformer_dec_positional_dropout_rate': 0.2, 'transformer_dec_attn_dropout_rate': 0.2, 'pitch_predictor_layers': 5, 'pitch_predictor_chans': 256, 'pitch_predictor_kernel_size': 5, 'pitch_predictor_dropout': 0.5, 'pitch_embed_kernel_size': 1, 'pitch_embed_dropout': 0.0, 'stop_gradient_from_pitch_predictor': True, 'energy_predictor_layers': 2, 'energy_predictor_chans': 256, 'energy_predictor_kernel_size': 3, 'energy_predictor_dropout': 0.5, 'energy_embed_kernel_size': 1, 'energy_embed_dropout': 0.0, 'stop_gradient_from_energy_predictor': False, 'generator_out_channels': 1, 'generator_channels': 512, 'generator_global_channels': -1, 'generator_kernel_size': 7, 'generator_upsample_scales': [8, 8, 2, 2], 'generator_upsample_kernel_sizes': [16, 16, 4, 4], 'generator_resblock_kernel_sizes': [3, 7, 11], 'generator_resblock_dilations': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'generator_use_additional_convs': True, 'generator_bias': True, 'generator_nonlinear_activation': 'LeakyReLU', 'generator_nonlinear_activation_params': {'negative_slope': 0.1}, 'generator_use_weight_norm': True, 'segment_size': 64, 'idim': 41, 'odim': 80}, 'discriminator_type': 'hifigan_multi_scale_multi_period_discriminator', 'discriminator_params': {'scales': 1, 'scale_downsample_pooling': 'AvgPool1d', 'scale_downsample_pooling_params': {'kernel_size': 4, 'stride': 2, 'padding': 2}, 'scale_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [15, 41, 5, 3], 'channels': 128, 'max_downsample_channels': 1024, 'max_groups': 16, 'bias': True, 'downsample_scales': [2, 2, 4, 4, 1], 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}, 'follow_official_norm': False, 'periods': [2, 3, 5, 7, 11], 'period_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [5, 3], 'channels': 32, 'downsample_scales': [3, 3, 3, 3, 1], 'max_downsample_channels': 1024, 'bias': True, 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}}, 'generator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'discriminator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'feat_match_loss_params': {'average_by_discriminators': False, 'average_by_layers': False, 'include_final_outputs': True}, 'mel_loss_params': {'fs': 24000, 'n_fft': 1024, 'hop_length': 256, 'win_length': None, 'window': 'hann', 'n_mels': 80, 'fmin': 0, 'fmax': None, 'log_base': None}, 'lambda_adv': 1.0, 'lambda_mel': 45.0, 'lambda_feat_match': 2.0, 'lambda_var': 1.0, 'lambda_align': 2.0, 'sampling_rate': 24000, 'cache_generator_outputs': True}, unused_parameters=True, use_amp=False, use_matplotlib=True, use_preprocessor=True, use_tensorboard=True, use_wandb=False, val_scheduler_criterion=('valid', 'loss'), valid_batch_bins=None, valid_batch_size=None, valid_batch_type=None, valid_data_path_and_name_and_type=[('dump/raw/jvs010_dev/text', 'text', 'text'), ('dump/raw/jvs010_dev/wav.scp', 'speech', 'sound')], valid_max_cache_size=None, valid_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.7.scp'], version='202204', wandb_entity=None, wandb_id=None, wandb_model_log_interval=-1, wandb_name=None, wandb_project=None, write_collected_feats=False)
 /work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
   olens = (ilens - self.n_fft) // self.hop_length + 1
-# Accounting: time=11 threads=1
-# Ended (code 0) at Tue Mar  4 21:23:37 JST 2025, elapsed time 11 seconds

 # python3 -m espnet2.bin.gan_tts_train --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.7.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.7.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.7 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
+# Started at Tue Mar  4 22:09:35 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.7.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.7.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.7 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
+[92b100c97f43] 2025-03-04 22:09:38,619 (gan_tts:304) INFO: Vocabulary size: 41
+[92b100c97f43] 2025-03-04 22:09:38,843 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43] 2025-03-04 22:09:38,967 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43] 2025-03-04 22:09:41,131 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
+[92b100c97f43] 2025-03-04 22:09:41,142 (abs_task:1158) INFO: Model structure:
 ESPnetGANTTSModel(
   (feats_extract): LogMelFbank(
     (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
     Number of trainable parameters: 83.28 M (100.0%)
     Size: 333.11 MB
     Type: torch.float32
+[92b100c97f43] 2025-03-04 22:09:41,142 (abs_task:1161) INFO: Optimizer:
 AdamW (
 Parameter Group 0
     amsgrad: False
     lr: 0.0002
     weight_decay: 0.0
 )
+[92b100c97f43] 2025-03-04 22:09:41,142 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7fd21d2ef1c0>
+[92b100c97f43] 2025-03-04 22:09:41,142 (abs_task:1161) INFO: Optimizer2:
 AdamW (
 Parameter Group 0
     amsgrad: False
     lr: 0.0002
     weight_decay: 0.0
 )
+[92b100c97f43] 2025-03-04 22:09:41,142 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7fd22c214280>
+[92b100c97f43] 2025-03-04 22:09:41,142 (abs_task:1171) INFO: Saving the configuration in exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.7/config.yaml
+[92b100c97f43] 2025-03-04 22:09:41,161 (abs_task:1182) INFO: Namespace(accum_grad=1, allow_variable_data_keys=False, batch_bins=6000000, batch_size=20, batch_type='numel', best_model_criterion=[['valid', 'text2mel_loss', 'min'], ['train', 'text2mel_loss', 'min'], ['train', 'total_count', 'max']], bpemodel=None, chunk_length=500, chunk_shift_ratio=0.5, cleaner='jaconv', collect_stats=True, config='conf/tuning/train_jets.yaml', cudnn_benchmark=False, cudnn_deterministic=False, cudnn_enabled=True, detect_anomaly=False, dist_backend='nccl', dist_init_method='env://', dist_launcher=None, dist_master_addr=None, dist_master_port=None, dist_rank=None, dist_world_size=None, distributed=False, dry_run=False, early_stopping_criterion=('valid', 'loss', 'min'), energy_extract='energy', energy_extract_conf={'reduction_factor': 1, 'use_token_averaged_energy': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'win_length': 1200}, energy_normalize=None, energy_normalize_conf={}, feats_extract='fbank', feats_extract_conf={'n_fft': 2048, 'hop_length': 300, 'win_length': 1200, 'fs': 24000, 'fmin': 80, 'fmax': 7600, 'n_mels': 80}, fold_length=[], freeze_param=[], g2p='pyopenjtalk', generator_first=True, grad_clip=-1, grad_clip_type=2.0, grad_noise=False, ignore_init_mismatch=False, init_param=[], iterator_type='sequence', keep_nbest_models=-1, local_rank=None, log_interval=50, log_level='INFO', max_cache_fd=32, max_cache_size=0.0, max_epoch=130, model_conf={}, multiple_iterator=False, multiprocessing_distributed=False, nbest_averaging_interval=0, ngpu=0, no_forward_run=False, non_linguistic_symbols=None, normalize=None, normalize_conf={}, num_att_plot=3, num_cache_chunks=1024, num_iters_per_epoch=1000, num_workers=32, odim=None, optim='adamw', optim2='adamw', optim2_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, optim_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, output_dir='exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.7', patience=None, pitch_extract='dio', pitch_extract_conf={'reduction_factor': 1, 'use_token_averaged_f0': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'f0max': 400, 'f0min': 80}, pitch_normalize=None, pitch_normalize_conf={}, pretrain_path=None, print_config=False, required=['output_dir', 'token_list'], resume=False, scheduler='exponentiallr', scheduler2='exponentiallr', scheduler2_conf={'gamma': 0.999875}, scheduler_conf={'gamma': 0.999875}, seed=777, sharded_ddp=False, sort_batch='descending', sort_in_batch='descending', token_list=['<blank>', '<unk>', 'o', 'a', 'u', 'i', 'e', 'k', 'r', 't', 'n', 'pau', 'N', 's', 'sh', 'd', 'm', 'g', 'w', 'b', 'cl', 'I', 'j', 'ch', 'y', 'U', 'h', 'p', 'ts', 'f', 'z', 'ky', 'ny', 'gy', 'ry', 'hy', 'my', 'by', 'py', 'v', '<sos/eos>'], token_type='phn', train_data_path_and_name_and_type=[('dump/raw/jvs010_tr_no_dev/text', 'text', 'text'), ('dump/raw/jvs010_tr_no_dev/wav.scp', 'speech', 'sound')], train_dtype='float32', train_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.7.scp'], tts='jets', tts_conf={'generator_type': 'jets_generator', 'generator_params': {'adim': 256, 'aheads': 2, 'elayers': 4, 'eunits': 1024, 'dlayers': 4, 'dunits': 1024, 'positionwise_layer_type': 'conv1d', 'positionwise_conv_kernel_size': 3, 'duration_predictor_layers': 2, 'duration_predictor_chans': 256, 'duration_predictor_kernel_size': 3, 'use_masking': True, 'encoder_normalize_before': True, 'decoder_normalize_before': True, 'encoder_type': 'transformer', 'decoder_type': 'transformer', 'conformer_rel_pos_type': 'latest', 'conformer_pos_enc_layer_type': 'rel_pos', 'conformer_self_attn_layer_type': 'rel_selfattn', 'conformer_activation_type': 'swish', 'use_macaron_style_in_conformer': True, 'use_cnn_in_conformer': True, 'conformer_enc_kernel_size': 7, 'conformer_dec_kernel_size': 31, 'init_type': 'xavier_uniform', 'transformer_enc_dropout_rate': 0.2, 'transformer_enc_positional_dropout_rate': 0.2, 'transformer_enc_attn_dropout_rate': 0.2, 'transformer_dec_dropout_rate': 0.2, 'transformer_dec_positional_dropout_rate': 0.2, 'transformer_dec_attn_dropout_rate': 0.2, 'pitch_predictor_layers': 5, 'pitch_predictor_chans': 256, 'pitch_predictor_kernel_size': 5, 'pitch_predictor_dropout': 0.5, 'pitch_embed_kernel_size': 1, 'pitch_embed_dropout': 0.0, 'stop_gradient_from_pitch_predictor': True, 'energy_predictor_layers': 2, 'energy_predictor_chans': 256, 'energy_predictor_kernel_size': 3, 'energy_predictor_dropout': 0.5, 'energy_embed_kernel_size': 1, 'energy_embed_dropout': 0.0, 'stop_gradient_from_energy_predictor': False, 'generator_out_channels': 1, 'generator_channels': 512, 'generator_global_channels': -1, 'generator_kernel_size': 7, 'generator_upsample_scales': [8, 8, 2, 2], 'generator_upsample_kernel_sizes': [16, 16, 4, 4], 'generator_resblock_kernel_sizes': [3, 7, 11], 'generator_resblock_dilations': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'generator_use_additional_convs': True, 'generator_bias': True, 'generator_nonlinear_activation': 'LeakyReLU', 'generator_nonlinear_activation_params': {'negative_slope': 0.1}, 'generator_use_weight_norm': True, 'segment_size': 64, 'idim': 41, 'odim': 80}, 'discriminator_type': 'hifigan_multi_scale_multi_period_discriminator', 'discriminator_params': {'scales': 1, 'scale_downsample_pooling': 'AvgPool1d', 'scale_downsample_pooling_params': {'kernel_size': 4, 'stride': 2, 'padding': 2}, 'scale_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [15, 41, 5, 3], 'channels': 128, 'max_downsample_channels': 1024, 'max_groups': 16, 'bias': True, 'downsample_scales': [2, 2, 4, 4, 1], 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}, 'follow_official_norm': False, 'periods': [2, 3, 5, 7, 11], 'period_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [5, 3], 'channels': 32, 'downsample_scales': [3, 3, 3, 3, 1], 'max_downsample_channels': 1024, 'bias': True, 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}}, 'generator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'discriminator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'feat_match_loss_params': {'average_by_discriminators': False, 'average_by_layers': False, 'include_final_outputs': True}, 'mel_loss_params': {'fs': 24000, 'n_fft': 1024, 'hop_length': 256, 'win_length': None, 'window': 'hann', 'n_mels': 80, 'fmin': 0, 'fmax': None, 'log_base': None}, 'lambda_adv': 1.0, 'lambda_mel': 45.0, 'lambda_feat_match': 2.0, 'lambda_var': 1.0, 'lambda_align': 2.0, 'sampling_rate': 24000, 'cache_generator_outputs': True}, unused_parameters=True, use_amp=False, use_matplotlib=True, use_preprocessor=True, use_tensorboard=True, use_wandb=False, val_scheduler_criterion=('valid', 'loss'), valid_batch_bins=None, valid_batch_size=None, valid_batch_type=None, valid_data_path_and_name_and_type=[('dump/raw/jvs010_dev/text', 'text', 'text'), ('dump/raw/jvs010_dev/wav.scp', 'speech', 'sound')], valid_max_cache_size=None, valid_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.7.scp'], version='202204', wandb_entity=None, wandb_id=None, wandb_model_log_interval=-1, wandb_name=None, wandb_project=None, write_collected_feats=False)
 /work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
   olens = (ilens - self.n_fft) // self.hop_length + 1
+# Accounting: time=15 threads=1
+# Ended (code 0) at Tue Mar  4 22:09:50 JST 2025, elapsed time 15 seconds

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.7/config.yaml CHANGED Viewed

@@ -6,7 +6,7 @@ iterator_type: sequence
 output_dir: exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.7
 ngpu: 0
 seed: 777
-num_workers: 16
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://

 output_dir: exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.7
 ngpu: 0
 seed: 777
+num_workers: 32
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.8.log CHANGED Viewed

@@ -1,14 +1,14 @@
 # python3 -m espnet2.bin.gan_tts_train --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.8.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.8.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.8 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
-# Started at Tue Mar  4 21:23:26 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.8.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.8.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.8 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
-[92b100c97f43] 2025-03-04 21:23:29,162 (gan_tts:304) INFO: Vocabulary size: 41
-[92b100c97f43] 2025-03-04 21:23:29,385 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43] 2025-03-04 21:23:29,508 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43] 2025-03-04 21:23:31,596 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
-[92b100c97f43] 2025-03-04 21:23:31,606 (abs_task:1158) INFO: Model structure:
 ESPnetGANTTSModel(
   (feats_extract): LogMelFbank(
     (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
@@ -844,7 +844,7 @@ Model summary:
     Number of trainable parameters: 83.28 M (100.0%)
     Size: 333.11 MB
     Type: torch.float32
-[92b100c97f43] 2025-03-04 21:23:31,606 (abs_task:1161) INFO: Optimizer:
 AdamW (
 Parameter Group 0
     amsgrad: False
@@ -854,8 +854,8 @@ Parameter Group 0
     lr: 0.0002
     weight_decay: 0.0
 )
-[92b100c97f43] 2025-03-04 21:23:31,606 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7fe8295891c0>
-[92b100c97f43] 2025-03-04 21:23:31,606 (abs_task:1161) INFO: Optimizer2:
 AdamW (
 Parameter Group 0
     amsgrad: False
@@ -865,10 +865,10 @@ Parameter Group 0
     lr: 0.0002
     weight_decay: 0.0
 )
-[92b100c97f43] 2025-03-04 21:23:31,606 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7fe8384af280>
-[92b100c97f43] 2025-03-04 21:23:31,607 (abs_task:1171) INFO: Saving the configuration in exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.8/config.yaml
-[92b100c97f43] 2025-03-04 21:23:31,625 (abs_task:1182) INFO: Namespace(accum_grad=1, allow_variable_data_keys=False, batch_bins=6000000, batch_size=20, batch_type='numel', best_model_criterion=[['valid', 'text2mel_loss', 'min'], ['train', 'text2mel_loss', 'min'], ['train', 'total_count', 'max']], bpemodel=None, chunk_length=500, chunk_shift_ratio=0.5, cleaner='jaconv', collect_stats=True, config='conf/tuning/train_jets.yaml', cudnn_benchmark=False, cudnn_deterministic=False, cudnn_enabled=True, detect_anomaly=False, dist_backend='nccl', dist_init_method='env://', dist_launcher=None, dist_master_addr=None, dist_master_port=None, dist_rank=None, dist_world_size=None, distributed=False, dry_run=False, early_stopping_criterion=('valid', 'loss', 'min'), energy_extract='energy', energy_extract_conf={'reduction_factor': 1, 'use_token_averaged_energy': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'win_length': 1200}, energy_normalize=None, energy_normalize_conf={}, feats_extract='fbank', feats_extract_conf={'n_fft': 2048, 'hop_length': 300, 'win_length': 1200, 'fs': 24000, 'fmin': 80, 'fmax': 7600, 'n_mels': 80}, fold_length=[], freeze_param=[], g2p='pyopenjtalk', generator_first=True, grad_clip=-1, grad_clip_type=2.0, grad_noise=False, ignore_init_mismatch=False, init_param=[], iterator_type='sequence', keep_nbest_models=-1, local_rank=None, log_interval=50, log_level='INFO', max_cache_fd=32, max_cache_size=0.0, max_epoch=130, model_conf={}, multiple_iterator=False, multiprocessing_distributed=False, nbest_averaging_interval=0, ngpu=0, no_forward_run=False, non_linguistic_symbols=None, normalize=None, normalize_conf={}, num_att_plot=3, num_cache_chunks=1024, num_iters_per_epoch=1000, num_workers=16, odim=None, optim='adamw', optim2='adamw', optim2_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, optim_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, output_dir='exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.8', patience=None, pitch_extract='dio', pitch_extract_conf={'reduction_factor': 1, 'use_token_averaged_f0': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'f0max': 400, 'f0min': 80}, pitch_normalize=None, pitch_normalize_conf={}, pretrain_path=None, print_config=False, required=['output_dir', 'token_list'], resume=False, scheduler='exponentiallr', scheduler2='exponentiallr', scheduler2_conf={'gamma': 0.999875}, scheduler_conf={'gamma': 0.999875}, seed=777, sharded_ddp=False, sort_batch='descending', sort_in_batch='descending', token_list=['<blank>', '<unk>', 'o', 'a', 'u', 'i', 'e', 'k', 'r', 't', 'n', 'pau', 'N', 's', 'sh', 'd', 'm', 'g', 'w', 'b', 'cl', 'I', 'j', 'ch', 'y', 'U', 'h', 'p', 'ts', 'f', 'z', 'ky', 'ny', 'gy', 'ry', 'hy', 'my', 'by', 'py', 'v', '<sos/eos>'], token_type='phn', train_data_path_and_name_and_type=[('dump/raw/jvs010_tr_no_dev/text', 'text', 'text'), ('dump/raw/jvs010_tr_no_dev/wav.scp', 'speech', 'sound')], train_dtype='float32', train_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.8.scp'], tts='jets', tts_conf={'generator_type': 'jets_generator', 'generator_params': {'adim': 256, 'aheads': 2, 'elayers': 4, 'eunits': 1024, 'dlayers': 4, 'dunits': 1024, 'positionwise_layer_type': 'conv1d', 'positionwise_conv_kernel_size': 3, 'duration_predictor_layers': 2, 'duration_predictor_chans': 256, 'duration_predictor_kernel_size': 3, 'use_masking': True, 'encoder_normalize_before': True, 'decoder_normalize_before': True, 'encoder_type': 'transformer', 'decoder_type': 'transformer', 'conformer_rel_pos_type': 'latest', 'conformer_pos_enc_layer_type': 'rel_pos', 'conformer_self_attn_layer_type': 'rel_selfattn', 'conformer_activation_type': 'swish', 'use_macaron_style_in_conformer': True, 'use_cnn_in_conformer': True, 'conformer_enc_kernel_size': 7, 'conformer_dec_kernel_size': 31, 'init_type': 'xavier_uniform', 'transformer_enc_dropout_rate': 0.2, 'transformer_enc_positional_dropout_rate': 0.2, 'transformer_enc_attn_dropout_rate': 0.2, 'transformer_dec_dropout_rate': 0.2, 'transformer_dec_positional_dropout_rate': 0.2, 'transformer_dec_attn_dropout_rate': 0.2, 'pitch_predictor_layers': 5, 'pitch_predictor_chans': 256, 'pitch_predictor_kernel_size': 5, 'pitch_predictor_dropout': 0.5, 'pitch_embed_kernel_size': 1, 'pitch_embed_dropout': 0.0, 'stop_gradient_from_pitch_predictor': True, 'energy_predictor_layers': 2, 'energy_predictor_chans': 256, 'energy_predictor_kernel_size': 3, 'energy_predictor_dropout': 0.5, 'energy_embed_kernel_size': 1, 'energy_embed_dropout': 0.0, 'stop_gradient_from_energy_predictor': False, 'generator_out_channels': 1, 'generator_channels': 512, 'generator_global_channels': -1, 'generator_kernel_size': 7, 'generator_upsample_scales': [8, 8, 2, 2], 'generator_upsample_kernel_sizes': [16, 16, 4, 4], 'generator_resblock_kernel_sizes': [3, 7, 11], 'generator_resblock_dilations': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'generator_use_additional_convs': True, 'generator_bias': True, 'generator_nonlinear_activation': 'LeakyReLU', 'generator_nonlinear_activation_params': {'negative_slope': 0.1}, 'generator_use_weight_norm': True, 'segment_size': 64, 'idim': 41, 'odim': 80}, 'discriminator_type': 'hifigan_multi_scale_multi_period_discriminator', 'discriminator_params': {'scales': 1, 'scale_downsample_pooling': 'AvgPool1d', 'scale_downsample_pooling_params': {'kernel_size': 4, 'stride': 2, 'padding': 2}, 'scale_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [15, 41, 5, 3], 'channels': 128, 'max_downsample_channels': 1024, 'max_groups': 16, 'bias': True, 'downsample_scales': [2, 2, 4, 4, 1], 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}, 'follow_official_norm': False, 'periods': [2, 3, 5, 7, 11], 'period_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [5, 3], 'channels': 32, 'downsample_scales': [3, 3, 3, 3, 1], 'max_downsample_channels': 1024, 'bias': True, 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}}, 'generator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'discriminator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'feat_match_loss_params': {'average_by_discriminators': False, 'average_by_layers': False, 'include_final_outputs': True}, 'mel_loss_params': {'fs': 24000, 'n_fft': 1024, 'hop_length': 256, 'win_length': None, 'window': 'hann', 'n_mels': 80, 'fmin': 0, 'fmax': None, 'log_base': None}, 'lambda_adv': 1.0, 'lambda_mel': 45.0, 'lambda_feat_match': 2.0, 'lambda_var': 1.0, 'lambda_align': 2.0, 'sampling_rate': 24000, 'cache_generator_outputs': True}, unused_parameters=True, use_amp=False, use_matplotlib=True, use_preprocessor=True, use_tensorboard=True, use_wandb=False, val_scheduler_criterion=('valid', 'loss'), valid_batch_bins=None, valid_batch_size=None, valid_batch_type=None, valid_data_path_and_name_and_type=[('dump/raw/jvs010_dev/text', 'text', 'text'), ('dump/raw/jvs010_dev/wav.scp', 'speech', 'sound')], valid_max_cache_size=None, valid_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.8.scp'], version='202204', wandb_entity=None, wandb_id=None, wandb_model_log_interval=-1, wandb_name=None, wandb_project=None, write_collected_feats=False)
 /work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
   olens = (ilens - self.n_fft) // self.hop_length + 1
-# Accounting: time=11 threads=1
-# Ended (code 0) at Tue Mar  4 21:23:37 JST 2025, elapsed time 11 seconds

 # python3 -m espnet2.bin.gan_tts_train --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.8.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.8.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.8 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
+# Started at Tue Mar  4 22:09:35 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --collect_stats true --write_collected_feats false --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize none --pitch_normalize none --energy_normalize none --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.8.scp --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.8.scp --output_dir exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.8 --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200
+[92b100c97f43] 2025-03-04 22:09:38,624 (gan_tts:304) INFO: Vocabulary size: 41
+[92b100c97f43] 2025-03-04 22:09:38,844 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43] 2025-03-04 22:09:38,966 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43] 2025-03-04 22:09:41,199 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
+[92b100c97f43] 2025-03-04 22:09:41,209 (abs_task:1158) INFO: Model structure:
 ESPnetGANTTSModel(
   (feats_extract): LogMelFbank(
     (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
     Number of trainable parameters: 83.28 M (100.0%)
     Size: 333.11 MB
     Type: torch.float32
+[92b100c97f43] 2025-03-04 22:09:41,209 (abs_task:1161) INFO: Optimizer:
 AdamW (
 Parameter Group 0
     amsgrad: False
     lr: 0.0002
     weight_decay: 0.0
 )
+[92b100c97f43] 2025-03-04 22:09:41,209 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7fe0420a1100>
+[92b100c97f43] 2025-03-04 22:09:41,209 (abs_task:1161) INFO: Optimizer2:
 AdamW (
 Parameter Group 0
     amsgrad: False
     lr: 0.0002
     weight_decay: 0.0
 )
+[92b100c97f43] 2025-03-04 22:09:41,209 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7fe050fc7190>
+[92b100c97f43] 2025-03-04 22:09:41,210 (abs_task:1171) INFO: Saving the configuration in exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.8/config.yaml
+[92b100c97f43] 2025-03-04 22:09:41,228 (abs_task:1182) INFO: Namespace(accum_grad=1, allow_variable_data_keys=False, batch_bins=6000000, batch_size=20, batch_type='numel', best_model_criterion=[['valid', 'text2mel_loss', 'min'], ['train', 'text2mel_loss', 'min'], ['train', 'total_count', 'max']], bpemodel=None, chunk_length=500, chunk_shift_ratio=0.5, cleaner='jaconv', collect_stats=True, config='conf/tuning/train_jets.yaml', cudnn_benchmark=False, cudnn_deterministic=False, cudnn_enabled=True, detect_anomaly=False, dist_backend='nccl', dist_init_method='env://', dist_launcher=None, dist_master_addr=None, dist_master_port=None, dist_rank=None, dist_world_size=None, distributed=False, dry_run=False, early_stopping_criterion=('valid', 'loss', 'min'), energy_extract='energy', energy_extract_conf={'reduction_factor': 1, 'use_token_averaged_energy': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'win_length': 1200}, energy_normalize=None, energy_normalize_conf={}, feats_extract='fbank', feats_extract_conf={'n_fft': 2048, 'hop_length': 300, 'win_length': 1200, 'fs': 24000, 'fmin': 80, 'fmax': 7600, 'n_mels': 80}, fold_length=[], freeze_param=[], g2p='pyopenjtalk', generator_first=True, grad_clip=-1, grad_clip_type=2.0, grad_noise=False, ignore_init_mismatch=False, init_param=[], iterator_type='sequence', keep_nbest_models=-1, local_rank=None, log_interval=50, log_level='INFO', max_cache_fd=32, max_cache_size=0.0, max_epoch=130, model_conf={}, multiple_iterator=False, multiprocessing_distributed=False, nbest_averaging_interval=0, ngpu=0, no_forward_run=False, non_linguistic_symbols=None, normalize=None, normalize_conf={}, num_att_plot=3, num_cache_chunks=1024, num_iters_per_epoch=1000, num_workers=32, odim=None, optim='adamw', optim2='adamw', optim2_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, optim_conf={'lr': 0.0002, 'betas': [0.8, 0.99], 'eps': 1e-09, 'weight_decay': 0.0}, output_dir='exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.8', patience=None, pitch_extract='dio', pitch_extract_conf={'reduction_factor': 1, 'use_token_averaged_f0': False, 'fs': 24000, 'n_fft': 2048, 'hop_length': 300, 'f0max': 400, 'f0min': 80}, pitch_normalize=None, pitch_normalize_conf={}, pretrain_path=None, print_config=False, required=['output_dir', 'token_list'], resume=False, scheduler='exponentiallr', scheduler2='exponentiallr', scheduler2_conf={'gamma': 0.999875}, scheduler_conf={'gamma': 0.999875}, seed=777, sharded_ddp=False, sort_batch='descending', sort_in_batch='descending', token_list=['<blank>', '<unk>', 'o', 'a', 'u', 'i', 'e', 'k', 'r', 't', 'n', 'pau', 'N', 's', 'sh', 'd', 'm', 'g', 'w', 'b', 'cl', 'I', 'j', 'ch', 'y', 'U', 'h', 'p', 'ts', 'f', 'z', 'ky', 'ny', 'gy', 'ry', 'hy', 'my', 'by', 'py', 'v', '<sos/eos>'], token_type='phn', train_data_path_and_name_and_type=[('dump/raw/jvs010_tr_no_dev/text', 'text', 'text'), ('dump/raw/jvs010_tr_no_dev/wav.scp', 'speech', 'sound')], train_dtype='float32', train_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/train.8.scp'], tts='jets', tts_conf={'generator_type': 'jets_generator', 'generator_params': {'adim': 256, 'aheads': 2, 'elayers': 4, 'eunits': 1024, 'dlayers': 4, 'dunits': 1024, 'positionwise_layer_type': 'conv1d', 'positionwise_conv_kernel_size': 3, 'duration_predictor_layers': 2, 'duration_predictor_chans': 256, 'duration_predictor_kernel_size': 3, 'use_masking': True, 'encoder_normalize_before': True, 'decoder_normalize_before': True, 'encoder_type': 'transformer', 'decoder_type': 'transformer', 'conformer_rel_pos_type': 'latest', 'conformer_pos_enc_layer_type': 'rel_pos', 'conformer_self_attn_layer_type': 'rel_selfattn', 'conformer_activation_type': 'swish', 'use_macaron_style_in_conformer': True, 'use_cnn_in_conformer': True, 'conformer_enc_kernel_size': 7, 'conformer_dec_kernel_size': 31, 'init_type': 'xavier_uniform', 'transformer_enc_dropout_rate': 0.2, 'transformer_enc_positional_dropout_rate': 0.2, 'transformer_enc_attn_dropout_rate': 0.2, 'transformer_dec_dropout_rate': 0.2, 'transformer_dec_positional_dropout_rate': 0.2, 'transformer_dec_attn_dropout_rate': 0.2, 'pitch_predictor_layers': 5, 'pitch_predictor_chans': 256, 'pitch_predictor_kernel_size': 5, 'pitch_predictor_dropout': 0.5, 'pitch_embed_kernel_size': 1, 'pitch_embed_dropout': 0.0, 'stop_gradient_from_pitch_predictor': True, 'energy_predictor_layers': 2, 'energy_predictor_chans': 256, 'energy_predictor_kernel_size': 3, 'energy_predictor_dropout': 0.5, 'energy_embed_kernel_size': 1, 'energy_embed_dropout': 0.0, 'stop_gradient_from_energy_predictor': False, 'generator_out_channels': 1, 'generator_channels': 512, 'generator_global_channels': -1, 'generator_kernel_size': 7, 'generator_upsample_scales': [8, 8, 2, 2], 'generator_upsample_kernel_sizes': [16, 16, 4, 4], 'generator_resblock_kernel_sizes': [3, 7, 11], 'generator_resblock_dilations': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'generator_use_additional_convs': True, 'generator_bias': True, 'generator_nonlinear_activation': 'LeakyReLU', 'generator_nonlinear_activation_params': {'negative_slope': 0.1}, 'generator_use_weight_norm': True, 'segment_size': 64, 'idim': 41, 'odim': 80}, 'discriminator_type': 'hifigan_multi_scale_multi_period_discriminator', 'discriminator_params': {'scales': 1, 'scale_downsample_pooling': 'AvgPool1d', 'scale_downsample_pooling_params': {'kernel_size': 4, 'stride': 2, 'padding': 2}, 'scale_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [15, 41, 5, 3], 'channels': 128, 'max_downsample_channels': 1024, 'max_groups': 16, 'bias': True, 'downsample_scales': [2, 2, 4, 4, 1], 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}, 'follow_official_norm': False, 'periods': [2, 3, 5, 7, 11], 'period_discriminator_params': {'in_channels': 1, 'out_channels': 1, 'kernel_sizes': [5, 3], 'channels': 32, 'downsample_scales': [3, 3, 3, 3, 1], 'max_downsample_channels': 1024, 'bias': True, 'nonlinear_activation': 'LeakyReLU', 'nonlinear_activation_params': {'negative_slope': 0.1}, 'use_weight_norm': True, 'use_spectral_norm': False}}, 'generator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'discriminator_adv_loss_params': {'average_by_discriminators': False, 'loss_type': 'mse'}, 'feat_match_loss_params': {'average_by_discriminators': False, 'average_by_layers': False, 'include_final_outputs': True}, 'mel_loss_params': {'fs': 24000, 'n_fft': 1024, 'hop_length': 256, 'win_length': None, 'window': 'hann', 'n_mels': 80, 'fmin': 0, 'fmax': None, 'log_base': None}, 'lambda_adv': 1.0, 'lambda_mel': 45.0, 'lambda_feat_match': 2.0, 'lambda_var': 1.0, 'lambda_align': 2.0, 'sampling_rate': 24000, 'cache_generator_outputs': True}, unused_parameters=True, use_amp=False, use_matplotlib=True, use_preprocessor=True, use_tensorboard=True, use_wandb=False, val_scheduler_criterion=('valid', 'loss'), valid_batch_bins=None, valid_batch_size=None, valid_batch_type=None, valid_data_path_and_name_and_type=[('dump/raw/jvs010_dev/text', 'text', 'text'), ('dump/raw/jvs010_dev/wav.scp', 'speech', 'sound')], valid_max_cache_size=None, valid_shape_file=['exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/valid.8.scp'], version='202204', wandb_entity=None, wandb_id=None, wandb_model_log_interval=-1, wandb_name=None, wandb_project=None, write_collected_feats=False)
 /work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
   olens = (ilens - self.n_fft) // self.hop_length + 1
+# Accounting: time=15 threads=1
+# Ended (code 0) at Tue Mar  4 22:09:50 JST 2025, elapsed time 15 seconds

exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.8/config.yaml CHANGED Viewed

@@ -6,7 +6,7 @@ iterator_type: sequence
 output_dir: exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.8
 ngpu: 0
 seed: 777
-num_workers: 16
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://

 output_dir: exp/tts_stats_raw_phn_jaconv_pyopenjtalk/logdir/stats.8
 ngpu: 0
 seed: 777
+num_workers: 32
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://

exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/config.yaml CHANGED Viewed

@@ -6,7 +6,7 @@ iterator_type: sequence
 output_dir: exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk
 ngpu: 1
 seed: 777
-num_workers: 16
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://
@@ -14,7 +14,7 @@ dist_world_size: 4
 dist_rank: 0
 local_rank: 0
 dist_master_addr: localhost
-dist_master_port: 52975
 dist_launcher: null
 multiprocessing_distributed: true
 unused_parameters: true
@@ -70,7 +70,7 @@ freeze_param: []
 num_iters_per_epoch: 1000
 batch_size: 20
 valid_batch_size: null
-batch_bins: 6000000
 valid_batch_bins: null
 train_shape_file:
 - exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/text_shape.phn

 output_dir: exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk
 ngpu: 1
 seed: 777
+num_workers: 32
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://
 dist_rank: 0
 local_rank: 0
 dist_master_addr: localhost
+dist_master_port: 59597
 dist_launcher: null
 multiprocessing_distributed: true
 unused_parameters: true
 num_iters_per_epoch: 1000
 batch_size: 20
 valid_batch_size: null
+batch_bins: 9000000
 valid_batch_bins: null
 train_shape_file:
 - exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/text_shape.phn

exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/tensorboard/train/events.out.tfevents.1741091035.92b100c97f43.1159464.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a8704d80d583693bc56ad0906c5fa8f30dc6156977506f396db7d40a7c398bd
-size 4873

 version https://git-lfs.github.com/spec/v1
+oid sha256:47ca4c2af2ae5fe4ef0943d758d223149e37a2e101fc264aae7be3a9cdbb57bf
+size 6486

exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/tensorboard/train/events.out.tfevents.1741091448.92b100c97f43.1179446.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e59d9a3123a950064a58b9351b715c74d50f04dfc4bbbda3049c9e7366862a7
+size 1674

exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/tensorboard/train/events.out.tfevents.1741091666.92b100c97f43.1289026.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6afddefdf687f1aec9663925e8bb8d5127831a5a2e7b3d5070c1684734cc7f00
+size 88

exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/tensorboard/train/events.out.tfevents.1741091743.92b100c97f43.1324139.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:212fa57bbb135b7b0557550baa81d440f17fdefc764a4b170da42cc08b3ae061
+size 88

exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/tensorboard/valid/events.out.tfevents.1741091448.92b100c97f43.1179446.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e27cca46138cc3b95825e29775f472797d893c3278e7e926ceaa550d9316db8
+size 88

exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/tensorboard/valid/events.out.tfevents.1741091666.92b100c97f43.1289026.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7bec30596fbaf8184b6cb5fadfeccfba94d87111a618757906ebbabe7fed01b
+size 88

exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/tensorboard/valid/events.out.tfevents.1741091743.92b100c97f43.1324139.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b469790a7a5ba7a680abdd1ebac1353bd03e16b487dda1629f526d68b1843e74
+size 88

exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/train.1.log ADDED Viewed

	@@ -0,0 +1,1342 @@

+# python3 -m espnet2.bin.gan_tts_train --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize global_mvn --resume true --fold_length 150 --fold_length 240000 --output_dir exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/text_shape.phn --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/speech_shape --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/text_shape.phn --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/speech_shape --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --pitch_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/pitch_stats.npz --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200 --energy_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/energy_stats.npz --normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/feats_stats.npz --ngpu 4 --multiprocessing_distributed True
+# Started at Tue Mar  4 21:35:13 JST 2025
+#
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize global_mvn --resume true --fold_length 150 --fold_length 240000 --output_dir exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/text_shape.phn --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/speech_shape --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/text_shape.phn --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/speech_shape --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --pitch_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/pitch_stats.npz --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200 --energy_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/energy_stats.npz --normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/feats_stats.npz --ngpu 4 --multiprocessing_distributed True
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+[92b100c97f43:0/4] 2025-03-04 21:35:19,077 (distributed_c10d:217) INFO: Added key: store_based_barrier_key:1 to store for rank: 0
+[92b100c97f43:0/4] 2025-03-04 21:35:19,088 (distributed_c10d:251) INFO: Rank 0: Completed store-based barrier for key:store_based_barrier_key:1 with 4 nodes.
+[92b100c97f43:0/4] 2025-03-04 21:35:19,138 (gan_tts:304) INFO: Vocabulary size: 41
+[92b100c97f43:0/4] 2025-03-04 21:35:19,267 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43:0/4] 2025-03-04 21:35:19,488 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43:0/4] 2025-03-04 21:35:42,642 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
+[92b100c97f43:0/4] 2025-03-04 21:35:42,651 (abs_task:1158) INFO: Model structure:
+ESPnetGANTTSModel(
+  (feats_extract): LogMelFbank(
+    (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
+    (logmel): LogMel(sr=24000, n_fft=2048, n_mels=80, fmin=80, fmax=7600, htk=False)
+  )
+  (normalize): GlobalMVN(stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/feats_stats.npz, norm_means=True, norm_vars=True)
+  (pitch_extract): Dio()
+  (pitch_normalize): GlobalMVN(stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/pitch_stats.npz, norm_means=True, norm_vars=True)
+  (energy_extract): Energy(
+    (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
+  )
+  (energy_normalize): GlobalMVN(stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/energy_stats.npz, norm_means=True, norm_vars=True)
+  (tts): JETS(
+    (generator): JETSGenerator(
+      (encoder): Encoder(
+        (embed): Sequential(
+          (0): Embedding(41, 256, padding_idx=0)
+          (1): ScaledPositionalEncoding(
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+        )
+        (encoders): MultiSequential(
+          (0): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (1): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (2): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (3): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+        )
+        (after_norm): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+      )
+      (duration_predictor): DurationPredictor(
+        (conv): ModuleList(
+          (0): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.1, inplace=False)
+          )
+          (1): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.1, inplace=False)
+          )
+        )
+        (linear): Linear(in_features=256, out_features=1, bias=True)
+      )
+      (pitch_predictor): VariancePredictor(
+        (conv): ModuleList(
+          (0): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+          (1): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+          (2): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+          (3): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+          (4): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+        )
+        (linear): Linear(in_features=256, out_features=1, bias=True)
+      )
+      (pitch_embed): Sequential(
+        (0): Conv1d(1, 256, kernel_size=(1,), stride=(1,))
+        (1): Dropout(p=0.0, inplace=False)
+      )
+      (energy_predictor): VariancePredictor(
+        (conv): ModuleList(
+          (0): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+          (1): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+        )
+        (linear): Linear(in_features=256, out_features=1, bias=True)
+      )
+      (energy_embed): Sequential(
+        (0): Conv1d(1, 256, kernel_size=(1,), stride=(1,))
+        (1): Dropout(p=0.0, inplace=False)
+      )
+      (alignment_module): AlignmentModule(
+        (t_conv1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+        (t_conv2): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (f_conv1): Conv1d(80, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+        (f_conv2): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+        (f_conv3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+      )
+      (length_regulator): GaussianUpsampling()
+      (decoder): Encoder(
+        (embed): Sequential(
+          (0): ScaledPositionalEncoding(
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+        )
+        (encoders): MultiSequential(
+          (0): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (1): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (2): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (3): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+        )
+        (after_norm): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+      )
+      (generator): HiFiGANGenerator(
+        (input_conv): Conv1d(256, 512, kernel_size=(7,), stride=(1,), padding=(3,))
+        (upsamples): ModuleList(
+          (0): Sequential(
+            (0): LeakyReLU(negative_slope=0.1)
+            (1): ConvTranspose1d(512, 256, kernel_size=(16,), stride=(8,), padding=(4,))
+          )
+          (1): Sequential(
+            (0): LeakyReLU(negative_slope=0.1)
+            (1): ConvTranspose1d(256, 128, kernel_size=(16,), stride=(8,), padding=(4,))
+          )
+          (2): Sequential(
+            (0): LeakyReLU(negative_slope=0.1)
+            (1): ConvTranspose1d(128, 64, kernel_size=(4,), stride=(2,), padding=(1,))
+          )
+          (3): Sequential(
+            (0): LeakyReLU(negative_slope=0.1)
+            (1): ConvTranspose1d(64, 32, kernel_size=(4,), stride=(2,), padding=(1,))
+          )
+        )
+        (blocks): ModuleList(
+          (0): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(3,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(5,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+            )
+          )
+          (1): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(9,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(15,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+            )
+          )
+          (2): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(15,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(25,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+            )
+          )
+          (3): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(3,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(5,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+            )
+          )
+          (4): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(9,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(15,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+            )
+          )
+          (5): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(15,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(25,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+            )
+          )
+          (6): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(3,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(5,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+            )
+          )
+          (7): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(9,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(15,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+            )
+          )
+          (8): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(15,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(25,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+            )
+          )
+          (9): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(3,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(5,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+            )
+          )
+          (10): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(9,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(15,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+            )
+          )
+          (11): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(15,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(25,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+            )
+          )
+        )
+        (output_conv): Sequential(
+          (0): LeakyReLU(negative_slope=0.01)
+          (1): Conv1d(32, 1, kernel_size=(7,), stride=(1,), padding=(3,))
+          (2): Tanh()
+        )
+      )
+    )
+    (discriminator): HiFiGANMultiScaleMultiPeriodDiscriminator(
+      (msd): HiFiGANMultiScaleDiscriminator(
+        (discriminators): ModuleList(
+          (0): HiFiGANScaleDiscriminator(
+            (layers): ModuleList(
+              (0): Sequential(
+                (0): Conv1d(1, 128, kernel_size=(15,), stride=(1,), padding=(7,))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv1d(128, 128, kernel_size=(41,), stride=(2,), padding=(20,), groups=4)
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv1d(128, 256, kernel_size=(41,), stride=(2,), padding=(20,), groups=16)
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv1d(256, 512, kernel_size=(41,), stride=(4,), padding=(20,), groups=16)
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv1d(512, 1024, kernel_size=(41,), stride=(4,), padding=(20,), groups=16)
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (5): Sequential(
+                (0): Conv1d(1024, 1024, kernel_size=(41,), stride=(1,), padding=(20,), groups=16)
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (6): Sequential(
+                (0): Conv1d(1024, 1024, kernel_size=(5,), stride=(1,), padding=(2,))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (7): Conv1d(1024, 1, kernel_size=(3,), stride=(1,), padding=(1,))
+            )
+          )
+        )
+      )
+      (mpd): HiFiGANMultiPeriodDiscriminator(
+        (discriminators): ModuleList(
+          (0): HiFiGANPeriodDiscriminator(
+            (convs): ModuleList(
+              (0): Sequential(
+                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+            )
+            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
+          )
+          (1): HiFiGANPeriodDiscriminator(
+            (convs): ModuleList(
+              (0): Sequential(
+                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+            )
+            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
+          )
+          (2): HiFiGANPeriodDiscriminator(
+            (convs): ModuleList(
+              (0): Sequential(
+                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+            )
+            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
+          )
+          (3): HiFiGANPeriodDiscriminator(
+            (convs): ModuleList(
+              (0): Sequential(
+                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+            )
+            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
+          )
+          (4): HiFiGANPeriodDiscriminator(
+            (convs): ModuleList(
+              (0): Sequential(
+                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+            )
+            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
+          )
+        )
+      )
+    )
+    (generator_adv_loss): GeneratorAdversarialLoss()
+    (discriminator_adv_loss): DiscriminatorAdversarialLoss()
+    (feat_match_loss): FeatureMatchLoss()
+    (mel_loss): MelSpectrogramLoss(
+      (wav_to_mel): LogMelFbank(
+        (stft): Stft(n_fft=1024, win_length=1024, hop_length=256, center=True, normalized=False, onesided=True)
+        (logmel): LogMel(sr=24000, n_fft=1024, n_mels=80, fmin=0, fmax=12000.0, htk=False)
+      )
+    )
+    (var_loss): VarianceLoss(
+      (mse_criterion): MSELoss()
+      (duration_criterion): DurationPredictorLoss(
+        (criterion): MSELoss()
+      )
+    )
+    (forwardsum_loss): ForwardSumLoss()
+  )
+)
+Model summary:
+    Class Name: ESPnetGANTTSModel
+    Total Number of model parameters: 83.28 M
+    Number of trainable parameters: 83.28 M (100.0%)
+    Size: 333.11 MB
+    Type: torch.float32
+[92b100c97f43:0/4] 2025-03-04 21:35:42,651 (abs_task:1161) INFO: Optimizer:
+AdamW (
+Parameter Group 0
+    amsgrad: False
+    betas: [0.8, 0.99]
+    eps: 1e-09
+    initial_lr: 0.0002
+    lr: 0.0002
+    weight_decay: 0.0
+)
+[92b100c97f43:0/4] 2025-03-04 21:35:42,651 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f1cdc2a85b0>
+[92b100c97f43:0/4] 2025-03-04 21:35:42,651 (abs_task:1161) INFO: Optimizer2:
+AdamW (
+Parameter Group 0
+    amsgrad: False
+    betas: [0.8, 0.99]
+    eps: 1e-09
+    initial_lr: 0.0002
+    lr: 0.0002
+    weight_decay: 0.0
+)
+[92b100c97f43:0/4] 2025-03-04 21:35:42,652 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f1de6a6b9d0>
+[92b100c97f43:0/4] 2025-03-04 21:35:42,652 (abs_task:1171) INFO: Saving the configuration in exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/config.yaml
+[92b100c97f43:0/4] 2025-03-04 21:35:42,974 (abs_task:1525) INFO: [train] dataset:
+ESPnetDataset(
+  text: {"path": "dump/raw/jvs010_tr_no_dev/text", "type": "text"}
+  speech: {"path": "dump/raw/jvs010_tr_no_dev/wav.scp", "type": "sound"}
+  preprocess: <espnet2.train.preprocessor.CommonPreprocessor object at 0x7f1cdc2a8e20>)
+[92b100c97f43:0/4] 2025-03-04 21:35:42,974 (abs_task:1526) INFO: [train] Batch sampler: NumElementsBatchSampler(N-batch=3, batch_bins=9000000, sort_in_batch=descending, sort_batch=descending)
+[92b100c97f43:0/4] 2025-03-04 21:35:42,974 (abs_task:1527) INFO: [train] mini-batch sizes summary: N-batch=3, mean=33.3, min=6, max=53
+[92b100c97f43:0/4] 2025-03-04 21:35:42,994 (abs_task:1525) INFO: [valid] dataset:
+ESPnetDataset(
+  text: {"path": "dump/raw/jvs010_dev/text", "type": "text"}
+  speech: {"path": "dump/raw/jvs010_dev/wav.scp", "type": "sound"}
+  preprocess: <espnet2.train.preprocessor.CommonPreprocessor object at 0x7f1cdc2a8550>)
+[92b100c97f43:0/4] 2025-03-04 21:35:42,994 (abs_task:1526) INFO: [valid] Batch sampler: NumElementsBatchSampler(N-batch=1, batch_bins=9000000, sort_in_batch=descending, sort_batch=descending)
+[92b100c97f43:0/4] 2025-03-04 21:35:42,994 (abs_task:1527) INFO: [valid] mini-batch sizes summary: N-batch=1, mean=15.0, min=15, max=15
+[92b100c97f43:0/4] 2025-03-04 21:35:43,014 (abs_task:1525) INFO: [plot_att] dataset:
+ESPnetDataset(
+  text: {"path": "dump/raw/jvs010_dev/text", "type": "text"}
+  speech: {"path": "dump/raw/jvs010_dev/wav.scp", "type": "sound"}
+  preprocess: <espnet2.train.preprocessor.CommonPreprocessor object at 0x7f1cdc264190>)
+[92b100c97f43:0/4] 2025-03-04 21:35:43,014 (abs_task:1526) INFO: [plot_att] Batch sampler: UnsortedBatchSampler(N-batch=15, batch_size=1, key_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/text_shape.phn,
+[92b100c97f43:0/4] 2025-03-04 21:35:43,014 (abs_task:1527) INFO: [plot_att] mini-batch sizes summary: N-batch=3, mean=1.0, min=1, max=1
+92b100c97f43:1324139:1324139 [0] NCCL INFO Bootstrap : Using eth0:172.17.0.2<0>
+92b100c97f43:1324139:1324139 [0] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
+92b100c97f43:1324139:1324139 [0] misc/ibvwrap.cc:63 NCCL WARN Failed to open libibverbs.so[.1]
+92b100c97f43:1324139:1324139 [0] NCCL INFO NET/Socket : Using [0]eth0:172.17.0.2<0>
+92b100c97f43:1324139:1324139 [0] NCCL INFO Using network Socket
+NCCL version 2.10.3+cuda11.3
+92b100c97f43:1324142:1324142 [3] NCCL INFO Bootstrap : Using eth0:172.17.0.2<0>
+92b100c97f43:1324140:1324140 [1] NCCL INFO Bootstrap : Using eth0:172.17.0.2<0>
+92b100c97f43:1324142:1324142 [3] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
+92b100c97f43:1324140:1324140 [1] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
+92b100c97f43:1324142:1324142 [3] misc/ibvwrap.cc:63 NCCL WARN Failed to open libibverbs.so[.1]
+92b100c97f43:1324140:1324140 [1] misc/ibvwrap.cc:63 NCCL WARN Failed to open libibverbs.so[.1]
+92b100c97f43:1324142:1324142 [3] NCCL INFO NET/Socket : Using [0]eth0:172.17.0.2<0>
+92b100c97f43:1324140:1324140 [1] NCCL INFO NET/Socket : Using [0]eth0:172.17.0.2<0>
+92b100c97f43:1324142:1324142 [3] NCCL INFO Using network Socket
+92b100c97f43:1324140:1324140 [1] NCCL INFO Using network Socket
+92b100c97f43:1324141:1324141 [2] NCCL INFO Bootstrap : Using eth0:172.17.0.2<0>
+92b100c97f43:1324141:1324141 [2] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
+92b100c97f43:1324141:1324141 [2] misc/ibvwrap.cc:63 NCCL WARN Failed to open libibverbs.so[.1]
+92b100c97f43:1324141:1324141 [2] NCCL INFO NET/Socket : Using [0]eth0:172.17.0.2<0>
+92b100c97f43:1324141:1324141 [2] NCCL INFO Using network Socket
+92b100c97f43:1324139:1324177 [0] NCCL INFO Channel 00/02 :    0   1   2   3
+92b100c97f43:1324140:1324178 [1] NCCL INFO Trees [0] 2/-1/-1->1->0 [1] 2/-1/-1->1->0
+92b100c97f43:1324139:1324177 [0] NCCL INFO Channel 01/02 :    0   1   2   3
+92b100c97f43:1324141:1324180 [2] NCCL INFO Trees [0] 3/-1/-1->2->1 [1] 3/-1/-1->2->1
+92b100c97f43:1324142:1324179 [3] NCCL INFO Trees [0] -1/-1/-1->3->2 [1] -1/-1/-1->3->2
+92b100c97f43:1324139:1324177 [0] NCCL INFO Trees [0] 1/-1/-1->0->-1 [1] 1/-1/-1->0->-1
+92b100c97f43:1324140:1324178 [1] NCCL INFO Setting affinity for GPU 1 to ffff,ffffffff
+92b100c97f43:1324141:1324180 [2] NCCL INFO Setting affinity for GPU 2 to ffff,ffffffff
+92b100c97f43:1324142:1324179 [3] NCCL INFO Setting affinity for GPU 3 to ffff,ffffffff
+92b100c97f43:1324139:1324177 [0] NCCL INFO Setting affinity for GPU 0 to ffff,ffffffff
+92b100c97f43:1324140:1324178 [1] NCCL INFO Channel 00 : 1[40] -> 2[50] via direct shared memory
+92b100c97f43:1324142:1324179 [3] NCCL INFO Channel 00 : 3[60] -> 0[30] via direct shared memory
+92b100c97f43:1324140:1324178 [1] NCCL INFO Channel 01 : 1[40] -> 2[50] via direct shared memory
+92b100c97f43:1324142:1324179 [3] NCCL INFO Channel 01 : 3[60] -> 0[30] via direct shared memory
+92b100c97f43:1324141:1324180 [2] NCCL INFO Channel 00 : 2[50] -> 3[60] via direct shared memory
+92b100c97f43:1324139:1324177 [0] NCCL INFO Channel 00 : 0[30] -> 1[40] via direct shared memory
+92b100c97f43:1324141:1324180 [2] NCCL INFO Channel 01 : 2[50] -> 3[60] via direct shared memory
+92b100c97f43:1324139:1324177 [0] NCCL INFO Channel 01 : 0[30] -> 1[40] via direct shared memory
+92b100c97f43:1324142:1324179 [3] NCCL INFO Connected all rings
+92b100c97f43:1324140:1324178 [1] NCCL INFO Connected all rings
+92b100c97f43:1324142:1324179 [3] NCCL INFO Channel 00 : 3[60] -> 2[50] via direct shared memory
+92b100c97f43:1324142:1324179 [3] NCCL INFO Channel 01 : 3[60] -> 2[50] via direct shared memory
+92b100c97f43:1324141:1324180 [2] NCCL INFO Connected all rings
+92b100c97f43:1324139:1324177 [0] NCCL INFO Connected all rings
+92b100c97f43:1324140:1324178 [1] NCCL INFO Channel 00 : 1[40] -> 0[30] via direct shared memory
+92b100c97f43:1324140:1324178 [1] NCCL INFO Channel 01 : 1[40] -> 0[30] via direct shared memory
+92b100c97f43:1324141:1324180 [2] NCCL INFO Channel 00 : 2[50] -> 1[40] via direct shared memory
+92b100c97f43:1324141:1324180 [2] NCCL INFO Channel 01 : 2[50] -> 1[40] via direct shared memory
+92b100c97f43:1324139:1324177 [0] NCCL INFO Connected all trees
+92b100c97f43:1324139:1324177 [0] NCCL INFO threadThresholds 8/8/64 | 32/8/64 | 8/8/512
+92b100c97f43:1324139:1324177 [0] NCCL INFO 2 coll channels, 2 p2p channels, 2 p2p channels per peer
+92b100c97f43:1324142:1324179 [3] NCCL INFO Connected all trees
+92b100c97f43:1324142:1324179 [3] NCCL INFO threadThresholds 8/8/64 | 32/8/64 | 8/8/512
+92b100c97f43:1324142:1324179 [3] NCCL INFO 2 coll channels, 2 p2p channels, 2 p2p channels per peer
+92b100c97f43:1324140:1324178 [1] NCCL INFO Connected all trees
+92b100c97f43:1324140:1324178 [1] NCCL INFO threadThresholds 8/8/64 | 32/8/64 | 8/8/512
+92b100c97f43:1324140:1324178 [1] NCCL INFO 2 coll channels, 2 p2p channels, 2 p2p channels per peer
+92b100c97f43:1324141:1324180 [2] NCCL INFO Connected all trees
+92b100c97f43:1324141:1324180 [2] NCCL INFO threadThresholds 8/8/64 | 32/8/64 | 8/8/512
+92b100c97f43:1324141:1324180 [2] NCCL INFO 2 coll channels, 2 p2p channels, 2 p2p channels per peer
+92b100c97f43:1324140:1324178 [1] NCCL INFO comm 0x7ff3c40030d0 rank 1 nranks 4 cudaDev 1 busId 40 - Init COMPLETE
+92b100c97f43:1324142:1324179 [3] NCCL INFO comm 0x7f4ea80030d0 rank 3 nranks 4 cudaDev 3 busId 60 - Init COMPLETE
+92b100c97f43:1324139:1324177 [0] NCCL INFO comm 0x7f1bec0030d0 rank 0 nranks 4 cudaDev 0 busId 30 - Init COMPLETE
+92b100c97f43:1324139:1324139 [0] NCCL INFO Launch mode Parallel
+92b100c97f43:1324141:1324180 [2] NCCL INFO comm 0x7f0acc0030d0 rank 2 nranks 4 cudaDev 2 busId 50 - Init COMPLETE
+[92b100c97f43:0/4] 2025-03-04 21:35:43,535 (trainer:280) INFO: 1/130epoch started
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+[W reducer.cpp:1303] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+[W reducer.cpp:1303] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+[W reducer.cpp:1303] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+[W reducer.cpp:1303] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+Process SpawnProcess-3:
+Traceback (most recent call last):
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 315, in _bootstrap
+    self.run()
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 108, in run
+    self._target(*self._args, **self._kwargs)
+  File "/work/espnet/espnet2/tasks/abs_task.py", line 1315, in main_worker
+    cls.trainer.run(
+  File "/work/espnet/espnet2/train/trainer.py", line 286, in run
+    all_steps_are_invalid = cls.train_one_epoch(
+  File "/work/espnet/espnet2/train/gan_trainer.py", line 160, in train_one_epoch
+    retval = model(forward_generator=turn == "generator", **batch)
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/module.py", line 1102, in _call_impl
+    return forward_call(*input, **kwargs)
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/parallel/distributed.py", line 886, in forward
+    output = self.module(*inputs[0], **kwargs[0])
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/module.py", line 1102, in _call_impl
+    return forward_call(*input, **kwargs)
+  File "/work/espnet/espnet2/gan_tts/espnet_model.py", line 164, in forward
+    return self.tts(**batch)
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/module.py", line 1102, in _call_impl
+    return forward_call(*input, **kwargs)
+  File "/work/espnet/espnet2/gan_tts/jets/jets.py", line 339, in forward
+    return self._forward_generator(
+  File "/work/espnet/espnet2/gan_tts/jets/jets.py", line 452, in _forward_generator
+    feat_match_loss = self.feat_match_loss(p_hat, p)
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/module.py", line 1102, in _call_impl
+    return forward_call(*input, **kwargs)
+  File "/work/espnet/espnet2/gan_tts/hifigan/loss.py", line 210, in forward
+    feat_match_loss_ += F.l1_loss(feat_hat_, feat_.detach())
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/functional.py", line 3081, in l1_loss
+    return torch._C._nn.l1_loss(expanded_input, expanded_target, _Reduction.get_enum(reduction))
+RuntimeError: CUDA out of memory. Tried to allocate 80.00 MiB (GPU 2; 21.96 GiB total capacity; 7.64 GiB already allocated; 66.88 MiB free; 7.94 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+Process SpawnProcess-1:
+Traceback (most recent call last):
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 315, in _bootstrap
+    self.run()
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 108, in run
+    self._target(*self._args, **self._kwargs)
+  File "/work/espnet/espnet2/tasks/abs_task.py", line 1315, in main_worker
+    cls.trainer.run(
+  File "/work/espnet/espnet2/train/trainer.py", line 286, in run
+    all_steps_are_invalid = cls.train_one_epoch(
+  File "/work/espnet/espnet2/train/gan_trainer.py", line 160, in train_one_epoch
+    retval = model(forward_generator=turn == "generator", **batch)
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/module.py", line 1102, in _call_impl
+    return forward_call(*input, **kwargs)
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/parallel/distributed.py", line 886, in forward
+    output = self.module(*inputs[0], **kwargs[0])
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/module.py", line 1102, in _call_impl
+    return forward_call(*input, **kwargs)
+  File "/work/espnet/espnet2/gan_tts/espnet_model.py", line 164, in forward
+    return self.tts(**batch)
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/module.py", line 1102, in _call_impl
+    return forward_call(*input, **kwargs)
+  File "/work/espnet/espnet2/gan_tts/jets/jets.py", line 339, in forward
+    return self._forward_generator(
+  File "/work/espnet/espnet2/gan_tts/jets/jets.py", line 407, in _forward_generator
+    outs = self.generator(
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/module.py", line 1102, in _call_impl
+    return forward_call(*input, **kwargs)
+  File "/work/espnet/espnet2/gan_tts/jets/generator.py", line 626, in forward
+    wav = self.generator(z_segments)
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/module.py", line 1102, in _call_impl
+    return forward_call(*input, **kwargs)
+  File "/work/espnet/espnet2/gan_tts/hifigan/hifigan.py", line 160, in forward
+    cs += self.blocks[i * self.num_blocks + j](c)
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/module.py", line 1102, in _call_impl
+    return forward_call(*input, **kwargs)
+  File "/work/espnet/espnet2/gan_tts/hifigan/residual_block.py", line 97, in forward
+    xt = self.convs2[idx](xt)
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/module.py", line 1102, in _call_impl
+    return forward_call(*input, **kwargs)
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/container.py", line 141, in forward
+    input = module(input)
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/module.py", line 1102, in _call_impl
+    return forward_call(*input, **kwargs)
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/modules/activation.py", line 738, in forward
+    return F.leaky_relu(input, self.negative_slope, self.inplace)
+  File "/usr/local/lib/python3.8/dist-packages/torch/nn/functional.py", line 1475, in leaky_relu
+    result = torch._C._nn.leaky_relu(input, negative_slope)
+RuntimeError: CUDA out of memory. Tried to allocate 22.00 MiB (GPU 0; 21.96 GiB total capacity; 6.66 GiB already allocated; 3.50 MiB free; 6.83 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+Traceback (most recent call last):
+  File "/usr/lib/python3.8/runpy.py", line 194, in _run_module_as_main
+    return _run_code(code, main_globals, None,
+  File "/usr/lib/python3.8/runpy.py", line 87, in _run_code
+    exec(code, run_globals)
+  File "/work/espnet/espnet2/bin/gan_tts_train.py", line 22, in <module>
+    main()
+  File "/work/espnet/espnet2/bin/gan_tts_train.py", line 18, in main
+    GANTTSTask.main(cmd=cmd)
+  File "/work/espnet/espnet2/tasks/abs_task.py", line 1069, in main
+    while not ProcessContext(processes, error_queues).join():
+  File "/usr/local/lib/python3.8/dist-packages/torch/multiprocessing/spawn.py", line 139, in join
+    raise ProcessExitedException(
+torch.multiprocessing.spawn.ProcessExitedException: process 2 terminated with exit code 1
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+# Accounting: time=55 threads=1
+# Ended (code 1) at Tue Mar  4 21:36:08 JST 2025, elapsed time 55 seconds
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3.8/multiprocessing/resource_tracker.py:216: UserWarning: resource_tracker: There appear to be 208 leaked semaphore objects to clean up at shutdown
+  warnings.warn('resource_tracker: There appear to be %d '

exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/train.2.log ADDED Viewed

The diff for this file is too large to render. See raw diff

exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/train.3.log ADDED Viewed

	@@ -0,0 +1,1247 @@

+# python3 -m espnet2.bin.gan_tts_train --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize global_mvn --resume true --fold_length 150 --fold_length 240000 --output_dir exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/text_shape.phn --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/speech_shape --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/text_shape.phn --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/speech_shape --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --pitch_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/pitch_stats.npz --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200 --energy_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/energy_stats.npz --normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/feats_stats.npz --ngpu 4 --multiprocessing_distributed True
+# Started at Tue Mar  4 21:30:32 JST 2025
+#
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize global_mvn --resume true --fold_length 150 --fold_length 240000 --output_dir exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/text_shape.phn --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/speech_shape --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/text_shape.phn --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/speech_shape --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --pitch_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/pitch_stats.npz --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200 --energy_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/energy_stats.npz --normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/feats_stats.npz --ngpu 4 --multiprocessing_distributed True
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+[92b100c97f43:0/4] 2025-03-04 21:30:38,282 (distributed_c10d:217) INFO: Added key: store_based_barrier_key:1 to store for rank: 0
+[92b100c97f43:0/4] 2025-03-04 21:30:38,292 (distributed_c10d:251) INFO: Rank 0: Completed store-based barrier for key:store_based_barrier_key:1 with 4 nodes.
+[92b100c97f43:0/4] 2025-03-04 21:30:38,340 (gan_tts:304) INFO: Vocabulary size: 41
+[92b100c97f43:0/4] 2025-03-04 21:30:38,470 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43:0/4] 2025-03-04 21:30:38,693 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43:0/4] 2025-03-04 21:30:47,860 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
+[92b100c97f43:0/4] 2025-03-04 21:30:47,870 (abs_task:1158) INFO: Model structure:
+ESPnetGANTTSModel(
+  (feats_extract): LogMelFbank(
+    (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
+    (logmel): LogMel(sr=24000, n_fft=2048, n_mels=80, fmin=80, fmax=7600, htk=False)
+  )
+  (normalize): GlobalMVN(stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/feats_stats.npz, norm_means=True, norm_vars=True)
+  (pitch_extract): Dio()
+  (pitch_normalize): GlobalMVN(stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/pitch_stats.npz, norm_means=True, norm_vars=True)
+  (energy_extract): Energy(
+    (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
+  )
+  (energy_normalize): GlobalMVN(stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/energy_stats.npz, norm_means=True, norm_vars=True)
+  (tts): JETS(
+    (generator): JETSGenerator(
+      (encoder): Encoder(
+        (embed): Sequential(
+          (0): Embedding(41, 256, padding_idx=0)
+          (1): ScaledPositionalEncoding(
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+        )
+        (encoders): MultiSequential(
+          (0): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (1): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (2): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (3): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+        )
+        (after_norm): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+      )
+      (duration_predictor): DurationPredictor(
+        (conv): ModuleList(
+          (0): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.1, inplace=False)
+          )
+          (1): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.1, inplace=False)
+          )
+        )
+        (linear): Linear(in_features=256, out_features=1, bias=True)
+      )
+      (pitch_predictor): VariancePredictor(
+        (conv): ModuleList(
+          (0): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+          (1): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+          (2): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+          (3): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+          (4): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+        )
+        (linear): Linear(in_features=256, out_features=1, bias=True)
+      )
+      (pitch_embed): Sequential(
+        (0): Conv1d(1, 256, kernel_size=(1,), stride=(1,))
+        (1): Dropout(p=0.0, inplace=False)
+      )
+      (energy_predictor): VariancePredictor(
+        (conv): ModuleList(
+          (0): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+          (1): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+        )
+        (linear): Linear(in_features=256, out_features=1, bias=True)
+      )
+      (energy_embed): Sequential(
+        (0): Conv1d(1, 256, kernel_size=(1,), stride=(1,))
+        (1): Dropout(p=0.0, inplace=False)
+      )
+      (alignment_module): AlignmentModule(
+        (t_conv1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+        (t_conv2): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (f_conv1): Conv1d(80, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+        (f_conv2): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+        (f_conv3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+      )
+      (length_regulator): GaussianUpsampling()
+      (decoder): Encoder(
+        (embed): Sequential(
+          (0): ScaledPositionalEncoding(
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+        )
+        (encoders): MultiSequential(
+          (0): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (1): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (2): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (3): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+        )
+        (after_norm): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+      )
+      (generator): HiFiGANGenerator(
+        (input_conv): Conv1d(256, 512, kernel_size=(7,), stride=(1,), padding=(3,))
+        (upsamples): ModuleList(
+          (0): Sequential(
+            (0): LeakyReLU(negative_slope=0.1)
+            (1): ConvTranspose1d(512, 256, kernel_size=(16,), stride=(8,), padding=(4,))
+          )
+          (1): Sequential(
+            (0): LeakyReLU(negative_slope=0.1)
+            (1): ConvTranspose1d(256, 128, kernel_size=(16,), stride=(8,), padding=(4,))
+          )
+          (2): Sequential(
+            (0): LeakyReLU(negative_slope=0.1)
+            (1): ConvTranspose1d(128, 64, kernel_size=(4,), stride=(2,), padding=(1,))
+          )
+          (3): Sequential(
+            (0): LeakyReLU(negative_slope=0.1)
+            (1): ConvTranspose1d(64, 32, kernel_size=(4,), stride=(2,), padding=(1,))
+          )
+        )
+        (blocks): ModuleList(
+          (0): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(3,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(5,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+            )
+          )
+          (1): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(9,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(15,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+            )
+          )
+          (2): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(15,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(25,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+            )
+          )
+          (3): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(3,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(5,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+            )
+          )
+          (4): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(9,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(15,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+            )
+          )
+          (5): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(15,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(25,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+            )
+          )
+          (6): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(3,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(5,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+            )
+          )
+          (7): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(9,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(15,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+            )
+          )
+          (8): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(15,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(25,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+            )
+          )
+          (9): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(3,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(5,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+            )
+          )
+          (10): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(9,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(15,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+            )
+          )
+          (11): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(15,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(25,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+            )
+          )
+        )
+        (output_conv): Sequential(
+          (0): LeakyReLU(negative_slope=0.01)
+          (1): Conv1d(32, 1, kernel_size=(7,), stride=(1,), padding=(3,))
+          (2): Tanh()
+        )
+      )
+    )
+    (discriminator): HiFiGANMultiScaleMultiPeriodDiscriminator(
+      (msd): HiFiGANMultiScaleDiscriminator(
+        (discriminators): ModuleList(
+          (0): HiFiGANScaleDiscriminator(
+            (layers): ModuleList(
+              (0): Sequential(
+                (0): Conv1d(1, 128, kernel_size=(15,), stride=(1,), padding=(7,))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv1d(128, 128, kernel_size=(41,), stride=(2,), padding=(20,), groups=4)
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv1d(128, 256, kernel_size=(41,), stride=(2,), padding=(20,), groups=16)
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv1d(256, 512, kernel_size=(41,), stride=(4,), padding=(20,), groups=16)
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv1d(512, 1024, kernel_size=(41,), stride=(4,), padding=(20,), groups=16)
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (5): Sequential(
+                (0): Conv1d(1024, 1024, kernel_size=(41,), stride=(1,), padding=(20,), groups=16)
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (6): Sequential(
+                (0): Conv1d(1024, 1024, kernel_size=(5,), stride=(1,), padding=(2,))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (7): Conv1d(1024, 1, kernel_size=(3,), stride=(1,), padding=(1,))
+            )
+          )
+        )
+      )
+      (mpd): HiFiGANMultiPeriodDiscriminator(
+        (discriminators): ModuleList(
+          (0): HiFiGANPeriodDiscriminator(
+            (convs): ModuleList(
+              (0): Sequential(
+                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+            )
+            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
+          )
+          (1): HiFiGANPeriodDiscriminator(
+            (convs): ModuleList(
+              (0): Sequential(
+                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+            )
+            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
+          )
+          (2): HiFiGANPeriodDiscriminator(
+            (convs): ModuleList(
+              (0): Sequential(
+                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+            )
+            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
+          )
+          (3): HiFiGANPeriodDiscriminator(
+            (convs): ModuleList(
+              (0): Sequential(
+                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+            )
+            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
+          )
+          (4): HiFiGANPeriodDiscriminator(
+            (convs): ModuleList(
+              (0): Sequential(
+                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+            )
+            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
+          )
+        )
+      )
+    )
+    (generator_adv_loss): GeneratorAdversarialLoss()
+    (discriminator_adv_loss): DiscriminatorAdversarialLoss()
+    (feat_match_loss): FeatureMatchLoss()
+    (mel_loss): MelSpectrogramLoss(
+      (wav_to_mel): LogMelFbank(
+        (stft): Stft(n_fft=1024, win_length=1024, hop_length=256, center=True, normalized=False, onesided=True)
+        (logmel): LogMel(sr=24000, n_fft=1024, n_mels=80, fmin=0, fmax=12000.0, htk=False)
+      )
+    )
+    (var_loss): VarianceLoss(
+      (mse_criterion): MSELoss()
+      (duration_criterion): DurationPredictorLoss(
+        (criterion): MSELoss()
+      )
+    )
+    (forwardsum_loss): ForwardSumLoss()
+  )
+)
+Model summary:
+    Class Name: ESPnetGANTTSModel
+    Total Number of model parameters: 83.28 M
+    Number of trainable parameters: 83.28 M (100.0%)
+    Size: 333.11 MB
+    Type: torch.float32
+[92b100c97f43:0/4] 2025-03-04 21:30:47,870 (abs_task:1161) INFO: Optimizer:
+AdamW (
+Parameter Group 0
+    amsgrad: False
+    betas: [0.8, 0.99]
+    eps: 1e-09
+    initial_lr: 0.0002
+    lr: 0.0002
+    weight_decay: 0.0
+)
+[92b100c97f43:0/4] 2025-03-04 21:30:47,870 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f3cb00fb550>
+[92b100c97f43:0/4] 2025-03-04 21:30:47,870 (abs_task:1161) INFO: Optimizer2:
+AdamW (
+Parameter Group 0
+    amsgrad: False
+    betas: [0.8, 0.99]
+    eps: 1e-09
+    initial_lr: 0.0002
+    lr: 0.0002
+    weight_decay: 0.0
+)
+[92b100c97f43:0/4] 2025-03-04 21:30:47,870 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f3dab0d89d0>
+[92b100c97f43:0/4] 2025-03-04 21:30:47,871 (abs_task:1171) INFO: Saving the configuration in exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/config.yaml
+[92b100c97f43:0/4] 2025-03-04 21:30:48,205 (abs_task:1525) INFO: [train] dataset:
+ESPnetDataset(
+  text: {"path": "dump/raw/jvs010_tr_no_dev/text", "type": "text"}
+  speech: {"path": "dump/raw/jvs010_tr_no_dev/wav.scp", "type": "sound"}
+  preprocess: <espnet2.train.preprocessor.CommonPreprocessor object at 0x7f3cb00fbdc0>)
+[92b100c97f43:0/4] 2025-03-04 21:30:48,205 (abs_task:1526) INFO: [train] Batch sampler: NumElementsBatchSampler(N-batch=3, batch_bins=9000000, sort_in_batch=descending, sort_batch=descending)
+[92b100c97f43:0/4] 2025-03-04 21:30:48,205 (abs_task:1527) INFO: [train] mini-batch sizes summary: N-batch=3, mean=33.3, min=6, max=53
+[92b100c97f43:0/4] 2025-03-04 21:30:48,225 (abs_task:1525) INFO: [valid] dataset:
+ESPnetDataset(
+  text: {"path": "dump/raw/jvs010_dev/text", "type": "text"}
+  speech: {"path": "dump/raw/jvs010_dev/wav.scp", "type": "sound"}
+  preprocess: <espnet2.train.preprocessor.CommonPreprocessor object at 0x7f3cb00fb520>)
+[92b100c97f43:0/4] 2025-03-04 21:30:48,225 (abs_task:1526) INFO: [valid] Batch sampler: NumElementsBatchSampler(N-batch=1, batch_bins=9000000, sort_in_batch=descending, sort_batch=descending)
+[92b100c97f43:0/4] 2025-03-04 21:30:48,225 (abs_task:1527) INFO: [valid] mini-batch sizes summary: N-batch=1, mean=15.0, min=15, max=15
+[92b100c97f43:0/4] 2025-03-04 21:30:48,244 (abs_task:1525) INFO: [plot_att] dataset:
+ESPnetDataset(
+  text: {"path": "dump/raw/jvs010_dev/text", "type": "text"}
+  speech: {"path": "dump/raw/jvs010_dev/wav.scp", "type": "sound"}
+  preprocess: <espnet2.train.preprocessor.CommonPreprocessor object at 0x7f3cb00b7130>)
+[92b100c97f43:0/4] 2025-03-04 21:30:48,244 (abs_task:1526) INFO: [plot_att] Batch sampler: UnsortedBatchSampler(N-batch=15, batch_size=1, key_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/text_shape.phn,
+[92b100c97f43:0/4] 2025-03-04 21:30:48,244 (abs_task:1527) INFO: [plot_att] mini-batch sizes summary: N-batch=3, mean=1.0, min=1, max=1
+92b100c97f43:1179446:1179446 [0] NCCL INFO Bootstrap : Using eth0:172.17.0.2<0>
+92b100c97f43:1179446:1179446 [0] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
+92b100c97f43:1179446:1179446 [0] misc/ibvwrap.cc:63 NCCL WARN Failed to open libibverbs.so[.1]
+92b100c97f43:1179446:1179446 [0] NCCL INFO NET/Socket : Using [0]eth0:172.17.0.2<0>
+92b100c97f43:1179446:1179446 [0] NCCL INFO Using network Socket
+NCCL version 2.10.3+cuda11.3
+92b100c97f43:1179447:1179447 [1] NCCL INFO Bootstrap : Using eth0:172.17.0.2<0>
+92b100c97f43:1179449:1179449 [3] NCCL INFO Bootstrap : Using eth0:172.17.0.2<0>
+92b100c97f43:1179447:1179447 [1] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
+92b100c97f43:1179449:1179449 [3] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
+92b100c97f43:1179447:1179447 [1] misc/ibvwrap.cc:63 NCCL WARN Failed to open libibverbs.so[.1]
+92b100c97f43:1179449:1179449 [3] misc/ibvwrap.cc:63 NCCL WARN Failed to open libibverbs.so[.1]
+92b100c97f43:1179447:1179447 [1] NCCL INFO NET/Socket : Using [0]eth0:172.17.0.2<0>
+92b100c97f43:1179449:1179449 [3] NCCL INFO NET/Socket : Using [0]eth0:172.17.0.2<0>
+92b100c97f43:1179447:1179447 [1] NCCL INFO Using network Socket
+92b100c97f43:1179449:1179449 [3] NCCL INFO Using network Socket
+92b100c97f43:1179448:1179448 [2] NCCL INFO Bootstrap : Using eth0:172.17.0.2<0>
+92b100c97f43:1179448:1179448 [2] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
+92b100c97f43:1179448:1179448 [2] misc/ibvwrap.cc:63 NCCL WARN Failed to open libibverbs.so[.1]
+92b100c97f43:1179448:1179448 [2] NCCL INFO NET/Socket : Using [0]eth0:172.17.0.2<0>
+92b100c97f43:1179448:1179448 [2] NCCL INFO Using network Socket
+92b100c97f43:1179446:1179484 [0] NCCL INFO Channel 00/02 :    0   1   2   3
+92b100c97f43:1179447:1179485 [1] NCCL INFO Trees [0] 2/-1/-1->1->0 [1] 2/-1/-1->1->0
+92b100c97f43:1179448:1179487 [2] NCCL INFO Trees [0] 3/-1/-1->2->1 [1] 3/-1/-1->2->1
+92b100c97f43:1179449:1179486 [3] NCCL INFO Trees [0] -1/-1/-1->3->2 [1] -1/-1/-1->3->2
+92b100c97f43:1179446:1179484 [0] NCCL INFO Channel 01/02 :    0   1   2   3
+92b100c97f43:1179447:1179485 [1] NCCL INFO Setting affinity for GPU 1 to ffff,ffffffff
+92b100c97f43:1179448:1179487 [2] NCCL INFO Setting affinity for GPU 2 to ffff,ffffffff
+92b100c97f43:1179446:1179484 [0] NCCL INFO Trees [0] 1/-1/-1->0->-1 [1] 1/-1/-1->0->-1
+92b100c97f43:1179449:1179486 [3] NCCL INFO Setting affinity for GPU 3 to ffff,ffffffff
+92b100c97f43:1179446:1179484 [0] NCCL INFO Setting affinity for GPU 0 to ffff,ffffffff
+92b100c97f43:1179449:1179486 [3] NCCL INFO Channel 00 : 3[60] -> 0[30] via direct shared memory
+92b100c97f43:1179448:1179487 [2] NCCL INFO Channel 00 : 2[50] -> 3[60] via direct shared memory
+92b100c97f43:1179449:1179486 [3] NCCL INFO Channel 01 : 3[60] -> 0[30] via direct shared memory
+92b100c97f43:1179448:1179487 [2] NCCL INFO Channel 01 : 2[50] -> 3[60] via direct shared memory
+92b100c97f43:1179447:1179485 [1] NCCL INFO Channel 00 : 1[40] -> 2[50] via direct shared memory
+92b100c97f43:1179446:1179484 [0] NCCL INFO Channel 00 : 0[30] -> 1[40] via direct shared memory
+92b100c97f43:1179446:1179484 [0] NCCL INFO Channel 01 : 0[30] -> 1[40] via direct shared memory
+92b100c97f43:1179447:1179485 [1] NCCL INFO Channel 01 : 1[40] -> 2[50] via direct shared memory
+92b100c97f43:1179448:1179487 [2] NCCL INFO Connected all rings
+92b100c97f43:1179447:1179485 [1] NCCL INFO Connected all rings
+92b100c97f43:1179446:1179484 [0] NCCL INFO Connected all rings
+92b100c97f43:1179448:1179487 [2] NCCL INFO Channel 00 : 2[50] -> 1[40] via direct shared memory
+92b100c97f43:1179448:1179487 [2] NCCL INFO Channel 01 : 2[50] -> 1[40] via direct shared memory
+92b100c97f43:1179449:1179486 [3] NCCL INFO Connected all rings
+92b100c97f43:1179449:1179486 [3] NCCL INFO Channel 00 : 3[60] -> 2[50] via direct shared memory
+92b100c97f43:1179449:1179486 [3] NCCL INFO Channel 01 : 3[60] -> 2[50] via direct shared memory
+92b100c97f43:1179449:1179486 [3] NCCL INFO Connected all trees
+92b100c97f43:1179449:1179486 [3] NCCL INFO threadThresholds 8/8/64 | 32/8/64 | 8/8/512
+92b100c97f43:1179449:1179486 [3] NCCL INFO 2 coll channels, 2 p2p channels, 2 p2p channels per peer
+92b100c97f43:1179447:1179485 [1] NCCL INFO Channel 00 : 1[40] -> 0[30] via direct shared memory
+92b100c97f43:1179447:1179485 [1] NCCL INFO Channel 01 : 1[40] -> 0[30] via direct shared memory
+92b100c97f43:1179446:1179484 [0] NCCL INFO Connected all trees
+92b100c97f43:1179446:1179484 [0] NCCL INFO threadThresholds 8/8/64 | 32/8/64 | 8/8/512
+92b100c97f43:1179446:1179484 [0] NCCL INFO 2 coll channels, 2 p2p channels, 2 p2p channels per peer
+92b100c97f43:1179447:1179485 [1] NCCL INFO Connected all trees
+92b100c97f43:1179448:1179487 [2] NCCL INFO Connected all trees
+92b100c97f43:1179447:1179485 [1] NCCL INFO threadThresholds 8/8/64 | 32/8/64 | 8/8/512
+92b100c97f43:1179447:1179485 [1] NCCL INFO 2 coll channels, 2 p2p channels, 2 p2p channels per peer
+92b100c97f43:1179448:1179487 [2] NCCL INFO threadThresholds 8/8/64 | 32/8/64 | 8/8/512
+92b100c97f43:1179448:1179487 [2] NCCL INFO 2 coll channels, 2 p2p channels, 2 p2p channels per peer
+92b100c97f43:1179449:1179486 [3] NCCL INFO comm 0x7f41ac0030d0 rank 3 nranks 4 cudaDev 3 busId 60 - Init COMPLETE
+92b100c97f43:1179448:1179487 [2] NCCL INFO comm 0x7fc9b80030d0 rank 2 nranks 4 cudaDev 2 busId 50 - Init COMPLETE
+92b100c97f43:1179447:1179485 [1] NCCL INFO comm 0x7fe4540030d0 rank 1 nranks 4 cudaDev 1 busId 40 - Init COMPLETE
+92b100c97f43:1179446:1179484 [0] NCCL INFO comm 0x7f3bc40030d0 rank 0 nranks 4 cudaDev 0 busId 30 - Init COMPLETE
+92b100c97f43:1179446:1179446 [0] NCCL INFO Launch mode Parallel
+[92b100c97f43:0/4] 2025-03-04 21:30:48,689 (trainer:280) INFO: 1/130epoch started
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+[W reducer.cpp:1303] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+[W reducer.cpp:1303] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+[W reducer.cpp:1303] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+[W reducer.cpp:1303] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+[92b100c97f43:0/4] 2025-03-04 21:32:50,772 (gan_trainer:305) INFO: 1epoch:train:1-50batch: iter_time=0.045, generator_forward_time=0.898, generator_loss=140.208, generator_g_loss=110.977, generator_var_loss=5.358, generator_align_loss=23.874, generator_g_mel_loss=107.112, generator_g_adv_loss=2.215, generator_g_feat_match_loss=1.649, generator_var_dur_loss=0.605, generator_var_pitch_loss=2.439, generator_var_energy_loss=2.314, generator_align_forwardsum_loss=10.578, generator_align_bin_loss=1.359, generator_backward_time=0.317, generator_optim_step_time=0.033, optim0_lr0=2.000e-04, generator_train_time=1.350, discriminator_forward_time=0.690, discriminator_loss=2.784, discriminator_real_loss=1.570, discriminator_fake_loss=1.214, discriminator_backward_time=0.228, discriminator_optim_step_time=0.008, optim1_lr0=2.000e-04, discriminator_train_time=0.965, train_time=2.439
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+Traceback (most recent call last):
+  File "/usr/lib/python3.8/runpy.py", line 194, in _run_module_as_main
+    return _run_code(code, main_globals, None,
+  File "/usr/lib/python3.8/runpy.py", line 87, in _run_code
+    exec(code, run_globals)
+  File "/work/espnet/espnet2/bin/gan_tts_train.py", line 22, in <module>
+    main()
+  File "/work/espnet/espnet2/bin/gan_tts_train.py", line 18, in main
+    GANTTSTask.main(cmd=cmd)
+  File "/work/espnet/espnet2/tasks/abs_task.py", line 1069, in main
+    while not ProcessContext(processes, error_queues).join():
+  File "/usr/local/lib/python3.8/dist-packages/torch/multiprocessing/spawn.py", line 99, in join
+    ready = multiprocessing.connection.wait(
+  File "/usr/lib/python3.8/multiprocessing/connection.py", line 931, in wait
+    ready = selector.select(timeout)
+  File "/usr/lib/python3.8/selectors.py", line 415, in select
+    fd_event_list = self._selector.poll(timeout)
+KeyboardInterrupt
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+Process SpawnProcess-2:
+Traceback (most recent call last):
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 315, in _bootstrap
+    self.run()
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 108, in run
+    self._target(*self._args, **self._kwargs)
+  File "/work/espnet/espnet2/tasks/abs_task.py", line 1315, in main_worker
+    cls.trainer.run(
+  File "/work/espnet/espnet2/train/trainer.py", line 286, in run
+    all_steps_are_invalid = cls.train_one_epoch(
+  File "/work/espnet/espnet2/train/gan_trainer.py", line 202, in train_one_epoch
+    stats, weight = recursive_average(stats, weight, distributed)
+  File "/work/espnet/espnet2/torch_utils/recursive_op.py", line 41, in recursive_average
+    obj = recursive_sum(obj, weight, distributed)
+  File "/work/espnet/espnet2/torch_utils/recursive_op.py", line 13, in recursive_sum
+    return {k: recursive_sum(v, weight, distributed) for k, v in obj.items()}
+  File "/work/espnet/espnet2/torch_utils/recursive_op.py", line 13, in <dictcomp>
+    return {k: recursive_sum(v, weight, distributed) for k, v in obj.items()}
+  File "/work/espnet/espnet2/torch_utils/recursive_op.py", line 18, in recursive_sum
+    torch.distributed.all_reduce(obj, op=ReduceOp.SUM)
+  File "/usr/local/lib/python3.8/dist-packages/torch/distributed/distributed_c10d.py", line 1292, in all_reduce
+    work.wait()
+KeyboardInterrupt
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+Process SpawnProcess-4:
+Traceback (most recent call last):
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 315, in _bootstrap
+    self.run()
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 108, in run
+    self._target(*self._args, **self._kwargs)
+  File "/work/espnet/espnet2/tasks/abs_task.py", line 1315, in main_worker
+    cls.trainer.run(
+  File "/work/espnet/espnet2/train/trainer.py", line 286, in run
+    all_steps_are_invalid = cls.train_one_epoch(
+  File "/work/espnet/espnet2/train/gan_trainer.py", line 202, in train_one_epoch
+    stats, weight = recursive_average(stats, weight, distributed)
+  File "/work/espnet/espnet2/torch_utils/recursive_op.py", line 41, in recursive_average
+    obj = recursive_sum(obj, weight, distributed)
+  File "/work/espnet/espnet2/torch_utils/recursive_op.py", line 13, in recursive_sum
+    return {k: recursive_sum(v, weight, distributed) for k, v in obj.items()}
+  File "/work/espnet/espnet2/torch_utils/recursive_op.py", line 13, in <dictcomp>
+    return {k: recursive_sum(v, weight, distributed) for k, v in obj.items()}
+  File "/work/espnet/espnet2/torch_utils/recursive_op.py", line 18, in recursive_sum
+    torch.distributed.all_reduce(obj, op=ReduceOp.SUM)
+  File "/usr/local/lib/python3.8/dist-packages/torch/distributed/distributed_c10d.py", line 1292, in all_reduce
+    work.wait()
+KeyboardInterrupt
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+Process SpawnProcess-3:
+Traceback (most recent call last):
+  File "/work/espnet/espnet2/train/gan_trainer.py", line 202, in train_one_epoch
+    stats, weight = recursive_average(stats, weight, distributed)
+  File "/work/espnet/espnet2/torch_utils/recursive_op.py", line 41, in recursive_average
+    obj = recursive_sum(obj, weight, distributed)
+  File "/work/espnet/espnet2/torch_utils/recursive_op.py", line 13, in recursive_sum
+    return {k: recursive_sum(v, weight, distributed) for k, v in obj.items()}
+  File "/work/espnet/espnet2/torch_utils/recursive_op.py", line 13, in <dictcomp>
+    return {k: recursive_sum(v, weight, distributed) for k, v in obj.items()}
+  File "/work/espnet/espnet2/torch_utils/recursive_op.py", line 18, in recursive_sum
+    torch.distributed.all_reduce(obj, op=ReduceOp.SUM)
+  File "/usr/local/lib/python3.8/dist-packages/torch/distributed/distributed_c10d.py", line 1292, in all_reduce
+    work.wait()
+RuntimeError: [Rank 2] Caught collective operation timeout: WorkNCCL(OpType=ALLREDUCE, TensorShape=[], Timeout(ms)=1800000) ran for 1800396 milliseconds before timing out.
+During handling of the above exception, another exception occurred:
+Traceback (most recent call last):
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 315, in _bootstrap
+    self.run()
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 108, in run
+    self._target(*self._args, **self._kwargs)
+  File "/work/espnet/espnet2/tasks/abs_task.py", line 1315, in main_worker
+    cls.trainer.run(
+  File "/work/espnet/espnet2/train/trainer.py", line 286, in run
+    all_steps_are_invalid = cls.train_one_epoch(
+  File "/work/espnet/espnet2/train/gan_trainer.py", line 202, in train_one_epoch
+    stats, weight = recursive_average(stats, weight, distributed)
+KeyboardInterrupt
+Process SpawnProcess-1:
+Traceback (most recent call last):
+  File "/work/espnet/espnet2/train/gan_trainer.py", line 202, in train_one_epoch
+    stats, weight = recursive_average(stats, weight, distributed)
+  File "/work/espnet/espnet2/torch_utils/recursive_op.py", line 41, in recursive_average
+    obj = recursive_sum(obj, weight, distributed)
+  File "/work/espnet/espnet2/torch_utils/recursive_op.py", line 13, in recursive_sum
+    return {k: recursive_sum(v, weight, distributed) for k, v in obj.items()}
+  File "/work/espnet/espnet2/torch_utils/recursive_op.py", line 13, in <dictcomp>
+    return {k: recursive_sum(v, weight, distributed) for k, v in obj.items()}
+  File "/work/espnet/espnet2/torch_utils/recursive_op.py", line 18, in recursive_sum
+    torch.distributed.all_reduce(obj, op=ReduceOp.SUM)
+  File "/usr/local/lib/python3.8/dist-packages/torch/distributed/distributed_c10d.py", line 1292, in all_reduce
+    work.wait()
+RuntimeError: [Rank 0] Caught collective operation timeout: WorkNCCL(OpType=ALLREDUCE, TensorShape=[], Timeout(ms)=1800000) ran for 1800456 milliseconds before timing out.
+During handling of the above exception, another exception occurred:
+Traceback (most recent call last):
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 315, in _bootstrap
+    self.run()
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 108, in run
+    self._target(*self._args, **self._kwargs)
+  File "/work/espnet/espnet2/tasks/abs_task.py", line 1315, in main_worker
+    cls.trainer.run(
+  File "/work/espnet/espnet2/train/trainer.py", line 286, in run
+    all_steps_are_invalid = cls.train_one_epoch(
+  File "/work/espnet/espnet2/train/gan_trainer.py", line 202, in train_one_epoch
+    stats, weight = recursive_average(stats, weight, distributed)
+KeyboardInterrupt

exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/train.4.log ADDED Viewed

	@@ -0,0 +1,1212 @@

+# python3 -m espnet2.bin.gan_tts_train --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize global_mvn --resume true --fold_length 150 --fold_length 240000 --output_dir exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/text_shape.phn --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/speech_shape --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/text_shape.phn --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/speech_shape --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --pitch_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/pitch_stats.npz --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200 --energy_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/energy_stats.npz --normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/feats_stats.npz --ngpu 4 --multiprocessing_distributed True
+# Started at Tue Mar  4 21:23:38 JST 2025
+#
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize global_mvn --resume true --fold_length 150 --fold_length 240000 --output_dir exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/text_shape.phn --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/speech_shape --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/text_shape.phn --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/speech_shape --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --pitch_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/pitch_stats.npz --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200 --energy_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/energy_stats.npz --normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/feats_stats.npz --ngpu 4 --multiprocessing_distributed True
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+[92b100c97f43:0/4] 2025-03-04 21:23:44,840 (distributed_c10d:217) INFO: Added key: store_based_barrier_key:1 to store for rank: 0
+[92b100c97f43:0/4] 2025-03-04 21:23:44,840 (distributed_c10d:251) INFO: Rank 0: Completed store-based barrier for key:store_based_barrier_key:1 with 4 nodes.
+[92b100c97f43:0/4] 2025-03-04 21:23:44,896 (gan_tts:304) INFO: Vocabulary size: 41
+[92b100c97f43:0/4] 2025-03-04 21:23:45,027 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43:0/4] 2025-03-04 21:23:45,249 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43:0/4] 2025-03-04 21:23:54,351 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
+[92b100c97f43:0/4] 2025-03-04 21:23:54,361 (abs_task:1158) INFO: Model structure:
+ESPnetGANTTSModel(
+  (feats_extract): LogMelFbank(
+    (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
+    (logmel): LogMel(sr=24000, n_fft=2048, n_mels=80, fmin=80, fmax=7600, htk=False)
+  )
+  (normalize): GlobalMVN(stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/feats_stats.npz, norm_means=True, norm_vars=True)
+  (pitch_extract): Dio()
+  (pitch_normalize): GlobalMVN(stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/pitch_stats.npz, norm_means=True, norm_vars=True)
+  (energy_extract): Energy(
+    (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
+  )
+  (energy_normalize): GlobalMVN(stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/energy_stats.npz, norm_means=True, norm_vars=True)
+  (tts): JETS(
+    (generator): JETSGenerator(
+      (encoder): Encoder(
+        (embed): Sequential(
+          (0): Embedding(41, 256, padding_idx=0)
+          (1): ScaledPositionalEncoding(
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+        )
+        (encoders): MultiSequential(
+          (0): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (1): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (2): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (3): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+        )
+        (after_norm): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+      )
+      (duration_predictor): DurationPredictor(
+        (conv): ModuleList(
+          (0): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.1, inplace=False)
+          )
+          (1): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.1, inplace=False)
+          )
+        )
+        (linear): Linear(in_features=256, out_features=1, bias=True)
+      )
+      (pitch_predictor): VariancePredictor(
+        (conv): ModuleList(
+          (0): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+          (1): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+          (2): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+          (3): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+          (4): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+        )
+        (linear): Linear(in_features=256, out_features=1, bias=True)
+      )
+      (pitch_embed): Sequential(
+        (0): Conv1d(1, 256, kernel_size=(1,), stride=(1,))
+        (1): Dropout(p=0.0, inplace=False)
+      )
+      (energy_predictor): VariancePredictor(
+        (conv): ModuleList(
+          (0): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+          (1): Sequential(
+            (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+            (1): ReLU()
+            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (3): Dropout(p=0.5, inplace=False)
+          )
+        )
+        (linear): Linear(in_features=256, out_features=1, bias=True)
+      )
+      (energy_embed): Sequential(
+        (0): Conv1d(1, 256, kernel_size=(1,), stride=(1,))
+        (1): Dropout(p=0.0, inplace=False)
+      )
+      (alignment_module): AlignmentModule(
+        (t_conv1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+        (t_conv2): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+        (f_conv1): Conv1d(80, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+        (f_conv2): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+        (f_conv3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
+      )
+      (length_regulator): GaussianUpsampling()
+      (decoder): Encoder(
+        (embed): Sequential(
+          (0): ScaledPositionalEncoding(
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+        )
+        (encoders): MultiSequential(
+          (0): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (1): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (2): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+          (3): EncoderLayer(
+            (self_attn): MultiHeadedAttention(
+              (linear_q): Linear(in_features=256, out_features=256, bias=True)
+              (linear_k): Linear(in_features=256, out_features=256, bias=True)
+              (linear_v): Linear(in_features=256, out_features=256, bias=True)
+              (linear_out): Linear(in_features=256, out_features=256, bias=True)
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (feed_forward): MultiLayeredConv1d(
+              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
+              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              (dropout): Dropout(p=0.2, inplace=False)
+            )
+            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+            (dropout): Dropout(p=0.2, inplace=False)
+          )
+        )
+        (after_norm): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
+      )
+      (generator): HiFiGANGenerator(
+        (input_conv): Conv1d(256, 512, kernel_size=(7,), stride=(1,), padding=(3,))
+        (upsamples): ModuleList(
+          (0): Sequential(
+            (0): LeakyReLU(negative_slope=0.1)
+            (1): ConvTranspose1d(512, 256, kernel_size=(16,), stride=(8,), padding=(4,))
+          )
+          (1): Sequential(
+            (0): LeakyReLU(negative_slope=0.1)
+            (1): ConvTranspose1d(256, 128, kernel_size=(16,), stride=(8,), padding=(4,))
+          )
+          (2): Sequential(
+            (0): LeakyReLU(negative_slope=0.1)
+            (1): ConvTranspose1d(128, 64, kernel_size=(4,), stride=(2,), padding=(1,))
+          )
+          (3): Sequential(
+            (0): LeakyReLU(negative_slope=0.1)
+            (1): ConvTranspose1d(64, 32, kernel_size=(4,), stride=(2,), padding=(1,))
+          )
+        )
+        (blocks): ModuleList(
+          (0): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(3,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(5,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+            )
+          )
+          (1): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(9,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(15,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+            )
+          )
+          (2): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(15,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(25,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+            )
+          )
+          (3): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(3,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(5,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+            )
+          )
+          (4): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(9,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(15,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+            )
+          )
+          (5): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(15,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(25,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+            )
+          )
+          (6): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(3,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(5,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+            )
+          )
+          (7): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(9,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(15,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+            )
+          )
+          (8): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(15,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(25,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+            )
+          )
+          (9): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(3,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(5,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(1,))
+              )
+            )
+          )
+          (10): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(9,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(15,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(3,))
+              )
+            )
+          )
+          (11): ResidualBlock(
+            (convs1): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(15,), dilation=(3,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(25,), dilation=(5,))
+              )
+            )
+            (convs2): ModuleList(
+              (0): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (1): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+              (2): Sequential(
+                (0): LeakyReLU(negative_slope=0.1)
+                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(5,))
+              )
+            )
+          )
+        )
+        (output_conv): Sequential(
+          (0): LeakyReLU(negative_slope=0.01)
+          (1): Conv1d(32, 1, kernel_size=(7,), stride=(1,), padding=(3,))
+          (2): Tanh()
+        )
+      )
+    )
+    (discriminator): HiFiGANMultiScaleMultiPeriodDiscriminator(
+      (msd): HiFiGANMultiScaleDiscriminator(
+        (discriminators): ModuleList(
+          (0): HiFiGANScaleDiscriminator(
+            (layers): ModuleList(
+              (0): Sequential(
+                (0): Conv1d(1, 128, kernel_size=(15,), stride=(1,), padding=(7,))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv1d(128, 128, kernel_size=(41,), stride=(2,), padding=(20,), groups=4)
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv1d(128, 256, kernel_size=(41,), stride=(2,), padding=(20,), groups=16)
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv1d(256, 512, kernel_size=(41,), stride=(4,), padding=(20,), groups=16)
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv1d(512, 1024, kernel_size=(41,), stride=(4,), padding=(20,), groups=16)
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (5): Sequential(
+                (0): Conv1d(1024, 1024, kernel_size=(41,), stride=(1,), padding=(20,), groups=16)
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (6): Sequential(
+                (0): Conv1d(1024, 1024, kernel_size=(5,), stride=(1,), padding=(2,))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (7): Conv1d(1024, 1, kernel_size=(3,), stride=(1,), padding=(1,))
+            )
+          )
+        )
+      )
+      (mpd): HiFiGANMultiPeriodDiscriminator(
+        (discriminators): ModuleList(
+          (0): HiFiGANPeriodDiscriminator(
+            (convs): ModuleList(
+              (0): Sequential(
+                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+            )
+            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
+          )
+          (1): HiFiGANPeriodDiscriminator(
+            (convs): ModuleList(
+              (0): Sequential(
+                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+            )
+            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
+          )
+          (2): HiFiGANPeriodDiscriminator(
+            (convs): ModuleList(
+              (0): Sequential(
+                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+            )
+            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
+          )
+          (3): HiFiGANPeriodDiscriminator(
+            (convs): ModuleList(
+              (0): Sequential(
+                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+            )
+            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
+          )
+          (4): HiFiGANPeriodDiscriminator(
+            (convs): ModuleList(
+              (0): Sequential(
+                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (1): Sequential(
+                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (2): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (3): Sequential(
+                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+              (4): Sequential(
+                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
+                (1): LeakyReLU(negative_slope=0.1)
+              )
+            )
+            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
+          )
+        )
+      )
+    )
+    (generator_adv_loss): GeneratorAdversarialLoss()
+    (discriminator_adv_loss): DiscriminatorAdversarialLoss()
+    (feat_match_loss): FeatureMatchLoss()
+    (mel_loss): MelSpectrogramLoss(
+      (wav_to_mel): LogMelFbank(
+        (stft): Stft(n_fft=1024, win_length=1024, hop_length=256, center=True, normalized=False, onesided=True)
+        (logmel): LogMel(sr=24000, n_fft=1024, n_mels=80, fmin=0, fmax=12000.0, htk=False)
+      )
+    )
+    (var_loss): VarianceLoss(
+      (mse_criterion): MSELoss()
+      (duration_criterion): DurationPredictorLoss(
+        (criterion): MSELoss()
+      )
+    )
+    (forwardsum_loss): ForwardSumLoss()
+  )
+)
+Model summary:
+    Class Name: ESPnetGANTTSModel
+    Total Number of model parameters: 83.28 M
+    Number of trainable parameters: 83.28 M (100.0%)
+    Size: 333.11 MB
+    Type: torch.float32
+[92b100c97f43:0/4] 2025-03-04 21:23:54,361 (abs_task:1161) INFO: Optimizer:
+AdamW (
+Parameter Group 0
+    amsgrad: False
+    betas: [0.8, 0.99]
+    eps: 1e-09
+    initial_lr: 0.0002
+    lr: 0.0002
+    weight_decay: 0.0
+)
+[92b100c97f43:0/4] 2025-03-04 21:23:54,361 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f5660199550>
+[92b100c97f43:0/4] 2025-03-04 21:23:54,361 (abs_task:1161) INFO: Optimizer2:
+AdamW (
+Parameter Group 0
+    amsgrad: False
+    betas: [0.8, 0.99]
+    eps: 1e-09
+    initial_lr: 0.0002
+    lr: 0.0002
+    weight_decay: 0.0
+)
+[92b100c97f43:0/4] 2025-03-04 21:23:54,361 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f5747efa9d0>
+[92b100c97f43:0/4] 2025-03-04 21:23:54,361 (abs_task:1171) INFO: Saving the configuration in exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/config.yaml
+[92b100c97f43:0/4] 2025-03-04 21:23:54,698 (abs_task:1525) INFO: [train] dataset:
+ESPnetDataset(
+  text: {"path": "dump/raw/jvs010_tr_no_dev/text", "type": "text"}
+  speech: {"path": "dump/raw/jvs010_tr_no_dev/wav.scp", "type": "sound"}
+  preprocess: <espnet2.train.preprocessor.CommonPreprocessor object at 0x7f5660199dc0>)
+[92b100c97f43:0/4] 2025-03-04 21:23:54,698 (abs_task:1526) INFO: [train] Batch sampler: NumElementsBatchSampler(N-batch=4, batch_bins=6000000, sort_in_batch=descending, sort_batch=descending)
+[92b100c97f43:0/4] 2025-03-04 21:23:54,699 (abs_task:1527) INFO: [train] mini-batch sizes summary: N-batch=4, mean=25.0, min=5, max=41
+[92b100c97f43:0/4] 2025-03-04 21:23:54,719 (abs_task:1525) INFO: [valid] dataset:
+ESPnetDataset(
+  text: {"path": "dump/raw/jvs010_dev/text", "type": "text"}
+  speech: {"path": "dump/raw/jvs010_dev/wav.scp", "type": "sound"}
+  preprocess: <espnet2.train.preprocessor.CommonPreprocessor object at 0x7f5660199520>)
+[92b100c97f43:0/4] 2025-03-04 21:23:54,719 (abs_task:1526) INFO: [valid] Batch sampler: NumElementsBatchSampler(N-batch=1, batch_bins=6000000, sort_in_batch=descending, sort_batch=descending)
+[92b100c97f43:0/4] 2025-03-04 21:23:54,719 (abs_task:1527) INFO: [valid] mini-batch sizes summary: N-batch=1, mean=15.0, min=15, max=15
+[92b100c97f43:0/4] 2025-03-04 21:23:54,739 (abs_task:1525) INFO: [plot_att] dataset:
+ESPnetDataset(
+  text: {"path": "dump/raw/jvs010_dev/text", "type": "text"}
+  speech: {"path": "dump/raw/jvs010_dev/wav.scp", "type": "sound"}
+  preprocess: <espnet2.train.preprocessor.CommonPreprocessor object at 0x7f5660155130>)
+[92b100c97f43:0/4] 2025-03-04 21:23:54,739 (abs_task:1526) INFO: [plot_att] Batch sampler: UnsortedBatchSampler(N-batch=15, batch_size=1, key_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/text_shape.phn,
+[92b100c97f43:0/4] 2025-03-04 21:23:54,739 (abs_task:1527) INFO: [plot_att] mini-batch sizes summary: N-batch=3, mean=1.0, min=1, max=1
+92b100c97f43:1159464:1159464 [0] NCCL INFO Bootstrap : Using eth0:172.17.0.2<0>
+92b100c97f43:1159464:1159464 [0] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
+92b100c97f43:1159464:1159464 [0] misc/ibvwrap.cc:63 NCCL WARN Failed to open libibverbs.so[.1]
+92b100c97f43:1159464:1159464 [0] NCCL INFO NET/Socket : Using [0]eth0:172.17.0.2<0>
+92b100c97f43:1159464:1159464 [0] NCCL INFO Using network Socket
+NCCL version 2.10.3+cuda11.3
+92b100c97f43:1159466:1159466 [2] NCCL INFO Bootstrap : Using eth0:172.17.0.2<0>
+92b100c97f43:1159465:1159465 [1] NCCL INFO Bootstrap : Using eth0:172.17.0.2<0>
+92b100c97f43:1159466:1159466 [2] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
+92b100c97f43:1159465:1159465 [1] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
+92b100c97f43:1159466:1159466 [2] misc/ibvwrap.cc:63 NCCL WARN Failed to open libibverbs.so[.1]
+92b100c97f43:1159465:1159465 [1] misc/ibvwrap.cc:63 NCCL WARN Failed to open libibverbs.so[.1]
+92b100c97f43:1159465:1159465 [1] NCCL INFO NET/Socket : Using [0]eth0:172.17.0.2<0>
+92b100c97f43:1159466:1159466 [2] NCCL INFO NET/Socket : Using [0]eth0:172.17.0.2<0>
+92b100c97f43:1159465:1159465 [1] NCCL INFO Using network Socket
+92b100c97f43:1159466:1159466 [2] NCCL INFO Using network Socket
+92b100c97f43:1159467:1159467 [3] NCCL INFO Bootstrap : Using eth0:172.17.0.2<0>
+92b100c97f43:1159467:1159467 [3] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
+92b100c97f43:1159467:1159467 [3] misc/ibvwrap.cc:63 NCCL WARN Failed to open libibverbs.so[.1]
+92b100c97f43:1159467:1159467 [3] NCCL INFO NET/Socket : Using [0]eth0:172.17.0.2<0>
+92b100c97f43:1159467:1159467 [3] NCCL INFO Using network Socket
+92b100c97f43:1159464:1159502 [0] NCCL INFO Channel 00/02 :    0   1   2   3
+92b100c97f43:1159465:1159504 [1] NCCL INFO Trees [0] 2/-1/-1->1->0 [1] 2/-1/-1->1->0
+92b100c97f43:1159467:1159505 [3] NCCL INFO Trees [0] -1/-1/-1->3->2 [1] -1/-1/-1->3->2
+92b100c97f43:1159464:1159502 [0] NCCL INFO Channel 01/02 :    0   1   2   3
+92b100c97f43:1159466:1159503 [2] NCCL INFO Trees [0] 3/-1/-1->2->1 [1] 3/-1/-1->2->1
+92b100c97f43:1159465:1159504 [1] NCCL INFO Setting affinity for GPU 1 to ffff,ffffffff
+92b100c97f43:1159464:1159502 [0] NCCL INFO Trees [0] 1/-1/-1->0->-1 [1] 1/-1/-1->0->-1
+92b100c97f43:1159467:1159505 [3] NCCL INFO Setting affinity for GPU 3 to ffff,ffffffff
+92b100c97f43:1159466:1159503 [2] NCCL INFO Setting affinity for GPU 2 to ffff,ffffffff
+92b100c97f43:1159464:1159502 [0] NCCL INFO Setting affinity for GPU 0 to ffff,ffffffff
+92b100c97f43:1159466:1159503 [2] NCCL INFO Channel 00 : 2[50] -> 3[60] via direct shared memory
+92b100c97f43:1159467:1159505 [3] NCCL INFO Channel 00 : 3[60] -> 0[30] via direct shared memory
+92b100c97f43:1159464:1159502 [0] NCCL INFO Channel 00 : 0[30] -> 1[40] via direct shared memory
+92b100c97f43:1159465:1159504 [1] NCCL INFO Channel 00 : 1[40] -> 2[50] via direct shared memory
+92b100c97f43:1159466:1159503 [2] NCCL INFO Channel 01 : 2[50] -> 3[60] via direct shared memory
+92b100c97f43:1159467:1159505 [3] NCCL INFO Channel 01 : 3[60] -> 0[30] via direct shared memory
+92b100c97f43:1159464:1159502 [0] NCCL INFO Channel 01 : 0[30] -> 1[40] via direct shared memory
+92b100c97f43:1159465:1159504 [1] NCCL INFO Channel 01 : 1[40] -> 2[50] via direct shared memory
+92b100c97f43:1159464:1159502 [0] NCCL INFO Connected all rings
+92b100c97f43:1159466:1159503 [2] NCCL INFO Connected all rings
+92b100c97f43:1159465:1159504 [1] NCCL INFO Connected all rings
+92b100c97f43:1159467:1159505 [3] NCCL INFO Connected all rings
+92b100c97f43:1159467:1159505 [3] NCCL INFO Channel 00 : 3[60] -> 2[50] via direct shared memory
+92b100c97f43:1159467:1159505 [3] NCCL INFO Channel 01 : 3[60] -> 2[50] via direct shared memory
+92b100c97f43:1159466:1159503 [2] NCCL INFO Channel 00 : 2[50] -> 1[40] via direct shared memory
+92b100c97f43:1159465:1159504 [1] NCCL INFO Channel 00 : 1[40] -> 0[30] via direct shared memory
+92b100c97f43:1159466:1159503 [2] NCCL INFO Channel 01 : 2[50] -> 1[40] via direct shared memory
+92b100c97f43:1159465:1159504 [1] NCCL INFO Channel 01 : 1[40] -> 0[30] via direct shared memory
+92b100c97f43:1159464:1159502 [0] NCCL INFO Connected all trees
+92b100c97f43:1159464:1159502 [0] NCCL INFO threadThresholds 8/8/64 | 32/8/64 | 8/8/512
+92b100c97f43:1159464:1159502 [0] NCCL INFO 2 coll channels, 2 p2p channels, 2 p2p channels per peer
+92b100c97f43:1159467:1159505 [3] NCCL INFO Connected all trees
+92b100c97f43:1159467:1159505 [3] NCCL INFO threadThresholds 8/8/64 | 32/8/64 | 8/8/512
+92b100c97f43:1159467:1159505 [3] NCCL INFO 2 coll channels, 2 p2p channels, 2 p2p channels per peer
+92b100c97f43:1159465:1159504 [1] NCCL INFO Connected all trees
+92b100c97f43:1159465:1159504 [1] NCCL INFO threadThresholds 8/8/64 | 32/8/64 | 8/8/512
+92b100c97f43:1159465:1159504 [1] NCCL INFO 2 coll channels, 2 p2p channels, 2 p2p channels per peer
+92b100c97f43:1159466:1159503 [2] NCCL INFO Connected all trees
+92b100c97f43:1159466:1159503 [2] NCCL INFO threadThresholds 8/8/64 | 32/8/64 | 8/8/512
+92b100c97f43:1159466:1159503 [2] NCCL INFO 2 coll channels, 2 p2p channels, 2 p2p channels per peer
+92b100c97f43:1159466:1159503 [2] NCCL INFO comm 0x7f35f80030d0 rank 2 nranks 4 cudaDev 2 busId 50 - Init COMPLETE
+92b100c97f43:1159464:1159502 [0] NCCL INFO comm 0x7f55500030d0 rank 0 nranks 4 cudaDev 0 busId 30 - Init COMPLETE
+92b100c97f43:1159464:1159464 [0] NCCL INFO Launch mode Parallel
+92b100c97f43:1159465:1159504 [1] NCCL INFO comm 0x7f97600030d0 rank 1 nranks 4 cudaDev 1 busId 40 - Init COMPLETE
+92b100c97f43:1159467:1159505 [3] NCCL INFO comm 0x7f66b80030d0 rank 3 nranks 4 cudaDev 3 busId 60 - Init COMPLETE
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+[92b100c97f43:0/4] 2025-03-04 21:23:55,188 (trainer:280) INFO: 1/130epoch started
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+[W reducer.cpp:1303] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+[W reducer.cpp:1303] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+[W reducer.cpp:1303] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+[W reducer.cpp:1303] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+[92b100c97f43:0/4] 2025-03-04 21:25:36,523 (gan_trainer:305) INFO: 1epoch:train:1-50batch: iter_time=0.048, generator_forward_time=0.723, generator_loss=139.743, generator_g_loss=110.582, generator_var_loss=5.224, generator_align_loss=23.937, generator_g_mel_loss=106.758, generator_g_adv_loss=2.179, generator_g_feat_match_loss=1.645, generator_var_dur_loss=0.584, generator_var_pitch_loss=2.400, generator_var_energy_loss=2.240, generator_align_forwardsum_loss=10.599, generator_align_bin_loss=1.369, generator_backward_time=0.254, generator_optim_step_time=0.034, optim0_lr0=2.000e-04, generator_train_time=1.113, discriminator_forward_time=0.544, discriminator_loss=2.766, discriminator_real_loss=1.518, discriminator_fake_loss=1.247, discriminator_backward_time=0.198, discriminator_optim_step_time=0.009, optim1_lr0=2.000e-04, discriminator_train_time=0.788, train_time=2.024
+[92b100c97f43:0/4] 2025-03-04 21:27:08,245 (gan_trainer:305) INFO: 1epoch:train:51-100batch: iter_time=1.198e-04, generator_forward_time=0.634, generator_loss=111.648, generator_g_loss=85.935, generator_var_loss=2.179, generator_align_loss=23.534, generator_g_mel_loss=80.251, generator_g_adv_loss=2.332, generator_g_feat_match_loss=3.352, generator_var_dur_loss=0.089, generator_var_pitch_loss=0.924, generator_var_energy_loss=1.166, generator_align_forwardsum_loss=10.437, generator_align_bin_loss=1.330, generator_backward_time=0.258, generator_optim_step_time=0.034, optim0_lr0=2.000e-04, generator_train_time=1.027, discriminator_forward_time=0.548, discriminator_loss=2.396, discriminator_real_loss=1.381, discriminator_fake_loss=1.015, discriminator_backward_time=0.201, discriminator_optim_step_time=0.009, optim1_lr0=2.000e-04, discriminator_train_time=0.796, train_time=1.835
+[92b100c97f43:0/4] 2025-03-04 21:28:38,897 (gan_trainer:305) INFO: 1epoch:train:101-150batch: iter_time=1.203e-04, generator_forward_time=0.624, generator_loss=112.406, generator_g_loss=87.597, generator_var_loss=1.890, generator_align_loss=22.919, generator_g_mel_loss=80.508, generator_g_adv_loss=2.744, generator_g_feat_match_loss=4.346, generator_var_dur_loss=0.058, generator_var_pitch_loss=0.808, generator_var_energy_loss=1.024, generator_align_forwardsum_loss=10.071, generator_align_bin_loss=1.389, generator_backward_time=0.257, generator_optim_step_time=0.033, optim0_lr0=2.000e-04, generator_train_time=1.015, discriminator_forward_time=0.539, discriminator_loss=2.084, discriminator_real_loss=1.319, discriminator_fake_loss=0.765, discriminator_backward_time=0.201, discriminator_optim_step_time=0.009, optim1_lr0=2.000e-04, discriminator_train_time=0.787, train_time=1.813
+[92b100c97f43:0/4] 2025-03-04 21:30:10,556 (gan_trainer:305) INFO: 1epoch:train:151-200batch: iter_time=1.211e-04, generator_forward_time=0.634, generator_loss=111.480, generator_g_loss=87.402, generator_var_loss=1.820, generator_align_loss=22.257, generator_g_mel_loss=79.313, generator_g_adv_loss=2.954, generator_g_feat_match_loss=5.134, generator_var_dur_loss=0.061, generator_var_pitch_loss=0.765, generator_var_energy_loss=0.994, generator_align_forwardsum_loss=9.687, generator_align_bin_loss=1.442, generator_backward_time=0.258, generator_optim_step_time=0.033, optim0_lr0=2.000e-04, generator_train_time=1.026, discriminator_forward_time=0.548, discriminator_loss=1.898, discriminator_real_loss=1.237, discriminator_fake_loss=0.661, discriminator_backward_time=0.202, discriminator_optim_step_time=0.009, optim1_lr0=2.000e-04, discriminator_train_time=0.796, train_time=1.833
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+Traceback (most recent call last):
+  File "/usr/lib/python3.8/runpy.py", line 194, in _run_module_as_main
+    return _run_code(code, main_globals, None,
+  File "/usr/lib/python3.8/runpy.py", line 87, in _run_code
+    exec(code, run_globals)
+  File "/work/espnet/espnet2/bin/gan_tts_train.py", line 22, in <module>
+    main()
+  File "/work/espnet/espnet2/bin/gan_tts_train.py", line 18, in main
+    GANTTSTask.main(cmd=cmd)
+  File "/work/espnet/espnet2/tasks/abs_task.py", line 1069, in main
+    while not ProcessContext(processes, error_queues).join():
+  File "/usr/local/lib/python3.8/dist-packages/torch/multiprocessing/spawn.py", line 99, in join
+    ready = multiprocessing.connection.wait(
+  File "/usr/lib/python3.8/multiprocessing/connection.py", line 931, in wait
+    ready = selector.select(timeout)
+  File "/usr/lib/python3.8/selectors.py", line 415, in select
+    fd_event_list = self._selector.poll(timeout)
+KeyboardInterrupt
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
+  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+Process SpawnProcess-2:
+Traceback (most recent call last):
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 315, in _bootstrap
+    self.run()
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 108, in run
+    self._target(*self._args, **self._kwargs)
+  File "/work/espnet/espnet2/tasks/abs_task.py", line 1315, in main_worker
+    cls.trainer.run(
+  File "/work/espnet/espnet2/train/trainer.py", line 286, in run
+    all_steps_are_invalid = cls.train_one_epoch(
+  File "/work/espnet/espnet2/train/gan_trainer.py", line 223, in train_one_epoch
+    loss.backward()
+  File "/usr/local/lib/python3.8/dist-packages/torch/_tensor.py", line 307, in backward
+    torch.autograd.backward(self, gradient, retain_graph, create_graph, inputs=inputs)
+  File "/usr/local/lib/python3.8/dist-packages/torch/autograd/__init__.py", line 154, in backward
+    Variable._execution_engine.run_backward(
+KeyboardInterrupt
+Process SpawnProcess-1:
+Traceback (most recent call last):
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 315, in _bootstrap
+    self.run()
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 108, in run
+    self._target(*self._args, **self._kwargs)
+  File "/work/espnet/espnet2/tasks/abs_task.py", line 1315, in main_worker
+    cls.trainer.run(
+  File "/work/espnet/espnet2/train/trainer.py", line 286, in run
+    all_steps_are_invalid = cls.train_one_epoch(
+  File "/work/espnet/espnet2/train/gan_trainer.py", line 223, in train_one_epoch
+    loss.backward()
+  File "/usr/local/lib/python3.8/dist-packages/torch/_tensor.py", line 307, in backward
+    torch.autograd.backward(self, gradient, retain_graph, create_graph, inputs=inputs)
+  File "/usr/local/lib/python3.8/dist-packages/torch/autograd/__init__.py", line 154, in backward
+    Variable._execution_engine.run_backward(
+KeyboardInterrupt
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+Process SpawnProcess-3:
+Traceback (most recent call last):
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 315, in _bootstrap
+    self.run()
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 108, in run
+    self._target(*self._args, **self._kwargs)
+  File "/work/espnet/espnet2/tasks/abs_task.py", line 1315, in main_worker
+    cls.trainer.run(
+  File "/work/espnet/espnet2/train/trainer.py", line 286, in run
+    all_steps_are_invalid = cls.train_one_epoch(
+  File "/work/espnet/espnet2/train/gan_trainer.py", line 223, in train_one_epoch
+    loss.backward()
+  File "/usr/local/lib/python3.8/dist-packages/torch/_tensor.py", line 307, in backward
+    torch.autograd.backward(self, gradient, retain_graph, create_graph, inputs=inputs)
+  File "/usr/local/lib/python3.8/dist-packages/torch/autograd/__init__.py", line 154, in backward
+    Variable._execution_engine.run_backward(
+KeyboardInterrupt
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
+  olens = (ilens - self.n_fft) // self.hop_length + 1
+Process SpawnProcess-4:
+Traceback (most recent call last):
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 315, in _bootstrap
+    self.run()
+  File "/usr/lib/python3.8/multiprocessing/process.py", line 108, in run
+    self._target(*self._args, **self._kwargs)
+  File "/work/espnet/espnet2/tasks/abs_task.py", line 1315, in main_worker
+    cls.trainer.run(
+  File "/work/espnet/espnet2/train/trainer.py", line 286, in run
+    all_steps_are_invalid = cls.train_one_epoch(
+  File "/work/espnet/espnet2/train/gan_trainer.py", line 223, in train_one_epoch
+    loss.backward()
+  File "/usr/local/lib/python3.8/dist-packages/torch/_tensor.py", line 307, in backward
+    torch.autograd.backward(self, gradient, retain_graph, create_graph, inputs=inputs)
+  File "/usr/local/lib/python3.8/dist-packages/torch/autograd/__init__.py", line 154, in backward
+    Variable._execution_engine.run_backward(
+KeyboardInterrupt

exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/train.log CHANGED Viewed

@@ -1,985 +1,13 @@
 # python3 -m espnet2.bin.gan_tts_train --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize global_mvn --resume true --fold_length 150 --fold_length 240000 --output_dir exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/text_shape.phn --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/speech_shape --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/text_shape.phn --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/speech_shape --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --pitch_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/pitch_stats.npz --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200 --energy_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/energy_stats.npz --normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/feats_stats.npz --ngpu 4 --multiprocessing_distributed True
-# Started at Tue Mar  4 21:23:38 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize global_mvn --resume true --fold_length 150 --fold_length 240000 --output_dir exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/text_shape.phn --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/speech_shape --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/text_shape.phn --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/speech_shape --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --pitch_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/pitch_stats.npz --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200 --energy_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/energy_stats.npz --normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/feats_stats.npz --ngpu 4 --multiprocessing_distributed True
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
-[92b100c97f43:0/4] 2025-03-04 21:23:44,840 (distributed_c10d:217) INFO: Added key: store_based_barrier_key:1 to store for rank: 0
-[92b100c97f43:0/4] 2025-03-04 21:23:44,840 (distributed_c10d:251) INFO: Rank 0: Completed store-based barrier for key:store_based_barrier_key:1 with 4 nodes.
-[92b100c97f43:0/4] 2025-03-04 21:23:44,896 (gan_tts:304) INFO: Vocabulary size: 41
-[92b100c97f43:0/4] 2025-03-04 21:23:45,027 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43:0/4] 2025-03-04 21:23:45,249 (encoder:172) INFO: encoder self-attention layer type = self-attention
-[92b100c97f43:0/4] 2025-03-04 21:23:54,351 (abs_task:1157) INFO: pytorch.version=1.10.1+cu113, cuda.available=True, cudnn.version=8200, cudnn.benchmark=False, cudnn.deterministic=False
-[92b100c97f43:0/4] 2025-03-04 21:23:54,361 (abs_task:1158) INFO: Model structure:
-ESPnetGANTTSModel(
-  (feats_extract): LogMelFbank(
-    (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
-    (logmel): LogMel(sr=24000, n_fft=2048, n_mels=80, fmin=80, fmax=7600, htk=False)
-  )
-  (normalize): GlobalMVN(stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/feats_stats.npz, norm_means=True, norm_vars=True)
-  (pitch_extract): Dio()
-  (pitch_normalize): GlobalMVN(stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/pitch_stats.npz, norm_means=True, norm_vars=True)
-  (energy_extract): Energy(
-    (stft): Stft(n_fft=2048, win_length=1200, hop_length=300, center=True, normalized=False, onesided=True)
-  )
-  (energy_normalize): GlobalMVN(stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/energy_stats.npz, norm_means=True, norm_vars=True)
-  (tts): JETS(
-    (generator): JETSGenerator(
-      (encoder): Encoder(
-        (embed): Sequential(
-          (0): Embedding(41, 256, padding_idx=0)
-          (1): ScaledPositionalEncoding(
-            (dropout): Dropout(p=0.2, inplace=False)
-          )
-        )
-        (encoders): MultiSequential(
-          (0): EncoderLayer(
-            (self_attn): MultiHeadedAttention(
-              (linear_q): Linear(in_features=256, out_features=256, bias=True)
-              (linear_k): Linear(in_features=256, out_features=256, bias=True)
-              (linear_v): Linear(in_features=256, out_features=256, bias=True)
-              (linear_out): Linear(in_features=256, out_features=256, bias=True)
-              (dropout): Dropout(p=0.2, inplace=False)
-            )
-            (feed_forward): MultiLayeredConv1d(
-              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
-              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-              (dropout): Dropout(p=0.2, inplace=False)
-            )
-            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (dropout): Dropout(p=0.2, inplace=False)
-          )
-          (1): EncoderLayer(
-            (self_attn): MultiHeadedAttention(
-              (linear_q): Linear(in_features=256, out_features=256, bias=True)
-              (linear_k): Linear(in_features=256, out_features=256, bias=True)
-              (linear_v): Linear(in_features=256, out_features=256, bias=True)
-              (linear_out): Linear(in_features=256, out_features=256, bias=True)
-              (dropout): Dropout(p=0.2, inplace=False)
-            )
-            (feed_forward): MultiLayeredConv1d(
-              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
-              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-              (dropout): Dropout(p=0.2, inplace=False)
-            )
-            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (dropout): Dropout(p=0.2, inplace=False)
-          )
-          (2): EncoderLayer(
-            (self_attn): MultiHeadedAttention(
-              (linear_q): Linear(in_features=256, out_features=256, bias=True)
-              (linear_k): Linear(in_features=256, out_features=256, bias=True)
-              (linear_v): Linear(in_features=256, out_features=256, bias=True)
-              (linear_out): Linear(in_features=256, out_features=256, bias=True)
-              (dropout): Dropout(p=0.2, inplace=False)
-            )
-            (feed_forward): MultiLayeredConv1d(
-              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
-              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-              (dropout): Dropout(p=0.2, inplace=False)
-            )
-            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (dropout): Dropout(p=0.2, inplace=False)
-          )
-          (3): EncoderLayer(
-            (self_attn): MultiHeadedAttention(
-              (linear_q): Linear(in_features=256, out_features=256, bias=True)
-              (linear_k): Linear(in_features=256, out_features=256, bias=True)
-              (linear_v): Linear(in_features=256, out_features=256, bias=True)
-              (linear_out): Linear(in_features=256, out_features=256, bias=True)
-              (dropout): Dropout(p=0.2, inplace=False)
-            )
-            (feed_forward): MultiLayeredConv1d(
-              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
-              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-              (dropout): Dropout(p=0.2, inplace=False)
-            )
-            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (dropout): Dropout(p=0.2, inplace=False)
-          )
-        )
-        (after_norm): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-      )
-      (duration_predictor): DurationPredictor(
-        (conv): ModuleList(
-          (0): Sequential(
-            (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-            (1): ReLU()
-            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (3): Dropout(p=0.1, inplace=False)
-          )
-          (1): Sequential(
-            (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-            (1): ReLU()
-            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (3): Dropout(p=0.1, inplace=False)
-          )
-        )
-        (linear): Linear(in_features=256, out_features=1, bias=True)
-      )
-      (pitch_predictor): VariancePredictor(
-        (conv): ModuleList(
-          (0): Sequential(
-            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
-            (1): ReLU()
-            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (3): Dropout(p=0.5, inplace=False)
-          )
-          (1): Sequential(
-            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
-            (1): ReLU()
-            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (3): Dropout(p=0.5, inplace=False)
-          )
-          (2): Sequential(
-            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
-            (1): ReLU()
-            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (3): Dropout(p=0.5, inplace=False)
-          )
-          (3): Sequential(
-            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
-            (1): ReLU()
-            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (3): Dropout(p=0.5, inplace=False)
-          )
-          (4): Sequential(
-            (0): Conv1d(256, 256, kernel_size=(5,), stride=(1,), padding=(2,))
-            (1): ReLU()
-            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (3): Dropout(p=0.5, inplace=False)
-          )
-        )
-        (linear): Linear(in_features=256, out_features=1, bias=True)
-      )
-      (pitch_embed): Sequential(
-        (0): Conv1d(1, 256, kernel_size=(1,), stride=(1,))
-        (1): Dropout(p=0.0, inplace=False)
-      )
-      (energy_predictor): VariancePredictor(
-        (conv): ModuleList(
-          (0): Sequential(
-            (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-            (1): ReLU()
-            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (3): Dropout(p=0.5, inplace=False)
-          )
-          (1): Sequential(
-            (0): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-            (1): ReLU()
-            (2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (3): Dropout(p=0.5, inplace=False)
-          )
-        )
-        (linear): Linear(in_features=256, out_features=1, bias=True)
-      )
-      (energy_embed): Sequential(
-        (0): Conv1d(1, 256, kernel_size=(1,), stride=(1,))
-        (1): Dropout(p=0.0, inplace=False)
-      )
-      (alignment_module): AlignmentModule(
-        (t_conv1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-        (t_conv2): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
-        (f_conv1): Conv1d(80, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-        (f_conv2): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-        (f_conv3): Conv1d(256, 256, kernel_size=(1,), stride=(1,))
-      )
-      (length_regulator): GaussianUpsampling()
-      (decoder): Encoder(
-        (embed): Sequential(
-          (0): ScaledPositionalEncoding(
-            (dropout): Dropout(p=0.2, inplace=False)
-          )
-        )
-        (encoders): MultiSequential(
-          (0): EncoderLayer(
-            (self_attn): MultiHeadedAttention(
-              (linear_q): Linear(in_features=256, out_features=256, bias=True)
-              (linear_k): Linear(in_features=256, out_features=256, bias=True)
-              (linear_v): Linear(in_features=256, out_features=256, bias=True)
-              (linear_out): Linear(in_features=256, out_features=256, bias=True)
-              (dropout): Dropout(p=0.2, inplace=False)
-            )
-            (feed_forward): MultiLayeredConv1d(
-              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
-              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-              (dropout): Dropout(p=0.2, inplace=False)
-            )
-            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (dropout): Dropout(p=0.2, inplace=False)
-          )
-          (1): EncoderLayer(
-            (self_attn): MultiHeadedAttention(
-              (linear_q): Linear(in_features=256, out_features=256, bias=True)
-              (linear_k): Linear(in_features=256, out_features=256, bias=True)
-              (linear_v): Linear(in_features=256, out_features=256, bias=True)
-              (linear_out): Linear(in_features=256, out_features=256, bias=True)
-              (dropout): Dropout(p=0.2, inplace=False)
-            )
-            (feed_forward): MultiLayeredConv1d(
-              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
-              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-              (dropout): Dropout(p=0.2, inplace=False)
-            )
-            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (dropout): Dropout(p=0.2, inplace=False)
-          )
-          (2): EncoderLayer(
-            (self_attn): MultiHeadedAttention(
-              (linear_q): Linear(in_features=256, out_features=256, bias=True)
-              (linear_k): Linear(in_features=256, out_features=256, bias=True)
-              (linear_v): Linear(in_features=256, out_features=256, bias=True)
-              (linear_out): Linear(in_features=256, out_features=256, bias=True)
-              (dropout): Dropout(p=0.2, inplace=False)
-            )
-            (feed_forward): MultiLayeredConv1d(
-              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
-              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-              (dropout): Dropout(p=0.2, inplace=False)
-            )
-            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (dropout): Dropout(p=0.2, inplace=False)
-          )
-          (3): EncoderLayer(
-            (self_attn): MultiHeadedAttention(
-              (linear_q): Linear(in_features=256, out_features=256, bias=True)
-              (linear_k): Linear(in_features=256, out_features=256, bias=True)
-              (linear_v): Linear(in_features=256, out_features=256, bias=True)
-              (linear_out): Linear(in_features=256, out_features=256, bias=True)
-              (dropout): Dropout(p=0.2, inplace=False)
-            )
-            (feed_forward): MultiLayeredConv1d(
-              (w_1): Conv1d(256, 1024, kernel_size=(3,), stride=(1,), padding=(1,))
-              (w_2): Conv1d(1024, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-              (dropout): Dropout(p=0.2, inplace=False)
-            )
-            (norm1): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (norm2): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-            (dropout): Dropout(p=0.2, inplace=False)
-          )
-        )
-        (after_norm): LayerNorm((256,), eps=1e-12, elementwise_affine=True)
-      )
-      (generator): HiFiGANGenerator(
-        (input_conv): Conv1d(256, 512, kernel_size=(7,), stride=(1,), padding=(3,))
-        (upsamples): ModuleList(
-          (0): Sequential(
-            (0): LeakyReLU(negative_slope=0.1)
-            (1): ConvTranspose1d(512, 256, kernel_size=(16,), stride=(8,), padding=(4,))
-          )
-          (1): Sequential(
-            (0): LeakyReLU(negative_slope=0.1)
-            (1): ConvTranspose1d(256, 128, kernel_size=(16,), stride=(8,), padding=(4,))
-          )
-          (2): Sequential(
-            (0): LeakyReLU(negative_slope=0.1)
-            (1): ConvTranspose1d(128, 64, kernel_size=(4,), stride=(2,), padding=(1,))
-          )
-          (3): Sequential(
-            (0): LeakyReLU(negative_slope=0.1)
-            (1): ConvTranspose1d(64, 32, kernel_size=(4,), stride=(2,), padding=(1,))
-          )
-        )
-        (blocks): ModuleList(
-          (0): ResidualBlock(
-            (convs1): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(3,), dilation=(3,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(5,), dilation=(5,))
-              )
-            )
-            (convs2): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(3,), stride=(1,), padding=(1,))
-              )
-            )
-          )
-          (1): ResidualBlock(
-            (convs1): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(3,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(9,), dilation=(3,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(15,), dilation=(5,))
-              )
-            )
-            (convs2): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(3,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(3,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(7,), stride=(1,), padding=(3,))
-              )
-            )
-          )
-          (2): ResidualBlock(
-            (convs1): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(5,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(15,), dilation=(3,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(25,), dilation=(5,))
-              )
-            )
-            (convs2): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(5,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(5,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(256, 256, kernel_size=(11,), stride=(1,), padding=(5,))
-              )
-            )
-          )
-          (3): ResidualBlock(
-            (convs1): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(1,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(3,), dilation=(3,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(5,), dilation=(5,))
-              )
-            )
-            (convs2): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(1,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(1,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(3,), stride=(1,), padding=(1,))
-              )
-            )
-          )
-          (4): ResidualBlock(
-            (convs1): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(3,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(9,), dilation=(3,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(15,), dilation=(5,))
-              )
-            )
-            (convs2): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(3,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(3,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(7,), stride=(1,), padding=(3,))
-              )
-            )
-          )
-          (5): ResidualBlock(
-            (convs1): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(5,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(15,), dilation=(3,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(25,), dilation=(5,))
-              )
-            )
-            (convs2): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(5,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(5,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(128, 128, kernel_size=(11,), stride=(1,), padding=(5,))
-              )
-            )
-          )
-          (6): ResidualBlock(
-            (convs1): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(1,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(3,), dilation=(3,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(5,), dilation=(5,))
-              )
-            )
-            (convs2): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(1,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(1,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(3,), stride=(1,), padding=(1,))
-              )
-            )
-          )
-          (7): ResidualBlock(
-            (convs1): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(3,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(9,), dilation=(3,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(15,), dilation=(5,))
-              )
-            )
-            (convs2): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(3,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(3,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(7,), stride=(1,), padding=(3,))
-              )
-            )
-          )
-          (8): ResidualBlock(
-            (convs1): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(5,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(15,), dilation=(3,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(25,), dilation=(5,))
-              )
-            )
-            (convs2): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(5,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(5,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(64, 64, kernel_size=(11,), stride=(1,), padding=(5,))
-              )
-            )
-          )
-          (9): ResidualBlock(
-            (convs1): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(1,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(3,), dilation=(3,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(5,), dilation=(5,))
-              )
-            )
-            (convs2): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(1,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(1,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(3,), stride=(1,), padding=(1,))
-              )
-            )
-          )
-          (10): ResidualBlock(
-            (convs1): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(3,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(9,), dilation=(3,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(15,), dilation=(5,))
-              )
-            )
-            (convs2): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(3,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(3,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(7,), stride=(1,), padding=(3,))
-              )
-            )
-          )
-          (11): ResidualBlock(
-            (convs1): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(5,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(15,), dilation=(3,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(25,), dilation=(5,))
-              )
-            )
-            (convs2): ModuleList(
-              (0): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(5,))
-              )
-              (1): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(5,))
-              )
-              (2): Sequential(
-                (0): LeakyReLU(negative_slope=0.1)
-                (1): Conv1d(32, 32, kernel_size=(11,), stride=(1,), padding=(5,))
-              )
-            )
-          )
-        )
-        (output_conv): Sequential(
-          (0): LeakyReLU(negative_slope=0.01)
-          (1): Conv1d(32, 1, kernel_size=(7,), stride=(1,), padding=(3,))
-          (2): Tanh()
-        )
-      )
-    )
-    (discriminator): HiFiGANMultiScaleMultiPeriodDiscriminator(
-      (msd): HiFiGANMultiScaleDiscriminator(
-        (discriminators): ModuleList(
-          (0): HiFiGANScaleDiscriminator(
-            (layers): ModuleList(
-              (0): Sequential(
-                (0): Conv1d(1, 128, kernel_size=(15,), stride=(1,), padding=(7,))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (1): Sequential(
-                (0): Conv1d(128, 128, kernel_size=(41,), stride=(2,), padding=(20,), groups=4)
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (2): Sequential(
-                (0): Conv1d(128, 256, kernel_size=(41,), stride=(2,), padding=(20,), groups=16)
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (3): Sequential(
-                (0): Conv1d(256, 512, kernel_size=(41,), stride=(4,), padding=(20,), groups=16)
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (4): Sequential(
-                (0): Conv1d(512, 1024, kernel_size=(41,), stride=(4,), padding=(20,), groups=16)
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (5): Sequential(
-                (0): Conv1d(1024, 1024, kernel_size=(41,), stride=(1,), padding=(20,), groups=16)
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (6): Sequential(
-                (0): Conv1d(1024, 1024, kernel_size=(5,), stride=(1,), padding=(2,))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (7): Conv1d(1024, 1, kernel_size=(3,), stride=(1,), padding=(1,))
-            )
-          )
-        )
-      )
-      (mpd): HiFiGANMultiPeriodDiscriminator(
-        (discriminators): ModuleList(
-          (0): HiFiGANPeriodDiscriminator(
-            (convs): ModuleList(
-              (0): Sequential(
-                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (1): Sequential(
-                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (2): Sequential(
-                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (3): Sequential(
-                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (4): Sequential(
-                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-            )
-            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
-          )
-          (1): HiFiGANPeriodDiscriminator(
-            (convs): ModuleList(
-              (0): Sequential(
-                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (1): Sequential(
-                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (2): Sequential(
-                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (3): Sequential(
-                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (4): Sequential(
-                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-            )
-            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
-          )
-          (2): HiFiGANPeriodDiscriminator(
-            (convs): ModuleList(
-              (0): Sequential(
-                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (1): Sequential(
-                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (2): Sequential(
-                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (3): Sequential(
-                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (4): Sequential(
-                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-            )
-            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
-          )
-          (3): HiFiGANPeriodDiscriminator(
-            (convs): ModuleList(
-              (0): Sequential(
-                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (1): Sequential(
-                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (2): Sequential(
-                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (3): Sequential(
-                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (4): Sequential(
-                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-            )
-            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
-          )
-          (4): HiFiGANPeriodDiscriminator(
-            (convs): ModuleList(
-              (0): Sequential(
-                (0): Conv2d(1, 32, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (1): Sequential(
-                (0): Conv2d(32, 128, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (2): Sequential(
-                (0): Conv2d(128, 512, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (3): Sequential(
-                (0): Conv2d(512, 1024, kernel_size=(5, 1), stride=(3, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-              (4): Sequential(
-                (0): Conv2d(1024, 1024, kernel_size=(5, 1), stride=(1, 1), padding=(2, 0))
-                (1): LeakyReLU(negative_slope=0.1)
-              )
-            )
-            (output_conv): Conv2d(1024, 1, kernel_size=(2, 1), stride=(1, 1), padding=(1, 0))
-          )
-        )
-      )
-    )
-    (generator_adv_loss): GeneratorAdversarialLoss()
-    (discriminator_adv_loss): DiscriminatorAdversarialLoss()
-    (feat_match_loss): FeatureMatchLoss()
-    (mel_loss): MelSpectrogramLoss(
-      (wav_to_mel): LogMelFbank(
-        (stft): Stft(n_fft=1024, win_length=1024, hop_length=256, center=True, normalized=False, onesided=True)
-        (logmel): LogMel(sr=24000, n_fft=1024, n_mels=80, fmin=0, fmax=12000.0, htk=False)
-      )
-    )
-    (var_loss): VarianceLoss(
-      (mse_criterion): MSELoss()
-      (duration_criterion): DurationPredictorLoss(
-        (criterion): MSELoss()
-      )
-    )
-    (forwardsum_loss): ForwardSumLoss()
-  )
-)
-Model summary:
-    Class Name: ESPnetGANTTSModel
-    Total Number of model parameters: 83.28 M
-    Number of trainable parameters: 83.28 M (100.0%)
-    Size: 333.11 MB
-    Type: torch.float32
-[92b100c97f43:0/4] 2025-03-04 21:23:54,361 (abs_task:1161) INFO: Optimizer:
-AdamW (
-Parameter Group 0
-    amsgrad: False
-    betas: [0.8, 0.99]
-    eps: 1e-09
-    initial_lr: 0.0002
-    lr: 0.0002
-    weight_decay: 0.0
-)
-[92b100c97f43:0/4] 2025-03-04 21:23:54,361 (abs_task:1162) INFO: Scheduler: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f5660199550>
-[92b100c97f43:0/4] 2025-03-04 21:23:54,361 (abs_task:1161) INFO: Optimizer2:
-AdamW (
-Parameter Group 0
-    amsgrad: False
-    betas: [0.8, 0.99]
-    eps: 1e-09
-    initial_lr: 0.0002
-    lr: 0.0002
-    weight_decay: 0.0
-)
-[92b100c97f43:0/4] 2025-03-04 21:23:54,361 (abs_task:1162) INFO: Scheduler2: <torch.optim.lr_scheduler.ExponentialLR object at 0x7f5747efa9d0>
-[92b100c97f43:0/4] 2025-03-04 21:23:54,361 (abs_task:1171) INFO: Saving the configuration in exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk/config.yaml
-[92b100c97f43:0/4] 2025-03-04 21:23:54,698 (abs_task:1525) INFO: [train] dataset:
-ESPnetDataset(
-  text: {"path": "dump/raw/jvs010_tr_no_dev/text", "type": "text"}
-  speech: {"path": "dump/raw/jvs010_tr_no_dev/wav.scp", "type": "sound"}
-  preprocess: <espnet2.train.preprocessor.CommonPreprocessor object at 0x7f5660199dc0>)
-[92b100c97f43:0/4] 2025-03-04 21:23:54,698 (abs_task:1526) INFO: [train] Batch sampler: NumElementsBatchSampler(N-batch=4, batch_bins=6000000, sort_in_batch=descending, sort_batch=descending)
-[92b100c97f43:0/4] 2025-03-04 21:23:54,699 (abs_task:1527) INFO: [train] mini-batch sizes summary: N-batch=4, mean=25.0, min=5, max=41
-[92b100c97f43:0/4] 2025-03-04 21:23:54,719 (abs_task:1525) INFO: [valid] dataset:
-ESPnetDataset(
-  text: {"path": "dump/raw/jvs010_dev/text", "type": "text"}
-  speech: {"path": "dump/raw/jvs010_dev/wav.scp", "type": "sound"}
-  preprocess: <espnet2.train.preprocessor.CommonPreprocessor object at 0x7f5660199520>)
-[92b100c97f43:0/4] 2025-03-04 21:23:54,719 (abs_task:1526) INFO: [valid] Batch sampler: NumElementsBatchSampler(N-batch=1, batch_bins=6000000, sort_in_batch=descending, sort_batch=descending)
-[92b100c97f43:0/4] 2025-03-04 21:23:54,719 (abs_task:1527) INFO: [valid] mini-batch sizes summary: N-batch=1, mean=15.0, min=15, max=15
-[92b100c97f43:0/4] 2025-03-04 21:23:54,739 (abs_task:1525) INFO: [plot_att] dataset:
-ESPnetDataset(
-  text: {"path": "dump/raw/jvs010_dev/text", "type": "text"}
-  speech: {"path": "dump/raw/jvs010_dev/wav.scp", "type": "sound"}
-  preprocess: <espnet2.train.preprocessor.CommonPreprocessor object at 0x7f5660155130>)
-[92b100c97f43:0/4] 2025-03-04 21:23:54,739 (abs_task:1526) INFO: [plot_att] Batch sampler: UnsortedBatchSampler(N-batch=15, batch_size=1, key_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/text_shape.phn,
-[92b100c97f43:0/4] 2025-03-04 21:23:54,739 (abs_task:1527) INFO: [plot_att] mini-batch sizes summary: N-batch=3, mean=1.0, min=1, max=1
-92b100c97f43:1159464:1159464 [0] NCCL INFO Bootstrap : Using eth0:172.17.0.2<0>
-92b100c97f43:1159464:1159464 [0] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
-92b100c97f43:1159464:1159464 [0] misc/ibvwrap.cc:63 NCCL WARN Failed to open libibverbs.so[.1]
-92b100c97f43:1159464:1159464 [0] NCCL INFO NET/Socket : Using [0]eth0:172.17.0.2<0>
-92b100c97f43:1159464:1159464 [0] NCCL INFO Using network Socket
-NCCL version 2.10.3+cuda11.3
-92b100c97f43:1159466:1159466 [2] NCCL INFO Bootstrap : Using eth0:172.17.0.2<0>
-92b100c97f43:1159465:1159465 [1] NCCL INFO Bootstrap : Using eth0:172.17.0.2<0>
-92b100c97f43:1159466:1159466 [2] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
-92b100c97f43:1159465:1159465 [1] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
-92b100c97f43:1159466:1159466 [2] misc/ibvwrap.cc:63 NCCL WARN Failed to open libibverbs.so[.1]
-92b100c97f43:1159465:1159465 [1] misc/ibvwrap.cc:63 NCCL WARN Failed to open libibverbs.so[.1]
-92b100c97f43:1159465:1159465 [1] NCCL INFO NET/Socket : Using [0]eth0:172.17.0.2<0>
-92b100c97f43:1159466:1159466 [2] NCCL INFO NET/Socket : Using [0]eth0:172.17.0.2<0>
-92b100c97f43:1159465:1159465 [1] NCCL INFO Using network Socket
-92b100c97f43:1159466:1159466 [2] NCCL INFO Using network Socket
-92b100c97f43:1159467:1159467 [3] NCCL INFO Bootstrap : Using eth0:172.17.0.2<0>
-92b100c97f43:1159467:1159467 [3] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so), using internal implementation
-92b100c97f43:1159467:1159467 [3] misc/ibvwrap.cc:63 NCCL WARN Failed to open libibverbs.so[.1]
-92b100c97f43:1159467:1159467 [3] NCCL INFO NET/Socket : Using [0]eth0:172.17.0.2<0>
-92b100c97f43:1159467:1159467 [3] NCCL INFO Using network Socket
-92b100c97f43:1159464:1159502 [0] NCCL INFO Channel 00/02 :    0   1   2   3
-92b100c97f43:1159465:1159504 [1] NCCL INFO Trees [0] 2/-1/-1->1->0 [1] 2/-1/-1->1->0
-92b100c97f43:1159467:1159505 [3] NCCL INFO Trees [0] -1/-1/-1->3->2 [1] -1/-1/-1->3->2
-92b100c97f43:1159464:1159502 [0] NCCL INFO Channel 01/02 :    0   1   2   3
-92b100c97f43:1159466:1159503 [2] NCCL INFO Trees [0] 3/-1/-1->2->1 [1] 3/-1/-1->2->1
-92b100c97f43:1159465:1159504 [1] NCCL INFO Setting affinity for GPU 1 to ffff,ffffffff
-92b100c97f43:1159464:1159502 [0] NCCL INFO Trees [0] 1/-1/-1->0->-1 [1] 1/-1/-1->0->-1
-92b100c97f43:1159467:1159505 [3] NCCL INFO Setting affinity for GPU 3 to ffff,ffffffff
-92b100c97f43:1159466:1159503 [2] NCCL INFO Setting affinity for GPU 2 to ffff,ffffffff
-92b100c97f43:1159464:1159502 [0] NCCL INFO Setting affinity for GPU 0 to ffff,ffffffff
-92b100c97f43:1159466:1159503 [2] NCCL INFO Channel 00 : 2[50] -> 3[60] via direct shared memory
-92b100c97f43:1159467:1159505 [3] NCCL INFO Channel 00 : 3[60] -> 0[30] via direct shared memory
-92b100c97f43:1159464:1159502 [0] NCCL INFO Channel 00 : 0[30] -> 1[40] via direct shared memory
-92b100c97f43:1159465:1159504 [1] NCCL INFO Channel 00 : 1[40] -> 2[50] via direct shared memory
-92b100c97f43:1159466:1159503 [2] NCCL INFO Channel 01 : 2[50] -> 3[60] via direct shared memory
-92b100c97f43:1159467:1159505 [3] NCCL INFO Channel 01 : 3[60] -> 0[30] via direct shared memory
-92b100c97f43:1159464:1159502 [0] NCCL INFO Channel 01 : 0[30] -> 1[40] via direct shared memory
-92b100c97f43:1159465:1159504 [1] NCCL INFO Channel 01 : 1[40] -> 2[50] via direct shared memory
-92b100c97f43:1159464:1159502 [0] NCCL INFO Connected all rings
-92b100c97f43:1159466:1159503 [2] NCCL INFO Connected all rings
-92b100c97f43:1159465:1159504 [1] NCCL INFO Connected all rings
-92b100c97f43:1159467:1159505 [3] NCCL INFO Connected all rings
-92b100c97f43:1159467:1159505 [3] NCCL INFO Channel 00 : 3[60] -> 2[50] via direct shared memory
-92b100c97f43:1159467:1159505 [3] NCCL INFO Channel 01 : 3[60] -> 2[50] via direct shared memory
-92b100c97f43:1159466:1159503 [2] NCCL INFO Channel 00 : 2[50] -> 1[40] via direct shared memory
-92b100c97f43:1159465:1159504 [1] NCCL INFO Channel 00 : 1[40] -> 0[30] via direct shared memory
-92b100c97f43:1159466:1159503 [2] NCCL INFO Channel 01 : 2[50] -> 1[40] via direct shared memory
-92b100c97f43:1159465:1159504 [1] NCCL INFO Channel 01 : 1[40] -> 0[30] via direct shared memory
-92b100c97f43:1159464:1159502 [0] NCCL INFO Connected all trees
-92b100c97f43:1159464:1159502 [0] NCCL INFO threadThresholds 8/8/64 | 32/8/64 | 8/8/512
-92b100c97f43:1159464:1159502 [0] NCCL INFO 2 coll channels, 2 p2p channels, 2 p2p channels per peer
-92b100c97f43:1159467:1159505 [3] NCCL INFO Connected all trees
-92b100c97f43:1159467:1159505 [3] NCCL INFO threadThresholds 8/8/64 | 32/8/64 | 8/8/512
-92b100c97f43:1159467:1159505 [3] NCCL INFO 2 coll channels, 2 p2p channels, 2 p2p channels per peer
-92b100c97f43:1159465:1159504 [1] NCCL INFO Connected all trees
-92b100c97f43:1159465:1159504 [1] NCCL INFO threadThresholds 8/8/64 | 32/8/64 | 8/8/512
-92b100c97f43:1159465:1159504 [1] NCCL INFO 2 coll channels, 2 p2p channels, 2 p2p channels per peer
-92b100c97f43:1159466:1159503 [2] NCCL INFO Connected all trees
-92b100c97f43:1159466:1159503 [2] NCCL INFO threadThresholds 8/8/64 | 32/8/64 | 8/8/512
-92b100c97f43:1159466:1159503 [2] NCCL INFO 2 coll channels, 2 p2p channels, 2 p2p channels per peer
-92b100c97f43:1159466:1159503 [2] NCCL INFO comm 0x7f35f80030d0 rank 2 nranks 4 cudaDev 2 busId 50 - Init COMPLETE
-92b100c97f43:1159464:1159502 [0] NCCL INFO comm 0x7f55500030d0 rank 0 nranks 4 cudaDev 0 busId 30 - Init COMPLETE
-92b100c97f43:1159464:1159464 [0] NCCL INFO Launch mode Parallel
-92b100c97f43:1159465:1159504 [1] NCCL INFO comm 0x7f97600030d0 rank 1 nranks 4 cudaDev 1 busId 40 - Init COMPLETE
-92b100c97f43:1159467:1159505 [3] NCCL INFO comm 0x7f66b80030d0 rank 3 nranks 4 cudaDev 3 busId 60 - Init COMPLETE
-/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
-  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
-/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
-  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
-[92b100c97f43:0/4] 2025-03-04 21:23:55,188 (trainer:280) INFO: 1/130epoch started
-/usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
-  warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
-[W reducer.cpp:1303] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
-[W reducer.cpp:1303] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
-[W reducer.cpp:1303] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
-[W reducer.cpp:1303] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
-/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
-  olens = (ilens - self.n_fft) // self.hop_length + 1
-/work/espnet/espnet2/layers/stft.py:166: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
-  olens = (ilens - self.n_fft) // self.hop_length + 1
-[92b100c97f43:0/4] 2025-03-04 21:25:36,523 (gan_trainer:305) INFO: 1epoch:train:1-50batch: iter_time=0.048, generator_forward_time=0.723, generator_loss=139.743, generator_g_loss=110.582, generator_var_loss=5.224, generator_align_loss=23.937, generator_g_mel_loss=106.758, generator_g_adv_loss=2.179, generator_g_feat_match_loss=1.645, generator_var_dur_loss=0.584, generator_var_pitch_loss=2.400, generator_var_energy_loss=2.240, generator_align_forwardsum_loss=10.599, generator_align_bin_loss=1.369, generator_backward_time=0.254, generator_optim_step_time=0.034, optim0_lr0=2.000e-04, generator_train_time=1.113, discriminator_forward_time=0.544, discriminator_loss=2.766, discriminator_real_loss=1.518, discriminator_fake_loss=1.247, discriminator_backward_time=0.198, discriminator_optim_step_time=0.009, optim1_lr0=2.000e-04, discriminator_train_time=0.788, train_time=2.024
-[92b100c97f43:0/4] 2025-03-04 21:27:08,245 (gan_trainer:305) INFO: 1epoch:train:51-100batch: iter_time=1.198e-04, generator_forward_time=0.634, generator_loss=111.648, generator_g_loss=85.935, generator_var_loss=2.179, generator_align_loss=23.534, generator_g_mel_loss=80.251, generator_g_adv_loss=2.332, generator_g_feat_match_loss=3.352, generator_var_dur_loss=0.089, generator_var_pitch_loss=0.924, generator_var_energy_loss=1.166, generator_align_forwardsum_loss=10.437, generator_align_bin_loss=1.330, generator_backward_time=0.258, generator_optim_step_time=0.034, optim0_lr0=2.000e-04, generator_train_time=1.027, discriminator_forward_time=0.548, discriminator_loss=2.396, discriminator_real_loss=1.381, discriminator_fake_loss=1.015, discriminator_backward_time=0.201, discriminator_optim_step_time=0.009, optim1_lr0=2.000e-04, discriminator_train_time=0.796, train_time=1.835
-[92b100c97f43:0/4] 2025-03-04 21:28:38,897 (gan_trainer:305) INFO: 1epoch:train:101-150batch: iter_time=1.203e-04, generator_forward_time=0.624, generator_loss=112.406, generator_g_loss=87.597, generator_var_loss=1.890, generator_align_loss=22.919, generator_g_mel_loss=80.508, generator_g_adv_loss=2.744, generator_g_feat_match_loss=4.346, generator_var_dur_loss=0.058, generator_var_pitch_loss=0.808, generator_var_energy_loss=1.024, generator_align_forwardsum_loss=10.071, generator_align_bin_loss=1.389, generator_backward_time=0.257, generator_optim_step_time=0.033, optim0_lr0=2.000e-04, generator_train_time=1.015, discriminator_forward_time=0.539, discriminator_loss=2.084, discriminator_real_loss=1.319, discriminator_fake_loss=0.765, discriminator_backward_time=0.201, discriminator_optim_step_time=0.009, optim1_lr0=2.000e-04, discriminator_train_time=0.787, train_time=1.813

 # python3 -m espnet2.bin.gan_tts_train --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize global_mvn --resume true --fold_length 150 --fold_length 240000 --output_dir exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/text_shape.phn --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/speech_shape --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/text_shape.phn --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/speech_shape --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --pitch_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/pitch_stats.npz --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200 --energy_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/energy_stats.npz --normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/feats_stats.npz --ngpu 4 --multiprocessing_distributed True
+# Started at Tue Mar  4 22:09:50 JST 2025
 #
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
 /usr/bin/python3 /work/espnet/espnet2/bin/gan_tts_train.py --use_preprocessor true --token_type phn --token_list dump/token_list/phn_jaconv_pyopenjtalk/tokens.txt --non_linguistic_symbols none --cleaner jaconv --g2p pyopenjtalk --normalize global_mvn --resume true --fold_length 150 --fold_length 240000 --output_dir exp/tts_train_jets_raw_phn_jaconv_pyopenjtalk --config conf/tuning/train_jets.yaml --feats_extract fbank --feats_extract_conf n_fft=2048 --feats_extract_conf hop_length=300 --feats_extract_conf win_length=1200 --feats_extract_conf fs=24000 --feats_extract_conf fmin=80 --feats_extract_conf fmax=7600 --feats_extract_conf n_mels=80 --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/text,text,text --train_data_path_and_name_and_type dump/raw/jvs010_tr_no_dev/wav.scp,speech,sound --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/text_shape.phn --train_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/speech_shape --valid_data_path_and_name_and_type dump/raw/jvs010_dev/text,text,text --valid_data_path_and_name_and_type dump/raw/jvs010_dev/wav.scp,speech,sound --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/text_shape.phn --valid_shape_file exp/tts_stats_raw_phn_jaconv_pyopenjtalk/valid/speech_shape --pitch_extract_conf fs=24000 --pitch_extract_conf n_fft=2048 --pitch_extract_conf hop_length=300 --pitch_extract_conf f0max=400 --pitch_extract_conf f0min=80 --pitch_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/pitch_stats.npz --energy_extract_conf fs=24000 --energy_extract_conf n_fft=2048 --energy_extract_conf hop_length=300 --energy_extract_conf win_length=1200 --energy_normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/energy_stats.npz --normalize_conf stats_file=exp/tts_stats_raw_phn_jaconv_pyopenjtalk/train/feats_stats.npz --ngpu 4 --multiprocessing_distributed True
 /usr/lib/python3/dist-packages/requests/__init__.py:89: RequestsDependencyWarning: urllib3 (2.2.3) or chardet (3.0.4) doesn't match a supported version!
   warnings.warn("urllib3 ({}) or chardet ({}) doesn't match a supported "
+[92b100c97f43:0/4] 2025-03-04 22:09:57,737 (distributed_c10d:217) INFO: Added key: store_based_barrier_key:1 to store for rank: 0
+[92b100c97f43:0/4] 2025-03-04 22:09:57,738 (distributed_c10d:251) INFO: Rank 0: Completed store-based barrier for key:store_based_barrier_key:1 with 4 nodes.
+[92b100c97f43:0/4] 2025-03-04 22:09:57,793 (gan_tts:304) INFO: Vocabulary size: 41
+[92b100c97f43:0/4] 2025-03-04 22:09:57,962 (encoder:172) INFO: encoder self-attention layer type = self-attention
+[92b100c97f43:0/4] 2025-03-04 22:09:58,184 (encoder:172) INFO: encoder self-attention layer type = self-attention