new model test

Browse files

Files changed (6) hide show

G_240000.pth +0 -3
G_321600.pth +0 -3
D_240000.pth → G_6800.pth +2 -2
config.json +109 -114
diffusion/config.yaml +0 -60
diffusion/model_50000.pt +0 -3

G_240000.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:b3e5c09a20b3f96b887e29b6a31520ede750a82c7e1558fd22d8a2f2e77f3268
-size 542209243

G_321600.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e606d60c9ff1ff588637c9595c51d6e2e11429b7d71b328e566a72d5420b9248
-size 542209243

D_240000.pth → G_6800.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:988208e0630759cdbb8d60e65eff878cc8709987f841697efa1fdcb36f9e3efe
-size 561099207

 version https://git-lfs.github.com/spec/v1
+oid sha256:e989177f59bcbeff27ded3859bd59ce6ad29ca1c4681efb488f4e541aa03511f
+size 542197727

config.json CHANGED Viewed

@@ -1,116 +1,111 @@
 {
-  "train": {
-    "log_interval": 200,
-    "eval_interval": 800,
-    "seed": 1234,
-    "epochs": 10000,
-    "learning_rate": 0.0001,
-    "betas": [
-      0.8,
-      0.99
-    ],
-    "eps": 1e-09,
-    "batch_size": 6,
-    "fp16_run": false,
-    "half_type": "fp16",
-    "lr_decay": 0.999875,
-    "segment_size": 10240,
-    "init_lr_ratio": 1,
-    "warmup_epochs": 0,
-    "c_mel": 45,
-    "c_kl": 1.0,
-    "use_sr": true,
-    "max_speclen": 512,
-    "port": "8001",
-    "keep_ckpts": 3,
-    "all_in_mem": false,
-    "vol_aug": false
-  },
-  "data": {
-    "training_files": "filelists/train.txt",
-    "validation_files": "filelists/val.txt",
-    "max_wav_value": 32768.0,
-    "sampling_rate": 44100,
-    "filter_length": 2048,
-    "hop_length": 512,
-    "win_length": 2048,
-    "n_mel_channels": 80,
-    "mel_fmin": 0.0,
-    "mel_fmax": 22050,
-    "unit_interpolate_mode": "nearest"
-  },
-  "model": {
-    "inter_channels": 192,
-    "hidden_channels": 192,
-    "filter_channels": 768,
-    "n_heads": 2,
-    "n_layers": 6,
-    "kernel_size": 3,
-    "p_dropout": 0.1,
-    "resblock": "1",
-    "resblock_kernel_sizes": [
-      3,
-      7,
-      11
-    ],
-    "resblock_dilation_sizes": [
-      [
-        1,
-        3,
-        5
-      ],
-      [
-        1,
-        3,
-        5
-      ],
-      [
-        1,
-        3,
-        5
-      ]
-    ],
-    "upsample_rates": [
-      8,
-      8,
-      2,
-      2,
-      2
-    ],
-    "upsample_initial_channel": 512,
-    "upsample_kernel_sizes": [
-      16,
-      16,
-      4,
-      4,
-      4
-    ],
-    "n_layers_q": 3,
-    "n_layers_trans_flow": 3,
-    "n_flow_layer": 4,
-    "use_spectral_norm": false,
-    "gin_channels": 256,
-    "ssl_dim": 256,
-    "n_speakers": 10,
-    "vocoder_name": "nsf-hifigan",
-    "speech_encoder": "vec256l9",
-    "speaker_embedding": false,
-    "vol_embedding": false,
-    "use_depthwise_conv": false,
-    "flow_share_parameter": false,
-    "use_automatic_f0_prediction": true,
-    "use_transformer_flow": false
-  },
-  "spk": {
-    "aoyama_bluemountain": 0,
-    "hoto_cocoa": 1,
-    "jouga_maya": 2,
-    "kafuu_chino": 3,
-    "kafuu_takahiro": 4,
-    "kirima_syaro": 5,
-    "natsu_megumi": 6,
-    "tedeza_rize": 7,
-    "tippy": 8,
-    "ujimatsu_chiya": 9
-  }
 }

 {
+    "train": {
+        "log_interval": 200,
+        "eval_interval": 400,
+        "seed": 1234,
+        "epochs": 10000,
+        "learning_rate": 0.0002,
+        "betas": [
+            0.8,
+            0.99
+        ],
+        "eps": 1e-09,
+        "batch_size": 12,
+        "fp16_run": false,
+        "lr_decay": 0.999875,
+        "segment_size": 10240,
+        "init_lr_ratio": 1,
+        "warmup_epochs": 0,
+        "c_mel": 45,
+        "c_kl": 1.0,
+        "use_sr": true,
+        "max_speclen": 512,
+        "port": "8001",
+        "keep_ckpts": 5,
+        "all_in_mem": false
+    },
+    "data": {
+        "training_files": "filelists/train.txt",
+        "validation_files": "filelists/val.txt",
+        "max_wav_value": 32768.0,
+        "sampling_rate": 44100,
+        "filter_length": 2048,
+        "hop_length": 512,
+        "win_length": 2048,
+        "n_mel_channels": 80,
+        "mel_fmin": 0.0,
+        "mel_fmax": 22050
+    },
+    "model": {
+        "inter_channels": 192,
+        "hidden_channels": 192,
+        "filter_channels": 768,
+        "n_heads": 2,
+        "n_layers": 6,
+        "kernel_size": 3,
+        "p_dropout": 0.1,
+        "resblock": "1",
+        "resblock_kernel_sizes": [
+            3,
+            7,
+            11
+        ],
+        "resblock_dilation_sizes": [
+            [
+                1,
+                3,
+                5
+            ],
+            [
+                1,
+                3,
+                5
+            ],
+            [
+                1,
+                3,
+                5
+            ]
+        ],
+        "upsample_rates": [
+            8,
+            8,
+            2,
+            2,
+            2
+        ],
+        "upsample_initial_channel": 512,
+        "upsample_kernel_sizes": [
+            16,
+            16,
+            4,
+            4,
+            4
+        ],
+        "n_layers_q": 3,
+        "use_spectral_norm": false,
+        "gin_channels": 256,
+        "ssl_dim": 256,
+        "n_speakers": 10,
+        "vocoder_name": "nsf-hifigan",
+        "speech_encoder": "vec256l9",
+        "speaker_embedding": false,
+        "vol_embedding": false,
+        "use_depthwise_conv": false,
+        "flow_share_parameter": false,
+        "use_automatic_f0_prediction": true,
+        "use_transformer_flow": false
+    },
+    "spk": {
+        "aoyama_bluemountain": 0,
+        "hoto_cocoa": 1,
+        "kafuu_chino": 2,
+        "kafuu_takahiro": 3,
+        "kirima_syaro": 4,
+        "natsu_megumi": 5,
+        "tedeza_rize": 6,
+        "tippy": 7,
+        "ujimatsu_chiya": 8,
+        "jouga_maya": 9
+    }
 }

diffusion/config.yaml DELETED Viewed

@@ -1,60 +0,0 @@
-data:
-  block_size: 512
-  cnhubertsoft_gate: 10
-  duration: 2
-  encoder: vec256l9
-  encoder_hop_size: 320
-  encoder_out_channels: 256
-  encoder_sample_rate: 16000
-  extensions:
-  - wav
-  sampling_rate: 44100
-  training_files: filelists/train.txt
-  unit_interpolate_mode: nearest
-  validation_files: filelists/val.txt
-device: cuda
-env:
-  expdir: logs/44k/diffusion
-  gpu_id: 0
-infer:
-  method: dpm-solver++
-  speedup: 10
-model:
-  k_step_max: 0
-  n_chans: 512
-  n_hidden: 256
-  n_layers: 20
-  n_spk: 10
-  timesteps: 1000
-  type: Diffusion
-  use_pitch_aug: true
-spk:
-  aoyama_bluemountain: 0
-  hoto_cocoa: 1
-  jouga_maya: 2
-  kafuu_chino: 3
-  kafuu_takahiro: 4
-  kirima_syaro: 5
-  natsu_megumi: 6
-  tedeza_rize: 7
-  tippy: 8
-  ujimatsu_chiya: 9
-train:
-  amp_dtype: fp32
-  batch_size: 48
-  cache_all_data: true
-  cache_device: cpu
-  cache_fp16: true
-  decay_step: 100000
-  epochs: 100000
-  gamma: 0.5
-  interval_force_save: 5000
-  interval_log: 10
-  interval_val: 2000
-  lr: 0.0001
-  num_workers: 4
-  save_opt: false
-  weight_decay: 0
-vocoder:
-  ckpt: pretrain/nsf_hifigan/model
-  type: nsf-hifigan

diffusion/model_50000.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:273cf30849f2c819c5097d26d74f7d62b622e2deef0e91e1412e0e94bb8f4260
-size 220380041