FashionFlora commited on Jun 1, 2025

Commit

9a964a6

verified ·

1 Parent(s): be4545a

Upload folder using huggingface_hub

Browse files

Files changed (24) hide show

.gitattributes +1 -0
Checkpoint/config.yml +17 -0
Checkpoint/epoch_00020.pth +3 -0
Checkpoint/epoch_00030.pth +3 -0
Checkpoint/epoch_00050.pth +3 -0
Checkpoint/epoch_00060.pth +3 -0
Checkpoint/epoch_00070.pth +3 -0
Checkpoint/tensorboard/events.out.tfevents.1748789103.34a32647fcb7.2057.0 +3 -0
Checkpoint/train.log +560 -0
Configs/config.yml +17 -0
Data/OOD_texts.txt +3 -0
Data/train_list.txt +0 -0
Data/val_list.txt +0 -0
LICENSE +21 -0
README.md +36 -0
__pycache__/meldataset.cpython-312.pyc +0 -0
__pycache__/model.cpython-312.pyc +0 -0
__pycache__/optimizers.cpython-312.pyc +0 -0
__pycache__/trainer.cpython-312.pyc +0 -0
meldataset.py +191 -0
model.py +175 -0
optimizers.py +86 -0
train.py +144 -0
trainer.py +186 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+Data/OOD_texts.txt filter=lfs diff=lfs merge=lfs -text

Checkpoint/config.yml ADDED Viewed

	@@ -0,0 +1,17 @@

+log_dir: "Checkpoint"
+save_freq: 10
+device: "cuda"
+epochs: 100
+batch_size: 32
+pretrained_model: ""
+train_data: "Data/train_list.txt"
+val_data: "Data/val_list.txt"
+num_workers: 16
+optimizer_params:
+  lr: 0.0003
+loss_params:
+  lambda_f0: 0.1

Checkpoint/epoch_00020.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1cd8434a6e1c8c964be6316c1933405d6f0bb61bcd11366b713259bad3545064
+size 63056961

Checkpoint/epoch_00030.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a04b0d41ccce996a18c5f2264ff86e11607f4c5261a5866e8806c31540caaa86
+size 63056961

Checkpoint/epoch_00050.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:acbb1d7f347135999be385042560ece77a54f54b179d181569a9ea1dbfaada84
+size 63056961

Checkpoint/epoch_00060.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6023df18d4bc3d923e8716e1b482fd260806960ad41b95f595c70882d1c39caa
+size 63056961

Checkpoint/epoch_00070.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23ebcb6ba4b45c686d88219f6113d49dab198733d1b8188374b02989364f5e5f
+size 63056961

Checkpoint/tensorboard/events.out.tfevents.1748789103.34a32647fcb7.2057.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f05710112970e3d24c848eba1a632aa5ad0aa9bbd4bfc594f7c582017d3b32ce
+size 23608

Checkpoint/train.log ADDED Viewed

	@@ -0,0 +1,560 @@

+INFO:2025-06-01 16:40:51,971: --- epoch 1 ---
+INFO:2025-06-01 16:40:51,971: train/loss     : 3.0885
+INFO:2025-06-01 16:40:51,972: train/f0       : 2.8800
+INFO:2025-06-01 16:40:51,972: train/sil      : 0.2085
+INFO:2025-06-01 16:40:51,972: train/learning_rate: 0.0003
+INFO:2025-06-01 16:40:51,972: eval/loss      : 1.7819
+INFO:2025-06-01 16:40:51,973: eval/f0        : 1.5807
+INFO:2025-06-01 16:40:51,973: eval/sil       : 0.2012
+INFO:2025-06-01 16:44:27,487: --- epoch 2 ---
+INFO:2025-06-01 16:44:27,487: train/loss     : 1.6526
+INFO:2025-06-01 16:44:27,488: train/f0       : 1.4625
+INFO:2025-06-01 16:44:27,488: train/sil      : 0.1901
+INFO:2025-06-01 16:44:27,488: train/learning_rate: 0.0003
+INFO:2025-06-01 16:44:27,488: eval/loss      : 1.6477
+INFO:2025-06-01 16:44:27,488: eval/f0        : 1.4575
+INFO:2025-06-01 16:44:27,489: eval/sil       : 0.1902
+INFO:2025-06-01 16:48:02,829: --- epoch 3 ---
+INFO:2025-06-01 16:48:02,829: train/loss     : 1.5773
+INFO:2025-06-01 16:48:02,829: train/f0       : 1.3918
+INFO:2025-06-01 16:48:02,830: train/sil      : 0.1855
+INFO:2025-06-01 16:48:02,830: train/learning_rate: 0.0003
+INFO:2025-06-01 16:48:02,830: eval/loss      : 1.6337
+INFO:2025-06-01 16:48:02,830: eval/f0        : 1.4448
+INFO:2025-06-01 16:48:02,830: eval/sil       : 0.1889
+INFO:2025-06-01 16:51:38,771: --- epoch 4 ---
+INFO:2025-06-01 16:51:38,771: train/loss     : 1.5464
+INFO:2025-06-01 16:51:38,772: train/f0       : 1.3635
+INFO:2025-06-01 16:51:38,772: train/sil      : 0.1829
+INFO:2025-06-01 16:51:38,772: train/learning_rate: 0.0003
+INFO:2025-06-01 16:51:38,773: eval/loss      : 1.5930
+INFO:2025-06-01 16:51:38,773: eval/f0        : 1.4066
+INFO:2025-06-01 16:51:38,773: eval/sil       : 0.1865
+INFO:2025-06-01 16:55:15,816: --- epoch 5 ---
+INFO:2025-06-01 16:55:15,816: train/loss     : 1.5211
+INFO:2025-06-01 16:55:15,817: train/f0       : 1.3406
+INFO:2025-06-01 16:55:15,817: train/sil      : 0.1806
+INFO:2025-06-01 16:55:15,817: train/learning_rate: 0.0003
+INFO:2025-06-01 16:55:15,817: eval/loss      : 1.5643
+INFO:2025-06-01 16:55:15,817: eval/f0        : 1.3794
+INFO:2025-06-01 16:55:15,817: eval/sil       : 0.1849
+INFO:2025-06-01 16:58:48,728: --- epoch 6 ---
+INFO:2025-06-01 16:58:48,728: train/loss     : 1.5044
+INFO:2025-06-01 16:58:48,728: train/f0       : 1.3255
+INFO:2025-06-01 16:58:48,729: train/sil      : 0.1789
+INFO:2025-06-01 16:58:48,729: train/learning_rate: 0.0003
+INFO:2025-06-01 16:58:48,729: eval/loss      : 1.5230
+INFO:2025-06-01 16:58:48,730: eval/f0        : 1.3438
+INFO:2025-06-01 16:58:48,730: eval/sil       : 0.1791
+INFO:2025-06-01 17:02:21,431: --- epoch 7 ---
+INFO:2025-06-01 17:02:21,432: train/loss     : 1.4880
+INFO:2025-06-01 17:02:21,432: train/f0       : 1.3106
+INFO:2025-06-01 17:02:21,432: train/sil      : 0.1774
+INFO:2025-06-01 17:02:21,433: train/learning_rate: 0.0003
+INFO:2025-06-01 17:02:21,433: eval/loss      : 1.5487
+INFO:2025-06-01 17:02:21,433: eval/f0        : 1.3655
+INFO:2025-06-01 17:02:21,433: eval/sil       : 0.1832
+INFO:2025-06-01 17:05:53,728: --- epoch 8 ---
+INFO:2025-06-01 17:05:53,728: train/loss     : 1.4784
+INFO:2025-06-01 17:05:53,729: train/f0       : 1.3018
+INFO:2025-06-01 17:05:53,729: train/sil      : 0.1766
+INFO:2025-06-01 17:05:53,729: train/learning_rate: 0.0003
+INFO:2025-06-01 17:05:53,729: eval/loss      : 1.5616
+INFO:2025-06-01 17:05:53,730: eval/f0        : 1.3765
+INFO:2025-06-01 17:05:53,730: eval/sil       : 0.1851
+INFO:2025-06-01 17:09:25,194: --- epoch 9 ---
+INFO:2025-06-01 17:09:25,194: train/loss     : 1.4688
+INFO:2025-06-01 17:09:25,194: train/f0       : 1.2929
+INFO:2025-06-01 17:09:25,195: train/sil      : 0.1759
+INFO:2025-06-01 17:09:25,195: train/learning_rate: 0.0003
+INFO:2025-06-01 17:09:25,196: eval/loss      : 1.5449
+INFO:2025-06-01 17:09:25,196: eval/f0        : 1.3628
+INFO:2025-06-01 17:09:25,196: eval/sil       : 0.1821
+INFO:2025-06-01 17:12:56,663: --- epoch 10 ---
+INFO:2025-06-01 17:12:56,663: train/loss     : 1.4583
+INFO:2025-06-01 17:12:56,664: train/f0       : 1.2836
+INFO:2025-06-01 17:12:56,664: train/sil      : 0.1747
+INFO:2025-06-01 17:12:56,664: train/learning_rate: 0.0003
+INFO:2025-06-01 17:12:56,664: eval/loss      : 1.4957
+INFO:2025-06-01 17:12:56,664: eval/f0        : 1.3204
+INFO:2025-06-01 17:12:56,664: eval/sil       : 0.1753
+INFO:2025-06-01 17:16:28,703: --- epoch 11 ---
+INFO:2025-06-01 17:16:28,703: train/loss     : 1.4496
+INFO:2025-06-01 17:16:28,703: train/f0       : 1.2758
+INFO:2025-06-01 17:16:28,703: train/sil      : 0.1738
+INFO:2025-06-01 17:16:28,704: train/learning_rate: 0.0003
+INFO:2025-06-01 17:16:28,704: eval/loss      : 1.5090
+INFO:2025-06-01 17:16:28,704: eval/f0        : 1.3294
+INFO:2025-06-01 17:16:28,704: eval/sil       : 0.1796
+INFO:2025-06-01 17:19:59,525: --- epoch 12 ---
+INFO:2025-06-01 17:19:59,525: train/loss     : 1.4421
+INFO:2025-06-01 17:19:59,526: train/f0       : 1.2688
+INFO:2025-06-01 17:19:59,526: train/sil      : 0.1733
+INFO:2025-06-01 17:19:59,526: train/learning_rate: 0.0003
+INFO:2025-06-01 17:19:59,527: eval/loss      : 1.5067
+INFO:2025-06-01 17:19:59,527: eval/f0        : 1.3310
+INFO:2025-06-01 17:19:59,527: eval/sil       : 0.1757
+INFO:2025-06-01 17:23:31,629: --- epoch 13 ---
+INFO:2025-06-01 17:23:31,629: train/loss     : 1.4307
+INFO:2025-06-01 17:23:31,629: train/f0       : 1.2586
+INFO:2025-06-01 17:23:31,630: train/sil      : 0.1721
+INFO:2025-06-01 17:23:31,630: train/learning_rate: 0.0003
+INFO:2025-06-01 17:23:31,630: eval/loss      : 1.5103
+INFO:2025-06-01 17:23:31,631: eval/f0        : 1.3347
+INFO:2025-06-01 17:23:31,631: eval/sil       : 0.1756
+INFO:2025-06-01 17:27:03,433: --- epoch 14 ---
+INFO:2025-06-01 17:27:03,433: train/loss     : 1.4232
+INFO:2025-06-01 17:27:03,433: train/f0       : 1.2516
+INFO:2025-06-01 17:27:03,433: train/sil      : 0.1717
+INFO:2025-06-01 17:27:03,434: train/learning_rate: 0.0003
+INFO:2025-06-01 17:27:03,434: eval/loss      : 1.4607
+INFO:2025-06-01 17:27:03,434: eval/f0        : 1.2861
+INFO:2025-06-01 17:27:03,434: eval/sil       : 0.1745
+INFO:2025-06-01 17:30:35,679: --- epoch 15 ---
+INFO:2025-06-01 17:30:35,679: train/loss     : 1.4136
+INFO:2025-06-01 17:30:35,679: train/f0       : 1.2427
+INFO:2025-06-01 17:30:35,679: train/sil      : 0.1709
+INFO:2025-06-01 17:30:35,679: train/learning_rate: 0.0003
+INFO:2025-06-01 17:30:35,680: eval/loss      : 1.4952
+INFO:2025-06-01 17:30:35,680: eval/f0        : 1.3199
+INFO:2025-06-01 17:30:35,680: eval/sil       : 0.1753
+INFO:2025-06-01 17:34:08,277: --- epoch 16 ---
+INFO:2025-06-01 17:34:08,277: train/loss     : 1.4039
+INFO:2025-06-01 17:34:08,277: train/f0       : 1.2339
+INFO:2025-06-01 17:34:08,277: train/sil      : 0.1700
+INFO:2025-06-01 17:34:08,278: train/learning_rate: 0.0003
+INFO:2025-06-01 17:34:08,278: eval/loss      : 1.5022
+INFO:2025-06-01 17:34:08,278: eval/f0        : 1.3243
+INFO:2025-06-01 17:34:08,278: eval/sil       : 0.1779
+INFO:2025-06-01 17:37:40,058: --- epoch 17 ---
+INFO:2025-06-01 17:37:40,058: train/loss     : 1.3960
+INFO:2025-06-01 17:37:40,058: train/f0       : 1.2269
+INFO:2025-06-01 17:37:40,058: train/sil      : 0.1691
+INFO:2025-06-01 17:37:40,059: train/learning_rate: 0.0003
+INFO:2025-06-01 17:37:40,059: eval/loss      : 1.5321
+INFO:2025-06-01 17:37:40,059: eval/f0        : 1.3505
+INFO:2025-06-01 17:37:40,059: eval/sil       : 0.1815
+INFO:2025-06-01 17:41:12,982: --- epoch 18 ---
+INFO:2025-06-01 17:41:12,982: train/loss     : 1.3908
+INFO:2025-06-01 17:41:12,982: train/f0       : 1.2222
+INFO:2025-06-01 17:41:12,983: train/sil      : 0.1687
+INFO:2025-06-01 17:41:12,983: train/learning_rate: 0.0003
+INFO:2025-06-01 17:41:12,983: eval/loss      : 1.4792
+INFO:2025-06-01 17:41:12,983: eval/f0        : 1.3021
+INFO:2025-06-01 17:41:12,983: eval/sil       : 0.1771
+INFO:2025-06-01 17:44:48,797: --- epoch 19 ---
+INFO:2025-06-01 17:44:48,797: train/loss     : 1.3829
+INFO:2025-06-01 17:44:48,798: train/f0       : 1.2149
+INFO:2025-06-01 17:44:48,798: train/sil      : 0.1680
+INFO:2025-06-01 17:44:48,798: train/learning_rate: 0.0003
+INFO:2025-06-01 17:44:48,798: eval/loss      : 1.4834
+INFO:2025-06-01 17:44:48,798: eval/f0        : 1.3093
+INFO:2025-06-01 17:44:48,799: eval/sil       : 0.1741
+INFO:2025-06-01 17:48:20,820: --- epoch 20 ---
+INFO:2025-06-01 17:48:20,820: train/loss     : 1.3726
+INFO:2025-06-01 17:48:20,820: train/f0       : 1.2057
+INFO:2025-06-01 17:48:20,821: train/sil      : 0.1669
+INFO:2025-06-01 17:48:20,821: train/learning_rate: 0.0003
+INFO:2025-06-01 17:48:20,821: eval/loss      : 1.5440
+INFO:2025-06-01 17:48:20,821: eval/f0        : 1.3609
+INFO:2025-06-01 17:48:20,821: eval/sil       : 0.1831
+INFO:2025-06-01 17:51:53,163: --- epoch 21 ---
+INFO:2025-06-01 17:51:53,163: train/loss     : 1.3631
+INFO:2025-06-01 17:51:53,164: train/f0       : 1.1967
+INFO:2025-06-01 17:51:53,164: train/sil      : 0.1664
+INFO:2025-06-01 17:51:53,164: train/learning_rate: 0.0003
+INFO:2025-06-01 17:51:53,164: eval/loss      : 1.5264
+INFO:2025-06-01 17:51:53,164: eval/f0        : 1.3471
+INFO:2025-06-01 17:51:53,164: eval/sil       : 0.1793
+INFO:2025-06-01 17:55:25,512: --- epoch 22 ---
+INFO:2025-06-01 17:55:25,513: train/loss     : 1.3546
+INFO:2025-06-01 17:55:25,513: train/f0       : 1.1893
+INFO:2025-06-01 17:55:25,513: train/sil      : 0.1653
+INFO:2025-06-01 17:55:25,513: train/learning_rate: 0.0003
+INFO:2025-06-01 17:55:25,513: eval/loss      : 1.4943
+INFO:2025-06-01 17:55:25,514: eval/f0        : 1.3182
+INFO:2025-06-01 17:55:25,514: eval/sil       : 0.1761
+INFO:2025-06-01 17:58:57,803: --- epoch 23 ---
+INFO:2025-06-01 17:58:57,803: train/loss     : 1.3466
+INFO:2025-06-01 17:58:57,803: train/f0       : 1.1820
+INFO:2025-06-01 17:58:57,804: train/sil      : 0.1646
+INFO:2025-06-01 17:58:57,804: train/learning_rate: 0.0003
+INFO:2025-06-01 17:58:57,804: eval/loss      : 1.4973
+INFO:2025-06-01 17:58:57,804: eval/f0        : 1.3192
+INFO:2025-06-01 17:58:57,804: eval/sil       : 0.1780
+INFO:2025-06-01 18:02:30,350: --- epoch 24 ---
+INFO:2025-06-01 18:02:30,350: train/loss     : 1.3341
+INFO:2025-06-01 18:02:30,350: train/f0       : 1.1706
+INFO:2025-06-01 18:02:30,350: train/sil      : 0.1635
+INFO:2025-06-01 18:02:30,351: train/learning_rate: 0.0003
+INFO:2025-06-01 18:02:30,351: eval/loss      : 1.5060
+INFO:2025-06-01 18:02:30,351: eval/f0        : 1.3270
+INFO:2025-06-01 18:02:30,351: eval/sil       : 0.1790
+INFO:2025-06-01 18:06:02,040: --- epoch 25 ---
+INFO:2025-06-01 18:06:02,041: train/loss     : 1.3278
+INFO:2025-06-01 18:06:02,041: train/f0       : 1.1650
+INFO:2025-06-01 18:06:02,041: train/sil      : 0.1628
+INFO:2025-06-01 18:06:02,041: train/learning_rate: 0.0003
+INFO:2025-06-01 18:06:02,041: eval/loss      : 1.5066
+INFO:2025-06-01 18:06:02,042: eval/f0        : 1.3271
+INFO:2025-06-01 18:06:02,042: eval/sil       : 0.1795
+INFO:2025-06-01 18:09:33,910: --- epoch 26 ---
+INFO:2025-06-01 18:09:33,910: train/loss     : 1.3176
+INFO:2025-06-01 18:09:33,910: train/f0       : 1.1559
+INFO:2025-06-01 18:09:33,911: train/sil      : 0.1617
+INFO:2025-06-01 18:09:33,911: train/learning_rate: 0.0003
+INFO:2025-06-01 18:09:33,911: eval/loss      : 1.5134
+INFO:2025-06-01 18:09:33,911: eval/f0        : 1.3332
+INFO:2025-06-01 18:09:33,911: eval/sil       : 0.1802
+INFO:2025-06-01 18:13:05,634: --- epoch 27 ---
+INFO:2025-06-01 18:13:05,634: train/loss     : 1.3055
+INFO:2025-06-01 18:13:05,634: train/f0       : 1.1451
+INFO:2025-06-01 18:13:05,635: train/sil      : 0.1605
+INFO:2025-06-01 18:13:05,635: train/learning_rate: 0.0002
+INFO:2025-06-01 18:13:05,635: eval/loss      : 1.4904
+INFO:2025-06-01 18:13:05,635: eval/f0        : 1.3130
+INFO:2025-06-01 18:13:05,636: eval/sil       : 0.1774
+INFO:2025-06-01 18:16:36,743: --- epoch 28 ---
+INFO:2025-06-01 18:16:36,744: train/loss     : 1.2989
+INFO:2025-06-01 18:16:36,744: train/f0       : 1.1392
+INFO:2025-06-01 18:16:36,744: train/sil      : 0.1598
+INFO:2025-06-01 18:16:36,744: train/learning_rate: 0.0002
+INFO:2025-06-01 18:16:36,745: eval/loss      : 1.5058
+INFO:2025-06-01 18:16:36,745: eval/f0        : 1.3258
+INFO:2025-06-01 18:16:36,745: eval/sil       : 0.1799
+INFO:2025-06-01 18:20:09,380: --- epoch 29 ---
+INFO:2025-06-01 18:20:09,380: train/loss     : 1.2861
+INFO:2025-06-01 18:20:09,381: train/f0       : 1.1278
+INFO:2025-06-01 18:20:09,381: train/sil      : 0.1583
+INFO:2025-06-01 18:20:09,381: train/learning_rate: 0.0002
+INFO:2025-06-01 18:20:09,381: eval/loss      : 1.4993
+INFO:2025-06-01 18:20:09,381: eval/f0        : 1.3186
+INFO:2025-06-01 18:20:09,382: eval/sil       : 0.1807
+INFO:2025-06-01 18:23:41,136: --- epoch 30 ---
+INFO:2025-06-01 18:23:41,136: train/loss     : 1.2751
+INFO:2025-06-01 18:23:41,136: train/f0       : 1.1178
+INFO:2025-06-01 18:23:41,137: train/sil      : 0.1573
+INFO:2025-06-01 18:23:41,137: train/learning_rate: 0.0002
+INFO:2025-06-01 18:23:41,137: eval/loss      : 1.4968
+INFO:2025-06-01 18:23:41,137: eval/f0        : 1.3155
+INFO:2025-06-01 18:23:41,138: eval/sil       : 0.1813
+INFO:2025-06-01 18:27:13,509: --- epoch 31 ---
+INFO:2025-06-01 18:27:13,509: train/loss     : 1.2640
+INFO:2025-06-01 18:27:13,509: train/f0       : 1.1079
+INFO:2025-06-01 18:27:13,509: train/sil      : 0.1561
+INFO:2025-06-01 18:27:13,509: train/learning_rate: 0.0002
+INFO:2025-06-01 18:27:13,510: eval/loss      : 1.5054
+INFO:2025-06-01 18:27:13,510: eval/f0        : 1.3248
+INFO:2025-06-01 18:27:13,510: eval/sil       : 0.1806
+INFO:2025-06-01 18:30:45,279: --- epoch 32 ---
+INFO:2025-06-01 18:30:45,279: train/loss     : 1.2605
+INFO:2025-06-01 18:30:45,279: train/f0       : 1.1052
+INFO:2025-06-01 18:30:45,279: train/sil      : 0.1553
+INFO:2025-06-01 18:30:45,280: train/learning_rate: 0.0002
+INFO:2025-06-01 18:30:45,280: eval/loss      : 1.5038
+INFO:2025-06-01 18:30:45,280: eval/f0        : 1.3237
+INFO:2025-06-01 18:30:45,280: eval/sil       : 0.1802
+INFO:2025-06-01 18:34:16,950: --- epoch 33 ---
+INFO:2025-06-01 18:34:16,950: train/loss     : 1.2508
+INFO:2025-06-01 18:34:16,950: train/f0       : 1.0965
+INFO:2025-06-01 18:34:16,951: train/sil      : 0.1543
+INFO:2025-06-01 18:34:16,951: train/learning_rate: 0.0002
+INFO:2025-06-01 18:34:16,951: eval/loss      : 1.5009
+INFO:2025-06-01 18:34:16,951: eval/f0        : 1.3176
+INFO:2025-06-01 18:34:16,952: eval/sil       : 0.1833
+INFO:2025-06-01 18:37:49,655: --- epoch 34 ---
+INFO:2025-06-01 18:37:49,655: train/loss     : 1.2386
+INFO:2025-06-01 18:37:49,655: train/f0       : 1.0856
+INFO:2025-06-01 18:37:49,655: train/sil      : 0.1529
+INFO:2025-06-01 18:37:49,655: train/learning_rate: 0.0002
+INFO:2025-06-01 18:37:49,656: eval/loss      : 1.5012
+INFO:2025-06-01 18:37:49,656: eval/f0        : 1.3192
+INFO:2025-06-01 18:37:49,656: eval/sil       : 0.1820
+INFO:2025-06-01 18:41:21,765: --- epoch 35 ---
+INFO:2025-06-01 18:41:21,766: train/loss     : 1.2292
+INFO:2025-06-01 18:41:21,766: train/f0       : 1.0773
+INFO:2025-06-01 18:41:21,766: train/sil      : 0.1518
+INFO:2025-06-01 18:41:21,766: train/learning_rate: 0.0002
+INFO:2025-06-01 18:41:21,767: eval/loss      : 1.4754
+INFO:2025-06-01 18:41:21,767: eval/f0        : 1.2952
+INFO:2025-06-01 18:41:21,767: eval/sil       : 0.1802
+INFO:2025-06-01 18:44:53,596: --- epoch 36 ---
+INFO:2025-06-01 18:44:53,597: train/loss     : 1.2208
+INFO:2025-06-01 18:44:53,597: train/f0       : 1.0702
+INFO:2025-06-01 18:44:53,597: train/sil      : 0.1505
+INFO:2025-06-01 18:44:53,597: train/learning_rate: 0.0002
+INFO:2025-06-01 18:44:53,597: eval/loss      : 1.5341
+INFO:2025-06-01 18:44:53,598: eval/f0        : 1.3461
+INFO:2025-06-01 18:44:53,598: eval/sil       : 0.1880
+INFO:2025-06-01 18:48:25,343: --- epoch 37 ---
+INFO:2025-06-01 18:48:25,344: train/loss     : 1.2100
+INFO:2025-06-01 18:48:25,344: train/f0       : 1.0607
+INFO:2025-06-01 18:48:25,344: train/sil      : 0.1494
+INFO:2025-06-01 18:48:25,344: train/learning_rate: 0.0002
+INFO:2025-06-01 18:48:25,345: eval/loss      : 1.5276
+INFO:2025-06-01 18:48:25,345: eval/f0        : 1.3412
+INFO:2025-06-01 18:48:25,345: eval/sil       : 0.1864
+INFO:2025-06-01 18:51:57,791: --- epoch 38 ---
+INFO:2025-06-01 18:51:57,791: train/loss     : 1.2062
+INFO:2025-06-01 18:51:57,791: train/f0       : 1.0574
+INFO:2025-06-01 18:51:57,792: train/sil      : 0.1487
+INFO:2025-06-01 18:51:57,792: train/learning_rate: 0.0002
+INFO:2025-06-01 18:51:57,792: eval/loss      : 1.5113
+INFO:2025-06-01 18:51:57,793: eval/f0        : 1.3246
+INFO:2025-06-01 18:51:57,793: eval/sil       : 0.1867
+INFO:2025-06-01 18:55:29,730: --- epoch 39 ---
+INFO:2025-06-01 18:55:29,730: train/loss     : 1.1953
+INFO:2025-06-01 18:55:29,730: train/f0       : 1.0477
+INFO:2025-06-01 18:55:29,730: train/sil      : 0.1475
+INFO:2025-06-01 18:55:29,731: train/learning_rate: 0.0002
+INFO:2025-06-01 18:55:29,731: eval/loss      : 1.5343
+INFO:2025-06-01 18:55:29,731: eval/f0        : 1.3457
+INFO:2025-06-01 18:55:29,731: eval/sil       : 0.1886
+INFO:2025-06-01 18:59:01,120: --- epoch 40 ---
+INFO:2025-06-01 18:59:01,121: train/loss     : 1.1866
+INFO:2025-06-01 18:59:01,121: train/f0       : 1.0401
+INFO:2025-06-01 18:59:01,121: train/sil      : 0.1466
+INFO:2025-06-01 18:59:01,121: train/learning_rate: 0.0002
+INFO:2025-06-01 18:59:01,121: eval/loss      : 1.5472
+INFO:2025-06-01 18:59:01,122: eval/f0        : 1.3564
+INFO:2025-06-01 18:59:01,122: eval/sil       : 0.1908
+INFO:2025-06-01 19:02:32,997: --- epoch 41 ---
+INFO:2025-06-01 19:02:32,997: train/loss     : 1.1796
+INFO:2025-06-01 19:02:32,997: train/f0       : 1.0338
+INFO:2025-06-01 19:02:32,997: train/sil      : 0.1457
+INFO:2025-06-01 19:02:32,998: train/learning_rate: 0.0002
+INFO:2025-06-01 19:02:32,998: eval/loss      : 1.5317
+INFO:2025-06-01 19:02:32,998: eval/f0        : 1.3403
+INFO:2025-06-01 19:02:32,998: eval/sil       : 0.1913
+INFO:2025-06-01 19:06:07,793: --- epoch 42 ---
+INFO:2025-06-01 19:06:07,793: train/loss     : 1.1701
+INFO:2025-06-01 19:06:07,794: train/f0       : 1.0259
+INFO:2025-06-01 19:06:07,794: train/sil      : 0.1441
+INFO:2025-06-01 19:06:07,794: train/learning_rate: 0.0002
+INFO:2025-06-01 19:06:07,795: eval/loss      : 1.5308
+INFO:2025-06-01 19:06:07,795: eval/f0        : 1.3399
+INFO:2025-06-01 19:06:07,795: eval/sil       : 0.1909
+INFO:2025-06-01 19:09:44,178: --- epoch 43 ---
+INFO:2025-06-01 19:09:44,179: train/loss     : 1.1607
+INFO:2025-06-01 19:09:44,179: train/f0       : 1.0177
+INFO:2025-06-01 19:09:44,179: train/sil      : 0.1430
+INFO:2025-06-01 19:09:44,179: train/learning_rate: 0.0002
+INFO:2025-06-01 19:09:44,179: eval/loss      : 1.5487
+INFO:2025-06-01 19:09:44,180: eval/f0        : 1.3513
+INFO:2025-06-01 19:09:44,180: eval/sil       : 0.1974
+INFO:2025-06-01 19:13:15,424: --- epoch 44 ---
+INFO:2025-06-01 19:13:15,425: train/loss     : 1.1534
+INFO:2025-06-01 19:13:15,425: train/f0       : 1.0113
+INFO:2025-06-01 19:13:15,425: train/sil      : 0.1421
+INFO:2025-06-01 19:13:15,425: train/learning_rate: 0.0002
+INFO:2025-06-01 19:13:15,425: eval/loss      : 1.5332
+INFO:2025-06-01 19:13:15,426: eval/f0        : 1.3421
+INFO:2025-06-01 19:13:15,426: eval/sil       : 0.1911
+INFO:2025-06-01 19:16:47,751: --- epoch 45 ---
+INFO:2025-06-01 19:16:47,751: train/loss     : 1.1434
+INFO:2025-06-01 19:16:47,752: train/f0       : 1.0026
+INFO:2025-06-01 19:16:47,752: train/sil      : 0.1409
+INFO:2025-06-01 19:16:47,752: train/learning_rate: 0.0002
+INFO:2025-06-01 19:16:47,752: eval/loss      : 1.5308
+INFO:2025-06-01 19:16:47,753: eval/f0        : 1.3354
+INFO:2025-06-01 19:16:47,753: eval/sil       : 0.1954
+INFO:2025-06-01 19:20:19,443: --- epoch 46 ---
+INFO:2025-06-01 19:20:19,443: train/loss     : 1.1354
+INFO:2025-06-01 19:20:19,444: train/f0       : 0.9956
+INFO:2025-06-01 19:20:19,444: train/sil      : 0.1398
+INFO:2025-06-01 19:20:19,444: train/learning_rate: 0.0002
+INFO:2025-06-01 19:20:19,444: eval/loss      : 1.5555
+INFO:2025-06-01 19:20:19,444: eval/f0        : 1.3573
+INFO:2025-06-01 19:20:19,445: eval/sil       : 0.1982
+INFO:2025-06-01 19:23:52,515: --- epoch 47 ---
+INFO:2025-06-01 19:23:52,515: train/loss     : 1.1252
+INFO:2025-06-01 19:23:52,515: train/f0       : 0.9868
+INFO:2025-06-01 19:23:52,515: train/sil      : 0.1384
+INFO:2025-06-01 19:23:52,515: train/learning_rate: 0.0002
+INFO:2025-06-01 19:23:52,516: eval/loss      : 1.5228
+INFO:2025-06-01 19:23:52,516: eval/f0        : 1.3254
+INFO:2025-06-01 19:23:52,516: eval/sil       : 0.1975
+INFO:2025-06-01 19:27:25,164: --- epoch 48 ---
+INFO:2025-06-01 19:27:25,164: train/loss     : 1.1223
+INFO:2025-06-01 19:27:25,164: train/f0       : 0.9844
+INFO:2025-06-01 19:27:25,165: train/sil      : 0.1380
+INFO:2025-06-01 19:27:25,165: train/learning_rate: 0.0002
+INFO:2025-06-01 19:27:25,165: eval/loss      : 1.5512
+INFO:2025-06-01 19:27:25,165: eval/f0        : 1.3500
+INFO:2025-06-01 19:27:25,165: eval/sil       : 0.2012
+INFO:2025-06-01 19:30:56,640: --- epoch 49 ---
+INFO:2025-06-01 19:30:56,640: train/loss     : 1.1139
+INFO:2025-06-01 19:30:56,640: train/f0       : 0.9771
+INFO:2025-06-01 19:30:56,640: train/sil      : 0.1368
+INFO:2025-06-01 19:30:56,641: train/learning_rate: 0.0002
+INFO:2025-06-01 19:30:56,641: eval/loss      : 1.5470
+INFO:2025-06-01 19:30:56,641: eval/f0        : 1.3484
+INFO:2025-06-01 19:30:56,641: eval/sil       : 0.1986
+INFO:2025-06-01 19:34:28,781: --- epoch 50 ---
+INFO:2025-06-01 19:34:28,782: train/loss     : 1.1048
+INFO:2025-06-01 19:34:28,782: train/f0       : 0.9692
+INFO:2025-06-01 19:34:28,782: train/sil      : 0.1356
+INFO:2025-06-01 19:34:28,782: train/learning_rate: 0.0002
+INFO:2025-06-01 19:34:28,783: eval/loss      : 1.5572
+INFO:2025-06-01 19:34:28,783: eval/f0        : 1.3543
+INFO:2025-06-01 19:34:28,783: eval/sil       : 0.2029
+INFO:2025-06-01 19:38:00,874: --- epoch 51 ---
+INFO:2025-06-01 19:38:00,874: train/loss     : 1.0971
+INFO:2025-06-01 19:38:00,874: train/f0       : 0.9625
+INFO:2025-06-01 19:38:00,874: train/sil      : 0.1346
+INFO:2025-06-01 19:38:00,875: train/learning_rate: 0.0001
+INFO:2025-06-01 19:38:00,875: eval/loss      : 1.5085
+INFO:2025-06-01 19:38:00,875: eval/f0        : 1.3116
+INFO:2025-06-01 19:38:00,875: eval/sil       : 0.1969
+INFO:2025-06-01 19:41:32,149: --- epoch 52 ---
+INFO:2025-06-01 19:41:32,150: train/loss     : 1.0895
+INFO:2025-06-01 19:41:32,150: train/f0       : 0.9559
+INFO:2025-06-01 19:41:32,150: train/sil      : 0.1336
+INFO:2025-06-01 19:41:32,151: train/learning_rate: 0.0001
+INFO:2025-06-01 19:41:32,151: eval/loss      : 1.5259
+INFO:2025-06-01 19:41:32,151: eval/f0        : 1.3250
+INFO:2025-06-01 19:41:32,151: eval/sil       : 0.2009
+INFO:2025-06-01 19:45:04,016: --- epoch 53 ---
+INFO:2025-06-01 19:45:04,017: train/loss     : 1.0835
+INFO:2025-06-01 19:45:04,017: train/f0       : 0.9510
+INFO:2025-06-01 19:45:04,017: train/sil      : 0.1326
+INFO:2025-06-01 19:45:04,017: train/learning_rate: 0.0001
+INFO:2025-06-01 19:45:04,018: eval/loss      : 1.5333
+INFO:2025-06-01 19:45:04,018: eval/f0        : 1.3327
+INFO:2025-06-01 19:45:04,018: eval/sil       : 0.2006
+INFO:2025-06-01 19:48:35,506: --- epoch 54 ---
+INFO:2025-06-01 19:48:35,506: train/loss     : 1.0736
+INFO:2025-06-01 19:48:35,507: train/f0       : 0.9423
+INFO:2025-06-01 19:48:35,507: train/sil      : 0.1313
+INFO:2025-06-01 19:48:35,508: train/learning_rate: 0.0001
+INFO:2025-06-01 19:48:35,508: eval/loss      : 1.5590
+INFO:2025-06-01 19:48:35,508: eval/f0        : 1.3546
+INFO:2025-06-01 19:48:35,508: eval/sil       : 0.2043
+INFO:2025-06-01 19:52:07,120: --- epoch 55 ---
+INFO:2025-06-01 19:52:07,120: train/loss     : 1.0664
+INFO:2025-06-01 19:52:07,120: train/f0       : 0.9360
+INFO:2025-06-01 19:52:07,120: train/sil      : 0.1303
+INFO:2025-06-01 19:52:07,121: train/learning_rate: 0.0001
+INFO:2025-06-01 19:52:07,121: eval/loss      : 1.5577
+INFO:2025-06-01 19:52:07,121: eval/f0        : 1.3521
+INFO:2025-06-01 19:52:07,121: eval/sil       : 0.2056
+INFO:2025-06-01 19:55:38,786: --- epoch 56 ---
+INFO:2025-06-01 19:55:38,786: train/loss     : 1.0589
+INFO:2025-06-01 19:55:38,786: train/f0       : 0.9296
+INFO:2025-06-01 19:55:38,787: train/sil      : 0.1294
+INFO:2025-06-01 19:55:38,787: train/learning_rate: 0.0001
+INFO:2025-06-01 19:55:38,787: eval/loss      : 1.5557
+INFO:2025-06-01 19:55:38,787: eval/f0        : 1.3509
+INFO:2025-06-01 19:55:38,787: eval/sil       : 0.2048
+INFO:2025-06-01 19:59:10,771: --- epoch 57 ---
+INFO:2025-06-01 19:59:10,771: train/loss     : 1.0538
+INFO:2025-06-01 19:59:10,771: train/f0       : 0.9252
+INFO:2025-06-01 19:59:10,771: train/sil      : 0.1286
+INFO:2025-06-01 19:59:10,772: train/learning_rate: 0.0001
+INFO:2025-06-01 19:59:10,772: eval/loss      : 1.5371
+INFO:2025-06-01 19:59:10,772: eval/f0        : 1.3306
+INFO:2025-06-01 19:59:10,772: eval/sil       : 0.2065
+INFO:2025-06-01 20:02:43,395: --- epoch 58 ---
+INFO:2025-06-01 20:02:43,395: train/loss     : 1.0495
+INFO:2025-06-01 20:02:43,395: train/f0       : 0.9216
+INFO:2025-06-01 20:02:43,396: train/sil      : 0.1279
+INFO:2025-06-01 20:02:43,396: train/learning_rate: 0.0001
+INFO:2025-06-01 20:02:43,396: eval/loss      : 1.5604
+INFO:2025-06-01 20:02:43,396: eval/f0        : 1.3508
+INFO:2025-06-01 20:02:43,397: eval/sil       : 0.2097
+INFO:2025-06-01 20:06:15,038: --- epoch 59 ---
+INFO:2025-06-01 20:06:15,038: train/loss     : 1.0400
+INFO:2025-06-01 20:06:15,039: train/f0       : 0.9134
+INFO:2025-06-01 20:06:15,039: train/sil      : 0.1266
+INFO:2025-06-01 20:06:15,039: train/learning_rate: 0.0001
+INFO:2025-06-01 20:06:15,039: eval/loss      : 1.5236
+INFO:2025-06-01 20:06:15,039: eval/f0        : 1.3177
+INFO:2025-06-01 20:06:15,040: eval/sil       : 0.2059
+INFO:2025-06-01 20:09:47,579: --- epoch 60 ---
+INFO:2025-06-01 20:09:47,579: train/loss     : 1.0314
+INFO:2025-06-01 20:09:47,579: train/f0       : 0.9061
+INFO:2025-06-01 20:09:47,579: train/sil      : 0.1253
+INFO:2025-06-01 20:09:47,580: train/learning_rate: 0.0001
+INFO:2025-06-01 20:09:47,580: eval/loss      : 1.5278
+INFO:2025-06-01 20:09:47,580: eval/f0        : 1.3203
+INFO:2025-06-01 20:09:47,580: eval/sil       : 0.2075
+INFO:2025-06-01 20:13:19,349: --- epoch 61 ---
+INFO:2025-06-01 20:13:19,349: train/loss     : 1.0231
+INFO:2025-06-01 20:13:19,349: train/f0       : 0.8988
+INFO:2025-06-01 20:13:19,349: train/sil      : 0.1243
+INFO:2025-06-01 20:13:19,350: train/learning_rate: 0.0001
+INFO:2025-06-01 20:13:19,350: eval/loss      : 1.5889
+INFO:2025-06-01 20:13:19,350: eval/f0        : 1.3730
+INFO:2025-06-01 20:13:19,350: eval/sil       : 0.2159
+INFO:2025-06-01 20:16:50,725: --- epoch 62 ---
+INFO:2025-06-01 20:16:50,726: train/loss     : 1.0208
+INFO:2025-06-01 20:16:50,726: train/f0       : 0.8970
+INFO:2025-06-01 20:16:50,726: train/sil      : 0.1238
+INFO:2025-06-01 20:16:50,726: train/learning_rate: 0.0001
+INFO:2025-06-01 20:16:50,726: eval/loss      : 1.5667
+INFO:2025-06-01 20:16:50,726: eval/f0        : 1.3523
+INFO:2025-06-01 20:16:50,727: eval/sil       : 0.2145
+INFO:2025-06-01 20:20:23,749: --- epoch 63 ---
+INFO:2025-06-01 20:20:23,750: train/loss     : 1.0141
+INFO:2025-06-01 20:20:23,750: train/f0       : 0.8910
+INFO:2025-06-01 20:20:23,750: train/sil      : 0.1231
+INFO:2025-06-01 20:20:23,750: train/learning_rate: 0.0001
+INFO:2025-06-01 20:20:23,750: eval/loss      : 1.5848
+INFO:2025-06-01 20:20:23,751: eval/f0        : 1.3679
+INFO:2025-06-01 20:20:23,751: eval/sil       : 0.2169
+INFO:2025-06-01 20:23:55,185: --- epoch 64 ---
+INFO:2025-06-01 20:23:55,185: train/loss     : 1.0078
+INFO:2025-06-01 20:23:55,185: train/f0       : 0.8856
+INFO:2025-06-01 20:23:55,186: train/sil      : 0.1221
+INFO:2025-06-01 20:23:55,186: train/learning_rate: 0.0001
+INFO:2025-06-01 20:23:55,186: eval/loss      : 1.5571
+INFO:2025-06-01 20:23:55,186: eval/f0        : 1.3411
+INFO:2025-06-01 20:23:55,186: eval/sil       : 0.2160
+INFO:2025-06-01 20:27:26,913: --- epoch 65 ---
+INFO:2025-06-01 20:27:26,914: train/loss     : 1.0027
+INFO:2025-06-01 20:27:26,914: train/f0       : 0.8815
+INFO:2025-06-01 20:27:26,914: train/sil      : 0.1212
+INFO:2025-06-01 20:27:26,914: train/learning_rate: 0.0001
+INFO:2025-06-01 20:27:26,914: eval/loss      : 1.5837
+INFO:2025-06-01 20:27:26,915: eval/f0        : 1.3687
+INFO:2025-06-01 20:27:26,915: eval/sil       : 0.2150
+INFO:2025-06-01 20:30:58,156: --- epoch 66 ---
+INFO:2025-06-01 20:30:58,156: train/loss     : 0.9969
+INFO:2025-06-01 20:30:58,156: train/f0       : 0.8763
+INFO:2025-06-01 20:30:58,157: train/sil      : 0.1207
+INFO:2025-06-01 20:30:58,157: train/learning_rate: 0.0001
+INFO:2025-06-01 20:30:58,157: eval/loss      : 1.5586
+INFO:2025-06-01 20:30:58,157: eval/f0        : 1.3453
+INFO:2025-06-01 20:30:58,157: eval/sil       : 0.2133
+INFO:2025-06-01 20:34:30,658: --- epoch 67 ---
+INFO:2025-06-01 20:34:30,658: train/loss     : 0.9925
+INFO:2025-06-01 20:34:30,659: train/f0       : 0.8726
+INFO:2025-06-01 20:34:30,659: train/sil      : 0.1199
+INFO:2025-06-01 20:34:30,659: train/learning_rate: 0.0001
+INFO:2025-06-01 20:34:30,660: eval/loss      : 1.5443
+INFO:2025-06-01 20:34:30,660: eval/f0        : 1.3298
+INFO:2025-06-01 20:34:30,660: eval/sil       : 0.2146
+INFO:2025-06-01 20:38:03,364: --- epoch 68 ---
+INFO:2025-06-01 20:38:03,364: train/loss     : 0.9872
+INFO:2025-06-01 20:38:03,365: train/f0       : 0.8680
+INFO:2025-06-01 20:38:03,365: train/sil      : 0.1192
+INFO:2025-06-01 20:38:03,365: train/learning_rate: 0.0001
+INFO:2025-06-01 20:38:03,365: eval/loss      : 1.5761
+INFO:2025-06-01 20:38:03,365: eval/f0        : 1.3552
+INFO:2025-06-01 20:38:03,366: eval/sil       : 0.2209
+INFO:2025-06-01 20:41:38,174: --- epoch 69 ---
+INFO:2025-06-01 20:41:38,174: train/loss     : 0.9811
+INFO:2025-06-01 20:41:38,174: train/f0       : 0.8629
+INFO:2025-06-01 20:41:38,175: train/sil      : 0.1183
+INFO:2025-06-01 20:41:38,175: train/learning_rate: 0.0001
+INFO:2025-06-01 20:41:38,175: eval/loss      : 1.5786
+INFO:2025-06-01 20:41:38,175: eval/f0        : 1.3560
+INFO:2025-06-01 20:41:38,176: eval/sil       : 0.2226
+INFO:2025-06-01 20:45:09,164: --- epoch 70 ---
+INFO:2025-06-01 20:45:09,165: train/loss     : 0.9775
+INFO:2025-06-01 20:45:09,165: train/f0       : 0.8599
+INFO:2025-06-01 20:45:09,165: train/sil      : 0.1176
+INFO:2025-06-01 20:45:09,165: train/learning_rate: 0.0001
+INFO:2025-06-01 20:45:09,165: eval/loss      : 1.5624
+INFO:2025-06-01 20:45:09,166: eval/f0        : 1.3397
+INFO:2025-06-01 20:45:09,166: eval/sil       : 0.2227

Configs/config.yml ADDED Viewed

	@@ -0,0 +1,17 @@

+log_dir: "Checkpoint"
+save_freq: 10
+device: "cuda"
+epochs: 100
+batch_size: 32
+pretrained_model: ""
+train_data: "Data/train_list.txt"
+val_data: "Data/val_list.txt"
+num_workers: 16
+optimizer_params:
+  lr: 0.0003
+loss_params:
+  lambda_f0: 0.1

Data/OOD_texts.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97ee709b86948c4e708e99f3f64e645ad3950594caff4d6ee171eba598fb4930
+size 15671597

Data/train_list.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

Data/val_list.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

LICENSE ADDED Viewed

	@@ -0,0 +1,21 @@

+MIT License
+Copyright (c) 2022 Aaron (Yinghao) Li
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.

README.md ADDED Viewed

	@@ -0,0 +1,36 @@

+# JDC-PitchExtractor
+This repo contains the training code for deep neural pitch extractor for Voice Conversion (VC) and TTS used in [StarGANv2-VC](https://github.com/yl4579/StarGANv2-VC) and [StyleTTS](https://github.com/yl4579/StyleTTS). This is the F0 network in StarGANv2-VC and pitch extractor in StyleTTS.
+## Pre-requisites
+1. Python >= 3.7
+2. Clone this repository:
+```bash
+git clone https://github.com/yl4579/PitchExtractor.git
+cd PitchExtractor
+```
+3. Install python requirements:
+```bash
+pip install SoundFile torchaudio torch pyyaml click matplotlib librosa pyworld
+```
+4. Prepare your own dataset and put the `train_list.txt` and `val_list.txt` in the `Data` folder (see Training section for more details).
+## Training
+```bash
+python train.py --config_path ./Configs/config.yml
+```
+Please specify the training and validation data in `config.yml` file. The data list format needs to be `filename.wav|anything`, see [train_list.txt](https://github.com/yl4579/StarGANv2-VC/blob/main/Data/train_list.txt) as an example (a subset of VCTK). Note that you can put anything after the filename because the training labels are generated ad-hoc.
+Checkpoints and Tensorboard logs will be saved at `log_dir`. To speed up training, you may want to make `batch_size` as large as your GPU RAM can take.
+### IMPORTANT: DATA FOLDER NEEDS WRITE PERMISSION
+Since both `harvest` and `dio` are relatively slow, we do have to save the computed F0 ground truth for later use. In [meldataset.py](https://github.com/yl4579/PitchExtractor/blob/main/meldataset.py#L77-L89), it will write the computed F0 curve `_f0.npy` for each `.wav` file. This requires write permission in your data folder.
+### F0 Computation Details
+In [meldataset.py](https://github.com/yl4579/PitchExtractor/blob/main/meldataset.py#L83-L87), the F0 curves are computated using [PyWorld](https://github.com/JeremyCCHsu/Python-Wrapper-for-World-Vocoder), one with `harvest` and another with `dio`. Both methods are acoustic-based and are unstable under certain conditions. `harvest` is faster but fails more than `dio`, so we first try `harvest`. When `harvest` fails (determined by number of frames with non-zero values), it will compute the ground truth F0 labels with `dio`. If `dio` fails, the computed F0 will have `NaN` and will be replaced with 0. This is supposed to occur only occasionally and should not affect training because these samples are treated as noises by the neural network and deep learning models are kwown to even benefit from slightly noisy datasets. However, if a lot of your samples have this problem (say > 5%), please remove them from the training set so that the model does not learn from the failed samples.
+### Data Augmentation
+Data augmentation is not included in this code. For better voice conversion results, please add your own data augmentation in [meldataset.py](https://github.com/yl4579/PitchExtractor/blob/main/meldataset.py) with [audiomentations](https://github.com/iver56/audiomentations).
+## References
+- [keums/melodyExtraction_JDC](https://github.com/keums/melodyExtraction_JDC)
+- [kan-bayashi/ParallelWaveGAN](https://github.com/kan-bayashi/ParallelWaveGAN)

__pycache__/meldataset.cpython-312.pyc ADDED Viewed

Binary file (8.49 kB). View file

__pycache__/model.cpython-312.pyc ADDED Viewed

Binary file (8.49 kB). View file

__pycache__/optimizers.cpython-312.pyc ADDED Viewed

Binary file (5.25 kB). View file

__pycache__/trainer.cpython-312.pyc ADDED Viewed

Binary file (10.6 kB). View file

meldataset.py ADDED Viewed

	@@ -0,0 +1,191 @@

+#coding: utf-8
+"""
+TODO:
+- make TestDataset
+- separate transforms
+"""
+import os
+import os.path as osp
+import time
+import random
+import numpy as np
+import random
+import soundfile as sf
+import torch
+from torch import nn
+import torch.nn.functional as F
+import torchaudio
+from torch.utils.data import DataLoader
+import pyworld as pw
+import logging
+logger = logging.getLogger(__name__)
+logger.setLevel(logging.DEBUG)
+np.random.seed(1)
+random.seed(1)
+SPECT_PARAMS = {
+    "n_fft": 2048,
+    "win_length": 1200,
+    "hop_length": 300
+}
+MEL_PARAMS = {
+    "n_mels": 80,
+    "n_fft": 2048,
+    "win_length": 1200,
+    "hop_length": 300
+}
+class MelDataset(torch.utils.data.Dataset):
+    def __init__(self,
+                 data_list,
+                 sr=24000,
+                 data_augmentation=False,
+                 validation=False,
+                 verbose=True
+                 ):
+        _data_list = [l[:-1].split('|') for l in data_list]
+        self.data_list = [d[0] for d in _data_list]
+        self.sr = sr
+        self.to_melspec = torchaudio.transforms.MelSpectrogram(**MEL_PARAMS)
+        self.mean, self.std = -4, 4
+        self.data_augmentation = data_augmentation and (not validation)
+        self.max_mel_length = 192
+        self.mean, self.std = -4, 4
+        self.verbose = verbose
+        # for silence detection
+        self.zero_value = -10 # what the zero value is
+        self.bad_F0 = 5 # if less than 5 frames are non-zero, it's a bad F0, try another algorithm
+    def __len__(self):
+        return len(self.data_list)
+    def path_to_mel_and_label(self, path):
+        wave_tensor = self._load_tensor(path)
+        # use pyworld to get F0
+        output_file = path + "_f0.npy"
+        # check if the file exists
+        if os.path.isfile(output_file): # if exists, load it directly
+            f0 = np.load(output_file)
+        else: # if not exist, create F0 file
+            if self.verbose:
+                print('Computing F0 for ' + path + '...')
+            x = wave_tensor.numpy().astype("double")
+            frame_period = MEL_PARAMS['hop_length'] * 1000 / self.sr
+            _f0, t = pw.harvest(x, self.sr, frame_period=frame_period)
+            if sum(_f0 != 0) < self.bad_F0: # this happens when the algorithm fails
+                _f0, t = pw.dio(x, self.sr, frame_period=frame_period) # if harvest fails, try dio
+            f0 = pw.stonemask(x, _f0, t, self.sr)
+            # save the f0 info for later use
+            np.save(output_file, f0)
+        f0 = torch.from_numpy(f0).float()
+        if self.data_augmentation:
+            random_scale = 0.5 + 0.5 * np.random.random()
+            wave_tensor = random_scale * wave_tensor
+        mel_tensor = self.to_melspec(wave_tensor)
+        mel_tensor = (torch.log(1e-5 + mel_tensor) - self.mean) / self.std
+        mel_length = mel_tensor.size(1)
+        f0_zero = (f0 == 0)
+        #######################################
+        # You may want your own silence labels here
+        # The more accurate the label, the better the resultss
+        is_silence = torch.zeros(f0.shape)
+        is_silence[f0_zero] = 1
+        #######################################
+        if mel_length > self.max_mel_length:
+            random_start = np.random.randint(0, mel_length - self.max_mel_length)
+            mel_tensor = mel_tensor[:, random_start:random_start + self.max_mel_length]
+            f0 = f0[random_start:random_start + self.max_mel_length]
+            is_silence = is_silence[random_start:random_start + self.max_mel_length]
+        if torch.any(torch.isnan(f0)): # failed
+            f0[torch.isnan(f0)] = self.zero_value # replace nan value with 0
+        return mel_tensor, f0, is_silence
+    def __getitem__(self, idx):
+        data = self.data_list[idx]
+        mel_tensor, f0, is_silence = self.path_to_mel_and_label(data)
+        return mel_tensor, f0, is_silence
+    def _load_tensor(self, data):
+        wave_path = data
+        wave, sr = sf.read(wave_path)
+        wave_tensor = torch.from_numpy(wave).float()
+        return wave_tensor
+class Collater(object):
+    """
+    Args:
+      adaptive_batch_size (bool): if true, decrease batch size when long data comes.
+    """
+    def __init__(self, return_wave=False):
+        self.text_pad_index = 0
+        self.return_wave = return_wave
+        self.min_mel_length = 192
+        self.max_mel_length = 192
+        self.mel_length_step = 16
+        self.latent_dim = 16
+    def __call__(self, batch):
+        # batch[0] = wave, mel, text, f0, speakerid
+        batch_size = len(batch)
+        nmels = batch[0][0].size(0)
+        mels = torch.zeros((batch_size, nmels, self.max_mel_length)).float()
+        f0s = torch.zeros((batch_size, self.max_mel_length)).float()
+        is_silences = torch.zeros((batch_size, self.max_mel_length)).float()
+        for bid, (mel, f0, is_silence) in enumerate(batch):
+            mel_size = mel.size(1)
+            mels[bid, :, :mel_size] = mel
+            f0s[bid, :mel_size] = f0
+            is_silences[bid, :mel_size] = is_silence
+        if self.max_mel_length > self.min_mel_length:
+            random_slice = np.random.randint(
+                self.min_mel_length//self.mel_length_step,
+                1+self.max_mel_length//self.mel_length_step) * self.mel_length_step + self.min_mel_length
+            mels = mels[:, :, :random_slice]
+            f0 = f0[:, :random_slice]
+        mels = mels.unsqueeze(1)
+        return mels, f0s, is_silences
+def build_dataloader(path_list,
+                     validation=False,
+                     batch_size=4,
+                     num_workers=1,
+                     device='cpu',
+                     collate_config={},
+                     dataset_config={}):
+    dataset = MelDataset(path_list, validation=validation, **dataset_config)
+    collate_fn = Collater(**collate_config)
+    data_loader = DataLoader(dataset,
+                             batch_size=batch_size,
+                             shuffle=(not validation),
+                             num_workers=num_workers,
+                             drop_last=(not validation),
+                             collate_fn=collate_fn,
+                             pin_memory=(device != 'cpu'))
+    return data_loader

model.py ADDED Viewed

	@@ -0,0 +1,175 @@

+"""
+Implementation of model from:
+Kum et al. - "Joint Detection and Classification of Singing Voice Melody Using
+Convolutional Recurrent Neural Networks" (2019)
+Link: https://www.semanticscholar.org/paper/Joint-Detection-and-Classification-of-Singing-Voice-Kum-Nam/60a2ad4c7db43bace75805054603747fcd062c0d
+"""
+import torch
+from torch import nn
+class JDCNet(nn.Module):
+    """
+    Joint Detection and Classification Network model for singing voice melody.
+    """
+    def __init__(self, num_class=722, leaky_relu_slope=0.01):
+        super().__init__()
+        self.num_class = num_class
+        # input = (b, 1, 31, 513), b = batch size
+        self.conv_block = nn.Sequential(
+            nn.Conv2d(in_channels=1, out_channels=64, kernel_size=3, padding=1, bias=False),  # out: (b, 64, 31, 513)
+            nn.BatchNorm2d(num_features=64),
+            nn.LeakyReLU(leaky_relu_slope, inplace=True),
+            nn.Conv2d(64, 64, 3, padding=1, bias=False),  # (b, 64, 31, 513)
+        )
+        # res blocks
+        self.res_block1 = ResBlock(in_channels=64, out_channels=128)  # (b, 128, 31, 128)
+        self.res_block2 = ResBlock(in_channels=128, out_channels=192)  # (b, 192, 31, 32)
+        self.res_block3 = ResBlock(in_channels=192, out_channels=256)  # (b, 256, 31, 8)
+        # pool block
+        self.pool_block = nn.Sequential(
+            nn.BatchNorm2d(num_features=256),
+            nn.LeakyReLU(leaky_relu_slope, inplace=True),
+            nn.MaxPool2d(kernel_size=(1, 4)),  # (b, 256, 31, 2)
+            nn.Dropout(p=0.5),
+        )
+        # maxpool layers (for auxiliary network inputs)
+        # in = (b, 128, 31, 513) from conv_block, out = (b, 128, 31, 2)
+        self.maxpool1 = nn.MaxPool2d(kernel_size=(1, 40))
+        # in = (b, 128, 31, 128) from res_block1, out = (b, 128, 31, 2)
+        self.maxpool2 = nn.MaxPool2d(kernel_size=(1, 20))
+        # in = (b, 128, 31, 32) from res_block2, out = (b, 128, 31, 2)
+        self.maxpool3 = nn.MaxPool2d(kernel_size=(1, 10))
+        # in = (b, 640, 31, 2), out = (b, 256, 31, 2)
+        self.detector_conv = nn.Sequential(
+            nn.Conv2d(640, 256, 1, bias=False),
+            nn.BatchNorm2d(256),
+            nn.LeakyReLU(leaky_relu_slope, inplace=True),
+            nn.Dropout(p=0.5),
+        )
+        # input: (b, 31, 512) - resized from (b, 256, 31, 2)
+        self.bilstm_classifier = nn.LSTM(
+            input_size=512, hidden_size=256,
+            batch_first=True, dropout=0.3, bidirectional=True)  # (b, 31, 512)
+        # input: (b, 31, 512) - resized from (b, 256, 31, 2)
+        self.bilstm_detector = nn.LSTM(
+            input_size=512, hidden_size=256,
+            batch_first=True, dropout=0.3, bidirectional=True)  # (b, 31, 512)
+        # input: (b * 31, 512)
+        self.classifier = nn.Linear(in_features=512, out_features=self.num_class)  # (b * 31, num_class)
+        # input: (b * 31, 512)
+        self.detector = nn.Linear(in_features=512, out_features=2)  # (b * 31, 2) - binary classifier
+        # initialize weights
+        self.apply(self.init_weights)
+    def forward(self, x):
+        """
+        Returns:
+            classification_prediction, detection_prediction
+            sizes: (b, 31, 722), (b, 31, 2)
+        """
+        seq_len = x.shape[-2]
+        ###############################
+        # forward pass for classifier #
+        ###############################
+        convblock_out = self.conv_block(x)
+        resblock1_out = self.res_block1(convblock_out)
+        resblock2_out = self.res_block2(resblock1_out)
+        resblock3_out = self.res_block3(resblock2_out)
+        poolblock_out = self.pool_block(resblock3_out)
+        # (b, 256, 31, 2) => (b, 31, 256, 2) => (b, 31, 512)
+        classifier_out = poolblock_out.permute(0, 2, 1, 3).contiguous().view((-1, seq_len, 512))
+        classifier_out, _ = self.bilstm_classifier(classifier_out)  # ignore the hidden states
+        classifier_out = classifier_out.contiguous().view((-1, 512))  # (b * 31, 512)
+        classifier_out = self.classifier(classifier_out)
+        classifier_out = classifier_out.view((-1, seq_len, self.num_class))  # (b, 31, num_class)
+        #############################
+        # forward pass for detector #
+        #############################
+        mp1_out = self.maxpool1(convblock_out)
+        mp2_out = self.maxpool2(resblock1_out)
+        mp3_out = self.maxpool3(resblock2_out)
+        # out = (b, 640, 31, 2)
+        concat_out = torch.cat((mp1_out, mp2_out, mp3_out, poolblock_out), dim=1)
+        detector_out = self.detector_conv(concat_out)
+        # (b, 256, 31, 2) => (b, 31, 256, 2) => (b, 31, 512)
+        detector_out = detector_out.permute(0, 2, 1, 3).contiguous().view((-1, seq_len, 512))
+        detector_out, _ = self.bilstm_detector(detector_out)  # (b, 31, 512)
+        detector_out = detector_out.contiguous().view((-1, 512))
+        detector_out = self.detector(detector_out)
+        detector_out = detector_out.view((-1, seq_len, 2)).sum(axis=-1)  # binary classifier - (b, 31, 2)
+        # sizes: (b, 31, 722), (b, 31, 2)
+        # classifier output consists of predicted pitch classes per frame
+        # detector output consists of: (isvoice, notvoice) estimates per frame
+        return classifier_out, detector_out
+    @staticmethod
+    def init_weights(m):
+        if isinstance(m, nn.Linear):
+            nn.init.kaiming_uniform_(m.weight)
+            if m.bias is not None:
+                nn.init.constant_(m.bias, 0)
+        elif isinstance(m, nn.Conv2d):
+            nn.init.xavier_normal_(m.weight)
+        elif isinstance(m, nn.LSTM) or isinstance(m, nn.LSTMCell):
+            for p in m.parameters():
+                if p.data is None:
+                    continue
+                if len(p.shape) >= 2:
+                    nn.init.orthogonal_(p.data)
+                else:
+                    nn.init.normal_(p.data)
+class ResBlock(nn.Module):
+    def __init__(self, in_channels: int, out_channels: int, leaky_relu_slope=0.01):
+        super().__init__()
+        self.downsample = in_channels != out_channels
+        # BN / LReLU / MaxPool layer before the conv layer - see Figure 1b in the paper
+        self.pre_conv = nn.Sequential(
+            nn.BatchNorm2d(num_features=in_channels),
+            nn.LeakyReLU(leaky_relu_slope, inplace=True),
+            nn.MaxPool2d(kernel_size=(1, 2)),  # apply downsampling on the y axis only
+        )
+        # conv layers
+        self.conv = nn.Sequential(
+            nn.Conv2d(in_channels=in_channels, out_channels=out_channels,
+                      kernel_size=3, padding=1, bias=False),
+            nn.BatchNorm2d(out_channels),
+            nn.LeakyReLU(leaky_relu_slope, inplace=True),
+            nn.Conv2d(out_channels, out_channels, 3, padding=1, bias=False),
+        )
+        # 1 x 1 convolution layer to match the feature dimensions
+        self.conv1by1 = None
+        if self.downsample:
+            self.conv1by1 = nn.Conv2d(in_channels, out_channels, 1, bias=False)
+    def forward(self, x):
+        x = self.pre_conv(x)
+        if self.downsample:
+            x = self.conv(x) + self.conv1by1(x)
+        else:
+            x = self.conv(x) + x
+        return x

optimizers.py ADDED Viewed

	@@ -0,0 +1,86 @@

+#coding:utf-8
+import os, sys
+import os.path as osp
+import numpy as np
+import torch
+from torch import nn
+from torch.optim import Optimizer
+from functools import reduce
+from torch.optim import AdamW
+class MultiOptimizer:
+    def __init__(self, optimizers={}, schedulers={}):
+        self.optimizers = optimizers
+        self.schedulers = schedulers
+        self.keys = list(optimizers.keys())
+        self.param_groups = reduce(lambda x,y: x+y, [v.param_groups for v in self.optimizers.values()])
+    def state_dict(self):
+        state_dicts = [(key, self.optimizers[key].state_dict())\
+                       for key in self.keys]
+        return state_dicts
+    def load_state_dict(self, state_dict):
+        for key, val in state_dict:
+            try:
+                self.optimizers[key].load_state_dict(val)
+            except:
+                print("Unloaded %s" % key)
+    def step(self, key=None):
+        if key is not None:
+            self.optimizers[key].step()
+        else:
+            _ = [self.optimizers[key].step() for key in self.keys]
+    def zero_grad(self, key=None):
+        if key is not None:
+            self.optimizers[key].zero_grad()
+        else:
+            _ = [self.optimizers[key].zero_grad() for key in self.keys]
+    def scheduler(self, *args, key=None):
+        if key is not None:
+            self.schedulers[key].step(*args)
+        else:
+            _ = [self.schedulers[key].step(*args) for key in self.keys]
+def build_optimizer(parameters):
+    optimizer, scheduler = _define_optimizer(parameters)
+    return optimizer, scheduler
+def _define_optimizer(params):
+    optimizer_params = params['optimizer_params']
+    sch_params = params['scheduler_params']
+    optimizer = AdamW(
+        params['params'],
+        lr=optimizer_params.get('lr', 1e-4),
+        weight_decay=optimizer_params.get('weight_decay', 5e-4),
+        betas=(0.9, 0.98),
+        eps=1e-9)
+    scheduler = _define_scheduler(optimizer, sch_params)
+    return optimizer, scheduler
+def _define_scheduler(optimizer, params):
+    print(params)
+    scheduler = torch.optim.lr_scheduler.OneCycleLR(
+        optimizer,
+        max_lr=params.get('max_lr', 5e-4),
+        epochs=params.get('epochs', 200),
+        steps_per_epoch=params.get('steps_per_epoch', 1000),
+        pct_start=params.get('pct_start', 0.0),
+        final_div_factor=5)
+    return scheduler
+def build_multi_optimizer(parameters_dict, scheduler_params):
+    optim = dict([(key, AdamW(params, lr=1e-4, weight_decay=1e-6, betas=(0.9, 0.98), eps=1e-9))
+                   for key, params in parameters_dict.items()])
+    schedulers = dict([(key, _define_scheduler(opt, scheduler_params)) \
+                       for key, opt in optim.items()])
+    multi_optim = MultiOptimizer(optim, schedulers)
+    return multi_optim

train.py ADDED Viewed

	@@ -0,0 +1,144 @@

+from model import JDCNet
+from meldataset import build_dataloader
+from optimizers import build_optimizer
+from trainer import Trainer
+import time
+import os
+import os.path as osp
+import re
+import sys
+import yaml
+import shutil
+import numpy as np
+import torch
+import torch.nn as nn
+from torch.utils.tensorboard import SummaryWriter
+import click
+from tqdm import tqdm
+import logging
+from logging import StreamHandler
+logger = logging.getLogger(__name__)
+logger.setLevel(logging.DEBUG)
+handler = StreamHandler()
+handler.setLevel(logging.DEBUG)
+logger.addHandler(handler)
+torch.backends.cudnn.benchmark = True
+def get_data_path_list(train_path=None, val_path=None):
+    if train_path is None:
+        train_path = "Data/train_list.txt"
+    if val_path is None:
+        val_path = "Data/val_list.txt"
+    with open(train_path, 'r') as f:
+        train_list = f.readlines()
+    with open(val_path, 'r') as f:
+        val_list = f.readlines()
+    # train_list = train_list[-500:]
+    # val_list = train_list[:500]
+    return train_list, val_list
+@click.command()
+@click.option('-p', '--config_path', default='./Configs/config.yml', type=str)
+def main(config_path):
+    config = yaml.safe_load(open(config_path))
+    log_dir = config['log_dir']
+    if not osp.exists(log_dir): os.mkdir(log_dir)
+    shutil.copy(config_path, osp.join(log_dir, osp.basename(config_path)))
+    writer = SummaryWriter(log_dir + "/tensorboard")
+    # write logs
+    file_handler = logging.FileHandler(osp.join(log_dir, 'train.log'))
+    file_handler.setLevel(logging.DEBUG)
+    file_handler.setFormatter(logging.Formatter('%(levelname)s:%(asctime)s: %(message)s'))
+    logger.addHandler(file_handler)
+    batch_size = config.get('batch_size', 32)
+    device = config.get('device', 'cpu')
+    epochs = config.get('epochs', 100)
+    save_freq = config.get('save_freq', 10)
+    train_path = config.get('train_data', None)
+    val_path = config.get('val_data', None)
+    num_workers = config.get('num_workers', 8)
+    train_list, val_list = get_data_path_list(train_path, val_path)
+    train_dataloader = build_dataloader(train_list,
+                                        batch_size=batch_size,
+                                        num_workers=num_workers,
+                                        dataset_config=config.get('dataset_params', {}),
+                                        device=device)
+    val_dataloader = build_dataloader(val_list,
+                                      batch_size=batch_size,
+                                      validation=True,
+                                      num_workers=num_workers // 2,
+                                      device=device,
+                                      dataset_config=config.get('dataset_params', {}))
+    # define model
+    model = JDCNet(num_class=1) # num_class = 1 means regression
+    scheduler_params = {
+            "max_lr": float(config['optimizer_params'].get('lr', 5e-4)),
+            "pct_start": float(config['optimizer_params'].get('pct_start', 0.0)),
+            "epochs": epochs,
+            "steps_per_epoch": len(train_dataloader),
+        }
+    model.to(device)
+    optimizer, scheduler = build_optimizer(
+        {"params": model.parameters(), "optimizer_params":{}, "scheduler_params": scheduler_params})
+    criterion = {'l1': nn.SmoothL1Loss(), # F0 loss (regression)
+                 'ce':  nn.BCEWithLogitsLoss() # silence loss (binary classification)
+                }
+    loss_config = config['loss_params']
+    trainer = Trainer(model=model,
+                        criterion=criterion,
+                        optimizer=optimizer,
+                        scheduler=scheduler,
+                        device=device,
+                        train_dataloader=train_dataloader,
+                        val_dataloader=val_dataloader,
+                        loss_config=loss_config,
+                        logger=logger)
+    if config.get('pretrained_model', '') != '':
+        trainer.load_checkpoint(config['pretrained_model'],
+                                load_only_params=config.get('load_only_params', True))
+    # compute all F0 for training and validation data
+    print('Checking if all F0 data is computed...')
+    for _ in enumerate(train_dataloader):
+        continue
+    for _ in enumerate(val_dataloader):
+        continue
+    print('All F0 data is computed.')
+    for epoch in range(1, epochs+1):
+            train_results = trainer._train_epoch()
+            eval_results = trainer._eval_epoch()
+            results = train_results.copy()
+            results.update(eval_results)
+            logger.info('--- epoch %d ---' % epoch)
+            for key, value in results.items():
+                if isinstance(value, float):
+                    logger.info('%-15s: %.4f' % (key, value))
+                    writer.add_scalar(key, value, epoch)
+                else:
+                    writer.add_figure(key, (v), epoch)
+            if (epoch % save_freq) == 0:
+                trainer.save_checkpoint(osp.join(log_dir, 'epoch_%05d.pth' % epoch))
+    return 0
+if __name__=="__main__":
+    main()

trainer.py ADDED Viewed

	@@ -0,0 +1,186 @@

+# -*- coding: utf-8 -*-
+import os
+import os.path as osp
+import sys
+import time
+from collections import defaultdict
+import numpy as np
+import torch
+from torch import nn
+from PIL import Image
+from tqdm import tqdm
+import matplotlib.pyplot as plt
+import logging
+logger = logging.getLogger(__name__)
+logger.setLevel(logging.DEBUG)
+class Trainer(object):
+    def __init__(self,
+                 model=None,
+                 criterion=None,
+                 optimizer=None,
+                 scheduler=None,
+                 config={},
+                 loss_config={},
+                 device=torch.device("cpu"),
+                 logger=logger,
+                 train_dataloader=None,
+                 val_dataloader=None,
+                 initial_steps=0,
+                 initial_epochs=0):
+        self.steps = initial_steps
+        self.epochs = initial_epochs
+        self.model = model
+        self.criterion = criterion
+        self.optimizer = optimizer
+        self.scheduler = scheduler
+        self.train_dataloader = train_dataloader
+        self.val_dataloader = val_dataloader
+        self.config = config
+        self.loss_config = loss_config
+        self.device = device
+        self.finish_train = False
+        self.logger = logger
+        self.fp16_run = False
+    def save_checkpoint(self, checkpoint_path):
+        """Save checkpoint.
+        Args:
+            checkpoint_path (str): Checkpoint path to be saved.
+        """
+        state_dict = {
+            "optimizer": self.optimizer.state_dict(),
+            "scheduler": self.scheduler.state_dict(),
+            "steps": self.steps,
+            "epochs": self.epochs,
+        }
+        state_dict["model"] = self.model.state_dict()
+        if not os.path.exists(os.path.dirname(checkpoint_path)):
+            os.makedirs(os.path.dirname(checkpoint_path))
+        torch.save(state_dict, checkpoint_path)
+    def load_checkpoint(self, checkpoint_path, load_only_params=False):
+        """Load checkpoint.
+        Args:
+            checkpoint_path (str): Checkpoint path to be loaded.
+            load_only_params (bool): Whether to load only model parameters.
+        """
+        state_dict = torch.load(checkpoint_path, map_location="cpu")
+        self._load(state_dict["model"], self.model)
+        if not load_only_params:
+            self.steps = state_dict["steps"]
+            self.epochs = state_dict["epochs"]
+            self.optimizer.load_state_dict(state_dict["optimizer"])
+            # overwrite schedular argument parameters
+            state_dict["scheduler"].update(**self.config.get("scheduler_params", {}))
+            self.scheduler.load_state_dict(state_dict["scheduler"])
+    def _load(self, states, model, force_load=True):
+        model_states = model.state_dict()
+        for key, val in states.items():
+            try:
+                if key not in model_states:
+                    continue
+                if isinstance(val, nn.Parameter):
+                    val = val.data
+                if val.shape != model_states[key].shape:
+                    self.logger.info("%s does not have same shape" % key)
+                    print(val.shape, model_states[key].shape)
+                    if not force_load:
+                        continue
+                    min_shape = np.minimum(np.array(val.shape), np.array(model_states[key].shape))
+                    slices = [slice(0, min_index) for min_index in min_shape]
+                    model_states[key][slices].copy_(val[slices])
+                else:
+                    model_states[key].copy_(val)
+            except:
+                self.logger.info("not exist :%s" % key)
+                print("not exist ", key)
+    @staticmethod
+    def get_gradient_norm(model):
+        total_norm = 0
+        for p in model.parameters():
+            param_norm = p.grad.data.norm(2)
+            total_norm += param_norm.item() ** 2
+        total_norm = np.sqrt(total_norm)
+        return total_norm
+    @staticmethod
+    def length_to_mask(lengths):
+        mask = torch.arange(lengths.max()).unsqueeze(0).expand(lengths.shape[0], -1).type_as(lengths)
+        mask = torch.gt(mask+1, lengths.unsqueeze(1))
+        return mask
+    def _get_lr(self):
+        for param_group in self.optimizer.param_groups:
+            lr = param_group['lr']
+            break
+        return lr
+    def run(self, batch):
+        self.optimizer.zero_grad()
+        batch = [b.to(self.device) for b in batch]
+        x, f0, sil = batch
+        f0_pred, sil_pred = self.model(x.transpose(-1, -2))
+        loss_f0 = self.loss_config['lambda_f0'] * self.criterion['l1'](f0_pred.squeeze(), f0)
+        loss_sil = self.criterion['ce'](sil_pred, sil)
+        loss = loss_f0 + loss_sil
+        loss.backward()
+        self.optimizer.step()
+        self.scheduler.step()
+        return {'loss': loss.item(),
+                'f0': loss_f0.item(),
+                'sil': loss_sil.item()}
+    def _train_epoch(self):
+        self.epochs += 1
+        train_losses = defaultdict(list)
+        self.model.train()
+        for train_steps_per_epoch, batch in enumerate(tqdm(self.train_dataloader, desc="[train]"), 1):
+            losses = self.run(batch)
+            for key, value in losses.items():
+                train_losses["train/%s" % key].append(value)
+        train_losses = {key: np.mean(value) for key, value in train_losses.items()}
+        train_losses['train/learning_rate'] = self._get_lr()
+        return train_losses
+    @torch.no_grad()
+    def _eval_epoch(self):
+        self.model.eval()
+        eval_losses = defaultdict(list)
+        eval_images = defaultdict(list)
+        for eval_steps_per_epoch, batch in enumerate(tqdm(self.val_dataloader, desc="[eval]"), 1):
+            batch = [b.to(self.device) for b in batch]
+            x, f0, sil = batch
+            f0_pred, sil_pred = self.model(x.transpose(-1, -2))
+            loss_f0 = self.loss_config['lambda_f0'] * self.criterion['l1'](f0_pred.squeeze(), f0)
+            loss_sil = self.criterion['ce'](sil_pred, sil)
+            loss = loss_f0 + loss_sil
+            eval_losses["eval/loss"].append(loss.item())
+            eval_losses["eval/f0"].append(loss_f0.item())
+            eval_losses["eval/sil"].append(loss_sil.item())
+        eval_losses = {key: np.mean(value) for key, value in eval_losses.items()}
+        eval_losses.update(eval_images)
+        return eval_losses