add v1 model

Files changed (7) hide show

autoencoder_music_dsp1920.ckpt +3 -0
yingsinger.dev.pt → beta/yingsinger.dev.pt +0 -0
op.py +25 -0
rmvpe.pt +3 -0
singer.v1.pt +3 -0
some.pt +3 -0
stable_audio_1920_vae.json +122 -0

autoencoder_music_dsp1920.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10ccb6c83613781ad32e998a90597ba7eb9292911a224598da1fd53728eb4cd3
+size 674920616

yingsinger.dev.pt → beta/yingsinger.dev.pt RENAMED Viewed

File without changes

op.py ADDED Viewed

	@@ -0,0 +1,25 @@

+import torch
+# state_dict = torch.load("model_485000.pt", map_location="cpu")
+# new_state_dict = state_dict.copy()["ema_model_state_dict"]
+# print(state_dict.keys())
+# print(new_state_dict.keys())
+# torch.save(new_state_dict, "model_485000_ema.pt")
+ema_state_dict = torch.load("model_485000_ema.pt", map_location="cpu")
+print(ema_state_dict.keys())
+for k in list(ema_state_dict.keys()):
+    if "initted" in k or "step" in k or "melody_mel_spec.mel_basis" in k:
+        ema_state_dict.pop(k)
+        continue
+    if k.startswith("ema_model."):
+        new_k = k.replace("ema_model.", "")
+        ema_state_dict[new_k] = ema_state_dict.pop(k)
+    # remove "initted", "step", "melody_mel_spec.mel_basis".
+torch.save(ema_state_dict, "model_485000_ema_fixed.pt")

rmvpe.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19dc1809cf4cdb0a18db93441816bc327e14e5644b72eeaae5220560c6736fe2
+size 368492925

singer.v1.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b7f2e939af6e1bac06e1f14bf1e9a66628eb748c3a62420213983f6c08fe3a1
+size 1316346039

some.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa710fce920b4dae281b0e6cc2acba83345d82ee62d51f7bafeb29636f28f97c
+size 470801253

stable_audio_1920_vae.json ADDED Viewed

	@@ -0,0 +1,122 @@

+{
+    "model_type": "autoencoder",
+    "sample_size": 403200,
+    "sample_rate": 48000,
+    "audio_channels": 2,
+    "model": {
+        "encoder": {
+            "type": "oobleck",
+            "config": {
+                "in_channels": 2,
+                "channels": 128,
+                "c_mults": [1, 2, 4, 8, 16],
+                "strides": [2, 4, 4, 6, 10],
+                "latent_dim": 128,
+                "use_snake": true
+            }
+        },
+        "decoder": {
+            "type": "oobleck",
+            "config": {
+                "out_channels": 2,
+                "channels": 128,
+                "c_mults": [1, 2, 4, 8, 16],
+                "strides": [2, 4, 4, 6, 10],
+                "latent_dim": 64,
+                "use_snake": true,
+                "final_tanh": false
+            }
+        },
+        "bottleneck": {
+            "type": "vae"
+        },
+        "latent_dim": 64,
+        "downsampling_ratio": 1920,
+        "io_channels": 2
+    },
+    "training": {
+        "learning_rate": 1.5e-4,
+        "warmup_steps": 0,
+        "use_ema": true,
+        "optimizer_configs": {
+            "autoencoder": {
+                "optimizer": {
+                    "type": "AdamW",
+                    "config": {
+                        "betas": [0.8, 0.99],
+                        "lr": 1.5e-4,
+                        "weight_decay": 1e-3
+                    }
+                },
+                "scheduler": {
+                    "type": "InverseLR",
+                    "config": {
+                        "inv_gamma": 200000,
+                        "power": 0.5,
+                        "warmup": 0.999
+                    }
+                }
+            },
+            "discriminator": {
+                "optimizer": {
+                    "type": "AdamW",
+                    "config": {
+                        "betas": [0.8, 0.99],
+                        "lr": 3e-4,
+                        "weight_decay": 1e-3
+                    }
+                },
+                "scheduler": {
+                    "type": "InverseLR",
+                    "config": {
+                        "inv_gamma": 200000,
+                        "power": 0.5,
+                        "warmup": 0.999
+                    }
+                }
+            }
+        },
+        "loss_configs": {
+            "discriminator": {
+                "type": "encodec",
+                "config": {
+                    "filters": 64,
+                    "n_ffts": [2048, 1024, 512, 256, 128],
+                    "hop_lengths": [512, 256, 128, 64, 32],
+                    "win_lengths": [2048, 1024, 512, 256, 128]
+                },
+                "weights": {
+                    "adversarial": 0.1,
+                    "feature_matching": 5.0
+                }
+            },
+            "spectral": {
+                "type": "mrstft",
+                "config": {
+                    "fft_sizes": [2048, 1024, 512, 256, 128, 64, 32],
+                    "hop_sizes": [512, 256, 128, 64, 32, 16, 8],
+                    "win_lengths": [2048, 1024, 512, 256, 128, 64, 32],
+                    "perceptual_weighting": true
+                },
+                "weights": {
+                    "mrstft": 1.0
+                }
+            },
+            "time": {
+                "type": "l1",
+                "weights": {
+                    "l1": 0.0
+                }
+            },
+            "bottleneck": {
+                "type": "kl",
+                "weights": {
+                    "kl": 1e-4
+                }
+            }
+        },
+        "demo": {
+            "demo_every": 2000
+        }
+    }
+}