Train_RVC

Paused

File size: 7,746 Bytes

import os
import torch
import torchaudio
from torch.utils.data import Dataset, DataLoader
import torch.nn as nn
import torch.optim as optim
from pathlib import Path
import argparse
from torch.nn.utils.rnn import pad_sequence


# ---- Simplified RVC-like Architecture ----
class HubertEncoder(nn.Module):
    def __init__(self, input_dim=128, hidden_dim=256):
        super().__init__()

        self.conv1 = nn.Conv1d(input_dim, hidden_dim, 3, padding=1)
        self.conv2 = nn.Conv1d(hidden_dim, hidden_dim, 3, padding=1)
        self.lstm = nn.LSTM(
            hidden_dim,
            hidden_dim // 2,
            num_layers=2,
            batch_first=True,
            bidirectional=True,
        )
        self.proj = nn.Linear(hidden_dim, 256)

    def forward(self, x):
        # x: (B, T, 128)
        x = x.transpose(1, 2)  # (B, 128, T)
        x = torch.relu(self.conv1(x))
        x = torch.relu(self.conv2(x))
        x = x.transpose(1, 2)  # (B, T, hidden)
        out, _ = self.lstm(x)
        return self.proj(out)  # (B, T, 256)


class PitchEncoder(nn.Module):
    def __init__(self):
        super().__init__()

        self.f0_conv = nn.Sequential(
            nn.Conv1d(1, 64, 3, padding=1),
            nn.ReLU(),
            nn.Conv1d(64, 128, 3, padding=1),
            nn.ReLU(),
        )

        self.pitch_proj = nn.Linear(128, 256)

    def forward(self, f0):
        # f0: (B, T)
        x = f0.unsqueeze(1)  # (B, 1, T)
        x = self.f0_conv(x)  # (B, 128, T)
        x = x.transpose(1, 2)  # (B, T, 128)
        return self.pitch_proj(x)  # (B, T, 256)


class RVCDecoder(nn.Module):
    def __init__(self, dim=256, mel_dim=128):
        super().__init__()

        self.content_lstm = nn.LSTM(
            dim,
            dim,
            num_layers=2,
            batch_first=True,
            bidirectional=True,
        )

        self.pitch_proj = nn.Linear(dim, dim * 2)

        self.fusion = nn.MultiheadAttention(
            embed_dim=dim * 2,
            num_heads=8,
            batch_first=True,
        )

        self.output_proj = nn.Sequential(
            nn.Linear(dim * 2, dim),
            nn.ReLU(),
            nn.Linear(dim, mel_dim),
        )

    def forward(self, content, pitch):
        # content: (B, T, 256)
        # pitch:   (B, T, 256)

        content_out, _ = self.content_lstm(content)  # (B, T, 512)
        pitch_out = self.pitch_proj(pitch)           # (B, T, 512)

        fused, _ = self.fusion(
            query=content_out,
            key=pitch_out,
            value=content_out,
        )

        return self.output_proj(fused)  # (B, T, 128)


class RVCv2(nn.Module):
    def __init__(self):
        super().__init__()
        self.hubert = HubertEncoder(input_dim=128)
        self.pitch = PitchEncoder()
        self.decoder = RVCDecoder(dim=256, mel_dim=128)

    def forward(self, mel, f0):
        # mel: (B, T, 128)
        # f0:  (B, T)
        content = self.hubert(mel)
        pitch_feat = self.pitch(f0)
        return self.decoder(content, pitch_feat)


# ---- Dataset ----
class RVCv2Dataset(Dataset):
    def __init__(self, dataset_dir, sample_rate=40000, duration=10):
        self.files = list(Path(dataset_dir).glob("*.wav"))

        if len(self.files) == 0:
            raise ValueError(f"No .wav files found in {dataset_dir}")

        self.sample_rate = sample_rate
        self.duration = duration
        self.n_samples = int(sample_rate * duration)

        self.mel_transform = torchaudio.transforms.MelSpectrogram(
            sample_rate=self.sample_rate,
            n_mels=128,
            n_fft=2048,
            hop_length=512,
        )

    def __len__(self):
        return len(self.files)

    def __getitem__(self, idx):
        waveform, sr = torchaudio.load(self.files[idx])

        # Convert stereo/multi-channel to mono
        if waveform.shape[0] > 1:
            waveform = waveform.mean(dim=0, keepdim=True)

        # Resample
        if sr != self.sample_rate:
            resampler = torchaudio.transforms.Resample(sr, self.sample_rate)
            waveform = resampler(waveform)

        # Trim/pad audio
        if waveform.shape[1] > self.n_samples:
            waveform = waveform[:, :self.n_samples]
        else:
            pad_amount = self.n_samples - waveform.shape[1]
            waveform = torch.nn.functional.pad(waveform, (0, pad_amount))

        # Mel spectrogram: (1, 128, T) -> (128, T)
        mel = self.mel_transform(waveform).squeeze(0)
        mel = torch.log(mel + 1e-9)

        # Convert to (T, 128)
        mel = mel.transpose(0, 1)

        # Dummy F0 placeholder, one value per time frame
        f0 = torch.ones(mel.shape[0], dtype=torch.float32) * 200.0

        return mel, f0, waveform


def collate_fn(batch):
    mels, f0s, waves = zip(*batch)

    # mels are list of tensors shaped (T, 128)
    mels = pad_sequence(
        mels,
        batch_first=True,
        padding_value=0.0,
    )

    # f0s are list of tensors shaped (T,)
    f0s = pad_sequence(
        f0s,
        batch_first=True,
        padding_value=0.0,
    )

    return mels, f0s, waves


# ---- Training Loop ----
def train_rvc_v2(
    model_name,
    dataset_dir,
    sample_rate=40000,
    epochs=200,
    batch_size=8,
    lr=2e-4,
):
    print(f"🚀 RVC v2 Training Started: {model_name}")
    print(f"📂 Dataset: {dataset_dir}")

    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    print(f"🛠️ Device: {device}")

    dataset = RVCv2Dataset(dataset_dir, sample_rate)

    print(f"🎧 Files found: {len(dataset)}")

    dataloader = DataLoader(
        dataset,
        batch_size=batch_size,
        shuffle=True,
        collate_fn=collate_fn,
        num_workers=0,
    )

    model = RVCv2().to(device)

    optimizer = optim.AdamW(
        model.parameters(),
        lr=lr,
        weight_decay=1e-5,
    )

    scheduler = optim.lr_scheduler.CosineAnnealingLR(
        optimizer,
        T_max=epochs,
    )

    criterion = nn.MSELoss()

    os.makedirs("weights", exist_ok=True)

    best_loss = float("inf")

    for epoch in range(epochs):
        model.train()
        total_loss = 0.0

        for batch_idx, (mel, f0, _) in enumerate(dataloader):
            mel = mel.to(device)
            f0 = f0.to(device)

            optimizer.zero_grad()

            output = model(mel, f0)

            loss = criterion(output, mel)
            loss.backward()

            torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)

            optimizer.step()

            total_loss += loss.item()

        scheduler.step()

        avg_loss = total_loss / len(dataloader)

        if avg_loss < best_loss:
            best_loss = avg_loss
            torch.save(model.state_dict(), f"weights/{model_name}.pth")

        if epoch % 10 == 0:
            print(
                f"Epoch {epoch}/{epochs} | "
                f"Loss: {avg_loss:.4f} | "
                f"Best: {best_loss:.4f} | "
                f"LR: {scheduler.get_last_lr()[0]:.2e}"
            )

    print(f"✅ Training Complete! Best model: weights/{model_name}.pth")


if __name__ == "__main__":
    parser = argparse.ArgumentParser(description="RVC v2 Training")

    parser.add_argument("--model_name", required=True)
    parser.add_argument("--dataset", required=True)
    parser.add_argument("--sample_rate", type=int, default=40000)
    parser.add_argument("--epochs", type=int, default=200)
    parser.add_argument("--batch_size", type=int, default=8)

    args = parser.parse_args()

    train_rvc_v2(
        model_name=args.model_name,
        dataset_dir=args.dataset,
        sample_rate=args.sample_rate,
        epochs=args.epochs,
        batch_size=args.batch_size,
    )