Train_RVC

Paused

App Files Files Community

Train_RVC / train.py

aTrapDeer

Update train.py

4936b4d verified 7 days ago

raw

history blame contribute delete

7.75 kB

	import os
	import torch
	import torchaudio
	from torch.utils.data import Dataset, DataLoader
	import torch.nn as nn
	import torch.optim as optim
	from pathlib import Path
	import argparse
	from torch.nn.utils.rnn import pad_sequence


	# ---- Simplified RVC-like Architecture ----
	class HubertEncoder(nn.Module):
	def __init__(self, input_dim=128, hidden_dim=256):
	super().__init__()

	self.conv1 = nn.Conv1d(input_dim, hidden_dim, 3, padding=1)
	self.conv2 = nn.Conv1d(hidden_dim, hidden_dim, 3, padding=1)
	self.lstm = nn.LSTM(
	hidden_dim,
	hidden_dim // 2,
	num_layers=2,
	batch_first=True,
	bidirectional=True,
	)
	self.proj = nn.Linear(hidden_dim, 256)

	def forward(self, x):
	# x: (B, T, 128)
	x = x.transpose(1, 2) # (B, 128, T)
	x = torch.relu(self.conv1(x))
	x = torch.relu(self.conv2(x))
	x = x.transpose(1, 2) # (B, T, hidden)
	out, _ = self.lstm(x)
	return self.proj(out) # (B, T, 256)


	class PitchEncoder(nn.Module):
	def __init__(self):
	super().__init__()

	self.f0_conv = nn.Sequential(
	nn.Conv1d(1, 64, 3, padding=1),
	nn.ReLU(),
	nn.Conv1d(64, 128, 3, padding=1),
	nn.ReLU(),
	)

	self.pitch_proj = nn.Linear(128, 256)

	def forward(self, f0):
	# f0: (B, T)
	x = f0.unsqueeze(1) # (B, 1, T)
	x = self.f0_conv(x) # (B, 128, T)
	x = x.transpose(1, 2) # (B, T, 128)
	return self.pitch_proj(x) # (B, T, 256)


	class RVCDecoder(nn.Module):
	def __init__(self, dim=256, mel_dim=128):
	super().__init__()

	self.content_lstm = nn.LSTM(
	dim,
	dim,
	num_layers=2,
	batch_first=True,
	bidirectional=True,
	)

	self.pitch_proj = nn.Linear(dim, dim * 2)

	self.fusion = nn.MultiheadAttention(
	embed_dim=dim * 2,
	num_heads=8,
	batch_first=True,
	)

	self.output_proj = nn.Sequential(
	nn.Linear(dim * 2, dim),
	nn.ReLU(),
	nn.Linear(dim, mel_dim),
	)

	def forward(self, content, pitch):
	# content: (B, T, 256)
	# pitch: (B, T, 256)

	content_out, _ = self.content_lstm(content) # (B, T, 512)
	pitch_out = self.pitch_proj(pitch) # (B, T, 512)

	fused, _ = self.fusion(
	query=content_out,
	key=pitch_out,
	value=content_out,
	)

	return self.output_proj(fused) # (B, T, 128)


	class RVCv2(nn.Module):
	def __init__(self):
	super().__init__()
	self.hubert = HubertEncoder(input_dim=128)
	self.pitch = PitchEncoder()
	self.decoder = RVCDecoder(dim=256, mel_dim=128)

	def forward(self, mel, f0):
	# mel: (B, T, 128)
	# f0: (B, T)
	content = self.hubert(mel)
	pitch_feat = self.pitch(f0)
	return self.decoder(content, pitch_feat)


	# ---- Dataset ----
	class RVCv2Dataset(Dataset):
	def __init__(self, dataset_dir, sample_rate=40000, duration=10):
	self.files = list(Path(dataset_dir).glob("*.wav"))

	if len(self.files) == 0:
	raise ValueError(f"No .wav files found in {dataset_dir}")

	self.sample_rate = sample_rate
	self.duration = duration
	self.n_samples = int(sample_rate * duration)

	self.mel_transform = torchaudio.transforms.MelSpectrogram(
	sample_rate=self.sample_rate,
	n_mels=128,
	n_fft=2048,
	hop_length=512,
	)

	def __len__(self):
	return len(self.files)

	def __getitem__(self, idx):
	waveform, sr = torchaudio.load(self.files[idx])

	# Convert stereo/multi-channel to mono
	if waveform.shape[0] > 1:
	waveform = waveform.mean(dim=0, keepdim=True)

	# Resample
	if sr != self.sample_rate:
	resampler = torchaudio.transforms.Resample(sr, self.sample_rate)
	waveform = resampler(waveform)

	# Trim/pad audio
	if waveform.shape[1] > self.n_samples:
	waveform = waveform[:, :self.n_samples]
	else:
	pad_amount = self.n_samples - waveform.shape[1]
	waveform = torch.nn.functional.pad(waveform, (0, pad_amount))

	# Mel spectrogram: (1, 128, T) -> (128, T)
	mel = self.mel_transform(waveform).squeeze(0)
	mel = torch.log(mel + 1e-9)

	# Convert to (T, 128)
	mel = mel.transpose(0, 1)

	# Dummy F0 placeholder, one value per time frame
	f0 = torch.ones(mel.shape[0], dtype=torch.float32) * 200.0

	return mel, f0, waveform


	def collate_fn(batch):
	mels, f0s, waves = zip(*batch)

	# mels are list of tensors shaped (T, 128)
	mels = pad_sequence(
	mels,
	batch_first=True,
	padding_value=0.0,
	)

	# f0s are list of tensors shaped (T,)
	f0s = pad_sequence(
	f0s,
	batch_first=True,
	padding_value=0.0,
	)

	return mels, f0s, waves


	# ---- Training Loop ----
	def train_rvc_v2(
	model_name,
	dataset_dir,
	sample_rate=40000,
	epochs=200,
	batch_size=8,
	lr=2e-4,
	):
	print(f"🚀 RVC v2 Training Started: {model_name}")
	print(f"📂 Dataset: {dataset_dir}")

	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	print(f"🛠️ Device: {device}")

	dataset = RVCv2Dataset(dataset_dir, sample_rate)

	print(f"🎧 Files found: {len(dataset)}")

	dataloader = DataLoader(
	dataset,
	batch_size=batch_size,
	shuffle=True,
	collate_fn=collate_fn,
	num_workers=0,
	)

	model = RVCv2().to(device)

	optimizer = optim.AdamW(
	model.parameters(),
	lr=lr,
	weight_decay=1e-5,
	)

	scheduler = optim.lr_scheduler.CosineAnnealingLR(
	optimizer,
	T_max=epochs,
	)

	criterion = nn.MSELoss()

	os.makedirs("weights", exist_ok=True)

	best_loss = float("inf")

	for epoch in range(epochs):
	model.train()
	total_loss = 0.0

	for batch_idx, (mel, f0, _) in enumerate(dataloader):
	mel = mel.to(device)
	f0 = f0.to(device)

	optimizer.zero_grad()

	output = model(mel, f0)

	loss = criterion(output, mel)
	loss.backward()

	torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)

	optimizer.step()

	total_loss += loss.item()

	scheduler.step()

	avg_loss = total_loss / len(dataloader)

	if avg_loss < best_loss:
	best_loss = avg_loss
	torch.save(model.state_dict(), f"weights/{model_name}.pth")

	if epoch % 10 == 0:
	print(
	f"Epoch {epoch}/{epochs} \| "
	f"Loss: {avg_loss:.4f} \| "
	f"Best: {best_loss:.4f} \| "
	f"LR: {scheduler.get_last_lr()[0]:.2e}"
	)

	print(f"✅ Training Complete! Best model: weights/{model_name}.pth")


	if __name__ == "__main__":
	parser = argparse.ArgumentParser(description="RVC v2 Training")

	parser.add_argument("--model_name", required=True)
	parser.add_argument("--dataset", required=True)
	parser.add_argument("--sample_rate", type=int, default=40000)
	parser.add_argument("--epochs", type=int, default=200)
	parser.add_argument("--batch_size", type=int, default=8)

	args = parser.parse_args()

	train_rvc_v2(
	model_name=args.model_name,
	dataset_dir=args.dataset,
	sample_rate=args.sample_rate,
	epochs=args.epochs,
	batch_size=args.batch_size,
	)