Upload folder using huggingface_hub

4698bfc verified 12 days ago

11.3 kB

	"""
	FlowMatchingTTS – adapts CosyVoice's Conditional Flow Matching pipeline
	to the semacs-tts dataset (VQ codes → mel spectrogram).

	Architecture mirrors MaskedDiffWithXvec from cosyvoice/flow/flow.py:
	codes → Embedding → causal Transformer → Linear → InterpolateRegulator
	↘ ConditionalCFM (ConditionalDecoder UNet1D) ← speaker emb
	→ mel spectrogram loss
	"""
	import math
	import random
	import sys
	import os

	sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.abspath(__file__))))

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import torch.utils.checkpoint as ckpt
	from omegaconf import DictConfig

	from flow_matching.utils.cfm import ConditionalCFM
	from flow_matching.utils.decoder import ConditionalDecoder
	from flow_matching.utils.length_regulator import InterpolateRegulator
	from flow_matching.utils.mask import make_pad_mask


	class SinusoidalPE(nn.Module):
	def __init__(self, d_model: int, dropout: float = 0.0, max_len: int = 8192):
	super().__init__()
	self.dropout = nn.Dropout(dropout)
	pe = torch.zeros(max_len, d_model)
	pos = torch.arange(0, max_len).float().unsqueeze(1)
	div = torch.exp(
	torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model)
	)
	pe[:, 0::2] = torch.sin(pos * div)
	pe[:, 1::2] = torch.cos(pos * div)
	self.register_buffer('pe', pe.unsqueeze(0)) # (1, max_len, d_model)

	def forward(self, x: torch.Tensor) -> torch.Tensor:
	return self.dropout(x + self.pe[:, :x.size(1)])


	def _forward_layer(layer, x, attn_mask, pad_mask):
	return layer(x, src_mask=attn_mask, src_key_padding_mask=pad_mask)


	class CodeEncoder(nn.Module):
	"""Causal Transformer encoder that operates on pre-embedded VQ codes."""

	def __init__(
	self,
	hidden_dim: int,
	num_heads: int,
	num_layers: int,
	ffn_dim: int,
	dropout: float,
	causal: bool,
	grad_checkpoint: bool,
	):
	super().__init__()
	self.causal = causal
	self.grad_checkpoint = grad_checkpoint
	self.pos_enc = SinusoidalPE(hidden_dim, dropout)
	self.layers = nn.ModuleList([
	nn.TransformerEncoderLayer(
	d_model=hidden_dim,
	nhead=num_heads,
	dim_feedforward=ffn_dim,
	dropout=dropout,
	batch_first=True,
	norm_first=True, # pre-LN for training stability
	)
	for _ in range(num_layers)
	])
	self.norm = nn.LayerNorm(hidden_dim)
	self._hidden_dim = hidden_dim

	def output_size(self) -> int:
	return self._hidden_dim

	def forward(self, x: torch.Tensor, lengths: torch.Tensor):
	"""
	x: (B, T, hidden_dim) – embedded codes
	lengths: (B,) – valid code lengths per sample
	Returns: (B, T, hidden_dim), lengths
	"""
	B, T, _ = x.shape
	x = self.pos_enc(x)

	pad_mask = make_pad_mask(lengths, T) # (B, T), True = padded
	attn_mask = None
	if self.causal:
	attn_mask = torch.triu(
	torch.ones(T, T, device=x.device, dtype=torch.bool), diagonal=1
	)

	for layer in self.layers:
	if self.grad_checkpoint and self.training:
	x = ckpt.checkpoint(
	_forward_layer, layer, x, attn_mask, pad_mask,
	use_reentrant=False,
	)
	else:
	x = layer(x, src_mask=attn_mask, src_key_padding_mask=pad_mask)

	return self.norm(x), lengths


	class FlowMatchingTTS(nn.Module):
	"""
	Full TTS flow matching model.

	Training input:
	codes (B, num_q, T_codes) VQ code indices
	code_lens (B,) valid code lengths
	mel (B, T_mel, n_mels) target log-mel spectrogram
	mel_lens (B,) valid mel frame lengths
	spk_emb (B, 192) CAM++ speaker embedding (pre-extracted)

	Output:
	{'loss': scalar} conditional flow matching loss
	"""

	def __init__(self, cfg):
	super().__init__()
	m = cfg.model
	data = cfg.data
	cfm = cfg.cfm

	self.n_mels = data.n_mels # 100
	hidden_dim = m.hidden_dim # 768
	spk_emb_dim = m.spk_emb_dim # 192

	# ── code embedding: sum across quantizers ────────────────────────
	self.code_embedding = nn.Embedding(m.codebook_size, hidden_dim)

	# ── causal transformer encoder ───────────────────────────────────
	self.encoder = CodeEncoder(
	hidden_dim=hidden_dim,
	num_heads=m.num_heads,
	num_layers=m.num_layers,
	ffn_dim=m.ffn_dim,
	dropout=m.dropout,
	causal=m.causal,
	grad_checkpoint=m.grad_checkpoint,
	)

	# ── project encoder output to mel dimension ──────────────────────
	self.encoder_proj = nn.Linear(hidden_dim, self.n_mels)

	# ── speaker embedding: 192 → n_mels ─────────────────────────────
	self.spk_embed_affine = nn.Linear(spk_emb_dim, self.n_mels)

	# ── length regulator: upsample codes to mel frame rate ───────────
	self.length_regulator = InterpolateRegulator(
	channels=self.n_mels,
	sampling_ratios=(),
	)

	# ── conditional flow matching decoder ────────────────────────────
	# ConditionalDecoder input = concat(x, mu, spks_t, cond) = 4 × n_mels
	cfm_params = DictConfig({
	'sigma_min': cfm.sigma_min,
	'solver': 'euler',
	't_scheduler': cfm.t_scheduler,
	'training_cfg_rate': cfm.training_cfg_rate,
	'inference_cfg_rate': cfm.inference_cfg_rate,
	'reg_loss_type': 'l1',
	})
	estimator = ConditionalDecoder(
	in_channels=4 * self.n_mels, # x + mu + spks_expanded + cond
	out_channels=self.n_mels,
	channels=(256, 256),
	dropout=0.05,
	attention_head_dim=64,
	n_blocks=4,
	num_mid_blocks=12,
	num_heads=8,
	act_fn='gelu',
	)
	self.decoder = ConditionalCFM(
	in_channels=self.n_mels,
	cfm_params=cfm_params,
	n_spks=1,
	spk_emb_dim=self.n_mels, # already projected to n_mels
	estimator=estimator,
	)

	# ── forward (training) ───────────────────────────────────────────────────

	def forward(self, batch: dict, device) -> dict:
	"""
	Same interface as cosyvoice MaskedDiffWithXvec: model(batch, device).

	Batch keys (added by Executor before this call):
	codes (B, num_q, T_codes)
	code_lens (B,)
	mel (B, T_mel, n_mels)
	mel_lens (B,)
	embedding (B, 192) L2-normalised CAM++ speaker embedding
	"""
	codes = batch['codes'].to(device)
	code_lens = batch['code_lens'].to(device)
	mel = batch['mel'].to(device)
	mel_lens = batch['mel_lens'].to(device)
	embedding = batch['embedding'].to(device) # (B, 192)

	# Speaker projection
	spk = F.normalize(embedding, dim=-1)
	spk = self.spk_embed_affine(spk) # (B, n_mels)

	# Code embedding: sum over quantizer axis
	x = self.code_embedding(codes) # (B, num_q, T, hidden_dim)
	x = x.sum(dim=1) # (B, T_codes, hidden_dim)

	# Encode
	h, _ = self.encoder(x, code_lens) # (B, T_codes, hidden_dim)
	h = self.encoder_proj(h) # (B, T_codes, n_mels)

	# Upsample to mel frame rate
	h, _ = self.length_regulator(h, mel_lens) # (B, T_mel, n_mels)

	# Build conditioning: random-length mel prefix (50 % chance per sample)
	conds = torch.zeros_like(mel)
	for i, j in enumerate(mel_lens.tolist()):
	if random.random() < 0.5:
	continue
	idx = random.randint(0, int(0.8 * j))
	conds[i, :idx] = mel[i, :idx]
	conds = conds.transpose(1, 2) # (B, n_mels, T_mel)

	# Transpose to (B, n_mels, T) for the CFM decoder
	mel_t = mel.transpose(1, 2).contiguous() # (B, n_mels, T_mel)
	h_t = h.transpose(1, 2).contiguous() # (B, n_mels, T_mel)

	# Safety alignment (no-op when length_regulator works correctly)
	if mel_t.shape[-1] != h_t.shape[-1]:
	mel_t = F.interpolate(mel_t, size=h_t.shape[-1], mode='nearest')
	conds = F.interpolate(conds, size=h_t.shape[-1], mode='nearest')

	mask = (~make_pad_mask(mel_lens)).to(h) # (B, T_mel)

	loss, _ = self.decoder.compute_loss(
	mel_t,
	mask.unsqueeze(1),
	h_t,
	spk,
	cond=conds,
	)
	return {'loss': loss}

	# ── inference ────────────────────────────────────────────────────────────

	@torch.inference_mode()
	def inference(
	self,
	codes: torch.Tensor, # (1, num_q, T_codes)
	code_lens: torch.Tensor, # (1,)
	prompt_mel: torch.Tensor, # (1, T_prompt, n_mels) or empty
	target_len: int, # desired output mel frames
	spk_emb: torch.Tensor, # (1, 192)
	n_timesteps: int = 10,
	temperature: float = 1.0,
	) -> torch.Tensor:
	"""Returns generated mel: (1, n_mels, T_target)"""
	spk = F.normalize(spk_emb, dim=-1)
	spk = self.spk_embed_affine(spk) # (1, n_mels)

	x = self.code_embedding(codes).sum(dim=1) # (1, T_codes, hidden_dim)
	h, _ = self.encoder(x, code_lens)
	h = self.encoder_proj(h) # (1, T_codes, n_mels)

	out_lens = torch.tensor([target_len], device=codes.device)
	h, _ = self.length_regulator(h, out_lens) # (1, target_len, n_mels)
	h_t = h.transpose(1, 2).contiguous() # (1, n_mels, target_len)

	conds = torch.zeros_like(h_t)
	if prompt_mel.shape[1] > 0:
	p = min(prompt_mel.shape[1], target_len)
	conds[:, :, :p] = prompt_mel[:, :p].transpose(1, 2)

	mask = torch.ones(1, 1, target_len, device=codes.device)

	mel_out = self.decoder(
	mu=h_t,
	mask=mask,
	spks=spk,
	cond=conds,
	n_timesteps=n_timesteps,
	temperature=temperature,
	)
	return mel_out # (1, n_mels, target_len)