Respair
/

OTA_TextAligner

Model card Files Files and versions

xet

Community

Respair commited on Mar 30, 2025

Commit

ea101a8

verified ·

1 Parent(s): fe76d2f

Create train.py

Browse files

Files changed (1) hide show

train.py +177 -0

train.py ADDED Viewed

	@@ -0,0 +1,177 @@

+import os
+import torch
+import torch.nn as nn
+import torch.optim as optim
+from torch.utils.tensorboard import SummaryWriter
+import matplotlib.pyplot as plt
+import numpy as np
+import time
+from tqdm import tqdm
+from optimizers import build_optimizer
+def train_aligner(config, accelerator, train_dataloader, val_dataloader, device, log_dir, epochs=100):
+    # Create model
+    aligner = AlignerModel().to(device)
+    # Define loss function
+    forward_sum_loss = ForwardSumLoss()
+    # Setup optimizer
+    scheduler_params = {
+        "max_lr": float(config['optimizer_params'].get('lr', 5e-4)),
+        "pct_start": float(config['optimizer_params'].get('pct_start', 0.0)),
+        "epochs": epochs,
+        "steps_per_epoch": len(train_dataloader),
+    }
+    optimizer, scheduler = build_optimizer(
+        {"params": aligner.parameters(), "optimizer_params":{}, "scheduler_params": scheduler_params})
+    # Setup TensorBoard writer
+    writer = SummaryWriter(log_dir=log_dir)
+    # Create directories for model checkpoints
+    os.makedirs(os.path.join(log_dir, 'checkpoints'), exist_ok=True)
+    # Track best validation loss
+    best_val_loss = float('inf')
+    # Loss weights
+    fwd_sum_loss_weight = config.get('fwd_sum_loss_weight', 1.0)
+    # Training loop
+    for epoch in range(1, epochs + 1):
+        aligner.train()
+        train_losses = []
+        train_fwd_losses = []
+        start_time = time.time()
+        # Training phase
+        pbar = tqdm(train_dataloader, desc=f"Epoch {epoch}/{epochs} [Train]")
+        for i, batch in enumerate(pbar):
+            batch = [b.to(device) for b in batch]
+            text_input, text_input_length, mel_input, mel_input_length, attn_prior = batch
+            # Forward pass
+            attn_soft, attn_logprob = aligner(spec=mel_input,
+                                             spec_len=mel_input_length,
+                                             text=text_input,
+                                             text_len=text_input_length,
+                                             attn_prior=attn_prior)
+            # Calculate loss
+            loss = forward_sum_loss(attn_logprob=attn_logprob,
+                                   in_lens=text_input_length,
+                                   out_lens=mel_input_length)
+            # Backward pass and optimization
+            optimizer.zero_grad()
+            loss.backward()
+            # Optional gradient clipping
+            grad_norm = nn.utils.clip_grad_norm_(aligner.parameters(), config.get('grad_clip', 5.0))
+            optimizer.step()
+            if scheduler is not None:
+                scheduler.step()
+            # Log to TensorBoard
+            global_step = (epoch - 1) * len(train_dataloader) + i
+            writer.add_scalar('train/total_loss', loss.item(), global_step)
+            writer.add_scalar('train/grad_norm', grad_norm, global_step)
+            # Update progress bar
+            train_losses.append(loss.item())
+            train_fwd_losses.append(loss.item())
+            # Update the progress bar description
+            pbar.set_description(f"Epoch {epoch}/{epochs} [Train] Loss: {loss.item():.4f}")
+        # Calculate average training loss for this epoch
+        avg_train_loss = sum(train_losses) / len(train_losses)
+        # Validation phase
+        aligner.eval()
+        val_losses = []
+        with torch.no_grad():
+            for batch in tqdm(val_dataloader, desc=f"Epoch {epoch}/{epochs} [Val]"):
+                batch = [b.to(device) for b in batch]
+                text_input, text_input_length, mel_input, mel_input_length, attn_prior = batch
+                # Forward pass
+                attn_soft, attn_logprob = aligner(spec=mel_input,
+                                               spec_len=mel_input_length,
+                                               text=text_input,
+                                               text_len=text_input_length,
+                                               attn_prior=attn_prior)
+                # Calculate loss
+                val_loss = forward_sum_loss(attn_logprob=attn_logprob,
+                                         in_lens=text_input_length,
+                                         out_lens=mel_input_length)
+                val_losses.append(val_loss.item())
+        # Calculate average validation loss
+        avg_val_loss = sum(val_losses) / len(val_losses)
+        # Log to TensorBoard
+        writer.add_scalar('epoch/train_loss', avg_train_loss, epoch)
+        writer.add_scalar('epoch/val_loss', avg_val_loss, epoch)
+        # Save model if it's the best so far
+        if avg_val_loss < best_val_loss:
+            best_val_loss = avg_val_loss
+            torch.save({
+                'epoch': epoch,
+                'model_state_dict': aligner.state_dict(),
+                'optimizer_state_dict': optimizer.state_dict(),
+                'train_loss': avg_train_loss,
+                'val_loss': avg_val_loss,
+            }, os.path.join(log_dir, 'checkpoints', 'best_model.pt'))
+        # Save checkpoint every N epochs
+        if epoch % config.get('save_every', 10) == 0:
+            torch.save({
+                'epoch': epoch,
+                'model_state_dict': aligner.state_dict(),
+                'optimizer_state_dict': optimizer.state_dict(),
+                'train_loss': avg_train_loss,
+                'val_loss': avg_val_loss,
+            }, os.path.join(log_dir, 'checkpoints', f'checkpoint_epoch_{epoch}.pt'))
+        # Print summary for this epoch
+        epoch_time = time.time() - start_time
+        print(f"Epoch {epoch}/{epochs} completed in {epoch_time:.2f}s | "
+              f"Train Loss: {avg_train_loss:.4f} | Val Loss: {avg_val_loss:.4f}")
+        # Plot and save attention matrices for visualization
+        if epoch % config.get('plot_every', 10) == 0:
+            plot_attention_matrices(aligner, val_dataloader, device,
+                                  os.path.join(log_dir, 'attention_plots', f'epoch_{epoch}'),
+                                  num_samples=4)
+    writer.close()
+    print(f"Training completed. Best validation loss: {best_val_loss:.4f}")
+    return aligner
+# Main execution
+if __name__ == "__main__":
+    def length_to_mask(lengths):
+        mask = torch.arange(lengths.max()).unsqueeze(0).expand(lengths.shape[0], -1).type_as(lengths)
+        mask = torch.gt(mask+1, lengths.unsqueeze(1))
+        return mask
+    # Assuming these variables are defined in your main script
+    train_aligner(
+        config=config,
+        train_dataloader=train_dataloader,
+        val_dataloader=val_dataloader,
+        device=device,
+        log_dir=log_dir,
+        epochs=epoch
+    )