File size: 20,012 Bytes

41bc8a8

import os
import sys

sys.path.append(os.path.abspath(os.path.join(os.path.dirname(__file__), "..")))
import linecache
import mmap
import pickle as pkl
import random
from typing import Any

import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import torchaudio
import transformers
from accelerate import Accelerator, DistributedDataParallelKwargs
from torch.utils.data import DataLoader, Dataset, WeightedRandomSampler
from tqdm import tqdm

import wandb
from config import config
from T2S.autoregressive import TS_model
from T2S.mel_spec import get_mel_spectrogram
from T2S.utilities import get_mask_from_lengths
from Text import code_labels, labels, text_labels

torch.manual_seed(config.seed_value)
np.random.seed(config.seed_value)
random.seed(config.seed_value)

# code encdec
text_enc = {j: i for i, j in enumerate(text_labels)}
text_dec = {i: j for i, j in enumerate(text_labels)}

# text encdec
code_enc = {j: i for i, j in enumerate(code_labels)}
code_dec = {i: j for i, j in enumerate(code_labels)}


def read_specific_line(filename, line_number):
    line = linecache.getline(filename, line_number)
    return line.strip()  # Remove any leading or trailing whitespace


CLIP_LENGTH = config.CLIP_LENGTH


class semantic_dataset(Dataset):
    def __init__(
        self,
        transcript_path,
        semantic_path=None,
        ref_mels_path=None,
        ref_k=1,
        scale=True,
    ):
        super().__init__()
        self.scale = scale
        if not scale:
            with open(transcript_path, "r") as file:
                data = file.read().strip("\n").split("\n")[:]

            with open(semantic_path, "r") as file:
                semb = file.read().strip("\n").split("\n")

            with open(ref_mels_path, "rb") as file:
                self.ref_mels = pkl.load(file)

            semb = {
                i.split("\t")[0]: [j for j in i.split("\t")[1].split()] for i in semb
            }
            data = {i.split("|")[0]: i.split("|")[1].strip().lower() for i in data}

            self.data = [[i, semb[i], data[i]] for i in data.keys()]

        else:
            line_index = {}
            with open(transcript_path, "rb") as file:
                mmapped_file = mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ)
                line_number = 0
                offset = 0
                pbar = tqdm()
                while offset < len(mmapped_file):
                    line_index[line_number] = offset
                    offset = mmapped_file.find(b"\n", offset) + 1
                    line_number += 1
                    pbar.update(1)
                pbar.close()
                self.mmapped_file = mmapped_file
            self.line_index = line_index
            self.data_len = len(line_index)
            print("data length:", self.data_len)
            self.transcript_path = transcript_path

        self.ref_k = ref_k
        self.max_wav_value = config.MAX_WAV_VALUE

    def get_mel(self, filepath):
        audio_norm, sampling_rate = torchaudio.load(filepath)
        melspec = get_mel_spectrogram(audio_norm, sampling_rate).squeeze(0)
        energy = []
        return melspec, list(energy)

    def __len__(self):
        if self.scale:
            return self.data_len
        return len(self.data)

    def __getitem__(self, index) -> Any:
        if not self.scale:
            lang, path, semb, text = self.data[index]
            ref_mels = self.ref_mels[path][: self.ref_k]

        else:
            self.mmapped_file.seek(self.line_index[index])
            line = self.mmapped_file.readline().decode("utf-8")

            try:
                lang, path, text, semb_ids = line.split("|")
            except Exception as e:
                print(index, line)
                if index + 1 < self.data_len:
                    return self.__getitem__(index + 1)
                return self.__getitem__(0)
            semb = semb_ids.split()
            ref_mels = [path]
            # ref_mels = [i.split(',') for i in ref_mels.split('\t')][:self.ref_k]

        if len(semb) < 5:
            print(index, "No Semb tokens found")
            if index + 1 < self.data_len:
                return self.__getitem__(index + 1)
            return self.__getitem__(0)

        if len(ref_mels) == 0:
            ref_mels.append((path, 1))
            ref_mels.append((path, 1))
            ref_mels.append((path, 1))

        while len(ref_mels) < self.ref_k:
            ref_mels.append(ref_mels[-1])

        text = text.lower().strip()
        try:
            text_ids = (
                [text_enc["<S>"]] + [text_enc[i] for i in text] + [text_enc["<E>"]]
            )
            semb_ids = (
                [code_enc["<SST>"]] + [code_enc[i] for i in semb] + [code_enc["<EST>"]]
            )
        except Exception as e:
            print(index, e)
            if index + 1 < self.data_len:
                return self.__getitem__(index + 1)
            return self.__getitem__(0)

        def get_random_portion(mel, mask_lengths):
            clip = mask_lengths <= CLIP_LENGTH
            ref_mel = mel[:, :, :CLIP_LENGTH].clone()
            for n, z in enumerate(clip):
                if not z:
                    start = np.random.randint(0, mask_lengths[n].item() - CLIP_LENGTH)
                    ref_mel[n, :, :] = mel[n, :, start : start + CLIP_LENGTH].clone()
            return ref_mel

        try:
            ref_mels = [self.get_mel(path)[0] for path in ref_mels]
        except Exception as e:
            print(index, e, path)
            if index + 1 < self.data_len:
                return self.__getitem__(index + 1)
            return self.__getitem__(0)

        ref_c = []
        for i in range(self.ref_k):
            if ref_mels[i] is None:
                continue
            ref_c.append(ref_mels[i])

        if len(ref_c) == 0:
            if index + 1 < self.data_len:
                return self.__getitem__(index + 1)
            return self.__getitem__(0)

        if len(ref_c) != self.ref_k:
            while len(ref_c) < self.ref_k:
                ref_c.append(ref_c[-1])

        ref_mels = ref_c

        max_target_len = max([x.size(1) for x in ref_mels])
        ref_mels_padded = (
            torch.randn((self.ref_k, config.n_mel_channels, max_target_len))
        ) * 1e-9
        mel_length = []
        for i, mel in enumerate(ref_mels):
            ref_mels_padded[i, :, : mel.size(1)] = mel
            mel_length.append(mel.shape[-1])

        ref_mels = get_random_portion(ref_mels_padded, torch.tensor(mel_length))

        return {
            "text_ids": text_ids,
            "semb_ids": semb_ids,
            "ref_mels": ref_mels,
            "lang": torch.tensor(config.lang_index[lang]),
        }


def get_padded_seq(sequences, pad_random, before=False, pad__=0):
    max_len = max([len(s) for s in sequences])
    seq_len = []
    for i in range(len(sequences)):
        seq_len.append(len(sequences[i]))
        if pad_random:
            pad_ = pad_ = list((np.random.rand(max_len - len(sequences[i]))) * 1e-9)
        else:
            pad_ = [pad__] * (max_len - len(sequences[i]))
        if not before:
            sequences[i] = sequences[i] + pad_
        else:
            sequences[i] = pad_ + sequences[i]

    return sequences, seq_len


def collate(batch):
    text_ids = []
    semb_ids = []
    ref_mels = []
    langs = []

    for b in batch:
        text_ids.append(b["text_ids"])
        semb_ids.append(b["semb_ids"])
        ref_mels.append(b["ref_mels"])
        langs.append(b["lang"])

    text_ids, text_len = get_padded_seq(
        text_ids, pad_random=False, before=False, pad__=text_enc["<E>"]
    )
    code, code_len = get_padded_seq(semb_ids, pad_random=False, pad__=code_enc["<EST>"])

    ref_max_target_len = max([x.size(-1) for x in ref_mels])
    ref_mels_padded = (
        torch.randn(
            (
                len(batch),
                ref_mels[0].shape[0],
                config.n_mel_channels,
                ref_max_target_len,
            )
        )
    ) * 1e-9

    for i, mel in enumerate(ref_mels):
        ref_mels_padded[i, :, :, : mel.size(-1)] = mel

    return (
        torch.tensor(text_ids),
        torch.tensor(code),
        torch.tensor(text_len),
        torch.tensor(code_len),
        ref_mels_padded,
        torch.tensor(langs),
    )


def train(model, train_dataset, val_dataset, save_dir, checkpoint_initial=None):
    accelerator = Accelerator(
        gradient_accumulation_steps=config.ts_gradient_accumulation_steps
    )  # ,kwargs_handlers=[ddp_kwargs]) mixed_precision="fp16",

    if config.ts_wandb_logs and accelerator.is_local_main_process:
        conf_ = {}
        for i, j in config.__dict__.items():
            conf_[str(i)] = str(j)
        wandb_log = wandb.init(
            project=config.wandb_project,
            entity=config.user_name,
            name=config.model_name,
            config=conf_,
        )
        wandb_log.watch(model, log_freq=100)
    else:
        wandb_log = None

    optimizer = optim.Adam(
        model.parameters(), lr=config.ts_lr, weight_decay=config.ts_weight_decay
    )
    # optimizer = transformers.Adafactor(model.parameters(), lr=config.ts_lr,weight_decay=config.ts_weight_decay, relative_step =False, scale_parameter =False)
    lr = config.ts_lr
    step_num = 0
    start_epoch = 0
    if checkpoint_initial is not None:
        model.load_state_dict(
            torch.load(checkpoint_initial, map_location=torch.device("cpu"))["model"],
            strict=True,
        )
        if (
            config.ts_finetuning
        ):  # freezing heads results in less hallucinations after Ft.
            for param in model.text_head.parameters():
                param.requires_grad = False

            for param in model.code_head.parameters():
                param.requires_grad = False

        model.train()

        print("loading optimizer")
        optimizer.load_state_dict(
            torch.load(checkpoint_initial, map_location=torch.device("cpu"))[
                "optimizer"
            ]
        )
        step_num = (
            int(
                torch.load(checkpoint_initial, map_location=torch.device("cpu"))["step"]
            )
            + 1
        )
        step_num = 0
        start_epoch = (
            int(
                torch.load(checkpoint_initial, map_location=torch.device("cpu"))[
                    "epoch"
                ]
            )
            + 1
        )
        print(f"Resuming training from epoch {start_epoch} and step {step_num}")

    train_dataloader, val_dataloader, model, optimizer = accelerator.prepare(
        train_dataset, val_dataset, model, optimizer
    )
    val_dataloader = val_dataset
    min_val_loss = 1000
    model.train()

    for i in range(start_epoch, config.ts_epochs):
        epoch_loss = []
        if accelerator.is_main_process:
            train_loader = tqdm(
                train_dataloader,
                desc="Rank %d: Training epoch %d"
                % (accelerator.local_process_index, i),
            )
        else:
            train_loader = train_dataloader

        for n, inputs in enumerate(train_loader):
            with accelerator.accumulate(model):
                # with accelerator.autocast():
                text_ids, code, text_len, code_len, ref_clips, langs = inputs
                mask_text = get_mask_from_lengths(text_len)
                code_mask = get_mask_from_lengths(code_len)
                attn_mask = torch.cat([mask_text, code_mask], dim=1)
                loss_text, loss_code, _ = model(
                    text_ids=text_ids,
                    ref_clips=ref_clips,
                    codes_ids=code,
                    language=langs,
                    return_loss=True,
                    attn_mask=attn_mask,
                )

                loss_text *= mask_text[:, 1:].float()
                loss_text = loss_text.sum() / mask_text[:, 1:].sum()

                loss_code *= code_mask[:, 1:].float()
                loss_code = loss_code.sum() / code_mask[:, 1:].sum()

                loss = loss_text * config.text_loss_weight + loss_code

                accelerator.backward(loss)
                accelerator.clip_grad_norm_(model.parameters(), 1.0)
                optimizer.step()
                optimizer.zero_grad()
                step_num += 1

                if (
                    step_num % config.ts_gradient_accumulation_steps == 0
                    and config.ts_wandb_logs
                    and accelerator.is_main_process
                ):
                    wandb_log.log(
                        {
                            "training_loss": loss.item(),
                            "step": step_num // config.ts_gradient_accumulation_steps,
                        }
                    )

            epoch_loss.append(loss.item())

            if (
                not config.ts_finetuning
                and step_num
                % (config.ts_gradient_accumulation_steps * config.ts_eval_step)
                == 0
            ):
                val_loss = val(model, val_dataloader, accelerator.is_main_process)
                val_loss = accelerator.gather_for_metrics(val_loss).mean().item()
                model.train()
                if config.ts_wandb_logs and accelerator.is_main_process:
                    wandb_log.log(
                        {
                            "val_loss": val_loss,
                            "epoch": i,
                            "scheduled_learning_rate": lr,
                            "step": step_num // config.ts_gradient_accumulation_steps,
                        }
                    )

                if val_loss < min_val_loss:
                    # save the model
                    accelerator.wait_for_everyone()
                    unwrapped_model = accelerator.unwrap_model(model)
                    checkpoint = {
                        "epoch": i,
                        "step": str(step_num // config.gradient_accumulation_steps),
                        "model": unwrapped_model.state_dict(),
                        "optimizer": optimizer.state_dict(),
                    }
                    torch.save(
                        checkpoint,
                        os.path.join(config.save_root_dir, "_best.pt"),
                    )
                    min_val_loss = val_loss

                # save the latest checkpoint
                accelerator.wait_for_everyone()
                unwrapped_model = accelerator.unwrap_model(model)
                checkpoint = {
                    "epoch": i,
                    "step": str(step_num // config.gradient_accumulation_steps),
                    "model": unwrapped_model.state_dict(),
                    "optimizer": optimizer.state_dict(),
                }
                torch.save(
                    checkpoint,
                    os.path.join(config.save_root_dir, str(step_num // config.gradient_accumulation_steps) + "_latest.pt"),
                )
                print(f"Saved latest checkpoint at {os.path.join(config.save_root_dir, str(step_num // config.gradient_accumulation_steps) + '_latest.pt')}")

        val_loss = val(model, val_dataloader, accelerator.is_main_process)
        val_loss = accelerator.gather_for_metrics(val_loss).mean().item()
        model.train()
        if config.ts_wandb_logs and accelerator.is_main_process:
            wandb_log.log(
                {
                    "val_loss": val_loss,
                    "epoch": i,
                    "scheduled_learning_rate": lr,
                    "step": step_num // config.ts_gradient_accumulation_steps,
                }
            )

        if val_loss < min_val_loss:
            # save the model
            accelerator.wait_for_everyone()
            unwrapped_model = accelerator.unwrap_model(model)
            checkpoint = {
                "epoch": i,
                "step": str(step_num // config.gradient_accumulation_steps),
                "model": unwrapped_model.state_dict(),
                "optimizer": optimizer.state_dict(),
            }
            torch.save(
                checkpoint, os.path.join(config.save_root_dir, "best.pt")
            )
            min_val_loss = val_loss
        print(f"Saved best checkpoint at {os.path.join(config.save_root_dir, 'best.pt')}")
        accelerator.wait_for_everyone()
        unwrapped_model = accelerator.unwrap_model(model)
        checkpoint = {
            "epoch": i,
            "step": str(step_num // config.gradient_accumulation_steps),
            "model": unwrapped_model.state_dict(),
            "optimizer": optimizer.state_dict(),
        }
        torch.save(
            checkpoint,
            os.path.join(config.save_root_dir, str(i) + "_latest.pt"),
        )
        
        if config.ts_wandb_logs and accelerator.is_local_main_process:
            wandb_log.log(
                {
                    "scheduled_learning_rate": lr,
                    "epoch": i,
                    "step": step_num // config.ts_gradient_accumulation_steps,
                }
            )
        print(
            "epoch_number : ", i, " training loss : ", sum(epoch_loss) / len(epoch_loss)
        )

    if config.ts_wandb_logs and accelerator.is_local_main_process:
        wandb_log.finish()


def val(model, val_dataloader, _main=False):
    """
    Return the loss value
    """
    print("VALIDATION STARTING:")
    model.eval()
    val_loss = []
    device = next(model.parameters()).device
    if _main:
        val_dataloader = tqdm(val_dataloader)
    with torch.no_grad():
        for inputs in val_dataloader:
            text_ids, code, text_len, code_len, ref_clips, langs = inputs
            mask_text = get_mask_from_lengths(text_len).to(device)
            code_mask = get_mask_from_lengths(code_len).to(device)
            attn_mask = torch.cat([mask_text, code_mask], dim=1)
            loss_text, loss_code, _ = model(
                text_ids=text_ids.to(device),
                ref_clips=ref_clips.to(device),
                codes_ids=code.to(device),
                language=langs.to(device),
                return_loss=True,
                attn_mask=attn_mask,
            )

            loss_text *= mask_text[:, 1:].float()
            loss_text = loss_text.sum() / mask_text[:, 1:].sum()
            loss_code *= code_mask[:, 1:].float()
            loss_code = loss_code.sum() / code_mask[:, 1:].sum()
            loss = loss_text * config.text_loss_weight + loss_code

            val_loss.append(loss.item())

    val_loss = sum(val_loss) / len(val_loss)
    print(" Validation loss : ", val_loss)
    return torch.tensor(val_loss).to(device)


def main():

    os.makedirs(os.path.join(config.save_root_dir, config.model_name, "T2S"), exist_ok=True)

    file_name_train = config.train_file
    file_name_val = config.val_file

    checkpoint = config.t2s_checkpoint
    model = TS_model(n_embed=1024, n_layer=30, n_head=16)

    val_dataset = DataLoader(
        semantic_dataset(file_name_val, scale=True),
        pin_memory=True,
        persistent_workers=True,
        num_workers=2,
        batch_size=config.ts_batch_size,
        shuffle=True,
        drop_last=False,
        collate_fn=collate,
    )

    train_dataset_ = semantic_dataset(file_name_train, scale=True)
    train_dataset = DataLoader(
        train_dataset_,
        pin_memory=True,
        persistent_workers=True,
        num_workers=config.ts_num_workers,
        batch_size=config.ts_batch_size,
        shuffle=True,
        drop_last=False,
        collate_fn=collate,
    )
    
    train(
        model,
        train_dataset,
        val_dataset,
        save_dir=os.path.join(config.save_root_dir, config.model_name, "T2S"),
        checkpoint_initial=checkpoint
    )


if __name__ == "__main__":
    main()