theachyuttiwari
/

lfqa

Model card Files Files and versions

xet

Community

theachyuttiwari commited on Jun 7, 2022

Commit

29b1daa

1 Parent(s): 5bb64ce

Upload run_seq2seq_no_trainer.py

Browse files

Files changed (1) hide show

run_seq2seq_no_trainer.py +446 -0

run_seq2seq_no_trainer.py ADDED Viewed

	@@ -0,0 +1,446 @@

+import argparse
+import logging
+import math
+import re
+import numpy as np
+import torch
+from accelerate import Accelerator
+from accelerate.utils import set_seed
+from torch.utils.data import DataLoader
+from tqdm.auto import tqdm
+from transformers import get_scheduler, AutoTokenizer, AdamW, SchedulerType, AutoModelForSeq2SeqLM, \
+    DataCollatorWithPadding
+from datasets import load_dataset
+logger = logging.getLogger(__name__)
+def get_parser():
+    parser = argparse.ArgumentParser(description="Train ELI5 seq2seq answer generation model")
+    parser.add_argument(
+        "--dataset_name",
+        type=str,
+        default="vblagoje/lfqa",
+        help="The name of the dataset to use (via the datasets library).",
+    )
+    parser.add_argument(
+        "--per_device_train_batch_size",
+        type=int,
+        default=4,
+    )
+    parser.add_argument(
+        "--per_device_eval_batch_size",
+        type=int,
+        default=4,
+        help="Batch size (per device) for the evaluation dataloader.",
+    )
+    parser.add_argument(
+        "--pretrained_model_name",
+        type=str,
+        default="facebook/bart-large",
+    )
+    parser.add_argument(
+        "--model_save_name",
+        type=str,
+        default="eli5_bart_model",
+    )
+    parser.add_argument(
+        "--learning_rate",
+        type=float,
+        default=2e-4,
+    )
+    parser.add_argument(
+        "--weight_decay",
+        type=float,
+        default=0.0,
+        help="Weight decay to use."
+    )
+    parser.add_argument(
+        "--log_freq",
+        type=int,
+        default=100,
+        help="Log train/validation loss every log_freq update steps"
+    )
+    parser.add_argument(
+        "--ignore_pad_token_for_loss",
+        type=bool,
+        default=True,
+        help="Whether to ignore the tokens corresponding to " "padded labels in the loss computation or not.",
+    )
+    parser.add_argument(
+        "--num_train_epochs",
+        type=int,
+        default=3,
+    )
+    parser.add_argument(
+        "--max_train_steps",
+        type=int,
+        default=None,
+        help="Total number of training steps to perform. If provided, overrides num_train_epochs.",
+    )
+    parser.add_argument(
+        "--gradient_accumulation_steps",
+        type=int,
+        default=16,
+        help="Number of updates steps to accumulate before performing a backward/update pass.",
+    )
+    parser.add_argument(
+        "--pad_to_max_length",
+        action="store_true",
+        help="If passed, pad all samples to `max_length`. Otherwise, dynamic padding is used.",
+    )
+    parser.add_argument(
+        "--overwrite_cache", type=bool, default=None, help="Overwrite the cached training and evaluation sets"
+    )
+    parser.add_argument(
+        "--max_source_length",
+        type=int,
+        default=1024,
+        help="The maximum total input sequence length after "
+             "tokenization.Sequences longer than this will be truncated, sequences shorter will be padded.",
+    )
+    parser.add_argument(
+        "--max_target_length",
+        type=int,
+        default=360,
+        help="The maximum total sequence length for target text after "
+             "tokenization. Sequences longer than this will be truncated, sequences shorter will be padded."
+    )
+    parser.add_argument(
+        "--lr_scheduler_type",
+        type=SchedulerType,
+        default="linear",  # this is linear with warmup
+        help="The scheduler type to use.",
+        choices=["linear", "cosine", "cosine_with_restarts", "polynomial", "constant", "constant_with_warmup"],
+    )
+    parser.add_argument(
+        "--num_warmup_steps",
+        type=int,
+        default=None,
+        help="Number of steps for the warmup in the lr scheduler."
+    )
+    parser.add_argument(
+        "--warmup_percentage",
+        type=float,
+        default=0.08,
+        help="Number of steps for the warmup in the lr scheduler."
+    )
+    return parser
+def cleanup_references(text):
+    # URL reference where we need to remove both the link text and URL
+    # ...and this letter is used by most biographers as the cornerstone of Lee's personal
+    # views on slavery ([1](_URL_2_ & pg=PA173), [2](_URL_1_), [3](_URL_5_)).
+    # ...and this letter is used by most biographers as the cornerstone of Lee's personal views on slavery.
+    result = re.sub(r"[\(\s]*\[\d+\]\([^)]+\)[,)]*", "", text, 0, re.MULTILINE)
+    # URL reference where we need to preserve link text but remove URL
+    # At the outbreak of the Civil War, [Leyburn left his church](_URL_19_) and joined the South.
+    # At the outbreak of the Civil War, Leyburn left his church and joined the South.
+    result = re.sub(r"\[([^]]+)\]\([^)]+\)", "\\1", result, 0, re.MULTILINE)
+    # lastly remove just dangling _URL_[0-9]_ URL references
+    result = re.sub(r"_URL_\d_", "", result, 0, re.MULTILINE)
+    return result
+def clean_answer(text):
+    result = cleanup_references(text)
+    result = result.replace("\n", " ")
+    result = re.sub(r"\s\s+", " ", result)
+    result = re.sub(r"BULLET::::-", "", result)
+    return result.strip()
+def clean_question(text):
+    result = cleanup_references(text)
+    result = result.replace("\n", " ")
+    result = re.sub(r"\s\s+", " ", result)
+    result = result.replace("[deleted]", "")
+    return result.lower().strip()
+def prepare_support_docs(example):
+    provenances = example["output"][-1]["provenance"]
+    context = "<P> " + " <P> ".join([p["text"] for p in provenances])
+    return {"context": context}
+def preprocess_eli5(examples, **fn_kwargs):
+    document_cache = fn_kwargs["document_cache"]
+    training = fn_kwargs.get("training", True)
+    extra_answer_threshold = fn_kwargs.get("extra_answer_threshold", 3)
+    include_selftext = fn_kwargs.get("include_selftext", False)
+    exclude_answer_patterns = fn_kwargs.get("exclude_answer_patterns", [])
+    questions, contexts, answers = [], [], []
+    for q_id, question, selftext, answer in zip(examples["q_id"], examples["title"], examples["selftext"],
+                                                examples["answers"]):
+        accepted_answer_idx = []
+        if training:
+            accepted_answer_idx = [idx for idx, score in enumerate(answer["score"]) if
+                                   score > extra_answer_threshold]
+        if not training or not accepted_answer_idx:
+            accepted_answer_idx = [0]
+        document = document_cache[q_id]
+        for idx in accepted_answer_idx:
+            skip_answer = any([p.search(answer["text"][idx]) for p in exclude_answer_patterns])
+            if skip_answer:
+                continue
+            if include_selftext:
+                questions.append(clean_question(f"{question} {selftext}"))
+            else:
+                questions.append(clean_question(question))
+            contexts.append(document.lower().strip())
+            answers.append(clean_answer(answer["text"][idx]))
+    return {"question": questions, "context": contexts, "answer": answers}
+def eval_qa_s2s_epoch(model, dataloader, accelerator, args):
+    model.eval()
+    num_eval_steps = math.ceil(len(dataloader))
+    progress_bar = tqdm(range(num_eval_steps), disable=not accelerator.is_local_main_process)
+    total_loss = 0.
+    with torch.no_grad():
+        for step, batch in enumerate(dataloader):
+            outputs = model(**batch)
+            loss = outputs.loss
+            total_loss += loss.item()
+            progress_bar.update(1)
+            progress_bar.set_postfix(loss=round((total_loss / (step + 1)), 3))
+        return total_loss / (step + 1)
+def train(config):
+    set_seed(42)
+    args = config["args"]
+    eli5 = load_dataset(args.dataset_name)
+    support_docs = load_dataset("vblagoje/lfqa_support_docs")
+    # Initialize the accelerator. We will let the accelerator handle device placement for us in this example.
+    accelerator = Accelerator()
+    # Make one log on every process with the configuration for debugging.
+    logging.basicConfig(
+        format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
+        datefmt="%m/%d/%Y %H:%M:%S",
+        level=logging.INFO,
+    )
+    logger.setLevel(logging.INFO if accelerator.is_local_main_process else logging.ERROR)
+    logger.info(accelerator.state)
+    tokenizer = AutoTokenizer.from_pretrained(args.pretrained_model_name)
+    model = AutoModelForSeq2SeqLM.from_pretrained(args.pretrained_model_name)
+    # Optimizer
+    # Split weights in two groups, one with weight decay and the other not.
+    no_decay = ["bias", "LayerNorm.weight"]
+    optimizer_grouped_parameters = [
+        {
+            "params": [p for n, p in model.named_parameters() if not any(nd in n for nd in no_decay)],
+            "weight_decay": args.weight_decay,
+        },
+        {
+            "params": [p for n, p in model.named_parameters() if any(nd in n for nd in no_decay)],
+            "weight_decay": 0.0,
+        },
+    ]
+    optimizer = AdamW(optimizer_grouped_parameters, lr=args.learning_rate, weight_decay=args.weight_decay)
+    processed_datasets = {}
+    support_docs_prepared = {}
+    with accelerator.main_process_first():
+        for split in ["train", "validation"]:
+            support_docs_prepared[split] = support_docs[split].map(prepare_support_docs,
+                                                                   batched=False,
+                                                                   cache_file_name=f"./support_docs_{split}.arrow",
+                                                                   load_from_cache_file=not args.overwrite_cache,
+                                                                   desc="Preparing support docs",
+                                                                   )
+        column_names = eli5["train"].column_names
+        for split in ["train", "validation"]:
+            d_cache = dict([(e["id"], e["context"]) for e in tqdm(support_docs_prepared[split],
+                                                                  desc=f"Adding support docs to LFQA {split}")])
+            processed_datasets[split] = eli5[split].map(preprocess_eli5,
+                                                        batched=True,
+                                                        remove_columns=column_names,
+                                                        cache_file_name=f"./processed_datasets_{split}.arrow",
+                                                        load_from_cache_file=not args.overwrite_cache,
+                                                        desc="Preparing dataset for tokenization",
+                                                        fn_kwargs={"document_cache": d_cache,
+                                                                   "training": split == "train",
+                                                                   "exclude_answer_patterns": [re.compile("not sure what you"),
+                                                                                               re.compile("\n\n >")]}
+                                                        )
+    padding = "max_length" if args.pad_to_max_length else False
+    # Temporarily set max_target_length for training.
+    max_target_length = args.max_target_length
+    label_pad_token_id = -100 if args.ignore_pad_token_for_loss else tokenizer.pad_token_id
+    def tokenize_dataset(examples):
+        inputs = ["question: {} context: {}".format(q, c) for q, c in zip(examples["question"], examples["context"])]
+        targets = examples["answer"]
+        model_inputs = tokenizer(inputs, max_length=args.max_source_length, padding=padding, truncation=True)
+        # Setup the tokenizer for targets
+        with tokenizer.as_target_tokenizer():
+            labels = tokenizer(targets, max_length=max_target_length, padding=True, truncation=True,
+                               return_tensors="np")
+        model_inputs["decoder_input_ids"] = labels["input_ids"][:, :-1].tolist()
+        # replace pad_token_id with label_pad_token_id to avoid loss calculation on those tokens
+        labels["input_ids"] = np.where(labels["input_ids"] == tokenizer.pad_token_id,
+                                       label_pad_token_id, labels["input_ids"])
+        model_inputs["labels"] = labels["input_ids"][:, 1:].tolist()
+        return model_inputs
+    tokenized_datasets = {}
+    with accelerator.main_process_first():
+        for split, dataset in processed_datasets.items():
+            tokenized_datasets[split] = dataset.map(
+                tokenize_dataset,
+                batched=True,
+                cache_file_name=f"./tokenized_dataset_{split}.arrow",
+                remove_columns=dataset.column_names,
+                load_from_cache_file=not args.overwrite_cache,
+                desc="Running tokenizer on dataset"
+            )
+    train_dataset = tokenized_datasets["train"]
+    eval_dataset = tokenized_datasets["validation"]
+    train_dataset.set_format(type='torch')
+    eval_dataset.set_format(type='torch')
+    data_collator = DataCollatorWithPadding(tokenizer, "max_length")
+    # first epoch we don't shuffle
+    train_dataloader = DataLoader(train_dataset, shuffle=False, batch_size=args.per_device_train_batch_size,
+                                  collate_fn=data_collator)
+    eval_dataloader = DataLoader(eval_dataset, batch_size=args.per_device_eval_batch_size, collate_fn=data_collator)
+    # train the model
+    model, optimizer, train_dataloader, eval_dataloader = accelerator.prepare(model, optimizer, train_dataloader,
+                                                                              eval_dataloader)
+    # Scheduler and math around the number of training steps.
+    num_update_steps_per_epoch = math.ceil(len(train_dataloader) / args.gradient_accumulation_steps)
+    if args.max_train_steps is None:
+        args.max_train_steps = args.num_train_epochs * num_update_steps_per_epoch
+    else:
+        args.num_train_epochs = math.ceil(args.max_train_steps / num_update_steps_per_epoch)
+    num_warmup_steps = args.num_warmup_steps if args.num_warmup_steps else math.ceil(args.max_train_steps *
+                                                                                     args.warmup_percentage)
+    scheduler = get_scheduler(
+        name=args.lr_scheduler_type,
+        optimizer=optimizer,
+        num_warmup_steps=num_warmup_steps,
+        num_training_steps=args.max_train_steps,
+    )
+    # Train!
+    total_batch_size = args.per_device_train_batch_size * accelerator.num_processes * args.gradient_accumulation_steps
+    logger.info("***** Running training *****")
+    logger.info(f"  Num examples = {len(train_dataset)}")
+    logger.info(f"  Num eval examples = {len(eval_dataset)}")
+    logger.info(f"  Num Epochs = {args.num_train_epochs}")
+    logger.info(f"  Instantaneous batch size per device = {args.per_device_train_batch_size}")
+    logger.info(f"  Total train batch size (w. parallel, distributed & accumulation) = {total_batch_size}")
+    logger.info(f"  Gradient Accumulation steps = {args.gradient_accumulation_steps}")
+    logger.info(f"  Total optimization steps = {args.max_train_steps}")
+    logger.info(f"  Warmup steps = {num_warmup_steps}")
+    logger.info(f"  Logging training progress every {args.log_freq} optimization steps")
+    # Only show the progress bar once on each machine.
+    progress_bar = tqdm(range(args.max_train_steps), disable=not accelerator.is_local_main_process)
+    completed_steps = 0
+    switched_train_dataloader = False
+    for epoch in range(args.num_train_epochs):
+        model.train()
+        if epoch > 0 and not switched_train_dataloader:
+            train_dataloader = DataLoader(train_dataset, batch_size=args.per_device_train_batch_size,
+                                          shuffle=True, collate_fn=data_collator)
+            train_dataloader = accelerator.prepare(train_dataloader)
+            switched_train_dataloader = True
+        for step, batch in enumerate(train_dataloader):
+            outputs = model(**batch)
+            loss = torch.mean(outputs.loss)
+            accelerator.backward(loss)
+            if ((step + 1) % args.gradient_accumulation_steps == 0) or (step + 1 == len(train_dataloader)):
+                optimizer.step()
+                scheduler.step()
+                optimizer.zero_grad()
+                progress_bar.update(1)
+                progress_bar.set_postfix(loss=round(loss.item(), 3))
+                completed_steps += 1
+            if completed_steps >= args.max_train_steps:
+                break
+            if step % (args.log_freq * args.gradient_accumulation_steps) == 0:
+                validation_loss = eval_qa_s2s_epoch(model, eval_dataloader, accelerator, args)
+                model.train()
+                logger.info(f"Train loss {loss.item()} , validation loss {validation_loss}")
+                if args.wandb and accelerator.is_local_main_process:
+                    import wandb
+                    wandb.log({"loss": loss.item(),
+                               "lr": scheduler.get_last_lr()[0],
+                               "validation_loss": validation_loss,
+                               "completed_steps": completed_steps})
+        logger.info("Saving model {}".format(args.model_save_name))
+        accelerator.wait_for_everyone()
+        unwrapped_model = accelerator.unwrap_model(model)
+        accelerator.save(unwrapped_model.state_dict(), "{}_{}.bin".format(args.model_save_name, epoch))
+        # Calculating the validation loss over epoch
+        validation_loss = eval_qa_s2s_epoch(model, eval_dataloader, accelerator, args)
+        logger.info("Epoch: {}".format(epoch))
+        logger.info("Validation loss: {}".format(validation_loss))
+def main():
+    parser = get_parser()
+    parser.add_argument(
+        "--wandb",
+        action="store_true",
+        help="If true, use W&B logging",
+    )
+    main_args, _ = parser.parse_known_args()
+    config = {"args": main_args}
+    if main_args.wandb:
+        import wandb
+        wandb.init(project="Bart_ELI5")
+    train(config=config)
+main()