File size: 5,042 Bytes

5d950b8

"""
Fine-tuning script for Kat-Gen1 model
"""

import torch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    Trainer,
    TrainingArguments,
    DataCollatorForLanguageModeling
)
from datasets import load_dataset
from typing import Optional


class KatGen1Trainer:
    def __init__(
        self,
        model_name: str = "Katisim/Kat-Gen1",
        output_dir: str = "./kat-gen1-finetuned"
    ):
        """
        Initialize the training setup.
        
        Args:
            model_name: Base model to fine-tune
            output_dir: Directory to save fine-tuned model
        """
        self.model_name = model_name
        self.output_dir = output_dir
        self.model = None
        self.tokenizer = None
        
    def load_model(self):
        """Load model and tokenizer."""
        self.model = AutoModelForCausalLM.from_pretrained(self.model_name)
        self.tokenizer = AutoTokenizer.from_pretrained(self.model_name)
        
        if self.tokenizer.pad_token is None:
            self.tokenizer.pad_token = self.tokenizer.eos_token
            self.model.config.pad_token_id = self.tokenizer.pad_token_id
    
    def prepare_dataset(
        self,
        dataset_name: str,
        text_column: str = "text",
        max_length: int = 512
    ):
        """
        Prepare dataset for training.
        
        Args:
            dataset_name: Name of dataset from HuggingFace Hub
            text_column: Column name containing text data
            max_length: Maximum sequence length
            
        Returns:
            Tokenized dataset
        """
        dataset = load_dataset(dataset_name)
        
        def tokenize_function(examples):
            return self.tokenizer(
                examples[text_column],
                truncation=True,
                max_length=max_length,
                padding="max_length"
            )
        
        tokenized_dataset = dataset.map(
            tokenize_function,
            batched=True,
            remove_columns=dataset["train"].column_names
        )
        
        return tokenized_dataset
    
    def train(
        self,
        train_dataset,
        eval_dataset: Optional = None,
        num_train_epochs: int = 3,
        per_device_train_batch_size: int = 4,
        per_device_eval_batch_size: int = 4,
        learning_rate: float = 5e-5,
        warmup_steps: int = 500,
        weight_decay: float = 0.01,
        logging_steps: int = 100,
        save_steps: int = 1000,
        eval_steps: int = 500
    ):
        """
        Fine-tune the model.
        
        Args:
            train_dataset: Training dataset
            eval_dataset: Evaluation dataset (optional)
            num_train_epochs: Number of training epochs
            per_device_train_batch_size: Training batch size per device
            per_device_eval_batch_size: Evaluation batch size per device
            learning_rate: Learning rate
            warmup_steps: Number of warmup steps
            weight_decay: Weight decay coefficient
            logging_steps: Log every N steps
            save_steps: Save checkpoint every N steps
            eval_steps: Evaluate every N steps
        """
        training_args = TrainingArguments(
            output_dir=self.output_dir,
            num_train_epochs=num_train_epochs,
            per_device_train_batch_size=per_device_train_batch_size,
            per_device_eval_batch_size=per_device_eval_batch_size,
            learning_rate=learning_rate,
            warmup_steps=warmup_steps,
            weight_decay=weight_decay,
            logging_dir=f"{self.output_dir}/logs",
            logging_steps=logging_steps,
            save_steps=save_steps,
            eval_steps=eval_steps if eval_dataset else None,
            evaluation_strategy="steps" if eval_dataset else "no",
            save_total_limit=3,
            fp16=torch.cuda.is_available(),
            gradient_accumulation_steps=4,
            load_best_model_at_end=True if eval_dataset else False
        )
        
        data_collator = DataCollatorForLanguageModeling(
            tokenizer=self.tokenizer,
            mlm=False
        )
        
        trainer = Trainer(
            model=self.model,
            args=training_args,
            train_dataset=train_dataset,
            eval_dataset=eval_dataset,
            data_collator=data_collator
        )
        
        trainer.train()
        trainer.save_model(self.output_dir)
        self.tokenizer.save_pretrained(self.output_dir)


def main():
    """Example training workflow."""
    trainer = KatGen1Trainer(output_dir="./kat-gen1-custom")
    trainer.load_model()
    
    # Load and prepare your dataset
    # dataset = trainer.prepare_dataset("your_dataset_name")
    
    # trainer.train(
    #     train_dataset=dataset["train"],
    #     eval_dataset=dataset["validation"]
    # )
    
    print("Training setup complete. Uncomment dataset loading to begin training.")


if __name__ == "__main__":
    main()