DeepXR
/

Helion-OSC

+"""
+Helion-OSC Training Script
+Fine-tuning and training utilities for Helion-OSC model
+"""
+import os
+import torch
+import json
+import logging
+from typing import Optional, Dict, Any, List
+from dataclasses import dataclass, field
+from transformers import (
+    AutoTokenizer,
+    AutoModelForCausalLM,
+    TrainingArguments,
+    Trainer,
+    DataCollatorForLanguageModeling,
+    EarlyStoppingCallback
+)
+from datasets import load_dataset, Dataset, DatasetDict
+from peft import (
+    LoraConfig,
+    get_peft_model,
+    prepare_model_for_kbit_training,
+    TaskType
+)
+import wandb
+from torch.utils.data import DataLoader
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+@dataclass
+class ModelArguments:
+    """Arguments for model configuration"""
+    model_name_or_path: str = field(
+        default="DeepXR/Helion-OSC",
+        metadata={"help": "Path to pretrained model or model identifier"}
+    )
+    use_lora: bool = field(
+        default=True,
+        metadata={"help": "Whether to use LoRA for efficient fine-tuning"}
+    )
+    lora_r: int = field(
+        default=16,
+        metadata={"help": "LoRA attention dimension"}
+    )
+    lora_alpha: int = field(
+        default=32,
+        metadata={"help": "LoRA alpha parameter"}
+    )
+    lora_dropout: float = field(
+        default=0.05,
+        metadata={"help": "LoRA dropout probability"}
+    )
+    load_in_8bit: bool = field(
+        default=False,
+        metadata={"help": "Load model in 8-bit precision"}
+    )
+    load_in_4bit: bool = field(
+        default=False,
+        metadata={"help": "Load model in 4-bit precision"}
+    )
+@dataclass
+class DataArguments:
+    """Arguments for data processing"""
+    dataset_name: Optional[str] = field(
+        default=None,
+        metadata={"help": "Name of the dataset to use"}
+    )
+    dataset_path: Optional[str] = field(
+        default=None,
+        metadata={"help": "Path to local dataset"}
+    )
+    train_file: Optional[str] = field(
+        default=None,
+        metadata={"help": "Path to training data file"}
+    )
+    validation_file: Optional[str] = field(
+        default=None,
+        metadata={"help": "Path to validation data file"}
+    )
+    max_seq_length: int = field(
+        default=2048,
+        metadata={"help": "Maximum sequence length"}
+    )
+    preprocessing_num_workers: int = field(
+        default=4,
+        metadata={"help": "Number of workers for preprocessing"}
+    )
+class HelionOSCTrainer:
+    """Trainer class for Helion-OSC model"""
+    def __init__(
+        self,
+        model_args: ModelArguments,
+        data_args: DataArguments,
+        training_args: TrainingArguments
+    ):
+        self.model_args = model_args
+        self.data_args = data_args
+        self.training_args = training_args
+        # Initialize tokenizer
+        self.tokenizer = self._load_tokenizer()
+        # Initialize model
+        self.model = self._load_model()
+        # Load and preprocess data
+        self.datasets = self._load_datasets()
+        logger.info("Trainer initialized successfully")
+    def _load_tokenizer(self):
+        """Load and configure tokenizer"""
+        logger.info("Loading tokenizer...")
+        tokenizer = AutoTokenizer.from_pretrained(
+            self.model_args.model_name_or_path,
+            trust_remote_code=True,
+            padding_side="right"
+        )
+        if tokenizer.pad_token is None:
+            tokenizer.pad_token = tokenizer.eos_token
+        return tokenizer
+    def _load_model(self):
+        """Load and configure model"""
+        logger.info("Loading model...")
+        model_kwargs = {
+            "trust_remote_code": True,
+            "low_cpu_mem_usage": True
+        }
+        # Configure quantization
+        if self.model_args.load_in_8bit:
+            model_kwargs["load_in_8bit"] = True
+        elif self.model_args.load_in_4bit:
+            model_kwargs["load_in_4bit"] = True
+            model_kwargs["bnb_4bit_compute_dtype"] = torch.bfloat16
+            model_kwargs["bnb_4bit_use_double_quant"] = True
+            model_kwargs["bnb_4bit_quant_type"] = "nf4"
+        else:
+            model_kwargs["torch_dtype"] = torch.bfloat16
+        model = AutoModelForCausalLM.from_pretrained(
+            self.model_args.model_name_or_path,
+            **model_kwargs
+        )
+        # Apply LoRA if requested
+        if self.model_args.use_lora:
+            logger.info("Applying LoRA configuration...")
+            if self.model_args.load_in_8bit or self.model_args.load_in_4bit:
+                model = prepare_model_for_kbit_training(model)
+            lora_config = LoraConfig(
+                r=self.model_args.lora_r,
+                lora_alpha=self.model_args.lora_alpha,
+                target_modules=[
+                    "q_proj",
+                    "k_proj",
+                    "v_proj",
+                    "o_proj",
+                    "gate_proj",
+                    "up_proj",
+                    "down_proj"
+                ],
+                lora_dropout=self.model_args.lora_dropout,
+                bias="none",
+                task_type=TaskType.CAUSAL_LM
+            )
+            model = get_peft_model(model, lora_config)
+            model.print_trainable_parameters()
+        return model
+    def _load_datasets(self) -> DatasetDict:
+        """Load and preprocess datasets"""
+        logger.info("Loading datasets...")
+        if self.data_args.dataset_name:
+            # Load from HuggingFace Hub
+            datasets = load_dataset(self.data_args.dataset_name)
+        elif self.data_args.train_file:
+            # Load from local files
+            data_files = {"train": self.data_args.train_file}
+            if self.data_args.validation_file:
+                data_files["validation"] = self.data_args.validation_file
+            datasets = load_dataset("json", data_files=data_files)
+        else:
+            raise ValueError("Must provide either dataset_name or train_file")
+        # Preprocess datasets
+        logger.info("Preprocessing datasets...")
+        datasets = datasets.map(
+            self._preprocess_function,
+            batched=True,
+            num_proc=self.data_args.preprocessing_num_workers,
+            remove_columns=datasets["train"].column_names,
+            desc="Preprocessing datasets"
+        )
+        return datasets
+    def _preprocess_function(self, examples):
+        """Preprocess examples for training"""
+        # Tokenize inputs
+        if "prompt" in examples and "completion" in examples:
+            # Instruction-following format
+            texts = [
+                f"{prompt}\n{completion}"
+                for prompt, completion in zip(examples["prompt"], examples["completion"])
+            ]
+        elif "text" in examples:
+            # Raw text format
+            texts = examples["text"]
+        else:
+            raise ValueError("Dataset must contain 'text' or 'prompt'/'completion' columns")
+        # Tokenize
+        tokenized = self.tokenizer(
+            texts,
+            truncation=True,
+            max_length=self.data_args.max_seq_length,
+            padding="max_length",
+            return_tensors=None
+        )
+        # Create labels (same as input_ids for causal LM)
+        tokenized["labels"] = tokenized["input_ids"].copy()
+        return tokenized
+    def train(self):
+        """Train the model"""
+        logger.info("Starting training...")
+        # Data collator
+        data_collator = DataCollatorForLanguageModeling(
+            tokenizer=self.tokenizer,
+            mlm=False
+        )
+        # Initialize trainer
+        trainer = Trainer(
+            model=self.model,
+            args=self.training_args,
+            train_dataset=self.datasets["train"],
+            eval_dataset=self.datasets.get("validation"),
+            tokenizer=self.tokenizer,
+            data_collator=data_collator,
+            callbacks=[EarlyStoppingCallback(early_stopping_patience=3)]
+        )
+        # Train
+        train_result = trainer.train()
+        # Save model
+        trainer.save_model()
+        # Save metrics
+        metrics = train_result.metrics
+        trainer.log_metrics("train", metrics)
+        trainer.save_metrics("train", metrics)
+        trainer.save_state()
+        logger.info("Training completed successfully!")
+        return trainer, metrics
+    def evaluate(self, trainer: Optional[Trainer] = None):
+        """Evaluate the model"""
+        if trainer is None:
+            data_collator = DataCollatorForLanguageModeling(
+                tokenizer=self.tokenizer,
+                mlm=False
+            )
+            trainer = Trainer(
+                model=self.model,
+                args=self.training_args,
+                eval_dataset=self.datasets.get("validation"),
+                tokenizer=self.tokenizer,
+                data_collator=data_collator
+            )
+        logger.info("Evaluating model...")
+        metrics = trainer.evaluate()
+        trainer.log_metrics("eval", metrics)
+        trainer.save_metrics("eval", metrics)
+        return metrics
+def create_code_dataset(examples: List[Dict[str, str]]) -> Dataset:
+    """
+    Create a dataset from code examples
+    Args:
+        examples: List of dictionaries with 'prompt' and 'completion' keys
+    Returns:
+        Dataset object
+    """
+    return Dataset.from_dict({
+        "prompt": [ex["prompt"] for ex in examples],
+        "completion": [ex["completion"] for ex in examples]
+    })
+def create_math_dataset(examples: List[Dict[str, str]]) -> Dataset:
+    """
+    Create a dataset from math examples
+    Args:
+        examples: List of dictionaries with 'problem' and 'solution' keys
+    Returns:
+        Dataset object
+    """
+    return Dataset.from_dict({
+        "prompt": [f"Problem: {ex['problem']}\nSolution:" for ex in examples],
+        "completion": [ex["solution"] for ex in examples]
+    })
+def main():
+    """Main training script"""
+    import argparse
+    parser = argparse.ArgumentParser(description="Train Helion-OSC model")
+    # Model arguments
+    parser.add_argument("--model_name_or_path", type=str, default="DeepXR/Helion-OSC")
+    parser.add_argument("--use_lora", action="store_true", default=True)
+    parser.add_argument("--lora_r", type=int, default=16)
+    parser.add_argument("--lora_alpha", type=int, default=32)
+    parser.add_argument("--lora_dropout", type=float, default=0.05)
+    parser.add_argument("--load_in_8bit", action="store_true")
+    parser.add_argument("--load_in_4bit", action="store_true")
+    # Data arguments
+    parser.add_argument("--dataset_name", type=str, default=None)
+    parser.add_argument("--dataset_path", type=str, default=None)
+    parser.add_argument("--train_file", type=str, required=True)
+    parser.add_argument("--validation_file", type=str, default=None)
+    parser.add_argument("--max_seq_length", type=int, default=2048)
+    parser.add_argument("--preprocessing_num_workers", type=int, default=4)
+    # Training arguments
+    parser.add_argument("--output_dir", type=str, required=True)
+    parser.add_argument("--num_train_epochs", type=int, default=3)
+    parser.add_argument("--per_device_train_batch_size", type=int, default=4)
+    parser.add_argument("--per_device_eval_batch_size", type=int, default=4)
+    parser.add_argument("--gradient_accumulation_steps", type=int, default=4)
+    parser.add_argument("--learning_rate", type=float, default=2e-5)
+    parser.add_argument("--warmup_steps", type=int, default=100)
+    parser.add_argument("--logging_steps", type=int, default=10)
+    parser.add_argument("--save_steps", type=int, default=500)
+    parser.add_argument("--eval_steps", type=int, default=500)
+    parser.add_argument("--save_total_limit", type=int, default=3)
+    parser.add_argument("--fp16", action="store_true")
+    parser.add_argument("--bf16", action="store_true")
+    parser.add_argument("--gradient_checkpointing", action="store_true")
+    parser.add_argument("--use_wandb", action="store_true")
+    args = parser.parse_args()
+    # Create argument objects
+    model_args = ModelArguments(
+        model_name_or_path=args.model_name_or_path,
+        use_lora=args.use_lora,
+        lora_r=args.lora_r,
+        lora_alpha=args.lora_alpha,
+        lora_dropout=args.lora_dropout,
+        load_in_8bit=args.load_in_8bit,
+        load_in_4bit=args.load_in_4bit
+    )
+    data_args = DataArguments(
+        dataset_name=args.dataset_name,
+        dataset_path=args.dataset_path,
+        train_file=args.train_file,
+        validation_file=args.validation_file,
+        max_seq_length=args.max_seq_length,
+        preprocessing_num_workers=args.preprocessing_num_workers
+    )
+    training_args = TrainingArguments(
+        output_dir=args.output_dir,
+        num_train_epochs=args.num_train_epochs,
+        per_device_train_batch_size=args.per_device_train_batch_size,
+        per_device_eval_batch_size=args.per_device_eval_batch_size,
+        gradient_accumulation_steps=args.gradient_accumulation_steps,
+        learning_rate=args.learning_rate,
+        warmup_steps=args.warmup_steps,
+        logging_steps=args.logging_steps,
+        save_steps=args.save_steps,
+        eval_steps=args.eval_steps,
+        save_total_limit=args.save_total_limit,
+        fp16=args.fp16,
+        bf16=args.bf16,
+        gradient_checkpointing=args.gradient_checkpointing,
+        report_to="wandb" if args.use_wandb else "none",
+        load_best_model_at_end=True,
+        metric_for_best_model="eval_loss",
+        greater_is_better=False,
+        evaluation_strategy="steps",
+        save_strategy="steps",
+        logging_dir=f"{args.output_dir}/logs",
+        remove_unused_columns=False
+    )
+    # Initialize trainer
+    helion_trainer = HelionOSCTrainer(
+        model_args=model_args,
+        data_args=data_args,
+        training_args=training_args
+    )
+    # Train
+    trainer, metrics = helion_trainer.train()
+    # Evaluate
+    if args.validation_file:
+        eval_metrics = helion_trainer.evaluate(trainer)
+        logger.info(f"Evaluation metrics: {eval_metrics}")
+    logger.info("Training pipeline completed!")
+if __name__ == "__main__":
+    main()