{
  "run_name": "dpo_fft_LFM2.5-1.2B-Instruct_xinlai__Math-Step-DPO-10K_20260223_022854",
  "model": "LiquidAI/LFM2.5-1.2B-Instruct",
  "dataset": "xinlai/Math-Step-DPO-10K",
  "timestamp": "20260223_022854",
  "args": {
    "dataset": "xinlai/Math-Step-DPO-10K",
    "dataset_split": "train",
    "instruction_col": "initial_reason_steps",
    "chosen_col": "chosen",
    "rejected_col": "rejected",
    "max_samples": null,
    "seed": 42,
    "model_name": "LiquidAI/LFM2.5-1.2B-Instruct",
    "ref_4bit": false,
    "num_epochs": 1,
    "batch_size": 4,
    "grad_accum": 4,
    "learning_rate": 2e-06,
    "beta": 0.2,
    "max_length": 1024,
    "max_prompt_length": 768,
    "warmup_ratio": 0.1,
    "optim": "paged_adamw_8bit",
    "logging_steps": 10,
    "save_steps": 100,
    "eval_ratio": 0.05,
    "output_dir": "models",
    "run_name": null
  },
  "train_metrics": {
    "train_runtime": 2398.316,
    "train_samples_per_second": 4.276,
    "train_steps_per_second": 0.267,
    "total_flos": 0.0,
    "train_loss": 0.5289894797128746,
    "epoch": 1.0
  }
}