{
  "model_name": "meta-llama/Llama-3.2-1B",
  "output_dir": "models/scu_fixed_sigma_20250903_222442",
  "mode": "ce_kl_auto",
  "max_steps": 270,
  "max_epochs": 10,
  "num_epochs": null,
  "batch_size": 1,
  "gradient_accumulation_steps": 4,
  "learning_rate": 0.0005,
  "fp16": true,
  "data_path": "training_data/train_512k.txt",
  "sample_size": 2000000,
  "lora_r": 16,
  "lora_alpha": 32,
  "prior_sigma": 0.1,
  "target_S": 0.01,
  "lam_init": 1.0,
  "l2_weight": 0.1
}