{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9982174688057041,
  "eval_steps": 50,
  "global_step": 455,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.021938845468257234,
      "grad_norm": 12.424902582474958,
      "learning_rate": 2.173913043478261e-06,
      "loss": 0.7081,
      "step": 10
    },
    {
      "epoch": 0.04387769093651447,
      "grad_norm": 6.0713141624709825,
      "learning_rate": 4.347826086956522e-06,
      "loss": 0.4726,
      "step": 20
    },
    {
      "epoch": 0.0658165364047717,
      "grad_norm": 4.512954928350966,
      "learning_rate": 6.521739130434783e-06,
      "loss": 0.4235,
      "step": 30
    },
    {
      "epoch": 0.08775538187302893,
      "grad_norm": 4.603276515046331,
      "learning_rate": 8.695652173913044e-06,
      "loss": 0.4008,
      "step": 40
    },
    {
      "epoch": 0.10969422734128617,
      "grad_norm": 3.7910168149721177,
      "learning_rate": 9.997640179574575e-06,
      "loss": 0.397,
      "step": 50
    },
    {
      "epoch": 0.10969422734128617,
      "eval_loss": 0.41209444403648376,
      "eval_runtime": 29.5871,
      "eval_samples_per_second": 40.254,
      "eval_steps_per_second": 5.036,
      "step": 50
    },
    {
      "epoch": 0.1316330728095434,
      "grad_norm": 3.728999125026244,
      "learning_rate": 9.971117774604978e-06,
      "loss": 0.3871,
      "step": 60
    },
    {
      "epoch": 0.15357191827780062,
      "grad_norm": 3.6715336556817135,
      "learning_rate": 9.915280116903003e-06,
      "loss": 0.3919,
      "step": 70
    },
    {
      "epoch": 0.17551076374605787,
      "grad_norm": 3.4605871577349556,
      "learning_rate": 9.83045648755225e-06,
      "loss": 0.3879,
      "step": 80
    },
    {
      "epoch": 0.1974496092143151,
      "grad_norm": 3.3517597500433443,
      "learning_rate": 9.717147101241817e-06,
      "loss": 0.3855,
      "step": 90
    },
    {
      "epoch": 0.21938845468257234,
      "grad_norm": 3.1582377924524576,
      "learning_rate": 9.576020156442802e-06,
      "loss": 0.3805,
      "step": 100
    },
    {
      "epoch": 0.21938845468257234,
      "eval_loss": 0.37224116921424866,
      "eval_runtime": 29.5341,
      "eval_samples_per_second": 40.326,
      "eval_steps_per_second": 5.045,
      "step": 100
    },
    {
      "epoch": 0.24132730015082957,
      "grad_norm": 2.837036752154941,
      "learning_rate": 9.407907894965138e-06,
      "loss": 0.374,
      "step": 110
    },
    {
      "epoch": 0.2632661456190868,
      "grad_norm": 2.724521510718504,
      "learning_rate": 9.213801694132014e-06,
      "loss": 0.3719,
      "step": 120
    },
    {
      "epoch": 0.28520499108734404,
      "grad_norm": 2.725360946601145,
      "learning_rate": 8.994846220513872e-06,
      "loss": 0.3592,
      "step": 130
    },
    {
      "epoch": 0.30714383655560124,
      "grad_norm": 2.6787727140455337,
      "learning_rate": 8.752332679698128e-06,
      "loss": 0.354,
      "step": 140
    },
    {
      "epoch": 0.3290826820238585,
      "grad_norm": 2.63208682146886,
      "learning_rate": 8.48769120190144e-06,
      "loss": 0.3544,
      "step": 150
    },
    {
      "epoch": 0.3290826820238585,
      "eval_loss": 0.3495293855667114,
      "eval_runtime": 29.5877,
      "eval_samples_per_second": 40.253,
      "eval_steps_per_second": 5.036,
      "step": 150
    },
    {
      "epoch": 0.35102152749211574,
      "grad_norm": 2.7602877709225853,
      "learning_rate": 8.202482408327496e-06,
      "loss": 0.3444,
      "step": 160
    },
    {
      "epoch": 0.372960372960373,
      "grad_norm": 2.575707765912064,
      "learning_rate": 7.898388208004449e-06,
      "loss": 0.3495,
      "step": 170
    },
    {
      "epoch": 0.3948992184286302,
      "grad_norm": 2.5241416019820315,
      "learning_rate": 7.577201879374114e-06,
      "loss": 0.3541,
      "step": 180
    },
    {
      "epoch": 0.41683806389688743,
      "grad_norm": 2.8793232091254084,
      "learning_rate": 7.240817495122936e-06,
      "loss": 0.3475,
      "step": 190
    },
    {
      "epoch": 0.4387769093651447,
      "grad_norm": 2.4866688274538125,
      "learning_rate": 6.891218752617715e-06,
      "loss": 0.3297,
      "step": 200
    },
    {
      "epoch": 0.4387769093651447,
      "eval_loss": 0.32541003823280334,
      "eval_runtime": 29.5409,
      "eval_samples_per_second": 40.317,
      "eval_steps_per_second": 5.044,
      "step": 200
    },
    {
      "epoch": 0.4607157548334019,
      "grad_norm": 2.6691402545735836,
      "learning_rate": 6.5304672758143014e-06,
      "loss": 0.3257,
      "step": 210
    },
    {
      "epoch": 0.48265460030165913,
      "grad_norm": 2.349476417183144,
      "learning_rate": 6.160690457624223e-06,
      "loss": 0.3238,
      "step": 220
    },
    {
      "epoch": 0.5045934457699164,
      "grad_norm": 2.5946728592046124,
      "learning_rate": 5.784068914434239e-06,
      "loss": 0.3351,
      "step": 230
    },
    {
      "epoch": 0.5265322912381736,
      "grad_norm": 2.477858154523217,
      "learning_rate": 5.40282362676094e-06,
      "loss": 0.3335,
      "step": 240
    },
    {
      "epoch": 0.5484711367064308,
      "grad_norm": 2.575851491571078,
      "learning_rate": 5.019202841873434e-06,
      "loss": 0.3254,
      "step": 250
    },
    {
      "epoch": 0.5484711367064308,
      "eval_loss": 0.30290254950523376,
      "eval_runtime": 29.5608,
      "eval_samples_per_second": 40.29,
      "eval_steps_per_second": 5.04,
      "step": 250
    },
    {
      "epoch": 0.5704099821746881,
      "grad_norm": 2.3674747360086337,
      "learning_rate": 4.635468815620862e-06,
      "loss": 0.3095,
      "step": 260
    },
    {
      "epoch": 0.5923488276429453,
      "grad_norm": 2.5587459409819946,
      "learning_rate": 4.2538844716497075e-06,
      "loss": 0.3172,
      "step": 270
    },
    {
      "epoch": 0.6142876731112025,
      "grad_norm": 2.244319397718011,
      "learning_rate": 3.876700056683026e-06,
      "loss": 0.3107,
      "step": 280
    },
    {
      "epoch": 0.6362265185794598,
      "grad_norm": 2.0256188861398825,
      "learning_rate": 3.5061398705569544e-06,
      "loss": 0.3037,
      "step": 290
    },
    {
      "epoch": 0.658165364047717,
      "grad_norm": 2.4556781164203523,
      "learning_rate": 3.144389149268983e-06,
      "loss": 0.3241,
      "step": 300
    },
    {
      "epoch": 0.658165364047717,
      "eval_loss": 0.2885204553604126,
      "eval_runtime": 29.5254,
      "eval_samples_per_second": 40.338,
      "eval_steps_per_second": 5.046,
      "step": 300
    },
    {
      "epoch": 0.6801042095159742,
      "grad_norm": 2.449660334538155,
      "learning_rate": 2.7935811783901878e-06,
      "loss": 0.3017,
      "step": 310
    },
    {
      "epoch": 0.7020430549842315,
      "grad_norm": 2.2258709329717057,
      "learning_rate": 2.455784712835084e-06,
      "loss": 0.2913,
      "step": 320
    },
    {
      "epoch": 0.7239819004524887,
      "grad_norm": 2.248993483635239,
      "learning_rate": 2.1329917771761806e-06,
      "loss": 0.2879,
      "step": 330
    },
    {
      "epoch": 0.745920745920746,
      "grad_norm": 2.4165452193734747,
      "learning_rate": 1.8271059184461781e-06,
      "loss": 0.2834,
      "step": 340
    },
    {
      "epoch": 0.7678595913890032,
      "grad_norm": 2.3889927116481604,
      "learning_rate": 1.5399309807023942e-06,
      "loss": 0.2974,
      "step": 350
    },
    {
      "epoch": 0.7678595913890032,
      "eval_loss": 0.2725418210029602,
      "eval_runtime": 29.5299,
      "eval_samples_per_second": 40.332,
      "eval_steps_per_second": 5.046,
      "step": 350
    },
    {
      "epoch": 0.7897984368572604,
      "grad_norm": 2.2089674082836384,
      "learning_rate": 1.2731604675510729e-06,
      "loss": 0.2943,
      "step": 360
    },
    {
      "epoch": 0.8117372823255177,
      "grad_norm": 2.4017649981453264,
      "learning_rate": 1.0283675553620281e-06,
      "loss": 0.2862,
      "step": 370
    },
    {
      "epoch": 0.8336761277937749,
      "grad_norm": 2.4373610476244862,
      "learning_rate": 8.069958160668256e-07,
      "loss": 0.286,
      "step": 380
    },
    {
      "epoch": 0.8556149732620321,
      "grad_norm": 2.18553733016173,
      "learning_rate": 6.10350704249219e-07,
      "loss": 0.2816,
      "step": 390
    },
    {
      "epoch": 0.8775538187302894,
      "grad_norm": 2.3150792762293495,
      "learning_rate": 4.3959185872947007e-07,
      "loss": 0.2823,
      "step": 400
    },
    {
      "epoch": 0.8775538187302894,
      "eval_loss": 0.2639661431312561,
      "eval_runtime": 29.5407,
      "eval_samples_per_second": 40.317,
      "eval_steps_per_second": 5.044,
      "step": 400
    },
    {
      "epoch": 0.8994926641985466,
      "grad_norm": 2.4147809022722053,
      "learning_rate": 2.9572626404096915e-07,
      "loss": 0.2798,
      "step": 410
    },
    {
      "epoch": 0.9214315096668038,
      "grad_norm": 2.4693641028993185,
      "learning_rate": 1.7960231212674095e-07,
      "loss": 0.2736,
      "step": 420
    },
    {
      "epoch": 0.9433703551350611,
      "grad_norm": 2.5200198676740615,
      "learning_rate": 9.190479927466023e-08,
      "loss": 0.2777,
      "step": 430
    },
    {
      "epoch": 0.9653092006033183,
      "grad_norm": 2.0981819100598966,
      "learning_rate": 3.315088779506259e-08,
      "loss": 0.2742,
      "step": 440
    },
    {
      "epoch": 0.9872480460715755,
      "grad_norm": 2.280993150561446,
      "learning_rate": 3.6870562551699627e-09,
      "loss": 0.2761,
      "step": 450
    },
    {
      "epoch": 0.9872480460715755,
      "eval_loss": 0.26167768239974976,
      "eval_runtime": 29.5714,
      "eval_samples_per_second": 40.275,
      "eval_steps_per_second": 5.039,
      "step": 450
    },
    {
      "epoch": 0.9982174688057041,
      "step": 455,
      "total_flos": 230099756515328.0,
      "train_loss": 0.34066918446467476,
      "train_runtime": 6191.927,
      "train_samples_per_second": 9.423,
      "train_steps_per_second": 0.073
    }
  ],
  "logging_steps": 10,
  "max_steps": 455,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 230099756515328.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}