{
  "best_global_step": 600,
  "best_metric": 0.07363789528608322,
  "best_model_checkpoint": "results/checkpoint-600",
  "epoch": 2.0,
  "eval_steps": 100,
  "global_step": 600,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 9.697060585021973,
      "learning_rate": 3.6e-07,
      "loss": 7.2438,
      "step": 10
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 8.801666259765625,
      "learning_rate": 7.600000000000001e-07,
      "loss": 7.156,
      "step": 20
    },
    {
      "epoch": 0.1,
      "grad_norm": 7.470696926116943,
      "learning_rate": 1.16e-06,
      "loss": 6.9673,
      "step": 30
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 6.263430595397949,
      "learning_rate": 1.56e-06,
      "loss": 6.7094,
      "step": 40
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 5.286303520202637,
      "learning_rate": 1.96e-06,
      "loss": 6.3714,
      "step": 50
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.652409076690674,
      "learning_rate": 2.36e-06,
      "loss": 5.9859,
      "step": 60
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 4.126605987548828,
      "learning_rate": 2.7600000000000003e-06,
      "loss": 5.5458,
      "step": 70
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 3.8642539978027344,
      "learning_rate": 3.16e-06,
      "loss": 5.0487,
      "step": 80
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.7739064693450928,
      "learning_rate": 3.5600000000000002e-06,
      "loss": 4.4878,
      "step": 90
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 3.5410406589508057,
      "learning_rate": 3.96e-06,
      "loss": 3.8707,
      "step": 100
    },
    {
      "epoch": 0.3333333333333333,
      "eval_loss": 0.8786314725875854,
      "eval_runtime": 130.6011,
      "eval_samples_per_second": 18.377,
      "eval_steps_per_second": 1.531,
      "step": 100
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 3.659569501876831,
      "learning_rate": 4.360000000000001e-06,
      "loss": 3.2011,
      "step": 110
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.39253306388855,
      "learning_rate": 4.76e-06,
      "loss": 2.4442,
      "step": 120
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 2.4652178287506104,
      "learning_rate": 5.16e-06,
      "loss": 1.7345,
      "step": 130
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 1.445365309715271,
      "learning_rate": 5.56e-06,
      "loss": 1.2175,
      "step": 140
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.7545905113220215,
      "learning_rate": 5.96e-06,
      "loss": 0.9318,
      "step": 150
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 0.6413900256156921,
      "learning_rate": 5.994080185284815e-06,
      "loss": 0.7965,
      "step": 160
    },
    {
      "epoch": 0.5666666666666667,
      "grad_norm": 0.5500534176826477,
      "learning_rate": 5.973646620754625e-06,
      "loss": 0.7122,
      "step": 170
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.5907195210456848,
      "learning_rate": 5.938725748798032e-06,
      "loss": 0.6514,
      "step": 180
    },
    {
      "epoch": 0.6333333333333333,
      "grad_norm": 0.5499018430709839,
      "learning_rate": 5.889487700392975e-06,
      "loss": 0.6073,
      "step": 190
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.601067304611206,
      "learning_rate": 5.82617235836189e-06,
      "loss": 0.5703,
      "step": 200
    },
    {
      "epoch": 0.6666666666666666,
      "eval_loss": 0.1373768150806427,
      "eval_runtime": 130.1499,
      "eval_samples_per_second": 18.44,
      "eval_steps_per_second": 1.537,
      "step": 200
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6595374345779419,
      "learning_rate": 5.749088188686719e-06,
      "loss": 0.5374,
      "step": 210
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 0.7147516012191772,
      "learning_rate": 5.658610737693644e-06,
      "loss": 0.5085,
      "step": 220
    },
    {
      "epoch": 0.7666666666666667,
      "grad_norm": 0.7410432696342468,
      "learning_rate": 5.555180802429143e-06,
      "loss": 0.4852,
      "step": 230
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6519659757614136,
      "learning_rate": 5.439302283141083e-06,
      "loss": 0.4643,
      "step": 240
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 0.44764214754104614,
      "learning_rate": 5.311539728327368e-06,
      "loss": 0.4464,
      "step": 250
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 0.48451387882232666,
      "learning_rate": 5.172515584312403e-06,
      "loss": 0.4267,
      "step": 260
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6145723462104797,
      "learning_rate": 5.02290716275117e-06,
      "loss": 0.4102,
      "step": 270
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 0.6194537281990051,
      "learning_rate": 4.863443340834931e-06,
      "loss": 0.3958,
      "step": 280
    },
    {
      "epoch": 0.9666666666666667,
      "grad_norm": 0.5969278216362,
      "learning_rate": 4.694901010274814e-06,
      "loss": 0.3839,
      "step": 290
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5556809306144714,
      "learning_rate": 4.518101292363491e-06,
      "loss": 0.3699,
      "step": 300
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.0905652716755867,
      "eval_runtime": 130.206,
      "eval_samples_per_second": 18.432,
      "eval_steps_per_second": 1.536,
      "step": 300
    },
    {
      "epoch": 1.0333333333333334,
      "grad_norm": 0.588930070400238,
      "learning_rate": 4.333905537554782e-06,
      "loss": 0.3568,
      "step": 310
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 0.6096176505088806,
      "learning_rate": 4.143211129050823e-06,
      "loss": 0.3458,
      "step": 320
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.5085943937301636,
      "learning_rate": 3.946947110841308e-06,
      "loss": 0.335,
      "step": 330
    },
    {
      "epoch": 1.1333333333333333,
      "grad_norm": 0.37106063961982727,
      "learning_rate": 3.746069661494565e-06,
      "loss": 0.3275,
      "step": 340
    },
    {
      "epoch": 1.1666666666666667,
      "grad_norm": 0.30709022283554077,
      "learning_rate": 3.5415574357516803e-06,
      "loss": 0.3227,
      "step": 350
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.3143058717250824,
      "learning_rate": 3.334406796618976e-06,
      "loss": 0.3189,
      "step": 360
    },
    {
      "epoch": 1.2333333333333334,
      "grad_norm": 0.37548017501831055,
      "learning_rate": 3.125626961187599e-06,
      "loss": 0.3138,
      "step": 370
    },
    {
      "epoch": 1.2666666666666666,
      "grad_norm": 0.3183898627758026,
      "learning_rate": 2.916235083829294e-06,
      "loss": 0.3136,
      "step": 380
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.38318926095962524,
      "learning_rate": 2.707251300722552e-06,
      "loss": 0.3103,
      "step": 390
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 0.3728318512439728,
      "learning_rate": 2.4996937598516936e-06,
      "loss": 0.3079,
      "step": 400
    },
    {
      "epoch": 1.3333333333333333,
      "eval_loss": 0.07631697505712509,
      "eval_runtime": 130.1373,
      "eval_samples_per_second": 18.442,
      "eval_steps_per_second": 1.537,
      "step": 400
    },
    {
      "epoch": 1.3666666666666667,
      "grad_norm": 0.33388274908065796,
      "learning_rate": 2.29457366069223e-06,
      "loss": 0.3057,
      "step": 410
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.3089640438556671,
      "learning_rate": 2.0928903277486667e-06,
      "loss": 0.3051,
      "step": 420
    },
    {
      "epoch": 1.4333333333333333,
      "grad_norm": 0.3750895857810974,
      "learning_rate": 1.8956263419459662e-06,
      "loss": 0.3031,
      "step": 430
    },
    {
      "epoch": 1.4666666666666668,
      "grad_norm": 0.2710581421852112,
      "learning_rate": 1.7037427535940527e-06,
      "loss": 0.3026,
      "step": 440
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.272029310464859,
      "learning_rate": 1.5181744002473076e-06,
      "loss": 0.3004,
      "step": 450
    },
    {
      "epoch": 1.5333333333333332,
      "grad_norm": 0.35962343215942383,
      "learning_rate": 1.339825352269968e-06,
      "loss": 0.2999,
      "step": 460
    },
    {
      "epoch": 1.5666666666666667,
      "grad_norm": 0.3471361994743347,
      "learning_rate": 1.1695645082961973e-06,
      "loss": 0.2986,
      "step": 470
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.30093762278556824,
      "learning_rate": 1.0082213620432753e-06,
      "loss": 0.2981,
      "step": 480
    },
    {
      "epoch": 1.6333333333333333,
      "grad_norm": 0.31187185645103455,
      "learning_rate": 8.565819611015906e-07,
      "loss": 0.2982,
      "step": 490
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.3007357716560364,
      "learning_rate": 7.153850773897903e-07,
      "loss": 0.2972,
      "step": 500
    },
    {
      "epoch": 1.6666666666666665,
      "eval_loss": 0.07405494153499603,
      "eval_runtime": 130.2794,
      "eval_samples_per_second": 18.422,
      "eval_steps_per_second": 1.535,
      "step": 500
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.3840883672237396,
      "learning_rate": 5.853186079322579e-07,
      "loss": 0.2969,
      "step": 510
    },
    {
      "epoch": 1.7333333333333334,
      "grad_norm": 0.28318050503730774,
      "learning_rate": 4.6701622349395544e-07,
      "loss": 0.2957,
      "step": 520
    },
    {
      "epoch": 1.7666666666666666,
      "grad_norm": 0.33587414026260376,
      "learning_rate": 3.6105428140015095e-07,
      "loss": 0.2953,
      "step": 530
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.3025602400302887,
      "learning_rate": 2.6794901758146895e-07,
      "loss": 0.2958,
      "step": 540
    },
    {
      "epoch": 1.8333333333333335,
      "grad_norm": 0.3313562273979187,
      "learning_rate": 1.8815403152432564e-07,
      "loss": 0.2953,
      "step": 550
    },
    {
      "epoch": 1.8666666666666667,
      "grad_norm": 0.29559338092803955,
      "learning_rate": 1.2205807637982747e-07,
      "loss": 0.2946,
      "step": 560
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.32724061608314514,
      "learning_rate": 6.998316499749624e-08,
      "loss": 0.2957,
      "step": 570
    },
    {
      "epoch": 1.9333333333333333,
      "grad_norm": 0.24922741949558258,
      "learning_rate": 3.2183001111035e-08,
      "loss": 0.2952,
      "step": 580
    },
    {
      "epoch": 1.9666666666666668,
      "grad_norm": 0.30010986328125,
      "learning_rate": 8.84174331923926e-09,
      "loss": 0.2957,
      "step": 590
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.3091154396533966,
      "learning_rate": 7.31078838157595e-11,
      "loss": 0.2949,
      "step": 600
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.07363789528608322,
      "eval_runtime": 130.171,
      "eval_samples_per_second": 18.437,
      "eval_steps_per_second": 1.536,
      "step": 600
    }
  ],
  "logging_steps": 10,
  "max_steps": 600,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 8.586752390332416e+17,
  "train_batch_size": 48,
  "trial_name": null,
  "trial_params": null
}