{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.976,
  "eval_steps": 500,
  "global_step": 93,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.032,
      "grad_norm": 6.08677457937853,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.8709,
      "step": 1
    },
    {
      "epoch": 0.064,
      "grad_norm": 5.862503603501722,
      "learning_rate": 8.000000000000001e-06,
      "loss": 0.8625,
      "step": 2
    },
    {
      "epoch": 0.096,
      "grad_norm": 4.5723036455815205,
      "learning_rate": 1.2e-05,
      "loss": 0.839,
      "step": 3
    },
    {
      "epoch": 0.128,
      "grad_norm": 2.0695238404961547,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 0.7376,
      "step": 4
    },
    {
      "epoch": 0.16,
      "grad_norm": 5.589012282844458,
      "learning_rate": 2e-05,
      "loss": 0.825,
      "step": 5
    },
    {
      "epoch": 0.192,
      "grad_norm": 8.490554966738163,
      "learning_rate": 2.4e-05,
      "loss": 0.8478,
      "step": 6
    },
    {
      "epoch": 0.224,
      "grad_norm": 6.29894861103046,
      "learning_rate": 2.8e-05,
      "loss": 0.7658,
      "step": 7
    },
    {
      "epoch": 0.256,
      "grad_norm": 3.558435531359445,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 0.7555,
      "step": 8
    },
    {
      "epoch": 0.288,
      "grad_norm": 2.722863714076688,
      "learning_rate": 3.6e-05,
      "loss": 0.7274,
      "step": 9
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.088640250697761,
      "learning_rate": 4e-05,
      "loss": 0.6627,
      "step": 10
    },
    {
      "epoch": 0.352,
      "grad_norm": 1.5096876602344986,
      "learning_rate": 3.998567509632663e-05,
      "loss": 0.6817,
      "step": 11
    },
    {
      "epoch": 0.384,
      "grad_norm": 1.6896637753034105,
      "learning_rate": 3.9942720905593045e-05,
      "loss": 0.6761,
      "step": 12
    },
    {
      "epoch": 0.416,
      "grad_norm": 1.5060644054718806,
      "learning_rate": 3.98711989592637e-05,
      "loss": 0.6519,
      "step": 13
    },
    {
      "epoch": 0.448,
      "grad_norm": 1.4049366508424377,
      "learning_rate": 3.9771211711837774e-05,
      "loss": 0.6333,
      "step": 14
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.411091031460123,
      "learning_rate": 3.9642902394084056e-05,
      "loss": 0.5874,
      "step": 15
    },
    {
      "epoch": 0.512,
      "grad_norm": 0.8883192699998052,
      "learning_rate": 3.948645480786427e-05,
      "loss": 0.6116,
      "step": 16
    },
    {
      "epoch": 0.544,
      "grad_norm": 1.129257283929009,
      "learning_rate": 3.930209306283867e-05,
      "loss": 0.5852,
      "step": 17
    },
    {
      "epoch": 0.576,
      "grad_norm": 0.901306643045694,
      "learning_rate": 3.909008125543111e-05,
      "loss": 0.5821,
      "step": 18
    },
    {
      "epoch": 0.608,
      "grad_norm": 0.9465933700636773,
      "learning_rate": 3.885072309051346e-05,
      "loss": 0.5833,
      "step": 19
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.8046120689103757,
      "learning_rate": 3.858436144635131e-05,
      "loss": 0.5597,
      "step": 20
    },
    {
      "epoch": 0.672,
      "grad_norm": 0.9228859026973337,
      "learning_rate": 3.829137788343415e-05,
      "loss": 0.5571,
      "step": 21
    },
    {
      "epoch": 0.704,
      "grad_norm": 0.9202261747479373,
      "learning_rate": 3.797219209789365e-05,
      "loss": 0.6007,
      "step": 22
    },
    {
      "epoch": 0.736,
      "grad_norm": 0.9336252436543613,
      "learning_rate": 3.762726132029298e-05,
      "loss": 0.5618,
      "step": 23
    },
    {
      "epoch": 0.768,
      "grad_norm": 1.2080051557421407,
      "learning_rate": 3.725707966064846e-05,
      "loss": 0.6057,
      "step": 24
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.1231601773572062,
      "learning_rate": 3.686217740062169e-05,
      "loss": 0.5603,
      "step": 25
    },
    {
      "epoch": 0.832,
      "grad_norm": 0.8382981788712457,
      "learning_rate": 3.644312023389621e-05,
      "loss": 0.5491,
      "step": 26
    },
    {
      "epoch": 0.864,
      "grad_norm": 1.1862939971134692,
      "learning_rate": 3.600050845582669e-05,
      "loss": 0.5887,
      "step": 27
    },
    {
      "epoch": 0.896,
      "grad_norm": 1.0957634618366314,
      "learning_rate": 3.5534976103521716e-05,
      "loss": 0.5958,
      "step": 28
    },
    {
      "epoch": 0.928,
      "grad_norm": 0.6590817382859444,
      "learning_rate": 3.504719004759163e-05,
      "loss": 0.5528,
      "step": 29
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.875749033008583,
      "learning_rate": 3.4537849036862874e-05,
      "loss": 0.565,
      "step": 30
    },
    {
      "epoch": 0.992,
      "grad_norm": 0.783563683071678,
      "learning_rate": 3.400768269742702e-05,
      "loss": 0.5595,
      "step": 31
    },
    {
      "epoch": 1.024,
      "grad_norm": 1.4075572002103194,
      "learning_rate": 3.345745048745838e-05,
      "loss": 0.919,
      "step": 32
    },
    {
      "epoch": 1.056,
      "grad_norm": 0.7062499705952857,
      "learning_rate": 3.288794060929754e-05,
      "loss": 0.4404,
      "step": 33
    },
    {
      "epoch": 1.088,
      "grad_norm": 0.9967541412280615,
      "learning_rate": 3.229996888035908e-05,
      "loss": 0.4984,
      "step": 34
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.8310704240859569,
      "learning_rate": 3.169437756448095e-05,
      "loss": 0.4807,
      "step": 35
    },
    {
      "epoch": 1.152,
      "grad_norm": 0.7016314595292313,
      "learning_rate": 3.107203416538969e-05,
      "loss": 0.4703,
      "step": 36
    },
    {
      "epoch": 1.184,
      "grad_norm": 1.4372935885534768,
      "learning_rate": 3.0433830184009694e-05,
      "loss": 0.4739,
      "step": 37
    },
    {
      "epoch": 1.216,
      "grad_norm": 0.8650508524606009,
      "learning_rate": 2.9780679841396668e-05,
      "loss": 0.4525,
      "step": 38
    },
    {
      "epoch": 1.248,
      "grad_norm": 1.0766618304625992,
      "learning_rate": 2.9113518769124836e-05,
      "loss": 0.4987,
      "step": 39
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.6767070574855524,
      "learning_rate": 2.843330266900368e-05,
      "loss": 0.4475,
      "step": 40
    },
    {
      "epoch": 1.312,
      "grad_norm": 1.026763400096595,
      "learning_rate": 2.774100594404435e-05,
      "loss": 0.4667,
      "step": 41
    },
    {
      "epoch": 1.3439999999999999,
      "grad_norm": 0.9002290625499892,
      "learning_rate": 2.703762030263666e-05,
      "loss": 0.4916,
      "step": 42
    },
    {
      "epoch": 1.376,
      "grad_norm": 0.9903797867735974,
      "learning_rate": 2.632415333793648e-05,
      "loss": 0.4771,
      "step": 43
    },
    {
      "epoch": 1.408,
      "grad_norm": 0.7218070561744779,
      "learning_rate": 2.5601627084498146e-05,
      "loss": 0.407,
      "step": 44
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.8313194407823631,
      "learning_rate": 2.4871076554219838e-05,
      "loss": 0.4442,
      "step": 45
    },
    {
      "epoch": 1.472,
      "grad_norm": 0.8236730874850681,
      "learning_rate": 2.413354825369906e-05,
      "loss": 0.5223,
      "step": 46
    },
    {
      "epoch": 1.504,
      "grad_norm": 0.6125019115754542,
      "learning_rate": 2.3390098685121938e-05,
      "loss": 0.42,
      "step": 47
    },
    {
      "epoch": 1.536,
      "grad_norm": 0.6737099841054438,
      "learning_rate": 2.264179283283405e-05,
      "loss": 0.4665,
      "step": 48
    },
    {
      "epoch": 1.568,
      "grad_norm": 0.5907056602966384,
      "learning_rate": 2.1889702637760627e-05,
      "loss": 0.4445,
      "step": 49
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.6965345367451425,
      "learning_rate": 2.1134905461861486e-05,
      "loss": 0.5221,
      "step": 50
    },
    {
      "epoch": 1.6320000000000001,
      "grad_norm": 0.5006105897500711,
      "learning_rate": 2.0378482544820383e-05,
      "loss": 0.4218,
      "step": 51
    },
    {
      "epoch": 1.6640000000000001,
      "grad_norm": 0.6174830888739168,
      "learning_rate": 1.9621517455179627e-05,
      "loss": 0.476,
      "step": 52
    },
    {
      "epoch": 1.696,
      "grad_norm": 0.503990909520708,
      "learning_rate": 1.886509453813852e-05,
      "loss": 0.4275,
      "step": 53
    },
    {
      "epoch": 1.728,
      "grad_norm": 0.5974502021657286,
      "learning_rate": 1.8110297362239376e-05,
      "loss": 0.4757,
      "step": 54
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.551329913445271,
      "learning_rate": 1.735820716716596e-05,
      "loss": 0.4757,
      "step": 55
    },
    {
      "epoch": 1.792,
      "grad_norm": 0.579064058765967,
      "learning_rate": 1.660990131487807e-05,
      "loss": 0.4182,
      "step": 56
    },
    {
      "epoch": 1.8239999999999998,
      "grad_norm": 0.548961385728647,
      "learning_rate": 1.586645174630094e-05,
      "loss": 0.4731,
      "step": 57
    },
    {
      "epoch": 1.8559999999999999,
      "grad_norm": 0.5764590922933827,
      "learning_rate": 1.5128923445780163e-05,
      "loss": 0.4271,
      "step": 58
    },
    {
      "epoch": 1.888,
      "grad_norm": 0.5781209646736115,
      "learning_rate": 1.4398372915501862e-05,
      "loss": 0.4644,
      "step": 59
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.42862823912049036,
      "learning_rate": 1.3675846662063521e-05,
      "loss": 0.4071,
      "step": 60
    },
    {
      "epoch": 1.952,
      "grad_norm": 0.569159061133135,
      "learning_rate": 1.296237969736334e-05,
      "loss": 0.4561,
      "step": 61
    },
    {
      "epoch": 1.984,
      "grad_norm": 0.47530501617214926,
      "learning_rate": 1.2258994055955658e-05,
      "loss": 0.3817,
      "step": 62
    },
    {
      "epoch": 2.016,
      "grad_norm": 0.9251054706846084,
      "learning_rate": 1.156669733099632e-05,
      "loss": 0.7898,
      "step": 63
    },
    {
      "epoch": 2.048,
      "grad_norm": 0.5716376901076641,
      "learning_rate": 1.0886481230875172e-05,
      "loss": 0.3525,
      "step": 64
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5177936896448316,
      "learning_rate": 1.0219320158603337e-05,
      "loss": 0.3394,
      "step": 65
    },
    {
      "epoch": 2.112,
      "grad_norm": 0.5247806458447061,
      "learning_rate": 9.566169815990311e-06,
      "loss": 0.3834,
      "step": 66
    },
    {
      "epoch": 2.144,
      "grad_norm": 0.5455234154497576,
      "learning_rate": 8.92796583461031e-06,
      "loss": 0.3577,
      "step": 67
    },
    {
      "epoch": 2.176,
      "grad_norm": 0.5925096096878631,
      "learning_rate": 8.305622435519058e-06,
      "loss": 0.3831,
      "step": 68
    },
    {
      "epoch": 2.208,
      "grad_norm": 0.6820182428585542,
      "learning_rate": 7.70003111964093e-06,
      "loss": 0.376,
      "step": 69
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.6320620904769954,
      "learning_rate": 7.112059390702459e-06,
      "loss": 0.3715,
      "step": 70
    },
    {
      "epoch": 2.2720000000000002,
      "grad_norm": 0.4928197929862798,
      "learning_rate": 6.542549512541623e-06,
      "loss": 0.3713,
      "step": 71
    },
    {
      "epoch": 2.304,
      "grad_norm": 0.4767133735569691,
      "learning_rate": 5.9923173025729895e-06,
      "loss": 0.3303,
      "step": 72
    },
    {
      "epoch": 2.336,
      "grad_norm": 0.7059312169326228,
      "learning_rate": 5.462150963137125e-06,
      "loss": 0.4568,
      "step": 73
    },
    {
      "epoch": 2.368,
      "grad_norm": 0.5003954153261982,
      "learning_rate": 4.952809952408375e-06,
      "loss": 0.3514,
      "step": 74
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.5944579046423205,
      "learning_rate": 4.465023896478293e-06,
      "loss": 0.3627,
      "step": 75
    },
    {
      "epoch": 2.432,
      "grad_norm": 0.4180864471254852,
      "learning_rate": 3.999491544173311e-06,
      "loss": 0.3054,
      "step": 76
    },
    {
      "epoch": 2.464,
      "grad_norm": 0.44019542396333683,
      "learning_rate": 3.5568797661038004e-06,
      "loss": 0.375,
      "step": 77
    },
    {
      "epoch": 2.496,
      "grad_norm": 0.4294310051147678,
      "learning_rate": 3.137822599378315e-06,
      "loss": 0.3537,
      "step": 78
    },
    {
      "epoch": 2.528,
      "grad_norm": 0.3888176996168452,
      "learning_rate": 2.7429203393515426e-06,
      "loss": 0.378,
      "step": 79
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.3576643131385393,
      "learning_rate": 2.372738679707023e-06,
      "loss": 0.3232,
      "step": 80
    },
    {
      "epoch": 2.592,
      "grad_norm": 0.3696160994931973,
      "learning_rate": 2.02780790210636e-06,
      "loss": 0.3542,
      "step": 81
    },
    {
      "epoch": 2.624,
      "grad_norm": 0.36882809964571234,
      "learning_rate": 1.7086221165658544e-06,
      "loss": 0.351,
      "step": 82
    },
    {
      "epoch": 2.656,
      "grad_norm": 0.34603236345776744,
      "learning_rate": 1.4156385536486973e-06,
      "loss": 0.3212,
      "step": 83
    },
    {
      "epoch": 2.6879999999999997,
      "grad_norm": 0.3805023899734686,
      "learning_rate": 1.1492769094865475e-06,
      "loss": 0.3744,
      "step": 84
    },
    {
      "epoch": 2.7199999999999998,
      "grad_norm": 0.3005431184449355,
      "learning_rate": 9.099187445688984e-07,
      "loss": 0.3071,
      "step": 85
    },
    {
      "epoch": 2.752,
      "grad_norm": 0.3625697661026582,
      "learning_rate": 6.979069371613345e-07,
      "loss": 0.3755,
      "step": 86
    },
    {
      "epoch": 2.784,
      "grad_norm": 0.30922554074419895,
      "learning_rate": 5.135451921357337e-07,
      "loss": 0.2993,
      "step": 87
    },
    {
      "epoch": 2.816,
      "grad_norm": 0.3209396414531254,
      "learning_rate": 3.570976059159481e-07,
      "loss": 0.3725,
      "step": 88
    },
    {
      "epoch": 2.848,
      "grad_norm": 0.3188890164441534,
      "learning_rate": 2.2878828816222942e-07,
      "loss": 0.3691,
      "step": 89
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.30765746035254077,
      "learning_rate": 1.2880104073630163e-07,
      "loss": 0.3218,
      "step": 90
    },
    {
      "epoch": 2.912,
      "grad_norm": 0.3085708159717203,
      "learning_rate": 5.7279094406959e-08,
      "loss": 0.3625,
      "step": 91
    },
    {
      "epoch": 2.944,
      "grad_norm": 0.3092205424287526,
      "learning_rate": 1.4324903673370583e-08,
      "loss": 0.3543,
      "step": 92
    },
    {
      "epoch": 2.976,
      "grad_norm": 0.3121521435612877,
      "learning_rate": 0.0,
      "loss": 0.3917,
      "step": 93
    },
    {
      "epoch": 2.976,
      "step": 93,
      "total_flos": 1.818538711009198e+17,
      "train_loss": 0.5000655266546434,
      "train_runtime": 9080.5183,
      "train_samples_per_second": 0.99,
      "train_steps_per_second": 0.01
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 93,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.818538711009198e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}