{
  "best_metric": 0.40589824318885803,
  "best_model_checkpoint": "./ckpt/llavanext-qwen-video3dllm-uniform-autoreg-vg-dataagugallF++-frame32-epoch1-alldata-rewrite-finetune-bs256/checkpoint-800",
  "epoch": 0.9596161535385845,
  "eval_steps": 50,
  "global_step": 1200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 20.922805786132812,
      "learning_rate": 2.6315789473684213e-07,
      "loss": 2.7907,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 31.076074600219727,
      "learning_rate": 5.263157894736843e-07,
      "loss": 2.2083,
      "step": 2
    },
    {
      "epoch": 0.0,
      "grad_norm": 32.731563568115234,
      "learning_rate": 7.894736842105263e-07,
      "loss": 2.2286,
      "step": 3
    },
    {
      "epoch": 0.0,
      "grad_norm": 22.718334197998047,
      "learning_rate": 1.0526315789473685e-06,
      "loss": 2.8246,
      "step": 4
    },
    {
      "epoch": 0.0,
      "grad_norm": 32.41807174682617,
      "learning_rate": 1.3157894736842106e-06,
      "loss": 2.2007,
      "step": 5
    },
    {
      "epoch": 0.0,
      "grad_norm": 31.97801971435547,
      "learning_rate": 1.5789473684210526e-06,
      "loss": 2.215,
      "step": 6
    },
    {
      "epoch": 0.01,
      "grad_norm": 21.112619400024414,
      "learning_rate": 1.8421052631578948e-06,
      "loss": 2.8159,
      "step": 7
    },
    {
      "epoch": 0.01,
      "grad_norm": 19.495708465576172,
      "learning_rate": 2.105263157894737e-06,
      "loss": 2.6409,
      "step": 8
    },
    {
      "epoch": 0.01,
      "grad_norm": 16.767065048217773,
      "learning_rate": 2.368421052631579e-06,
      "loss": 2.5206,
      "step": 9
    },
    {
      "epoch": 0.01,
      "grad_norm": 17.234777450561523,
      "learning_rate": 2.631578947368421e-06,
      "loss": 1.6648,
      "step": 10
    },
    {
      "epoch": 0.01,
      "grad_norm": 13.121060371398926,
      "learning_rate": 2.8947368421052634e-06,
      "loss": 2.3086,
      "step": 11
    },
    {
      "epoch": 0.01,
      "grad_norm": 11.5472993850708,
      "learning_rate": 3.157894736842105e-06,
      "loss": 2.1678,
      "step": 12
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.208395957946777,
      "learning_rate": 3.421052631578948e-06,
      "loss": 1.9233,
      "step": 13
    },
    {
      "epoch": 0.01,
      "grad_norm": 14.129823684692383,
      "learning_rate": 3.6842105263157896e-06,
      "loss": 1.3816,
      "step": 14
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.025674343109131,
      "learning_rate": 3.947368421052632e-06,
      "loss": 1.5145,
      "step": 15
    },
    {
      "epoch": 0.01,
      "grad_norm": 24.517253875732422,
      "learning_rate": 4.210526315789474e-06,
      "loss": 3.2271,
      "step": 16
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.477472305297852,
      "learning_rate": 4.473684210526316e-06,
      "loss": 1.082,
      "step": 17
    },
    {
      "epoch": 0.01,
      "grad_norm": 32.51805114746094,
      "learning_rate": 4.736842105263158e-06,
      "loss": 1.0215,
      "step": 18
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.9523115158081055,
      "learning_rate": 5e-06,
      "loss": 1.0413,
      "step": 19
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.6261861324310303,
      "learning_rate": 5.263157894736842e-06,
      "loss": 0.9728,
      "step": 20
    },
    {
      "epoch": 0.02,
      "grad_norm": 17.463817596435547,
      "learning_rate": 5.526315789473685e-06,
      "loss": 2.357,
      "step": 21
    },
    {
      "epoch": 0.02,
      "grad_norm": 7.1600236892700195,
      "learning_rate": 5.789473684210527e-06,
      "loss": 0.6912,
      "step": 22
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.5536911487579346,
      "learning_rate": 6.0526315789473685e-06,
      "loss": 0.8557,
      "step": 23
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.042306661605835,
      "learning_rate": 6.31578947368421e-06,
      "loss": 0.8216,
      "step": 24
    },
    {
      "epoch": 0.02,
      "grad_norm": 12.70396900177002,
      "learning_rate": 6.578947368421054e-06,
      "loss": 2.0836,
      "step": 25
    },
    {
      "epoch": 0.02,
      "grad_norm": 7.840507507324219,
      "learning_rate": 6.842105263157896e-06,
      "loss": 0.4708,
      "step": 26
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.922149419784546,
      "learning_rate": 7.1052631578947375e-06,
      "loss": 0.6373,
      "step": 27
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.1607425212860107,
      "learning_rate": 7.368421052631579e-06,
      "loss": 0.5993,
      "step": 28
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9743061661720276,
      "learning_rate": 7.631578947368423e-06,
      "loss": 0.5411,
      "step": 29
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.941826581954956,
      "learning_rate": 7.894736842105265e-06,
      "loss": 0.5104,
      "step": 30
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.8938406705856323,
      "learning_rate": 8.157894736842106e-06,
      "loss": 0.492,
      "step": 31
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.6648172736167908,
      "learning_rate": 8.421052631578948e-06,
      "loss": 0.4608,
      "step": 32
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.0196826457977295,
      "learning_rate": 8.68421052631579e-06,
      "loss": 0.3005,
      "step": 33
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.7201833724975586,
      "learning_rate": 8.947368421052632e-06,
      "loss": 0.4482,
      "step": 34
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.7992067337036133,
      "learning_rate": 9.210526315789474e-06,
      "loss": 0.2365,
      "step": 35
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5124636888504028,
      "learning_rate": 9.473684210526315e-06,
      "loss": 0.4352,
      "step": 36
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.41599178314208984,
      "learning_rate": 9.736842105263159e-06,
      "loss": 0.4134,
      "step": 37
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.45361536741256714,
      "learning_rate": 1e-05,
      "loss": 0.425,
      "step": 38
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.40289947390556335,
      "learning_rate": 9.999983202901414e-06,
      "loss": 0.4307,
      "step": 39
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.3314921259880066,
      "learning_rate": 9.999932811718507e-06,
      "loss": 0.3914,
      "step": 40
    },
    {
      "epoch": 0.03,
      "grad_norm": 26.807310104370117,
      "learning_rate": 9.999848826789853e-06,
      "loss": 1.6279,
      "step": 41
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5546072721481323,
      "learning_rate": 9.999731248679734e-06,
      "loss": 0.4335,
      "step": 42
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.380395770072937,
      "learning_rate": 9.999580078178134e-06,
      "loss": 0.1748,
      "step": 43
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.42605817317962646,
      "learning_rate": 9.999395316300748e-06,
      "loss": 0.3916,
      "step": 44
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.145979642868042,
      "learning_rate": 9.999176964288958e-06,
      "loss": 0.1754,
      "step": 45
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.4412761926651,
      "learning_rate": 9.99892502360984e-06,
      "loss": 0.2064,
      "step": 46
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.47827064990997314,
      "learning_rate": 9.99863949595614e-06,
      "loss": 0.3982,
      "step": 47
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.4205256700515747,
      "learning_rate": 9.998320383246271e-06,
      "loss": 0.1769,
      "step": 48
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4269323945045471,
      "learning_rate": 9.997967687624304e-06,
      "loss": 0.3807,
      "step": 49
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.41217806935310364,
      "learning_rate": 9.99758141145994e-06,
      "loss": 0.4,
      "step": 50
    },
    {
      "epoch": 0.04,
      "eval_loss": 0.47414615750312805,
      "eval_runtime": 181.6725,
      "eval_samples_per_second": 24.219,
      "eval_steps_per_second": 0.76,
      "step": 50
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0266963243484497,
      "learning_rate": 9.99716155734851e-06,
      "loss": 0.156,
      "step": 51
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.47941654920578003,
      "learning_rate": 9.996708128110947e-06,
      "loss": 0.3749,
      "step": 52
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.3817058205604553,
      "learning_rate": 9.996221126793766e-06,
      "loss": 0.3686,
      "step": 53
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.1726628541946411,
      "learning_rate": 9.995700556669052e-06,
      "loss": 0.143,
      "step": 54
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9995223879814148,
      "learning_rate": 9.995146421234434e-06,
      "loss": 0.1478,
      "step": 55
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4862672686576843,
      "learning_rate": 9.994558724213056e-06,
      "loss": 0.3691,
      "step": 56
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4201831519603729,
      "learning_rate": 9.99393746955356e-06,
      "loss": 0.3778,
      "step": 57
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.3107869029045105,
      "learning_rate": 9.993282661430058e-06,
      "loss": 0.3757,
      "step": 58
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.3816535770893097,
      "learning_rate": 9.9925943042421e-06,
      "loss": 0.3878,
      "step": 59
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.309771865606308,
      "learning_rate": 9.991872402614648e-06,
      "loss": 0.356,
      "step": 60
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.3637882471084595,
      "learning_rate": 9.991116961398044e-06,
      "loss": 0.3577,
      "step": 61
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.31382042169570923,
      "learning_rate": 9.990327985667972e-06,
      "loss": 0.3592,
      "step": 62
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.3174655437469482,
      "learning_rate": 9.989505480725438e-06,
      "loss": 0.239,
      "step": 63
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.3797570466995239,
      "learning_rate": 9.988649452096719e-06,
      "loss": 0.3427,
      "step": 64
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.3784867823123932,
      "learning_rate": 9.987759905533333e-06,
      "loss": 0.3588,
      "step": 65
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.3299618661403656,
      "learning_rate": 9.986836847012001e-06,
      "loss": 0.3814,
      "step": 66
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.3519551753997803,
      "learning_rate": 9.985880282734604e-06,
      "loss": 0.3265,
      "step": 67
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.3509789705276489,
      "learning_rate": 9.984890219128148e-06,
      "loss": 0.3546,
      "step": 68
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.380452424287796,
      "learning_rate": 9.983866662844706e-06,
      "loss": 0.3682,
      "step": 69
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5348459482192993,
      "learning_rate": 9.98280962076139e-06,
      "loss": 0.1486,
      "step": 70
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0492393970489502,
      "learning_rate": 9.9817190999803e-06,
      "loss": 0.1822,
      "step": 71
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4624328017234802,
      "learning_rate": 9.980595107828465e-06,
      "loss": 0.3567,
      "step": 72
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0149961709976196,
      "learning_rate": 9.979437651857809e-06,
      "loss": 0.1588,
      "step": 73
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.32391804456710815,
      "learning_rate": 9.978246739845095e-06,
      "loss": 0.3421,
      "step": 74
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.28017285466194153,
      "learning_rate": 9.977022379791865e-06,
      "loss": 0.3633,
      "step": 75
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.081642985343933,
      "learning_rate": 9.975764579924402e-06,
      "loss": 0.1532,
      "step": 76
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.46486639976501465,
      "learning_rate": 9.974473348693661e-06,
      "loss": 0.3481,
      "step": 77
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0340725183486938,
      "learning_rate": 9.973148694775217e-06,
      "loss": 0.1706,
      "step": 78
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.3445226550102234,
      "learning_rate": 9.971790627069205e-06,
      "loss": 0.3268,
      "step": 79
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.43688496947288513,
      "learning_rate": 9.970399154700264e-06,
      "loss": 0.3658,
      "step": 80
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.26583680510520935,
      "learning_rate": 9.968974287017474e-06,
      "loss": 0.3398,
      "step": 81
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.1420422792434692,
      "learning_rate": 9.967516033594295e-06,
      "loss": 0.1567,
      "step": 82
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4289361238479614,
      "learning_rate": 9.966024404228495e-06,
      "loss": 0.3521,
      "step": 83
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9917747974395752,
      "learning_rate": 9.964499408942093e-06,
      "loss": 0.1463,
      "step": 84
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.3268841803073883,
      "learning_rate": 9.962941057981285e-06,
      "loss": 0.3322,
      "step": 85
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.2609158754348755,
      "learning_rate": 9.961349361816384e-06,
      "loss": 0.3594,
      "step": 86
    },
    {
      "epoch": 0.07,
      "grad_norm": 12.60007381439209,
      "learning_rate": 9.95972433114174e-06,
      "loss": 1.2265,
      "step": 87
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0687918663024902,
      "learning_rate": 9.958065976875671e-06,
      "loss": 0.1611,
      "step": 88
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.2572455406188965,
      "learning_rate": 9.956374310160398e-06,
      "loss": 1.0723,
      "step": 89
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6832790374755859,
      "learning_rate": 9.954649342361952e-06,
      "loss": 0.3495,
      "step": 90
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4189760386943817,
      "learning_rate": 9.95289108507012e-06,
      "loss": 0.3579,
      "step": 91
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.3593705892562866,
      "learning_rate": 9.951099550098349e-06,
      "loss": 0.3367,
      "step": 92
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5648718476295471,
      "learning_rate": 9.949274749483671e-06,
      "loss": 0.3606,
      "step": 93
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5616835355758667,
      "learning_rate": 9.947416695486633e-06,
      "loss": 0.363,
      "step": 94
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.2772475481033325,
      "learning_rate": 9.9455254005912e-06,
      "loss": 0.3359,
      "step": 95
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.3488446772098541,
      "learning_rate": 9.943600877504679e-06,
      "loss": 0.3311,
      "step": 96
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.434231162071228,
      "learning_rate": 9.941643139157631e-06,
      "loss": 0.1752,
      "step": 97
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4433423280715942,
      "learning_rate": 9.939652198703785e-06,
      "loss": 0.1619,
      "step": 98
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.661028265953064,
      "learning_rate": 9.93762806951995e-06,
      "loss": 0.3517,
      "step": 99
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5088757276535034,
      "learning_rate": 9.935570765205927e-06,
      "loss": 0.3182,
      "step": 100
    },
    {
      "epoch": 0.08,
      "eval_loss": 0.43970027565956116,
      "eval_runtime": 167.473,
      "eval_samples_per_second": 26.273,
      "eval_steps_per_second": 0.824,
      "step": 100
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.31360772252082825,
      "learning_rate": 9.933480299584413e-06,
      "loss": 0.3677,
      "step": 101
    },
    {
      "epoch": 0.08,
      "grad_norm": 11.646145820617676,
      "learning_rate": 9.93135668670091e-06,
      "loss": 1.2638,
      "step": 102
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8037547469139099,
      "learning_rate": 9.92919994082363e-06,
      "loss": 0.3812,
      "step": 103
    },
    {
      "epoch": 0.08,
      "grad_norm": 4.037228584289551,
      "learning_rate": 9.927010076443408e-06,
      "loss": 0.1977,
      "step": 104
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.682396650314331,
      "learning_rate": 9.924787108273585e-06,
      "loss": 0.2027,
      "step": 105
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4910129308700562,
      "learning_rate": 9.92253105124993e-06,
      "loss": 0.3719,
      "step": 106
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.1671501398086548,
      "learning_rate": 9.920241920530529e-06,
      "loss": 0.136,
      "step": 107
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.3777766823768616,
      "learning_rate": 9.91791973149568e-06,
      "loss": 0.3389,
      "step": 108
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.3090996742248535,
      "learning_rate": 9.915564499747803e-06,
      "loss": 0.3581,
      "step": 109
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.555590808391571,
      "learning_rate": 9.91317624111132e-06,
      "loss": 0.3553,
      "step": 110
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.381638765335083,
      "learning_rate": 9.910754971632555e-06,
      "loss": 0.1604,
      "step": 111
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.1549111604690552,
      "learning_rate": 9.908300707579633e-06,
      "loss": 0.152,
      "step": 112
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.1961113214492798,
      "learning_rate": 9.905813465442355e-06,
      "loss": 0.1514,
      "step": 113
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.0327926874160767,
      "learning_rate": 9.903293261932106e-06,
      "loss": 0.1544,
      "step": 114
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8464114665985107,
      "learning_rate": 9.900740113981726e-06,
      "loss": 0.1479,
      "step": 115
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8304435014724731,
      "learning_rate": 9.898154038745408e-06,
      "loss": 0.3873,
      "step": 116
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5775981545448303,
      "learning_rate": 9.895535053598577e-06,
      "loss": 0.365,
      "step": 117
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.4002559185028076,
      "learning_rate": 9.89288317613777e-06,
      "loss": 0.1663,
      "step": 118
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.2195611000061035,
      "learning_rate": 9.89019842418053e-06,
      "loss": 0.171,
      "step": 119
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5236323475837708,
      "learning_rate": 9.887480815765272e-06,
      "loss": 0.3433,
      "step": 120
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.660276412963867,
      "learning_rate": 9.88473036915117e-06,
      "loss": 1.0689,
      "step": 121
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47092723846435547,
      "learning_rate": 9.881947102818036e-06,
      "loss": 0.3465,
      "step": 122
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.49145159125328064,
      "learning_rate": 9.879131035466187e-06,
      "loss": 0.385,
      "step": 123
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.3295590579509735,
      "learning_rate": 9.876282186016328e-06,
      "loss": 0.3427,
      "step": 124
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.35153838992118835,
      "learning_rate": 9.873400573609422e-06,
      "loss": 0.3743,
      "step": 125
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.044097423553467,
      "learning_rate": 9.870486217606557e-06,
      "loss": 0.9947,
      "step": 126
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4164460003376007,
      "learning_rate": 9.867539137588827e-06,
      "loss": 0.3219,
      "step": 127
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.135018229484558,
      "learning_rate": 9.864559353357189e-06,
      "loss": 0.1625,
      "step": 128
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4715295732021332,
      "learning_rate": 9.861546884932331e-06,
      "loss": 0.3251,
      "step": 129
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.93874591588974,
      "learning_rate": 9.858501752554548e-06,
      "loss": 0.1384,
      "step": 130
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4267057180404663,
      "learning_rate": 9.855423976683597e-06,
      "loss": 0.3303,
      "step": 131
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7904293537139893,
      "learning_rate": 9.852313577998555e-06,
      "loss": 0.1267,
      "step": 132
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8938199281692505,
      "learning_rate": 9.849170577397695e-06,
      "loss": 0.1286,
      "step": 133
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.967391312122345,
      "learning_rate": 9.845994995998332e-06,
      "loss": 0.1325,
      "step": 134
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9604435563087463,
      "learning_rate": 9.842786855136688e-06,
      "loss": 0.1553,
      "step": 135
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8755050897598267,
      "learning_rate": 9.839546176367745e-06,
      "loss": 0.1348,
      "step": 136
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8548040986061096,
      "learning_rate": 9.836272981465107e-06,
      "loss": 0.1221,
      "step": 137
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5340502262115479,
      "learning_rate": 9.83296729242084e-06,
      "loss": 0.3754,
      "step": 138
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.47847357392311096,
      "learning_rate": 9.829629131445342e-06,
      "loss": 0.3692,
      "step": 139
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.3132634162902832,
      "learning_rate": 9.826258520967178e-06,
      "loss": 0.3651,
      "step": 140
    },
    {
      "epoch": 0.11,
      "grad_norm": 7.278785705566406,
      "learning_rate": 9.822855483632942e-06,
      "loss": 0.9984,
      "step": 141
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.3550218641757965,
      "learning_rate": 9.819420042307091e-06,
      "loss": 0.323,
      "step": 142
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4362839460372925,
      "learning_rate": 9.815952220071807e-06,
      "loss": 0.3522,
      "step": 143
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4177077114582062,
      "learning_rate": 9.812452040226828e-06,
      "loss": 0.3792,
      "step": 144
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.31196916103363037,
      "learning_rate": 9.808919526289303e-06,
      "loss": 0.3401,
      "step": 145
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.577696681022644,
      "learning_rate": 9.805354701993624e-06,
      "loss": 0.1555,
      "step": 146
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.3691959083080292,
      "learning_rate": 9.801757591291275e-06,
      "loss": 0.3363,
      "step": 147
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.3856433928012848,
      "learning_rate": 9.798128218350662e-06,
      "loss": 0.3688,
      "step": 148
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.682196617126465,
      "learning_rate": 9.794466607556963e-06,
      "loss": 0.9836,
      "step": 149
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.28820130228996277,
      "learning_rate": 9.79077278351195e-06,
      "loss": 0.3042,
      "step": 150
    },
    {
      "epoch": 0.12,
      "eval_loss": 0.4298325777053833,
      "eval_runtime": 124.7788,
      "eval_samples_per_second": 35.262,
      "eval_steps_per_second": 1.106,
      "step": 150
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.27000167965888977,
      "learning_rate": 9.787046771033836e-06,
      "loss": 0.3233,
      "step": 151
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.1150965690612793,
      "learning_rate": 9.7832885951571e-06,
      "loss": 0.1564,
      "step": 152
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.583747386932373,
      "learning_rate": 9.77949828113232e-06,
      "loss": 0.8579,
      "step": 153
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.39122387766838074,
      "learning_rate": 9.77567585442601e-06,
      "loss": 0.348,
      "step": 154
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9230940341949463,
      "learning_rate": 9.77182134072044e-06,
      "loss": 0.1351,
      "step": 155
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.35243165493011475,
      "learning_rate": 9.767934765913469e-06,
      "loss": 0.3358,
      "step": 156
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.3395081162452698,
      "learning_rate": 9.76401615611837e-06,
      "loss": 0.355,
      "step": 157
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.24233697354793549,
      "learning_rate": 9.76006553766365e-06,
      "loss": 0.3256,
      "step": 158
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.2997918725013733,
      "learning_rate": 9.756082937092884e-06,
      "loss": 0.3469,
      "step": 159
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.3321402072906494,
      "learning_rate": 9.752068381164523e-06,
      "loss": 0.3206,
      "step": 160
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.2930084466934204,
      "learning_rate": 9.748021896851725e-06,
      "loss": 0.3259,
      "step": 161
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.038497805595398,
      "learning_rate": 9.743943511342168e-06,
      "loss": 0.1492,
      "step": 162
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.902238368988037,
      "learning_rate": 9.739833252037869e-06,
      "loss": 0.9845,
      "step": 163
    },
    {
      "epoch": 0.13,
      "grad_norm": 4.762824535369873,
      "learning_rate": 9.735691146555002e-06,
      "loss": 0.9254,
      "step": 164
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.43031826615333557,
      "learning_rate": 9.731517222723705e-06,
      "loss": 0.3414,
      "step": 165
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.36303213238716125,
      "learning_rate": 9.727311508587907e-06,
      "loss": 0.3489,
      "step": 166
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.28213244676589966,
      "learning_rate": 9.723074032405121e-06,
      "loss": 0.3492,
      "step": 167
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8856893181800842,
      "learning_rate": 9.718804822646274e-06,
      "loss": 0.1347,
      "step": 168
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.5257580280303955,
      "learning_rate": 9.714503907995497e-06,
      "loss": 0.9397,
      "step": 169
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4754440486431122,
      "learning_rate": 9.710171317349946e-06,
      "loss": 0.3396,
      "step": 170
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.35730820894241333,
      "learning_rate": 9.705807079819603e-06,
      "loss": 0.3337,
      "step": 171
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.259970486164093,
      "learning_rate": 9.701411224727077e-06,
      "loss": 0.3314,
      "step": 172
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.25026869773864746,
      "learning_rate": 9.696983781607417e-06,
      "loss": 0.3247,
      "step": 173
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.5978610515594482,
      "learning_rate": 9.692524780207897e-06,
      "loss": 0.9114,
      "step": 174
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4905684292316437,
      "learning_rate": 9.688034250487835e-06,
      "loss": 0.3688,
      "step": 175
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4337643086910248,
      "learning_rate": 9.683512222618376e-06,
      "loss": 0.3395,
      "step": 176
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.2938474714756012,
      "learning_rate": 9.678958726982302e-06,
      "loss": 0.3312,
      "step": 177
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.2629150450229645,
      "learning_rate": 9.674373794173818e-06,
      "loss": 0.3422,
      "step": 178
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.3349516987800598,
      "learning_rate": 9.669757454998353e-06,
      "loss": 0.3463,
      "step": 179
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.37354719638824463,
      "learning_rate": 9.665109740472346e-06,
      "loss": 0.3564,
      "step": 180
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.0911778211593628,
      "learning_rate": 9.660430681823047e-06,
      "loss": 0.1566,
      "step": 181
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8342831134796143,
      "learning_rate": 9.655720310488298e-06,
      "loss": 0.1438,
      "step": 182
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.37544703483581543,
      "learning_rate": 9.650978658116329e-06,
      "loss": 0.3391,
      "step": 183
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8055824041366577,
      "learning_rate": 9.64620575656554e-06,
      "loss": 0.116,
      "step": 184
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.877450704574585,
      "learning_rate": 9.64140163790429e-06,
      "loss": 0.9055,
      "step": 185
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.451049566268921,
      "learning_rate": 9.636566334410682e-06,
      "loss": 0.8399,
      "step": 186
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.43142861127853394,
      "learning_rate": 9.631699878572343e-06,
      "loss": 0.3336,
      "step": 187
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.3086578845977783,
      "learning_rate": 9.62680230308621e-06,
      "loss": 0.3167,
      "step": 188
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.34299710392951965,
      "learning_rate": 9.621873640858302e-06,
      "loss": 0.3324,
      "step": 189
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8708918690681458,
      "learning_rate": 9.616913925003514e-06,
      "loss": 0.1225,
      "step": 190
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4341777265071869,
      "learning_rate": 9.611923188845377e-06,
      "loss": 0.3503,
      "step": 191
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8814473748207092,
      "learning_rate": 9.606901465915848e-06,
      "loss": 0.1155,
      "step": 192
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.5243191719055176,
      "learning_rate": 9.601848789955078e-06,
      "loss": 0.858,
      "step": 193
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.569457530975342,
      "learning_rate": 9.596765194911182e-06,
      "loss": 0.9249,
      "step": 194
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8508328795433044,
      "learning_rate": 9.591650714940022e-06,
      "loss": 0.1415,
      "step": 195
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.39446818828582764,
      "learning_rate": 9.586505384404967e-06,
      "loss": 0.3241,
      "step": 196
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9175178408622742,
      "learning_rate": 9.581329237876664e-06,
      "loss": 0.1261,
      "step": 197
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9992223381996155,
      "learning_rate": 9.576122310132814e-06,
      "loss": 0.147,
      "step": 198
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8038831353187561,
      "learning_rate": 9.570884636157928e-06,
      "loss": 0.1337,
      "step": 199
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.2877422869205475,
      "learning_rate": 9.565616251143094e-06,
      "loss": 0.3436,
      "step": 200
    },
    {
      "epoch": 0.16,
      "eval_loss": 0.42311763763427734,
      "eval_runtime": 124.7422,
      "eval_samples_per_second": 35.273,
      "eval_steps_per_second": 1.106,
      "step": 200
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.31222763657569885,
      "learning_rate": 9.560317190485748e-06,
      "loss": 0.3272,
      "step": 201
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8993006944656372,
      "learning_rate": 9.554987489789426e-06,
      "loss": 0.117,
      "step": 202
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8364216685295105,
      "learning_rate": 9.549627184863531e-06,
      "loss": 0.1157,
      "step": 203
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4116974174976349,
      "learning_rate": 9.544236311723091e-06,
      "loss": 0.3595,
      "step": 204
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8786513805389404,
      "learning_rate": 9.538814906588519e-06,
      "loss": 0.1243,
      "step": 205
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.3183223307132721,
      "learning_rate": 9.533363005885362e-06,
      "loss": 0.3418,
      "step": 206
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.020078182220459,
      "learning_rate": 9.527880646244071e-06,
      "loss": 0.1397,
      "step": 207
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.778648853302002,
      "learning_rate": 9.522367864499736e-06,
      "loss": 0.1393,
      "step": 208
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.386367529630661,
      "learning_rate": 9.51682469769185e-06,
      "loss": 0.3334,
      "step": 209
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.2725045382976532,
      "learning_rate": 9.511251183064068e-06,
      "loss": 0.3498,
      "step": 210
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.34886878728866577,
      "learning_rate": 9.505647358063933e-06,
      "loss": 0.3121,
      "step": 211
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9301304817199707,
      "learning_rate": 9.50001326034265e-06,
      "loss": 0.1421,
      "step": 212
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.350355863571167,
      "learning_rate": 9.494348927754816e-06,
      "loss": 0.3136,
      "step": 213
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8877355456352234,
      "learning_rate": 9.48865439835817e-06,
      "loss": 0.127,
      "step": 214
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.2727573812007904,
      "learning_rate": 9.482929710413343e-06,
      "loss": 0.3068,
      "step": 215
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.32259026169776917,
      "learning_rate": 9.477174902383593e-06,
      "loss": 0.3182,
      "step": 216
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.935286998748779,
      "learning_rate": 9.471390012934549e-06,
      "loss": 0.9098,
      "step": 217
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.28147029876709,
      "learning_rate": 9.465575080933959e-06,
      "loss": 0.8474,
      "step": 218
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.061301589012146,
      "learning_rate": 9.459730145451414e-06,
      "loss": 0.1292,
      "step": 219
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8864974975585938,
      "learning_rate": 9.453855245758098e-06,
      "loss": 0.1218,
      "step": 220
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7657546997070312,
      "learning_rate": 9.44795042132652e-06,
      "loss": 0.1157,
      "step": 221
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.9414825439453125,
      "learning_rate": 9.442015711830246e-06,
      "loss": 0.1489,
      "step": 222
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8250057697296143,
      "learning_rate": 9.436051157143635e-06,
      "loss": 0.1252,
      "step": 223
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.5849609375,
      "learning_rate": 9.430056797341574e-06,
      "loss": 0.3473,
      "step": 224
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8925058841705322,
      "learning_rate": 9.424032672699205e-06,
      "loss": 0.1249,
      "step": 225
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.36256322264671326,
      "learning_rate": 9.417978823691652e-06,
      "loss": 0.3301,
      "step": 226
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.32765108346939087,
      "learning_rate": 9.411895290993754e-06,
      "loss": 0.3287,
      "step": 227
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.2838341295719147,
      "learning_rate": 9.405782115479793e-06,
      "loss": 0.3268,
      "step": 228
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.3620404899120331,
      "learning_rate": 9.399639338223213e-06,
      "loss": 0.3617,
      "step": 229
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.30100902915000916,
      "learning_rate": 9.393467000496345e-06,
      "loss": 0.3475,
      "step": 230
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.28167834877967834,
      "learning_rate": 9.38726514377014e-06,
      "loss": 0.3502,
      "step": 231
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.132927417755127,
      "learning_rate": 9.381033809713872e-06,
      "loss": 0.9125,
      "step": 232
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.3185252845287323,
      "learning_rate": 9.37477304019488e-06,
      "loss": 0.3275,
      "step": 233
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.31966936588287354,
      "learning_rate": 9.368482877278264e-06,
      "loss": 0.3431,
      "step": 234
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.514080286026001,
      "learning_rate": 9.362163363226622e-06,
      "loss": 0.1427,
      "step": 235
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.0633078813552856,
      "learning_rate": 9.355814540499753e-06,
      "loss": 0.1362,
      "step": 236
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.36361604928970337,
      "learning_rate": 9.349436451754378e-06,
      "loss": 0.3444,
      "step": 237
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.2706924378871918,
      "learning_rate": 9.34302913984385e-06,
      "loss": 0.3213,
      "step": 238
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.440856695175171,
      "learning_rate": 9.33659264781787e-06,
      "loss": 0.8678,
      "step": 239
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.8063578605651855,
      "learning_rate": 9.330127018922195e-06,
      "loss": 0.8102,
      "step": 240
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4515352249145508,
      "learning_rate": 9.323632296598343e-06,
      "loss": 0.8585,
      "step": 241
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.0072299242019653,
      "learning_rate": 9.317108524483319e-06,
      "loss": 0.1314,
      "step": 242
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6811292767524719,
      "learning_rate": 9.310555746409293e-06,
      "loss": 0.3421,
      "step": 243
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.38503149151802063,
      "learning_rate": 9.303974006403332e-06,
      "loss": 0.3564,
      "step": 244
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.9028308391571045,
      "learning_rate": 9.297363348687087e-06,
      "loss": 0.1253,
      "step": 245
    },
    {
      "epoch": 0.2,
      "grad_norm": 7.851496696472168,
      "learning_rate": 9.29072381767651e-06,
      "loss": 0.9527,
      "step": 246
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8371134400367737,
      "learning_rate": 9.284055457981541e-06,
      "loss": 0.3263,
      "step": 247
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.9793571829795837,
      "learning_rate": 9.27735831440582e-06,
      "loss": 0.1548,
      "step": 248
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6159282326698303,
      "learning_rate": 9.270632431946377e-06,
      "loss": 0.3635,
      "step": 249
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8735672235488892,
      "learning_rate": 9.26387785579334e-06,
      "loss": 0.1257,
      "step": 250
    },
    {
      "epoch": 0.2,
      "eval_loss": 0.413566529750824,
      "eval_runtime": 125.8621,
      "eval_samples_per_second": 34.959,
      "eval_steps_per_second": 1.096,
      "step": 250
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4382816255092621,
      "learning_rate": 9.257094631329617e-06,
      "loss": 0.3537,
      "step": 251
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4854665994644165,
      "learning_rate": 9.250282804130607e-06,
      "loss": 0.3423,
      "step": 252
    },
    {
      "epoch": 0.2,
      "grad_norm": 5.281623363494873,
      "learning_rate": 9.243442419963884e-06,
      "loss": 0.937,
      "step": 253
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.886582612991333,
      "learning_rate": 9.236573524788888e-06,
      "loss": 0.1277,
      "step": 254
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.3673156499862671,
      "learning_rate": 9.229676164756624e-06,
      "loss": 0.3277,
      "step": 255
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8646839261054993,
      "learning_rate": 9.222750386209349e-06,
      "loss": 0.112,
      "step": 256
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.31685179471969604,
      "learning_rate": 9.215796235680253e-06,
      "loss": 0.34,
      "step": 257
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7908475995063782,
      "learning_rate": 9.208813759893158e-06,
      "loss": 0.1172,
      "step": 258
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.3205670416355133,
      "learning_rate": 9.2018030057622e-06,
      "loss": 0.3218,
      "step": 259
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.3367687463760376,
      "learning_rate": 9.194764020391507e-06,
      "loss": 0.3416,
      "step": 260
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.29941102862358093,
      "learning_rate": 9.187696851074894e-06,
      "loss": 0.3481,
      "step": 261
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.35579514503479,
      "learning_rate": 9.180601545295535e-06,
      "loss": 0.8415,
      "step": 262
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.8161157369613647,
      "learning_rate": 9.173478150725652e-06,
      "loss": 0.796,
      "step": 263
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.3171614110469818,
      "learning_rate": 9.166326715226188e-06,
      "loss": 0.3224,
      "step": 264
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.3430582880973816,
      "learning_rate": 9.159147286846493e-06,
      "loss": 0.3225,
      "step": 265
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.3321494162082672,
      "learning_rate": 9.151939913823988e-06,
      "loss": 0.3208,
      "step": 266
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.3237573206424713,
      "learning_rate": 9.14470464458386e-06,
      "loss": 0.3363,
      "step": 267
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.22555382549762726,
      "learning_rate": 9.137441527738718e-06,
      "loss": 0.295,
      "step": 268
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.33508169651031494,
      "learning_rate": 9.13015061208828e-06,
      "loss": 0.3596,
      "step": 269
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3525448143482208,
      "learning_rate": 9.122831946619038e-06,
      "loss": 0.3382,
      "step": 270
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.2951750159263611,
      "learning_rate": 9.115485580503927e-06,
      "loss": 0.3219,
      "step": 271
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.25593259930610657,
      "learning_rate": 9.108111563102005e-06,
      "loss": 0.3468,
      "step": 272
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.2197769731283188,
      "learning_rate": 9.100709943958108e-06,
      "loss": 0.3205,
      "step": 273
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.6349623203277588,
      "learning_rate": 9.093280772802527e-06,
      "loss": 0.1411,
      "step": 274
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4857843220233917,
      "learning_rate": 9.085824099550674e-06,
      "loss": 0.3336,
      "step": 275
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.0829294919967651,
      "learning_rate": 9.078339974302735e-06,
      "loss": 0.1653,
      "step": 276
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3584422469139099,
      "learning_rate": 9.070828447343346e-06,
      "loss": 0.3246,
      "step": 277
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.315239816904068,
      "learning_rate": 9.063289569141251e-06,
      "loss": 0.3539,
      "step": 278
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9550085663795471,
      "learning_rate": 9.055723390348966e-06,
      "loss": 0.1159,
      "step": 279
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.0187482833862305,
      "learning_rate": 9.048129961802425e-06,
      "loss": 0.1493,
      "step": 280
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4820865988731384,
      "learning_rate": 9.040509334520662e-06,
      "loss": 0.3392,
      "step": 281
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.43585842847824097,
      "learning_rate": 9.032861559705442e-06,
      "loss": 0.3544,
      "step": 282
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.27891361713409424,
      "learning_rate": 9.025186688740939e-06,
      "loss": 0.3025,
      "step": 283
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.25076693296432495,
      "learning_rate": 9.01748477319338e-06,
      "loss": 0.3327,
      "step": 284
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.35321706533432007,
      "learning_rate": 9.009755864810695e-06,
      "loss": 0.348,
      "step": 285
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.760715007781982,
      "learning_rate": 9.002000015522182e-06,
      "loss": 0.9277,
      "step": 286
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.1271593570709229,
      "learning_rate": 8.994217277438145e-06,
      "loss": 0.1352,
      "step": 287
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8853163719177246,
      "learning_rate": 8.986407702849552e-06,
      "loss": 0.1184,
      "step": 288
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.0764353275299072,
      "learning_rate": 8.978571344227681e-06,
      "loss": 0.8612,
      "step": 289
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.9701083302497864,
      "learning_rate": 8.970708254223768e-06,
      "loss": 0.1216,
      "step": 290
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.5093504190444946,
      "learning_rate": 8.962818485668652e-06,
      "loss": 0.3572,
      "step": 291
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.0063228607177734,
      "learning_rate": 8.954902091572419e-06,
      "loss": 0.1212,
      "step": 292
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.365374892950058,
      "learning_rate": 8.946959125124053e-06,
      "loss": 0.3689,
      "step": 293
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9240602254867554,
      "learning_rate": 8.938989639691068e-06,
      "loss": 0.1331,
      "step": 294
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9398836493492126,
      "learning_rate": 8.930993688819157e-06,
      "loss": 0.1207,
      "step": 295
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.48207640647888184,
      "learning_rate": 8.92297132623183e-06,
      "loss": 0.34,
      "step": 296
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.39917078614234924,
      "learning_rate": 8.914922605830055e-06,
      "loss": 0.3524,
      "step": 297
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3033912479877472,
      "learning_rate": 8.90684758169189e-06,
      "loss": 0.3293,
      "step": 298
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8015869855880737,
      "learning_rate": 8.898746308072128e-06,
      "loss": 0.1255,
      "step": 299
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4296110272407532,
      "learning_rate": 8.890618839401923e-06,
      "loss": 0.3358,
      "step": 300
    },
    {
      "epoch": 0.24,
      "eval_loss": 0.41562503576278687,
      "eval_runtime": 126.1184,
      "eval_samples_per_second": 34.888,
      "eval_steps_per_second": 1.094,
      "step": 300
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.33883392810821533,
      "learning_rate": 8.882465230288434e-06,
      "loss": 0.3345,
      "step": 301
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9033364057540894,
      "learning_rate": 8.87428553551445e-06,
      "loss": 0.1254,
      "step": 302
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.2730785012245178,
      "learning_rate": 8.866079810038027e-06,
      "loss": 0.3258,
      "step": 303
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.2857901453971863,
      "learning_rate": 8.857848108992117e-06,
      "loss": 0.3221,
      "step": 304
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.371216297149658,
      "learning_rate": 8.849590487684198e-06,
      "loss": 0.9017,
      "step": 305
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.30798420310020447,
      "learning_rate": 8.841307001595904e-06,
      "loss": 0.3539,
      "step": 306
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3541053533554077,
      "learning_rate": 8.832997706382644e-06,
      "loss": 0.3313,
      "step": 307
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.2950607240200043,
      "learning_rate": 8.82466265787324e-06,
      "loss": 0.3566,
      "step": 308
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.288692831993103,
      "learning_rate": 8.816301912069543e-06,
      "loss": 0.323,
      "step": 309
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.7411038875579834,
      "learning_rate": 8.807915525146065e-06,
      "loss": 0.8226,
      "step": 310
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3744353652000427,
      "learning_rate": 8.79950355344959e-06,
      "loss": 0.3274,
      "step": 311
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3469221889972687,
      "learning_rate": 8.791066053498808e-06,
      "loss": 0.3389,
      "step": 312
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.25755181908607483,
      "learning_rate": 8.782603081983924e-06,
      "loss": 0.3298,
      "step": 313
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.24189944565296173,
      "learning_rate": 8.774114695766286e-06,
      "loss": 0.3357,
      "step": 314
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3654647767543793,
      "learning_rate": 8.765600951877997e-06,
      "loss": 0.3445,
      "step": 315
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.0421648025512695,
      "learning_rate": 8.757061907521536e-06,
      "loss": 0.1385,
      "step": 316
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.2557936906814575,
      "learning_rate": 8.748497620069372e-06,
      "loss": 0.3016,
      "step": 317
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.4666800498962402,
      "learning_rate": 8.739908147063576e-06,
      "loss": 0.7989,
      "step": 318
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.2618352174758911,
      "learning_rate": 8.731293546215438e-06,
      "loss": 0.3152,
      "step": 319
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.27340617775917053,
      "learning_rate": 8.722653875405077e-06,
      "loss": 0.3549,
      "step": 320
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.30788564682006836,
      "learning_rate": 8.713989192681056e-06,
      "loss": 0.3667,
      "step": 321
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.9463866949081421,
      "learning_rate": 8.705299556259986e-06,
      "loss": 0.1353,
      "step": 322
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3040555715560913,
      "learning_rate": 8.696585024526137e-06,
      "loss": 0.3103,
      "step": 323
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.8287111520767212,
      "learning_rate": 8.687845656031051e-06,
      "loss": 0.1335,
      "step": 324
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3403579592704773,
      "learning_rate": 8.679081509493141e-06,
      "loss": 0.3271,
      "step": 325
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.2744491398334503,
      "learning_rate": 8.670292643797302e-06,
      "loss": 0.3164,
      "step": 326
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.254181832075119,
      "learning_rate": 8.661479117994508e-06,
      "loss": 0.3103,
      "step": 327
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7891263365745544,
      "learning_rate": 8.652640991301425e-06,
      "loss": 0.1337,
      "step": 328
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7945630550384521,
      "learning_rate": 8.64377832310001e-06,
      "loss": 0.1159,
      "step": 329
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.33090201020240784,
      "learning_rate": 8.634891172937102e-06,
      "loss": 0.316,
      "step": 330
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4023327827453613,
      "learning_rate": 8.625979600524041e-06,
      "loss": 0.7473,
      "step": 331
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8648073673248291,
      "learning_rate": 8.61704366573625e-06,
      "loss": 0.1204,
      "step": 332
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8947324752807617,
      "learning_rate": 8.608083428612837e-06,
      "loss": 0.1493,
      "step": 333
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2032856941223145,
      "learning_rate": 8.599098949356201e-06,
      "loss": 0.8149,
      "step": 334
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.849547266960144,
      "learning_rate": 8.590090288331615e-06,
      "loss": 0.1274,
      "step": 335
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41290155053138733,
      "learning_rate": 8.581057506066821e-06,
      "loss": 0.3434,
      "step": 336
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.36344313621520996,
      "learning_rate": 8.572000663251638e-06,
      "loss": 0.3681,
      "step": 337
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.6800082921981812,
      "learning_rate": 8.562919820737537e-06,
      "loss": 0.7829,
      "step": 338
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.9193615317344666,
      "learning_rate": 8.553815039537238e-06,
      "loss": 0.1329,
      "step": 339
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4714294970035553,
      "learning_rate": 8.544686380824309e-06,
      "loss": 0.3251,
      "step": 340
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3699244558811188,
      "learning_rate": 8.535533905932739e-06,
      "loss": 0.3514,
      "step": 341
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.30339834094047546,
      "learning_rate": 8.526357676356538e-06,
      "loss": 0.3715,
      "step": 342
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8360468149185181,
      "learning_rate": 8.517157753749318e-06,
      "loss": 0.1251,
      "step": 343
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.5364289283752441,
      "learning_rate": 8.507934199923884e-06,
      "loss": 0.337,
      "step": 344
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3832743167877197,
      "learning_rate": 8.498687076851813e-06,
      "loss": 0.3297,
      "step": 345
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.2673197090625763,
      "learning_rate": 8.489416446663037e-06,
      "loss": 0.3706,
      "step": 346
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9701676964759827,
      "learning_rate": 8.480122371645433e-06,
      "loss": 0.1202,
      "step": 347
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4894365668296814,
      "learning_rate": 8.470804914244403e-06,
      "loss": 0.3585,
      "step": 348
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.38096022605895996,
      "learning_rate": 8.461464137062443e-06,
      "loss": 0.3137,
      "step": 349
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.34472718834877014,
      "learning_rate": 8.452100102858734e-06,
      "loss": 0.3293,
      "step": 350
    },
    {
      "epoch": 0.28,
      "eval_loss": 0.4187738299369812,
      "eval_runtime": 125.6745,
      "eval_samples_per_second": 35.011,
      "eval_steps_per_second": 1.098,
      "step": 350
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.2891543507575989,
      "learning_rate": 8.442712874548722e-06,
      "loss": 0.3323,
      "step": 351
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3270963132381439,
      "learning_rate": 8.433302515203685e-06,
      "loss": 0.3206,
      "step": 352
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.0632033348083496,
      "learning_rate": 8.423869088050316e-06,
      "loss": 0.1145,
      "step": 353
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3264259696006775,
      "learning_rate": 8.414412656470297e-06,
      "loss": 0.2985,
      "step": 354
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.36073189973831177,
      "learning_rate": 8.404933283999876e-06,
      "loss": 0.3449,
      "step": 355
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.338632732629776,
      "learning_rate": 8.395431034329431e-06,
      "loss": 0.3465,
      "step": 356
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7373477816581726,
      "learning_rate": 8.385905971303054e-06,
      "loss": 0.1274,
      "step": 357
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3096041679382324,
      "learning_rate": 8.376358158918114e-06,
      "loss": 0.3182,
      "step": 358
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7570616602897644,
      "learning_rate": 8.36678766132483e-06,
      "loss": 0.1279,
      "step": 359
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40865325927734375,
      "learning_rate": 8.357194542825835e-06,
      "loss": 0.3433,
      "step": 360
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7224384546279907,
      "learning_rate": 8.347578867875756e-06,
      "loss": 0.1142,
      "step": 361
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3150996267795563,
      "learning_rate": 8.33794070108077e-06,
      "loss": 0.3275,
      "step": 362
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.1879844665527344,
      "learning_rate": 8.328280107198165e-06,
      "loss": 0.8425,
      "step": 363
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.2854990065097809,
      "learning_rate": 8.31859715113593e-06,
      "loss": 0.3192,
      "step": 364
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.2767919600009918,
      "learning_rate": 8.308891897952282e-06,
      "loss": 0.3282,
      "step": 365
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.8005654215812683,
      "learning_rate": 8.299164412855268e-06,
      "loss": 0.1359,
      "step": 366
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.40163227915763855,
      "learning_rate": 8.289414761202293e-06,
      "loss": 0.343,
      "step": 367
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3321298062801361,
      "learning_rate": 8.2796430084997e-06,
      "loss": 0.3213,
      "step": 368
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7416617274284363,
      "learning_rate": 8.26984922040233e-06,
      "loss": 0.1078,
      "step": 369
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7866430878639221,
      "learning_rate": 8.260033462713073e-06,
      "loss": 0.1355,
      "step": 370
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7611014246940613,
      "learning_rate": 8.250195801382426e-06,
      "loss": 0.107,
      "step": 371
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4559573531150818,
      "learning_rate": 8.240336302508056e-06,
      "loss": 0.3358,
      "step": 372
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.33949726819992065,
      "learning_rate": 8.230455032334355e-06,
      "loss": 0.3378,
      "step": 373
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.2558572292327881,
      "learning_rate": 8.22055205725199e-06,
      "loss": 0.3619,
      "step": 374
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3661966919898987,
      "learning_rate": 8.210627443797459e-06,
      "loss": 0.3164,
      "step": 375
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6180473566055298,
      "learning_rate": 8.200681258652648e-06,
      "loss": 0.0822,
      "step": 376
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3876212537288666,
      "learning_rate": 8.190713568644378e-06,
      "loss": 0.3422,
      "step": 377
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.2791929244995117,
      "learning_rate": 8.180724440743957e-06,
      "loss": 0.3116,
      "step": 378
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8628720045089722,
      "learning_rate": 8.17071394206673e-06,
      "loss": 0.1341,
      "step": 379
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4461103677749634,
      "learning_rate": 8.160682139871634e-06,
      "loss": 0.3168,
      "step": 380
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9579908847808838,
      "learning_rate": 8.150629101560732e-06,
      "loss": 0.1144,
      "step": 381
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4170131981372833,
      "learning_rate": 8.14055489467878e-06,
      "loss": 0.3167,
      "step": 382
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8383257389068604,
      "learning_rate": 8.130459586912753e-06,
      "loss": 0.1201,
      "step": 383
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3079802989959717,
      "learning_rate": 8.120343246091403e-06,
      "loss": 0.314,
      "step": 384
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7842873334884644,
      "learning_rate": 8.1102059401848e-06,
      "loss": 0.1133,
      "step": 385
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7239150404930115,
      "learning_rate": 8.100047737303877e-06,
      "loss": 0.1066,
      "step": 386
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7408301830291748,
      "learning_rate": 8.089868705699963e-06,
      "loss": 0.1128,
      "step": 387
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7187681198120117,
      "learning_rate": 8.079668913764343e-06,
      "loss": 0.107,
      "step": 388
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.5362511873245239,
      "learning_rate": 8.069448430027778e-06,
      "loss": 0.3283,
      "step": 389
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.44702064990997314,
      "learning_rate": 8.059207323160057e-06,
      "loss": 0.3499,
      "step": 390
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7992594242095947,
      "learning_rate": 8.048945661969531e-06,
      "loss": 0.1214,
      "step": 391
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4866289496421814,
      "learning_rate": 8.038663515402659e-06,
      "loss": 0.3324,
      "step": 392
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.5373634696006775,
      "learning_rate": 8.028360952543528e-06,
      "loss": 0.3413,
      "step": 393
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3927037715911865,
      "learning_rate": 8.018038042613407e-06,
      "loss": 0.3179,
      "step": 394
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.2551895081996918,
      "learning_rate": 8.00769485497027e-06,
      "loss": 0.3185,
      "step": 395
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9608877301216125,
      "learning_rate": 7.99733145910833e-06,
      "loss": 0.1283,
      "step": 396
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8003595471382141,
      "learning_rate": 7.986947924657584e-06,
      "loss": 0.1194,
      "step": 397
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6517714262008667,
      "learning_rate": 7.97654432138333e-06,
      "loss": 0.34,
      "step": 398
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4915391504764557,
      "learning_rate": 7.96612071918571e-06,
      "loss": 0.3167,
      "step": 399
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.26786476373672485,
      "learning_rate": 7.955677188099234e-06,
      "loss": 0.3277,
      "step": 400
    },
    {
      "epoch": 0.32,
      "eval_loss": 0.41313230991363525,
      "eval_runtime": 124.8029,
      "eval_samples_per_second": 35.256,
      "eval_steps_per_second": 1.106,
      "step": 400
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9011620879173279,
      "learning_rate": 7.94521379829231e-06,
      "loss": 0.1086,
      "step": 401
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.5873793959617615,
      "learning_rate": 7.93473062006677e-06,
      "loss": 0.3118,
      "step": 402
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.020769476890564,
      "learning_rate": 7.924227723857411e-06,
      "loss": 0.1316,
      "step": 403
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8688949942588806,
      "learning_rate": 7.913705180231505e-06,
      "loss": 0.0858,
      "step": 404
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.6212408542633057,
      "learning_rate": 7.90316305988833e-06,
      "loss": 0.3277,
      "step": 405
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4541819095611572,
      "learning_rate": 7.892601433658705e-06,
      "loss": 0.3237,
      "step": 406
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.2613809108734131,
      "learning_rate": 7.882020372504494e-06,
      "loss": 0.3223,
      "step": 407
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9113644361495972,
      "learning_rate": 7.871419947518152e-06,
      "loss": 0.1283,
      "step": 408
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.5060466527938843,
      "learning_rate": 7.860800229922234e-06,
      "loss": 0.3509,
      "step": 409
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9320185780525208,
      "learning_rate": 7.850161291068915e-06,
      "loss": 0.1111,
      "step": 410
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.5332868695259094,
      "learning_rate": 7.839503202439517e-06,
      "loss": 0.336,
      "step": 411
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.5366055965423584,
      "learning_rate": 7.828826035644025e-06,
      "loss": 0.3324,
      "step": 412
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.31459659337997437,
      "learning_rate": 7.818129862420612e-06,
      "loss": 0.3141,
      "step": 413
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.7437744736671448,
      "learning_rate": 7.807414754635145e-06,
      "loss": 0.1174,
      "step": 414
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3519972860813141,
      "learning_rate": 7.796680784280714e-06,
      "loss": 0.316,
      "step": 415
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.45976340770721436,
      "learning_rate": 7.785928023477142e-06,
      "loss": 0.3357,
      "step": 416
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9735758900642395,
      "learning_rate": 7.775156544470506e-06,
      "loss": 0.1229,
      "step": 417
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3671870529651642,
      "learning_rate": 7.764366419632636e-06,
      "loss": 0.3259,
      "step": 418
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.44302958250045776,
      "learning_rate": 7.753557721460656e-06,
      "loss": 0.3574,
      "step": 419
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.2774980366230011,
      "learning_rate": 7.742730522576469e-06,
      "loss": 0.335,
      "step": 420
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.24432732164859772,
      "learning_rate": 7.731884895726287e-06,
      "loss": 0.316,
      "step": 421
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7951949238777161,
      "learning_rate": 7.721020913780137e-06,
      "loss": 0.1113,
      "step": 422
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.987715721130371,
      "learning_rate": 7.710138649731367e-06,
      "loss": 0.8097,
      "step": 423
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.44410622119903564,
      "learning_rate": 7.699238176696161e-06,
      "loss": 0.3229,
      "step": 424
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7030758857727051,
      "learning_rate": 7.688319567913054e-06,
      "loss": 0.1266,
      "step": 425
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.44796743988990784,
      "learning_rate": 7.677382896742417e-06,
      "loss": 0.3068,
      "step": 426
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3677246868610382,
      "learning_rate": 7.66642823666599e-06,
      "loss": 0.3483,
      "step": 427
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7018682360649109,
      "learning_rate": 7.655455661286376e-06,
      "loss": 0.1173,
      "step": 428
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7550622820854187,
      "learning_rate": 7.644465244326547e-06,
      "loss": 0.1111,
      "step": 429
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.3595439195632935,
      "learning_rate": 7.63345705962935e-06,
      "loss": 0.84,
      "step": 430
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39844557642936707,
      "learning_rate": 7.622431181157011e-06,
      "loss": 0.3308,
      "step": 431
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.41230782866477966,
      "learning_rate": 7.611387682990636e-06,
      "loss": 0.3339,
      "step": 432
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3306710720062256,
      "learning_rate": 7.600326639329716e-06,
      "loss": 0.329,
      "step": 433
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.31694936752319336,
      "learning_rate": 7.589248124491627e-06,
      "loss": 0.3342,
      "step": 434
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.21926361322402954,
      "learning_rate": 7.578152212911134e-06,
      "loss": 0.2869,
      "step": 435
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8982419371604919,
      "learning_rate": 7.567038979139882e-06,
      "loss": 0.1015,
      "step": 436
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.375952810049057,
      "learning_rate": 7.555908497845905e-06,
      "loss": 0.3492,
      "step": 437
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.8938220739364624,
      "learning_rate": 7.544760843813122e-06,
      "loss": 0.817,
      "step": 438
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3916173279285431,
      "learning_rate": 7.533596091940829e-06,
      "loss": 0.3086,
      "step": 439
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3600402772426605,
      "learning_rate": 7.5224143172432e-06,
      "loss": 0.3356,
      "step": 440
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.25382593274116516,
      "learning_rate": 7.511215594848784e-06,
      "loss": 0.2959,
      "step": 441
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8701909184455872,
      "learning_rate": 7.500000000000001e-06,
      "loss": 0.1237,
      "step": 442
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8493106961250305,
      "learning_rate": 7.488767608052629e-06,
      "loss": 0.1227,
      "step": 443
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8079315423965454,
      "learning_rate": 7.477518494475309e-06,
      "loss": 0.126,
      "step": 444
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.6835377216339111,
      "learning_rate": 7.466252734849027e-06,
      "loss": 0.7813,
      "step": 445
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.5899730324745178,
      "learning_rate": 7.454970404866612e-06,
      "loss": 0.3329,
      "step": 446
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.458926796913147,
      "learning_rate": 7.44367158033223e-06,
      "loss": 0.3325,
      "step": 447
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7858754396438599,
      "learning_rate": 7.4323563371608665e-06,
      "loss": 0.1182,
      "step": 448
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3622875213623047,
      "learning_rate": 7.421024751377825e-06,
      "loss": 0.7999,
      "step": 449
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.46548181772232056,
      "learning_rate": 7.409676899118213e-06,
      "loss": 0.3463,
      "step": 450
    },
    {
      "epoch": 0.36,
      "eval_loss": 0.41137340664863586,
      "eval_runtime": 126.5811,
      "eval_samples_per_second": 34.76,
      "eval_steps_per_second": 1.09,
      "step": 450
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7995121479034424,
      "learning_rate": 7.398312856626424e-06,
      "loss": 0.1239,
      "step": 451
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8456034064292908,
      "learning_rate": 7.386932700255635e-06,
      "loss": 0.1149,
      "step": 452
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.42894306778907776,
      "learning_rate": 7.375536506467294e-06,
      "loss": 0.3032,
      "step": 453
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.41202402114868164,
      "learning_rate": 7.3641243518305915e-06,
      "loss": 0.3503,
      "step": 454
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6960585117340088,
      "learning_rate": 7.352696313021966e-06,
      "loss": 0.0998,
      "step": 455
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.0175209045410156,
      "learning_rate": 7.341252466824572e-06,
      "loss": 0.8092,
      "step": 456
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4167150557041168,
      "learning_rate": 7.329792890127778e-06,
      "loss": 0.3138,
      "step": 457
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.36713919043540955,
      "learning_rate": 7.318317659926637e-06,
      "loss": 0.3179,
      "step": 458
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8503990769386292,
      "learning_rate": 7.30682685332138e-06,
      "loss": 0.1008,
      "step": 459
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3024350702762604,
      "learning_rate": 7.295320547516893e-06,
      "loss": 0.3283,
      "step": 460
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7333568334579468,
      "learning_rate": 7.283798819822193e-06,
      "loss": 0.094,
      "step": 461
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.39860185980796814,
      "learning_rate": 7.272261747649922e-06,
      "loss": 0.361,
      "step": 462
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.282521516084671,
      "learning_rate": 7.2607094085158135e-06,
      "loss": 0.3131,
      "step": 463
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.6316107511520386,
      "learning_rate": 7.249141880038181e-06,
      "loss": 0.7978,
      "step": 464
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.22498835623264313,
      "learning_rate": 7.237559239937388e-06,
      "loss": 0.2955,
      "step": 465
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.31199467182159424,
      "learning_rate": 7.225961566035335e-06,
      "loss": 0.3263,
      "step": 466
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.2748737931251526,
      "learning_rate": 7.214348936254934e-06,
      "loss": 0.3304,
      "step": 467
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.2493746429681778,
      "learning_rate": 7.202721428619576e-06,
      "loss": 0.3236,
      "step": 468
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.223891481757164,
      "learning_rate": 7.191079121252618e-06,
      "loss": 0.3095,
      "step": 469
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9259151220321655,
      "learning_rate": 7.179422092376856e-06,
      "loss": 0.1184,
      "step": 470
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8021577000617981,
      "learning_rate": 7.167750420313994e-06,
      "loss": 0.1077,
      "step": 471
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.4023081064224243,
      "learning_rate": 7.156064183484122e-06,
      "loss": 0.3224,
      "step": 472
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.6848055720329285,
      "learning_rate": 7.144363460405191e-06,
      "loss": 0.1119,
      "step": 473
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7078185081481934,
      "learning_rate": 7.132648329692478e-06,
      "loss": 0.1014,
      "step": 474
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7740020751953125,
      "learning_rate": 7.1209188700580666e-06,
      "loss": 0.1249,
      "step": 475
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.29740121960639954,
      "learning_rate": 7.109175160310312e-06,
      "loss": 0.334,
      "step": 476
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8636154532432556,
      "learning_rate": 7.097417279353316e-06,
      "loss": 0.1006,
      "step": 477
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.2952415347099304,
      "learning_rate": 7.085645306186391e-06,
      "loss": 0.301,
      "step": 478
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.2973278760910034,
      "learning_rate": 7.073859319903536e-06,
      "loss": 0.317,
      "step": 479
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8998776078224182,
      "learning_rate": 7.062059399692899e-06,
      "loss": 0.1075,
      "step": 480
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.343644380569458,
      "learning_rate": 7.0502456248362496e-06,
      "loss": 0.3383,
      "step": 481
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.7966068983078003,
      "learning_rate": 7.038418074708444e-06,
      "loss": 0.1084,
      "step": 482
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.27365660667419434,
      "learning_rate": 7.026576828776895e-06,
      "loss": 0.3145,
      "step": 483
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.2719481885433197,
      "learning_rate": 7.014721966601029e-06,
      "loss": 0.3052,
      "step": 484
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.6227779388427734,
      "learning_rate": 7.0028535678317645e-06,
      "loss": 0.794,
      "step": 485
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.814279317855835,
      "learning_rate": 6.990971712210966e-06,
      "loss": 0.1088,
      "step": 486
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.456285685300827,
      "learning_rate": 6.979076479570912e-06,
      "loss": 0.3405,
      "step": 487
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9397104978561401,
      "learning_rate": 6.967167949833763e-06,
      "loss": 0.1098,
      "step": 488
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3152194917201996,
      "learning_rate": 6.955246203011016e-06,
      "loss": 0.303,
      "step": 489
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.7700897455215454,
      "learning_rate": 6.943311319202976e-06,
      "loss": 0.1136,
      "step": 490
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.2874963879585266,
      "learning_rate": 6.93136337859821e-06,
      "loss": 0.3309,
      "step": 491
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.30904218554496765,
      "learning_rate": 6.919402461473013e-06,
      "loss": 0.2981,
      "step": 492
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.26852214336395264,
      "learning_rate": 6.907428648190865e-06,
      "loss": 0.3006,
      "step": 493
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.2475973516702652,
      "learning_rate": 6.895442019201898e-06,
      "loss": 0.3222,
      "step": 494
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.6651456356048584,
      "learning_rate": 6.8834426550423435e-06,
      "loss": 0.7917,
      "step": 495
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9054052233695984,
      "learning_rate": 6.871430636334005e-06,
      "loss": 0.1057,
      "step": 496
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.41238176822662354,
      "learning_rate": 6.859406043783707e-06,
      "loss": 0.3541,
      "step": 497
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.148107886314392,
      "learning_rate": 6.8473689581827585e-06,
      "loss": 0.1407,
      "step": 498
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.2920672297477722,
      "learning_rate": 6.8353194604064e-06,
      "loss": 0.3299,
      "step": 499
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0114154815673828,
      "learning_rate": 6.8232576314132755e-06,
      "loss": 0.1092,
      "step": 500
    },
    {
      "epoch": 0.4,
      "eval_loss": 0.4092470705509186,
      "eval_runtime": 127.0945,
      "eval_samples_per_second": 34.62,
      "eval_steps_per_second": 1.086,
      "step": 500
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.34088313579559326,
      "learning_rate": 6.811183552244879e-06,
      "loss": 0.3168,
      "step": 501
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6735635995864868,
      "learning_rate": 6.7990973040250055e-06,
      "loss": 0.105,
      "step": 502
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.240600124001503,
      "learning_rate": 6.78699896795922e-06,
      "loss": 0.313,
      "step": 503
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.25179630517959595,
      "learning_rate": 6.774888625334295e-06,
      "loss": 0.3178,
      "step": 504
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0124248266220093,
      "learning_rate": 6.7627663575176825e-06,
      "loss": 0.1253,
      "step": 505
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.30319491028785706,
      "learning_rate": 6.750632245956954e-06,
      "loss": 0.3092,
      "step": 506
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0037238597869873,
      "learning_rate": 6.738486372179253e-06,
      "loss": 0.1523,
      "step": 507
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.9114382863044739,
      "learning_rate": 6.7263288177907604e-06,
      "loss": 0.1158,
      "step": 508
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.23195858299732208,
      "learning_rate": 6.714159664476127e-06,
      "loss": 0.3447,
      "step": 509
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.2424081563949585,
      "learning_rate": 6.701978993997942e-06,
      "loss": 0.3343,
      "step": 510
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3060569167137146,
      "learning_rate": 6.689786888196175e-06,
      "loss": 0.3501,
      "step": 511
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.2840515077114105,
      "learning_rate": 6.677583428987625e-06,
      "loss": 0.3335,
      "step": 512
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.2706287205219269,
      "learning_rate": 6.66536869836538e-06,
      "loss": 0.3261,
      "step": 513
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.8373945355415344,
      "learning_rate": 6.653142778398247e-06,
      "loss": 0.1005,
      "step": 514
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.6709282398223877,
      "learning_rate": 6.640905751230224e-06,
      "loss": 0.7575,
      "step": 515
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.8777205348014832,
      "learning_rate": 6.6286576990799325e-06,
      "loss": 0.0905,
      "step": 516
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4463305175304413,
      "learning_rate": 6.616398704240064e-06,
      "loss": 0.3096,
      "step": 517
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.29522451758384705,
      "learning_rate": 6.6041288490768385e-06,
      "loss": 0.3131,
      "step": 518
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3430493474006653,
      "learning_rate": 6.591848216029444e-06,
      "loss": 0.3241,
      "step": 519
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37475043535232544,
      "learning_rate": 6.579556887609481e-06,
      "loss": 0.329,
      "step": 520
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3665395975112915,
      "learning_rate": 6.567254946400411e-06,
      "loss": 0.3143,
      "step": 521
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.34238186478614807,
      "learning_rate": 6.554942475057003e-06,
      "loss": 0.3138,
      "step": 522
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3698040246963501,
      "learning_rate": 6.542619556304774e-06,
      "loss": 0.3141,
      "step": 523
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.2698374092578888,
      "learning_rate": 6.530286272939438e-06,
      "loss": 0.3055,
      "step": 524
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.35473117232322693,
      "learning_rate": 6.517942707826342e-06,
      "loss": 0.3275,
      "step": 525
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9656524062156677,
      "learning_rate": 6.505588943899923e-06,
      "loss": 0.1112,
      "step": 526
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3593924641609192,
      "learning_rate": 6.493225064163134e-06,
      "loss": 0.3089,
      "step": 527
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7312514781951904,
      "learning_rate": 6.4808511516868976e-06,
      "loss": 0.1131,
      "step": 528
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.2802755832672119,
      "learning_rate": 6.468467289609547e-06,
      "loss": 0.3148,
      "step": 529
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.28326696157455444,
      "learning_rate": 6.456073561136261e-06,
      "loss": 0.3146,
      "step": 530
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.5923337936401367,
      "learning_rate": 6.443670049538512e-06,
      "loss": 0.7645,
      "step": 531
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.271889865398407,
      "learning_rate": 6.4312568381535045e-06,
      "loss": 0.3029,
      "step": 532
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.7282824516296387,
      "learning_rate": 6.41883401038361e-06,
      "loss": 0.106,
      "step": 533
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.755073606967926,
      "learning_rate": 6.406401649695814e-06,
      "loss": 0.1257,
      "step": 534
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8716256022453308,
      "learning_rate": 6.393959839621154e-06,
      "loss": 0.1236,
      "step": 535
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.35991090536117554,
      "learning_rate": 6.381508663754152e-06,
      "loss": 0.323,
      "step": 536
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.3595662117004395,
      "learning_rate": 6.369048205752261e-06,
      "loss": 0.7558,
      "step": 537
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8565229177474976,
      "learning_rate": 6.356578549335295e-06,
      "loss": 0.1078,
      "step": 538
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3459480404853821,
      "learning_rate": 6.3440997782848764e-06,
      "loss": 0.3235,
      "step": 539
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8394630551338196,
      "learning_rate": 6.331611976443862e-06,
      "loss": 0.115,
      "step": 540
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.7858494520187378,
      "learning_rate": 6.31911522771579e-06,
      "loss": 0.1139,
      "step": 541
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.26256754994392395,
      "learning_rate": 6.306609616064304e-06,
      "loss": 0.3421,
      "step": 542
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.26770973205566406,
      "learning_rate": 6.294095225512604e-06,
      "loss": 0.3138,
      "step": 543
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.30668386816978455,
      "learning_rate": 6.281572140142871e-06,
      "loss": 0.3358,
      "step": 544
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3182132840156555,
      "learning_rate": 6.269040444095704e-06,
      "loss": 0.3196,
      "step": 545
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8499966263771057,
      "learning_rate": 6.256500221569556e-06,
      "loss": 0.1236,
      "step": 546
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4293077290058136,
      "learning_rate": 6.243951556820169e-06,
      "loss": 0.3082,
      "step": 547
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.30726340413093567,
      "learning_rate": 6.231394534160008e-06,
      "loss": 0.3315,
      "step": 548
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9142295122146606,
      "learning_rate": 6.218829237957689e-06,
      "loss": 0.106,
      "step": 549
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.0335973501205444,
      "learning_rate": 6.2062557526374226e-06,
      "loss": 0.1228,
      "step": 550
    },
    {
      "epoch": 0.44,
      "eval_loss": 0.41243425011634827,
      "eval_runtime": 226.8867,
      "eval_samples_per_second": 19.393,
      "eval_steps_per_second": 0.608,
      "step": 550
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.0813560485839844,
      "learning_rate": 6.193674162678437e-06,
      "loss": 0.7983,
      "step": 551
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4801543354988098,
      "learning_rate": 6.181084552614414e-06,
      "loss": 0.3095,
      "step": 552
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4573207199573517,
      "learning_rate": 6.168487007032922e-06,
      "loss": 0.325,
      "step": 553
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.31600162386894226,
      "learning_rate": 6.15588161057485e-06,
      "loss": 0.3191,
      "step": 554
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.560182511806488,
      "learning_rate": 6.143268447933828e-06,
      "loss": 0.3284,
      "step": 555
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39304330945014954,
      "learning_rate": 6.130647603855674e-06,
      "loss": 0.3124,
      "step": 556
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.256091833114624,
      "learning_rate": 6.118019163137814e-06,
      "loss": 0.7476,
      "step": 557
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.6744900345802307,
      "learning_rate": 6.10538321062871e-06,
      "loss": 0.1101,
      "step": 558
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4708521068096161,
      "learning_rate": 6.092739831227298e-06,
      "loss": 0.3349,
      "step": 559
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.26258385181427,
      "learning_rate": 6.080089109882419e-06,
      "loss": 0.7273,
      "step": 560
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4472770392894745,
      "learning_rate": 6.067431131592234e-06,
      "loss": 0.3035,
      "step": 561
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4834450483322144,
      "learning_rate": 6.0547659814036664e-06,
      "loss": 0.7708,
      "step": 562
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4542816877365112,
      "learning_rate": 6.042093744411829e-06,
      "loss": 0.7935,
      "step": 563
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3533859848976135,
      "learning_rate": 6.029414505759448e-06,
      "loss": 0.3136,
      "step": 564
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3395560681819916,
      "learning_rate": 6.016728350636289e-06,
      "loss": 0.322,
      "step": 565
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.5486723184585571,
      "learning_rate": 6.004035364278593e-06,
      "loss": 0.7679,
      "step": 566
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8565760254859924,
      "learning_rate": 5.991335631968498e-06,
      "loss": 0.1134,
      "step": 567
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8269524574279785,
      "learning_rate": 5.978629239033465e-06,
      "loss": 0.13,
      "step": 568
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.39766594767570496,
      "learning_rate": 5.96591627084571e-06,
      "loss": 0.3289,
      "step": 569
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8782796859741211,
      "learning_rate": 5.953196812821622e-06,
      "loss": 0.1198,
      "step": 570
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8132389783859253,
      "learning_rate": 5.940470950421199e-06,
      "loss": 0.134,
      "step": 571
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.2360127568244934,
      "learning_rate": 5.927738769147467e-06,
      "loss": 0.2964,
      "step": 572
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.2152537703514099,
      "learning_rate": 5.915000354545908e-06,
      "loss": 0.3156,
      "step": 573
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.9036551117897034,
      "learning_rate": 5.902255792203882e-06,
      "loss": 0.1245,
      "step": 574
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.700111985206604,
      "learning_rate": 5.88950516775006e-06,
      "loss": 0.7387,
      "step": 575
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.7509326338768005,
      "learning_rate": 5.876748566853839e-06,
      "loss": 0.1048,
      "step": 576
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.364085853099823,
      "learning_rate": 5.8639860752247726e-06,
      "loss": 0.3095,
      "step": 577
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8240714073181152,
      "learning_rate": 5.851217778611994e-06,
      "loss": 0.1264,
      "step": 578
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.2881168723106384,
      "learning_rate": 5.838443762803636e-06,
      "loss": 0.3611,
      "step": 579
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.26604753732681274,
      "learning_rate": 5.825664113626258e-06,
      "loss": 0.3492,
      "step": 580
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6837415099143982,
      "learning_rate": 5.812878916944276e-06,
      "loss": 0.0993,
      "step": 581
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3464932441711426,
      "learning_rate": 5.800088258659371e-06,
      "loss": 0.316,
      "step": 582
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3193817734718323,
      "learning_rate": 5.7872922247099206e-06,
      "loss": 0.3297,
      "step": 583
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3848891854286194,
      "learning_rate": 5.774490901070424e-06,
      "loss": 0.3346,
      "step": 584
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5297150611877441,
      "learning_rate": 5.7616843737509195e-06,
      "loss": 0.7673,
      "step": 585
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3999221622943878,
      "learning_rate": 5.748872728796409e-06,
      "loss": 0.3513,
      "step": 586
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.39600974321365356,
      "learning_rate": 5.736056052286274e-06,
      "loss": 0.3349,
      "step": 587
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.2720963954925537,
      "learning_rate": 5.723234430333711e-06,
      "loss": 0.3145,
      "step": 588
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.29468080401420593,
      "learning_rate": 5.710407949085135e-06,
      "loss": 0.3315,
      "step": 589
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3366290032863617,
      "learning_rate": 5.697576694719616e-06,
      "loss": 0.3175,
      "step": 590
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.7298464179039001,
      "learning_rate": 5.684740753448291e-06,
      "loss": 0.1073,
      "step": 591
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.29451099038124084,
      "learning_rate": 5.6719002115137914e-06,
      "loss": 0.3024,
      "step": 592
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3470348119735718,
      "learning_rate": 5.659055155189651e-06,
      "loss": 0.7412,
      "step": 593
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7983708381652832,
      "learning_rate": 5.646205670779745e-06,
      "loss": 0.1042,
      "step": 594
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.9385223984718323,
      "learning_rate": 5.6333518446176974e-06,
      "loss": 0.116,
      "step": 595
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8464227914810181,
      "learning_rate": 5.6204937630662974e-06,
      "loss": 0.1034,
      "step": 596
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.682330310344696,
      "learning_rate": 5.607631512516934e-06,
      "loss": 0.1122,
      "step": 597
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5912056565284729,
      "learning_rate": 5.594765179389003e-06,
      "loss": 0.3102,
      "step": 598
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.46928420662879944,
      "learning_rate": 5.581894850129328e-06,
      "loss": 0.3207,
      "step": 599
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7382461428642273,
      "learning_rate": 5.569020611211589e-06,
      "loss": 0.0934,
      "step": 600
    },
    {
      "epoch": 0.48,
      "eval_loss": 0.40984416007995605,
      "eval_runtime": 125.1339,
      "eval_samples_per_second": 35.162,
      "eval_steps_per_second": 1.103,
      "step": 600
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.5592188835144043,
      "learning_rate": 5.556142549135725e-06,
      "loss": 0.7402,
      "step": 601
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7773728370666504,
      "learning_rate": 5.543260750427373e-06,
      "loss": 0.3427,
      "step": 602
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8186361789703369,
      "learning_rate": 5.5303753016372675e-06,
      "loss": 0.1037,
      "step": 603
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6695595979690552,
      "learning_rate": 5.517486289340669e-06,
      "loss": 0.3416,
      "step": 604
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.28326019644737244,
      "learning_rate": 5.5045938001367824e-06,
      "loss": 0.3012,
      "step": 605
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5604239702224731,
      "learning_rate": 5.4916979206481745e-06,
      "loss": 0.3245,
      "step": 606
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3426687717437744,
      "learning_rate": 5.478798737520187e-06,
      "loss": 0.7481,
      "step": 607
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.388066053390503,
      "learning_rate": 5.465896337420359e-06,
      "loss": 0.7354,
      "step": 608
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6705886721611023,
      "learning_rate": 5.452990807037847e-06,
      "loss": 0.339,
      "step": 609
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.838783860206604,
      "learning_rate": 5.440082233082837e-06,
      "loss": 0.1154,
      "step": 610
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.406233012676239,
      "learning_rate": 5.427170702285964e-06,
      "loss": 0.3238,
      "step": 611
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.28266388177871704,
      "learning_rate": 5.414256301397731e-06,
      "loss": 0.3131,
      "step": 612
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.409875750541687,
      "learning_rate": 5.401339117187926e-06,
      "loss": 0.7506,
      "step": 613
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.39642828702926636,
      "learning_rate": 5.388419236445033e-06,
      "loss": 0.2972,
      "step": 614
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6123180985450745,
      "learning_rate": 5.375496745975655e-06,
      "loss": 0.3483,
      "step": 615
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.8433905243873596,
      "learning_rate": 5.362571732603934e-06,
      "loss": 0.1139,
      "step": 616
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.33196938037872314,
      "learning_rate": 5.349644283170957e-06,
      "loss": 0.3309,
      "step": 617
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.7122211456298828,
      "learning_rate": 5.336714484534183e-06,
      "loss": 0.0929,
      "step": 618
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3676936626434326,
      "learning_rate": 5.32378242356685e-06,
      "loss": 0.7764,
      "step": 619
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1601085662841797,
      "learning_rate": 5.310848187157404e-06,
      "loss": 0.1008,
      "step": 620
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6853190064430237,
      "learning_rate": 5.2979118622088976e-06,
      "loss": 0.099,
      "step": 621
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.7405438423156738,
      "learning_rate": 5.284973535638424e-06,
      "loss": 0.1016,
      "step": 622
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6986609697341919,
      "learning_rate": 5.272033294376522e-06,
      "loss": 0.3132,
      "step": 623
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6137627363204956,
      "learning_rate": 5.2590912253665925e-06,
      "loss": 0.3463,
      "step": 624
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6454455852508545,
      "learning_rate": 5.246147415564321e-06,
      "loss": 0.0944,
      "step": 625
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.24035970866680145,
      "learning_rate": 5.233201951937088e-06,
      "loss": 0.2983,
      "step": 626
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3456294536590576,
      "learning_rate": 5.220254921463384e-06,
      "loss": 0.3499,
      "step": 627
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9054668545722961,
      "learning_rate": 5.207306411132228e-06,
      "loss": 0.1081,
      "step": 628
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4728631973266602,
      "learning_rate": 5.1943565079425805e-06,
      "loss": 0.7466,
      "step": 629
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8444988131523132,
      "learning_rate": 5.181405298902763e-06,
      "loss": 0.1276,
      "step": 630
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8394331336021423,
      "learning_rate": 5.168452871029871e-06,
      "loss": 0.1018,
      "step": 631
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5635598301887512,
      "learning_rate": 5.155499311349185e-06,
      "loss": 0.2984,
      "step": 632
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5478163361549377,
      "learning_rate": 5.142544706893595e-06,
      "loss": 0.3157,
      "step": 633
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.40066418051719666,
      "learning_rate": 5.1295891447030056e-06,
      "loss": 0.3053,
      "step": 634
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.2639557123184204,
      "learning_rate": 5.116632711823762e-06,
      "loss": 0.3287,
      "step": 635
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.28825199604034424,
      "learning_rate": 5.103675495308054e-06,
      "loss": 0.314,
      "step": 636
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3907425105571747,
      "learning_rate": 5.090717582213338e-06,
      "loss": 0.3199,
      "step": 637
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4797818660736084,
      "learning_rate": 5.077759059601756e-06,
      "loss": 0.3021,
      "step": 638
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4760286808013916,
      "learning_rate": 5.064800014539536e-06,
      "loss": 0.3325,
      "step": 639
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3791068494319916,
      "learning_rate": 5.051840534096422e-06,
      "loss": 0.3243,
      "step": 640
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.7515676617622375,
      "learning_rate": 5.038880705345086e-06,
      "loss": 0.0872,
      "step": 641
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3077085614204407,
      "learning_rate": 5.025920615360532e-06,
      "loss": 0.331,
      "step": 642
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.7818421125411987,
      "learning_rate": 5.0129603512195255e-06,
      "loss": 0.1162,
      "step": 643
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.687351644039154,
      "learning_rate": 5e-06,
      "loss": 0.0862,
      "step": 644
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5373737812042236,
      "learning_rate": 4.987039648780475e-06,
      "loss": 0.3384,
      "step": 645
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.7973963022232056,
      "learning_rate": 4.974079384639469e-06,
      "loss": 0.1036,
      "step": 646
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6366605758666992,
      "learning_rate": 4.961119294654915e-06,
      "loss": 0.8125,
      "step": 647
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.7411820292472839,
      "learning_rate": 4.948159465903578e-06,
      "loss": 0.1202,
      "step": 648
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3944859504699707,
      "learning_rate": 4.935199985460466e-06,
      "loss": 0.7224,
      "step": 649
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.7473369240760803,
      "learning_rate": 4.922240940398246e-06,
      "loss": 0.0979,
      "step": 650
    },
    {
      "epoch": 0.52,
      "eval_loss": 0.4109693765640259,
      "eval_runtime": 148.117,
      "eval_samples_per_second": 29.706,
      "eval_steps_per_second": 0.932,
      "step": 650
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8092165589332581,
      "learning_rate": 4.909282417786662e-06,
      "loss": 0.1085,
      "step": 651
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3428345918655396,
      "learning_rate": 4.89632450469195e-06,
      "loss": 0.7364,
      "step": 652
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.2515859603881836,
      "learning_rate": 4.883367288176239e-06,
      "loss": 0.7373,
      "step": 653
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.45197394490242004,
      "learning_rate": 4.870410855296994e-06,
      "loss": 0.3392,
      "step": 654
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.36273297667503357,
      "learning_rate": 4.857455293106408e-06,
      "loss": 0.3373,
      "step": 655
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.2625487744808197,
      "learning_rate": 4.844500688650817e-06,
      "loss": 0.3416,
      "step": 656
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4741679430007935,
      "learning_rate": 4.831547128970129e-06,
      "loss": 0.7428,
      "step": 657
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.7608110308647156,
      "learning_rate": 4.818594701097239e-06,
      "loss": 0.0974,
      "step": 658
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.420812726020813,
      "learning_rate": 4.80564349205742e-06,
      "loss": 0.7526,
      "step": 659
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5099961161613464,
      "learning_rate": 4.792693588867774e-06,
      "loss": 0.3264,
      "step": 660
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.7958444356918335,
      "learning_rate": 4.779745078536618e-06,
      "loss": 0.0972,
      "step": 661
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5271555781364441,
      "learning_rate": 4.766798048062913e-06,
      "loss": 0.3385,
      "step": 662
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.36337122321128845,
      "learning_rate": 4.753852584435679e-06,
      "loss": 0.3069,
      "step": 663
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.7511065006256104,
      "learning_rate": 4.740908774633408e-06,
      "loss": 0.0895,
      "step": 664
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.8519639372825623,
      "learning_rate": 4.72796670562348e-06,
      "loss": 0.1125,
      "step": 665
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.7819215655326843,
      "learning_rate": 4.715026464361576e-06,
      "loss": 0.1151,
      "step": 666
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.8396562337875366,
      "learning_rate": 4.702088137791104e-06,
      "loss": 0.1079,
      "step": 667
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.49342361092567444,
      "learning_rate": 4.689151812842598e-06,
      "loss": 0.3302,
      "step": 668
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.39808470010757446,
      "learning_rate": 4.676217576433149e-06,
      "loss": 0.3063,
      "step": 669
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.7149714231491089,
      "learning_rate": 4.663285515465818e-06,
      "loss": 0.0958,
      "step": 670
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.7349181175231934,
      "learning_rate": 4.650355716829044e-06,
      "loss": 0.0937,
      "step": 671
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.7506901621818542,
      "learning_rate": 4.637428267396069e-06,
      "loss": 0.0995,
      "step": 672
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.029191255569458,
      "learning_rate": 4.624503254024348e-06,
      "loss": 0.7541,
      "step": 673
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3468075394630432,
      "learning_rate": 4.611580763554969e-06,
      "loss": 0.3155,
      "step": 674
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.7917882204055786,
      "learning_rate": 4.598660882812077e-06,
      "loss": 0.7356,
      "step": 675
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3553463816642761,
      "learning_rate": 4.58574369860227e-06,
      "loss": 0.3375,
      "step": 676
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.2922251224517822,
      "learning_rate": 4.572829297714037e-06,
      "loss": 0.3157,
      "step": 677
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.251729816198349,
      "learning_rate": 4.559917766917166e-06,
      "loss": 0.3362,
      "step": 678
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.7969547510147095,
      "learning_rate": 4.547009192962155e-06,
      "loss": 0.0928,
      "step": 679
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3287234604358673,
      "learning_rate": 4.534103662579643e-06,
      "loss": 0.3365,
      "step": 680
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8248880505561829,
      "learning_rate": 4.521201262479816e-06,
      "loss": 0.1267,
      "step": 681
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3525114357471466,
      "learning_rate": 4.508302079351827e-06,
      "loss": 0.3199,
      "step": 682
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.7069877982139587,
      "learning_rate": 4.4954061998632175e-06,
      "loss": 0.08,
      "step": 683
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.30388370156288147,
      "learning_rate": 4.482513710659333e-06,
      "loss": 0.3284,
      "step": 684
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.2613547444343567,
      "learning_rate": 4.469624698362734e-06,
      "loss": 0.3095,
      "step": 685
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.231150284409523,
      "learning_rate": 4.456739249572628e-06,
      "loss": 0.3025,
      "step": 686
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8028183579444885,
      "learning_rate": 4.4438574508642755e-06,
      "loss": 0.0938,
      "step": 687
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.28149205446243286,
      "learning_rate": 4.430979388788413e-06,
      "loss": 0.308,
      "step": 688
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.32723280787467957,
      "learning_rate": 4.418105149870673e-06,
      "loss": 0.3244,
      "step": 689
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.7574633955955505,
      "learning_rate": 4.405234820611001e-06,
      "loss": 0.1101,
      "step": 690
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.764339029788971,
      "learning_rate": 4.392368487483067e-06,
      "loss": 0.1164,
      "step": 691
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.6858636736869812,
      "learning_rate": 4.379506236933703e-06,
      "loss": 0.102,
      "step": 692
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.2676047086715698,
      "learning_rate": 4.366648155382305e-06,
      "loss": 0.3274,
      "step": 693
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.7376709580421448,
      "learning_rate": 4.3537943292202555e-06,
      "loss": 0.0974,
      "step": 694
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.7215067744255066,
      "learning_rate": 4.3409448448103495e-06,
      "loss": 0.094,
      "step": 695
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.770311117172241,
      "learning_rate": 4.328099788486212e-06,
      "loss": 0.7271,
      "step": 696
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.28441646695137024,
      "learning_rate": 4.3152592465517104e-06,
      "loss": 0.2832,
      "step": 697
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.2763202488422394,
      "learning_rate": 4.3024233052803855e-06,
      "loss": 0.3097,
      "step": 698
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.2494918704032898,
      "learning_rate": 4.289592050914867e-06,
      "loss": 0.3249,
      "step": 699
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.27347156405448914,
      "learning_rate": 4.276765569666292e-06,
      "loss": 0.324,
      "step": 700
    },
    {
      "epoch": 0.56,
      "eval_loss": 0.4087727665901184,
      "eval_runtime": 125.7556,
      "eval_samples_per_second": 34.989,
      "eval_steps_per_second": 1.097,
      "step": 700
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.7839453816413879,
      "learning_rate": 4.263943947713727e-06,
      "loss": 0.0993,
      "step": 701
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.28180694580078125,
      "learning_rate": 4.251127271203593e-06,
      "loss": 0.3064,
      "step": 702
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4255951642990112,
      "learning_rate": 4.238315626249081e-06,
      "loss": 0.7486,
      "step": 703
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.29196566343307495,
      "learning_rate": 4.2255090989295765e-06,
      "loss": 0.3232,
      "step": 704
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.8153947591781616,
      "learning_rate": 4.212707775290081e-06,
      "loss": 0.1202,
      "step": 705
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.7250766754150391,
      "learning_rate": 4.199911741340631e-06,
      "loss": 0.0998,
      "step": 706
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.7043165564537048,
      "learning_rate": 4.187121083055724e-06,
      "loss": 0.1101,
      "step": 707
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3076341152191162,
      "learning_rate": 4.174335886373744e-06,
      "loss": 0.3368,
      "step": 708
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.7440431118011475,
      "learning_rate": 4.161556237196366e-06,
      "loss": 0.1033,
      "step": 709
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.31167298555374146,
      "learning_rate": 4.148782221388007e-06,
      "loss": 0.3402,
      "step": 710
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.6342540979385376,
      "learning_rate": 4.136013924775228e-06,
      "loss": 0.745,
      "step": 711
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.7430310249328613,
      "learning_rate": 4.123251433146162e-06,
      "loss": 0.0993,
      "step": 712
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3618340492248535,
      "learning_rate": 4.11049483224994e-06,
      "loss": 0.2993,
      "step": 713
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.2356969714164734,
      "learning_rate": 4.097744207796119e-06,
      "loss": 0.3247,
      "step": 714
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3107857704162598,
      "learning_rate": 4.0849996454540945e-06,
      "loss": 0.7294,
      "step": 715
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6833628416061401,
      "learning_rate": 4.072261230852534e-06,
      "loss": 0.0913,
      "step": 716
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.26366883516311646,
      "learning_rate": 4.059529049578803e-06,
      "loss": 0.3218,
      "step": 717
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.28758978843688965,
      "learning_rate": 4.04680318717838e-06,
      "loss": 0.3385,
      "step": 718
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6874575614929199,
      "learning_rate": 4.034083729154291e-06,
      "loss": 0.102,
      "step": 719
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.2624029219150543,
      "learning_rate": 4.021370760966536e-06,
      "loss": 0.3368,
      "step": 720
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8406577706336975,
      "learning_rate": 4.008664368031503e-06,
      "loss": 0.1289,
      "step": 721
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.27075061202049255,
      "learning_rate": 3.995964635721409e-06,
      "loss": 0.3163,
      "step": 722
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4447190761566162,
      "learning_rate": 3.983271649363713e-06,
      "loss": 0.7424,
      "step": 723
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4516143798828125,
      "learning_rate": 3.970585494240554e-06,
      "loss": 0.7291,
      "step": 724
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8889602422714233,
      "learning_rate": 3.957906255588174e-06,
      "loss": 0.0927,
      "step": 725
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.24711908400058746,
      "learning_rate": 3.945234018596335e-06,
      "loss": 0.3038,
      "step": 726
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.29825344681739807,
      "learning_rate": 3.932568868407768e-06,
      "loss": 0.3366,
      "step": 727
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.23076558113098145,
      "learning_rate": 3.919910890117584e-06,
      "loss": 0.2937,
      "step": 728
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.2585126161575317,
      "learning_rate": 3.907260168772703e-06,
      "loss": 0.7301,
      "step": 729
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.2929733693599701,
      "learning_rate": 3.8946167893712916e-06,
      "loss": 0.3242,
      "step": 730
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.31330636143684387,
      "learning_rate": 3.8819808368621895e-06,
      "loss": 0.3134,
      "step": 731
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.2181462049484253,
      "learning_rate": 3.869352396144327e-06,
      "loss": 0.6903,
      "step": 732
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3236172199249268,
      "learning_rate": 3.856731552066173e-06,
      "loss": 0.7241,
      "step": 733
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.7120652794837952,
      "learning_rate": 3.844118389425154e-06,
      "loss": 0.1035,
      "step": 734
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.32238805294036865,
      "learning_rate": 3.831512992967079e-06,
      "loss": 0.3086,
      "step": 735
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3033844530582428,
      "learning_rate": 3.818915447385588e-06,
      "loss": 0.3177,
      "step": 736
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.7654516696929932,
      "learning_rate": 3.806325837321565e-06,
      "loss": 0.0968,
      "step": 737
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.25234493613243103,
      "learning_rate": 3.7937442473625787e-06,
      "loss": 0.3225,
      "step": 738
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.9436845779418945,
      "learning_rate": 3.7811707620423118e-06,
      "loss": 0.105,
      "step": 739
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.280608206987381,
      "learning_rate": 3.768605465839994e-06,
      "loss": 0.3264,
      "step": 740
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.34249061346054077,
      "learning_rate": 3.7560484431798316e-06,
      "loss": 0.3197,
      "step": 741
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.25686508417129517,
      "learning_rate": 3.743499778430445e-06,
      "loss": 0.2993,
      "step": 742
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.7903892993927002,
      "learning_rate": 3.7309595559042977e-06,
      "loss": 0.1169,
      "step": 743
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.29738786816596985,
      "learning_rate": 3.7184278598571298e-06,
      "loss": 0.3142,
      "step": 744
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.33139756321907043,
      "learning_rate": 3.705904774487396e-06,
      "loss": 0.3265,
      "step": 745
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.2675142288208008,
      "learning_rate": 3.6933903839356983e-06,
      "loss": 0.308,
      "step": 746
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.9415281414985657,
      "learning_rate": 3.680884772284212e-06,
      "loss": 0.1141,
      "step": 747
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3401528298854828,
      "learning_rate": 3.6683880235561383e-06,
      "loss": 0.3048,
      "step": 748
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.35942935943603516,
      "learning_rate": 3.6559002217151256e-06,
      "loss": 0.3018,
      "step": 749
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.2892812490463257,
      "learning_rate": 3.6434214506647064e-06,
      "loss": 0.328,
      "step": 750
    },
    {
      "epoch": 0.6,
      "eval_loss": 0.40655845403671265,
      "eval_runtime": 125.3564,
      "eval_samples_per_second": 35.1,
      "eval_steps_per_second": 1.101,
      "step": 750
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.25080743432044983,
      "learning_rate": 3.63095179424774e-06,
      "loss": 0.3043,
      "step": 751
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.7464494705200195,
      "learning_rate": 3.6184913362458497e-06,
      "loss": 0.1112,
      "step": 752
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3885316550731659,
      "learning_rate": 3.6060401603788476e-06,
      "loss": 0.3106,
      "step": 753
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.35533398389816284,
      "learning_rate": 3.5935983503041864e-06,
      "loss": 0.3036,
      "step": 754
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.2933003008365631,
      "learning_rate": 3.581165989616392e-06,
      "loss": 0.3053,
      "step": 755
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.955691933631897,
      "learning_rate": 3.568743161846497e-06,
      "loss": 0.7459,
      "step": 756
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.7822673916816711,
      "learning_rate": 3.5563299504614883e-06,
      "loss": 0.1037,
      "step": 757
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.845447838306427,
      "learning_rate": 3.5439264388637407e-06,
      "loss": 0.0858,
      "step": 758
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8928409814834595,
      "learning_rate": 3.5315327103904545e-06,
      "loss": 0.0999,
      "step": 759
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.6613234281539917,
      "learning_rate": 3.5191488483131033e-06,
      "loss": 0.3403,
      "step": 760
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3948992490768433,
      "learning_rate": 3.506774935836868e-06,
      "loss": 0.6988,
      "step": 761
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.297026515007019,
      "learning_rate": 3.4944110561000785e-06,
      "loss": 0.7368,
      "step": 762
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.34882357716560364,
      "learning_rate": 3.482057292173658e-06,
      "loss": 0.3028,
      "step": 763
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.32278338074684143,
      "learning_rate": 3.469713727060564e-06,
      "loss": 0.3248,
      "step": 764
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.709260880947113,
      "learning_rate": 3.4573804436952265e-06,
      "loss": 0.0802,
      "step": 765
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3350014090538025,
      "learning_rate": 3.4450575249429975e-06,
      "loss": 0.3007,
      "step": 766
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.33337241411209106,
      "learning_rate": 3.432745053599591e-06,
      "loss": 0.288,
      "step": 767
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.749474287033081,
      "learning_rate": 3.4204431123905195e-06,
      "loss": 0.1061,
      "step": 768
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.7747242450714111,
      "learning_rate": 3.4081517839705557e-06,
      "loss": 0.7412,
      "step": 769
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5326060056686401,
      "learning_rate": 3.3958711509231627e-06,
      "loss": 0.6797,
      "step": 770
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.7662276029586792,
      "learning_rate": 3.383601295759938e-06,
      "loss": 0.1022,
      "step": 771
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.49702396988868713,
      "learning_rate": 3.371342300920071e-06,
      "loss": 0.3169,
      "step": 772
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5210922360420227,
      "learning_rate": 3.359094248769777e-06,
      "loss": 0.3201,
      "step": 773
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.2915876507759094,
      "learning_rate": 3.3468572216017536e-06,
      "loss": 0.3245,
      "step": 774
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.39933639764785767,
      "learning_rate": 3.334631301634623e-06,
      "loss": 0.3172,
      "step": 775
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.7417816519737244,
      "learning_rate": 3.322416571012376e-06,
      "loss": 0.0967,
      "step": 776
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5010782480239868,
      "learning_rate": 3.3102131118038274e-06,
      "loss": 0.3075,
      "step": 777
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.43759971857070923,
      "learning_rate": 3.29802100600206e-06,
      "loss": 0.3091,
      "step": 778
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4782450199127197,
      "learning_rate": 3.2858403355238745e-06,
      "loss": 0.3506,
      "step": 779
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.33092570304870605,
      "learning_rate": 3.273671182209241e-06,
      "loss": 0.3028,
      "step": 780
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.7089231014251709,
      "learning_rate": 3.261513627820747e-06,
      "loss": 0.1063,
      "step": 781
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.47360214591026306,
      "learning_rate": 3.249367754043047e-06,
      "loss": 0.3233,
      "step": 782
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3717462420463562,
      "learning_rate": 3.237233642482317e-06,
      "loss": 0.3202,
      "step": 783
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.2988452911376953,
      "learning_rate": 3.225111374665707e-06,
      "loss": 0.3175,
      "step": 784
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6782652735710144,
      "learning_rate": 3.2130010320407824e-06,
      "loss": 0.0829,
      "step": 785
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.41009047627449036,
      "learning_rate": 3.200902695974995e-06,
      "loss": 0.2972,
      "step": 786
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.4522041380405426,
      "learning_rate": 3.188816447755124e-06,
      "loss": 0.3359,
      "step": 787
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.4129328429698944,
      "learning_rate": 3.176742368586725e-06,
      "loss": 0.342,
      "step": 788
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.5936338901519775,
      "learning_rate": 3.1646805395935996e-06,
      "loss": 0.7139,
      "step": 789
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6713833212852478,
      "learning_rate": 3.152631041817244e-06,
      "loss": 0.0975,
      "step": 790
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3725218176841736,
      "learning_rate": 3.1405939562162934e-06,
      "loss": 0.3184,
      "step": 791
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5086314082145691,
      "learning_rate": 3.1285693636659953e-06,
      "loss": 0.3244,
      "step": 792
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3236762285232544,
      "learning_rate": 3.116557344957658e-06,
      "loss": 0.3249,
      "step": 793
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3054201602935791,
      "learning_rate": 3.104557980798104e-06,
      "loss": 0.3124,
      "step": 794
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.7656810879707336,
      "learning_rate": 3.0925713518091348e-06,
      "loss": 0.0862,
      "step": 795
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.44786056876182556,
      "learning_rate": 3.0805975385269883e-06,
      "loss": 0.3276,
      "step": 796
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.7949946522712708,
      "learning_rate": 3.0686366214017904e-06,
      "loss": 0.0914,
      "step": 797
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37598079442977905,
      "learning_rate": 3.056688680797024e-06,
      "loss": 0.2986,
      "step": 798
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.8740997910499573,
      "learning_rate": 3.0447537969889852e-06,
      "loss": 0.0882,
      "step": 799
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.7150043845176697,
      "learning_rate": 3.032832050166239e-06,
      "loss": 0.0934,
      "step": 800
    },
    {
      "epoch": 0.64,
      "eval_loss": 0.40589824318885803,
      "eval_runtime": 126.7124,
      "eval_samples_per_second": 34.724,
      "eval_steps_per_second": 1.089,
      "step": 800
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.7549524307250977,
      "learning_rate": 3.0209235204290886e-06,
      "loss": 0.1043,
      "step": 801
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.2704778015613556,
      "learning_rate": 3.0090282877890376e-06,
      "loss": 0.2798,
      "step": 802
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.36609429121017456,
      "learning_rate": 2.9971464321682364e-06,
      "loss": 0.3297,
      "step": 803
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.7209756374359131,
      "learning_rate": 2.9852780333989706e-06,
      "loss": 0.0947,
      "step": 804
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.26649874448776245,
      "learning_rate": 2.9734231712231073e-06,
      "loss": 0.3115,
      "step": 805
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.27464520931243896,
      "learning_rate": 2.961581925291557e-06,
      "loss": 0.3158,
      "step": 806
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.264657199382782,
      "learning_rate": 2.949754375163751e-06,
      "loss": 0.309,
      "step": 807
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.615930438041687,
      "learning_rate": 2.937940600307104e-06,
      "loss": 0.0789,
      "step": 808
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.27063828706741333,
      "learning_rate": 2.9261406800964665e-06,
      "loss": 0.296,
      "step": 809
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.3130249977111816,
      "learning_rate": 2.9143546938136093e-06,
      "loss": 0.7186,
      "step": 810
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.2744619846343994,
      "learning_rate": 2.902582720646685e-06,
      "loss": 0.7256,
      "step": 811
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.2894488573074341,
      "learning_rate": 2.8908248396896893e-06,
      "loss": 0.3057,
      "step": 812
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.300159752368927,
      "learning_rate": 2.8790811299419334e-06,
      "loss": 0.3061,
      "step": 813
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.2865915298461914,
      "learning_rate": 2.8673516703075247e-06,
      "loss": 0.683,
      "step": 814
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.726587176322937,
      "learning_rate": 2.8556365395948106e-06,
      "loss": 0.083,
      "step": 815
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3237936198711395,
      "learning_rate": 2.843935816515877e-06,
      "loss": 0.3269,
      "step": 816
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.2613251507282257,
      "learning_rate": 2.8322495796860083e-06,
      "loss": 0.2948,
      "step": 817
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3304109573364258,
      "learning_rate": 2.820577907623145e-06,
      "loss": 0.3126,
      "step": 818
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.2886072099208832,
      "learning_rate": 2.808920878747381e-06,
      "loss": 0.3111,
      "step": 819
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5071561336517334,
      "learning_rate": 2.7972785713804264e-06,
      "loss": 0.7144,
      "step": 820
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.2668861746788025,
      "learning_rate": 2.7856510637450666e-06,
      "loss": 0.3421,
      "step": 821
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7839980125427246,
      "learning_rate": 2.7740384339646655e-06,
      "loss": 0.0941,
      "step": 822
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.6981890797615051,
      "learning_rate": 2.7624407600626144e-06,
      "loss": 0.097,
      "step": 823
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7486060857772827,
      "learning_rate": 2.750858119961821e-06,
      "loss": 0.1019,
      "step": 824
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3104943633079529,
      "learning_rate": 2.7392905914841882e-06,
      "loss": 0.2936,
      "step": 825
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7904757857322693,
      "learning_rate": 2.7277382523500804e-06,
      "loss": 0.1066,
      "step": 826
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.684158205986023,
      "learning_rate": 2.716201180177808e-06,
      "loss": 0.0929,
      "step": 827
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.294572353363037,
      "learning_rate": 2.7046794524831088e-06,
      "loss": 0.7104,
      "step": 828
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8250074982643127,
      "learning_rate": 2.693173146678621e-06,
      "loss": 0.0865,
      "step": 829
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7670742869377136,
      "learning_rate": 2.6816823400733628e-06,
      "loss": 0.121,
      "step": 830
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2723578214645386,
      "learning_rate": 2.6702071098722255e-06,
      "loss": 0.7501,
      "step": 831
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.31820717453956604,
      "learning_rate": 2.65874753317543e-06,
      "loss": 0.3174,
      "step": 832
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.34180235862731934,
      "learning_rate": 2.6473036869780356e-06,
      "loss": 0.3265,
      "step": 833
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.2990112900733948,
      "learning_rate": 2.6358756481694115e-06,
      "loss": 0.3394,
      "step": 834
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.7525734305381775,
      "learning_rate": 2.6244634935327084e-06,
      "loss": 0.0992,
      "step": 835
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6505364179611206,
      "learning_rate": 2.613067299744364e-06,
      "loss": 0.0854,
      "step": 836
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.41014161705970764,
      "learning_rate": 2.6016871433735793e-06,
      "loss": 0.3086,
      "step": 837
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3858146369457245,
      "learning_rate": 2.5903231008817888e-06,
      "loss": 0.3159,
      "step": 838
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.2541385293006897,
      "learning_rate": 2.578975248622175e-06,
      "loss": 0.2834,
      "step": 839
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.8885409832000732,
      "learning_rate": 2.5676436628391356e-06,
      "loss": 0.0988,
      "step": 840
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3072036802768707,
      "learning_rate": 2.556328419667772e-06,
      "loss": 0.2764,
      "step": 841
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3496766984462738,
      "learning_rate": 2.5450295951333896e-06,
      "loss": 0.3048,
      "step": 842
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.7426053285598755,
      "learning_rate": 2.5337472651509767e-06,
      "loss": 0.0837,
      "step": 843
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.6841711401939392,
      "learning_rate": 2.522481505524692e-06,
      "loss": 0.0925,
      "step": 844
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4685293436050415,
      "learning_rate": 2.5112323919473717e-06,
      "loss": 0.6852,
      "step": 845
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.690161406993866,
      "learning_rate": 2.5000000000000015e-06,
      "loss": 0.092,
      "step": 846
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.7060732245445251,
      "learning_rate": 2.488784405151216e-06,
      "loss": 0.0963,
      "step": 847
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3863592743873596,
      "learning_rate": 2.4775856827568016e-06,
      "loss": 0.3449,
      "step": 848
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.289874792098999,
      "learning_rate": 2.4664039080591733e-06,
      "loss": 0.3064,
      "step": 849
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.7477782368659973,
      "learning_rate": 2.4552391561868783e-06,
      "loss": 0.0994,
      "step": 850
    },
    {
      "epoch": 0.68,
      "eval_loss": 0.4093731641769409,
      "eval_runtime": 126.4018,
      "eval_samples_per_second": 34.81,
      "eval_steps_per_second": 1.092,
      "step": 850
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3113926351070404,
      "learning_rate": 2.444091502154095e-06,
      "loss": 0.3194,
      "step": 851
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.32211580872535706,
      "learning_rate": 2.4329610208601195e-06,
      "loss": 0.2842,
      "step": 852
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3162400424480438,
      "learning_rate": 2.4218477870888686e-06,
      "loss": 0.3088,
      "step": 853
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3152695596218109,
      "learning_rate": 2.410751875508373e-06,
      "loss": 0.3122,
      "step": 854
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.24405238032341003,
      "learning_rate": 2.3996733606702856e-06,
      "loss": 0.2882,
      "step": 855
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.7670221328735352,
      "learning_rate": 2.388612317009366e-06,
      "loss": 0.0799,
      "step": 856
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37789836525917053,
      "learning_rate": 2.3775688188429897e-06,
      "loss": 0.3164,
      "step": 857
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.37090468406677246,
      "learning_rate": 2.3665429403706506e-06,
      "loss": 0.3214,
      "step": 858
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3869064450263977,
      "learning_rate": 2.3555347556734544e-06,
      "loss": 0.3313,
      "step": 859
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1396393775939941,
      "learning_rate": 2.3445443387136247e-06,
      "loss": 0.6859,
      "step": 860
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.48346519470214844,
      "learning_rate": 2.333571763334011e-06,
      "loss": 0.3376,
      "step": 861
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.8092748522758484,
      "learning_rate": 2.3226171032575856e-06,
      "loss": 0.0936,
      "step": 862
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4523234963417053,
      "learning_rate": 2.3116804320869467e-06,
      "loss": 0.3217,
      "step": 863
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.32419705390930176,
      "learning_rate": 2.3007618233038377e-06,
      "loss": 0.3292,
      "step": 864
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1639609336853027,
      "learning_rate": 2.289861350268634e-06,
      "loss": 0.6858,
      "step": 865
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.39872032403945923,
      "learning_rate": 2.278979086219863e-06,
      "loss": 0.3277,
      "step": 866
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1542294025421143,
      "learning_rate": 2.2681151042737124e-06,
      "loss": 0.7152,
      "step": 867
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.733008861541748,
      "learning_rate": 2.2572694774235322e-06,
      "loss": 0.082,
      "step": 868
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.195459246635437,
      "learning_rate": 2.246442278539344e-06,
      "loss": 0.7088,
      "step": 869
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.5375201106071472,
      "learning_rate": 2.2356335803673655e-06,
      "loss": 0.3077,
      "step": 870
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.45069319009780884,
      "learning_rate": 2.224843455529496e-06,
      "loss": 0.3165,
      "step": 871
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.6698043942451477,
      "learning_rate": 2.2140719765228587e-06,
      "loss": 0.0938,
      "step": 872
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.36009323596954346,
      "learning_rate": 2.2033192157192877e-06,
      "loss": 0.3037,
      "step": 873
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.42627906799316406,
      "learning_rate": 2.192585245364856e-06,
      "loss": 0.323,
      "step": 874
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3491988480091095,
      "learning_rate": 2.18187013757939e-06,
      "loss": 0.297,
      "step": 875
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.722836434841156,
      "learning_rate": 2.1711739643559767e-06,
      "loss": 0.1027,
      "step": 876
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.27417808771133423,
      "learning_rate": 2.1604967975604847e-06,
      "loss": 0.3145,
      "step": 877
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.758054256439209,
      "learning_rate": 2.149838708931087e-06,
      "loss": 0.1096,
      "step": 878
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.9684905409812927,
      "learning_rate": 2.139199770077768e-06,
      "loss": 0.2959,
      "step": 879
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.8269008994102478,
      "learning_rate": 2.1285800524818477e-06,
      "loss": 0.0925,
      "step": 880
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3326873481273651,
      "learning_rate": 2.1179796274955073e-06,
      "loss": 0.3039,
      "step": 881
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.27893438935279846,
      "learning_rate": 2.1073985663412984e-06,
      "loss": 0.3092,
      "step": 882
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.28235548734664917,
      "learning_rate": 2.0968369401116696e-06,
      "loss": 0.3188,
      "step": 883
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.7780907154083252,
      "learning_rate": 2.086294819768496e-06,
      "loss": 0.086,
      "step": 884
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.8403055667877197,
      "learning_rate": 2.075772276142589e-06,
      "loss": 0.0941,
      "step": 885
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.8028331398963928,
      "learning_rate": 2.0652693799332286e-06,
      "loss": 0.0927,
      "step": 886
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4837878942489624,
      "learning_rate": 2.054786201707693e-06,
      "loss": 0.3171,
      "step": 887
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4129749834537506,
      "learning_rate": 2.044322811900767e-06,
      "loss": 0.3118,
      "step": 888
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.284593790769577,
      "learning_rate": 2.0338792808142887e-06,
      "loss": 0.3031,
      "step": 889
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.28079137206077576,
      "learning_rate": 2.0234556786166715e-06,
      "loss": 0.3343,
      "step": 890
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.643947958946228,
      "learning_rate": 2.0130520753424175e-06,
      "loss": 0.6998,
      "step": 891
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.7138229608535767,
      "learning_rate": 2.00266854089167e-06,
      "loss": 0.0883,
      "step": 892
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6646366715431213,
      "learning_rate": 1.9923051450297337e-06,
      "loss": 0.0831,
      "step": 893
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.783734917640686,
      "learning_rate": 1.9819619573865932e-06,
      "loss": 0.1021,
      "step": 894
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.7411540746688843,
      "learning_rate": 1.971639047456473e-06,
      "loss": 0.3183,
      "step": 895
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6595399379730225,
      "learning_rate": 1.9613364845973433e-06,
      "loss": 0.0771,
      "step": 896
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3318711519241333,
      "learning_rate": 1.9510543380304686e-06,
      "loss": 0.6791,
      "step": 897
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6204400062561035,
      "learning_rate": 1.9407926768399456e-06,
      "loss": 0.0639,
      "step": 898
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.43729227781295776,
      "learning_rate": 1.930551569972224e-06,
      "loss": 0.3402,
      "step": 899
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.7348228693008423,
      "learning_rate": 1.9203310862356577e-06,
      "loss": 0.0922,
      "step": 900
    },
    {
      "epoch": 0.72,
      "eval_loss": 0.4080175757408142,
      "eval_runtime": 126.9032,
      "eval_samples_per_second": 34.672,
      "eval_steps_per_second": 1.087,
      "step": 900
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3290623426437378,
      "learning_rate": 1.9101312943000372e-06,
      "loss": 0.3367,
      "step": 901
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.2849441468715668,
      "learning_rate": 1.8999522626961254e-06,
      "loss": 0.293,
      "step": 902
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.34181514382362366,
      "learning_rate": 1.8897940598151998e-06,
      "loss": 0.3334,
      "step": 903
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3119601011276245,
      "learning_rate": 1.879656753908598e-06,
      "loss": 0.3224,
      "step": 904
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.7527717351913452,
      "learning_rate": 1.869540413087249e-06,
      "loss": 0.095,
      "step": 905
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4886877238750458,
      "learning_rate": 1.859445105321221e-06,
      "loss": 0.3336,
      "step": 906
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.31694963574409485,
      "learning_rate": 1.8493708984392682e-06,
      "loss": 0.3058,
      "step": 907
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8294019103050232,
      "learning_rate": 1.8393178601283684e-06,
      "loss": 0.1001,
      "step": 908
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.706068217754364,
      "learning_rate": 1.8292860579332706e-06,
      "loss": 0.0827,
      "step": 909
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8335888981819153,
      "learning_rate": 1.8192755592560446e-06,
      "loss": 0.0877,
      "step": 910
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5246721506118774,
      "learning_rate": 1.8092864313556236e-06,
      "loss": 0.7105,
      "step": 911
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8358364701271057,
      "learning_rate": 1.7993187413473534e-06,
      "loss": 0.1062,
      "step": 912
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.35951608419418335,
      "learning_rate": 1.7893725562025416e-06,
      "loss": 0.32,
      "step": 913
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.7127261757850647,
      "learning_rate": 1.7794479427480115e-06,
      "loss": 0.0781,
      "step": 914
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.7412751317024231,
      "learning_rate": 1.7695449676656467e-06,
      "loss": 0.0918,
      "step": 915
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3555990159511566,
      "learning_rate": 1.759663697491944e-06,
      "loss": 0.3073,
      "step": 916
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.629839301109314,
      "learning_rate": 1.7498041986175757e-06,
      "loss": 0.0766,
      "step": 917
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.6388247013092041,
      "learning_rate": 1.739966537286929e-06,
      "loss": 0.0827,
      "step": 918
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.1601887941360474,
      "learning_rate": 1.7301507795976697e-06,
      "loss": 0.6953,
      "step": 919
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2025092840194702,
      "learning_rate": 1.7203569915003005e-06,
      "loss": 0.684,
      "step": 920
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3753937780857086,
      "learning_rate": 1.7105852387977096e-06,
      "loss": 0.3256,
      "step": 921
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2432307004928589,
      "learning_rate": 1.7008355871447345e-06,
      "loss": 0.6742,
      "step": 922
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3554331660270691,
      "learning_rate": 1.6911081020477178e-06,
      "loss": 0.2937,
      "step": 923
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.8082528114318848,
      "learning_rate": 1.6814028488640728e-06,
      "loss": 0.1027,
      "step": 924
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3221908509731293,
      "learning_rate": 1.6717198928018352e-06,
      "loss": 0.313,
      "step": 925
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.260617733001709,
      "learning_rate": 1.6620592989192318e-06,
      "loss": 0.3286,
      "step": 926
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3291412889957428,
      "learning_rate": 1.6524211321242445e-06,
      "loss": 0.3224,
      "step": 927
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2188348770141602,
      "learning_rate": 1.6428054571741658e-06,
      "loss": 0.7023,
      "step": 928
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3089670240879059,
      "learning_rate": 1.633212338675173e-06,
      "loss": 0.3041,
      "step": 929
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.28254756331443787,
      "learning_rate": 1.6236418410818872e-06,
      "loss": 0.3111,
      "step": 930
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.27006006240844727,
      "learning_rate": 1.6140940286969475e-06,
      "loss": 0.2983,
      "step": 931
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.2500537633895874,
      "learning_rate": 1.6045689656705715e-06,
      "loss": 0.3026,
      "step": 932
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.26182296872138977,
      "learning_rate": 1.595066716000126e-06,
      "loss": 0.3278,
      "step": 933
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3013765811920166,
      "learning_rate": 1.5855873435297042e-06,
      "loss": 0.3314,
      "step": 934
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.2685970664024353,
      "learning_rate": 1.5761309119496864e-06,
      "loss": 0.2962,
      "step": 935
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6723276972770691,
      "learning_rate": 1.5666974847963162e-06,
      "loss": 0.0901,
      "step": 936
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.261833131313324,
      "learning_rate": 1.557287125451279e-06,
      "loss": 0.3074,
      "step": 937
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.2571653425693512,
      "learning_rate": 1.5478998971412669e-06,
      "loss": 0.2768,
      "step": 938
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.30271488428115845,
      "learning_rate": 1.538535862937558e-06,
      "loss": 0.3046,
      "step": 939
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.8251044154167175,
      "learning_rate": 1.5291950857555982e-06,
      "loss": 0.1098,
      "step": 940
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.269199252128601,
      "learning_rate": 1.519877628354567e-06,
      "loss": 0.6869,
      "step": 941
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.2691311836242676,
      "learning_rate": 1.510583553336964e-06,
      "loss": 0.3117,
      "step": 942
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.25175943970680237,
      "learning_rate": 1.5013129231481894e-06,
      "loss": 0.2791,
      "step": 943
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.831046998500824,
      "learning_rate": 1.4920658000761172e-06,
      "loss": 0.096,
      "step": 944
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.29711517691612244,
      "learning_rate": 1.4828422462506819e-06,
      "loss": 0.331,
      "step": 945
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.32091060280799866,
      "learning_rate": 1.473642323643465e-06,
      "loss": 0.3101,
      "step": 946
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.2377101331949234,
      "learning_rate": 1.4644660940672628e-06,
      "loss": 0.2943,
      "step": 947
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.36137086153030396,
      "learning_rate": 1.4553136191756916e-06,
      "loss": 0.3169,
      "step": 948
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3275500535964966,
      "learning_rate": 1.4461849604627643e-06,
      "loss": 0.7313,
      "step": 949
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.2939744293689728,
      "learning_rate": 1.4370801792624656e-06,
      "loss": 0.3099,
      "step": 950
    },
    {
      "epoch": 0.76,
      "eval_loss": 0.4085925817489624,
      "eval_runtime": 128.3161,
      "eval_samples_per_second": 34.29,
      "eval_steps_per_second": 1.075,
      "step": 950
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.7857347130775452,
      "learning_rate": 1.427999336748364e-06,
      "loss": 0.1096,
      "step": 951
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6445652842521667,
      "learning_rate": 1.4189424939331815e-06,
      "loss": 0.0789,
      "step": 952
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.7613195180892944,
      "learning_rate": 1.4099097116683874e-06,
      "loss": 0.1015,
      "step": 953
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6662712097167969,
      "learning_rate": 1.4009010506437997e-06,
      "loss": 0.0705,
      "step": 954
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.166471242904663,
      "learning_rate": 1.391916571387164e-06,
      "loss": 0.6952,
      "step": 955
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3280467987060547,
      "learning_rate": 1.3829563342637514e-06,
      "loss": 0.3128,
      "step": 956
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.2915273606777191,
      "learning_rate": 1.37402039947596e-06,
      "loss": 0.3116,
      "step": 957
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6395756006240845,
      "learning_rate": 1.3651088270628992e-06,
      "loss": 0.0758,
      "step": 958
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.6552620530128479,
      "learning_rate": 1.3562216768999919e-06,
      "loss": 0.0796,
      "step": 959
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.7117800116539001,
      "learning_rate": 1.3473590086985756e-06,
      "loss": 0.0852,
      "step": 960
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.2588675320148468,
      "learning_rate": 1.338520882005494e-06,
      "loss": 0.3014,
      "step": 961
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.7103677988052368,
      "learning_rate": 1.3297073562026992e-06,
      "loss": 0.0705,
      "step": 962
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.34146973490715027,
      "learning_rate": 1.3209184905068595e-06,
      "loss": 0.3482,
      "step": 963
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.27127060294151306,
      "learning_rate": 1.31215434396895e-06,
      "loss": 0.3106,
      "step": 964
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.2705141603946686,
      "learning_rate": 1.3034149754738634e-06,
      "loss": 0.2877,
      "step": 965
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.25249239802360535,
      "learning_rate": 1.2947004437400161e-06,
      "loss": 0.3244,
      "step": 966
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.24689050018787384,
      "learning_rate": 1.286010807318946e-06,
      "loss": 0.3031,
      "step": 967
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.36496269702911377,
      "learning_rate": 1.2773461245949249e-06,
      "loss": 0.328,
      "step": 968
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3226849436759949,
      "learning_rate": 1.2687064537845635e-06,
      "loss": 0.3492,
      "step": 969
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.278992235660553,
      "learning_rate": 1.2600918529364253e-06,
      "loss": 0.3116,
      "step": 970
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.2803277373313904,
      "learning_rate": 1.2515023799306292e-06,
      "loss": 0.3019,
      "step": 971
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.2925167977809906,
      "learning_rate": 1.242938092478464e-06,
      "loss": 0.342,
      "step": 972
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.2482808232307434,
      "learning_rate": 1.2343990481220036e-06,
      "loss": 0.318,
      "step": 973
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.7009689807891846,
      "learning_rate": 1.225885304233716e-06,
      "loss": 0.0945,
      "step": 974
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.751704752445221,
      "learning_rate": 1.2173969180160782e-06,
      "loss": 0.1061,
      "step": 975
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.2320979833602905,
      "learning_rate": 1.2089339465011935e-06,
      "loss": 0.7208,
      "step": 976
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.25396057963371277,
      "learning_rate": 1.200496446550411e-06,
      "loss": 0.2987,
      "step": 977
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.26349106431007385,
      "learning_rate": 1.1920844748539373e-06,
      "loss": 0.2946,
      "step": 978
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.26703497767448425,
      "learning_rate": 1.1836980879304578e-06,
      "loss": 0.3108,
      "step": 979
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6911176443099976,
      "learning_rate": 1.1753373421267622e-06,
      "loss": 0.0798,
      "step": 980
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.24836620688438416,
      "learning_rate": 1.1670022936173587e-06,
      "loss": 0.3012,
      "step": 981
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.25082114338874817,
      "learning_rate": 1.1586929984040974e-06,
      "loss": 0.2984,
      "step": 982
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.27094322443008423,
      "learning_rate": 1.1504095123158016e-06,
      "loss": 0.3292,
      "step": 983
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.30953216552734375,
      "learning_rate": 1.1421518910078839e-06,
      "loss": 0.3121,
      "step": 984
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.2747851312160492,
      "learning_rate": 1.133920189961975e-06,
      "loss": 0.3158,
      "step": 985
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.7751927375793457,
      "learning_rate": 1.125714464485551e-06,
      "loss": 0.0923,
      "step": 986
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.7037452459335327,
      "learning_rate": 1.1175347697115673e-06,
      "loss": 0.1047,
      "step": 987
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.29187142848968506,
      "learning_rate": 1.109381160598078e-06,
      "loss": 0.3028,
      "step": 988
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.7280772924423218,
      "learning_rate": 1.1012536919278727e-06,
      "loss": 0.099,
      "step": 989
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4036629796028137,
      "learning_rate": 1.0931524183081105e-06,
      "loss": 0.3395,
      "step": 990
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.7481924891471863,
      "learning_rate": 1.085077394169946e-06,
      "loss": 0.1001,
      "step": 991
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.32509154081344604,
      "learning_rate": 1.0770286737681701e-06,
      "loss": 0.3236,
      "step": 992
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6709163188934326,
      "learning_rate": 1.0690063111808447e-06,
      "loss": 0.0764,
      "step": 993
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.7187846899032593,
      "learning_rate": 1.0610103603089345e-06,
      "loss": 0.0908,
      "step": 994
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.2409976720809937,
      "learning_rate": 1.0530408748759485e-06,
      "loss": 0.7154,
      "step": 995
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.2275394201278687,
      "learning_rate": 1.045097908427582e-06,
      "loss": 0.7194,
      "step": 996
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.7215946316719055,
      "learning_rate": 1.0371815143313502e-06,
      "loss": 0.0851,
      "step": 997
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.26320311427116394,
      "learning_rate": 1.0292917457762325e-06,
      "loss": 0.3066,
      "step": 998
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.2253503799438477,
      "learning_rate": 1.0214286557723197e-06,
      "loss": 0.6919,
      "step": 999
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.6755615472793579,
      "learning_rate": 1.0135922971504492e-06,
      "loss": 0.0769,
      "step": 1000
    },
    {
      "epoch": 0.8,
      "eval_loss": 0.40968823432922363,
      "eval_runtime": 129.3247,
      "eval_samples_per_second": 34.023,
      "eval_steps_per_second": 1.067,
      "step": 1000
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.28818660974502563,
      "learning_rate": 1.0057827225618556e-06,
      "loss": 0.2822,
      "step": 1001
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.26844489574432373,
      "learning_rate": 9.979999844778203e-07,
      "loss": 0.3078,
      "step": 1002
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.7626358866691589,
      "learning_rate": 9.902441351893061e-07,
      "loss": 0.0978,
      "step": 1003
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.27140873670578003,
      "learning_rate": 9.825152268066213e-07,
      "loss": 0.2956,
      "step": 1004
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3066042363643646,
      "learning_rate": 9.748133112590624e-07,
      "loss": 0.3037,
      "step": 1005
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.34388312697410583,
      "learning_rate": 9.671384402945588e-07,
      "loss": 0.3345,
      "step": 1006
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.7558532357215881,
      "learning_rate": 9.59490665479339e-07,
      "loss": 0.0999,
      "step": 1007
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.7813323736190796,
      "learning_rate": 9.518700381975754e-07,
      "loss": 0.0948,
      "step": 1008
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.7090458869934082,
      "learning_rate": 9.442766096510353e-07,
      "loss": 0.0942,
      "step": 1009
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.7790521383285522,
      "learning_rate": 9.367104308587493e-07,
      "loss": 0.0865,
      "step": 1010
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.32886937260627747,
      "learning_rate": 9.291715526566563e-07,
      "loss": 0.3109,
      "step": 1011
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3213595151901245,
      "learning_rate": 9.216600256972669e-07,
      "loss": 0.317,
      "step": 1012
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.28333622217178345,
      "learning_rate": 9.141759004493283e-07,
      "loss": 0.3157,
      "step": 1013
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.260667085647583,
      "learning_rate": 9.06719227197474e-07,
      "loss": 0.6846,
      "step": 1014
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.7436995506286621,
      "learning_rate": 8.992900560418932e-07,
      "loss": 0.086,
      "step": 1015
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6458554863929749,
      "learning_rate": 8.918884368979969e-07,
      "loss": 0.0793,
      "step": 1016
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6967930793762207,
      "learning_rate": 8.845144194960748e-07,
      "loss": 0.0921,
      "step": 1017
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3127002418041229,
      "learning_rate": 8.771680533809634e-07,
      "loss": 0.3123,
      "step": 1018
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3129798173904419,
      "learning_rate": 8.698493879117209e-07,
      "loss": 0.3186,
      "step": 1019
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.2817607820034027,
      "learning_rate": 8.625584722612829e-07,
      "loss": 0.3145,
      "step": 1020
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.7827128767967224,
      "learning_rate": 8.552953554161408e-07,
      "loss": 0.0947,
      "step": 1021
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.1078693866729736,
      "learning_rate": 8.480600861760124e-07,
      "loss": 0.7054,
      "step": 1022
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.28894534707069397,
      "learning_rate": 8.408527131535088e-07,
      "loss": 0.3008,
      "step": 1023
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.709576427936554,
      "learning_rate": 8.336732847738116e-07,
      "loss": 0.0848,
      "step": 1024
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.288038045167923,
      "learning_rate": 8.265218492743498e-07,
      "loss": 0.3142,
      "step": 1025
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.22785401344299316,
      "learning_rate": 8.193984547044659e-07,
      "loss": 0.3167,
      "step": 1026
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.7038549184799194,
      "learning_rate": 8.123031489251082e-07,
      "loss": 0.0768,
      "step": 1027
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.2452021688222885,
      "learning_rate": 8.052359796084952e-07,
      "loss": 0.2906,
      "step": 1028
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.2253308296203613,
      "learning_rate": 7.981969942378021e-07,
      "loss": 0.7089,
      "step": 1029
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.29044482111930847,
      "learning_rate": 7.911862401068431e-07,
      "loss": 0.3135,
      "step": 1030
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3355763256549835,
      "learning_rate": 7.842037643197492e-07,
      "loss": 0.3362,
      "step": 1031
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6681918501853943,
      "learning_rate": 7.772496137906527e-07,
      "loss": 0.0721,
      "step": 1032
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6726664304733276,
      "learning_rate": 7.703238352433762e-07,
      "loss": 0.0786,
      "step": 1033
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.2289985418319702,
      "learning_rate": 7.634264752111131e-07,
      "loss": 0.6806,
      "step": 1034
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.7339208126068115,
      "learning_rate": 7.565575800361169e-07,
      "loss": 0.0781,
      "step": 1035
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.273478627204895,
      "learning_rate": 7.497171958693927e-07,
      "loss": 0.3051,
      "step": 1036
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.28963571786880493,
      "learning_rate": 7.429053686703835e-07,
      "loss": 0.2859,
      "step": 1037
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3029206097126007,
      "learning_rate": 7.361221442066607e-07,
      "loss": 0.3056,
      "step": 1038
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.708421528339386,
      "learning_rate": 7.293675680536227e-07,
      "loss": 0.0846,
      "step": 1039
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.177959680557251,
      "learning_rate": 7.226416855941814e-07,
      "loss": 0.7012,
      "step": 1040
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6805458068847656,
      "learning_rate": 7.159445420184591e-07,
      "loss": 0.0739,
      "step": 1041
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3020336627960205,
      "learning_rate": 7.092761823234911e-07,
      "loss": 0.3296,
      "step": 1042
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.2743145823478699,
      "learning_rate": 7.02636651312914e-07,
      "loss": 0.3081,
      "step": 1043
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.694034218788147,
      "learning_rate": 6.960259935966712e-07,
      "loss": 0.093,
      "step": 1044
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.7595889568328857,
      "learning_rate": 6.894442535907086e-07,
      "loss": 0.0921,
      "step": 1045
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6912842988967896,
      "learning_rate": 6.828914755166826e-07,
      "loss": 0.0714,
      "step": 1046
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.2763043940067291,
      "learning_rate": 6.763677034016569e-07,
      "loss": 0.3226,
      "step": 1047
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.2982749342918396,
      "learning_rate": 6.698729810778065e-07,
      "loss": 0.3276,
      "step": 1048
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.34952741861343384,
      "learning_rate": 6.63407352182131e-07,
      "loss": 0.3232,
      "step": 1049
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.27120327949523926,
      "learning_rate": 6.569708601561515e-07,
      "loss": 0.2925,
      "step": 1050
    },
    {
      "epoch": 0.84,
      "eval_loss": 0.40971964597702026,
      "eval_runtime": 149.1182,
      "eval_samples_per_second": 29.507,
      "eval_steps_per_second": 0.925,
      "step": 1050
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3895770013332367,
      "learning_rate": 6.505635482456229e-07,
      "loss": 0.3038,
      "step": 1051
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.250834196805954,
      "learning_rate": 6.441854595002478e-07,
      "loss": 0.3238,
      "step": 1052
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3267238438129425,
      "learning_rate": 6.378366367733791e-07,
      "loss": 0.3254,
      "step": 1053
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6933825612068176,
      "learning_rate": 6.315171227217365e-07,
      "loss": 0.084,
      "step": 1054
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.26211878657341003,
      "learning_rate": 6.252269598051219e-07,
      "loss": 0.2969,
      "step": 1055
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.25001445412635803,
      "learning_rate": 6.189661902861288e-07,
      "loss": 0.2943,
      "step": 1056
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2207820415496826,
      "learning_rate": 6.127348562298619e-07,
      "loss": 0.7231,
      "step": 1057
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3128347098827362,
      "learning_rate": 6.065329995036573e-07,
      "loss": 0.2972,
      "step": 1058
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.2946799099445343,
      "learning_rate": 6.003606617767893e-07,
      "loss": 0.2998,
      "step": 1059
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.7670256495475769,
      "learning_rate": 5.942178845202079e-07,
      "loss": 0.1021,
      "step": 1060
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3426673412322998,
      "learning_rate": 5.881047090062475e-07,
      "loss": 0.3129,
      "step": 1061
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.1245107650756836,
      "learning_rate": 5.820211763083494e-07,
      "loss": 0.6938,
      "step": 1062
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.32674840092658997,
      "learning_rate": 5.759673273007954e-07,
      "loss": 0.2976,
      "step": 1063
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.2721191644668579,
      "learning_rate": 5.699432026584267e-07,
      "loss": 0.3177,
      "step": 1064
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.7369400262832642,
      "learning_rate": 5.639488428563655e-07,
      "loss": 0.0758,
      "step": 1065
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.31887540221214294,
      "learning_rate": 5.579842881697556e-07,
      "loss": 0.3311,
      "step": 1066
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6756781935691833,
      "learning_rate": 5.520495786734814e-07,
      "loss": 0.0938,
      "step": 1067
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.2904956340789795,
      "learning_rate": 5.461447542419018e-07,
      "loss": 0.3012,
      "step": 1068
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3173812925815582,
      "learning_rate": 5.402698545485869e-07,
      "loss": 0.2986,
      "step": 1069
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.7793723940849304,
      "learning_rate": 5.344249190660427e-07,
      "loss": 0.0943,
      "step": 1070
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.153243064880371,
      "learning_rate": 5.286099870654515e-07,
      "loss": 0.6941,
      "step": 1071
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.23633386194705963,
      "learning_rate": 5.228250976164096e-07,
      "loss": 0.3117,
      "step": 1072
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.29902970790863037,
      "learning_rate": 5.170702895866591e-07,
      "loss": 0.3107,
      "step": 1073
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.7090038657188416,
      "learning_rate": 5.113456016418305e-07,
      "loss": 0.0693,
      "step": 1074
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.26254501938819885,
      "learning_rate": 5.056510722451862e-07,
      "loss": 0.3136,
      "step": 1075
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.69646817445755,
      "learning_rate": 4.999867396573499e-07,
      "loss": 0.0741,
      "step": 1076
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.7285807132720947,
      "learning_rate": 4.943526419360661e-07,
      "loss": 0.0999,
      "step": 1077
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.7677080631256104,
      "learning_rate": 4.88748816935934e-07,
      "loss": 0.0852,
      "step": 1078
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.2674790322780609,
      "learning_rate": 4.831753023081493e-07,
      "loss": 0.3053,
      "step": 1079
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.2921258211135864,
      "learning_rate": 4.77632135500265e-07,
      "loss": 0.2995,
      "step": 1080
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.39025887846946716,
      "learning_rate": 4.72119353755931e-07,
      "loss": 0.2938,
      "step": 1081
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1714788675308228,
      "learning_rate": 4.666369941146376e-07,
      "loss": 0.6685,
      "step": 1082
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.7924860119819641,
      "learning_rate": 4.611850934114825e-07,
      "loss": 0.0817,
      "step": 1083
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.7808519005775452,
      "learning_rate": 4.557636882769101e-07,
      "loss": 0.0834,
      "step": 1084
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.2905576229095459,
      "learning_rate": 4.5037281513647e-07,
      "loss": 0.3219,
      "step": 1085
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.2672909200191498,
      "learning_rate": 4.4501251021057566e-07,
      "loss": 0.3041,
      "step": 1086
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.27961641550064087,
      "learning_rate": 4.3968280951425356e-07,
      "loss": 0.3228,
      "step": 1087
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.24441726505756378,
      "learning_rate": 4.343837488569058e-07,
      "loss": 0.308,
      "step": 1088
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.27883750200271606,
      "learning_rate": 4.291153638420731e-07,
      "loss": 0.3247,
      "step": 1089
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.7477906346321106,
      "learning_rate": 4.2387768986718644e-07,
      "loss": 0.0921,
      "step": 1090
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.25827154517173767,
      "learning_rate": 4.1867076212333603e-07,
      "loss": 0.3139,
      "step": 1091
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3102041482925415,
      "learning_rate": 4.134946155950348e-07,
      "loss": 0.6807,
      "step": 1092
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.23304346203804016,
      "learning_rate": 4.0834928505997907e-07,
      "loss": 0.2847,
      "step": 1093
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3708479404449463,
      "learning_rate": 4.03234805088818e-07,
      "loss": 0.3201,
      "step": 1094
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.29278919100761414,
      "learning_rate": 3.981512100449231e-07,
      "loss": 0.3,
      "step": 1095
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6535518169403076,
      "learning_rate": 3.9309853408415253e-07,
      "loss": 0.0696,
      "step": 1096
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.33147016167640686,
      "learning_rate": 3.8807681115462294e-07,
      "loss": 0.3158,
      "step": 1097
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.7137631773948669,
      "learning_rate": 3.8308607499648765e-07,
      "loss": 0.0827,
      "step": 1098
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.42427176237106323,
      "learning_rate": 3.781263591416989e-07,
      "loss": 0.3483,
      "step": 1099
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.26143568754196167,
      "learning_rate": 3.7319769691379295e-07,
      "loss": 0.3074,
      "step": 1100
    },
    {
      "epoch": 0.88,
      "eval_loss": 0.4098893404006958,
      "eval_runtime": 163.4798,
      "eval_samples_per_second": 26.915,
      "eval_steps_per_second": 0.844,
      "step": 1100
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.2518733739852905,
      "learning_rate": 3.683001214276577e-07,
      "loss": 0.6922,
      "step": 1101
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.7736681699752808,
      "learning_rate": 3.634336655893189e-07,
      "loss": 0.1048,
      "step": 1102
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.7702344655990601,
      "learning_rate": 3.585983620957112e-07,
      "loss": 0.0748,
      "step": 1103
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.26912808418273926,
      "learning_rate": 3.53794243434461e-07,
      "loss": 0.3128,
      "step": 1104
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.27000412344932556,
      "learning_rate": 3.4902134188367187e-07,
      "loss": 0.2918,
      "step": 1105
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.27188560366630554,
      "learning_rate": 3.4427968951170287e-07,
      "loss": 0.3069,
      "step": 1106
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.2346622347831726,
      "learning_rate": 3.3956931817695326e-07,
      "loss": 0.3074,
      "step": 1107
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.7467347383499146,
      "learning_rate": 3.348902595276543e-07,
      "loss": 0.0853,
      "step": 1108
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.2774544954299927,
      "learning_rate": 3.302425450016478e-07,
      "loss": 0.3235,
      "step": 1109
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1325390338897705,
      "learning_rate": 3.256262058261816e-07,
      "loss": 0.6807,
      "step": 1110
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6424435377120972,
      "learning_rate": 3.2104127301769873e-07,
      "loss": 0.0727,
      "step": 1111
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.25227290391921997,
      "learning_rate": 3.1648777738162496e-07,
      "loss": 0.3198,
      "step": 1112
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.718146026134491,
      "learning_rate": 3.1196574951216693e-07,
      "loss": 0.0946,
      "step": 1113
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.6300733685493469,
      "learning_rate": 3.0747521979210436e-07,
      "loss": 0.0738,
      "step": 1114
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.7508513331413269,
      "learning_rate": 3.03016218392585e-07,
      "loss": 0.09,
      "step": 1115
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.28678542375564575,
      "learning_rate": 2.985887752729222e-07,
      "loss": 0.2955,
      "step": 1116
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.29007524251937866,
      "learning_rate": 2.9419292018039834e-07,
      "loss": 0.3114,
      "step": 1117
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.7086620330810547,
      "learning_rate": 2.8982868265005457e-07,
      "loss": 0.0858,
      "step": 1118
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.7244828939437866,
      "learning_rate": 2.854960920045036e-07,
      "loss": 0.0894,
      "step": 1119
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.4274829030036926,
      "learning_rate": 2.811951773537275e-07,
      "loss": 0.3439,
      "step": 1120
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.2573373317718506,
      "learning_rate": 2.7692596759487877e-07,
      "loss": 0.3116,
      "step": 1121
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3587649464607239,
      "learning_rate": 2.726884914120936e-07,
      "loss": 0.3223,
      "step": 1122
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.30900534987449646,
      "learning_rate": 2.6848277727629547e-07,
      "loss": 0.3157,
      "step": 1123
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.8157150149345398,
      "learning_rate": 2.6430885344499944e-07,
      "loss": 0.0734,
      "step": 1124
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.1599441766738892,
      "learning_rate": 2.601667479621317e-07,
      "loss": 0.6924,
      "step": 1125
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.32628577947616577,
      "learning_rate": 2.5605648865783315e-07,
      "loss": 0.3049,
      "step": 1126
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.263223260641098,
      "learning_rate": 2.519781031482754e-07,
      "loss": 0.3178,
      "step": 1127
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6858500242233276,
      "learning_rate": 2.47931618835478e-07,
      "loss": 0.0849,
      "step": 1128
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.7934489250183105,
      "learning_rate": 2.4391706290711745e-07,
      "loss": 0.093,
      "step": 1129
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.2659914195537567,
      "learning_rate": 2.399344623363503e-07,
      "loss": 0.319,
      "step": 1130
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6958582997322083,
      "learning_rate": 2.3598384388163198e-07,
      "loss": 0.078,
      "step": 1131
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.1525417566299438,
      "learning_rate": 2.3206523408653202e-07,
      "loss": 0.709,
      "step": 1132
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.40706345438957214,
      "learning_rate": 2.2817865927956095e-07,
      "loss": 0.3123,
      "step": 1133
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.2540184557437897,
      "learning_rate": 2.2432414557399197e-07,
      "loss": 0.3111,
      "step": 1134
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.7011733651161194,
      "learning_rate": 2.2050171886768113e-07,
      "loss": 0.1004,
      "step": 1135
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.7300593256950378,
      "learning_rate": 2.1671140484290144e-07,
      "loss": 0.0914,
      "step": 1136
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.768185019493103,
      "learning_rate": 2.129532289661651e-07,
      "loss": 0.0902,
      "step": 1137
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.34561407566070557,
      "learning_rate": 2.0922721648805045e-07,
      "loss": 0.3086,
      "step": 1138
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.1448721885681152,
      "learning_rate": 2.055333924430375e-07,
      "loss": 0.6496,
      "step": 1139
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.2094690799713135,
      "learning_rate": 2.018717816493393e-07,
      "loss": 0.6525,
      "step": 1140
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.28069329261779785,
      "learning_rate": 1.98242408708727e-07,
      "loss": 0.3165,
      "step": 1141
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.7373614311218262,
      "learning_rate": 1.9464529800637731e-07,
      "loss": 0.0744,
      "step": 1142
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.7331028580665588,
      "learning_rate": 1.9108047371069917e-07,
      "loss": 0.0909,
      "step": 1143
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6801638603210449,
      "learning_rate": 1.875479597731733e-07,
      "loss": 0.0979,
      "step": 1144
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.7979991436004639,
      "learning_rate": 1.8404777992819533e-07,
      "loss": 0.1,
      "step": 1145
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3842639923095703,
      "learning_rate": 1.805799576929107e-07,
      "loss": 0.2799,
      "step": 1146
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.1257469654083252,
      "learning_rate": 1.7714451636705933e-07,
      "loss": 0.7152,
      "step": 1147
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.299885094165802,
      "learning_rate": 1.737414790328218e-07,
      "loss": 0.3332,
      "step": 1148
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.30724331736564636,
      "learning_rate": 1.7037086855465902e-07,
      "loss": 0.3392,
      "step": 1149
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.2559671401977539,
      "learning_rate": 1.6703270757916e-07,
      "loss": 0.2937,
      "step": 1150
    },
    {
      "epoch": 0.92,
      "eval_loss": 0.40943634510040283,
      "eval_runtime": 124.1796,
      "eval_samples_per_second": 35.433,
      "eval_steps_per_second": 1.111,
      "step": 1150
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.7539291977882385,
      "learning_rate": 1.6372701853489438e-07,
      "loss": 0.0835,
      "step": 1151
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.35115885734558105,
      "learning_rate": 1.604538236322556e-07,
      "loss": 0.3058,
      "step": 1152
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.7023198008537292,
      "learning_rate": 1.5721314486331352e-07,
      "loss": 0.0959,
      "step": 1153
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.7246900796890259,
      "learning_rate": 1.540050040016694e-07,
      "loss": 0.0829,
      "step": 1154
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.27802255749702454,
      "learning_rate": 1.508294226023066e-07,
      "loss": 0.3236,
      "step": 1155
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6478570103645325,
      "learning_rate": 1.4768642200144677e-07,
      "loss": 0.0793,
      "step": 1156
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.587975263595581,
      "learning_rate": 1.4457602331640507e-07,
      "loss": 0.0729,
      "step": 1157
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.2548885643482208,
      "learning_rate": 1.414982474454524e-07,
      "loss": 0.294,
      "step": 1158
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.2365361899137497,
      "learning_rate": 1.384531150676699e-07,
      "loss": 0.3107,
      "step": 1159
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.2879842221736908,
      "learning_rate": 1.3544064664281266e-07,
      "loss": 0.2933,
      "step": 1160
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.7973681688308716,
      "learning_rate": 1.324608624111734e-07,
      "loss": 0.0948,
      "step": 1161
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.2668989300727844,
      "learning_rate": 1.2951378239344337e-07,
      "loss": 0.32,
      "step": 1162
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3241752088069916,
      "learning_rate": 1.2659942639057954e-07,
      "loss": 0.2932,
      "step": 1163
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2247282266616821,
      "learning_rate": 1.237178139836731e-07,
      "loss": 0.7034,
      "step": 1164
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.32625365257263184,
      "learning_rate": 1.2086896453381403e-07,
      "loss": 0.3367,
      "step": 1165
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6308481097221375,
      "learning_rate": 1.1805289718196499e-07,
      "loss": 0.0756,
      "step": 1166
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.21894490718841553,
      "learning_rate": 1.1526963084882992e-07,
      "loss": 0.2747,
      "step": 1167
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3474380671977997,
      "learning_rate": 1.1251918423472896e-07,
      "loss": 0.2859,
      "step": 1168
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.7451848387718201,
      "learning_rate": 1.0980157581947038e-07,
      "loss": 0.0867,
      "step": 1169
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.2641879916191101,
      "learning_rate": 1.0711682386222943e-07,
      "loss": 0.3151,
      "step": 1170
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.29615306854248047,
      "learning_rate": 1.0446494640142413e-07,
      "loss": 0.3106,
      "step": 1171
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.26121172308921814,
      "learning_rate": 1.0184596125459134e-07,
      "loss": 0.3048,
      "step": 1172
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6406208872795105,
      "learning_rate": 9.925988601827419e-08,
      "loss": 0.0828,
      "step": 1173
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.31079816818237305,
      "learning_rate": 9.670673806789543e-08,
      "loss": 0.3081,
      "step": 1174
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.29230251908302307,
      "learning_rate": 9.418653455764593e-08,
      "loss": 0.3015,
      "step": 1175
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3109624683856964,
      "learning_rate": 9.169929242036967e-08,
      "loss": 0.3254,
      "step": 1176
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.7220860719680786,
      "learning_rate": 8.924502836744564e-08,
      "loss": 0.0849,
      "step": 1177
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.7841556668281555,
      "learning_rate": 8.682375888868167e-08,
      "loss": 0.0869,
      "step": 1178
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.25833556056022644,
      "learning_rate": 8.443550025219793e-08,
      "loss": 0.2873,
      "step": 1179
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.25462964177131653,
      "learning_rate": 8.208026850431983e-08,
      "loss": 0.3034,
      "step": 1180
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.2639319598674774,
      "learning_rate": 7.975807946947245e-08,
      "loss": 0.3271,
      "step": 1181
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.23495601117610931,
      "learning_rate": 7.746894875007016e-08,
      "loss": 0.3179,
      "step": 1182
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6602343320846558,
      "learning_rate": 7.521289172641555e-08,
      "loss": 0.0626,
      "step": 1183
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.30272746086120605,
      "learning_rate": 7.29899235565934e-08,
      "loss": 0.3127,
      "step": 1184
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.2092071771621704,
      "learning_rate": 7.080005917636968e-08,
      "loss": 0.7181,
      "step": 1185
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.2409050464630127,
      "learning_rate": 6.864331329909102e-08,
      "loss": 0.6712,
      "step": 1186
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.7283262610435486,
      "learning_rate": 6.651970041558764e-08,
      "loss": 0.0955,
      "step": 1187
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3068970739841461,
      "learning_rate": 6.442923479407337e-08,
      "loss": 0.33,
      "step": 1188
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.27351298928260803,
      "learning_rate": 6.237193048005019e-08,
      "loss": 0.3104,
      "step": 1189
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.2541104555130005,
      "learning_rate": 6.034780129621664e-08,
      "loss": 0.3178,
      "step": 1190
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.26733022928237915,
      "learning_rate": 5.8356860842370685e-08,
      "loss": 0.3028,
      "step": 1191
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.2976875603199005,
      "learning_rate": 5.639912249532198e-08,
      "loss": 0.2872,
      "step": 1192
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.768744945526123,
      "learning_rate": 5.447459940880084e-08,
      "loss": 0.0955,
      "step": 1193
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6777157783508301,
      "learning_rate": 5.258330451336724e-08,
      "loss": 0.0769,
      "step": 1194
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1401069164276123,
      "learning_rate": 5.072525051632915e-08,
      "loss": 0.7199,
      "step": 1195
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.25638625025749207,
      "learning_rate": 4.8900449901653214e-08,
      "loss": 0.3026,
      "step": 1196
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1726248264312744,
      "learning_rate": 4.710891492988035e-08,
      "loss": 0.659,
      "step": 1197
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.37962034344673157,
      "learning_rate": 4.535065763804802e-08,
      "loss": 0.3066,
      "step": 1198
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6471598148345947,
      "learning_rate": 4.3625689839603694e-08,
      "loss": 0.0746,
      "step": 1199
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.25698158144950867,
      "learning_rate": 4.193402312432926e-08,
      "loss": 0.2904,
      "step": 1200
    },
    {
      "epoch": 0.96,
      "eval_loss": 0.4097450375556946,
      "eval_runtime": 126.3899,
      "eval_samples_per_second": 34.813,
      "eval_steps_per_second": 1.092,
      "step": 1200
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 1250,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "total_flos": 9.383435403928797e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}