{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 4.0,
  "eval_steps": 500,
  "global_step": 816,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004920049200492005,
      "grad_norm": 483.4133605957031,
      "learning_rate": 0.0,
      "loss": 0.95,
      "step": 1
    },
    {
      "epoch": 0.00984009840098401,
      "grad_norm": 414.1131286621094,
      "learning_rate": 8.000000000000001e-06,
      "loss": 0.7919,
      "step": 2
    },
    {
      "epoch": 0.014760147601476014,
      "grad_norm": 20.664552688598633,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 0.2639,
      "step": 3
    },
    {
      "epoch": 0.01968019680196802,
      "grad_norm": 19.735389709472656,
      "learning_rate": 2.4e-05,
      "loss": 0.3098,
      "step": 4
    },
    {
      "epoch": 0.024600246002460024,
      "grad_norm": 630.93115234375,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 1.3057,
      "step": 5
    },
    {
      "epoch": 0.02952029520295203,
      "grad_norm": 108.70830535888672,
      "learning_rate": 4e-05,
      "loss": 0.784,
      "step": 6
    },
    {
      "epoch": 0.03444034440344403,
      "grad_norm": 25.684120178222656,
      "learning_rate": 4.8e-05,
      "loss": 0.6977,
      "step": 7
    },
    {
      "epoch": 0.03936039360393604,
      "grad_norm": 28.066545486450195,
      "learning_rate": 5.6000000000000006e-05,
      "loss": 0.6476,
      "step": 8
    },
    {
      "epoch": 0.04428044280442804,
      "grad_norm": 76.08965301513672,
      "learning_rate": 6.400000000000001e-05,
      "loss": 0.5767,
      "step": 9
    },
    {
      "epoch": 0.04920049200492005,
      "grad_norm": 14.550333023071289,
      "learning_rate": 7.2e-05,
      "loss": 0.4199,
      "step": 10
    },
    {
      "epoch": 0.05412054120541206,
      "grad_norm": 66.70437622070312,
      "learning_rate": 8e-05,
      "loss": 0.6942,
      "step": 11
    },
    {
      "epoch": 0.05904059040590406,
      "grad_norm": 73.81010437011719,
      "learning_rate": 8.800000000000001e-05,
      "loss": 1.517,
      "step": 12
    },
    {
      "epoch": 0.06396063960639606,
      "grad_norm": 6.138183116912842,
      "learning_rate": 9.6e-05,
      "loss": 0.3904,
      "step": 13
    },
    {
      "epoch": 0.06888068880688807,
      "grad_norm": 11.106021881103516,
      "learning_rate": 0.00010400000000000001,
      "loss": 0.4124,
      "step": 14
    },
    {
      "epoch": 0.07380073800738007,
      "grad_norm": 12.445630073547363,
      "learning_rate": 0.00011200000000000001,
      "loss": 0.4418,
      "step": 15
    },
    {
      "epoch": 0.07872078720787208,
      "grad_norm": 7.307021141052246,
      "learning_rate": 0.00012,
      "loss": 0.4751,
      "step": 16
    },
    {
      "epoch": 0.08364083640836409,
      "grad_norm": 19.08457374572754,
      "learning_rate": 0.00012800000000000002,
      "loss": 0.5671,
      "step": 17
    },
    {
      "epoch": 0.08856088560885608,
      "grad_norm": 11.03348159790039,
      "learning_rate": 0.00013600000000000003,
      "loss": 0.4441,
      "step": 18
    },
    {
      "epoch": 0.09348093480934809,
      "grad_norm": 155.23716735839844,
      "learning_rate": 0.000144,
      "loss": 0.5707,
      "step": 19
    },
    {
      "epoch": 0.0984009840098401,
      "grad_norm": 7.583343029022217,
      "learning_rate": 0.000152,
      "loss": 0.4662,
      "step": 20
    },
    {
      "epoch": 0.1033210332103321,
      "grad_norm": 6.289183139801025,
      "learning_rate": 0.00016,
      "loss": 0.4997,
      "step": 21
    },
    {
      "epoch": 0.10824108241082411,
      "grad_norm": 24.76793098449707,
      "learning_rate": 0.000168,
      "loss": 0.491,
      "step": 22
    },
    {
      "epoch": 0.11316113161131611,
      "grad_norm": 17.512184143066406,
      "learning_rate": 0.00017600000000000002,
      "loss": 0.4472,
      "step": 23
    },
    {
      "epoch": 0.11808118081180811,
      "grad_norm": 16.47793960571289,
      "learning_rate": 0.00018400000000000003,
      "loss": 0.5235,
      "step": 24
    },
    {
      "epoch": 0.12300123001230012,
      "grad_norm": 8.312434196472168,
      "learning_rate": 0.000192,
      "loss": 0.4818,
      "step": 25
    },
    {
      "epoch": 0.12792127921279212,
      "grad_norm": 83.81122589111328,
      "learning_rate": 0.0002,
      "loss": 0.5259,
      "step": 26
    },
    {
      "epoch": 0.13284132841328414,
      "grad_norm": 8.704654693603516,
      "learning_rate": 0.000199999211292062,
      "loss": 0.4744,
      "step": 27
    },
    {
      "epoch": 0.13776137761377613,
      "grad_norm": 2.8565006256103516,
      "learning_rate": 0.00019999684518068916,
      "loss": 0.4066,
      "step": 28
    },
    {
      "epoch": 0.14268142681426815,
      "grad_norm": 5.916236877441406,
      "learning_rate": 0.00019999290170320485,
      "loss": 0.4154,
      "step": 29
    },
    {
      "epoch": 0.14760147601476015,
      "grad_norm": 5.697567462921143,
      "learning_rate": 0.00019998738092181421,
      "loss": 0.4639,
      "step": 30
    },
    {
      "epoch": 0.15252152521525214,
      "grad_norm": 1.615671157836914,
      "learning_rate": 0.00019998028292360286,
      "loss": 0.4108,
      "step": 31
    },
    {
      "epoch": 0.15744157441574416,
      "grad_norm": 11.121039390563965,
      "learning_rate": 0.00019997160782053578,
      "loss": 0.449,
      "step": 32
    },
    {
      "epoch": 0.16236162361623616,
      "grad_norm": 7.386440277099609,
      "learning_rate": 0.00019996135574945544,
      "loss": 0.4216,
      "step": 33
    },
    {
      "epoch": 0.16728167281672818,
      "grad_norm": 84.96491241455078,
      "learning_rate": 0.00019994952687207954,
      "loss": 0.5282,
      "step": 34
    },
    {
      "epoch": 0.17220172201722017,
      "grad_norm": 6.692220211029053,
      "learning_rate": 0.00019993612137499876,
      "loss": 0.5036,
      "step": 35
    },
    {
      "epoch": 0.17712177121771217,
      "grad_norm": 5.1402363777160645,
      "learning_rate": 0.00019992113946967353,
      "loss": 0.4041,
      "step": 36
    },
    {
      "epoch": 0.1820418204182042,
      "grad_norm": 3.2179603576660156,
      "learning_rate": 0.00019990458139243077,
      "loss": 0.398,
      "step": 37
    },
    {
      "epoch": 0.18696186961869618,
      "grad_norm": 5.34651517868042,
      "learning_rate": 0.00019988644740446022,
      "loss": 0.4233,
      "step": 38
    },
    {
      "epoch": 0.1918819188191882,
      "grad_norm": 4.085568428039551,
      "learning_rate": 0.00019986673779181033,
      "loss": 0.3935,
      "step": 39
    },
    {
      "epoch": 0.1968019680196802,
      "grad_norm": 1.318534255027771,
      "learning_rate": 0.0001998454528653836,
      "loss": 0.3458,
      "step": 40
    },
    {
      "epoch": 0.2017220172201722,
      "grad_norm": 3.834606409072876,
      "learning_rate": 0.0001998225929609319,
      "loss": 0.3819,
      "step": 41
    },
    {
      "epoch": 0.2066420664206642,
      "grad_norm": 4.840269088745117,
      "learning_rate": 0.00019979815843905097,
      "loss": 0.473,
      "step": 42
    },
    {
      "epoch": 0.2115621156211562,
      "grad_norm": 498.64990234375,
      "learning_rate": 0.0001997721496851748,
      "loss": 3.6745,
      "step": 43
    },
    {
      "epoch": 0.21648216482164823,
      "grad_norm": 4.956181526184082,
      "learning_rate": 0.00019974456710956964,
      "loss": 0.3385,
      "step": 44
    },
    {
      "epoch": 0.22140221402214022,
      "grad_norm": 6.580547332763672,
      "learning_rate": 0.00019971541114732741,
      "loss": 0.4277,
      "step": 45
    },
    {
      "epoch": 0.22632226322263221,
      "grad_norm": 37.05827713012695,
      "learning_rate": 0.0001996846822583589,
      "loss": 0.8045,
      "step": 46
    },
    {
      "epoch": 0.23124231242312424,
      "grad_norm": 5.152987480163574,
      "learning_rate": 0.00019965238092738643,
      "loss": 0.4173,
      "step": 47
    },
    {
      "epoch": 0.23616236162361623,
      "grad_norm": 277.78857421875,
      "learning_rate": 0.0001996185076639364,
      "loss": 0.8626,
      "step": 48
    },
    {
      "epoch": 0.24108241082410825,
      "grad_norm": 2.9399607181549072,
      "learning_rate": 0.00019958306300233098,
      "loss": 0.3167,
      "step": 49
    },
    {
      "epoch": 0.24600246002460024,
      "grad_norm": 3.668168306350708,
      "learning_rate": 0.00019954604750167993,
      "loss": 0.4422,
      "step": 50
    },
    {
      "epoch": 0.25092250922509224,
      "grad_norm": 4.103700637817383,
      "learning_rate": 0.00019950746174587163,
      "loss": 0.3683,
      "step": 51
    },
    {
      "epoch": 0.25584255842558423,
      "grad_norm": 0.7908763885498047,
      "learning_rate": 0.0001994673063435639,
      "loss": 0.3834,
      "step": 52
    },
    {
      "epoch": 0.2607626076260763,
      "grad_norm": 1.0205233097076416,
      "learning_rate": 0.0001994255819281744,
      "loss": 0.375,
      "step": 53
    },
    {
      "epoch": 0.2656826568265683,
      "grad_norm": 3.6355137825012207,
      "learning_rate": 0.0001993822891578708,
      "loss": 0.4557,
      "step": 54
    },
    {
      "epoch": 0.27060270602706027,
      "grad_norm": 6.3725409507751465,
      "learning_rate": 0.00019933742871556,
      "loss": 0.4183,
      "step": 55
    },
    {
      "epoch": 0.27552275522755226,
      "grad_norm": 6.519746780395508,
      "learning_rate": 0.00019929100130887782,
      "loss": 0.4416,
      "step": 56
    },
    {
      "epoch": 0.28044280442804426,
      "grad_norm": 3.950495719909668,
      "learning_rate": 0.0001992430076701775,
      "loss": 0.4255,
      "step": 57
    },
    {
      "epoch": 0.2853628536285363,
      "grad_norm": 2.0773677825927734,
      "learning_rate": 0.00019919344855651833,
      "loss": 0.3393,
      "step": 58
    },
    {
      "epoch": 0.2902829028290283,
      "grad_norm": 8.755096435546875,
      "learning_rate": 0.00019914232474965365,
      "loss": 0.5312,
      "step": 59
    },
    {
      "epoch": 0.2952029520295203,
      "grad_norm": 4.103138446807861,
      "learning_rate": 0.00019908963705601846,
      "loss": 0.4104,
      "step": 60
    },
    {
      "epoch": 0.3001230012300123,
      "grad_norm": 3.1862292289733887,
      "learning_rate": 0.0001990353863067169,
      "loss": 0.4211,
      "step": 61
    },
    {
      "epoch": 0.3050430504305043,
      "grad_norm": 3.5777299404144287,
      "learning_rate": 0.00019897957335750878,
      "loss": 0.38,
      "step": 62
    },
    {
      "epoch": 0.30996309963099633,
      "grad_norm": 3.0276339054107666,
      "learning_rate": 0.00019892219908879653,
      "loss": 0.4561,
      "step": 63
    },
    {
      "epoch": 0.3148831488314883,
      "grad_norm": 1.853022575378418,
      "learning_rate": 0.00019886326440561093,
      "loss": 0.3874,
      "step": 64
    },
    {
      "epoch": 0.3198031980319803,
      "grad_norm": 5.521330833435059,
      "learning_rate": 0.00019880277023759702,
      "loss": 0.459,
      "step": 65
    },
    {
      "epoch": 0.3247232472324723,
      "grad_norm": 8.374741554260254,
      "learning_rate": 0.0001987407175389994,
      "loss": 0.4025,
      "step": 66
    },
    {
      "epoch": 0.3296432964329643,
      "grad_norm": 3.8265085220336914,
      "learning_rate": 0.0001986771072886472,
      "loss": 0.4654,
      "step": 67
    },
    {
      "epoch": 0.33456334563345635,
      "grad_norm": 2.002042770385742,
      "learning_rate": 0.00019861194048993863,
      "loss": 0.312,
      "step": 68
    },
    {
      "epoch": 0.33948339483394835,
      "grad_norm": 6.2479634284973145,
      "learning_rate": 0.0001985452181708251,
      "loss": 0.4739,
      "step": 69
    },
    {
      "epoch": 0.34440344403444034,
      "grad_norm": 3.072579860687256,
      "learning_rate": 0.00019847694138379506,
      "loss": 0.4282,
      "step": 70
    },
    {
      "epoch": 0.34932349323493234,
      "grad_norm": 1.4464001655578613,
      "learning_rate": 0.0001984071112058574,
      "loss": 0.4165,
      "step": 71
    },
    {
      "epoch": 0.35424354243542433,
      "grad_norm": 1.2664532661437988,
      "learning_rate": 0.00019833572873852444,
      "loss": 0.4575,
      "step": 72
    },
    {
      "epoch": 0.3591635916359164,
      "grad_norm": 9.184704780578613,
      "learning_rate": 0.00019826279510779454,
      "loss": 0.4957,
      "step": 73
    },
    {
      "epoch": 0.3640836408364084,
      "grad_norm": 8.479774475097656,
      "learning_rate": 0.00019818831146413434,
      "loss": 0.5062,
      "step": 74
    },
    {
      "epoch": 0.36900369003690037,
      "grad_norm": 6.585694789886475,
      "learning_rate": 0.0001981122789824607,
      "loss": 0.4461,
      "step": 75
    },
    {
      "epoch": 0.37392373923739236,
      "grad_norm": 2.46947979927063,
      "learning_rate": 0.0001980346988621221,
      "loss": 0.4175,
      "step": 76
    },
    {
      "epoch": 0.37884378843788435,
      "grad_norm": 5.467379570007324,
      "learning_rate": 0.00019795557232687956,
      "loss": 0.4634,
      "step": 77
    },
    {
      "epoch": 0.3837638376383764,
      "grad_norm": 3.7511723041534424,
      "learning_rate": 0.0001978749006248877,
      "loss": 0.466,
      "step": 78
    },
    {
      "epoch": 0.3886838868388684,
      "grad_norm": 4.01120138168335,
      "learning_rate": 0.00019779268502867473,
      "loss": 0.5087,
      "step": 79
    },
    {
      "epoch": 0.3936039360393604,
      "grad_norm": 3.0289227962493896,
      "learning_rate": 0.0001977089268351225,
      "loss": 0.4315,
      "step": 80
    },
    {
      "epoch": 0.3985239852398524,
      "grad_norm": 2.6868069171905518,
      "learning_rate": 0.00019762362736544607,
      "loss": 0.3795,
      "step": 81
    },
    {
      "epoch": 0.4034440344403444,
      "grad_norm": 3.252519130706787,
      "learning_rate": 0.00019753678796517282,
      "loss": 0.3436,
      "step": 82
    },
    {
      "epoch": 0.40836408364083643,
      "grad_norm": 3.5098648071289062,
      "learning_rate": 0.00019744841000412123,
      "loss": 0.3921,
      "step": 83
    },
    {
      "epoch": 0.4132841328413284,
      "grad_norm": 4.654256820678711,
      "learning_rate": 0.00019735849487637929,
      "loss": 0.4444,
      "step": 84
    },
    {
      "epoch": 0.4182041820418204,
      "grad_norm": 1.7671858072280884,
      "learning_rate": 0.0001972670440002825,
      "loss": 0.3749,
      "step": 85
    },
    {
      "epoch": 0.4231242312423124,
      "grad_norm": 2.725391387939453,
      "learning_rate": 0.00019717405881839145,
      "loss": 0.4183,
      "step": 86
    },
    {
      "epoch": 0.4280442804428044,
      "grad_norm": 1.985857605934143,
      "learning_rate": 0.00019707954079746927,
      "loss": 0.3992,
      "step": 87
    },
    {
      "epoch": 0.43296432964329645,
      "grad_norm": 4.41717004776001,
      "learning_rate": 0.00019698349142845814,
      "loss": 0.4746,
      "step": 88
    },
    {
      "epoch": 0.43788437884378845,
      "grad_norm": 4.98541784286499,
      "learning_rate": 0.00019688591222645607,
      "loss": 0.3828,
      "step": 89
    },
    {
      "epoch": 0.44280442804428044,
      "grad_norm": 5.29671573638916,
      "learning_rate": 0.00019678680473069293,
      "loss": 0.3513,
      "step": 90
    },
    {
      "epoch": 0.44772447724477243,
      "grad_norm": 2.3669795989990234,
      "learning_rate": 0.00019668617050450603,
      "loss": 0.3433,
      "step": 91
    },
    {
      "epoch": 0.45264452644526443,
      "grad_norm": 3.3942222595214844,
      "learning_rate": 0.00019658401113531565,
      "loss": 0.4033,
      "step": 92
    },
    {
      "epoch": 0.4575645756457565,
      "grad_norm": 2.1776537895202637,
      "learning_rate": 0.00019648032823459994,
      "loss": 0.2924,
      "step": 93
    },
    {
      "epoch": 0.46248462484624847,
      "grad_norm": 3.5817902088165283,
      "learning_rate": 0.00019637512343786937,
      "loss": 0.3886,
      "step": 94
    },
    {
      "epoch": 0.46740467404674046,
      "grad_norm": 5.881927490234375,
      "learning_rate": 0.00019626839840464119,
      "loss": 0.5516,
      "step": 95
    },
    {
      "epoch": 0.47232472324723246,
      "grad_norm": 3.89084529876709,
      "learning_rate": 0.0001961601548184129,
      "loss": 0.5291,
      "step": 96
    },
    {
      "epoch": 0.47724477244772445,
      "grad_norm": 1.7908971309661865,
      "learning_rate": 0.00019605039438663614,
      "loss": 0.4671,
      "step": 97
    },
    {
      "epoch": 0.4821648216482165,
      "grad_norm": 3.8980045318603516,
      "learning_rate": 0.0001959391188406893,
      "loss": 0.4105,
      "step": 98
    },
    {
      "epoch": 0.4870848708487085,
      "grad_norm": 5.375885486602783,
      "learning_rate": 0.00019582632993585052,
      "loss": 0.4652,
      "step": 99
    },
    {
      "epoch": 0.4920049200492005,
      "grad_norm": 4.329046249389648,
      "learning_rate": 0.00019571202945126994,
      "loss": 0.4507,
      "step": 100
    },
    {
      "epoch": 0.4969249692496925,
      "grad_norm": 3.3222126960754395,
      "learning_rate": 0.0001955962191899415,
      "loss": 0.43,
      "step": 101
    },
    {
      "epoch": 0.5018450184501845,
      "grad_norm": 5.076950550079346,
      "learning_rate": 0.00019547890097867468,
      "loss": 0.3756,
      "step": 102
    },
    {
      "epoch": 0.5067650676506765,
      "grad_norm": 4.1895294189453125,
      "learning_rate": 0.00019536007666806556,
      "loss": 0.4545,
      "step": 103
    },
    {
      "epoch": 0.5116851168511685,
      "grad_norm": 2.738429069519043,
      "learning_rate": 0.00019523974813246767,
      "loss": 0.3971,
      "step": 104
    },
    {
      "epoch": 0.5166051660516605,
      "grad_norm": 1.7775121927261353,
      "learning_rate": 0.00019511791726996243,
      "loss": 0.3815,
      "step": 105
    },
    {
      "epoch": 0.5215252152521526,
      "grad_norm": 0.5655261874198914,
      "learning_rate": 0.0001949945860023292,
      "loss": 0.308,
      "step": 106
    },
    {
      "epoch": 0.5264452644526445,
      "grad_norm": 2.861567258834839,
      "learning_rate": 0.00019486975627501502,
      "loss": 0.349,
      "step": 107
    },
    {
      "epoch": 0.5313653136531366,
      "grad_norm": 0.9508899450302124,
      "learning_rate": 0.0001947434300571038,
      "loss": 0.3095,
      "step": 108
    },
    {
      "epoch": 0.5362853628536285,
      "grad_norm": 4.669578552246094,
      "learning_rate": 0.00019461560934128533,
      "loss": 0.5094,
      "step": 109
    },
    {
      "epoch": 0.5412054120541205,
      "grad_norm": 0.9468059539794922,
      "learning_rate": 0.0001944862961438239,
      "loss": 0.2996,
      "step": 110
    },
    {
      "epoch": 0.5461254612546126,
      "grad_norm": 3.7661190032958984,
      "learning_rate": 0.00019435549250452645,
      "loss": 0.3556,
      "step": 111
    },
    {
      "epoch": 0.5510455104551045,
      "grad_norm": 3.7507622241973877,
      "learning_rate": 0.0001942232004867103,
      "loss": 0.4196,
      "step": 112
    },
    {
      "epoch": 0.5559655596555966,
      "grad_norm": 1.455446481704712,
      "learning_rate": 0.0001940894221771708,
      "loss": 0.3751,
      "step": 113
    },
    {
      "epoch": 0.5608856088560885,
      "grad_norm": 5.634677886962891,
      "learning_rate": 0.00019395415968614813,
      "loss": 0.4659,
      "step": 114
    },
    {
      "epoch": 0.5658056580565806,
      "grad_norm": 1.9559741020202637,
      "learning_rate": 0.00019381741514729443,
      "loss": 0.4113,
      "step": 115
    },
    {
      "epoch": 0.5707257072570726,
      "grad_norm": 2.967988967895508,
      "learning_rate": 0.0001936791907176397,
      "loss": 0.4565,
      "step": 116
    },
    {
      "epoch": 0.5756457564575646,
      "grad_norm": 6.420986175537109,
      "learning_rate": 0.00019353948857755803,
      "loss": 0.4465,
      "step": 117
    },
    {
      "epoch": 0.5805658056580566,
      "grad_norm": 5.503588676452637,
      "learning_rate": 0.00019339831093073318,
      "loss": 0.4705,
      "step": 118
    },
    {
      "epoch": 0.5854858548585485,
      "grad_norm": 5.966702461242676,
      "learning_rate": 0.00019325566000412376,
      "loss": 0.4205,
      "step": 119
    },
    {
      "epoch": 0.5904059040590406,
      "grad_norm": 2.865349054336548,
      "learning_rate": 0.0001931115380479281,
      "loss": 0.3988,
      "step": 120
    },
    {
      "epoch": 0.5953259532595326,
      "grad_norm": 1.7353636026382446,
      "learning_rate": 0.00019296594733554892,
      "loss": 0.4364,
      "step": 121
    },
    {
      "epoch": 0.6002460024600246,
      "grad_norm": 3.236239194869995,
      "learning_rate": 0.0001928188901635571,
      "loss": 0.4553,
      "step": 122
    },
    {
      "epoch": 0.6051660516605166,
      "grad_norm": 2.1501266956329346,
      "learning_rate": 0.00019267036885165588,
      "loss": 0.4121,
      "step": 123
    },
    {
      "epoch": 0.6100861008610086,
      "grad_norm": 2.416868209838867,
      "learning_rate": 0.00019252038574264405,
      "loss": 0.3616,
      "step": 124
    },
    {
      "epoch": 0.6150061500615006,
      "grad_norm": 2.7004334926605225,
      "learning_rate": 0.00019236894320237894,
      "loss": 0.3443,
      "step": 125
    },
    {
      "epoch": 0.6199261992619927,
      "grad_norm": 1.992761492729187,
      "learning_rate": 0.00019221604361973919,
      "loss": 0.4068,
      "step": 126
    },
    {
      "epoch": 0.6248462484624846,
      "grad_norm": 0.9761249423027039,
      "learning_rate": 0.00019206168940658712,
      "loss": 0.3952,
      "step": 127
    },
    {
      "epoch": 0.6297662976629766,
      "grad_norm": 1.5893077850341797,
      "learning_rate": 0.00019190588299773062,
      "loss": 0.383,
      "step": 128
    },
    {
      "epoch": 0.6346863468634686,
      "grad_norm": 1.1404695510864258,
      "learning_rate": 0.00019174862685088472,
      "loss": 0.4274,
      "step": 129
    },
    {
      "epoch": 0.6396063960639606,
      "grad_norm": 1.63871431350708,
      "learning_rate": 0.0001915899234466328,
      "loss": 0.3883,
      "step": 130
    },
    {
      "epoch": 0.6445264452644527,
      "grad_norm": 1.9504516124725342,
      "learning_rate": 0.00019142977528838762,
      "loss": 0.3932,
      "step": 131
    },
    {
      "epoch": 0.6494464944649446,
      "grad_norm": 1.6097129583358765,
      "learning_rate": 0.0001912681849023516,
      "loss": 0.4028,
      "step": 132
    },
    {
      "epoch": 0.6543665436654367,
      "grad_norm": 2.071103572845459,
      "learning_rate": 0.00019110515483747716,
      "loss": 0.4016,
      "step": 133
    },
    {
      "epoch": 0.6592865928659286,
      "grad_norm": 2.177647352218628,
      "learning_rate": 0.0001909406876654264,
      "loss": 0.3975,
      "step": 134
    },
    {
      "epoch": 0.6642066420664207,
      "grad_norm": 1.2018887996673584,
      "learning_rate": 0.00019077478598053063,
      "loss": 0.3846,
      "step": 135
    },
    {
      "epoch": 0.6691266912669127,
      "grad_norm": 3.688076972961426,
      "learning_rate": 0.00019060745239974936,
      "loss": 0.4432,
      "step": 136
    },
    {
      "epoch": 0.6740467404674046,
      "grad_norm": 2.5613861083984375,
      "learning_rate": 0.0001904386895626291,
      "loss": 0.3704,
      "step": 137
    },
    {
      "epoch": 0.6789667896678967,
      "grad_norm": 2.255295753479004,
      "learning_rate": 0.00019026850013126157,
      "loss": 0.3267,
      "step": 138
    },
    {
      "epoch": 0.6838868388683886,
      "grad_norm": 3.4777557849884033,
      "learning_rate": 0.0001900968867902419,
      "loss": 0.5534,
      "step": 139
    },
    {
      "epoch": 0.6888068880688807,
      "grad_norm": 2.0409767627716064,
      "learning_rate": 0.00018992385224662623,
      "loss": 0.4607,
      "step": 140
    },
    {
      "epoch": 0.6937269372693727,
      "grad_norm": 2.408515691757202,
      "learning_rate": 0.00018974939922988883,
      "loss": 0.3969,
      "step": 141
    },
    {
      "epoch": 0.6986469864698647,
      "grad_norm": 1.8554408550262451,
      "learning_rate": 0.00018957353049187936,
      "loss": 0.3385,
      "step": 142
    },
    {
      "epoch": 0.7035670356703567,
      "grad_norm": 3.487424612045288,
      "learning_rate": 0.00018939624880677918,
      "loss": 0.4132,
      "step": 143
    },
    {
      "epoch": 0.7084870848708487,
      "grad_norm": 3.606100559234619,
      "learning_rate": 0.0001892175569710577,
      "loss": 0.4644,
      "step": 144
    },
    {
      "epoch": 0.7134071340713407,
      "grad_norm": 3.1930618286132812,
      "learning_rate": 0.00018903745780342839,
      "loss": 0.4235,
      "step": 145
    },
    {
      "epoch": 0.7183271832718328,
      "grad_norm": 3.3350257873535156,
      "learning_rate": 0.00018885595414480405,
      "loss": 0.4837,
      "step": 146
    },
    {
      "epoch": 0.7232472324723247,
      "grad_norm": 2.0124611854553223,
      "learning_rate": 0.0001886730488582522,
      "loss": 0.4149,
      "step": 147
    },
    {
      "epoch": 0.7281672816728167,
      "grad_norm": 3.699632167816162,
      "learning_rate": 0.00018848874482894993,
      "loss": 0.376,
      "step": 148
    },
    {
      "epoch": 0.7330873308733087,
      "grad_norm": 2.4049108028411865,
      "learning_rate": 0.00018830304496413822,
      "loss": 0.4215,
      "step": 149
    },
    {
      "epoch": 0.7380073800738007,
      "grad_norm": 2.440385341644287,
      "learning_rate": 0.00018811595219307622,
      "loss": 0.4041,
      "step": 150
    },
    {
      "epoch": 0.7429274292742928,
      "grad_norm": 2.6796436309814453,
      "learning_rate": 0.000187927469466995,
      "loss": 0.3949,
      "step": 151
    },
    {
      "epoch": 0.7478474784747847,
      "grad_norm": 1.940114974975586,
      "learning_rate": 0.00018773759975905098,
      "loss": 0.4411,
      "step": 152
    },
    {
      "epoch": 0.7527675276752768,
      "grad_norm": 3.338021755218506,
      "learning_rate": 0.00018754634606427914,
      "loss": 0.4607,
      "step": 153
    },
    {
      "epoch": 0.7576875768757687,
      "grad_norm": 2.3407375812530518,
      "learning_rate": 0.00018735371139954558,
      "loss": 0.416,
      "step": 154
    },
    {
      "epoch": 0.7626076260762608,
      "grad_norm": 1.1078053712844849,
      "learning_rate": 0.0001871596988035001,
      "loss": 0.34,
      "step": 155
    },
    {
      "epoch": 0.7675276752767528,
      "grad_norm": 1.750227928161621,
      "learning_rate": 0.00018696431133652817,
      "loss": 0.3084,
      "step": 156
    },
    {
      "epoch": 0.7724477244772447,
      "grad_norm": 2.9180145263671875,
      "learning_rate": 0.00018676755208070275,
      "loss": 0.4109,
      "step": 157
    },
    {
      "epoch": 0.7773677736777368,
      "grad_norm": 2.675165891647339,
      "learning_rate": 0.00018656942413973555,
      "loss": 0.4438,
      "step": 158
    },
    {
      "epoch": 0.7822878228782287,
      "grad_norm": 3.3854095935821533,
      "learning_rate": 0.0001863699306389282,
      "loss": 0.4418,
      "step": 159
    },
    {
      "epoch": 0.7872078720787208,
      "grad_norm": 0.5620162487030029,
      "learning_rate": 0.0001861690747251228,
      "loss": 0.3806,
      "step": 160
    },
    {
      "epoch": 0.7921279212792128,
      "grad_norm": 1.223493218421936,
      "learning_rate": 0.00018596685956665245,
      "loss": 0.3758,
      "step": 161
    },
    {
      "epoch": 0.7970479704797048,
      "grad_norm": 1.9586799144744873,
      "learning_rate": 0.00018576328835329117,
      "loss": 0.3354,
      "step": 162
    },
    {
      "epoch": 0.8019680196801968,
      "grad_norm": 3.2813546657562256,
      "learning_rate": 0.00018555836429620358,
      "loss": 0.4063,
      "step": 163
    },
    {
      "epoch": 0.8068880688806888,
      "grad_norm": 2.182837963104248,
      "learning_rate": 0.00018535209062789433,
      "loss": 0.3697,
      "step": 164
    },
    {
      "epoch": 0.8118081180811808,
      "grad_norm": 1.3659495115280151,
      "learning_rate": 0.00018514447060215698,
      "loss": 0.3351,
      "step": 165
    },
    {
      "epoch": 0.8167281672816729,
      "grad_norm": 1.170257329940796,
      "learning_rate": 0.00018493550749402278,
      "loss": 0.3225,
      "step": 166
    },
    {
      "epoch": 0.8216482164821648,
      "grad_norm": 4.230517387390137,
      "learning_rate": 0.00018472520459970898,
      "loss": 0.4448,
      "step": 167
    },
    {
      "epoch": 0.8265682656826568,
      "grad_norm": 2.8111300468444824,
      "learning_rate": 0.0001845135652365668,
      "loss": 0.3761,
      "step": 168
    },
    {
      "epoch": 0.8314883148831488,
      "grad_norm": 5.860655307769775,
      "learning_rate": 0.00018430059274302917,
      "loss": 0.4974,
      "step": 169
    },
    {
      "epoch": 0.8364083640836408,
      "grad_norm": 3.6116364002227783,
      "learning_rate": 0.00018408629047855804,
      "loss": 0.4327,
      "step": 170
    },
    {
      "epoch": 0.8413284132841329,
      "grad_norm": 2.6450071334838867,
      "learning_rate": 0.00018387066182359133,
      "loss": 0.3813,
      "step": 171
    },
    {
      "epoch": 0.8462484624846248,
      "grad_norm": 2.9791674613952637,
      "learning_rate": 0.00018365371017948964,
      "loss": 0.4184,
      "step": 172
    },
    {
      "epoch": 0.8511685116851169,
      "grad_norm": 1.7529772520065308,
      "learning_rate": 0.00018343543896848273,
      "loss": 0.3489,
      "step": 173
    },
    {
      "epoch": 0.8560885608856088,
      "grad_norm": 3.5216493606567383,
      "learning_rate": 0.00018321585163361527,
      "loss": 0.3988,
      "step": 174
    },
    {
      "epoch": 0.8610086100861009,
      "grad_norm": 2.470106840133667,
      "learning_rate": 0.00018299495163869275,
      "loss": 0.3919,
      "step": 175
    },
    {
      "epoch": 0.8659286592865929,
      "grad_norm": 3.1759798526763916,
      "learning_rate": 0.0001827727424682268,
      "loss": 0.3853,
      "step": 176
    },
    {
      "epoch": 0.8708487084870848,
      "grad_norm": 3.581413745880127,
      "learning_rate": 0.00018254922762738008,
      "loss": 0.4041,
      "step": 177
    },
    {
      "epoch": 0.8757687576875769,
      "grad_norm": 1.35221266746521,
      "learning_rate": 0.00018232441064191125,
      "loss": 0.3564,
      "step": 178
    },
    {
      "epoch": 0.8806888068880688,
      "grad_norm": 2.2829418182373047,
      "learning_rate": 0.0001820982950581191,
      "loss": 0.443,
      "step": 179
    },
    {
      "epoch": 0.8856088560885609,
      "grad_norm": 2.931074619293213,
      "learning_rate": 0.00018187088444278674,
      "loss": 0.4088,
      "step": 180
    },
    {
      "epoch": 0.8905289052890529,
      "grad_norm": 3.7436723709106445,
      "learning_rate": 0.00018164218238312535,
      "loss": 0.4888,
      "step": 181
    },
    {
      "epoch": 0.8954489544895449,
      "grad_norm": 2.7169697284698486,
      "learning_rate": 0.00018141219248671745,
      "loss": 0.4432,
      "step": 182
    },
    {
      "epoch": 0.9003690036900369,
      "grad_norm": 1.1118288040161133,
      "learning_rate": 0.00018118091838146029,
      "loss": 0.3677,
      "step": 183
    },
    {
      "epoch": 0.9052890528905289,
      "grad_norm": 3.0052273273468018,
      "learning_rate": 0.00018094836371550824,
      "loss": 0.3169,
      "step": 184
    },
    {
      "epoch": 0.9102091020910209,
      "grad_norm": 2.911255121231079,
      "learning_rate": 0.00018071453215721554,
      "loss": 0.4721,
      "step": 185
    },
    {
      "epoch": 0.915129151291513,
      "grad_norm": 2.483900547027588,
      "learning_rate": 0.00018047942739507836,
      "loss": 0.3812,
      "step": 186
    },
    {
      "epoch": 0.9200492004920049,
      "grad_norm": 1.8842488527297974,
      "learning_rate": 0.00018024305313767646,
      "loss": 0.436,
      "step": 187
    },
    {
      "epoch": 0.9249692496924969,
      "grad_norm": 1.5961415767669678,
      "learning_rate": 0.000180005413113615,
      "loss": 0.3808,
      "step": 188
    },
    {
      "epoch": 0.9298892988929889,
      "grad_norm": 2.0334715843200684,
      "learning_rate": 0.00017976651107146533,
      "loss": 0.4548,
      "step": 189
    },
    {
      "epoch": 0.9348093480934809,
      "grad_norm": 1.6422673463821411,
      "learning_rate": 0.0001795263507797063,
      "loss": 0.406,
      "step": 190
    },
    {
      "epoch": 0.939729397293973,
      "grad_norm": 2.5241055488586426,
      "learning_rate": 0.00017928493602666445,
      "loss": 0.3661,
      "step": 191
    },
    {
      "epoch": 0.9446494464944649,
      "grad_norm": 2.3822920322418213,
      "learning_rate": 0.00017904227062045437,
      "loss": 0.4581,
      "step": 192
    },
    {
      "epoch": 0.949569495694957,
      "grad_norm": 3.649919271469116,
      "learning_rate": 0.00017879835838891875,
      "loss": 0.4743,
      "step": 193
    },
    {
      "epoch": 0.9544895448954489,
      "grad_norm": 1.9197454452514648,
      "learning_rate": 0.00017855320317956784,
      "loss": 0.3857,
      "step": 194
    },
    {
      "epoch": 0.959409594095941,
      "grad_norm": 1.4304083585739136,
      "learning_rate": 0.00017830680885951887,
      "loss": 0.3935,
      "step": 195
    },
    {
      "epoch": 0.964329643296433,
      "grad_norm": 0.4576971232891083,
      "learning_rate": 0.00017805917931543492,
      "loss": 0.4147,
      "step": 196
    },
    {
      "epoch": 0.9692496924969249,
      "grad_norm": 1.4386779069900513,
      "learning_rate": 0.00017781031845346375,
      "loss": 0.3927,
      "step": 197
    },
    {
      "epoch": 0.974169741697417,
      "grad_norm": 1.496974229812622,
      "learning_rate": 0.00017756023019917607,
      "loss": 0.3666,
      "step": 198
    },
    {
      "epoch": 0.9790897908979089,
      "grad_norm": 1.221921682357788,
      "learning_rate": 0.00017730891849750377,
      "loss": 0.3938,
      "step": 199
    },
    {
      "epoch": 0.984009840098401,
      "grad_norm": 1.7949525117874146,
      "learning_rate": 0.0001770563873126775,
      "loss": 0.4118,
      "step": 200
    },
    {
      "epoch": 0.988929889298893,
      "grad_norm": 1.1061089038848877,
      "learning_rate": 0.0001768026406281642,
      "loss": 0.4086,
      "step": 201
    },
    {
      "epoch": 0.993849938499385,
      "grad_norm": 3.217977523803711,
      "learning_rate": 0.00017654768244660448,
      "loss": 0.4018,
      "step": 202
    },
    {
      "epoch": 0.998769987699877,
      "grad_norm": 0.9173564314842224,
      "learning_rate": 0.00017629151678974907,
      "loss": 0.3952,
      "step": 203
    },
    {
      "epoch": 1.0,
      "grad_norm": 5.783997058868408,
      "learning_rate": 0.00017603414769839577,
      "loss": 0.375,
      "step": 204
    },
    {
      "epoch": 1.004920049200492,
      "grad_norm": 3.309582471847534,
      "learning_rate": 0.00017577557923232546,
      "loss": 0.4257,
      "step": 205
    },
    {
      "epoch": 1.009840098400984,
      "grad_norm": 1.2689415216445923,
      "learning_rate": 0.00017551581547023819,
      "loss": 0.4078,
      "step": 206
    },
    {
      "epoch": 1.014760147601476,
      "grad_norm": 1.5618160963058472,
      "learning_rate": 0.00017525486050968875,
      "loss": 0.3948,
      "step": 207
    },
    {
      "epoch": 1.019680196801968,
      "grad_norm": 2.377791166305542,
      "learning_rate": 0.00017499271846702213,
      "loss": 0.3407,
      "step": 208
    },
    {
      "epoch": 1.0246002460024601,
      "grad_norm": 1.7102715969085693,
      "learning_rate": 0.00017472939347730856,
      "loss": 0.3997,
      "step": 209
    },
    {
      "epoch": 1.029520295202952,
      "grad_norm": 1.2720469236373901,
      "learning_rate": 0.0001744648896942782,
      "loss": 0.339,
      "step": 210
    },
    {
      "epoch": 1.034440344403444,
      "grad_norm": 2.7468247413635254,
      "learning_rate": 0.00017419921129025576,
      "loss": 0.3818,
      "step": 211
    },
    {
      "epoch": 1.039360393603936,
      "grad_norm": 3.501011371612549,
      "learning_rate": 0.0001739323624560945,
      "loss": 0.451,
      "step": 212
    },
    {
      "epoch": 1.044280442804428,
      "grad_norm": 1.6358418464660645,
      "learning_rate": 0.00017366434740111037,
      "loss": 0.3493,
      "step": 213
    },
    {
      "epoch": 1.04920049200492,
      "grad_norm": 3.540642023086548,
      "learning_rate": 0.00017339517035301532,
      "loss": 0.455,
      "step": 214
    },
    {
      "epoch": 1.054120541205412,
      "grad_norm": 2.093965530395508,
      "learning_rate": 0.00017312483555785086,
      "loss": 0.3673,
      "step": 215
    },
    {
      "epoch": 1.0590405904059041,
      "grad_norm": 4.747845649719238,
      "learning_rate": 0.000172853347279921,
      "loss": 0.5216,
      "step": 216
    },
    {
      "epoch": 1.063960639606396,
      "grad_norm": 2.5414655208587646,
      "learning_rate": 0.00017258070980172494,
      "loss": 0.4571,
      "step": 217
    },
    {
      "epoch": 1.068880688806888,
      "grad_norm": 1.3232766389846802,
      "learning_rate": 0.0001723069274238895,
      "loss": 0.4014,
      "step": 218
    },
    {
      "epoch": 1.07380073800738,
      "grad_norm": 2.045196771621704,
      "learning_rate": 0.0001720320044651014,
      "loss": 0.4119,
      "step": 219
    },
    {
      "epoch": 1.0787207872078721,
      "grad_norm": 5.2392096519470215,
      "learning_rate": 0.00017175594526203905,
      "loss": 0.3691,
      "step": 220
    },
    {
      "epoch": 1.083640836408364,
      "grad_norm": 2.589878797531128,
      "learning_rate": 0.00017147875416930416,
      "loss": 0.4317,
      "step": 221
    },
    {
      "epoch": 1.088560885608856,
      "grad_norm": 1.5000386238098145,
      "learning_rate": 0.00017120043555935298,
      "loss": 0.4135,
      "step": 222
    },
    {
      "epoch": 1.0934809348093482,
      "grad_norm": 0.8919417262077332,
      "learning_rate": 0.00017092099382242748,
      "loss": 0.4183,
      "step": 223
    },
    {
      "epoch": 1.09840098400984,
      "grad_norm": 1.059650182723999,
      "learning_rate": 0.00017064043336648599,
      "loss": 0.3791,
      "step": 224
    },
    {
      "epoch": 1.103321033210332,
      "grad_norm": 1.8085955381393433,
      "learning_rate": 0.0001703587586171337,
      "loss": 0.3893,
      "step": 225
    },
    {
      "epoch": 1.1082410824108242,
      "grad_norm": 2.2094881534576416,
      "learning_rate": 0.00017007597401755276,
      "loss": 0.3871,
      "step": 226
    },
    {
      "epoch": 1.1131611316113161,
      "grad_norm": 3.2818965911865234,
      "learning_rate": 0.00016979208402843237,
      "loss": 0.4412,
      "step": 227
    },
    {
      "epoch": 1.118081180811808,
      "grad_norm": 1.4197732210159302,
      "learning_rate": 0.00016950709312789833,
      "loss": 0.3248,
      "step": 228
    },
    {
      "epoch": 1.1230012300123002,
      "grad_norm": 3.690911054611206,
      "learning_rate": 0.00016922100581144228,
      "loss": 0.4552,
      "step": 229
    },
    {
      "epoch": 1.1279212792127922,
      "grad_norm": 4.1127424240112305,
      "learning_rate": 0.00016893382659185105,
      "loss": 0.4887,
      "step": 230
    },
    {
      "epoch": 1.132841328413284,
      "grad_norm": 2.658750295639038,
      "learning_rate": 0.00016864555999913518,
      "loss": 0.4037,
      "step": 231
    },
    {
      "epoch": 1.137761377613776,
      "grad_norm": 1.4189069271087646,
      "learning_rate": 0.0001683562105804577,
      "loss": 0.3705,
      "step": 232
    },
    {
      "epoch": 1.1426814268142682,
      "grad_norm": 2.599860191345215,
      "learning_rate": 0.00016806578290006225,
      "loss": 0.3975,
      "step": 233
    },
    {
      "epoch": 1.1476014760147601,
      "grad_norm": 3.787053108215332,
      "learning_rate": 0.0001677742815392012,
      "loss": 0.4294,
      "step": 234
    },
    {
      "epoch": 1.152521525215252,
      "grad_norm": 3.4738941192626953,
      "learning_rate": 0.00016748171109606328,
      "loss": 0.3847,
      "step": 235
    },
    {
      "epoch": 1.1574415744157442,
      "grad_norm": 2.0890064239501953,
      "learning_rate": 0.00016718807618570106,
      "loss": 0.4156,
      "step": 236
    },
    {
      "epoch": 1.1623616236162362,
      "grad_norm": 2.275296211242676,
      "learning_rate": 0.00016689338143995833,
      "loss": 0.4598,
      "step": 237
    },
    {
      "epoch": 1.1672816728167281,
      "grad_norm": 0.8225153088569641,
      "learning_rate": 0.00016659763150739677,
      "loss": 0.3495,
      "step": 238
    },
    {
      "epoch": 1.17220172201722,
      "grad_norm": 0.9762566685676575,
      "learning_rate": 0.00016630083105322266,
      "loss": 0.3705,
      "step": 239
    },
    {
      "epoch": 1.1771217712177122,
      "grad_norm": 3.3081791400909424,
      "learning_rate": 0.00016600298475921365,
      "loss": 0.4167,
      "step": 240
    },
    {
      "epoch": 1.1820418204182042,
      "grad_norm": 4.026612281799316,
      "learning_rate": 0.00016570409732364437,
      "loss": 0.4859,
      "step": 241
    },
    {
      "epoch": 1.186961869618696,
      "grad_norm": 2.193952798843384,
      "learning_rate": 0.0001654041734612127,
      "loss": 0.4207,
      "step": 242
    },
    {
      "epoch": 1.1918819188191883,
      "grad_norm": 2.2682714462280273,
      "learning_rate": 0.00016510321790296525,
      "loss": 0.4344,
      "step": 243
    },
    {
      "epoch": 1.1968019680196802,
      "grad_norm": 3.3938522338867188,
      "learning_rate": 0.00016480123539622281,
      "loss": 0.4628,
      "step": 244
    },
    {
      "epoch": 1.2017220172201721,
      "grad_norm": 4.911561489105225,
      "learning_rate": 0.00016449823070450531,
      "loss": 0.3449,
      "step": 245
    },
    {
      "epoch": 1.2066420664206643,
      "grad_norm": 2.2653610706329346,
      "learning_rate": 0.00016419420860745699,
      "loss": 0.3965,
      "step": 246
    },
    {
      "epoch": 1.2115621156211562,
      "grad_norm": 1.626495361328125,
      "learning_rate": 0.00016388917390077054,
      "loss": 0.3818,
      "step": 247
    },
    {
      "epoch": 1.2164821648216482,
      "grad_norm": 2.9067697525024414,
      "learning_rate": 0.00016358313139611195,
      "loss": 0.4184,
      "step": 248
    },
    {
      "epoch": 1.2214022140221403,
      "grad_norm": 1.6488162279129028,
      "learning_rate": 0.0001632760859210442,
      "loss": 0.3561,
      "step": 249
    },
    {
      "epoch": 1.2263222632226323,
      "grad_norm": 1.5693081617355347,
      "learning_rate": 0.00016296804231895142,
      "loss": 0.404,
      "step": 250
    },
    {
      "epoch": 1.2312423124231242,
      "grad_norm": 2.674132823944092,
      "learning_rate": 0.00016265900544896225,
      "loss": 0.4402,
      "step": 251
    },
    {
      "epoch": 1.2361623616236161,
      "grad_norm": 1.432892918586731,
      "learning_rate": 0.00016234898018587337,
      "loss": 0.3073,
      "step": 252
    },
    {
      "epoch": 1.2410824108241083,
      "grad_norm": 1.0736567974090576,
      "learning_rate": 0.0001620379714200725,
      "loss": 0.3551,
      "step": 253
    },
    {
      "epoch": 1.2460024600246002,
      "grad_norm": 2.692246675491333,
      "learning_rate": 0.00016172598405746124,
      "loss": 0.4585,
      "step": 254
    },
    {
      "epoch": 1.2509225092250922,
      "grad_norm": 1.1363232135772705,
      "learning_rate": 0.00016141302301937786,
      "loss": 0.3566,
      "step": 255
    },
    {
      "epoch": 1.2558425584255843,
      "grad_norm": 2.9427497386932373,
      "learning_rate": 0.0001610990932425194,
      "loss": 0.4541,
      "step": 256
    },
    {
      "epoch": 1.2607626076260763,
      "grad_norm": 1.8412046432495117,
      "learning_rate": 0.00016078419967886402,
      "loss": 0.4018,
      "step": 257
    },
    {
      "epoch": 1.2656826568265682,
      "grad_norm": 1.6179234981536865,
      "learning_rate": 0.0001604683472955928,
      "loss": 0.4115,
      "step": 258
    },
    {
      "epoch": 1.2706027060270602,
      "grad_norm": 1.2234046459197998,
      "learning_rate": 0.00016015154107501133,
      "loss": 0.4339,
      "step": 259
    },
    {
      "epoch": 1.2755227552275523,
      "grad_norm": 1.4952470064163208,
      "learning_rate": 0.00015983378601447127,
      "loss": 0.4079,
      "step": 260
    },
    {
      "epoch": 1.2804428044280443,
      "grad_norm": 0.6399968266487122,
      "learning_rate": 0.0001595150871262914,
      "loss": 0.4262,
      "step": 261
    },
    {
      "epoch": 1.2853628536285364,
      "grad_norm": 2.328315258026123,
      "learning_rate": 0.00015919544943767856,
      "loss": 0.4236,
      "step": 262
    },
    {
      "epoch": 1.2902829028290284,
      "grad_norm": 2.3608176708221436,
      "learning_rate": 0.00015887487799064838,
      "loss": 0.3888,
      "step": 263
    },
    {
      "epoch": 1.2952029520295203,
      "grad_norm": 1.258406639099121,
      "learning_rate": 0.00015855337784194577,
      "loss": 0.405,
      "step": 264
    },
    {
      "epoch": 1.3001230012300122,
      "grad_norm": 1.4067128896713257,
      "learning_rate": 0.00015823095406296514,
      "loss": 0.426,
      "step": 265
    },
    {
      "epoch": 1.3050430504305042,
      "grad_norm": 2.433593988418579,
      "learning_rate": 0.00015790761173967036,
      "loss": 0.404,
      "step": 266
    },
    {
      "epoch": 1.3099630996309963,
      "grad_norm": 1.216810703277588,
      "learning_rate": 0.00015758335597251458,
      "loss": 0.3607,
      "step": 267
    },
    {
      "epoch": 1.3148831488314883,
      "grad_norm": 3.8141870498657227,
      "learning_rate": 0.00015725819187635968,
      "loss": 0.487,
      "step": 268
    },
    {
      "epoch": 1.3198031980319804,
      "grad_norm": 0.3127140700817108,
      "learning_rate": 0.00015693212458039584,
      "loss": 0.3555,
      "step": 269
    },
    {
      "epoch": 1.3247232472324724,
      "grad_norm": 3.0095064640045166,
      "learning_rate": 0.00015660515922806027,
      "loss": 0.4525,
      "step": 270
    },
    {
      "epoch": 1.3296432964329643,
      "grad_norm": 1.490798830986023,
      "learning_rate": 0.00015627730097695638,
      "loss": 0.3951,
      "step": 271
    },
    {
      "epoch": 1.3345633456334562,
      "grad_norm": 2.4473958015441895,
      "learning_rate": 0.0001559485549987723,
      "loss": 0.3184,
      "step": 272
    },
    {
      "epoch": 1.3394833948339484,
      "grad_norm": 1.3399827480316162,
      "learning_rate": 0.0001556189264791992,
      "loss": 0.401,
      "step": 273
    },
    {
      "epoch": 1.3444034440344403,
      "grad_norm": 1.9885616302490234,
      "learning_rate": 0.0001552884206178498,
      "loss": 0.4482,
      "step": 274
    },
    {
      "epoch": 1.3493234932349323,
      "grad_norm": 1.2298444509506226,
      "learning_rate": 0.00015495704262817597,
      "loss": 0.4295,
      "step": 275
    },
    {
      "epoch": 1.3542435424354244,
      "grad_norm": 1.3658753633499146,
      "learning_rate": 0.0001546247977373867,
      "loss": 0.3741,
      "step": 276
    },
    {
      "epoch": 1.3591635916359164,
      "grad_norm": 3.8412437438964844,
      "learning_rate": 0.00015429169118636566,
      "loss": 0.356,
      "step": 277
    },
    {
      "epoch": 1.3640836408364083,
      "grad_norm": 2.24770188331604,
      "learning_rate": 0.00015395772822958845,
      "loss": 0.3911,
      "step": 278
    },
    {
      "epoch": 1.3690036900369003,
      "grad_norm": 1.0389429330825806,
      "learning_rate": 0.00015362291413503984,
      "loss": 0.4239,
      "step": 279
    },
    {
      "epoch": 1.3739237392373924,
      "grad_norm": 2.6337220668792725,
      "learning_rate": 0.00015328725418413045,
      "loss": 0.3546,
      "step": 280
    },
    {
      "epoch": 1.3788437884378844,
      "grad_norm": 1.609165906906128,
      "learning_rate": 0.00015295075367161367,
      "loss": 0.4083,
      "step": 281
    },
    {
      "epoch": 1.3837638376383765,
      "grad_norm": 2.580286741256714,
      "learning_rate": 0.00015261341790550196,
      "loss": 0.3493,
      "step": 282
    },
    {
      "epoch": 1.3886838868388685,
      "grad_norm": 2.396101474761963,
      "learning_rate": 0.0001522752522069833,
      "loss": 0.4164,
      "step": 283
    },
    {
      "epoch": 1.3936039360393604,
      "grad_norm": 1.4685685634613037,
      "learning_rate": 0.00015193626191033712,
      "loss": 0.3765,
      "step": 284
    },
    {
      "epoch": 1.3985239852398523,
      "grad_norm": 2.472041368484497,
      "learning_rate": 0.0001515964523628501,
      "loss": 0.4015,
      "step": 285
    },
    {
      "epoch": 1.4034440344403443,
      "grad_norm": 2.8179895877838135,
      "learning_rate": 0.00015125582892473204,
      "loss": 0.4108,
      "step": 286
    },
    {
      "epoch": 1.4083640836408364,
      "grad_norm": 2.4579968452453613,
      "learning_rate": 0.00015091439696903115,
      "loss": 0.4333,
      "step": 287
    },
    {
      "epoch": 1.4132841328413284,
      "grad_norm": 2.46209716796875,
      "learning_rate": 0.00015057216188154928,
      "loss": 0.468,
      "step": 288
    },
    {
      "epoch": 1.4182041820418205,
      "grad_norm": 1.7040590047836304,
      "learning_rate": 0.00015022912906075702,
      "loss": 0.421,
      "step": 289
    },
    {
      "epoch": 1.4231242312423125,
      "grad_norm": 4.77639102935791,
      "learning_rate": 0.00014988530391770856,
      "loss": 0.4105,
      "step": 290
    },
    {
      "epoch": 1.4280442804428044,
      "grad_norm": 1.7009060382843018,
      "learning_rate": 0.00014954069187595633,
      "loss": 0.4034,
      "step": 291
    },
    {
      "epoch": 1.4329643296432963,
      "grad_norm": 1.7801786661148071,
      "learning_rate": 0.00014919529837146528,
      "loss": 0.3962,
      "step": 292
    },
    {
      "epoch": 1.4378843788437885,
      "grad_norm": 0.9307105541229248,
      "learning_rate": 0.0001488491288525275,
      "loss": 0.3895,
      "step": 293
    },
    {
      "epoch": 1.4428044280442804,
      "grad_norm": 1.3841267824172974,
      "learning_rate": 0.0001485021887796759,
      "loss": 0.3871,
      "step": 294
    },
    {
      "epoch": 1.4477244772447724,
      "grad_norm": 1.3614524602890015,
      "learning_rate": 0.00014815448362559826,
      "loss": 0.4055,
      "step": 295
    },
    {
      "epoch": 1.4526445264452645,
      "grad_norm": 3.51263165473938,
      "learning_rate": 0.00014780601887505088,
      "loss": 0.2708,
      "step": 296
    },
    {
      "epoch": 1.4575645756457565,
      "grad_norm": 2.4436159133911133,
      "learning_rate": 0.00014745680002477203,
      "loss": 0.388,
      "step": 297
    },
    {
      "epoch": 1.4624846248462484,
      "grad_norm": 0.775227427482605,
      "learning_rate": 0.00014710683258339536,
      "loss": 0.3506,
      "step": 298
    },
    {
      "epoch": 1.4674046740467404,
      "grad_norm": 1.1680070161819458,
      "learning_rate": 0.0001467561220713628,
      "loss": 0.3227,
      "step": 299
    },
    {
      "epoch": 1.4723247232472325,
      "grad_norm": 2.8542237281799316,
      "learning_rate": 0.0001464046740208377,
      "loss": 0.3588,
      "step": 300
    },
    {
      "epoch": 1.4772447724477245,
      "grad_norm": 2.2465827465057373,
      "learning_rate": 0.00014605249397561736,
      "loss": 0.4161,
      "step": 301
    },
    {
      "epoch": 1.4821648216482166,
      "grad_norm": 3.5913736820220947,
      "learning_rate": 0.00014569958749104575,
      "loss": 0.4758,
      "step": 302
    },
    {
      "epoch": 1.4870848708487086,
      "grad_norm": 0.5437675714492798,
      "learning_rate": 0.00014534596013392575,
      "loss": 0.3388,
      "step": 303
    },
    {
      "epoch": 1.4920049200492005,
      "grad_norm": 2.386204242706299,
      "learning_rate": 0.00014499161748243147,
      "loss": 0.4425,
      "step": 304
    },
    {
      "epoch": 1.4969249692496924,
      "grad_norm": 1.160514235496521,
      "learning_rate": 0.0001446365651260201,
      "loss": 0.3747,
      "step": 305
    },
    {
      "epoch": 1.5018450184501844,
      "grad_norm": 0.49445146322250366,
      "learning_rate": 0.00014428080866534396,
      "loss": 0.3707,
      "step": 306
    },
    {
      "epoch": 1.5067650676506765,
      "grad_norm": 1.3350694179534912,
      "learning_rate": 0.00014392435371216185,
      "loss": 0.3455,
      "step": 307
    },
    {
      "epoch": 1.5116851168511685,
      "grad_norm": 1.1016676425933838,
      "learning_rate": 0.0001435672058892509,
      "loss": 0.4095,
      "step": 308
    },
    {
      "epoch": 1.5166051660516606,
      "grad_norm": 2.0227558612823486,
      "learning_rate": 0.00014320937083031748,
      "loss": 0.3706,
      "step": 309
    },
    {
      "epoch": 1.5215252152521526,
      "grad_norm": 3.2734158039093018,
      "learning_rate": 0.0001428508541799086,
      "loss": 0.3384,
      "step": 310
    },
    {
      "epoch": 1.5264452644526445,
      "grad_norm": 1.967950701713562,
      "learning_rate": 0.0001424916615933229,
      "loss": 0.4321,
      "step": 311
    },
    {
      "epoch": 1.5313653136531364,
      "grad_norm": 1.8679777383804321,
      "learning_rate": 0.00014213179873652127,
      "loss": 0.3597,
      "step": 312
    },
    {
      "epoch": 1.5362853628536284,
      "grad_norm": 1.111864447593689,
      "learning_rate": 0.00014177127128603745,
      "loss": 0.3639,
      "step": 313
    },
    {
      "epoch": 1.5412054120541205,
      "grad_norm": 1.1539496183395386,
      "learning_rate": 0.0001414100849288888,
      "loss": 0.3735,
      "step": 314
    },
    {
      "epoch": 1.5461254612546127,
      "grad_norm": 2.5453989505767822,
      "learning_rate": 0.00014104824536248614,
      "loss": 0.4241,
      "step": 315
    },
    {
      "epoch": 1.5510455104551046,
      "grad_norm": 1.5490731000900269,
      "learning_rate": 0.00014068575829454436,
      "loss": 0.38,
      "step": 316
    },
    {
      "epoch": 1.5559655596555966,
      "grad_norm": 2.0369129180908203,
      "learning_rate": 0.00014032262944299194,
      "loss": 0.432,
      "step": 317
    },
    {
      "epoch": 1.5608856088560885,
      "grad_norm": 1.938671588897705,
      "learning_rate": 0.00013995886453588104,
      "loss": 0.4407,
      "step": 318
    },
    {
      "epoch": 1.5658056580565805,
      "grad_norm": 1.5802247524261475,
      "learning_rate": 0.00013959446931129704,
      "loss": 0.4174,
      "step": 319
    },
    {
      "epoch": 1.5707257072570726,
      "grad_norm": 1.7823857069015503,
      "learning_rate": 0.0001392294495172681,
      "loss": 0.3608,
      "step": 320
    },
    {
      "epoch": 1.5756457564575646,
      "grad_norm": 1.5793462991714478,
      "learning_rate": 0.0001388638109116744,
      "loss": 0.4049,
      "step": 321
    },
    {
      "epoch": 1.5805658056580567,
      "grad_norm": 2.478447437286377,
      "learning_rate": 0.00013849755926215735,
      "loss": 0.3822,
      "step": 322
    },
    {
      "epoch": 1.5854858548585486,
      "grad_norm": 3.0512235164642334,
      "learning_rate": 0.00013813070034602863,
      "loss": 0.3729,
      "step": 323
    },
    {
      "epoch": 1.5904059040590406,
      "grad_norm": 2.298110008239746,
      "learning_rate": 0.00013776323995017898,
      "loss": 0.3757,
      "step": 324
    },
    {
      "epoch": 1.5953259532595325,
      "grad_norm": 1.1335664987564087,
      "learning_rate": 0.00013739518387098705,
      "loss": 0.3436,
      "step": 325
    },
    {
      "epoch": 1.6002460024600245,
      "grad_norm": 1.9639568328857422,
      "learning_rate": 0.0001370265379142279,
      "loss": 0.4321,
      "step": 326
    },
    {
      "epoch": 1.6051660516605166,
      "grad_norm": 2.0375776290893555,
      "learning_rate": 0.0001366573078949813,
      "loss": 0.3924,
      "step": 327
    },
    {
      "epoch": 1.6100861008610086,
      "grad_norm": 2.925692558288574,
      "learning_rate": 0.00013628749963754026,
      "loss": 0.447,
      "step": 328
    },
    {
      "epoch": 1.6150061500615007,
      "grad_norm": 2.7469842433929443,
      "learning_rate": 0.0001359171189753189,
      "loss": 0.4045,
      "step": 329
    },
    {
      "epoch": 1.6199261992619927,
      "grad_norm": 1.8784551620483398,
      "learning_rate": 0.00013554617175076062,
      "loss": 0.398,
      "step": 330
    },
    {
      "epoch": 1.6248462484624846,
      "grad_norm": 3.961890459060669,
      "learning_rate": 0.0001351746638152458,
      "loss": 0.4837,
      "step": 331
    },
    {
      "epoch": 1.6297662976629765,
      "grad_norm": 1.2118688821792603,
      "learning_rate": 0.00013480260102899966,
      "loss": 0.3792,
      "step": 332
    },
    {
      "epoch": 1.6346863468634685,
      "grad_norm": 0.8447842597961426,
      "learning_rate": 0.0001344299892609996,
      "loss": 0.3939,
      "step": 333
    },
    {
      "epoch": 1.6396063960639606,
      "grad_norm": 0.8459701538085938,
      "learning_rate": 0.00013405683438888282,
      "loss": 0.4246,
      "step": 334
    },
    {
      "epoch": 1.6445264452644528,
      "grad_norm": 2.4549758434295654,
      "learning_rate": 0.00013368314229885347,
      "loss": 0.3642,
      "step": 335
    },
    {
      "epoch": 1.6494464944649447,
      "grad_norm": 3.813248872756958,
      "learning_rate": 0.00013330891888559002,
      "loss": 0.4009,
      "step": 336
    },
    {
      "epoch": 1.6543665436654367,
      "grad_norm": 3.946821689605713,
      "learning_rate": 0.00013293417005215188,
      "loss": 0.3961,
      "step": 337
    },
    {
      "epoch": 1.6592865928659286,
      "grad_norm": 1.7004120349884033,
      "learning_rate": 0.0001325589017098867,
      "loss": 0.4145,
      "step": 338
    },
    {
      "epoch": 1.6642066420664205,
      "grad_norm": 2.824493169784546,
      "learning_rate": 0.00013218311977833687,
      "loss": 0.403,
      "step": 339
    },
    {
      "epoch": 1.6691266912669127,
      "grad_norm": 2.5144972801208496,
      "learning_rate": 0.0001318068301851463,
      "loss": 0.4236,
      "step": 340
    },
    {
      "epoch": 1.6740467404674046,
      "grad_norm": 2.8602144718170166,
      "learning_rate": 0.00013143003886596669,
      "loss": 0.4267,
      "step": 341
    },
    {
      "epoch": 1.6789667896678968,
      "grad_norm": 1.5796253681182861,
      "learning_rate": 0.0001310527517643642,
      "loss": 0.4181,
      "step": 342
    },
    {
      "epoch": 1.6838868388683887,
      "grad_norm": 1.748310923576355,
      "learning_rate": 0.00013067497483172538,
      "loss": 0.3817,
      "step": 343
    },
    {
      "epoch": 1.6888068880688807,
      "grad_norm": 1.1796998977661133,
      "learning_rate": 0.00013029671402716366,
      "loss": 0.3891,
      "step": 344
    },
    {
      "epoch": 1.6937269372693726,
      "grad_norm": 0.8031755089759827,
      "learning_rate": 0.00012991797531742492,
      "loss": 0.3746,
      "step": 345
    },
    {
      "epoch": 1.6986469864698646,
      "grad_norm": 2.449571132659912,
      "learning_rate": 0.00012953876467679373,
      "loss": 0.3759,
      "step": 346
    },
    {
      "epoch": 1.7035670356703567,
      "grad_norm": 2.167459726333618,
      "learning_rate": 0.00012915908808699893,
      "loss": 0.4026,
      "step": 347
    },
    {
      "epoch": 1.7084870848708487,
      "grad_norm": 0.8750459551811218,
      "learning_rate": 0.00012877895153711935,
      "loss": 0.3612,
      "step": 348
    },
    {
      "epoch": 1.7134071340713408,
      "grad_norm": 0.9922705292701721,
      "learning_rate": 0.00012839836102348926,
      "loss": 0.3894,
      "step": 349
    },
    {
      "epoch": 1.7183271832718328,
      "grad_norm": 2.778425693511963,
      "learning_rate": 0.00012801732254960388,
      "loss": 0.5034,
      "step": 350
    },
    {
      "epoch": 1.7232472324723247,
      "grad_norm": 2.2978157997131348,
      "learning_rate": 0.00012763584212602453,
      "loss": 0.3919,
      "step": 351
    },
    {
      "epoch": 1.7281672816728166,
      "grad_norm": 0.7636315822601318,
      "learning_rate": 0.00012725392577028402,
      "loss": 0.3465,
      "step": 352
    },
    {
      "epoch": 1.7330873308733086,
      "grad_norm": 0.9501156210899353,
      "learning_rate": 0.0001268715795067916,
      "loss": 0.353,
      "step": 353
    },
    {
      "epoch": 1.7380073800738007,
      "grad_norm": 1.9191248416900635,
      "learning_rate": 0.00012648880936673787,
      "loss": 0.4535,
      "step": 354
    },
    {
      "epoch": 1.742927429274293,
      "grad_norm": 0.5128054618835449,
      "learning_rate": 0.00012610562138799978,
      "loss": 0.3761,
      "step": 355
    },
    {
      "epoch": 1.7478474784747848,
      "grad_norm": 1.427462100982666,
      "learning_rate": 0.00012572202161504543,
      "loss": 0.3871,
      "step": 356
    },
    {
      "epoch": 1.7527675276752768,
      "grad_norm": 0.44678959250450134,
      "learning_rate": 0.00012533801609883842,
      "loss": 0.3858,
      "step": 357
    },
    {
      "epoch": 1.7576875768757687,
      "grad_norm": 1.5311493873596191,
      "learning_rate": 0.00012495361089674285,
      "loss": 0.3638,
      "step": 358
    },
    {
      "epoch": 1.7626076260762606,
      "grad_norm": 1.7714836597442627,
      "learning_rate": 0.00012456881207242732,
      "loss": 0.324,
      "step": 359
    },
    {
      "epoch": 1.7675276752767528,
      "grad_norm": 0.6259622573852539,
      "learning_rate": 0.00012418362569576965,
      "loss": 0.3832,
      "step": 360
    },
    {
      "epoch": 1.7724477244772447,
      "grad_norm": 1.4297990798950195,
      "learning_rate": 0.00012379805784276082,
      "loss": 0.3464,
      "step": 361
    },
    {
      "epoch": 1.777367773677737,
      "grad_norm": 0.9419127702713013,
      "learning_rate": 0.0001234121145954094,
      "loss": 0.3605,
      "step": 362
    },
    {
      "epoch": 1.7822878228782288,
      "grad_norm": 1.7905269861221313,
      "learning_rate": 0.00012302580204164541,
      "loss": 0.4042,
      "step": 363
    },
    {
      "epoch": 1.7872078720787208,
      "grad_norm": 2.3646910190582275,
      "learning_rate": 0.0001226391262752245,
      "loss": 0.4208,
      "step": 364
    },
    {
      "epoch": 1.7921279212792127,
      "grad_norm": 1.26406991481781,
      "learning_rate": 0.00012225209339563145,
      "loss": 0.3653,
      "step": 365
    },
    {
      "epoch": 1.7970479704797047,
      "grad_norm": 2.371533155441284,
      "learning_rate": 0.00012186470950798445,
      "loss": 0.4039,
      "step": 366
    },
    {
      "epoch": 1.8019680196801968,
      "grad_norm": 3.1603784561157227,
      "learning_rate": 0.00012147698072293842,
      "loss": 0.4911,
      "step": 367
    },
    {
      "epoch": 1.8068880688806888,
      "grad_norm": 2.687168836593628,
      "learning_rate": 0.00012108891315658879,
      "loss": 0.4356,
      "step": 368
    },
    {
      "epoch": 1.811808118081181,
      "grad_norm": 3.9243521690368652,
      "learning_rate": 0.00012070051293037492,
      "loss": 0.434,
      "step": 369
    },
    {
      "epoch": 1.8167281672816729,
      "grad_norm": 2.8489391803741455,
      "learning_rate": 0.00012031178617098371,
      "loss": 0.3572,
      "step": 370
    },
    {
      "epoch": 1.8216482164821648,
      "grad_norm": 2.8946075439453125,
      "learning_rate": 0.00011992273901025269,
      "loss": 0.3993,
      "step": 371
    },
    {
      "epoch": 1.8265682656826567,
      "grad_norm": 1.3082534074783325,
      "learning_rate": 0.0001195333775850736,
      "loss": 0.4137,
      "step": 372
    },
    {
      "epoch": 1.8314883148831487,
      "grad_norm": 1.9355298280715942,
      "learning_rate": 0.00011914370803729533,
      "loss": 0.3746,
      "step": 373
    },
    {
      "epoch": 1.8364083640836408,
      "grad_norm": 2.1702141761779785,
      "learning_rate": 0.00011875373651362727,
      "loss": 0.3622,
      "step": 374
    },
    {
      "epoch": 1.841328413284133,
      "grad_norm": 1.4988595247268677,
      "learning_rate": 0.00011836346916554205,
      "loss": 0.3619,
      "step": 375
    },
    {
      "epoch": 1.846248462484625,
      "grad_norm": 1.761991262435913,
      "learning_rate": 0.00011797291214917881,
      "loss": 0.4358,
      "step": 376
    },
    {
      "epoch": 1.8511685116851169,
      "grad_norm": 0.745695173740387,
      "learning_rate": 0.00011758207162524598,
      "loss": 0.3995,
      "step": 377
    },
    {
      "epoch": 1.8560885608856088,
      "grad_norm": 1.9512763023376465,
      "learning_rate": 0.00011719095375892396,
      "loss": 0.4432,
      "step": 378
    },
    {
      "epoch": 1.8610086100861007,
      "grad_norm": 2.6219289302825928,
      "learning_rate": 0.00011679956471976814,
      "loss": 0.4677,
      "step": 379
    },
    {
      "epoch": 1.865928659286593,
      "grad_norm": 3.995495080947876,
      "learning_rate": 0.0001164079106816113,
      "loss": 0.2968,
      "step": 380
    },
    {
      "epoch": 1.8708487084870848,
      "grad_norm": 0.8375853300094604,
      "learning_rate": 0.00011601599782246646,
      "loss": 0.4035,
      "step": 381
    },
    {
      "epoch": 1.875768757687577,
      "grad_norm": 1.5365298986434937,
      "learning_rate": 0.00011562383232442926,
      "loss": 0.417,
      "step": 382
    },
    {
      "epoch": 1.880688806888069,
      "grad_norm": 0.9506827592849731,
      "learning_rate": 0.0001152314203735805,
      "loss": 0.3772,
      "step": 383
    },
    {
      "epoch": 1.8856088560885609,
      "grad_norm": 0.900571346282959,
      "learning_rate": 0.00011483876815988867,
      "loss": 0.3805,
      "step": 384
    },
    {
      "epoch": 1.8905289052890528,
      "grad_norm": 1.0722607374191284,
      "learning_rate": 0.00011444588187711205,
      "loss": 0.4088,
      "step": 385
    },
    {
      "epoch": 1.8954489544895448,
      "grad_norm": 1.7054160833358765,
      "learning_rate": 0.00011405276772270126,
      "loss": 0.3956,
      "step": 386
    },
    {
      "epoch": 1.900369003690037,
      "grad_norm": 0.986569881439209,
      "learning_rate": 0.0001136594318977014,
      "loss": 0.4079,
      "step": 387
    },
    {
      "epoch": 1.9052890528905289,
      "grad_norm": 0.8886733651161194,
      "learning_rate": 0.0001132658806066542,
      "loss": 0.3842,
      "step": 388
    },
    {
      "epoch": 1.910209102091021,
      "grad_norm": 0.8961542248725891,
      "learning_rate": 0.00011287212005750024,
      "loss": 0.3881,
      "step": 389
    },
    {
      "epoch": 1.915129151291513,
      "grad_norm": 2.585698127746582,
      "learning_rate": 0.00011247815646148087,
      "loss": 0.4671,
      "step": 390
    },
    {
      "epoch": 1.920049200492005,
      "grad_norm": 1.6980706453323364,
      "learning_rate": 0.00011208399603304047,
      "loss": 0.3499,
      "step": 391
    },
    {
      "epoch": 1.9249692496924968,
      "grad_norm": 0.8087127804756165,
      "learning_rate": 0.00011168964498972818,
      "loss": 0.3786,
      "step": 392
    },
    {
      "epoch": 1.9298892988929888,
      "grad_norm": 1.2001378536224365,
      "learning_rate": 0.00011129510955209996,
      "loss": 0.3502,
      "step": 393
    },
    {
      "epoch": 1.934809348093481,
      "grad_norm": 1.2342605590820312,
      "learning_rate": 0.00011090039594362045,
      "loss": 0.3924,
      "step": 394
    },
    {
      "epoch": 1.939729397293973,
      "grad_norm": 1.3440324068069458,
      "learning_rate": 0.00011050551039056479,
      "loss": 0.4143,
      "step": 395
    },
    {
      "epoch": 1.944649446494465,
      "grad_norm": 0.7715713977813721,
      "learning_rate": 0.00011011045912192035,
      "loss": 0.3371,
      "step": 396
    },
    {
      "epoch": 1.949569495694957,
      "grad_norm": 0.9439634084701538,
      "learning_rate": 0.0001097152483692886,
      "loss": 0.3916,
      "step": 397
    },
    {
      "epoch": 1.954489544895449,
      "grad_norm": 1.3055254220962524,
      "learning_rate": 0.00010931988436678666,
      "loss": 0.4016,
      "step": 398
    },
    {
      "epoch": 1.9594095940959408,
      "grad_norm": 0.8916832208633423,
      "learning_rate": 0.00010892437335094912,
      "loss": 0.3525,
      "step": 399
    },
    {
      "epoch": 1.964329643296433,
      "grad_norm": 1.3914546966552734,
      "learning_rate": 0.00010852872156062946,
      "loss": 0.3771,
      "step": 400
    },
    {
      "epoch": 1.969249692496925,
      "grad_norm": 0.9857692122459412,
      "learning_rate": 0.00010813293523690191,
      "loss": 0.3393,
      "step": 401
    },
    {
      "epoch": 1.974169741697417,
      "grad_norm": 2.0917956829071045,
      "learning_rate": 0.00010773702062296273,
      "loss": 0.4354,
      "step": 402
    },
    {
      "epoch": 1.979089790897909,
      "grad_norm": 1.275038719177246,
      "learning_rate": 0.00010734098396403192,
      "loss": 0.3398,
      "step": 403
    },
    {
      "epoch": 1.984009840098401,
      "grad_norm": 2.0591840744018555,
      "learning_rate": 0.00010694483150725458,
      "loss": 0.4068,
      "step": 404
    },
    {
      "epoch": 1.988929889298893,
      "grad_norm": 4.258203506469727,
      "learning_rate": 0.00010654856950160253,
      "loss": 0.5179,
      "step": 405
    },
    {
      "epoch": 1.9938499384993849,
      "grad_norm": 1.638200283050537,
      "learning_rate": 0.00010615220419777548,
      "loss": 0.3814,
      "step": 406
    },
    {
      "epoch": 1.998769987699877,
      "grad_norm": 1.5387883186340332,
      "learning_rate": 0.00010575574184810269,
      "loss": 0.3818,
      "step": 407
    },
    {
      "epoch": 2.0,
      "grad_norm": 4.10122013092041,
      "learning_rate": 0.0001053591887064442,
      "loss": 0.3577,
      "step": 408
    },
    {
      "epoch": 2.004920049200492,
      "grad_norm": 1.2864503860473633,
      "learning_rate": 0.00010496255102809223,
      "loss": 0.3394,
      "step": 409
    },
    {
      "epoch": 2.009840098400984,
      "grad_norm": 0.9785577654838562,
      "learning_rate": 0.00010456583506967248,
      "loss": 0.3734,
      "step": 410
    },
    {
      "epoch": 2.014760147601476,
      "grad_norm": 0.43325719237327576,
      "learning_rate": 0.00010416904708904548,
      "loss": 0.3805,
      "step": 411
    },
    {
      "epoch": 2.019680196801968,
      "grad_norm": 3.109909772872925,
      "learning_rate": 0.00010377219334520783,
      "loss": 0.4594,
      "step": 412
    },
    {
      "epoch": 2.02460024600246,
      "grad_norm": 1.8757784366607666,
      "learning_rate": 0.00010337528009819344,
      "loss": 0.4087,
      "step": 413
    },
    {
      "epoch": 2.029520295202952,
      "grad_norm": 3.7887425422668457,
      "learning_rate": 0.00010297831360897492,
      "loss": 0.436,
      "step": 414
    },
    {
      "epoch": 2.034440344403444,
      "grad_norm": 0.3496626019477844,
      "learning_rate": 0.00010258130013936474,
      "loss": 0.3854,
      "step": 415
    },
    {
      "epoch": 2.039360393603936,
      "grad_norm": 1.3036730289459229,
      "learning_rate": 0.00010218424595191631,
      "loss": 0.3803,
      "step": 416
    },
    {
      "epoch": 2.044280442804428,
      "grad_norm": 4.245285987854004,
      "learning_rate": 0.00010178715730982549,
      "loss": 0.4952,
      "step": 417
    },
    {
      "epoch": 2.0492004920049203,
      "grad_norm": 3.09157133102417,
      "learning_rate": 0.00010139004047683151,
      "loss": 0.3944,
      "step": 418
    },
    {
      "epoch": 2.054120541205412,
      "grad_norm": 1.5304118394851685,
      "learning_rate": 0.00010099290171711841,
      "loss": 0.4174,
      "step": 419
    },
    {
      "epoch": 2.059040590405904,
      "grad_norm": 2.2359232902526855,
      "learning_rate": 0.00010059574729521595,
      "loss": 0.3358,
      "step": 420
    },
    {
      "epoch": 2.063960639606396,
      "grad_norm": 0.6024315357208252,
      "learning_rate": 0.0001001985834759011,
      "loss": 0.3981,
      "step": 421
    },
    {
      "epoch": 2.068880688806888,
      "grad_norm": 1.2679041624069214,
      "learning_rate": 9.980141652409895e-05,
      "loss": 0.4225,
      "step": 422
    },
    {
      "epoch": 2.07380073800738,
      "grad_norm": 0.895416796207428,
      "learning_rate": 9.940425270478407e-05,
      "loss": 0.388,
      "step": 423
    },
    {
      "epoch": 2.078720787207872,
      "grad_norm": 1.567826747894287,
      "learning_rate": 9.900709828288164e-05,
      "loss": 0.3704,
      "step": 424
    },
    {
      "epoch": 2.0836408364083643,
      "grad_norm": 1.9329123497009277,
      "learning_rate": 9.860995952316851e-05,
      "loss": 0.4234,
      "step": 425
    },
    {
      "epoch": 2.088560885608856,
      "grad_norm": 0.44675880670547485,
      "learning_rate": 9.821284269017455e-05,
      "loss": 0.3876,
      "step": 426
    },
    {
      "epoch": 2.093480934809348,
      "grad_norm": 1.7258495092391968,
      "learning_rate": 9.781575404808371e-05,
      "loss": 0.4297,
      "step": 427
    },
    {
      "epoch": 2.09840098400984,
      "grad_norm": 1.092556118965149,
      "learning_rate": 9.741869986063526e-05,
      "loss": 0.4026,
      "step": 428
    },
    {
      "epoch": 2.103321033210332,
      "grad_norm": 1.4725236892700195,
      "learning_rate": 9.702168639102509e-05,
      "loss": 0.4385,
      "step": 429
    },
    {
      "epoch": 2.108241082410824,
      "grad_norm": 2.7385778427124023,
      "learning_rate": 9.662471990180657e-05,
      "loss": 0.4424,
      "step": 430
    },
    {
      "epoch": 2.113161131611316,
      "grad_norm": 2.480210542678833,
      "learning_rate": 9.622780665479222e-05,
      "loss": 0.4206,
      "step": 431
    },
    {
      "epoch": 2.1180811808118083,
      "grad_norm": 0.8362523913383484,
      "learning_rate": 9.583095291095453e-05,
      "loss": 0.3986,
      "step": 432
    },
    {
      "epoch": 2.1230012300123002,
      "grad_norm": 2.0622987747192383,
      "learning_rate": 9.543416493032757e-05,
      "loss": 0.3485,
      "step": 433
    },
    {
      "epoch": 2.127921279212792,
      "grad_norm": 2.7538793087005615,
      "learning_rate": 9.503744897190778e-05,
      "loss": 0.3756,
      "step": 434
    },
    {
      "epoch": 2.132841328413284,
      "grad_norm": 0.8746367692947388,
      "learning_rate": 9.464081129355586e-05,
      "loss": 0.3751,
      "step": 435
    },
    {
      "epoch": 2.137761377613776,
      "grad_norm": 1.8478419780731201,
      "learning_rate": 9.424425815189733e-05,
      "loss": 0.4292,
      "step": 436
    },
    {
      "epoch": 2.142681426814268,
      "grad_norm": 1.6647083759307861,
      "learning_rate": 9.384779580222453e-05,
      "loss": 0.339,
      "step": 437
    },
    {
      "epoch": 2.14760147601476,
      "grad_norm": 4.109962463378906,
      "learning_rate": 9.345143049839749e-05,
      "loss": 0.4544,
      "step": 438
    },
    {
      "epoch": 2.1525215252152523,
      "grad_norm": 1.978119969367981,
      "learning_rate": 9.305516849274541e-05,
      "loss": 0.3702,
      "step": 439
    },
    {
      "epoch": 2.1574415744157442,
      "grad_norm": 1.917183518409729,
      "learning_rate": 9.265901603596811e-05,
      "loss": 0.4077,
      "step": 440
    },
    {
      "epoch": 2.162361623616236,
      "grad_norm": 0.47567835450172424,
      "learning_rate": 9.226297937703728e-05,
      "loss": 0.3356,
      "step": 441
    },
    {
      "epoch": 2.167281672816728,
      "grad_norm": 2.546321392059326,
      "learning_rate": 9.186706476309812e-05,
      "loss": 0.4337,
      "step": 442
    },
    {
      "epoch": 2.17220172201722,
      "grad_norm": 2.111480236053467,
      "learning_rate": 9.147127843937055e-05,
      "loss": 0.4024,
      "step": 443
    },
    {
      "epoch": 2.177121771217712,
      "grad_norm": 1.1858526468276978,
      "learning_rate": 9.107562664905093e-05,
      "loss": 0.3637,
      "step": 444
    },
    {
      "epoch": 2.1820418204182044,
      "grad_norm": 1.404078722000122,
      "learning_rate": 9.068011563321336e-05,
      "loss": 0.4173,
      "step": 445
    },
    {
      "epoch": 2.1869618696186963,
      "grad_norm": 1.1295206546783447,
      "learning_rate": 9.028475163071141e-05,
      "loss": 0.3856,
      "step": 446
    },
    {
      "epoch": 2.1918819188191883,
      "grad_norm": 1.2605645656585693,
      "learning_rate": 8.988954087807968e-05,
      "loss": 0.4193,
      "step": 447
    },
    {
      "epoch": 2.19680196801968,
      "grad_norm": 1.1261564493179321,
      "learning_rate": 8.949448960943524e-05,
      "loss": 0.407,
      "step": 448
    },
    {
      "epoch": 2.201722017220172,
      "grad_norm": 2.366487979888916,
      "learning_rate": 8.909960405637958e-05,
      "loss": 0.3946,
      "step": 449
    },
    {
      "epoch": 2.206642066420664,
      "grad_norm": 2.1479427814483643,
      "learning_rate": 8.870489044790006e-05,
      "loss": 0.3728,
      "step": 450
    },
    {
      "epoch": 2.211562115621156,
      "grad_norm": 2.990525245666504,
      "learning_rate": 8.831035501027186e-05,
      "loss": 0.3367,
      "step": 451
    },
    {
      "epoch": 2.2164821648216484,
      "grad_norm": 1.812566876411438,
      "learning_rate": 8.791600396695954e-05,
      "loss": 0.3689,
      "step": 452
    },
    {
      "epoch": 2.2214022140221403,
      "grad_norm": 0.5948531031608582,
      "learning_rate": 8.752184353851916e-05,
      "loss": 0.4018,
      "step": 453
    },
    {
      "epoch": 2.2263222632226323,
      "grad_norm": 1.8020761013031006,
      "learning_rate": 8.712787994249979e-05,
      "loss": 0.3965,
      "step": 454
    },
    {
      "epoch": 2.231242312423124,
      "grad_norm": 1.5464495420455933,
      "learning_rate": 8.673411939334581e-05,
      "loss": 0.3353,
      "step": 455
    },
    {
      "epoch": 2.236162361623616,
      "grad_norm": 1.8382320404052734,
      "learning_rate": 8.634056810229862e-05,
      "loss": 0.3916,
      "step": 456
    },
    {
      "epoch": 2.241082410824108,
      "grad_norm": 1.5499740839004517,
      "learning_rate": 8.594723227729875e-05,
      "loss": 0.3895,
      "step": 457
    },
    {
      "epoch": 2.2460024600246005,
      "grad_norm": 4.030876636505127,
      "learning_rate": 8.555411812288798e-05,
      "loss": 0.4616,
      "step": 458
    },
    {
      "epoch": 2.2509225092250924,
      "grad_norm": 1.1098424196243286,
      "learning_rate": 8.516123184011135e-05,
      "loss": 0.2977,
      "step": 459
    },
    {
      "epoch": 2.2558425584255843,
      "grad_norm": 1.2961804866790771,
      "learning_rate": 8.47685796264195e-05,
      "loss": 0.36,
      "step": 460
    },
    {
      "epoch": 2.2607626076260763,
      "grad_norm": 1.140372633934021,
      "learning_rate": 8.437616767557077e-05,
      "loss": 0.351,
      "step": 461
    },
    {
      "epoch": 2.265682656826568,
      "grad_norm": 3.4962611198425293,
      "learning_rate": 8.398400217753357e-05,
      "loss": 0.4724,
      "step": 462
    },
    {
      "epoch": 2.27060270602706,
      "grad_norm": 2.6000497341156006,
      "learning_rate": 8.359208931838871e-05,
      "loss": 0.4618,
      "step": 463
    },
    {
      "epoch": 2.275522755227552,
      "grad_norm": 2.955470323562622,
      "learning_rate": 8.320043528023188e-05,
      "loss": 0.461,
      "step": 464
    },
    {
      "epoch": 2.280442804428044,
      "grad_norm": 0.9662995934486389,
      "learning_rate": 8.280904624107606e-05,
      "loss": 0.3457,
      "step": 465
    },
    {
      "epoch": 2.2853628536285364,
      "grad_norm": 0.8392460346221924,
      "learning_rate": 8.241792837475405e-05,
      "loss": 0.354,
      "step": 466
    },
    {
      "epoch": 2.2902829028290284,
      "grad_norm": 2.8896520137786865,
      "learning_rate": 8.202708785082121e-05,
      "loss": 0.416,
      "step": 467
    },
    {
      "epoch": 2.2952029520295203,
      "grad_norm": 1.6311709880828857,
      "learning_rate": 8.163653083445799e-05,
      "loss": 0.399,
      "step": 468
    },
    {
      "epoch": 2.3001230012300122,
      "grad_norm": 0.4800054132938385,
      "learning_rate": 8.124626348637279e-05,
      "loss": 0.3758,
      "step": 469
    },
    {
      "epoch": 2.305043050430504,
      "grad_norm": 1.0817440748214722,
      "learning_rate": 8.085629196270469e-05,
      "loss": 0.3764,
      "step": 470
    },
    {
      "epoch": 2.3099630996309966,
      "grad_norm": 1.6088804006576538,
      "learning_rate": 8.046662241492645e-05,
      "loss": 0.4473,
      "step": 471
    },
    {
      "epoch": 2.3148831488314885,
      "grad_norm": 1.0749715566635132,
      "learning_rate": 8.007726098974734e-05,
      "loss": 0.3703,
      "step": 472
    },
    {
      "epoch": 2.3198031980319804,
      "grad_norm": 1.5354204177856445,
      "learning_rate": 7.96882138290163e-05,
      "loss": 0.4164,
      "step": 473
    },
    {
      "epoch": 2.3247232472324724,
      "grad_norm": 1.117240309715271,
      "learning_rate": 7.929948706962508e-05,
      "loss": 0.4144,
      "step": 474
    },
    {
      "epoch": 2.3296432964329643,
      "grad_norm": 0.9542057514190674,
      "learning_rate": 7.891108684341121e-05,
      "loss": 0.4162,
      "step": 475
    },
    {
      "epoch": 2.3345633456334562,
      "grad_norm": 1.411424994468689,
      "learning_rate": 7.852301927706159e-05,
      "loss": 0.4402,
      "step": 476
    },
    {
      "epoch": 2.339483394833948,
      "grad_norm": 1.8303946256637573,
      "learning_rate": 7.813529049201556e-05,
      "loss": 0.423,
      "step": 477
    },
    {
      "epoch": 2.34440344403444,
      "grad_norm": 1.6640418767929077,
      "learning_rate": 7.774790660436858e-05,
      "loss": 0.3943,
      "step": 478
    },
    {
      "epoch": 2.3493234932349325,
      "grad_norm": 0.5208873152732849,
      "learning_rate": 7.736087372477554e-05,
      "loss": 0.4215,
      "step": 479
    },
    {
      "epoch": 2.3542435424354244,
      "grad_norm": 2.1671223640441895,
      "learning_rate": 7.69741979583546e-05,
      "loss": 0.3839,
      "step": 480
    },
    {
      "epoch": 2.3591635916359164,
      "grad_norm": 2.075159788131714,
      "learning_rate": 7.658788540459062e-05,
      "loss": 0.3851,
      "step": 481
    },
    {
      "epoch": 2.3640836408364083,
      "grad_norm": 1.8642665147781372,
      "learning_rate": 7.620194215723919e-05,
      "loss": 0.3669,
      "step": 482
    },
    {
      "epoch": 2.3690036900369003,
      "grad_norm": 2.8715755939483643,
      "learning_rate": 7.581637430423037e-05,
      "loss": 0.4352,
      "step": 483
    },
    {
      "epoch": 2.373923739237392,
      "grad_norm": 0.8020451664924622,
      "learning_rate": 7.543118792757266e-05,
      "loss": 0.3657,
      "step": 484
    },
    {
      "epoch": 2.3788437884378846,
      "grad_norm": 2.100980758666992,
      "learning_rate": 7.504638910325717e-05,
      "loss": 0.3141,
      "step": 485
    },
    {
      "epoch": 2.3837638376383765,
      "grad_norm": 3.8309755325317383,
      "learning_rate": 7.466198390116158e-05,
      "loss": 0.494,
      "step": 486
    },
    {
      "epoch": 2.3886838868388685,
      "grad_norm": 1.7863093614578247,
      "learning_rate": 7.427797838495463e-05,
      "loss": 0.3792,
      "step": 487
    },
    {
      "epoch": 2.3936039360393604,
      "grad_norm": 1.1884002685546875,
      "learning_rate": 7.389437861200024e-05,
      "loss": 0.3928,
      "step": 488
    },
    {
      "epoch": 2.3985239852398523,
      "grad_norm": 1.9756462574005127,
      "learning_rate": 7.35111906332622e-05,
      "loss": 0.4218,
      "step": 489
    },
    {
      "epoch": 2.4034440344403443,
      "grad_norm": 3.6889054775238037,
      "learning_rate": 7.312842049320844e-05,
      "loss": 0.4441,
      "step": 490
    },
    {
      "epoch": 2.408364083640836,
      "grad_norm": 2.106717109680176,
      "learning_rate": 7.2746074229716e-05,
      "loss": 0.3783,
      "step": 491
    },
    {
      "epoch": 2.4132841328413286,
      "grad_norm": 1.312242865562439,
      "learning_rate": 7.236415787397548e-05,
      "loss": 0.3342,
      "step": 492
    },
    {
      "epoch": 2.4182041820418205,
      "grad_norm": 0.7120693325996399,
      "learning_rate": 7.198267745039612e-05,
      "loss": 0.3846,
      "step": 493
    },
    {
      "epoch": 2.4231242312423125,
      "grad_norm": 1.6067770719528198,
      "learning_rate": 7.160163897651075e-05,
      "loss": 0.4396,
      "step": 494
    },
    {
      "epoch": 2.4280442804428044,
      "grad_norm": 4.197781562805176,
      "learning_rate": 7.122104846288064e-05,
      "loss": 0.2713,
      "step": 495
    },
    {
      "epoch": 2.4329643296432963,
      "grad_norm": 1.1666693687438965,
      "learning_rate": 7.08409119130011e-05,
      "loss": 0.3647,
      "step": 496
    },
    {
      "epoch": 2.4378843788437883,
      "grad_norm": 1.3826804161071777,
      "learning_rate": 7.04612353232063e-05,
      "loss": 0.3739,
      "step": 497
    },
    {
      "epoch": 2.4428044280442807,
      "grad_norm": 1.140659213066101,
      "learning_rate": 7.008202468257514e-05,
      "loss": 0.4207,
      "step": 498
    },
    {
      "epoch": 2.4477244772447726,
      "grad_norm": 2.2047266960144043,
      "learning_rate": 6.970328597283637e-05,
      "loss": 0.3767,
      "step": 499
    },
    {
      "epoch": 2.4526445264452645,
      "grad_norm": 2.385573148727417,
      "learning_rate": 6.932502516827461e-05,
      "loss": 0.3369,
      "step": 500
    },
    {
      "epoch": 2.4575645756457565,
      "grad_norm": 1.869011402130127,
      "learning_rate": 6.894724823563583e-05,
      "loss": 0.3521,
      "step": 501
    },
    {
      "epoch": 2.4624846248462484,
      "grad_norm": 1.2904314994812012,
      "learning_rate": 6.85699611340333e-05,
      "loss": 0.3519,
      "step": 502
    },
    {
      "epoch": 2.4674046740467404,
      "grad_norm": 1.8398619890213013,
      "learning_rate": 6.819316981485372e-05,
      "loss": 0.3123,
      "step": 503
    },
    {
      "epoch": 2.4723247232472323,
      "grad_norm": 2.567601442337036,
      "learning_rate": 6.781688022166311e-05,
      "loss": 0.4435,
      "step": 504
    },
    {
      "epoch": 2.4772447724477242,
      "grad_norm": 1.0559594631195068,
      "learning_rate": 6.744109829011332e-05,
      "loss": 0.3921,
      "step": 505
    },
    {
      "epoch": 2.4821648216482166,
      "grad_norm": 1.4271594285964966,
      "learning_rate": 6.706582994784814e-05,
      "loss": 0.382,
      "step": 506
    },
    {
      "epoch": 2.4870848708487086,
      "grad_norm": 2.100080728530884,
      "learning_rate": 6.669108111441003e-05,
      "loss": 0.4241,
      "step": 507
    },
    {
      "epoch": 2.4920049200492005,
      "grad_norm": 2.3189799785614014,
      "learning_rate": 6.631685770114654e-05,
      "loss": 0.4492,
      "step": 508
    },
    {
      "epoch": 2.4969249692496924,
      "grad_norm": 1.2089158296585083,
      "learning_rate": 6.594316561111724e-05,
      "loss": 0.3763,
      "step": 509
    },
    {
      "epoch": 2.5018450184501844,
      "grad_norm": 2.086798906326294,
      "learning_rate": 6.557001073900044e-05,
      "loss": 0.4291,
      "step": 510
    },
    {
      "epoch": 2.5067650676506767,
      "grad_norm": 1.3246550559997559,
      "learning_rate": 6.519739897100034e-05,
      "loss": 0.4328,
      "step": 511
    },
    {
      "epoch": 2.5116851168511687,
      "grad_norm": 3.522636890411377,
      "learning_rate": 6.482533618475422e-05,
      "loss": 0.3572,
      "step": 512
    },
    {
      "epoch": 2.5166051660516606,
      "grad_norm": 2.3924167156219482,
      "learning_rate": 6.445382824923938e-05,
      "loss": 0.4262,
      "step": 513
    },
    {
      "epoch": 2.5215252152521526,
      "grad_norm": 3.661113739013672,
      "learning_rate": 6.408288102468113e-05,
      "loss": 0.3796,
      "step": 514
    },
    {
      "epoch": 2.5264452644526445,
      "grad_norm": 1.2376595735549927,
      "learning_rate": 6.371250036245976e-05,
      "loss": 0.3796,
      "step": 515
    },
    {
      "epoch": 2.5313653136531364,
      "grad_norm": 1.8098406791687012,
      "learning_rate": 6.334269210501875e-05,
      "loss": 0.3707,
      "step": 516
    },
    {
      "epoch": 2.5362853628536284,
      "grad_norm": 1.7512861490249634,
      "learning_rate": 6.297346208577213e-05,
      "loss": 0.3753,
      "step": 517
    },
    {
      "epoch": 2.5412054120541203,
      "grad_norm": 2.3691437244415283,
      "learning_rate": 6.260481612901299e-05,
      "loss": 0.3678,
      "step": 518
    },
    {
      "epoch": 2.5461254612546127,
      "grad_norm": 2.599379539489746,
      "learning_rate": 6.223676004982105e-05,
      "loss": 0.4462,
      "step": 519
    },
    {
      "epoch": 2.5510455104551046,
      "grad_norm": 1.492092251777649,
      "learning_rate": 6.18692996539714e-05,
      "loss": 0.4379,
      "step": 520
    },
    {
      "epoch": 2.5559655596555966,
      "grad_norm": 1.2708606719970703,
      "learning_rate": 6.150244073784266e-05,
      "loss": 0.3573,
      "step": 521
    },
    {
      "epoch": 2.5608856088560885,
      "grad_norm": 2.399810552597046,
      "learning_rate": 6.113618908832561e-05,
      "loss": 0.4584,
      "step": 522
    },
    {
      "epoch": 2.5658056580565805,
      "grad_norm": 3.6795196533203125,
      "learning_rate": 6.0770550482731924e-05,
      "loss": 0.247,
      "step": 523
    },
    {
      "epoch": 2.570725707257073,
      "grad_norm": 1.5731709003448486,
      "learning_rate": 6.0405530688702986e-05,
      "loss": 0.4207,
      "step": 524
    },
    {
      "epoch": 2.5756457564575648,
      "grad_norm": 2.2327213287353516,
      "learning_rate": 6.0041135464119024e-05,
      "loss": 0.389,
      "step": 525
    },
    {
      "epoch": 2.5805658056580567,
      "grad_norm": 2.482600688934326,
      "learning_rate": 5.9677370557008104e-05,
      "loss": 0.4297,
      "step": 526
    },
    {
      "epoch": 2.5854858548585486,
      "grad_norm": 0.5008729696273804,
      "learning_rate": 5.9314241705455674e-05,
      "loss": 0.37,
      "step": 527
    },
    {
      "epoch": 2.5904059040590406,
      "grad_norm": 1.346571683883667,
      "learning_rate": 5.895175463751385e-05,
      "loss": 0.398,
      "step": 528
    },
    {
      "epoch": 2.5953259532595325,
      "grad_norm": 1.3295096158981323,
      "learning_rate": 5.858991507111122e-05,
      "loss": 0.4046,
      "step": 529
    },
    {
      "epoch": 2.6002460024600245,
      "grad_norm": 2.531033515930176,
      "learning_rate": 5.8228728713962543e-05,
      "loss": 0.441,
      "step": 530
    },
    {
      "epoch": 2.6051660516605164,
      "grad_norm": 1.4059702157974243,
      "learning_rate": 5.786820126347876e-05,
      "loss": 0.3887,
      "step": 531
    },
    {
      "epoch": 2.6100861008610083,
      "grad_norm": 0.8365688323974609,
      "learning_rate": 5.750833840667711e-05,
      "loss": 0.3926,
      "step": 532
    },
    {
      "epoch": 2.6150061500615007,
      "grad_norm": 1.1072005033493042,
      "learning_rate": 5.7149145820091385e-05,
      "loss": 0.4331,
      "step": 533
    },
    {
      "epoch": 2.6199261992619927,
      "grad_norm": 4.232044219970703,
      "learning_rate": 5.6790629169682564e-05,
      "loss": 0.313,
      "step": 534
    },
    {
      "epoch": 2.6248462484624846,
      "grad_norm": 1.9496935606002808,
      "learning_rate": 5.6432794110749134e-05,
      "loss": 0.388,
      "step": 535
    },
    {
      "epoch": 2.6297662976629765,
      "grad_norm": 2.281867265701294,
      "learning_rate": 5.607564628783817e-05,
      "loss": 0.3739,
      "step": 536
    },
    {
      "epoch": 2.6346863468634685,
      "grad_norm": 1.5007566213607788,
      "learning_rate": 5.571919133465605e-05,
      "loss": 0.4018,
      "step": 537
    },
    {
      "epoch": 2.639606396063961,
      "grad_norm": 1.5338659286499023,
      "learning_rate": 5.5363434873979903e-05,
      "loss": 0.3782,
      "step": 538
    },
    {
      "epoch": 2.644526445264453,
      "grad_norm": 1.8886133432388306,
      "learning_rate": 5.500838251756857e-05,
      "loss": 0.4441,
      "step": 539
    },
    {
      "epoch": 2.6494464944649447,
      "grad_norm": 3.30102801322937,
      "learning_rate": 5.465403986607426e-05,
      "loss": 0.3137,
      "step": 540
    },
    {
      "epoch": 2.6543665436654367,
      "grad_norm": 1.8262077569961548,
      "learning_rate": 5.430041250895428e-05,
      "loss": 0.4104,
      "step": 541
    },
    {
      "epoch": 2.6592865928659286,
      "grad_norm": 1.551676869392395,
      "learning_rate": 5.3947506024382665e-05,
      "loss": 0.3337,
      "step": 542
    },
    {
      "epoch": 2.6642066420664205,
      "grad_norm": 2.0609912872314453,
      "learning_rate": 5.359532597916233e-05,
      "loss": 0.3059,
      "step": 543
    },
    {
      "epoch": 2.6691266912669125,
      "grad_norm": 2.948434829711914,
      "learning_rate": 5.324387792863719e-05,
      "loss": 0.4629,
      "step": 544
    },
    {
      "epoch": 2.6740467404674044,
      "grad_norm": 1.7256718873977661,
      "learning_rate": 5.289316741660466e-05,
      "loss": 0.3752,
      "step": 545
    },
    {
      "epoch": 2.678966789667897,
      "grad_norm": 3.3157119750976562,
      "learning_rate": 5.254319997522796e-05,
      "loss": 0.4715,
      "step": 546
    },
    {
      "epoch": 2.6838868388683887,
      "grad_norm": 2.951591730117798,
      "learning_rate": 5.21939811249492e-05,
      "loss": 0.4372,
      "step": 547
    },
    {
      "epoch": 2.6888068880688807,
      "grad_norm": 1.9655730724334717,
      "learning_rate": 5.1845516374401784e-05,
      "loss": 0.3728,
      "step": 548
    },
    {
      "epoch": 2.6937269372693726,
      "grad_norm": 2.9351847171783447,
      "learning_rate": 5.14978112203241e-05,
      "loss": 0.4404,
      "step": 549
    },
    {
      "epoch": 2.6986469864698646,
      "grad_norm": 1.8943357467651367,
      "learning_rate": 5.11508711474725e-05,
      "loss": 0.2844,
      "step": 550
    },
    {
      "epoch": 2.703567035670357,
      "grad_norm": 0.9512324333190918,
      "learning_rate": 5.080470162853472e-05,
      "loss": 0.3566,
      "step": 551
    },
    {
      "epoch": 2.708487084870849,
      "grad_norm": 1.0358315706253052,
      "learning_rate": 5.0459308124043715e-05,
      "loss": 0.3267,
      "step": 552
    },
    {
      "epoch": 2.713407134071341,
      "grad_norm": 0.828611433506012,
      "learning_rate": 5.0114696082291425e-05,
      "loss": 0.3766,
      "step": 553
    },
    {
      "epoch": 2.7183271832718328,
      "grad_norm": 1.0593851804733276,
      "learning_rate": 4.9770870939242986e-05,
      "loss": 0.3895,
      "step": 554
    },
    {
      "epoch": 2.7232472324723247,
      "grad_norm": 1.6970057487487793,
      "learning_rate": 4.942783811845074e-05,
      "loss": 0.3349,
      "step": 555
    },
    {
      "epoch": 2.7281672816728166,
      "grad_norm": 0.8009957671165466,
      "learning_rate": 4.908560303096887e-05,
      "loss": 0.3741,
      "step": 556
    },
    {
      "epoch": 2.7330873308733086,
      "grad_norm": 1.5965189933776855,
      "learning_rate": 4.874417107526795e-05,
      "loss": 0.326,
      "step": 557
    },
    {
      "epoch": 2.7380073800738005,
      "grad_norm": 1.6400642395019531,
      "learning_rate": 4.840354763714991e-05,
      "loss": 0.3416,
      "step": 558
    },
    {
      "epoch": 2.742927429274293,
      "grad_norm": 2.1281847953796387,
      "learning_rate": 4.8063738089662926e-05,
      "loss": 0.3142,
      "step": 559
    },
    {
      "epoch": 2.747847478474785,
      "grad_norm": 1.0202291011810303,
      "learning_rate": 4.772474779301669e-05,
      "loss": 0.389,
      "step": 560
    },
    {
      "epoch": 2.7527675276752768,
      "grad_norm": 1.6404527425765991,
      "learning_rate": 4.738658209449805e-05,
      "loss": 0.3891,
      "step": 561
    },
    {
      "epoch": 2.7576875768757687,
      "grad_norm": 0.9586972594261169,
      "learning_rate": 4.704924632838636e-05,
      "loss": 0.3888,
      "step": 562
    },
    {
      "epoch": 2.7626076260762606,
      "grad_norm": 3.16829776763916,
      "learning_rate": 4.671274581586958e-05,
      "loss": 0.4402,
      "step": 563
    },
    {
      "epoch": 2.767527675276753,
      "grad_norm": 1.2215882539749146,
      "learning_rate": 4.637708586496018e-05,
      "loss": 0.3508,
      "step": 564
    },
    {
      "epoch": 2.772447724477245,
      "grad_norm": 1.4616819620132446,
      "learning_rate": 4.604227177041156e-05,
      "loss": 0.4277,
      "step": 565
    },
    {
      "epoch": 2.777367773677737,
      "grad_norm": 1.0973330736160278,
      "learning_rate": 4.570830881363439e-05,
      "loss": 0.4127,
      "step": 566
    },
    {
      "epoch": 2.782287822878229,
      "grad_norm": 1.676638126373291,
      "learning_rate": 4.537520226261333e-05,
      "loss": 0.4243,
      "step": 567
    },
    {
      "epoch": 2.787207872078721,
      "grad_norm": 2.636601448059082,
      "learning_rate": 4.5042957371824057e-05,
      "loss": 0.3116,
      "step": 568
    },
    {
      "epoch": 2.7921279212792127,
      "grad_norm": 1.0604605674743652,
      "learning_rate": 4.471157938215017e-05,
      "loss": 0.4186,
      "step": 569
    },
    {
      "epoch": 2.7970479704797047,
      "grad_norm": 1.1565591096878052,
      "learning_rate": 4.438107352080076e-05,
      "loss": 0.4068,
      "step": 570
    },
    {
      "epoch": 2.8019680196801966,
      "grad_norm": 0.5449007153511047,
      "learning_rate": 4.405144500122772e-05,
      "loss": 0.3739,
      "step": 571
    },
    {
      "epoch": 2.8068880688806885,
      "grad_norm": 1.7176798582077026,
      "learning_rate": 4.372269902304363e-05,
      "loss": 0.4036,
      "step": 572
    },
    {
      "epoch": 2.811808118081181,
      "grad_norm": 1.9100306034088135,
      "learning_rate": 4.339484077193974e-05,
      "loss": 0.3436,
      "step": 573
    },
    {
      "epoch": 2.816728167281673,
      "grad_norm": 0.950062096118927,
      "learning_rate": 4.3067875419604184e-05,
      "loss": 0.4206,
      "step": 574
    },
    {
      "epoch": 2.821648216482165,
      "grad_norm": 1.950170636177063,
      "learning_rate": 4.2741808123640335e-05,
      "loss": 0.4187,
      "step": 575
    },
    {
      "epoch": 2.8265682656826567,
      "grad_norm": 1.7998218536376953,
      "learning_rate": 4.241664402748544e-05,
      "loss": 0.3643,
      "step": 576
    },
    {
      "epoch": 2.8314883148831487,
      "grad_norm": 0.5359982252120972,
      "learning_rate": 4.209238826032965e-05,
      "loss": 0.4071,
      "step": 577
    },
    {
      "epoch": 2.836408364083641,
      "grad_norm": 2.177288055419922,
      "learning_rate": 4.1769045937034876e-05,
      "loss": 0.4656,
      "step": 578
    },
    {
      "epoch": 2.841328413284133,
      "grad_norm": 1.8691096305847168,
      "learning_rate": 4.144662215805426e-05,
      "loss": 0.4428,
      "step": 579
    },
    {
      "epoch": 2.846248462484625,
      "grad_norm": 1.3971619606018066,
      "learning_rate": 4.1125122009351634e-05,
      "loss": 0.3774,
      "step": 580
    },
    {
      "epoch": 2.851168511685117,
      "grad_norm": 1.863781213760376,
      "learning_rate": 4.080455056232147e-05,
      "loss": 0.3686,
      "step": 581
    },
    {
      "epoch": 2.856088560885609,
      "grad_norm": 2.2776503562927246,
      "learning_rate": 4.048491287370863e-05,
      "loss": 0.4009,
      "step": 582
    },
    {
      "epoch": 2.8610086100861007,
      "grad_norm": 0.3682532012462616,
      "learning_rate": 4.016621398552877e-05,
      "loss": 0.4106,
      "step": 583
    },
    {
      "epoch": 2.8659286592865927,
      "grad_norm": 1.6590131521224976,
      "learning_rate": 3.9848458924988684e-05,
      "loss": 0.4113,
      "step": 584
    },
    {
      "epoch": 2.8708487084870846,
      "grad_norm": 0.8245828747749329,
      "learning_rate": 3.953165270440721e-05,
      "loss": 0.3874,
      "step": 585
    },
    {
      "epoch": 2.875768757687577,
      "grad_norm": 1.1494457721710205,
      "learning_rate": 3.921580032113602e-05,
      "loss": 0.4041,
      "step": 586
    },
    {
      "epoch": 2.880688806888069,
      "grad_norm": 0.3291958272457123,
      "learning_rate": 3.8900906757480614e-05,
      "loss": 0.4009,
      "step": 587
    },
    {
      "epoch": 2.885608856088561,
      "grad_norm": 3.5113492012023926,
      "learning_rate": 3.858697698062217e-05,
      "loss": 0.4783,
      "step": 588
    },
    {
      "epoch": 2.890528905289053,
      "grad_norm": 0.7835597991943359,
      "learning_rate": 3.8274015942538745e-05,
      "loss": 0.3928,
      "step": 589
    },
    {
      "epoch": 2.8954489544895448,
      "grad_norm": 1.4036983251571655,
      "learning_rate": 3.7962028579927555e-05,
      "loss": 0.3694,
      "step": 590
    },
    {
      "epoch": 2.900369003690037,
      "grad_norm": 1.1807712316513062,
      "learning_rate": 3.7651019814126654e-05,
      "loss": 0.385,
      "step": 591
    },
    {
      "epoch": 2.905289052890529,
      "grad_norm": 2.0742995738983154,
      "learning_rate": 3.734099455103779e-05,
      "loss": 0.4164,
      "step": 592
    },
    {
      "epoch": 2.910209102091021,
      "grad_norm": 2.6549105644226074,
      "learning_rate": 3.7031957681048604e-05,
      "loss": 0.347,
      "step": 593
    },
    {
      "epoch": 2.915129151291513,
      "grad_norm": 1.3094247579574585,
      "learning_rate": 3.6723914078955825e-05,
      "loss": 0.4112,
      "step": 594
    },
    {
      "epoch": 2.920049200492005,
      "grad_norm": 0.5627428293228149,
      "learning_rate": 3.64168686038881e-05,
      "loss": 0.3947,
      "step": 595
    },
    {
      "epoch": 2.924969249692497,
      "grad_norm": 1.4705300331115723,
      "learning_rate": 3.6110826099229453e-05,
      "loss": 0.3828,
      "step": 596
    },
    {
      "epoch": 2.9298892988929888,
      "grad_norm": 0.9498153924942017,
      "learning_rate": 3.580579139254303e-05,
      "loss": 0.3829,
      "step": 597
    },
    {
      "epoch": 2.9348093480934807,
      "grad_norm": 2.052823781967163,
      "learning_rate": 3.550176929549468e-05,
      "loss": 0.3334,
      "step": 598
    },
    {
      "epoch": 2.939729397293973,
      "grad_norm": 0.9632225036621094,
      "learning_rate": 3.5198764603777235e-05,
      "loss": 0.3681,
      "step": 599
    },
    {
      "epoch": 2.944649446494465,
      "grad_norm": 1.2577297687530518,
      "learning_rate": 3.489678209703475e-05,
      "loss": 0.3469,
      "step": 600
    },
    {
      "epoch": 2.949569495694957,
      "grad_norm": 1.42790949344635,
      "learning_rate": 3.459582653878731e-05,
      "loss": 0.4072,
      "step": 601
    },
    {
      "epoch": 2.954489544895449,
      "grad_norm": 2.504870653152466,
      "learning_rate": 3.429590267635565e-05,
      "loss": 0.4232,
      "step": 602
    },
    {
      "epoch": 2.959409594095941,
      "grad_norm": 2.3047032356262207,
      "learning_rate": 3.399701524078635e-05,
      "loss": 0.3763,
      "step": 603
    },
    {
      "epoch": 2.9643296432964332,
      "grad_norm": 1.7464078664779663,
      "learning_rate": 3.369916894677733e-05,
      "loss": 0.3354,
      "step": 604
    },
    {
      "epoch": 2.969249692496925,
      "grad_norm": 1.6479971408843994,
      "learning_rate": 3.340236849260324e-05,
      "loss": 0.3798,
      "step": 605
    },
    {
      "epoch": 2.974169741697417,
      "grad_norm": 1.558695673942566,
      "learning_rate": 3.31066185600417e-05,
      "loss": 0.3488,
      "step": 606
    },
    {
      "epoch": 2.979089790897909,
      "grad_norm": 3.189610719680786,
      "learning_rate": 3.281192381429894e-05,
      "loss": 0.441,
      "step": 607
    },
    {
      "epoch": 2.984009840098401,
      "grad_norm": 0.9114331603050232,
      "learning_rate": 3.251828890393677e-05,
      "loss": 0.3922,
      "step": 608
    },
    {
      "epoch": 2.988929889298893,
      "grad_norm": 0.84954833984375,
      "learning_rate": 3.222571846079881e-05,
      "loss": 0.3682,
      "step": 609
    },
    {
      "epoch": 2.993849938499385,
      "grad_norm": 2.6202147006988525,
      "learning_rate": 3.193421709993779e-05,
      "loss": 0.453,
      "step": 610
    },
    {
      "epoch": 2.998769987699877,
      "grad_norm": 1.6845208406448364,
      "learning_rate": 3.1643789419542324e-05,
      "loss": 0.3606,
      "step": 611
    },
    {
      "epoch": 3.0,
      "grad_norm": 4.893674850463867,
      "learning_rate": 3.135444000086485e-05,
      "loss": 0.5199,
      "step": 612
    },
    {
      "epoch": 3.004920049200492,
      "grad_norm": 1.350771427154541,
      "learning_rate": 3.1066173408148955e-05,
      "loss": 0.3319,
      "step": 613
    },
    {
      "epoch": 3.009840098400984,
      "grad_norm": 2.239192247390747,
      "learning_rate": 3.077899418855772e-05,
      "loss": 0.4358,
      "step": 614
    },
    {
      "epoch": 3.014760147601476,
      "grad_norm": 2.0310704708099365,
      "learning_rate": 3.04929068721017e-05,
      "loss": 0.4024,
      "step": 615
    },
    {
      "epoch": 3.019680196801968,
      "grad_norm": 0.5520709156990051,
      "learning_rate": 3.0207915971567624e-05,
      "loss": 0.3869,
      "step": 616
    },
    {
      "epoch": 3.02460024600246,
      "grad_norm": 1.409179925918579,
      "learning_rate": 2.992402598244727e-05,
      "loss": 0.343,
      "step": 617
    },
    {
      "epoch": 3.029520295202952,
      "grad_norm": 3.2636709213256836,
      "learning_rate": 2.9641241382866348e-05,
      "loss": 0.3208,
      "step": 618
    },
    {
      "epoch": 3.034440344403444,
      "grad_norm": 1.3331984281539917,
      "learning_rate": 2.9359566633514037e-05,
      "loss": 0.4065,
      "step": 619
    },
    {
      "epoch": 3.039360393603936,
      "grad_norm": 1.49379563331604,
      "learning_rate": 2.907900617757252e-05,
      "loss": 0.3844,
      "step": 620
    },
    {
      "epoch": 3.044280442804428,
      "grad_norm": 1.0063300132751465,
      "learning_rate": 2.879956444064703e-05,
      "loss": 0.4103,
      "step": 621
    },
    {
      "epoch": 3.0492004920049203,
      "grad_norm": 1.5763076543807983,
      "learning_rate": 2.8521245830695864e-05,
      "loss": 0.4199,
      "step": 622
    },
    {
      "epoch": 3.054120541205412,
      "grad_norm": 1.9557186365127563,
      "learning_rate": 2.8244054737960935e-05,
      "loss": 0.3928,
      "step": 623
    },
    {
      "epoch": 3.059040590405904,
      "grad_norm": 1.7936758995056152,
      "learning_rate": 2.7967995534898596e-05,
      "loss": 0.3503,
      "step": 624
    },
    {
      "epoch": 3.063960639606396,
      "grad_norm": 2.0918500423431396,
      "learning_rate": 2.7693072576110514e-05,
      "loss": 0.3772,
      "step": 625
    },
    {
      "epoch": 3.068880688806888,
      "grad_norm": 1.531785249710083,
      "learning_rate": 2.7419290198275095e-05,
      "loss": 0.413,
      "step": 626
    },
    {
      "epoch": 3.07380073800738,
      "grad_norm": 0.7834340929985046,
      "learning_rate": 2.7146652720079003e-05,
      "loss": 0.3919,
      "step": 627
    },
    {
      "epoch": 3.078720787207872,
      "grad_norm": 1.8467501401901245,
      "learning_rate": 2.6875164442149147e-05,
      "loss": 0.368,
      "step": 628
    },
    {
      "epoch": 3.0836408364083643,
      "grad_norm": 1.6197096109390259,
      "learning_rate": 2.6604829646984686e-05,
      "loss": 0.3476,
      "step": 629
    },
    {
      "epoch": 3.088560885608856,
      "grad_norm": 2.2266929149627686,
      "learning_rate": 2.6335652598889683e-05,
      "loss": 0.3692,
      "step": 630
    },
    {
      "epoch": 3.093480934809348,
      "grad_norm": 1.0801973342895508,
      "learning_rate": 2.60676375439055e-05,
      "loss": 0.4145,
      "step": 631
    },
    {
      "epoch": 3.09840098400984,
      "grad_norm": 0.6759971976280212,
      "learning_rate": 2.5800788709744227e-05,
      "loss": 0.3621,
      "step": 632
    },
    {
      "epoch": 3.103321033210332,
      "grad_norm": 1.5428274869918823,
      "learning_rate": 2.5535110305721776e-05,
      "loss": 0.3946,
      "step": 633
    },
    {
      "epoch": 3.108241082410824,
      "grad_norm": 0.4800112843513489,
      "learning_rate": 2.5270606522691443e-05,
      "loss": 0.3695,
      "step": 634
    },
    {
      "epoch": 3.113161131611316,
      "grad_norm": 1.418677568435669,
      "learning_rate": 2.500728153297788e-05,
      "loss": 0.3413,
      "step": 635
    },
    {
      "epoch": 3.1180811808118083,
      "grad_norm": 1.384252667427063,
      "learning_rate": 2.4745139490311254e-05,
      "loss": 0.3376,
      "step": 636
    },
    {
      "epoch": 3.1230012300123002,
      "grad_norm": 0.7807061672210693,
      "learning_rate": 2.4484184529761834e-05,
      "loss": 0.4,
      "step": 637
    },
    {
      "epoch": 3.127921279212792,
      "grad_norm": 1.9366016387939453,
      "learning_rate": 2.4224420767674562e-05,
      "loss": 0.3731,
      "step": 638
    },
    {
      "epoch": 3.132841328413284,
      "grad_norm": 2.5923564434051514,
      "learning_rate": 2.3965852301604254e-05,
      "loss": 0.4395,
      "step": 639
    },
    {
      "epoch": 3.137761377613776,
      "grad_norm": 0.9284645318984985,
      "learning_rate": 2.370848321025093e-05,
      "loss": 0.3901,
      "step": 640
    },
    {
      "epoch": 3.142681426814268,
      "grad_norm": 1.9988764524459839,
      "learning_rate": 2.345231755339554e-05,
      "loss": 0.4379,
      "step": 641
    },
    {
      "epoch": 3.14760147601476,
      "grad_norm": 1.626031517982483,
      "learning_rate": 2.3197359371835802e-05,
      "loss": 0.4256,
      "step": 642
    },
    {
      "epoch": 3.1525215252152523,
      "grad_norm": 2.1211905479431152,
      "learning_rate": 2.2943612687322525e-05,
      "loss": 0.3934,
      "step": 643
    },
    {
      "epoch": 3.1574415744157442,
      "grad_norm": 1.0140880346298218,
      "learning_rate": 2.2691081502496246e-05,
      "loss": 0.3604,
      "step": 644
    },
    {
      "epoch": 3.162361623616236,
      "grad_norm": 2.3775453567504883,
      "learning_rate": 2.243976980082394e-05,
      "loss": 0.4068,
      "step": 645
    },
    {
      "epoch": 3.167281672816728,
      "grad_norm": 2.1912922859191895,
      "learning_rate": 2.218968154653629e-05,
      "loss": 0.3614,
      "step": 646
    },
    {
      "epoch": 3.17220172201722,
      "grad_norm": 1.8802082538604736,
      "learning_rate": 2.194082068456509e-05,
      "loss": 0.3843,
      "step": 647
    },
    {
      "epoch": 3.177121771217712,
      "grad_norm": 1.67764151096344,
      "learning_rate": 2.169319114048114e-05,
      "loss": 0.3707,
      "step": 648
    },
    {
      "epoch": 3.1820418204182044,
      "grad_norm": 1.9697654247283936,
      "learning_rate": 2.1446796820432167e-05,
      "loss": 0.3357,
      "step": 649
    },
    {
      "epoch": 3.1869618696186963,
      "grad_norm": 1.7767447233200073,
      "learning_rate": 2.1201641611081246e-05,
      "loss": 0.3937,
      "step": 650
    },
    {
      "epoch": 3.1918819188191883,
      "grad_norm": 1.3625164031982422,
      "learning_rate": 2.0957729379545655e-05,
      "loss": 0.3593,
      "step": 651
    },
    {
      "epoch": 3.19680196801968,
      "grad_norm": 1.0841906070709229,
      "learning_rate": 2.0715063973335568e-05,
      "loss": 0.393,
      "step": 652
    },
    {
      "epoch": 3.201722017220172,
      "grad_norm": 3.0648295879364014,
      "learning_rate": 2.04736492202937e-05,
      "loss": 0.3615,
      "step": 653
    },
    {
      "epoch": 3.206642066420664,
      "grad_norm": 1.1780354976654053,
      "learning_rate": 2.0233488928534673e-05,
      "loss": 0.3733,
      "step": 654
    },
    {
      "epoch": 3.211562115621156,
      "grad_norm": 2.0348012447357178,
      "learning_rate": 1.9994586886385046e-05,
      "loss": 0.3895,
      "step": 655
    },
    {
      "epoch": 3.2164821648216484,
      "grad_norm": 0.7234269380569458,
      "learning_rate": 1.9756946862323535e-05,
      "loss": 0.3621,
      "step": 656
    },
    {
      "epoch": 3.2214022140221403,
      "grad_norm": 2.2290384769439697,
      "learning_rate": 1.9520572604921672e-05,
      "loss": 0.4369,
      "step": 657
    },
    {
      "epoch": 3.2263222632226323,
      "grad_norm": 0.7513899803161621,
      "learning_rate": 1.9285467842784467e-05,
      "loss": 0.3614,
      "step": 658
    },
    {
      "epoch": 3.231242312423124,
      "grad_norm": 2.5259876251220703,
      "learning_rate": 1.9051636284491757e-05,
      "loss": 0.3877,
      "step": 659
    },
    {
      "epoch": 3.236162361623616,
      "grad_norm": 2.885737180709839,
      "learning_rate": 1.8819081618539723e-05,
      "loss": 0.4691,
      "step": 660
    },
    {
      "epoch": 3.241082410824108,
      "grad_norm": 1.888336181640625,
      "learning_rate": 1.858780751328255e-05,
      "loss": 0.433,
      "step": 661
    },
    {
      "epoch": 3.2460024600246005,
      "grad_norm": 0.801278293132782,
      "learning_rate": 1.8357817616874694e-05,
      "loss": 0.3704,
      "step": 662
    },
    {
      "epoch": 3.2509225092250924,
      "grad_norm": 1.2432537078857422,
      "learning_rate": 1.8129115557213262e-05,
      "loss": 0.3552,
      "step": 663
    },
    {
      "epoch": 3.2558425584255843,
      "grad_norm": 1.9892895221710205,
      "learning_rate": 1.7901704941880914e-05,
      "loss": 0.3551,
      "step": 664
    },
    {
      "epoch": 3.2607626076260763,
      "grad_norm": 1.448431372642517,
      "learning_rate": 1.7675589358088763e-05,
      "loss": 0.4053,
      "step": 665
    },
    {
      "epoch": 3.265682656826568,
      "grad_norm": 2.4297046661376953,
      "learning_rate": 1.745077237261994e-05,
      "loss": 0.4334,
      "step": 666
    },
    {
      "epoch": 3.27060270602706,
      "grad_norm": 1.624751329421997,
      "learning_rate": 1.7227257531773223e-05,
      "loss": 0.4296,
      "step": 667
    },
    {
      "epoch": 3.275522755227552,
      "grad_norm": 1.1023207902908325,
      "learning_rate": 1.7005048361307262e-05,
      "loss": 0.375,
      "step": 668
    },
    {
      "epoch": 3.280442804428044,
      "grad_norm": 1.6138256788253784,
      "learning_rate": 1.6784148366384754e-05,
      "loss": 0.3394,
      "step": 669
    },
    {
      "epoch": 3.2853628536285364,
      "grad_norm": 0.9887522459030151,
      "learning_rate": 1.656456103151728e-05,
      "loss": 0.3597,
      "step": 670
    },
    {
      "epoch": 3.2902829028290284,
      "grad_norm": 1.7043898105621338,
      "learning_rate": 1.6346289820510363e-05,
      "loss": 0.3417,
      "step": 671
    },
    {
      "epoch": 3.2952029520295203,
      "grad_norm": 1.6882188320159912,
      "learning_rate": 1.612933817640868e-05,
      "loss": 0.436,
      "step": 672
    },
    {
      "epoch": 3.3001230012300122,
      "grad_norm": 0.7217171788215637,
      "learning_rate": 1.5913709521441988e-05,
      "loss": 0.3997,
      "step": 673
    },
    {
      "epoch": 3.305043050430504,
      "grad_norm": 2.6820271015167236,
      "learning_rate": 1.5699407256970833e-05,
      "loss": 0.3115,
      "step": 674
    },
    {
      "epoch": 3.3099630996309966,
      "grad_norm": 1.4860421419143677,
      "learning_rate": 1.5486434763433222e-05,
      "loss": 0.3516,
      "step": 675
    },
    {
      "epoch": 3.3148831488314885,
      "grad_norm": 1.136051893234253,
      "learning_rate": 1.527479540029104e-05,
      "loss": 0.4023,
      "step": 676
    },
    {
      "epoch": 3.3198031980319804,
      "grad_norm": 2.500821828842163,
      "learning_rate": 1.5064492505977234e-05,
      "loss": 0.4225,
      "step": 677
    },
    {
      "epoch": 3.3247232472324724,
      "grad_norm": 0.5306374430656433,
      "learning_rate": 1.4855529397843038e-05,
      "loss": 0.3675,
      "step": 678
    },
    {
      "epoch": 3.3296432964329643,
      "grad_norm": 1.5522453784942627,
      "learning_rate": 1.4647909372105672e-05,
      "loss": 0.3182,
      "step": 679
    },
    {
      "epoch": 3.3345633456334562,
      "grad_norm": 1.6273597478866577,
      "learning_rate": 1.4441635703796408e-05,
      "loss": 0.3548,
      "step": 680
    },
    {
      "epoch": 3.339483394833948,
      "grad_norm": 1.7513864040374756,
      "learning_rate": 1.4236711646708844e-05,
      "loss": 0.3177,
      "step": 681
    },
    {
      "epoch": 3.34440344403444,
      "grad_norm": 1.033565878868103,
      "learning_rate": 1.4033140433347569e-05,
      "loss": 0.3639,
      "step": 682
    },
    {
      "epoch": 3.3493234932349325,
      "grad_norm": 1.3103158473968506,
      "learning_rate": 1.3830925274877216e-05,
      "loss": 0.4256,
      "step": 683
    },
    {
      "epoch": 3.3542435424354244,
      "grad_norm": 2.1008458137512207,
      "learning_rate": 1.363006936107183e-05,
      "loss": 0.4194,
      "step": 684
    },
    {
      "epoch": 3.3591635916359164,
      "grad_norm": 1.350831151008606,
      "learning_rate": 1.343057586026446e-05,
      "loss": 0.3792,
      "step": 685
    },
    {
      "epoch": 3.3640836408364083,
      "grad_norm": 3.0984957218170166,
      "learning_rate": 1.3232447919297274e-05,
      "loss": 0.4341,
      "step": 686
    },
    {
      "epoch": 3.3690036900369003,
      "grad_norm": 0.47078070044517517,
      "learning_rate": 1.3035688663471834e-05,
      "loss": 0.3664,
      "step": 687
    },
    {
      "epoch": 3.373923739237392,
      "grad_norm": 1.277298927307129,
      "learning_rate": 1.2840301196499893e-05,
      "loss": 0.3714,
      "step": 688
    },
    {
      "epoch": 3.3788437884378846,
      "grad_norm": 2.4945287704467773,
      "learning_rate": 1.2646288600454448e-05,
      "loss": 0.3517,
      "step": 689
    },
    {
      "epoch": 3.3837638376383765,
      "grad_norm": 0.9373493194580078,
      "learning_rate": 1.2453653935720867e-05,
      "loss": 0.3881,
      "step": 690
    },
    {
      "epoch": 3.3886838868388685,
      "grad_norm": 4.251840591430664,
      "learning_rate": 1.2262400240949023e-05,
      "loss": 0.305,
      "step": 691
    },
    {
      "epoch": 3.3936039360393604,
      "grad_norm": 2.382617950439453,
      "learning_rate": 1.2072530533005012e-05,
      "loss": 0.4376,
      "step": 692
    },
    {
      "epoch": 3.3985239852398523,
      "grad_norm": 1.3531382083892822,
      "learning_rate": 1.1884047806923815e-05,
      "loss": 0.4127,
      "step": 693
    },
    {
      "epoch": 3.4034440344403443,
      "grad_norm": 0.8284920454025269,
      "learning_rate": 1.169695503586179e-05,
      "loss": 0.406,
      "step": 694
    },
    {
      "epoch": 3.408364083640836,
      "grad_norm": 0.6216104030609131,
      "learning_rate": 1.1511255171050084e-05,
      "loss": 0.3963,
      "step": 695
    },
    {
      "epoch": 3.4132841328413286,
      "grad_norm": 2.1421051025390625,
      "learning_rate": 1.1326951141747788e-05,
      "loss": 0.449,
      "step": 696
    },
    {
      "epoch": 3.4182041820418205,
      "grad_norm": 1.2773298025131226,
      "learning_rate": 1.1144045855195973e-05,
      "loss": 0.3583,
      "step": 697
    },
    {
      "epoch": 3.4231242312423125,
      "grad_norm": 1.9336838722229004,
      "learning_rate": 1.0962542196571634e-05,
      "loss": 0.363,
      "step": 698
    },
    {
      "epoch": 3.4280442804428044,
      "grad_norm": 2.467573881149292,
      "learning_rate": 1.078244302894229e-05,
      "loss": 0.4245,
      "step": 699
    },
    {
      "epoch": 3.4329643296432963,
      "grad_norm": 2.337416648864746,
      "learning_rate": 1.0603751193220846e-05,
      "loss": 0.4083,
      "step": 700
    },
    {
      "epoch": 3.4378843788437883,
      "grad_norm": 2.5366225242614746,
      "learning_rate": 1.0426469508120662e-05,
      "loss": 0.353,
      "step": 701
    },
    {
      "epoch": 3.4428044280442807,
      "grad_norm": 1.9000239372253418,
      "learning_rate": 1.0250600770111185e-05,
      "loss": 0.4028,
      "step": 702
    },
    {
      "epoch": 3.4477244772447726,
      "grad_norm": 1.7372283935546875,
      "learning_rate": 1.0076147753373789e-05,
      "loss": 0.4029,
      "step": 703
    },
    {
      "epoch": 3.4526445264452645,
      "grad_norm": 1.1029900312423706,
      "learning_rate": 9.903113209758096e-06,
      "loss": 0.3817,
      "step": 704
    },
    {
      "epoch": 3.4575645756457565,
      "grad_norm": 1.5212130546569824,
      "learning_rate": 9.731499868738447e-06,
      "loss": 0.3745,
      "step": 705
    },
    {
      "epoch": 3.4624846248462484,
      "grad_norm": 1.2530347108840942,
      "learning_rate": 9.561310437370907e-06,
      "loss": 0.4198,
      "step": 706
    },
    {
      "epoch": 3.4674046740467404,
      "grad_norm": 1.090973138809204,
      "learning_rate": 9.392547600250634e-06,
      "loss": 0.3743,
      "step": 707
    },
    {
      "epoch": 3.4723247232472323,
      "grad_norm": 0.8587853312492371,
      "learning_rate": 9.225214019469385e-06,
      "loss": 0.3928,
      "step": 708
    },
    {
      "epoch": 3.4772447724477242,
      "grad_norm": 1.6450562477111816,
      "learning_rate": 9.059312334573633e-06,
      "loss": 0.3529,
      "step": 709
    },
    {
      "epoch": 3.4821648216482166,
      "grad_norm": 1.3053218126296997,
      "learning_rate": 8.89484516252287e-06,
      "loss": 0.3634,
      "step": 710
    },
    {
      "epoch": 3.4870848708487086,
      "grad_norm": 2.639911413192749,
      "learning_rate": 8.731815097648433e-06,
      "loss": 0.4159,
      "step": 711
    },
    {
      "epoch": 3.4920049200492005,
      "grad_norm": 0.9935341477394104,
      "learning_rate": 8.570224711612385e-06,
      "loss": 0.3803,
      "step": 712
    },
    {
      "epoch": 3.4969249692496924,
      "grad_norm": 1.752165675163269,
      "learning_rate": 8.410076553367208e-06,
      "loss": 0.4104,
      "step": 713
    },
    {
      "epoch": 3.5018450184501844,
      "grad_norm": 1.270850419998169,
      "learning_rate": 8.251373149115293e-06,
      "loss": 0.4122,
      "step": 714
    },
    {
      "epoch": 3.5067650676506767,
      "grad_norm": 2.370002508163452,
      "learning_rate": 8.094117002269363e-06,
      "loss": 0.4529,
      "step": 715
    },
    {
      "epoch": 3.5116851168511687,
      "grad_norm": 2.229987382888794,
      "learning_rate": 7.938310593412879e-06,
      "loss": 0.4117,
      "step": 716
    },
    {
      "epoch": 3.5166051660516606,
      "grad_norm": 1.700907588005066,
      "learning_rate": 7.783956380260837e-06,
      "loss": 0.3801,
      "step": 717
    },
    {
      "epoch": 3.5215252152521526,
      "grad_norm": 1.5140172243118286,
      "learning_rate": 7.631056797621106e-06,
      "loss": 0.3708,
      "step": 718
    },
    {
      "epoch": 3.5264452644526445,
      "grad_norm": 1.4080220460891724,
      "learning_rate": 7.479614257355971e-06,
      "loss": 0.3763,
      "step": 719
    },
    {
      "epoch": 3.5313653136531364,
      "grad_norm": 1.585070252418518,
      "learning_rate": 7.329631148344118e-06,
      "loss": 0.358,
      "step": 720
    },
    {
      "epoch": 3.5362853628536284,
      "grad_norm": 2.044015645980835,
      "learning_rate": 7.181109836442912e-06,
      "loss": 0.3774,
      "step": 721
    },
    {
      "epoch": 3.5412054120541203,
      "grad_norm": 0.8359534740447998,
      "learning_rate": 7.034052664451118e-06,
      "loss": 0.3663,
      "step": 722
    },
    {
      "epoch": 3.5461254612546127,
      "grad_norm": 2.3022444248199463,
      "learning_rate": 6.88846195207189e-06,
      "loss": 0.3065,
      "step": 723
    },
    {
      "epoch": 3.5510455104551046,
      "grad_norm": 1.8175033330917358,
      "learning_rate": 6.7443399958762584e-06,
      "loss": 0.4242,
      "step": 724
    },
    {
      "epoch": 3.5559655596555966,
      "grad_norm": 1.7454516887664795,
      "learning_rate": 6.6016890692668364e-06,
      "loss": 0.3996,
      "step": 725
    },
    {
      "epoch": 3.5608856088560885,
      "grad_norm": 2.403921604156494,
      "learning_rate": 6.460511422441984e-06,
      "loss": 0.4444,
      "step": 726
    },
    {
      "epoch": 3.5658056580565805,
      "grad_norm": 1.0997297763824463,
      "learning_rate": 6.320809282360319e-06,
      "loss": 0.4124,
      "step": 727
    },
    {
      "epoch": 3.570725707257073,
      "grad_norm": 3.04303240776062,
      "learning_rate": 6.1825848527055865e-06,
      "loss": 0.4291,
      "step": 728
    },
    {
      "epoch": 3.5756457564575648,
      "grad_norm": 0.9251189827919006,
      "learning_rate": 6.04584031385188e-06,
      "loss": 0.3733,
      "step": 729
    },
    {
      "epoch": 3.5805658056580567,
      "grad_norm": 1.9034310579299927,
      "learning_rate": 5.910577822829233e-06,
      "loss": 0.3884,
      "step": 730
    },
    {
      "epoch": 3.5854858548585486,
      "grad_norm": 1.187487244606018,
      "learning_rate": 5.77679951328971e-06,
      "loss": 0.4108,
      "step": 731
    },
    {
      "epoch": 3.5904059040590406,
      "grad_norm": 1.513329267501831,
      "learning_rate": 5.644507495473572e-06,
      "loss": 0.4008,
      "step": 732
    },
    {
      "epoch": 3.5953259532595325,
      "grad_norm": 2.4123191833496094,
      "learning_rate": 5.5137038561761115e-06,
      "loss": 0.4162,
      "step": 733
    },
    {
      "epoch": 3.6002460024600245,
      "grad_norm": 1.3358474969863892,
      "learning_rate": 5.3843906587146886e-06,
      "loss": 0.4287,
      "step": 734
    },
    {
      "epoch": 3.6051660516605164,
      "grad_norm": 1.746752142906189,
      "learning_rate": 5.256569942896217e-06,
      "loss": 0.341,
      "step": 735
    },
    {
      "epoch": 3.6100861008610083,
      "grad_norm": 1.716902732849121,
      "learning_rate": 5.130243724984995e-06,
      "loss": 0.4344,
      "step": 736
    },
    {
      "epoch": 3.6150061500615007,
      "grad_norm": 0.44636377692222595,
      "learning_rate": 5.005413997670816e-06,
      "loss": 0.3995,
      "step": 737
    },
    {
      "epoch": 3.6199261992619927,
      "grad_norm": 0.6673928499221802,
      "learning_rate": 4.8820827300376075e-06,
      "loss": 0.3771,
      "step": 738
    },
    {
      "epoch": 3.6248462484624846,
      "grad_norm": 1.8165249824523926,
      "learning_rate": 4.760251867532362e-06,
      "loss": 0.4214,
      "step": 739
    },
    {
      "epoch": 3.6297662976629765,
      "grad_norm": 1.8206608295440674,
      "learning_rate": 4.639923331934471e-06,
      "loss": 0.3361,
      "step": 740
    },
    {
      "epoch": 3.6346863468634685,
      "grad_norm": 1.2049740552902222,
      "learning_rate": 4.521099021325336e-06,
      "loss": 0.4241,
      "step": 741
    },
    {
      "epoch": 3.639606396063961,
      "grad_norm": 2.151357650756836,
      "learning_rate": 4.403780810058511e-06,
      "loss": 0.3934,
      "step": 742
    },
    {
      "epoch": 3.644526445264453,
      "grad_norm": 2.024153470993042,
      "learning_rate": 4.287970548730069e-06,
      "loss": 0.4109,
      "step": 743
    },
    {
      "epoch": 3.6494464944649447,
      "grad_norm": 0.612326979637146,
      "learning_rate": 4.173670064149482e-06,
      "loss": 0.4119,
      "step": 744
    },
    {
      "epoch": 3.6543665436654367,
      "grad_norm": 1.2650341987609863,
      "learning_rate": 4.060881159310725e-06,
      "loss": 0.4048,
      "step": 745
    },
    {
      "epoch": 3.6592865928659286,
      "grad_norm": 1.5588371753692627,
      "learning_rate": 3.949605613363882e-06,
      "loss": 0.3616,
      "step": 746
    },
    {
      "epoch": 3.6642066420664205,
      "grad_norm": 0.8163132667541504,
      "learning_rate": 3.839845181587098e-06,
      "loss": 0.4051,
      "step": 747
    },
    {
      "epoch": 3.6691266912669125,
      "grad_norm": 2.6811370849609375,
      "learning_rate": 3.7316015953588467e-06,
      "loss": 0.4446,
      "step": 748
    },
    {
      "epoch": 3.6740467404674044,
      "grad_norm": 3.0077154636383057,
      "learning_rate": 3.6248765621306414e-06,
      "loss": 0.3562,
      "step": 749
    },
    {
      "epoch": 3.678966789667897,
      "grad_norm": 1.8142826557159424,
      "learning_rate": 3.519671765400079e-06,
      "loss": 0.3967,
      "step": 750
    },
    {
      "epoch": 3.6838868388683887,
      "grad_norm": 4.520020008087158,
      "learning_rate": 3.4159888646843495e-06,
      "loss": 0.4737,
      "step": 751
    },
    {
      "epoch": 3.6888068880688807,
      "grad_norm": 2.5950474739074707,
      "learning_rate": 3.313829495493992e-06,
      "loss": 0.3269,
      "step": 752
    },
    {
      "epoch": 3.6937269372693726,
      "grad_norm": 0.9162222146987915,
      "learning_rate": 3.2131952693070898e-06,
      "loss": 0.4284,
      "step": 753
    },
    {
      "epoch": 3.6986469864698646,
      "grad_norm": 2.3598175048828125,
      "learning_rate": 3.1140877735439387e-06,
      "loss": 0.4268,
      "step": 754
    },
    {
      "epoch": 3.703567035670357,
      "grad_norm": 2.1901378631591797,
      "learning_rate": 3.0165085715418763e-06,
      "loss": 0.3514,
      "step": 755
    },
    {
      "epoch": 3.708487084870849,
      "grad_norm": 1.2730752229690552,
      "learning_rate": 2.9204592025307566e-06,
      "loss": 0.3697,
      "step": 756
    },
    {
      "epoch": 3.713407134071341,
      "grad_norm": 1.7523503303527832,
      "learning_rate": 2.8259411816085492e-06,
      "loss": 0.3626,
      "step": 757
    },
    {
      "epoch": 3.7183271832718328,
      "grad_norm": 0.7201489806175232,
      "learning_rate": 2.732955999717546e-06,
      "loss": 0.4082,
      "step": 758
    },
    {
      "epoch": 3.7232472324723247,
      "grad_norm": 2.6464169025421143,
      "learning_rate": 2.6415051236207355e-06,
      "loss": 0.3311,
      "step": 759
    },
    {
      "epoch": 3.7281672816728166,
      "grad_norm": 1.9799178838729858,
      "learning_rate": 2.551589995878789e-06,
      "loss": 0.392,
      "step": 760
    },
    {
      "epoch": 3.7330873308733086,
      "grad_norm": 1.5155545473098755,
      "learning_rate": 2.4632120348272003e-06,
      "loss": 0.3762,
      "step": 761
    },
    {
      "epoch": 3.7380073800738005,
      "grad_norm": 1.5089105367660522,
      "learning_rate": 2.376372634553936e-06,
      "loss": 0.3995,
      "step": 762
    },
    {
      "epoch": 3.742927429274293,
      "grad_norm": 1.772503137588501,
      "learning_rate": 2.291073164877511e-06,
      "loss": 0.3853,
      "step": 763
    },
    {
      "epoch": 3.747847478474785,
      "grad_norm": 2.189436435699463,
      "learning_rate": 2.207314971325292e-06,
      "loss": 0.3494,
      "step": 764
    },
    {
      "epoch": 3.7527675276752768,
      "grad_norm": 1.9785796403884888,
      "learning_rate": 2.125099375112316e-06,
      "loss": 0.3675,
      "step": 765
    },
    {
      "epoch": 3.7576875768757687,
      "grad_norm": 2.732494831085205,
      "learning_rate": 2.0444276731204415e-06,
      "loss": 0.4188,
      "step": 766
    },
    {
      "epoch": 3.7626076260762606,
      "grad_norm": 1.5634301900863647,
      "learning_rate": 1.9653011378779283e-06,
      "loss": 0.4186,
      "step": 767
    },
    {
      "epoch": 3.767527675276753,
      "grad_norm": 0.6259942650794983,
      "learning_rate": 1.88772101753929e-06,
      "loss": 0.3834,
      "step": 768
    },
    {
      "epoch": 3.772447724477245,
      "grad_norm": 1.3457146883010864,
      "learning_rate": 1.8116885358656744e-06,
      "loss": 0.3696,
      "step": 769
    },
    {
      "epoch": 3.777367773677737,
      "grad_norm": 1.3714008331298828,
      "learning_rate": 1.7372048922054906e-06,
      "loss": 0.3921,
      "step": 770
    },
    {
      "epoch": 3.782287822878229,
      "grad_norm": 1.4138679504394531,
      "learning_rate": 1.6642712614755695e-06,
      "loss": 0.4379,
      "step": 771
    },
    {
      "epoch": 3.787207872078721,
      "grad_norm": 0.921842634677887,
      "learning_rate": 1.5928887941426107e-06,
      "loss": 0.3714,
      "step": 772
    },
    {
      "epoch": 3.7921279212792127,
      "grad_norm": 2.7711589336395264,
      "learning_rate": 1.523058616204942e-06,
      "loss": 0.3689,
      "step": 773
    },
    {
      "epoch": 3.7970479704797047,
      "grad_norm": 2.5462987422943115,
      "learning_rate": 1.4547818291749115e-06,
      "loss": 0.4578,
      "step": 774
    },
    {
      "epoch": 3.8019680196801966,
      "grad_norm": 2.8806490898132324,
      "learning_rate": 1.3880595100613792e-06,
      "loss": 0.3297,
      "step": 775
    },
    {
      "epoch": 3.8068880688806885,
      "grad_norm": 1.5188145637512207,
      "learning_rate": 1.3228927113528189e-06,
      "loss": 0.3871,
      "step": 776
    },
    {
      "epoch": 3.811808118081181,
      "grad_norm": 0.9707936644554138,
      "learning_rate": 1.2592824610006215e-06,
      "loss": 0.3656,
      "step": 777
    },
    {
      "epoch": 3.816728167281673,
      "grad_norm": 1.8770543336868286,
      "learning_rate": 1.1972297624030072e-06,
      "loss": 0.3981,
      "step": 778
    },
    {
      "epoch": 3.821648216482165,
      "grad_norm": 2.3081560134887695,
      "learning_rate": 1.1367355943890823e-06,
      "loss": 0.341,
      "step": 779
    },
    {
      "epoch": 3.8265682656826567,
      "grad_norm": 1.113144040107727,
      "learning_rate": 1.0778009112034748e-06,
      "loss": 0.3586,
      "step": 780
    },
    {
      "epoch": 3.8314883148831487,
      "grad_norm": 0.5980240702629089,
      "learning_rate": 1.0204266424912123e-06,
      "loss": 0.376,
      "step": 781
    },
    {
      "epoch": 3.836408364083641,
      "grad_norm": 0.6723970174789429,
      "learning_rate": 9.64613693283123e-07,
      "loss": 0.4038,
      "step": 782
    },
    {
      "epoch": 3.841328413284133,
      "grad_norm": 2.4948697090148926,
      "learning_rate": 9.103629439815354e-07,
      "loss": 0.3738,
      "step": 783
    },
    {
      "epoch": 3.846248462484625,
      "grad_norm": 1.11293625831604,
      "learning_rate": 8.57675250346368e-07,
      "loss": 0.3866,
      "step": 784
    },
    {
      "epoch": 3.851168511685117,
      "grad_norm": 2.0996763706207275,
      "learning_rate": 8.065514434816845e-07,
      "loss": 0.4064,
      "step": 785
    },
    {
      "epoch": 3.856088560885609,
      "grad_norm": 1.6557263135910034,
      "learning_rate": 7.569923298225146e-07,
      "loss": 0.3567,
      "step": 786
    },
    {
      "epoch": 3.8610086100861007,
      "grad_norm": 1.717772364616394,
      "learning_rate": 7.08998691122198e-07,
      "loss": 0.3856,
      "step": 787
    },
    {
      "epoch": 3.8659286592865927,
      "grad_norm": 1.4299819469451904,
      "learning_rate": 6.625712844400056e-07,
      "loss": 0.3652,
      "step": 788
    },
    {
      "epoch": 3.8708487084870846,
      "grad_norm": 2.8910887241363525,
      "learning_rate": 6.177108421292266e-07,
      "loss": 0.4677,
      "step": 789
    },
    {
      "epoch": 3.875768757687577,
      "grad_norm": 1.175137996673584,
      "learning_rate": 5.744180718255776e-07,
      "loss": 0.4193,
      "step": 790
    },
    {
      "epoch": 3.880688806888069,
      "grad_norm": 1.1175763607025146,
      "learning_rate": 5.326936564361118e-07,
      "loss": 0.3875,
      "step": 791
    },
    {
      "epoch": 3.885608856088561,
      "grad_norm": 0.9984952211380005,
      "learning_rate": 4.92538254128383e-07,
      "loss": 0.3799,
      "step": 792
    },
    {
      "epoch": 3.890528905289053,
      "grad_norm": 1.142543077468872,
      "learning_rate": 4.5395249832007604e-07,
      "loss": 0.4194,
      "step": 793
    },
    {
      "epoch": 3.8954489544895448,
      "grad_norm": 1.1013692617416382,
      "learning_rate": 4.1693699766902626e-07,
      "loss": 0.3853,
      "step": 794
    },
    {
      "epoch": 3.900369003690037,
      "grad_norm": 1.5713825225830078,
      "learning_rate": 3.814923360636158e-07,
      "loss": 0.4418,
      "step": 795
    },
    {
      "epoch": 3.905289052890529,
      "grad_norm": 3.3740017414093018,
      "learning_rate": 3.4761907261356976e-07,
      "loss": 0.3226,
      "step": 796
    },
    {
      "epoch": 3.910209102091021,
      "grad_norm": 2.347411870956421,
      "learning_rate": 3.1531774164111903e-07,
      "loss": 0.4269,
      "step": 797
    },
    {
      "epoch": 3.915129151291513,
      "grad_norm": 0.46610283851623535,
      "learning_rate": 2.8458885267260705e-07,
      "loss": 0.3861,
      "step": 798
    },
    {
      "epoch": 3.920049200492005,
      "grad_norm": 2.183335304260254,
      "learning_rate": 2.554328904303738e-07,
      "loss": 0.4076,
      "step": 799
    },
    {
      "epoch": 3.924969249692497,
      "grad_norm": 0.9739826321601868,
      "learning_rate": 2.2785031482521758e-07,
      "loss": 0.366,
      "step": 800
    },
    {
      "epoch": 3.9298892988929888,
      "grad_norm": 1.9975255727767944,
      "learning_rate": 2.0184156094905648e-07,
      "loss": 0.4491,
      "step": 801
    },
    {
      "epoch": 3.9348093480934807,
      "grad_norm": 2.732900619506836,
      "learning_rate": 1.7740703906810042e-07,
      "loss": 0.3248,
      "step": 802
    },
    {
      "epoch": 3.939729397293973,
      "grad_norm": 0.8809100389480591,
      "learning_rate": 1.545471346164007e-07,
      "loss": 0.3633,
      "step": 803
    },
    {
      "epoch": 3.944649446494465,
      "grad_norm": 0.5867434740066528,
      "learning_rate": 1.3326220818968838e-07,
      "loss": 0.3881,
      "step": 804
    },
    {
      "epoch": 3.949569495694957,
      "grad_norm": 0.8650780320167542,
      "learning_rate": 1.1355259553978981e-07,
      "loss": 0.3669,
      "step": 805
    },
    {
      "epoch": 3.954489544895449,
      "grad_norm": 1.4509629011154175,
      "learning_rate": 9.541860756925314e-08,
      "loss": 0.3649,
      "step": 806
    },
    {
      "epoch": 3.959409594095941,
      "grad_norm": 2.9854180812835693,
      "learning_rate": 7.886053032649665e-08,
      "loss": 0.3379,
      "step": 807
    },
    {
      "epoch": 3.9643296432964332,
      "grad_norm": 3.3452847003936768,
      "learning_rate": 6.387862500125685e-08,
      "loss": 0.3104,
      "step": 808
    },
    {
      "epoch": 3.969249692496925,
      "grad_norm": 1.342034935951233,
      "learning_rate": 5.047312792046954e-08,
      "loss": 0.3895,
      "step": 809
    },
    {
      "epoch": 3.974169741697417,
      "grad_norm": 1.3684653043746948,
      "learning_rate": 3.8644250544594975e-08,
      "loss": 0.3729,
      "step": 810
    },
    {
      "epoch": 3.979089790897909,
      "grad_norm": 2.351048231124878,
      "learning_rate": 2.839217946422057e-08,
      "loss": 0.4621,
      "step": 811
    },
    {
      "epoch": 3.984009840098401,
      "grad_norm": 0.49089106917381287,
      "learning_rate": 1.971707639712994e-08,
      "loss": 0.3819,
      "step": 812
    },
    {
      "epoch": 3.988929889298893,
      "grad_norm": 1.8144298791885376,
      "learning_rate": 1.2619078185793776e-08,
      "loss": 0.4157,
      "step": 813
    },
    {
      "epoch": 3.993849938499385,
      "grad_norm": 1.8721059560775757,
      "learning_rate": 7.098296795138293e-09,
      "loss": 0.3468,
      "step": 814
    },
    {
      "epoch": 3.998769987699877,
      "grad_norm": 1.0250661373138428,
      "learning_rate": 3.154819310868806e-09,
      "loss": 0.401,
      "step": 815
    },
    {
      "epoch": 4.0,
      "grad_norm": 1.8312103748321533,
      "learning_rate": 7.887079380153317e-10,
      "loss": 0.3332,
      "step": 816
    },
    {
      "epoch": 4.0,
      "step": 816,
      "total_flos": 1.3456927249947034e+17,
      "train_loss": 0.40810306406780783,
      "train_runtime": 2344.5136,
      "train_samples_per_second": 11.093,
      "train_steps_per_second": 0.348
    }
  ],
  "logging_steps": 1,
  "max_steps": 816,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 2400000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.3456927249947034e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}