{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.283208834037025,
  "eval_steps": 500,
  "global_step": 2002,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 0.04008953645825386,
      "learning_rate": 6.896551724137932e-06,
      "loss": 1.1355,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.07225171476602554,
      "learning_rate": 1.3793103448275863e-05,
      "loss": 1.2113,
      "step": 2
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.04869953542947769,
      "learning_rate": 2.0689655172413793e-05,
      "loss": 1.4082,
      "step": 3
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.04640135169029236,
      "learning_rate": 2.7586206896551727e-05,
      "loss": 1.3191,
      "step": 4
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.03611049801111221,
      "learning_rate": 3.4482758620689657e-05,
      "loss": 1.1544,
      "step": 5
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.051763903349637985,
      "learning_rate": 4.1379310344827587e-05,
      "loss": 1.5153,
      "step": 6
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.05204508826136589,
      "learning_rate": 4.827586206896552e-05,
      "loss": 1.1674,
      "step": 7
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.054778363555669785,
      "learning_rate": 5.517241379310345e-05,
      "loss": 1.3888,
      "step": 8
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.055702440440654755,
      "learning_rate": 6.206896551724138e-05,
      "loss": 1.2173,
      "step": 9
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.05100104212760925,
      "learning_rate": 6.896551724137931e-05,
      "loss": 1.2199,
      "step": 10
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.06114739924669266,
      "learning_rate": 7.586206896551724e-05,
      "loss": 1.2196,
      "step": 11
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.07207280397415161,
      "learning_rate": 8.275862068965517e-05,
      "loss": 1.287,
      "step": 12
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.061948470771312714,
      "learning_rate": 8.96551724137931e-05,
      "loss": 1.1897,
      "step": 13
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.05975250154733658,
      "learning_rate": 9.655172413793105e-05,
      "loss": 1.0783,
      "step": 14
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.0717136338353157,
      "learning_rate": 0.00010344827586206898,
      "loss": 1.3379,
      "step": 15
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.07506729662418365,
      "learning_rate": 0.0001103448275862069,
      "loss": 1.277,
      "step": 16
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.06755080819129944,
      "learning_rate": 0.00011724137931034482,
      "loss": 1.3304,
      "step": 17
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.08883846551179886,
      "learning_rate": 0.00012413793103448277,
      "loss": 1.2343,
      "step": 18
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.06401929259300232,
      "learning_rate": 0.00013103448275862068,
      "loss": 1.2448,
      "step": 19
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.09903116524219513,
      "learning_rate": 0.00013793103448275863,
      "loss": 1.2738,
      "step": 20
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.07536918669939041,
      "learning_rate": 0.00014482758620689657,
      "loss": 1.2626,
      "step": 21
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.07821318507194519,
      "learning_rate": 0.00015172413793103449,
      "loss": 1.326,
      "step": 22
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.07713277637958527,
      "learning_rate": 0.00015862068965517243,
      "loss": 1.1252,
      "step": 23
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.09503794461488724,
      "learning_rate": 0.00016551724137931035,
      "loss": 1.3358,
      "step": 24
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.08219444751739502,
      "learning_rate": 0.00017241379310344826,
      "loss": 1.2813,
      "step": 25
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.11026415228843689,
      "learning_rate": 0.0001793103448275862,
      "loss": 1.4659,
      "step": 26
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.1077384352684021,
      "learning_rate": 0.00018620689655172415,
      "loss": 1.4567,
      "step": 27
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.09956091642379761,
      "learning_rate": 0.0001931034482758621,
      "loss": 1.3511,
      "step": 28
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.0894646868109703,
      "learning_rate": 0.0002,
      "loss": 1.1795,
      "step": 29
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.07985596358776093,
      "learning_rate": 0.00019999994691707293,
      "loss": 1.3384,
      "step": 30
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.10679838061332703,
      "learning_rate": 0.00019999978766834805,
      "loss": 1.4829,
      "step": 31
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.08870743215084076,
      "learning_rate": 0.0001999995222539944,
      "loss": 1.1258,
      "step": 32
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.09697020053863525,
      "learning_rate": 0.00019999915067429384,
      "loss": 1.3016,
      "step": 33
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.08852187544107437,
      "learning_rate": 0.00019999867292964078,
      "loss": 1.3058,
      "step": 34
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.09163249284029007,
      "learning_rate": 0.0001999980890205425,
      "loss": 1.1355,
      "step": 35
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.07654478400945663,
      "learning_rate": 0.0001999973989476188,
      "loss": 1.1533,
      "step": 36
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.08472617715597153,
      "learning_rate": 0.00019999660271160242,
      "loss": 1.1486,
      "step": 37
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.09144127368927002,
      "learning_rate": 0.0001999957003133386,
      "loss": 1.17,
      "step": 38
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.08375002443790436,
      "learning_rate": 0.00019999469175378543,
      "loss": 0.9908,
      "step": 39
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.0837416797876358,
      "learning_rate": 0.00019999357703401365,
      "loss": 1.0564,
      "step": 40
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.11098498106002808,
      "learning_rate": 0.00019999235615520672,
      "loss": 1.3512,
      "step": 41
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.10009056329727173,
      "learning_rate": 0.00019999102911866077,
      "loss": 1.4577,
      "step": 42
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.08330542594194412,
      "learning_rate": 0.00019998959592578466,
      "loss": 1.1307,
      "step": 43
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.10253599286079407,
      "learning_rate": 0.00019998805657809996,
      "loss": 1.2409,
      "step": 44
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.08261312544345856,
      "learning_rate": 0.00019998641107724097,
      "loss": 1.1321,
      "step": 45
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.0797719806432724,
      "learning_rate": 0.00019998465942495458,
      "loss": 1.1719,
      "step": 46
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.08123207092285156,
      "learning_rate": 0.0001999828016231005,
      "loss": 1.0263,
      "step": 47
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.07530490309000015,
      "learning_rate": 0.00019998083767365103,
      "loss": 1.2375,
      "step": 48
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.077210433781147,
      "learning_rate": 0.00019997876757869127,
      "loss": 1.1426,
      "step": 49
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.07056202739477158,
      "learning_rate": 0.00019997659134041894,
      "loss": 0.9958,
      "step": 50
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.07623480260372162,
      "learning_rate": 0.00019997430896114446,
      "loss": 1.0555,
      "step": 51
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.07929116487503052,
      "learning_rate": 0.0001999719204432909,
      "loss": 1.0228,
      "step": 52
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.07111712545156479,
      "learning_rate": 0.0001999694257893941,
      "loss": 1.2484,
      "step": 53
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.08941549062728882,
      "learning_rate": 0.0001999668250021025,
      "loss": 1.2755,
      "step": 54
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.07243392616510391,
      "learning_rate": 0.00019996411808417724,
      "loss": 1.2864,
      "step": 55
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.11266268789768219,
      "learning_rate": 0.0001999613050384922,
      "loss": 1.1744,
      "step": 56
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.07067809998989105,
      "learning_rate": 0.0001999583858680338,
      "loss": 1.0887,
      "step": 57
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.06493864208459854,
      "learning_rate": 0.00019995536057590128,
      "loss": 1.2716,
      "step": 58
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.07525993883609772,
      "learning_rate": 0.00019995222916530637,
      "loss": 1.2011,
      "step": 59
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.1059408187866211,
      "learning_rate": 0.00019994899163957368,
      "loss": 1.2519,
      "step": 60
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.07853084802627563,
      "learning_rate": 0.00019994564800214024,
      "loss": 1.2919,
      "step": 61
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.0701480507850647,
      "learning_rate": 0.0001999421982565559,
      "loss": 1.0858,
      "step": 62
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.07502806931734085,
      "learning_rate": 0.00019993864240648313,
      "loss": 1.0008,
      "step": 63
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.08633171766996384,
      "learning_rate": 0.00019993498045569702,
      "loss": 1.1728,
      "step": 64
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.08813374489545822,
      "learning_rate": 0.0001999312124080853,
      "loss": 1.0864,
      "step": 65
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.09121447801589966,
      "learning_rate": 0.00019992733826764835,
      "loss": 1.1113,
      "step": 66
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.07591919600963593,
      "learning_rate": 0.00019992335803849917,
      "loss": 1.202,
      "step": 67
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.07328435033559799,
      "learning_rate": 0.00019991927172486346,
      "loss": 1.1644,
      "step": 68
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.08068283647298813,
      "learning_rate": 0.0001999150793310794,
      "loss": 1.106,
      "step": 69
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.08356733620166779,
      "learning_rate": 0.00019991078086159796,
      "loss": 1.1861,
      "step": 70
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.09514696896076202,
      "learning_rate": 0.00019990637632098262,
      "loss": 1.344,
      "step": 71
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.07595695555210114,
      "learning_rate": 0.0001999018657139095,
      "loss": 1.3151,
      "step": 72
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.07353411614894867,
      "learning_rate": 0.00019989724904516734,
      "loss": 1.2144,
      "step": 73
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.1090092882514,
      "learning_rate": 0.00019989252631965742,
      "loss": 1.12,
      "step": 74
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.0808551162481308,
      "learning_rate": 0.00019988769754239368,
      "loss": 1.0838,
      "step": 75
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.07115597277879715,
      "learning_rate": 0.00019988276271850266,
      "loss": 1.3786,
      "step": 76
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.06909359991550446,
      "learning_rate": 0.00019987772185322343,
      "loss": 1.0922,
      "step": 77
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.08590813726186752,
      "learning_rate": 0.0001998725749519077,
      "loss": 1.4139,
      "step": 78
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.12101796269416809,
      "learning_rate": 0.00019986732202001965,
      "loss": 1.2673,
      "step": 79
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.06808914244174957,
      "learning_rate": 0.0001998619630631362,
      "loss": 1.2045,
      "step": 80
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.08627394586801529,
      "learning_rate": 0.00019985649808694665,
      "loss": 1.2819,
      "step": 81
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.07175503671169281,
      "learning_rate": 0.000199850927097253,
      "loss": 1.4064,
      "step": 82
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.08057812601327896,
      "learning_rate": 0.0001998452500999697,
      "loss": 1.3813,
      "step": 83
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.18742507696151733,
      "learning_rate": 0.00019983946710112378,
      "loss": 1.184,
      "step": 84
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.07114308327436447,
      "learning_rate": 0.00019983357810685482,
      "loss": 1.1716,
      "step": 85
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.08055424690246582,
      "learning_rate": 0.00019982758312341495,
      "loss": 1.2713,
      "step": 86
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.07629523426294327,
      "learning_rate": 0.00019982148215716875,
      "loss": 1.1986,
      "step": 87
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.08360457420349121,
      "learning_rate": 0.00019981527521459338,
      "loss": 1.0301,
      "step": 88
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.07372694462537766,
      "learning_rate": 0.00019980896230227847,
      "loss": 1.0811,
      "step": 89
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.06955759227275848,
      "learning_rate": 0.00019980254342692627,
      "loss": 0.8951,
      "step": 90
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.07801992446184158,
      "learning_rate": 0.0001997960185953513,
      "loss": 1.2038,
      "step": 91
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.08545531332492828,
      "learning_rate": 0.0001997893878144808,
      "loss": 1.2636,
      "step": 92
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.061103224754333496,
      "learning_rate": 0.00019978265109135435,
      "loss": 1.1628,
      "step": 93
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.08182393014431,
      "learning_rate": 0.0001997758084331241,
      "loss": 1.1868,
      "step": 94
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.06987016648054123,
      "learning_rate": 0.00019976885984705452,
      "loss": 1.2146,
      "step": 95
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.08362079411745071,
      "learning_rate": 0.00019976180534052274,
      "loss": 1.0584,
      "step": 96
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.07390179485082626,
      "learning_rate": 0.00019975464492101819,
      "loss": 1.2111,
      "step": 97
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.0953076109290123,
      "learning_rate": 0.00019974737859614278,
      "loss": 1.4299,
      "step": 98
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.07653916627168655,
      "learning_rate": 0.00019974000637361088,
      "loss": 1.1821,
      "step": 99
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.08676808327436447,
      "learning_rate": 0.0001997325282612493,
      "loss": 1.2879,
      "step": 100
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.0871780589222908,
      "learning_rate": 0.00019972494426699717,
      "loss": 1.2175,
      "step": 101
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.08263079077005386,
      "learning_rate": 0.00019971725439890618,
      "loss": 1.4334,
      "step": 102
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.07416750490665436,
      "learning_rate": 0.0001997094586651403,
      "loss": 1.3992,
      "step": 103
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.07549911737442017,
      "learning_rate": 0.00019970155707397594,
      "loss": 1.1736,
      "step": 104
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.07236723601818085,
      "learning_rate": 0.00019969354963380193,
      "loss": 1.3373,
      "step": 105
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.07686607539653778,
      "learning_rate": 0.0001996854363531194,
      "loss": 1.2163,
      "step": 106
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.08150803297758102,
      "learning_rate": 0.00019967721724054185,
      "loss": 1.3929,
      "step": 107
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.08020401746034622,
      "learning_rate": 0.00019966889230479525,
      "loss": 1.204,
      "step": 108
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.07023321092128754,
      "learning_rate": 0.0001996604615547178,
      "loss": 1.1341,
      "step": 109
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.082249216735363,
      "learning_rate": 0.00019965192499926007,
      "loss": 1.1813,
      "step": 110
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.08552736788988113,
      "learning_rate": 0.000199643282647485,
      "loss": 1.0374,
      "step": 111
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.0845017060637474,
      "learning_rate": 0.00019963453450856774,
      "loss": 1.4907,
      "step": 112
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.10722214728593826,
      "learning_rate": 0.00019962568059179593,
      "loss": 0.8428,
      "step": 113
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.07669556140899658,
      "learning_rate": 0.00019961672090656934,
      "loss": 1.1715,
      "step": 114
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.16831474006175995,
      "learning_rate": 0.0001996076554624001,
      "loss": 1.0702,
      "step": 115
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.07218927145004272,
      "learning_rate": 0.00019959848426891265,
      "loss": 1.1708,
      "step": 116
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.07960865646600723,
      "learning_rate": 0.00019958920733584363,
      "loss": 1.2616,
      "step": 117
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.08504796773195267,
      "learning_rate": 0.00019957982467304198,
      "loss": 1.1766,
      "step": 118
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.10497059673070908,
      "learning_rate": 0.0001995703362904689,
      "loss": 1.0157,
      "step": 119
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.07764813303947449,
      "learning_rate": 0.00019956074219819783,
      "loss": 1.1179,
      "step": 120
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.07821417599916458,
      "learning_rate": 0.00019955104240641439,
      "loss": 1.3126,
      "step": 121
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.0767795741558075,
      "learning_rate": 0.00019954123692541643,
      "loss": 1.247,
      "step": 122
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.07959768921136856,
      "learning_rate": 0.00019953132576561405,
      "loss": 1.0639,
      "step": 123
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.07457169890403748,
      "learning_rate": 0.0001995213089375295,
      "loss": 1.323,
      "step": 124
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.07672613114118576,
      "learning_rate": 0.00019951118645179726,
      "loss": 1.2996,
      "step": 125
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.09855501353740692,
      "learning_rate": 0.00019950095831916396,
      "loss": 1.1613,
      "step": 126
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.10536333918571472,
      "learning_rate": 0.00019949062455048834,
      "loss": 1.5025,
      "step": 127
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.07425690442323685,
      "learning_rate": 0.00019948018515674135,
      "loss": 0.8924,
      "step": 128
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.08064056187868118,
      "learning_rate": 0.00019946964014900607,
      "loss": 1.1245,
      "step": 129
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.08193577080965042,
      "learning_rate": 0.0001994589895384777,
      "loss": 1.3086,
      "step": 130
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.13796043395996094,
      "learning_rate": 0.00019944823333646356,
      "loss": 1.2822,
      "step": 131
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.0710272490978241,
      "learning_rate": 0.00019943737155438303,
      "loss": 1.1385,
      "step": 132
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.07783588021993637,
      "learning_rate": 0.00019942640420376765,
      "loss": 1.1241,
      "step": 133
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.07037730515003204,
      "learning_rate": 0.00019941533129626095,
      "loss": 1.1858,
      "step": 134
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.07877272367477417,
      "learning_rate": 0.00019940415284361865,
      "loss": 1.1963,
      "step": 135
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.09204830974340439,
      "learning_rate": 0.0001993928688577084,
      "loss": 1.3757,
      "step": 136
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.07677577435970306,
      "learning_rate": 0.00019938147935050994,
      "loss": 1.1891,
      "step": 137
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.08180911839008331,
      "learning_rate": 0.00019936998433411508,
      "loss": 1.4319,
      "step": 138
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.08735460042953491,
      "learning_rate": 0.00019935838382072755,
      "loss": 1.2685,
      "step": 139
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.09186897426843643,
      "learning_rate": 0.00019934667782266314,
      "loss": 1.118,
      "step": 140
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.07723281532526016,
      "learning_rate": 0.00019933486635234963,
      "loss": 1.0832,
      "step": 141
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.07641208916902542,
      "learning_rate": 0.00019932294942232682,
      "loss": 1.2359,
      "step": 142
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.07022741436958313,
      "learning_rate": 0.00019931092704524636,
      "loss": 0.836,
      "step": 143
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.07212373614311218,
      "learning_rate": 0.00019929879923387192,
      "loss": 1.2083,
      "step": 144
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.08122804015874863,
      "learning_rate": 0.0001992865660010791,
      "loss": 0.9731,
      "step": 145
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.07840394973754883,
      "learning_rate": 0.00019927422735985543,
      "loss": 1.31,
      "step": 146
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.07877013832330704,
      "learning_rate": 0.00019926178332330032,
      "loss": 1.0037,
      "step": 147
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.10172662883996964,
      "learning_rate": 0.0001992492339046251,
      "loss": 1.1724,
      "step": 148
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.08578412234783173,
      "learning_rate": 0.00019923657911715296,
      "loss": 1.2727,
      "step": 149
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.07262091338634491,
      "learning_rate": 0.00019922381897431892,
      "loss": 1.2786,
      "step": 150
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.06889116019010544,
      "learning_rate": 0.00019921095348966996,
      "loss": 1.2328,
      "step": 151
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.06720105558633804,
      "learning_rate": 0.0001991979826768648,
      "loss": 1.207,
      "step": 152
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.12904532253742218,
      "learning_rate": 0.00019918490654967404,
      "loss": 1.1355,
      "step": 153
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.07100478559732437,
      "learning_rate": 0.00019917172512198,
      "loss": 1.1669,
      "step": 154
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.08603204786777496,
      "learning_rate": 0.00019915843840777694,
      "loss": 1.3417,
      "step": 155
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.07161790132522583,
      "learning_rate": 0.00019914504642117075,
      "loss": 1.1422,
      "step": 156
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.0849173441529274,
      "learning_rate": 0.00019913154917637916,
      "loss": 1.1043,
      "step": 157
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.07790779322385788,
      "learning_rate": 0.00019911794668773166,
      "loss": 0.983,
      "step": 158
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.08227023482322693,
      "learning_rate": 0.00019910423896966943,
      "loss": 1.0398,
      "step": 159
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.07356717437505722,
      "learning_rate": 0.0001990904260367454,
      "loss": 1.0846,
      "step": 160
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.06824516505002975,
      "learning_rate": 0.00019907650790362415,
      "loss": 1.096,
      "step": 161
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.08319918066263199,
      "learning_rate": 0.00019906248458508203,
      "loss": 1.166,
      "step": 162
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.0659998208284378,
      "learning_rate": 0.000199048356096007,
      "loss": 0.8599,
      "step": 163
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.08006949722766876,
      "learning_rate": 0.00019903412245139866,
      "loss": 1.0234,
      "step": 164
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.07593873143196106,
      "learning_rate": 0.00019901978366636833,
      "loss": 1.251,
      "step": 165
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.07520274072885513,
      "learning_rate": 0.0001990053397561389,
      "loss": 1.1673,
      "step": 166
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.09776092320680618,
      "learning_rate": 0.0001989907907360448,
      "loss": 1.3006,
      "step": 167
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.08538515865802765,
      "learning_rate": 0.00019897613662153222,
      "loss": 0.9225,
      "step": 168
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.09008879214525223,
      "learning_rate": 0.00019896137742815876,
      "loss": 1.3857,
      "step": 169
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.07463444769382477,
      "learning_rate": 0.00019894651317159368,
      "loss": 1.3,
      "step": 170
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.08576199412345886,
      "learning_rate": 0.00019893154386761773,
      "loss": 0.7807,
      "step": 171
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.10605023801326752,
      "learning_rate": 0.00019891646953212316,
      "loss": 1.2742,
      "step": 172
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.07358279824256897,
      "learning_rate": 0.00019890129018111384,
      "loss": 1.2885,
      "step": 173
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.08171935379505157,
      "learning_rate": 0.000198886005830705,
      "loss": 1.1483,
      "step": 174
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.0678820013999939,
      "learning_rate": 0.00019887061649712345,
      "loss": 1.1168,
      "step": 175
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.07885902374982834,
      "learning_rate": 0.00019885512219670735,
      "loss": 1.1202,
      "step": 176
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.0892176702618599,
      "learning_rate": 0.0001988395229459064,
      "loss": 1.0907,
      "step": 177
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.07069101929664612,
      "learning_rate": 0.0001988238187612817,
      "loss": 1.0559,
      "step": 178
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.07359961420297623,
      "learning_rate": 0.00019880800965950567,
      "loss": 1.2076,
      "step": 179
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.07424277067184448,
      "learning_rate": 0.00019879209565736218,
      "loss": 1.1892,
      "step": 180
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.0668448731303215,
      "learning_rate": 0.00019877607677174652,
      "loss": 1.197,
      "step": 181
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.08037786185741425,
      "learning_rate": 0.00019875995301966523,
      "loss": 1.0088,
      "step": 182
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.0884958952665329,
      "learning_rate": 0.00019874372441823629,
      "loss": 1.0746,
      "step": 183
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.0994100570678711,
      "learning_rate": 0.00019872739098468885,
      "loss": 1.2779,
      "step": 184
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.07933379709720612,
      "learning_rate": 0.0001987109527363635,
      "loss": 1.0492,
      "step": 185
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.08432573080062866,
      "learning_rate": 0.000198694409690712,
      "loss": 1.1103,
      "step": 186
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.09406879544258118,
      "learning_rate": 0.00019867776186529746,
      "loss": 1.4604,
      "step": 187
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.0750434622168541,
      "learning_rate": 0.00019866100927779415,
      "loss": 1.0356,
      "step": 188
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.08250833302736282,
      "learning_rate": 0.00019864415194598766,
      "loss": 1.2232,
      "step": 189
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.09028942137956619,
      "learning_rate": 0.00019862718988777463,
      "loss": 1.3559,
      "step": 190
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.10870659351348877,
      "learning_rate": 0.00019861012312116306,
      "loss": 1.1435,
      "step": 191
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.07719945907592773,
      "learning_rate": 0.00019859295166427198,
      "loss": 1.3938,
      "step": 192
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.10856524854898453,
      "learning_rate": 0.0001985756755353316,
      "loss": 1.3754,
      "step": 193
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.07811608165502548,
      "learning_rate": 0.0001985582947526833,
      "loss": 1.0972,
      "step": 194
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.078819140791893,
      "learning_rate": 0.00019854080933477954,
      "loss": 1.1798,
      "step": 195
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.07991020381450653,
      "learning_rate": 0.00019852321930018384,
      "loss": 1.0345,
      "step": 196
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.07344697415828705,
      "learning_rate": 0.00019850552466757083,
      "loss": 1.1361,
      "step": 197
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.09107469767332077,
      "learning_rate": 0.00019848772545572616,
      "loss": 1.3357,
      "step": 198
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.08043038845062256,
      "learning_rate": 0.00019846982168354653,
      "loss": 1.1087,
      "step": 199
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.0794915184378624,
      "learning_rate": 0.00019845181337003963,
      "loss": 1.0507,
      "step": 200
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.09108548611402512,
      "learning_rate": 0.00019843370053432407,
      "loss": 0.9492,
      "step": 201
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.07458540052175522,
      "learning_rate": 0.0001984154831956296,
      "loss": 1.2029,
      "step": 202
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.08279601484537125,
      "learning_rate": 0.00019839716137329676,
      "loss": 1.3183,
      "step": 203
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.07415657490491867,
      "learning_rate": 0.00019837873508677707,
      "loss": 1.0252,
      "step": 204
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.06688812375068665,
      "learning_rate": 0.00019836020435563297,
      "loss": 1.2808,
      "step": 205
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.07196924835443497,
      "learning_rate": 0.00019834156919953775,
      "loss": 1.2533,
      "step": 206
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.07465454190969467,
      "learning_rate": 0.0001983228296382756,
      "loss": 1.3787,
      "step": 207
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.07878649234771729,
      "learning_rate": 0.00019830398569174154,
      "loss": 0.9646,
      "step": 208
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.10482143610715866,
      "learning_rate": 0.00019828503737994138,
      "loss": 1.4395,
      "step": 209
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.0868290439248085,
      "learning_rate": 0.00019826598472299177,
      "loss": 1.2466,
      "step": 210
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.06954513490200043,
      "learning_rate": 0.00019824682774112015,
      "loss": 1.0051,
      "step": 211
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.08132015913724899,
      "learning_rate": 0.00019822756645466468,
      "loss": 1.1945,
      "step": 212
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.08712561428546906,
      "learning_rate": 0.00019820820088407422,
      "loss": 1.3696,
      "step": 213
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.07907038927078247,
      "learning_rate": 0.00019818873104990846,
      "loss": 1.1412,
      "step": 214
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.07620605081319809,
      "learning_rate": 0.00019816915697283766,
      "loss": 1.2331,
      "step": 215
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.08560928702354431,
      "learning_rate": 0.00019814947867364288,
      "loss": 1.1327,
      "step": 216
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.08849047124385834,
      "learning_rate": 0.00019812969617321571,
      "loss": 1.4031,
      "step": 217
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.17463655769824982,
      "learning_rate": 0.00019810980949255838,
      "loss": 1.3308,
      "step": 218
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.09303506463766098,
      "learning_rate": 0.0001980898186527838,
      "loss": 1.4082,
      "step": 219
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.07691019773483276,
      "learning_rate": 0.0001980697236751154,
      "loss": 1.3857,
      "step": 220
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.07158955186605453,
      "learning_rate": 0.0001980495245808872,
      "loss": 1.0965,
      "step": 221
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.0742129236459732,
      "learning_rate": 0.00019802922139154375,
      "loss": 1.2464,
      "step": 222
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.07991943508386612,
      "learning_rate": 0.00019800881412864002,
      "loss": 1.2154,
      "step": 223
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.07743264734745026,
      "learning_rate": 0.00019798830281384167,
      "loss": 1.2393,
      "step": 224
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.08122200518846512,
      "learning_rate": 0.00019796768746892463,
      "loss": 1.2993,
      "step": 225
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.07908771932125092,
      "learning_rate": 0.00019794696811577538,
      "loss": 0.9361,
      "step": 226
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.06955181062221527,
      "learning_rate": 0.00019792614477639082,
      "loss": 1.0452,
      "step": 227
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.0668589249253273,
      "learning_rate": 0.0001979052174728782,
      "loss": 1.1022,
      "step": 228
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.08599793165922165,
      "learning_rate": 0.0001978841862274552,
      "loss": 1.2652,
      "step": 229
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.06755118072032928,
      "learning_rate": 0.00019786305106244981,
      "loss": 1.0727,
      "step": 230
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.08138154447078705,
      "learning_rate": 0.0001978418120003003,
      "loss": 1.343,
      "step": 231
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.07889607548713684,
      "learning_rate": 0.0001978204690635554,
      "loss": 1.1579,
      "step": 232
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.0738462284207344,
      "learning_rate": 0.00019779902227487397,
      "loss": 1.1958,
      "step": 233
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.07153750211000443,
      "learning_rate": 0.00019777747165702518,
      "loss": 0.8827,
      "step": 234
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.08947383612394333,
      "learning_rate": 0.00019775581723288844,
      "loss": 1.1964,
      "step": 235
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.07474005222320557,
      "learning_rate": 0.0001977340590254533,
      "loss": 1.1022,
      "step": 236
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.07341979444026947,
      "learning_rate": 0.0001977121970578196,
      "loss": 1.0886,
      "step": 237
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.08199238777160645,
      "learning_rate": 0.0001976902313531973,
      "loss": 1.3859,
      "step": 238
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.07367771118879318,
      "learning_rate": 0.00019766816193490642,
      "loss": 1.1585,
      "step": 239
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.06804653257131577,
      "learning_rate": 0.0001976459888263772,
      "loss": 1.22,
      "step": 240
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.07716865837574005,
      "learning_rate": 0.00019762371205114988,
      "loss": 1.2162,
      "step": 241
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.08062226325273514,
      "learning_rate": 0.00019760133163287483,
      "loss": 1.2478,
      "step": 242
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.0740450844168663,
      "learning_rate": 0.00019757884759531233,
      "loss": 1.3709,
      "step": 243
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.07524896413087845,
      "learning_rate": 0.00019755625996233285,
      "loss": 1.0305,
      "step": 244
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.08010102808475494,
      "learning_rate": 0.00019753356875791664,
      "loss": 0.9281,
      "step": 245
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.08609338104724884,
      "learning_rate": 0.0001975107740061541,
      "loss": 1.1635,
      "step": 246
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.07261325418949127,
      "learning_rate": 0.0001974878757312454,
      "loss": 1.145,
      "step": 247
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.08195792138576508,
      "learning_rate": 0.00019746487395750078,
      "loss": 1.2246,
      "step": 248
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.07104358822107315,
      "learning_rate": 0.00019744176870934018,
      "loss": 1.0597,
      "step": 249
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.06879540532827377,
      "learning_rate": 0.00019741856001129354,
      "loss": 0.9544,
      "step": 250
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.0912511944770813,
      "learning_rate": 0.00019739524788800052,
      "loss": 1.3106,
      "step": 251
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.08150241523981094,
      "learning_rate": 0.00019737183236421068,
      "loss": 1.1349,
      "step": 252
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.06917703151702881,
      "learning_rate": 0.00019734831346478331,
      "loss": 1.0447,
      "step": 253
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.0651431605219841,
      "learning_rate": 0.00019732469121468743,
      "loss": 1.033,
      "step": 254
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.08859477192163467,
      "learning_rate": 0.0001973009656390018,
      "loss": 1.1675,
      "step": 255
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.07274781912565231,
      "learning_rate": 0.00019727713676291492,
      "loss": 1.2356,
      "step": 256
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.07679511606693268,
      "learning_rate": 0.0001972532046117249,
      "loss": 1.3373,
      "step": 257
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.07444384694099426,
      "learning_rate": 0.00019722916921083948,
      "loss": 1.0004,
      "step": 258
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.08357756584882736,
      "learning_rate": 0.00019720503058577607,
      "loss": 1.3211,
      "step": 259
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.08496179431676865,
      "learning_rate": 0.00019718078876216163,
      "loss": 1.3928,
      "step": 260
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.08116108924150467,
      "learning_rate": 0.00019715644376573277,
      "loss": 1.0351,
      "step": 261
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.08486796915531158,
      "learning_rate": 0.0001971319956223355,
      "loss": 1.2676,
      "step": 262
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.08111484348773956,
      "learning_rate": 0.0001971074443579254,
      "loss": 1.1039,
      "step": 263
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.07966972142457962,
      "learning_rate": 0.00019708278999856752,
      "loss": 1.2049,
      "step": 264
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.0737084299325943,
      "learning_rate": 0.00019705803257043646,
      "loss": 1.362,
      "step": 265
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.09911826252937317,
      "learning_rate": 0.00019703317209981603,
      "loss": 1.5312,
      "step": 266
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.07375174760818481,
      "learning_rate": 0.00019700820861309962,
      "loss": 1.3419,
      "step": 267
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.07868732511997223,
      "learning_rate": 0.00019698314213679,
      "loss": 1.1063,
      "step": 268
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.08604758977890015,
      "learning_rate": 0.00019695797269749906,
      "loss": 1.2156,
      "step": 269
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.08033949881792068,
      "learning_rate": 0.00019693270032194825,
      "loss": 1.3969,
      "step": 270
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.07744378596544266,
      "learning_rate": 0.0001969073250369682,
      "loss": 1.0613,
      "step": 271
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.08643119782209396,
      "learning_rate": 0.00019688184686949878,
      "loss": 1.4592,
      "step": 272
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.07818787544965744,
      "learning_rate": 0.00019685626584658907,
      "loss": 1.1422,
      "step": 273
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.08434268832206726,
      "learning_rate": 0.00019683058199539746,
      "loss": 1.1046,
      "step": 274
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.06768738478422165,
      "learning_rate": 0.00019680479534319134,
      "loss": 0.972,
      "step": 275
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.06793482601642609,
      "learning_rate": 0.0001967789059173474,
      "loss": 1.1469,
      "step": 276
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.10266832262277603,
      "learning_rate": 0.00019675291374535134,
      "loss": 1.2476,
      "step": 277
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.07190185785293579,
      "learning_rate": 0.00019672681885479797,
      "loss": 0.9282,
      "step": 278
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.08223461359739304,
      "learning_rate": 0.0001967006212733912,
      "loss": 1.3062,
      "step": 279
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.08083578199148178,
      "learning_rate": 0.00019667432102894383,
      "loss": 0.9372,
      "step": 280
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.08270005881786346,
      "learning_rate": 0.0001966479181493778,
      "loss": 1.1984,
      "step": 281
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.07582583278417587,
      "learning_rate": 0.00019662141266272394,
      "loss": 1.0484,
      "step": 282
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.07078398019075394,
      "learning_rate": 0.00019659480459712202,
      "loss": 1.116,
      "step": 283
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.09360076487064362,
      "learning_rate": 0.00019656809398082073,
      "loss": 0.88,
      "step": 284
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.08306850492954254,
      "learning_rate": 0.0001965412808421776,
      "loss": 1.2109,
      "step": 285
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.07452476024627686,
      "learning_rate": 0.00019651436520965907,
      "loss": 1.0769,
      "step": 286
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.10528121888637543,
      "learning_rate": 0.00019648734711184032,
      "loss": 0.8117,
      "step": 287
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.08129299432039261,
      "learning_rate": 0.00019646022657740533,
      "loss": 1.3569,
      "step": 288
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.07164785265922546,
      "learning_rate": 0.0001964330036351469,
      "loss": 1.1295,
      "step": 289
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.08173338323831558,
      "learning_rate": 0.00019640567831396647,
      "loss": 0.6919,
      "step": 290
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.07579617202281952,
      "learning_rate": 0.00019637825064287417,
      "loss": 1.1889,
      "step": 291
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.08440928906202316,
      "learning_rate": 0.00019635072065098886,
      "loss": 1.2052,
      "step": 292
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.08670910447835922,
      "learning_rate": 0.00019632308836753796,
      "loss": 0.9882,
      "step": 293
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.08135852217674255,
      "learning_rate": 0.00019629535382185759,
      "loss": 1.1185,
      "step": 294
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.07762303203344345,
      "learning_rate": 0.00019626751704339226,
      "loss": 1.0747,
      "step": 295
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.07294236123561859,
      "learning_rate": 0.0001962395780616952,
      "loss": 1.223,
      "step": 296
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.08544450998306274,
      "learning_rate": 0.00019621153690642807,
      "loss": 1.1139,
      "step": 297
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.07629240304231644,
      "learning_rate": 0.00019618339360736098,
      "loss": 1.1728,
      "step": 298
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.08711448311805725,
      "learning_rate": 0.00019615514819437249,
      "loss": 1.0552,
      "step": 299
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.09498873353004456,
      "learning_rate": 0.00019612680069744959,
      "loss": 0.8618,
      "step": 300
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.08398744463920593,
      "learning_rate": 0.00019609835114668767,
      "loss": 1.2068,
      "step": 301
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.07466951012611389,
      "learning_rate": 0.00019606979957229043,
      "loss": 1.0717,
      "step": 302
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.07318463176488876,
      "learning_rate": 0.00019604114600456986,
      "loss": 1.1175,
      "step": 303
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.07363720238208771,
      "learning_rate": 0.00019601239047394627,
      "loss": 1.2193,
      "step": 304
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.07690288871526718,
      "learning_rate": 0.00019598353301094828,
      "loss": 1.0208,
      "step": 305
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.0708373636007309,
      "learning_rate": 0.0001959545736462126,
      "loss": 1.2279,
      "step": 306
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.08571004122495651,
      "learning_rate": 0.0001959255124104842,
      "loss": 1.2219,
      "step": 307
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.0700921043753624,
      "learning_rate": 0.00019589634933461618,
      "loss": 1.2477,
      "step": 308
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.0815667137503624,
      "learning_rate": 0.00019586708444956977,
      "loss": 1.3261,
      "step": 309
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.08132670074701309,
      "learning_rate": 0.00019583771778641432,
      "loss": 1.2293,
      "step": 310
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.07306857407093048,
      "learning_rate": 0.00019580824937632718,
      "loss": 1.0716,
      "step": 311
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.07567529380321503,
      "learning_rate": 0.0001957786792505937,
      "loss": 1.1178,
      "step": 312
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.07349325716495514,
      "learning_rate": 0.00019574900744060732,
      "loss": 1.2462,
      "step": 313
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.09117168933153152,
      "learning_rate": 0.00019571923397786932,
      "loss": 1.4343,
      "step": 314
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.09968636184930801,
      "learning_rate": 0.000195689358893989,
      "loss": 1.0374,
      "step": 315
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.06757254153490067,
      "learning_rate": 0.0001956593822206834,
      "loss": 0.9678,
      "step": 316
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.06875491142272949,
      "learning_rate": 0.00019562930398977764,
      "loss": 0.8834,
      "step": 317
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.07561076432466507,
      "learning_rate": 0.00019559912423320445,
      "loss": 1.0253,
      "step": 318
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.08350048214197159,
      "learning_rate": 0.00019556884298300447,
      "loss": 1.3002,
      "step": 319
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.08164501190185547,
      "learning_rate": 0.00019553846027132597,
      "loss": 1.0691,
      "step": 320
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.06864047795534134,
      "learning_rate": 0.00019550797613042512,
      "loss": 1.1126,
      "step": 321
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.09170655161142349,
      "learning_rate": 0.00019547739059266563,
      "loss": 1.2081,
      "step": 322
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.07826890796422958,
      "learning_rate": 0.00019544670369051886,
      "loss": 0.9041,
      "step": 323
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.08353405445814133,
      "learning_rate": 0.00019541591545656382,
      "loss": 1.1917,
      "step": 324
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.0875379666686058,
      "learning_rate": 0.0001953850259234872,
      "loss": 1.4304,
      "step": 325
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.0946691557765007,
      "learning_rate": 0.00019535403512408302,
      "loss": 1.1827,
      "step": 326
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.08039974421262741,
      "learning_rate": 0.00019532294309125296,
      "loss": 1.0794,
      "step": 327
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.08648931235074997,
      "learning_rate": 0.0001952917498580062,
      "loss": 1.0611,
      "step": 328
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.07675964385271072,
      "learning_rate": 0.0001952604554574592,
      "loss": 1.2255,
      "step": 329
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.08626928925514221,
      "learning_rate": 0.00019522905992283603,
      "loss": 1.1067,
      "step": 330
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.07394007593393326,
      "learning_rate": 0.000195197563287468,
      "loss": 1.273,
      "step": 331
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.08016256988048553,
      "learning_rate": 0.00019516596558479373,
      "loss": 1.2918,
      "step": 332
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.07985451072454453,
      "learning_rate": 0.00019513426684835924,
      "loss": 1.3254,
      "step": 333
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.07685229182243347,
      "learning_rate": 0.00019510246711181773,
      "loss": 1.0379,
      "step": 334
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.08119890838861465,
      "learning_rate": 0.0001950705664089297,
      "loss": 1.2837,
      "step": 335
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.08366896957159042,
      "learning_rate": 0.00019503856477356277,
      "loss": 1.0833,
      "step": 336
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.08915286511182785,
      "learning_rate": 0.0001950064622396918,
      "loss": 1.3782,
      "step": 337
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.07876568287611008,
      "learning_rate": 0.00019497425884139867,
      "loss": 1.1196,
      "step": 338
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.07202233374118805,
      "learning_rate": 0.00019494195461287238,
      "loss": 1.227,
      "step": 339
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.0898287370800972,
      "learning_rate": 0.00019490954958840907,
      "loss": 1.0928,
      "step": 340
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.07852581143379211,
      "learning_rate": 0.00019487704380241171,
      "loss": 1.213,
      "step": 341
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.06838871538639069,
      "learning_rate": 0.00019484443728939041,
      "loss": 0.8097,
      "step": 342
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.08563709259033203,
      "learning_rate": 0.00019481173008396212,
      "loss": 1.211,
      "step": 343
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.07851383090019226,
      "learning_rate": 0.00019477892222085076,
      "loss": 1.1013,
      "step": 344
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.07817473262548447,
      "learning_rate": 0.00019474601373488704,
      "loss": 1.0356,
      "step": 345
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.08778605610132217,
      "learning_rate": 0.00019471300466100862,
      "loss": 1.3028,
      "step": 346
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.08105292916297913,
      "learning_rate": 0.00019467989503425974,
      "loss": 1.2975,
      "step": 347
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.0834394320845604,
      "learning_rate": 0.0001946466848897916,
      "loss": 1.2351,
      "step": 348
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.07740943878889084,
      "learning_rate": 0.000194613374262862,
      "loss": 1.1116,
      "step": 349
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.07536373287439346,
      "learning_rate": 0.00019457996318883547,
      "loss": 1.2281,
      "step": 350
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.08035381883382797,
      "learning_rate": 0.00019454645170318316,
      "loss": 1.1608,
      "step": 351
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.08857207000255585,
      "learning_rate": 0.00019451283984148277,
      "loss": 1.2222,
      "step": 352
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.09400638937950134,
      "learning_rate": 0.00019447912763941873,
      "loss": 1.122,
      "step": 353
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.08267956227064133,
      "learning_rate": 0.0001944453151327818,
      "loss": 1.3113,
      "step": 354
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.08970284461975098,
      "learning_rate": 0.00019441140235746938,
      "loss": 1.219,
      "step": 355
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.07805363833904266,
      "learning_rate": 0.00019437738934948516,
      "loss": 1.2004,
      "step": 356
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.08512768894433975,
      "learning_rate": 0.00019434327614493947,
      "loss": 1.1079,
      "step": 357
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.08124563097953796,
      "learning_rate": 0.00019430906278004878,
      "loss": 1.3318,
      "step": 358
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.08076978474855423,
      "learning_rate": 0.00019427474929113603,
      "loss": 1.3367,
      "step": 359
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.08717597275972366,
      "learning_rate": 0.00019424033571463045,
      "loss": 1.0656,
      "step": 360
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.07822860032320023,
      "learning_rate": 0.0001942058220870675,
      "loss": 1.3459,
      "step": 361
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.08764126896858215,
      "learning_rate": 0.00019417120844508883,
      "loss": 1.3596,
      "step": 362
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.0675569474697113,
      "learning_rate": 0.0001941364948254424,
      "loss": 0.9151,
      "step": 363
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.08149274438619614,
      "learning_rate": 0.0001941016812649821,
      "loss": 1.1278,
      "step": 364
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.09104771912097931,
      "learning_rate": 0.00019406676780066816,
      "loss": 1.1458,
      "step": 365
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.07882712781429291,
      "learning_rate": 0.00019403175446956663,
      "loss": 1.2976,
      "step": 366
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.07717309147119522,
      "learning_rate": 0.00019399664130884982,
      "loss": 1.2499,
      "step": 367
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.07685019075870514,
      "learning_rate": 0.0001939614283557959,
      "loss": 0.9801,
      "step": 368
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.07864333689212799,
      "learning_rate": 0.000193926115647789,
      "loss": 1.0911,
      "step": 369
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.08465702831745148,
      "learning_rate": 0.00019389070322231908,
      "loss": 1.0375,
      "step": 370
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.07431544363498688,
      "learning_rate": 0.00019385519111698215,
      "loss": 1.1673,
      "step": 371
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.08939298987388611,
      "learning_rate": 0.00019381957936947988,
      "loss": 1.4116,
      "step": 372
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.07779692113399506,
      "learning_rate": 0.00019378386801761983,
      "loss": 0.9468,
      "step": 373
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.07538998126983643,
      "learning_rate": 0.0001937480570993152,
      "loss": 1.3055,
      "step": 374
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.11219945549964905,
      "learning_rate": 0.00019371214665258498,
      "loss": 1.2806,
      "step": 375
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.08720182627439499,
      "learning_rate": 0.00019367613671555386,
      "loss": 1.1344,
      "step": 376
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.08663522452116013,
      "learning_rate": 0.00019364002732645202,
      "loss": 1.2102,
      "step": 377
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.08982711285352707,
      "learning_rate": 0.00019360381852361535,
      "loss": 1.358,
      "step": 378
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.0780293419957161,
      "learning_rate": 0.0001935675103454852,
      "loss": 1.2362,
      "step": 379
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.06800080090761185,
      "learning_rate": 0.00019353110283060846,
      "loss": 0.9151,
      "step": 380
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.0782063826918602,
      "learning_rate": 0.00019349459601763753,
      "loss": 1.23,
      "step": 381
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.0815950483083725,
      "learning_rate": 0.00019345798994533012,
      "loss": 1.1367,
      "step": 382
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.07667894661426544,
      "learning_rate": 0.00019342128465254943,
      "loss": 1.1646,
      "step": 383
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.09157751500606537,
      "learning_rate": 0.00019338448017826388,
      "loss": 1.2779,
      "step": 384
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.08936314284801483,
      "learning_rate": 0.00019334757656154733,
      "loss": 1.2413,
      "step": 385
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.06992750614881516,
      "learning_rate": 0.00019331057384157875,
      "loss": 0.9875,
      "step": 386
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.07639253884553909,
      "learning_rate": 0.00019327347205764245,
      "loss": 0.8025,
      "step": 387
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.11455408483743668,
      "learning_rate": 0.00019323627124912785,
      "loss": 1.2565,
      "step": 388
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.07387693971395493,
      "learning_rate": 0.00019319897145552947,
      "loss": 1.0765,
      "step": 389
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.07396475970745087,
      "learning_rate": 0.00019316157271644696,
      "loss": 1.3985,
      "step": 390
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.10893306136131287,
      "learning_rate": 0.00019312407507158502,
      "loss": 1.2244,
      "step": 391
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.07123012095689774,
      "learning_rate": 0.0001930864785607534,
      "loss": 1.1026,
      "step": 392
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.07318564504384995,
      "learning_rate": 0.00019304878322386668,
      "loss": 1.0512,
      "step": 393
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.09317158162593842,
      "learning_rate": 0.00019301098910094443,
      "loss": 1.1896,
      "step": 394
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.07076855003833771,
      "learning_rate": 0.00019297309623211118,
      "loss": 1.1452,
      "step": 395
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.09200429171323776,
      "learning_rate": 0.00019293510465759618,
      "loss": 1.408,
      "step": 396
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.08040551096200943,
      "learning_rate": 0.00019289701441773348,
      "loss": 0.9442,
      "step": 397
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.08749471604824066,
      "learning_rate": 0.00019285882555296192,
      "loss": 1.1273,
      "step": 398
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.07210942357778549,
      "learning_rate": 0.0001928205381038251,
      "loss": 1.1232,
      "step": 399
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.09227026253938675,
      "learning_rate": 0.00019278215211097113,
      "loss": 0.9206,
      "step": 400
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.07559602707624435,
      "learning_rate": 0.00019274366761515288,
      "loss": 0.9949,
      "step": 401
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.08838319033384323,
      "learning_rate": 0.0001927050846572277,
      "loss": 1.2597,
      "step": 402
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.08586682379245758,
      "learning_rate": 0.00019266640327815756,
      "loss": 1.2862,
      "step": 403
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.08682897686958313,
      "learning_rate": 0.00019262762351900884,
      "loss": 1.0765,
      "step": 404
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.08626113086938858,
      "learning_rate": 0.00019258874542095244,
      "loss": 1.2946,
      "step": 405
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.08612517267465591,
      "learning_rate": 0.0001925497690252636,
      "loss": 1.2083,
      "step": 406
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.08026706427335739,
      "learning_rate": 0.00019251069437332196,
      "loss": 1.13,
      "step": 407
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.07586629688739777,
      "learning_rate": 0.00019247152150661144,
      "loss": 1.3407,
      "step": 408
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.06716896593570709,
      "learning_rate": 0.00019243225046672023,
      "loss": 1.1228,
      "step": 409
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.0866006463766098,
      "learning_rate": 0.00019239288129534082,
      "loss": 1.2552,
      "step": 410
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.08225997537374496,
      "learning_rate": 0.00019235341403426982,
      "loss": 1.3139,
      "step": 411
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.08211803436279297,
      "learning_rate": 0.00019231384872540793,
      "loss": 1.3132,
      "step": 412
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.07636349648237228,
      "learning_rate": 0.00019227418541076005,
      "loss": 1.0955,
      "step": 413
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.07598800212144852,
      "learning_rate": 0.00019223442413243507,
      "loss": 1.0774,
      "step": 414
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.0703662857413292,
      "learning_rate": 0.00019219456493264585,
      "loss": 1.0358,
      "step": 415
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.0865321159362793,
      "learning_rate": 0.00019215460785370928,
      "loss": 1.1194,
      "step": 416
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.07862474769353867,
      "learning_rate": 0.00019211455293804614,
      "loss": 1.1625,
      "step": 417
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.07098463177680969,
      "learning_rate": 0.00019207440022818109,
      "loss": 1.0096,
      "step": 418
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.088544100522995,
      "learning_rate": 0.00019203414976674252,
      "loss": 1.0971,
      "step": 419
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.0754735916852951,
      "learning_rate": 0.00019199380159646277,
      "loss": 1.102,
      "step": 420
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.08316062390804291,
      "learning_rate": 0.00019195335576017777,
      "loss": 0.8386,
      "step": 421
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.08435340225696564,
      "learning_rate": 0.00019191281230082722,
      "loss": 1.4531,
      "step": 422
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.0735434889793396,
      "learning_rate": 0.00019187217126145437,
      "loss": 1.1754,
      "step": 423
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.07428895682096481,
      "learning_rate": 0.0001918314326852062,
      "loss": 1.0972,
      "step": 424
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.08614860475063324,
      "learning_rate": 0.0001917905966153331,
      "loss": 1.1855,
      "step": 425
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.08168008923530579,
      "learning_rate": 0.00019174966309518906,
      "loss": 0.9313,
      "step": 426
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.07268556207418442,
      "learning_rate": 0.00019170863216823154,
      "loss": 1.3363,
      "step": 427
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.08409485965967178,
      "learning_rate": 0.0001916675038780213,
      "loss": 1.4261,
      "step": 428
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.07452593743801117,
      "learning_rate": 0.0001916262782682226,
      "loss": 0.948,
      "step": 429
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.07678116858005524,
      "learning_rate": 0.00019158495538260293,
      "loss": 1.1868,
      "step": 430
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.08513883501291275,
      "learning_rate": 0.00019154353526503314,
      "loss": 1.4855,
      "step": 431
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.11117757111787796,
      "learning_rate": 0.00019150201795948714,
      "loss": 1.3191,
      "step": 432
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.0691884309053421,
      "learning_rate": 0.00019146040351004223,
      "loss": 0.8405,
      "step": 433
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.08929750323295593,
      "learning_rate": 0.0001914186919608787,
      "loss": 1.1456,
      "step": 434
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.0731349065899849,
      "learning_rate": 0.00019137688335628002,
      "loss": 1.1522,
      "step": 435
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.09056232869625092,
      "learning_rate": 0.00019133497774063258,
      "loss": 1.376,
      "step": 436
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.08234091848134995,
      "learning_rate": 0.0001912929751584259,
      "loss": 1.2767,
      "step": 437
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.08351151645183563,
      "learning_rate": 0.00019125087565425236,
      "loss": 1.2058,
      "step": 438
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.08435379713773727,
      "learning_rate": 0.00019120867927280722,
      "loss": 1.3188,
      "step": 439
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.07525074481964111,
      "learning_rate": 0.00019116638605888868,
      "loss": 1.1302,
      "step": 440
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.08379056304693222,
      "learning_rate": 0.00019112399605739766,
      "loss": 1.0837,
      "step": 441
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.07879301905632019,
      "learning_rate": 0.00019108150931333788,
      "loss": 1.1719,
      "step": 442
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.07724307477474213,
      "learning_rate": 0.00019103892587181578,
      "loss": 1.2476,
      "step": 443
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.07908225059509277,
      "learning_rate": 0.00019099624577804042,
      "loss": 1.2337,
      "step": 444
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.07688111811876297,
      "learning_rate": 0.0001909534690773234,
      "loss": 1.0977,
      "step": 445
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.09893277287483215,
      "learning_rate": 0.0001909105958150791,
      "loss": 1.2359,
      "step": 446
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.08339065313339233,
      "learning_rate": 0.00019086762603682424,
      "loss": 1.1732,
      "step": 447
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.08026134967803955,
      "learning_rate": 0.00019082455978817803,
      "loss": 1.2408,
      "step": 448
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.2762611210346222,
      "learning_rate": 0.00019078139711486213,
      "loss": 1.1373,
      "step": 449
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.07496568560600281,
      "learning_rate": 0.00019073813806270054,
      "loss": 1.2368,
      "step": 450
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.08035270869731903,
      "learning_rate": 0.00019069478267761967,
      "loss": 1.1902,
      "step": 451
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.08573023974895477,
      "learning_rate": 0.00019065133100564804,
      "loss": 1.1078,
      "step": 452
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.08823239058256149,
      "learning_rate": 0.00019060778309291658,
      "loss": 1.1754,
      "step": 453
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.08498603105545044,
      "learning_rate": 0.00019056413898565824,
      "loss": 1.1661,
      "step": 454
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.08216524124145508,
      "learning_rate": 0.0001905203987302082,
      "loss": 0.9903,
      "step": 455
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.07343865931034088,
      "learning_rate": 0.00019047656237300363,
      "loss": 1.163,
      "step": 456
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.07787960767745972,
      "learning_rate": 0.00019043262996058384,
      "loss": 1.0901,
      "step": 457
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.08267030864953995,
      "learning_rate": 0.00019038860153959,
      "loss": 1.1531,
      "step": 458
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.09128779172897339,
      "learning_rate": 0.00019034447715676525,
      "loss": 0.9449,
      "step": 459
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.07797211408615112,
      "learning_rate": 0.00019030025685895464,
      "loss": 1.2067,
      "step": 460
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.07567018270492554,
      "learning_rate": 0.00019025594069310505,
      "loss": 1.134,
      "step": 461
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.07905828207731247,
      "learning_rate": 0.00019021152870626507,
      "loss": 1.2258,
      "step": 462
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.08188856393098831,
      "learning_rate": 0.00019016702094558512,
      "loss": 1.4545,
      "step": 463
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.0827045813202858,
      "learning_rate": 0.00019012241745831716,
      "loss": 1.3086,
      "step": 464
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.0808766558766365,
      "learning_rate": 0.00019007771829181495,
      "loss": 1.1352,
      "step": 465
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.08212947845458984,
      "learning_rate": 0.00019003292349353373,
      "loss": 1.0694,
      "step": 466
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.10015026479959488,
      "learning_rate": 0.0001899880331110302,
      "loss": 0.881,
      "step": 467
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.07001382857561111,
      "learning_rate": 0.0001899430471919627,
      "loss": 1.1825,
      "step": 468
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.08494579046964645,
      "learning_rate": 0.0001898979657840909,
      "loss": 1.5053,
      "step": 469
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.07976152747869492,
      "learning_rate": 0.00018985278893527582,
      "loss": 0.9016,
      "step": 470
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.07986082881689072,
      "learning_rate": 0.00018980751669347992,
      "loss": 1.2176,
      "step": 471
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.0754285380244255,
      "learning_rate": 0.00018976214910676679,
      "loss": 1.246,
      "step": 472
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.09687798470258713,
      "learning_rate": 0.00018971668622330137,
      "loss": 1.1258,
      "step": 473
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.0783214420080185,
      "learning_rate": 0.00018967112809134968,
      "loss": 1.2674,
      "step": 474
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.08914946019649506,
      "learning_rate": 0.00018962547475927892,
      "loss": 1.2167,
      "step": 475
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.08197241276502609,
      "learning_rate": 0.00018957972627555732,
      "loss": 1.0172,
      "step": 476
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.09656665474176407,
      "learning_rate": 0.0001895338826887542,
      "loss": 1.3342,
      "step": 477
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.07986515760421753,
      "learning_rate": 0.00018948794404753975,
      "loss": 1.3102,
      "step": 478
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.07593046873807907,
      "learning_rate": 0.00018944191040068514,
      "loss": 1.0646,
      "step": 479
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.08059150725603104,
      "learning_rate": 0.00018939578179706233,
      "loss": 1.0846,
      "step": 480
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.07469641417264938,
      "learning_rate": 0.0001893495582856442,
      "loss": 1.1961,
      "step": 481
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.0868467465043068,
      "learning_rate": 0.00018930323991550436,
      "loss": 1.1271,
      "step": 482
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.08924498409032822,
      "learning_rate": 0.00018925682673581707,
      "loss": 1.0574,
      "step": 483
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.09144362807273865,
      "learning_rate": 0.00018921031879585724,
      "loss": 1.3689,
      "step": 484
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.08528386801481247,
      "learning_rate": 0.00018916371614500048,
      "loss": 1.2619,
      "step": 485
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.0836653783917427,
      "learning_rate": 0.00018911701883272288,
      "loss": 1.0822,
      "step": 486
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.07838030159473419,
      "learning_rate": 0.00018907022690860104,
      "loss": 1.1393,
      "step": 487
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.08181433379650116,
      "learning_rate": 0.00018902334042231197,
      "loss": 1.0902,
      "step": 488
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.07703683525323868,
      "learning_rate": 0.00018897635942363318,
      "loss": 0.8397,
      "step": 489
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.07494264096021652,
      "learning_rate": 0.00018892928396244235,
      "loss": 1.0948,
      "step": 490
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.06938749551773071,
      "learning_rate": 0.00018888211408871767,
      "loss": 1.2057,
      "step": 491
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.09794944524765015,
      "learning_rate": 0.00018883484985253733,
      "loss": 1.3597,
      "step": 492
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.0744868814945221,
      "learning_rate": 0.00018878749130407985,
      "loss": 1.2162,
      "step": 493
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.06919589638710022,
      "learning_rate": 0.00018874003849362386,
      "loss": 1.1939,
      "step": 494
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.0835278257727623,
      "learning_rate": 0.000188692491471548,
      "loss": 1.2375,
      "step": 495
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.06999599188566208,
      "learning_rate": 0.00018864485028833097,
      "loss": 1.1542,
      "step": 496
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.06855190545320511,
      "learning_rate": 0.0001885971149945515,
      "loss": 1.2928,
      "step": 497
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.07003825157880783,
      "learning_rate": 0.00018854928564088813,
      "loss": 1.1247,
      "step": 498
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.08657265454530716,
      "learning_rate": 0.00018850136227811928,
      "loss": 1.1983,
      "step": 499
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.09968368709087372,
      "learning_rate": 0.00018845334495712327,
      "loss": 1.3784,
      "step": 500
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.07520922273397446,
      "learning_rate": 0.000188405233728878,
      "loss": 1.243,
      "step": 501
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.096616230905056,
      "learning_rate": 0.00018835702864446123,
      "loss": 1.0152,
      "step": 502
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.09454113990068436,
      "learning_rate": 0.00018830872975505032,
      "loss": 1.1541,
      "step": 503
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.10077288001775742,
      "learning_rate": 0.00018826033711192213,
      "loss": 1.5214,
      "step": 504
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.07623240351676941,
      "learning_rate": 0.00018821185076645317,
      "loss": 1.3555,
      "step": 505
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.07468952983617783,
      "learning_rate": 0.0001881632707701194,
      "loss": 1.1606,
      "step": 506
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.0826793685555458,
      "learning_rate": 0.0001881145971744961,
      "loss": 1.5361,
      "step": 507
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.08035515993833542,
      "learning_rate": 0.00018806583003125812,
      "loss": 0.9415,
      "step": 508
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.07866019010543823,
      "learning_rate": 0.00018801696939217945,
      "loss": 1.1575,
      "step": 509
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.07043889909982681,
      "learning_rate": 0.00018796801530913344,
      "loss": 1.138,
      "step": 510
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.07135047763586044,
      "learning_rate": 0.00018791896783409254,
      "loss": 0.9334,
      "step": 511
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.13318529725074768,
      "learning_rate": 0.00018786982701912849,
      "loss": 1.0068,
      "step": 512
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.0810013934969902,
      "learning_rate": 0.00018782059291641204,
      "loss": 0.9814,
      "step": 513
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.08140300214290619,
      "learning_rate": 0.000187771265578213,
      "loss": 1.2657,
      "step": 514
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.067005954682827,
      "learning_rate": 0.00018772184505690015,
      "loss": 1.1169,
      "step": 515
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.08094844967126846,
      "learning_rate": 0.0001876723314049412,
      "loss": 0.9574,
      "step": 516
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.10021191090345383,
      "learning_rate": 0.00018762272467490277,
      "loss": 1.327,
      "step": 517
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.086814284324646,
      "learning_rate": 0.00018757302491945023,
      "loss": 1.2665,
      "step": 518
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.08578301966190338,
      "learning_rate": 0.00018752323219134776,
      "loss": 1.2587,
      "step": 519
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.07434894889593124,
      "learning_rate": 0.00018747334654345825,
      "loss": 1.202,
      "step": 520
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.08205292373895645,
      "learning_rate": 0.00018742336802874323,
      "loss": 1.1721,
      "step": 521
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.07242529839277267,
      "learning_rate": 0.00018737329670026278,
      "loss": 1.0442,
      "step": 522
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.07199004292488098,
      "learning_rate": 0.0001873231326111756,
      "loss": 0.9265,
      "step": 523
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.07771551609039307,
      "learning_rate": 0.0001872728758147388,
      "loss": 1.0775,
      "step": 524
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.08522839844226837,
      "learning_rate": 0.00018722252636430795,
      "loss": 1.35,
      "step": 525
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.08055147528648376,
      "learning_rate": 0.00018717208431333698,
      "loss": 0.9515,
      "step": 526
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.07367686182260513,
      "learning_rate": 0.00018712154971537806,
      "loss": 1.0166,
      "step": 527
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.08174576610326767,
      "learning_rate": 0.00018707092262408174,
      "loss": 1.1321,
      "step": 528
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.08406844735145569,
      "learning_rate": 0.00018702020309319673,
      "loss": 1.0232,
      "step": 529
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.07865949720144272,
      "learning_rate": 0.00018696939117656975,
      "loss": 1.2811,
      "step": 530
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.08797873556613922,
      "learning_rate": 0.0001869184869281458,
      "loss": 1.3392,
      "step": 531
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.07272420823574066,
      "learning_rate": 0.0001868674904019678,
      "loss": 1.2045,
      "step": 532
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.0777972862124443,
      "learning_rate": 0.0001868164016521766,
      "loss": 1.158,
      "step": 533
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.08992641419172287,
      "learning_rate": 0.00018676522073301106,
      "loss": 1.416,
      "step": 534
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.08786187320947647,
      "learning_rate": 0.0001867139476988078,
      "loss": 1.3691,
      "step": 535
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.11116636544466019,
      "learning_rate": 0.00018666258260400127,
      "loss": 0.965,
      "step": 536
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.08287644386291504,
      "learning_rate": 0.0001866111255031237,
      "loss": 1.1935,
      "step": 537
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.07902242243289948,
      "learning_rate": 0.00018655957645080494,
      "loss": 0.9623,
      "step": 538
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.10562435537576675,
      "learning_rate": 0.0001865079355017725,
      "loss": 1.0228,
      "step": 539
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.07892489433288574,
      "learning_rate": 0.00018645620271085135,
      "loss": 1.0743,
      "step": 540
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.07185100018978119,
      "learning_rate": 0.00018640437813296416,
      "loss": 1.1183,
      "step": 541
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.08215206861495972,
      "learning_rate": 0.0001863524618231309,
      "loss": 1.1319,
      "step": 542
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.08066381514072418,
      "learning_rate": 0.00018630045383646895,
      "loss": 1.1628,
      "step": 543
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.07939887791872025,
      "learning_rate": 0.00018624835422819305,
      "loss": 1.2678,
      "step": 544
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.07111598551273346,
      "learning_rate": 0.00018619616305361517,
      "loss": 1.2372,
      "step": 545
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.07858019322156906,
      "learning_rate": 0.0001861438803681445,
      "loss": 0.9695,
      "step": 546
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.06863168627023697,
      "learning_rate": 0.00018609150622728748,
      "loss": 1.001,
      "step": 547
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.0846375897526741,
      "learning_rate": 0.0001860390406866475,
      "loss": 1.0013,
      "step": 548
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.0752832442522049,
      "learning_rate": 0.00018598648380192505,
      "loss": 1.2017,
      "step": 549
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.08154382556676865,
      "learning_rate": 0.00018593383562891762,
      "loss": 1.3927,
      "step": 550
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.09067925065755844,
      "learning_rate": 0.0001858810962235196,
      "loss": 1.4292,
      "step": 551
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.08958430588245392,
      "learning_rate": 0.00018582826564172218,
      "loss": 1.2879,
      "step": 552
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.08029309660196304,
      "learning_rate": 0.00018577534393961345,
      "loss": 1.0307,
      "step": 553
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.07621898502111435,
      "learning_rate": 0.00018572233117337814,
      "loss": 0.9909,
      "step": 554
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.0793851986527443,
      "learning_rate": 0.00018566922739929776,
      "loss": 1.0708,
      "step": 555
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.08344046771526337,
      "learning_rate": 0.00018561603267375034,
      "loss": 1.2768,
      "step": 556
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.07884612679481506,
      "learning_rate": 0.00018556274705321054,
      "loss": 1.1565,
      "step": 557
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.07826481014490128,
      "learning_rate": 0.00018550937059424948,
      "loss": 1.0805,
      "step": 558
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.07335788756608963,
      "learning_rate": 0.00018545590335353475,
      "loss": 1.0502,
      "step": 559
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.07203352451324463,
      "learning_rate": 0.00018540234538783027,
      "loss": 1.1837,
      "step": 560
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.08611191809177399,
      "learning_rate": 0.00018534869675399638,
      "loss": 1.101,
      "step": 561
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.06984131038188934,
      "learning_rate": 0.00018529495750898954,
      "loss": 1.2826,
      "step": 562
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.07952100038528442,
      "learning_rate": 0.0001852411277098625,
      "loss": 1.0585,
      "step": 563
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.07087212055921555,
      "learning_rate": 0.00018518720741376413,
      "loss": 1.2027,
      "step": 564
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.07011663913726807,
      "learning_rate": 0.00018513319667793937,
      "loss": 1.1453,
      "step": 565
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.07221578806638718,
      "learning_rate": 0.0001850790955597292,
      "loss": 1.2527,
      "step": 566
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.09538937360048294,
      "learning_rate": 0.0001850249041165705,
      "loss": 1.1497,
      "step": 567
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.08617708832025528,
      "learning_rate": 0.0001849706224059961,
      "loss": 0.972,
      "step": 568
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.08158829808235168,
      "learning_rate": 0.00018491625048563462,
      "loss": 1.3988,
      "step": 569
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.08035334199666977,
      "learning_rate": 0.00018486178841321054,
      "loss": 1.1301,
      "step": 570
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.07947031408548355,
      "learning_rate": 0.00018480723624654391,
      "loss": 0.991,
      "step": 571
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.07135743647813797,
      "learning_rate": 0.0001847525940435505,
      "loss": 1.4309,
      "step": 572
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.08830907940864563,
      "learning_rate": 0.00018469786186224173,
      "loss": 1.4685,
      "step": 573
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.09551135450601578,
      "learning_rate": 0.00018464303976072443,
      "loss": 1.4763,
      "step": 574
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.08997842669487,
      "learning_rate": 0.00018458812779720103,
      "loss": 1.0674,
      "step": 575
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.08004486560821533,
      "learning_rate": 0.0001845331260299692,
      "loss": 1.2204,
      "step": 576
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.08610889315605164,
      "learning_rate": 0.00018447803451742206,
      "loss": 0.9799,
      "step": 577
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.07158122211694717,
      "learning_rate": 0.000184422853318048,
      "loss": 0.9666,
      "step": 578
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.08301133662462234,
      "learning_rate": 0.00018436758249043062,
      "loss": 1.2545,
      "step": 579
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.07345041632652283,
      "learning_rate": 0.00018431222209324867,
      "loss": 1.0794,
      "step": 580
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.08044226467609406,
      "learning_rate": 0.00018425677218527592,
      "loss": 1.1043,
      "step": 581
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.08195187151432037,
      "learning_rate": 0.00018420123282538136,
      "loss": 1.118,
      "step": 582
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.0803162008523941,
      "learning_rate": 0.0001841456040725287,
      "loss": 0.9089,
      "step": 583
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.07588793337345123,
      "learning_rate": 0.00018408988598577676,
      "loss": 1.3073,
      "step": 584
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.07819163799285889,
      "learning_rate": 0.0001840340786242791,
      "loss": 1.3629,
      "step": 585
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.07606200128793716,
      "learning_rate": 0.00018397818204728407,
      "loss": 1.3841,
      "step": 586
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.07669863849878311,
      "learning_rate": 0.00018392219631413478,
      "loss": 0.9294,
      "step": 587
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.08028853684663773,
      "learning_rate": 0.00018386612148426894,
      "loss": 0.9692,
      "step": 588
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.09896233677864075,
      "learning_rate": 0.00018380995761721887,
      "loss": 1.1665,
      "step": 589
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.08026339113712311,
      "learning_rate": 0.0001837537047726114,
      "loss": 0.9907,
      "step": 590
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.07541877776384354,
      "learning_rate": 0.00018369736301016788,
      "loss": 1.0176,
      "step": 591
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.08331876993179321,
      "learning_rate": 0.00018364093238970404,
      "loss": 1.1241,
      "step": 592
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.12105081230401993,
      "learning_rate": 0.00018358441297112988,
      "loss": 1.1253,
      "step": 593
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.08892891556024551,
      "learning_rate": 0.00018352780481444974,
      "loss": 1.396,
      "step": 594
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.07173669338226318,
      "learning_rate": 0.00018347110797976214,
      "loss": 0.9646,
      "step": 595
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.07874932140111923,
      "learning_rate": 0.0001834143225272598,
      "loss": 1.0602,
      "step": 596
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.08974017947912216,
      "learning_rate": 0.00018335744851722945,
      "loss": 1.0953,
      "step": 597
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.08132424205541611,
      "learning_rate": 0.00018330048601005188,
      "loss": 1.1689,
      "step": 598
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.08893271535634995,
      "learning_rate": 0.0001832434350662018,
      "loss": 1.3207,
      "step": 599
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.0773831233382225,
      "learning_rate": 0.00018318629574624786,
      "loss": 1.1802,
      "step": 600
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.08535367995500565,
      "learning_rate": 0.0001831290681108525,
      "loss": 1.2335,
      "step": 601
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.13072720170021057,
      "learning_rate": 0.0001830717522207719,
      "loss": 1.1243,
      "step": 602
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.08342819660902023,
      "learning_rate": 0.00018301434813685602,
      "loss": 1.2226,
      "step": 603
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.08082102984189987,
      "learning_rate": 0.00018295685592004834,
      "loss": 1.4093,
      "step": 604
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.07274606078863144,
      "learning_rate": 0.000182899275631386,
      "loss": 0.898,
      "step": 605
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.08023384213447571,
      "learning_rate": 0.0001828416073319996,
      "loss": 1.3186,
      "step": 606
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.07277272641658783,
      "learning_rate": 0.00018278385108311317,
      "loss": 0.9697,
      "step": 607
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.07433497905731201,
      "learning_rate": 0.0001827260069460441,
      "loss": 0.8641,
      "step": 608
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.07678360491991043,
      "learning_rate": 0.00018266807498220318,
      "loss": 1.1707,
      "step": 609
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.07920346409082413,
      "learning_rate": 0.00018261005525309432,
      "loss": 1.0446,
      "step": 610
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.0783979520201683,
      "learning_rate": 0.00018255194782031467,
      "loss": 1.2376,
      "step": 611
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.07843583822250366,
      "learning_rate": 0.00018249375274555452,
      "loss": 1.033,
      "step": 612
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.08373366296291351,
      "learning_rate": 0.00018243547009059712,
      "loss": 1.1094,
      "step": 613
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.08458531647920609,
      "learning_rate": 0.00018237709991731876,
      "loss": 1.0061,
      "step": 614
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.08628588169813156,
      "learning_rate": 0.00018231864228768864,
      "loss": 1.249,
      "step": 615
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.08422129601240158,
      "learning_rate": 0.00018226009726376882,
      "loss": 1.0312,
      "step": 616
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.08171427249908447,
      "learning_rate": 0.00018220146490771408,
      "loss": 1.2,
      "step": 617
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.08195119351148605,
      "learning_rate": 0.000182142745281772,
      "loss": 1.3238,
      "step": 618
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.07729899883270264,
      "learning_rate": 0.00018208393844828277,
      "loss": 1.0531,
      "step": 619
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.07302694022655487,
      "learning_rate": 0.00018202504446967915,
      "loss": 1.1746,
      "step": 620
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.07666127383708954,
      "learning_rate": 0.00018196606340848643,
      "loss": 1.3917,
      "step": 621
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.08428138494491577,
      "learning_rate": 0.0001819069953273224,
      "loss": 1.1402,
      "step": 622
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.08039674162864685,
      "learning_rate": 0.00018184784028889712,
      "loss": 1.2403,
      "step": 623
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.08145111799240112,
      "learning_rate": 0.00018178859835601312,
      "loss": 1.0017,
      "step": 624
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.08442309498786926,
      "learning_rate": 0.00018172926959156505,
      "loss": 0.969,
      "step": 625
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.07632813602685928,
      "learning_rate": 0.0001816698540585398,
      "loss": 1.0742,
      "step": 626
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.09010200947523117,
      "learning_rate": 0.00018161035182001642,
      "loss": 1.1998,
      "step": 627
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.09552950412034988,
      "learning_rate": 0.00018155076293916594,
      "loss": 1.2505,
      "step": 628
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.08230545371770859,
      "learning_rate": 0.00018149108747925142,
      "loss": 0.707,
      "step": 629
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.08570738136768341,
      "learning_rate": 0.00018143132550362781,
      "loss": 1.0084,
      "step": 630
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.08343492448329926,
      "learning_rate": 0.00018137147707574194,
      "loss": 1.1006,
      "step": 631
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.08732247352600098,
      "learning_rate": 0.00018131154225913237,
      "loss": 0.8256,
      "step": 632
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.06638462096452713,
      "learning_rate": 0.00018125152111742946,
      "loss": 1.0986,
      "step": 633
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.08032132685184479,
      "learning_rate": 0.00018119141371435507,
      "loss": 1.1737,
      "step": 634
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.08700072020292282,
      "learning_rate": 0.00018113122011372286,
      "loss": 1.0871,
      "step": 635
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.0786958634853363,
      "learning_rate": 0.00018107094037943778,
      "loss": 1.4947,
      "step": 636
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.08628631383180618,
      "learning_rate": 0.00018101057457549642,
      "loss": 1.1618,
      "step": 637
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.08307655155658722,
      "learning_rate": 0.00018095012276598657,
      "loss": 1.3662,
      "step": 638
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.08931092917919159,
      "learning_rate": 0.00018088958501508745,
      "loss": 1.1374,
      "step": 639
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.07548385113477707,
      "learning_rate": 0.00018082896138706947,
      "loss": 1.0065,
      "step": 640
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.09044208377599716,
      "learning_rate": 0.00018076825194629422,
      "loss": 1.2454,
      "step": 641
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.07289768010377884,
      "learning_rate": 0.0001807074567572144,
      "loss": 1.118,
      "step": 642
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.07798143476247787,
      "learning_rate": 0.00018064657588437374,
      "loss": 1.1542,
      "step": 643
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.07771704345941544,
      "learning_rate": 0.00018058560939240696,
      "loss": 1.1157,
      "step": 644
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.07239065319299698,
      "learning_rate": 0.00018052455734603962,
      "loss": 1.07,
      "step": 645
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.09537984430789948,
      "learning_rate": 0.00018046341981008815,
      "loss": 1.2944,
      "step": 646
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.07166703790426254,
      "learning_rate": 0.0001804021968494598,
      "loss": 1.287,
      "step": 647
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.07786957174539566,
      "learning_rate": 0.00018034088852915235,
      "loss": 0.9241,
      "step": 648
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.07787182927131653,
      "learning_rate": 0.00018027949491425437,
      "loss": 1.1288,
      "step": 649
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.07539577037096024,
      "learning_rate": 0.0001802180160699449,
      "loss": 1.329,
      "step": 650
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.07263702899217606,
      "learning_rate": 0.00018015645206149346,
      "loss": 1.1269,
      "step": 651
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.09897763282060623,
      "learning_rate": 0.00018009480295426008,
      "loss": 1.0364,
      "step": 652
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.09211482852697372,
      "learning_rate": 0.00018003306881369494,
      "loss": 1.2633,
      "step": 653
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.0799705907702446,
      "learning_rate": 0.00017997124970533872,
      "loss": 1.2391,
      "step": 654
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.07563236355781555,
      "learning_rate": 0.00017990934569482218,
      "loss": 0.9491,
      "step": 655
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.07711002230644226,
      "learning_rate": 0.00017984735684786619,
      "loss": 1.1638,
      "step": 656
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.09000904858112335,
      "learning_rate": 0.00017978528323028177,
      "loss": 1.0891,
      "step": 657
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.09779634326696396,
      "learning_rate": 0.00017972312490796994,
      "loss": 0.9214,
      "step": 658
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.0815175324678421,
      "learning_rate": 0.00017966088194692158,
      "loss": 1.2561,
      "step": 659
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.0770617425441742,
      "learning_rate": 0.00017959855441321748,
      "loss": 1.1198,
      "step": 660
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.07821808010339737,
      "learning_rate": 0.00017953614237302819,
      "loss": 1.0745,
      "step": 661
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.07551560550928116,
      "learning_rate": 0.00017947364589261395,
      "loss": 1.3212,
      "step": 662
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.09358943998813629,
      "learning_rate": 0.00017941106503832472,
      "loss": 1.3439,
      "step": 663
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.08056586235761642,
      "learning_rate": 0.0001793483998766,
      "loss": 1.2093,
      "step": 664
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.08634116500616074,
      "learning_rate": 0.00017928565047396883,
      "loss": 0.9249,
      "step": 665
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.07717472314834595,
      "learning_rate": 0.00017922281689704956,
      "loss": 1.0396,
      "step": 666
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.09257300198078156,
      "learning_rate": 0.00017915989921255007,
      "loss": 1.3473,
      "step": 667
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.07906777411699295,
      "learning_rate": 0.0001790968974872674,
      "loss": 1.1019,
      "step": 668
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.07715015113353729,
      "learning_rate": 0.00017903381178808791,
      "loss": 1.1571,
      "step": 669
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.08609345555305481,
      "learning_rate": 0.00017897064218198706,
      "loss": 1.3525,
      "step": 670
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.08347558975219727,
      "learning_rate": 0.00017890738873602938,
      "loss": 1.3383,
      "step": 671
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.08017811924219131,
      "learning_rate": 0.00017884405151736847,
      "loss": 0.9833,
      "step": 672
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.08072958886623383,
      "learning_rate": 0.0001787806305932468,
      "loss": 1.0776,
      "step": 673
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.07432875782251358,
      "learning_rate": 0.00017871712603099578,
      "loss": 1.1423,
      "step": 674
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.08560364693403244,
      "learning_rate": 0.00017865353789803552,
      "loss": 1.3298,
      "step": 675
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.08586810529232025,
      "learning_rate": 0.00017858986626187492,
      "loss": 1.2904,
      "step": 676
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.1029001995921135,
      "learning_rate": 0.0001785261111901115,
      "loss": 1.0585,
      "step": 677
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.10310132056474686,
      "learning_rate": 0.00017846227275043143,
      "loss": 1.1977,
      "step": 678
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.08359325677156448,
      "learning_rate": 0.00017839835101060927,
      "loss": 1.061,
      "step": 679
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.09460770338773727,
      "learning_rate": 0.00017833434603850814,
      "loss": 1.1596,
      "step": 680
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.08996371924877167,
      "learning_rate": 0.0001782702579020794,
      "loss": 1.2744,
      "step": 681
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.08824539184570312,
      "learning_rate": 0.00017820608666936286,
      "loss": 1.1547,
      "step": 682
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.0827854722738266,
      "learning_rate": 0.00017814183240848634,
      "loss": 1.2645,
      "step": 683
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.09070557355880737,
      "learning_rate": 0.00017807749518766603,
      "loss": 1.1277,
      "step": 684
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.0831344723701477,
      "learning_rate": 0.000178013075075206,
      "loss": 1.1437,
      "step": 685
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.08220485597848892,
      "learning_rate": 0.00017794857213949852,
      "loss": 1.1862,
      "step": 686
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.0770675465464592,
      "learning_rate": 0.00017788398644902358,
      "loss": 1.2713,
      "step": 687
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.07351796329021454,
      "learning_rate": 0.00017781931807234918,
      "loss": 1.1178,
      "step": 688
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.08193398267030716,
      "learning_rate": 0.00017775456707813105,
      "loss": 1.3023,
      "step": 689
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.08915859460830688,
      "learning_rate": 0.00017768973353511261,
      "loss": 1.205,
      "step": 690
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.08455678075551987,
      "learning_rate": 0.000177624817512125,
      "loss": 1.0257,
      "step": 691
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.07098662853240967,
      "learning_rate": 0.0001775598190780868,
      "loss": 1.0469,
      "step": 692
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.07370258122682571,
      "learning_rate": 0.00017749473830200424,
      "loss": 1.0658,
      "step": 693
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.08448195457458496,
      "learning_rate": 0.0001774295752529708,
      "loss": 1.081,
      "step": 694
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.07694752514362335,
      "learning_rate": 0.00017736433000016742,
      "loss": 1.1418,
      "step": 695
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.07735437899827957,
      "learning_rate": 0.0001772990026128623,
      "loss": 1.0491,
      "step": 696
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.07796520739793777,
      "learning_rate": 0.00017723359316041077,
      "loss": 0.9885,
      "step": 697
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.07998763769865036,
      "learning_rate": 0.00017716810171225538,
      "loss": 1.1065,
      "step": 698
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.1064494326710701,
      "learning_rate": 0.00017710252833792565,
      "loss": 1.2058,
      "step": 699
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.08175428956747055,
      "learning_rate": 0.0001770368731070381,
      "loss": 1.3656,
      "step": 700
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.07967953383922577,
      "learning_rate": 0.00017697113608929627,
      "loss": 1.1731,
      "step": 701
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.07325685769319534,
      "learning_rate": 0.00017690531735449033,
      "loss": 1.1922,
      "step": 702
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.0778280571103096,
      "learning_rate": 0.0001768394169724973,
      "loss": 0.8566,
      "step": 703
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.09514844417572021,
      "learning_rate": 0.00017677343501328095,
      "loss": 1.3389,
      "step": 704
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.08737710863351822,
      "learning_rate": 0.0001767073715468915,
      "loss": 1.155,
      "step": 705
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.07468974590301514,
      "learning_rate": 0.00017664122664346588,
      "loss": 1.0209,
      "step": 706
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.0724843367934227,
      "learning_rate": 0.00017657500037322735,
      "loss": 0.9348,
      "step": 707
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.08314874768257141,
      "learning_rate": 0.00017650869280648557,
      "loss": 1.2589,
      "step": 708
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.08452475070953369,
      "learning_rate": 0.00017644230401363657,
      "loss": 1.1349,
      "step": 709
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.0918334349989891,
      "learning_rate": 0.00017637583406516258,
      "loss": 1.1181,
      "step": 710
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.07945480197668076,
      "learning_rate": 0.00017630928303163202,
      "loss": 1.1369,
      "step": 711
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.10152934491634369,
      "learning_rate": 0.00017624265098369928,
      "loss": 1.4079,
      "step": 712
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.07693798094987869,
      "learning_rate": 0.0001761759379921049,
      "loss": 1.1841,
      "step": 713
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.07069939374923706,
      "learning_rate": 0.0001761091441276753,
      "loss": 0.9861,
      "step": 714
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.08304879069328308,
      "learning_rate": 0.00017604226946132273,
      "loss": 1.1118,
      "step": 715
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.0826292335987091,
      "learning_rate": 0.00017597531406404526,
      "loss": 1.2392,
      "step": 716
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.08061166107654572,
      "learning_rate": 0.00017590827800692665,
      "loss": 1.0873,
      "step": 717
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.07403320074081421,
      "learning_rate": 0.00017584116136113633,
      "loss": 1.0396,
      "step": 718
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.100631482899189,
      "learning_rate": 0.00017577396419792923,
      "loss": 1.3316,
      "step": 719
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.0870446041226387,
      "learning_rate": 0.00017570668658864583,
      "loss": 1.2423,
      "step": 720
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.08019344508647919,
      "learning_rate": 0.00017563932860471194,
      "loss": 0.9506,
      "step": 721
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.08049733936786652,
      "learning_rate": 0.00017557189031763878,
      "loss": 1.2599,
      "step": 722
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.09278158098459244,
      "learning_rate": 0.00017550437179902271,
      "loss": 1.2561,
      "step": 723
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.07649429887533188,
      "learning_rate": 0.00017543677312054543,
      "loss": 1.1874,
      "step": 724
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.08516720682382584,
      "learning_rate": 0.00017536909435397362,
      "loss": 1.3583,
      "step": 725
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.07457318156957626,
      "learning_rate": 0.000175301335571159,
      "loss": 1.1077,
      "step": 726
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.09406981617212296,
      "learning_rate": 0.0001752334968440383,
      "loss": 1.3628,
      "step": 727
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.06670159101486206,
      "learning_rate": 0.000175165578244633,
      "loss": 1.0544,
      "step": 728
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.07625333219766617,
      "learning_rate": 0.0001750975798450496,
      "loss": 1.1544,
      "step": 729
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.0862407311797142,
      "learning_rate": 0.00017502950171747905,
      "loss": 1.1927,
      "step": 730
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.07812774926424026,
      "learning_rate": 0.00017496134393419713,
      "loss": 1.0182,
      "step": 731
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.07729184627532959,
      "learning_rate": 0.00017489310656756412,
      "loss": 1.1951,
      "step": 732
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.08399280905723572,
      "learning_rate": 0.00017482478969002484,
      "loss": 1.3047,
      "step": 733
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.08977645635604858,
      "learning_rate": 0.00017475639337410847,
      "loss": 0.9931,
      "step": 734
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.08276163786649704,
      "learning_rate": 0.00017468791769242853,
      "loss": 1.1554,
      "step": 735
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.08267621695995331,
      "learning_rate": 0.0001746193627176828,
      "loss": 1.1335,
      "step": 736
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.08823233842849731,
      "learning_rate": 0.0001745507285226533,
      "loss": 1.1542,
      "step": 737
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.07996855676174164,
      "learning_rate": 0.00017448201518020602,
      "loss": 1.1116,
      "step": 738
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.0920189619064331,
      "learning_rate": 0.00017441322276329118,
      "loss": 1.2266,
      "step": 739
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.08092907816171646,
      "learning_rate": 0.00017434435134494277,
      "loss": 1.3664,
      "step": 740
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.08727369457483292,
      "learning_rate": 0.00017427540099827874,
      "loss": 1.1137,
      "step": 741
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.12193667143583298,
      "learning_rate": 0.0001742063717965008,
      "loss": 1.1603,
      "step": 742
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.08252157270908356,
      "learning_rate": 0.00017413726381289443,
      "loss": 1.0399,
      "step": 743
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.0809679627418518,
      "learning_rate": 0.00017406807712082865,
      "loss": 1.2177,
      "step": 744
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.08453313261270523,
      "learning_rate": 0.00017399881179375613,
      "loss": 1.1332,
      "step": 745
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.09165991842746735,
      "learning_rate": 0.000173929467905213,
      "loss": 1.5545,
      "step": 746
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.09684597700834274,
      "learning_rate": 0.0001738600455288188,
      "loss": 1.1418,
      "step": 747
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.09542853385210037,
      "learning_rate": 0.00017379054473827638,
      "loss": 1.0924,
      "step": 748
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.2980574667453766,
      "learning_rate": 0.00017372096560737185,
      "loss": 1.1752,
      "step": 749
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.08750354498624802,
      "learning_rate": 0.00017365130820997448,
      "loss": 1.4242,
      "step": 750
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.07665020227432251,
      "learning_rate": 0.00017358157262003666,
      "loss": 0.8734,
      "step": 751
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.08522538095712662,
      "learning_rate": 0.00017351175891159378,
      "loss": 1.2326,
      "step": 752
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.08328203856945038,
      "learning_rate": 0.0001734418671587641,
      "loss": 0.9914,
      "step": 753
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.08143004775047302,
      "learning_rate": 0.00017337189743574886,
      "loss": 1.1849,
      "step": 754
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.08154163509607315,
      "learning_rate": 0.000173301849816832,
      "loss": 1.095,
      "step": 755
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.09051434695720673,
      "learning_rate": 0.00017323172437638012,
      "loss": 1.4032,
      "step": 756
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.07921197265386581,
      "learning_rate": 0.00017316152118884262,
      "loss": 1.2568,
      "step": 757
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.1015300527215004,
      "learning_rate": 0.00017309124032875118,
      "loss": 1.2418,
      "step": 758
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.08583255857229233,
      "learning_rate": 0.00017302088187072013,
      "loss": 1.214,
      "step": 759
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.09258947521448135,
      "learning_rate": 0.00017295044588944614,
      "loss": 1.2606,
      "step": 760
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.10023178905248642,
      "learning_rate": 0.00017287993245970813,
      "loss": 1.204,
      "step": 761
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.07907801121473312,
      "learning_rate": 0.00017280934165636732,
      "loss": 0.987,
      "step": 762
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.08570694178342819,
      "learning_rate": 0.00017273867355436706,
      "loss": 1.1802,
      "step": 763
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.08926071971654892,
      "learning_rate": 0.0001726679282287327,
      "loss": 1.3329,
      "step": 764
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.10569997131824493,
      "learning_rate": 0.00017259710575457163,
      "loss": 1.1928,
      "step": 765
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.07887765020132065,
      "learning_rate": 0.00017252620620707317,
      "loss": 0.9654,
      "step": 766
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.08243531733751297,
      "learning_rate": 0.00017245522966150833,
      "loss": 1.122,
      "step": 767
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.08016372472047806,
      "learning_rate": 0.0001723841761932301,
      "loss": 1.1173,
      "step": 768
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.17971543967723846,
      "learning_rate": 0.0001723130458776729,
      "loss": 1.2049,
      "step": 769
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.08999678492546082,
      "learning_rate": 0.00017224183879035288,
      "loss": 0.9927,
      "step": 770
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.0874532014131546,
      "learning_rate": 0.00017217055500686764,
      "loss": 1.2056,
      "step": 771
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.09283041208982468,
      "learning_rate": 0.00017209919460289626,
      "loss": 1.4801,
      "step": 772
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.09434971213340759,
      "learning_rate": 0.00017202775765419906,
      "loss": 1.2483,
      "step": 773
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.07374588400125504,
      "learning_rate": 0.00017195624423661774,
      "loss": 1.069,
      "step": 774
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.08497139811515808,
      "learning_rate": 0.00017188465442607507,
      "loss": 1.1224,
      "step": 775
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.08765482902526855,
      "learning_rate": 0.000171812988298575,
      "loss": 1.1164,
      "step": 776
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.07689573615789413,
      "learning_rate": 0.00017174124593020255,
      "loss": 1.0702,
      "step": 777
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.10699640214443207,
      "learning_rate": 0.00017166942739712355,
      "loss": 1.1605,
      "step": 778
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.07910798490047455,
      "learning_rate": 0.0001715975327755848,
      "loss": 0.9998,
      "step": 779
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.08046310395002365,
      "learning_rate": 0.0001715255621419138,
      "loss": 1.1715,
      "step": 780
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.08498966693878174,
      "learning_rate": 0.0001714535155725188,
      "loss": 1.0702,
      "step": 781
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.0835207849740982,
      "learning_rate": 0.0001713813931438887,
      "loss": 1.0257,
      "step": 782
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.07388419657945633,
      "learning_rate": 0.00017130919493259282,
      "loss": 1.1681,
      "step": 783
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.08165927976369858,
      "learning_rate": 0.00017123692101528106,
      "loss": 1.3463,
      "step": 784
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.08167090266942978,
      "learning_rate": 0.00017116457146868364,
      "loss": 1.2735,
      "step": 785
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.09316886961460114,
      "learning_rate": 0.00017109214636961103,
      "loss": 1.073,
      "step": 786
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.07424274832010269,
      "learning_rate": 0.000171019645794954,
      "loss": 1.0646,
      "step": 787
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.08338771760463715,
      "learning_rate": 0.00017094706982168342,
      "loss": 1.1479,
      "step": 788
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.08428940176963806,
      "learning_rate": 0.00017087441852685014,
      "loss": 1.1824,
      "step": 789
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.08475558459758759,
      "learning_rate": 0.000170801691987585,
      "loss": 1.3129,
      "step": 790
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.08609999716281891,
      "learning_rate": 0.00017072889028109885,
      "loss": 1.3433,
      "step": 791
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.08859992027282715,
      "learning_rate": 0.0001706560134846822,
      "loss": 1.1913,
      "step": 792
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.07474919408559799,
      "learning_rate": 0.0001705830616757053,
      "loss": 1.0951,
      "step": 793
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.08233974874019623,
      "learning_rate": 0.00017051003493161808,
      "loss": 1.3027,
      "step": 794
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.08178085833787918,
      "learning_rate": 0.00017043693332995002,
      "loss": 1.1052,
      "step": 795
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.07304524630308151,
      "learning_rate": 0.00017036375694831,
      "loss": 1.36,
      "step": 796
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.08515062183141708,
      "learning_rate": 0.00017029050586438643,
      "loss": 0.916,
      "step": 797
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.07536105811595917,
      "learning_rate": 0.00017021718015594695,
      "loss": 1.0816,
      "step": 798
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.10976564884185791,
      "learning_rate": 0.00017014377990083834,
      "loss": 1.2816,
      "step": 799
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.0825371965765953,
      "learning_rate": 0.00017007030517698666,
      "loss": 1.3107,
      "step": 800
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.07634612917900085,
      "learning_rate": 0.000169996756062397,
      "loss": 0.9648,
      "step": 801
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.0780857652425766,
      "learning_rate": 0.00016992313263515337,
      "loss": 0.7845,
      "step": 802
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.09171561151742935,
      "learning_rate": 0.0001698494349734187,
      "loss": 1.4566,
      "step": 803
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.08053979277610779,
      "learning_rate": 0.00016977566315543477,
      "loss": 1.2048,
      "step": 804
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.08218812197446823,
      "learning_rate": 0.00016970181725952207,
      "loss": 1.1936,
      "step": 805
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.08368358761072159,
      "learning_rate": 0.00016962789736407974,
      "loss": 1.1064,
      "step": 806
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.10067876428365707,
      "learning_rate": 0.0001695539035475854,
      "loss": 1.0918,
      "step": 807
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.08832260966300964,
      "learning_rate": 0.00016947983588859523,
      "loss": 1.1454,
      "step": 808
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.07921259850263596,
      "learning_rate": 0.00016940569446574389,
      "loss": 1.3695,
      "step": 809
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.09819761663675308,
      "learning_rate": 0.00016933147935774411,
      "loss": 1.2974,
      "step": 810
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.22696730494499207,
      "learning_rate": 0.0001692571906433871,
      "loss": 1.1638,
      "step": 811
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.08201338350772858,
      "learning_rate": 0.0001691828284015421,
      "loss": 0.8576,
      "step": 812
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.10405506193637848,
      "learning_rate": 0.00016910839271115638,
      "loss": 1.0929,
      "step": 813
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.09434719383716583,
      "learning_rate": 0.00016903388365125524,
      "loss": 1.0948,
      "step": 814
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.08209701627492905,
      "learning_rate": 0.00016895930130094184,
      "loss": 1.2546,
      "step": 815
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.07896193861961365,
      "learning_rate": 0.0001688846457393972,
      "loss": 1.106,
      "step": 816
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.07685357332229614,
      "learning_rate": 0.00016880991704588003,
      "loss": 1.1522,
      "step": 817
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.08388163894414902,
      "learning_rate": 0.00016873511529972665,
      "loss": 1.2062,
      "step": 818
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.0945209413766861,
      "learning_rate": 0.00016866024058035105,
      "loss": 1.1801,
      "step": 819
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.0906093567609787,
      "learning_rate": 0.00016858529296724455,
      "loss": 1.176,
      "step": 820
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.07118382304906845,
      "learning_rate": 0.00016851027253997596,
      "loss": 1.2439,
      "step": 821
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.06980909407138824,
      "learning_rate": 0.00016843517937819132,
      "loss": 1.1027,
      "step": 822
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.09179321676492691,
      "learning_rate": 0.00016836001356161396,
      "loss": 1.1231,
      "step": 823
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.08007943630218506,
      "learning_rate": 0.00016828477517004427,
      "loss": 1.2563,
      "step": 824
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.10226795822381973,
      "learning_rate": 0.00016820946428335978,
      "loss": 1.1662,
      "step": 825
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.08230665326118469,
      "learning_rate": 0.00016813408098151488,
      "loss": 1.2735,
      "step": 826
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.07995975017547607,
      "learning_rate": 0.000168058625344541,
      "loss": 1.1265,
      "step": 827
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.08252605050802231,
      "learning_rate": 0.00016798309745254614,
      "loss": 1.0828,
      "step": 828
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.10495063662528992,
      "learning_rate": 0.0001679074973857152,
      "loss": 1.326,
      "step": 829
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.08632712066173553,
      "learning_rate": 0.00016783182522430964,
      "loss": 1.1424,
      "step": 830
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.09097401052713394,
      "learning_rate": 0.0001677560810486674,
      "loss": 1.1875,
      "step": 831
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.1030447781085968,
      "learning_rate": 0.000167680264939203,
      "loss": 1.2773,
      "step": 832
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.07330919802188873,
      "learning_rate": 0.00016760437697640722,
      "loss": 1.0242,
      "step": 833
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.12255438417196274,
      "learning_rate": 0.00016752841724084714,
      "loss": 1.2594,
      "step": 834
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.08226511627435684,
      "learning_rate": 0.00016745238581316612,
      "loss": 0.9883,
      "step": 835
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.08995082974433899,
      "learning_rate": 0.00016737628277408356,
      "loss": 1.1848,
      "step": 836
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.08618593215942383,
      "learning_rate": 0.00016730010820439488,
      "loss": 0.9744,
      "step": 837
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.07120101898908615,
      "learning_rate": 0.00016722386218497146,
      "loss": 0.9643,
      "step": 838
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.09212475270032883,
      "learning_rate": 0.00016714754479676058,
      "loss": 1.2269,
      "step": 839
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.08128505945205688,
      "learning_rate": 0.0001670711561207852,
      "loss": 1.0458,
      "step": 840
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.08219733834266663,
      "learning_rate": 0.00016699469623814402,
      "loss": 1.304,
      "step": 841
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.08931570500135422,
      "learning_rate": 0.00016691816523001137,
      "loss": 1.267,
      "step": 842
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.08008779585361481,
      "learning_rate": 0.000166841563177637,
      "loss": 1.3622,
      "step": 843
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.08592413365840912,
      "learning_rate": 0.00016676489016234611,
      "loss": 1.1349,
      "step": 844
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.0958981066942215,
      "learning_rate": 0.00016668814626553935,
      "loss": 1.1459,
      "step": 845
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.07809265702962875,
      "learning_rate": 0.00016661133156869245,
      "loss": 1.3124,
      "step": 846
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.1327837109565735,
      "learning_rate": 0.00016653444615335645,
      "loss": 1.1953,
      "step": 847
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.10847461968660355,
      "learning_rate": 0.00016645749010115734,
      "loss": 1.2545,
      "step": 848
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.09043294191360474,
      "learning_rate": 0.00016638046349379626,
      "loss": 1.2213,
      "step": 849
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.09827099740505219,
      "learning_rate": 0.00016630336641304907,
      "loss": 1.2937,
      "step": 850
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.07804851233959198,
      "learning_rate": 0.00016622619894076661,
      "loss": 1.2444,
      "step": 851
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.07834355533123016,
      "learning_rate": 0.00016614896115887438,
      "loss": 1.2846,
      "step": 852
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.08101753145456314,
      "learning_rate": 0.0001660716531493725,
      "loss": 1.1009,
      "step": 853
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.11360859125852585,
      "learning_rate": 0.0001659942749943357,
      "loss": 1.0914,
      "step": 854
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.07827256619930267,
      "learning_rate": 0.00016591682677591314,
      "loss": 1.0918,
      "step": 855
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.0827704444527626,
      "learning_rate": 0.0001658393085763284,
      "loss": 1.333,
      "step": 856
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.12776634097099304,
      "learning_rate": 0.00016576172047787937,
      "loss": 0.8844,
      "step": 857
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.07633556425571442,
      "learning_rate": 0.00016568406256293802,
      "loss": 1.3823,
      "step": 858
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.0876186341047287,
      "learning_rate": 0.00016560633491395068,
      "loss": 1.1195,
      "step": 859
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.09859266132116318,
      "learning_rate": 0.00016552853761343746,
      "loss": 1.306,
      "step": 860
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.08464020490646362,
      "learning_rate": 0.00016545067074399253,
      "loss": 1.1206,
      "step": 861
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.07913007587194443,
      "learning_rate": 0.000165372734388284,
      "loss": 1.025,
      "step": 862
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.08341752737760544,
      "learning_rate": 0.0001652947286290536,
      "loss": 1.3396,
      "step": 863
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.08605632185935974,
      "learning_rate": 0.00016521665354911683,
      "loss": 1.2395,
      "step": 864
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.08409509807825089,
      "learning_rate": 0.00016513850923136273,
      "loss": 1.0192,
      "step": 865
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.08476000279188156,
      "learning_rate": 0.00016506029575875396,
      "loss": 1.0996,
      "step": 866
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.08864401280879974,
      "learning_rate": 0.00016498201321432646,
      "loss": 0.9354,
      "step": 867
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.08183170109987259,
      "learning_rate": 0.0001649036616811896,
      "loss": 1.0602,
      "step": 868
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.07102543860673904,
      "learning_rate": 0.0001648252412425259,
      "loss": 1.1053,
      "step": 869
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.08999533206224442,
      "learning_rate": 0.00016474675198159116,
      "loss": 1.1031,
      "step": 870
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.0800955668091774,
      "learning_rate": 0.0001646681939817141,
      "loss": 0.9741,
      "step": 871
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.08678940683603287,
      "learning_rate": 0.00016458956732629654,
      "loss": 1.2987,
      "step": 872
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.07563462108373642,
      "learning_rate": 0.00016451087209881315,
      "loss": 1.1788,
      "step": 873
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.07887473702430725,
      "learning_rate": 0.00016443210838281135,
      "loss": 1.0512,
      "step": 874
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.07923612743616104,
      "learning_rate": 0.00016435327626191135,
      "loss": 1.1476,
      "step": 875
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.08602787554264069,
      "learning_rate": 0.0001642743758198059,
      "loss": 1.2671,
      "step": 876
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.08977708965539932,
      "learning_rate": 0.00016419540714026037,
      "loss": 1.406,
      "step": 877
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.11876388639211655,
      "learning_rate": 0.00016411637030711251,
      "loss": 0.9359,
      "step": 878
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.08920851349830627,
      "learning_rate": 0.00016403726540427247,
      "loss": 1.0716,
      "step": 879
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.09188678115606308,
      "learning_rate": 0.0001639580925157226,
      "loss": 1.3255,
      "step": 880
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.08219437301158905,
      "learning_rate": 0.00016387885172551757,
      "loss": 1.1677,
      "step": 881
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.08392970263957977,
      "learning_rate": 0.00016379954311778388,
      "loss": 1.3106,
      "step": 882
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.08758262544870377,
      "learning_rate": 0.00016372016677672037,
      "loss": 1.1562,
      "step": 883
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.08920885622501373,
      "learning_rate": 0.0001636407227865975,
      "loss": 1.0487,
      "step": 884
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.07952671498060226,
      "learning_rate": 0.00016356121123175767,
      "loss": 1.2011,
      "step": 885
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.0843694731593132,
      "learning_rate": 0.00016348163219661506,
      "loss": 1.1841,
      "step": 886
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.10402873158454895,
      "learning_rate": 0.00016340198576565539,
      "loss": 1.089,
      "step": 887
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.09944958984851837,
      "learning_rate": 0.00016332227202343595,
      "loss": 1.0941,
      "step": 888
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.08194096386432648,
      "learning_rate": 0.00016324249105458555,
      "loss": 1.109,
      "step": 889
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.07979317754507065,
      "learning_rate": 0.00016316264294380432,
      "loss": 1.0224,
      "step": 890
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.09668459743261337,
      "learning_rate": 0.0001630827277758637,
      "loss": 1.1358,
      "step": 891
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.07681312412023544,
      "learning_rate": 0.00016300274563560633,
      "loss": 1.1293,
      "step": 892
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.09155978262424469,
      "learning_rate": 0.0001629226966079459,
      "loss": 1.3014,
      "step": 893
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.09289336204528809,
      "learning_rate": 0.00016284258077786716,
      "loss": 1.0673,
      "step": 894
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.07735373824834824,
      "learning_rate": 0.00016276239823042574,
      "loss": 0.9928,
      "step": 895
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.09608011692762375,
      "learning_rate": 0.00016268214905074818,
      "loss": 1.1263,
      "step": 896
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.09346359968185425,
      "learning_rate": 0.00016260183332403164,
      "loss": 1.3477,
      "step": 897
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.09623821079730988,
      "learning_rate": 0.00016252145113554404,
      "loss": 0.9902,
      "step": 898
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.0833108201622963,
      "learning_rate": 0.00016244100257062382,
      "loss": 1.1103,
      "step": 899
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.07932139933109283,
      "learning_rate": 0.00016236048771467988,
      "loss": 1.1159,
      "step": 900
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.082742840051651,
      "learning_rate": 0.00016227990665319147,
      "loss": 0.992,
      "step": 901
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.07717438787221909,
      "learning_rate": 0.00016219925947170822,
      "loss": 1.138,
      "step": 902
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.0860557034611702,
      "learning_rate": 0.00016211854625584985,
      "loss": 1.262,
      "step": 903
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.10646398365497589,
      "learning_rate": 0.00016203776709130627,
      "loss": 1.3783,
      "step": 904
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.08500290662050247,
      "learning_rate": 0.00016195692206383733,
      "loss": 1.1034,
      "step": 905
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.08151032775640488,
      "learning_rate": 0.0001618760112592729,
      "loss": 0.8408,
      "step": 906
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.07579167932271957,
      "learning_rate": 0.00016179503476351258,
      "loss": 0.8924,
      "step": 907
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.1033424586057663,
      "learning_rate": 0.0001617139926625258,
      "loss": 1.2191,
      "step": 908
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.08320926129817963,
      "learning_rate": 0.0001616328850423515,
      "loss": 1.1108,
      "step": 909
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.08811642974615097,
      "learning_rate": 0.00016155171198909841,
      "loss": 1.0175,
      "step": 910
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.08476217091083527,
      "learning_rate": 0.00016147047358894452,
      "loss": 1.2875,
      "step": 911
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.08753612637519836,
      "learning_rate": 0.0001613891699281373,
      "loss": 1.156,
      "step": 912
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.09200330823659897,
      "learning_rate": 0.00016130780109299345,
      "loss": 1.4483,
      "step": 913
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.08672292530536652,
      "learning_rate": 0.0001612263671698989,
      "loss": 1.0182,
      "step": 914
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.09040652215480804,
      "learning_rate": 0.00016114486824530869,
      "loss": 1.3006,
      "step": 915
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.07458732277154922,
      "learning_rate": 0.0001610633044057468,
      "loss": 1.2662,
      "step": 916
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.07543858140707016,
      "learning_rate": 0.00016098167573780624,
      "loss": 1.3084,
      "step": 917
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.09571071714162827,
      "learning_rate": 0.00016089998232814875,
      "loss": 1.1357,
      "step": 918
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.08231940865516663,
      "learning_rate": 0.00016081822426350484,
      "loss": 1.0647,
      "step": 919
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.08672209829092026,
      "learning_rate": 0.00016073640163067362,
      "loss": 1.0215,
      "step": 920
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.08963492512702942,
      "learning_rate": 0.00016065451451652285,
      "loss": 1.1266,
      "step": 921
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.08349716663360596,
      "learning_rate": 0.00016057256300798867,
      "loss": 1.0656,
      "step": 922
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.08417947590351105,
      "learning_rate": 0.00016049054719207554,
      "loss": 1.227,
      "step": 923
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.08216405659914017,
      "learning_rate": 0.00016040846715585633,
      "loss": 1.0997,
      "step": 924
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.09813476353883743,
      "learning_rate": 0.00016032632298647196,
      "loss": 1.2417,
      "step": 925
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.0971807986497879,
      "learning_rate": 0.00016024411477113152,
      "loss": 1.1989,
      "step": 926
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.10932951420545578,
      "learning_rate": 0.00016016184259711204,
      "loss": 1.2781,
      "step": 927
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.09671205282211304,
      "learning_rate": 0.0001600795065517585,
      "loss": 1.299,
      "step": 928
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.08652383089065552,
      "learning_rate": 0.00015999710672248365,
      "loss": 1.3306,
      "step": 929
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.10589951276779175,
      "learning_rate": 0.000159914643196768,
      "loss": 1.3625,
      "step": 930
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.08908641338348389,
      "learning_rate": 0.00015983211606215958,
      "loss": 1.1171,
      "step": 931
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.13235490024089813,
      "learning_rate": 0.00015974952540627412,
      "loss": 0.9521,
      "step": 932
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.0815630853176117,
      "learning_rate": 0.00015966687131679463,
      "loss": 1.2107,
      "step": 933
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.08272356539964676,
      "learning_rate": 0.00015958415388147155,
      "loss": 1.1149,
      "step": 934
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.08392516523599625,
      "learning_rate": 0.0001595013731881226,
      "loss": 1.2414,
      "step": 935
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.08603011816740036,
      "learning_rate": 0.00015941852932463256,
      "loss": 1.2616,
      "step": 936
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.07599209994077682,
      "learning_rate": 0.0001593356223789533,
      "loss": 1.0765,
      "step": 937
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.08189697563648224,
      "learning_rate": 0.00015925265243910372,
      "loss": 1.1934,
      "step": 938
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.08917500823736191,
      "learning_rate": 0.00015916961959316957,
      "loss": 1.2389,
      "step": 939
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.07975764572620392,
      "learning_rate": 0.0001590865239293034,
      "loss": 1.2643,
      "step": 940
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.07825619727373123,
      "learning_rate": 0.0001590033655357244,
      "loss": 0.9547,
      "step": 941
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.08327656984329224,
      "learning_rate": 0.00015892014450071836,
      "loss": 1.1476,
      "step": 942
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.08970014750957489,
      "learning_rate": 0.00015883686091263768,
      "loss": 1.158,
      "step": 943
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.08594327419996262,
      "learning_rate": 0.00015875351485990105,
      "loss": 1.0168,
      "step": 944
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.08538670837879181,
      "learning_rate": 0.0001586701064309935,
      "loss": 0.8934,
      "step": 945
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.0771031305193901,
      "learning_rate": 0.00015858663571446631,
      "loss": 1.2207,
      "step": 946
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.11030296981334686,
      "learning_rate": 0.0001585031027989369,
      "loss": 1.3215,
      "step": 947
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.08234802633523941,
      "learning_rate": 0.0001584195077730887,
      "loss": 1.0878,
      "step": 948
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.08790728449821472,
      "learning_rate": 0.00015833585072567104,
      "loss": 1.0046,
      "step": 949
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.12733106315135956,
      "learning_rate": 0.00015825213174549925,
      "loss": 1.4015,
      "step": 950
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.1594487875699997,
      "learning_rate": 0.00015816835092145417,
      "loss": 1.0978,
      "step": 951
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.08943841606378555,
      "learning_rate": 0.0001580845083424825,
      "loss": 1.2287,
      "step": 952
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.07976686954498291,
      "learning_rate": 0.0001580006040975964,
      "loss": 1.2446,
      "step": 953
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.07864785194396973,
      "learning_rate": 0.00015791663827587353,
      "loss": 1.1802,
      "step": 954
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.11824239790439606,
      "learning_rate": 0.00015783261096645695,
      "loss": 1.0745,
      "step": 955
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.08143503963947296,
      "learning_rate": 0.00015774852225855496,
      "loss": 1.1099,
      "step": 956
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.07825972139835358,
      "learning_rate": 0.00015766437224144103,
      "loss": 1.3001,
      "step": 957
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.09076002240180969,
      "learning_rate": 0.0001575801610044538,
      "loss": 1.2856,
      "step": 958
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.09442058950662613,
      "learning_rate": 0.0001574958886369968,
      "loss": 1.2894,
      "step": 959
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.08304957300424576,
      "learning_rate": 0.0001574115552285385,
      "loss": 1.1424,
      "step": 960
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.08791410177946091,
      "learning_rate": 0.0001573271608686122,
      "loss": 1.1523,
      "step": 961
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.09252519905567169,
      "learning_rate": 0.00015724270564681592,
      "loss": 1.3296,
      "step": 962
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.07583607733249664,
      "learning_rate": 0.00015715818965281221,
      "loss": 1.1952,
      "step": 963
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.09245412796735764,
      "learning_rate": 0.00015707361297632828,
      "loss": 0.9826,
      "step": 964
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.0894828587770462,
      "learning_rate": 0.0001569889757071556,
      "loss": 1.1895,
      "step": 965
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.0824456512928009,
      "learning_rate": 0.0001569042779351501,
      "loss": 1.0105,
      "step": 966
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.08300875127315521,
      "learning_rate": 0.00015681951975023186,
      "loss": 0.9969,
      "step": 967
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.09487631171941757,
      "learning_rate": 0.00015673470124238516,
      "loss": 1.2029,
      "step": 968
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.08492422103881836,
      "learning_rate": 0.00015664982250165828,
      "loss": 1.1835,
      "step": 969
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.12439217418432236,
      "learning_rate": 0.00015656488361816346,
      "loss": 1.1601,
      "step": 970
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.09230206161737442,
      "learning_rate": 0.00015647988468207676,
      "loss": 0.9133,
      "step": 971
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.08204157650470734,
      "learning_rate": 0.0001563948257836381,
      "loss": 1.0194,
      "step": 972
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.07965037971735,
      "learning_rate": 0.00015630970701315094,
      "loss": 1.3518,
      "step": 973
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.08081319183111191,
      "learning_rate": 0.00015622452846098233,
      "loss": 1.1105,
      "step": 974
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.08211128413677216,
      "learning_rate": 0.00015613929021756284,
      "loss": 1.0984,
      "step": 975
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.09477461129426956,
      "learning_rate": 0.0001560539923733864,
      "loss": 1.0591,
      "step": 976
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.07867059111595154,
      "learning_rate": 0.00015596863501901012,
      "loss": 1.2916,
      "step": 977
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.08776961266994476,
      "learning_rate": 0.00015588321824505443,
      "loss": 1.2977,
      "step": 978
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.0917336493730545,
      "learning_rate": 0.00015579774214220278,
      "loss": 1.239,
      "step": 979
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.09087909013032913,
      "learning_rate": 0.00015571220680120153,
      "loss": 1.1542,
      "step": 980
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.07975257188081741,
      "learning_rate": 0.0001556266123128601,
      "loss": 1.0691,
      "step": 981
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.08824899792671204,
      "learning_rate": 0.00015554095876805057,
      "loss": 1.3249,
      "step": 982
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.11979102343320847,
      "learning_rate": 0.0001554552462577077,
      "loss": 1.1488,
      "step": 983
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.0774589404463768,
      "learning_rate": 0.00015536947487282903,
      "loss": 1.0791,
      "step": 984
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.09189926832914352,
      "learning_rate": 0.00015528364470447436,
      "loss": 0.9839,
      "step": 985
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.08508016914129257,
      "learning_rate": 0.00015519775584376611,
      "loss": 0.9511,
      "step": 986
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.08841552585363388,
      "learning_rate": 0.0001551118083818889,
      "loss": 1.1512,
      "step": 987
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.08979780226945877,
      "learning_rate": 0.00015502580241008956,
      "loss": 1.2946,
      "step": 988
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.0848306193947792,
      "learning_rate": 0.0001549397380196771,
      "loss": 1.0743,
      "step": 989
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.08302175253629684,
      "learning_rate": 0.00015485361530202248,
      "loss": 0.9865,
      "step": 990
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.08802732825279236,
      "learning_rate": 0.00015476743434855866,
      "loss": 1.171,
      "step": 991
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.08969046920537949,
      "learning_rate": 0.00015468119525078032,
      "loss": 1.1248,
      "step": 992
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.0782170295715332,
      "learning_rate": 0.000154594898100244,
      "loss": 0.9323,
      "step": 993
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.0807466134428978,
      "learning_rate": 0.00015450854298856777,
      "loss": 0.8486,
      "step": 994
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.08955421298742294,
      "learning_rate": 0.00015442213000743129,
      "loss": 0.9727,
      "step": 995
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.09456660598516464,
      "learning_rate": 0.00015433565924857564,
      "loss": 1.2232,
      "step": 996
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.08864837139844894,
      "learning_rate": 0.00015424913080380325,
      "loss": 1.2478,
      "step": 997
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.07130644470453262,
      "learning_rate": 0.00015416254476497776,
      "loss": 1.1128,
      "step": 998
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.08904992043972015,
      "learning_rate": 0.00015407590122402395,
      "loss": 1.1202,
      "step": 999
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.08642040938138962,
      "learning_rate": 0.00015398920027292776,
      "loss": 1.2332,
      "step": 1000
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.10026253014802933,
      "learning_rate": 0.00015390244200373592,
      "loss": 1.2327,
      "step": 1001
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.0839606449007988,
      "learning_rate": 0.00015381562650855612,
      "loss": 1.193,
      "step": 1002
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.0924573689699173,
      "learning_rate": 0.00015372875387955677,
      "loss": 1.3187,
      "step": 1003
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.08120997995138168,
      "learning_rate": 0.0001536418242089669,
      "loss": 1.1482,
      "step": 1004
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.08533752709627151,
      "learning_rate": 0.0001535548375890762,
      "loss": 1.4419,
      "step": 1005
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.08670300245285034,
      "learning_rate": 0.00015346779411223472,
      "loss": 1.1334,
      "step": 1006
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.09586023539304733,
      "learning_rate": 0.00015338069387085294,
      "loss": 1.1792,
      "step": 1007
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.08470802009105682,
      "learning_rate": 0.0001532935369574015,
      "loss": 1.1229,
      "step": 1008
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.09617331624031067,
      "learning_rate": 0.00015320632346441142,
      "loss": 1.1177,
      "step": 1009
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.09748532623052597,
      "learning_rate": 0.0001531190534844735,
      "loss": 1.1242,
      "step": 1010
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.09671757370233536,
      "learning_rate": 0.00015303172711023875,
      "loss": 1.4025,
      "step": 1011
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.08423331379890442,
      "learning_rate": 0.00015294434443441794,
      "loss": 1.216,
      "step": 1012
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.0889984667301178,
      "learning_rate": 0.00015285690554978163,
      "loss": 1.1172,
      "step": 1013
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.08674996346235275,
      "learning_rate": 0.00015276941054916002,
      "loss": 0.8588,
      "step": 1014
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.10601639002561569,
      "learning_rate": 0.00015268185952544303,
      "loss": 1.1771,
      "step": 1015
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.09794366359710693,
      "learning_rate": 0.00015259425257157987,
      "loss": 0.9863,
      "step": 1016
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.09882765263319016,
      "learning_rate": 0.0001525065897805792,
      "loss": 1.2867,
      "step": 1017
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.08232888579368591,
      "learning_rate": 0.000152418871245509,
      "loss": 1.2046,
      "step": 1018
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.07535366714000702,
      "learning_rate": 0.00015233109705949644,
      "loss": 1.0457,
      "step": 1019
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.09567664563655853,
      "learning_rate": 0.00015224326731572764,
      "loss": 1.425,
      "step": 1020
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.07062424719333649,
      "learning_rate": 0.0001521553821074479,
      "loss": 0.9607,
      "step": 1021
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.08274392038583755,
      "learning_rate": 0.00015206744152796123,
      "loss": 1.0936,
      "step": 1022
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.09635645896196365,
      "learning_rate": 0.0001519794456706305,
      "loss": 1.3019,
      "step": 1023
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.0800948366522789,
      "learning_rate": 0.00015189139462887732,
      "loss": 0.929,
      "step": 1024
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.09318748116493225,
      "learning_rate": 0.0001518032884961818,
      "loss": 1.3526,
      "step": 1025
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.07523728907108307,
      "learning_rate": 0.00015171512736608254,
      "loss": 1.1982,
      "step": 1026
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.09203594923019409,
      "learning_rate": 0.0001516269113321766,
      "loss": 1.3409,
      "step": 1027
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.08934096992015839,
      "learning_rate": 0.00015153864048811925,
      "loss": 1.2817,
      "step": 1028
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.08486980944871902,
      "learning_rate": 0.00015145031492762404,
      "loss": 0.8791,
      "step": 1029
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.08579596132040024,
      "learning_rate": 0.00015136193474446247,
      "loss": 1.1381,
      "step": 1030
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.08721473067998886,
      "learning_rate": 0.00015127350003246422,
      "loss": 1.429,
      "step": 1031
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.09468651562929153,
      "learning_rate": 0.00015118501088551666,
      "loss": 1.2188,
      "step": 1032
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.07146283984184265,
      "learning_rate": 0.0001510964673975651,
      "loss": 1.1188,
      "step": 1033
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.09246056526899338,
      "learning_rate": 0.00015100786966261247,
      "loss": 1.2027,
      "step": 1034
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.08403714001178741,
      "learning_rate": 0.00015091921777471936,
      "loss": 1.273,
      "step": 1035
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.0870928019285202,
      "learning_rate": 0.00015083051182800372,
      "loss": 1.1654,
      "step": 1036
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.08683963119983673,
      "learning_rate": 0.00015074175191664104,
      "loss": 1.331,
      "step": 1037
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.0884169265627861,
      "learning_rate": 0.00015065293813486404,
      "loss": 1.2137,
      "step": 1038
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.08322736620903015,
      "learning_rate": 0.0001505640705769626,
      "loss": 1.122,
      "step": 1039
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.07375328987836838,
      "learning_rate": 0.0001504751493372837,
      "loss": 1.0161,
      "step": 1040
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.12521041929721832,
      "learning_rate": 0.00015038617451023143,
      "loss": 1.0004,
      "step": 1041
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.08745912462472916,
      "learning_rate": 0.00015029714619026654,
      "loss": 1.2979,
      "step": 1042
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.10064958781003952,
      "learning_rate": 0.00015020806447190683,
      "loss": 1.2741,
      "step": 1043
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.08009211719036102,
      "learning_rate": 0.0001501189294497266,
      "loss": 1.2031,
      "step": 1044
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.08244958519935608,
      "learning_rate": 0.00015002974121835686,
      "loss": 1.0796,
      "step": 1045
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.09753942489624023,
      "learning_rate": 0.00014994049987248498,
      "loss": 1.0495,
      "step": 1046
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.08097665756940842,
      "learning_rate": 0.00014985120550685483,
      "loss": 1.0305,
      "step": 1047
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.09167876839637756,
      "learning_rate": 0.00014976185821626657,
      "loss": 1.3199,
      "step": 1048
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.09040147811174393,
      "learning_rate": 0.00014967245809557647,
      "loss": 1.142,
      "step": 1049
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.10372103005647659,
      "learning_rate": 0.00014958300523969695,
      "loss": 1.0238,
      "step": 1050
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.7571262717247009,
      "learning_rate": 0.0001494934997435964,
      "loss": 0.6414,
      "step": 1051
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.08545485883951187,
      "learning_rate": 0.0001494039417022991,
      "loss": 1.2469,
      "step": 1052
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.09645125269889832,
      "learning_rate": 0.0001493143312108851,
      "loss": 1.2064,
      "step": 1053
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.10659247636795044,
      "learning_rate": 0.00014922466836449013,
      "loss": 1.2185,
      "step": 1054
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.0905073881149292,
      "learning_rate": 0.0001491349532583056,
      "loss": 1.1531,
      "step": 1055
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.08443164825439453,
      "learning_rate": 0.00014904518598757814,
      "loss": 1.0289,
      "step": 1056
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.10690521448850632,
      "learning_rate": 0.00014895536664761013,
      "loss": 1.182,
      "step": 1057
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.09757747501134872,
      "learning_rate": 0.00014886549533375896,
      "loss": 1.298,
      "step": 1058
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.11675470322370529,
      "learning_rate": 0.00014877557214143728,
      "loss": 1.3993,
      "step": 1059
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.09194236993789673,
      "learning_rate": 0.00014868559716611277,
      "loss": 1.2173,
      "step": 1060
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.09742829203605652,
      "learning_rate": 0.0001485955705033082,
      "loss": 1.0765,
      "step": 1061
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.13593271374702454,
      "learning_rate": 0.00014850549224860112,
      "loss": 1.3141,
      "step": 1062
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.09260403364896774,
      "learning_rate": 0.0001484153624976239,
      "loss": 1.1365,
      "step": 1063
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.12835289537906647,
      "learning_rate": 0.0001483251813460635,
      "loss": 1.206,
      "step": 1064
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.09844189882278442,
      "learning_rate": 0.00014823494888966158,
      "loss": 1.3833,
      "step": 1065
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.08510404080152512,
      "learning_rate": 0.00014814466522421416,
      "loss": 1.1127,
      "step": 1066
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.10135819762945175,
      "learning_rate": 0.00014805433044557168,
      "loss": 1.3373,
      "step": 1067
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.09199123084545135,
      "learning_rate": 0.0001479639446496388,
      "loss": 1.1125,
      "step": 1068
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.09400131553411484,
      "learning_rate": 0.0001478735079323744,
      "loss": 0.9781,
      "step": 1069
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.1093631461262703,
      "learning_rate": 0.00014778302038979138,
      "loss": 1.0756,
      "step": 1070
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.09117407351732254,
      "learning_rate": 0.00014769248211795664,
      "loss": 1.1776,
      "step": 1071
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.10300873219966888,
      "learning_rate": 0.00014760189321299087,
      "loss": 1.2383,
      "step": 1072
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.07841359078884125,
      "learning_rate": 0.00014751125377106858,
      "loss": 1.1613,
      "step": 1073
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.08929870277643204,
      "learning_rate": 0.0001474205638884179,
      "loss": 1.2414,
      "step": 1074
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.10028059780597687,
      "learning_rate": 0.00014732982366132054,
      "loss": 1.2768,
      "step": 1075
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.08279004693031311,
      "learning_rate": 0.00014723903318611156,
      "loss": 0.7972,
      "step": 1076
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.09201148897409439,
      "learning_rate": 0.00014714819255917956,
      "loss": 1.2578,
      "step": 1077
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.10396204143762589,
      "learning_rate": 0.00014705730187696619,
      "loss": 1.1112,
      "step": 1078
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.09462717175483704,
      "learning_rate": 0.00014696636123596633,
      "loss": 1.2364,
      "step": 1079
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.10165147483348846,
      "learning_rate": 0.0001468753707327279,
      "loss": 1.0232,
      "step": 1080
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.08603104948997498,
      "learning_rate": 0.00014678433046385174,
      "loss": 1.0741,
      "step": 1081
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.10029155015945435,
      "learning_rate": 0.00014669324052599153,
      "loss": 1.155,
      "step": 1082
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.08776471763849258,
      "learning_rate": 0.00014660210101585368,
      "loss": 1.0608,
      "step": 1083
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.07470471411943436,
      "learning_rate": 0.0001465109120301972,
      "loss": 1.1027,
      "step": 1084
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.07778345793485641,
      "learning_rate": 0.0001464196736658337,
      "loss": 1.0816,
      "step": 1085
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.08618229627609253,
      "learning_rate": 0.00014632838601962716,
      "loss": 1.1412,
      "step": 1086
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.08929042518138885,
      "learning_rate": 0.00014623704918849392,
      "loss": 1.3558,
      "step": 1087
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.08327944576740265,
      "learning_rate": 0.00014614566326940243,
      "loss": 1.0872,
      "step": 1088
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.07381748408079147,
      "learning_rate": 0.00014605422835937338,
      "loss": 1.1229,
      "step": 1089
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.0991898626089096,
      "learning_rate": 0.00014596274455547941,
      "loss": 0.9485,
      "step": 1090
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.08856026828289032,
      "learning_rate": 0.00014587121195484511,
      "loss": 1.0784,
      "step": 1091
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.08923971652984619,
      "learning_rate": 0.0001457796306546468,
      "loss": 1.2214,
      "step": 1092
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.08865326642990112,
      "learning_rate": 0.00014568800075211258,
      "loss": 1.0595,
      "step": 1093
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.09346123039722443,
      "learning_rate": 0.00014559632234452212,
      "loss": 1.1833,
      "step": 1094
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.07990922778844833,
      "learning_rate": 0.00014550459552920656,
      "loss": 0.9171,
      "step": 1095
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.08237365633249283,
      "learning_rate": 0.0001454128204035485,
      "loss": 1.2034,
      "step": 1096
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.08575394004583359,
      "learning_rate": 0.00014532099706498174,
      "loss": 1.0053,
      "step": 1097
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.08545620739459991,
      "learning_rate": 0.00014522912561099134,
      "loss": 1.1055,
      "step": 1098
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.0953921377658844,
      "learning_rate": 0.0001451372061391134,
      "loss": 1.0586,
      "step": 1099
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.1096978709101677,
      "learning_rate": 0.00014504523874693501,
      "loss": 1.227,
      "step": 1100
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.09339159727096558,
      "learning_rate": 0.00014495322353209414,
      "loss": 1.2558,
      "step": 1101
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.11579679697751999,
      "learning_rate": 0.00014486116059227955,
      "loss": 1.264,
      "step": 1102
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.0806502103805542,
      "learning_rate": 0.00014476905002523064,
      "loss": 1.2278,
      "step": 1103
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.08331871777772903,
      "learning_rate": 0.00014467689192873735,
      "loss": 1.0335,
      "step": 1104
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.1019323468208313,
      "learning_rate": 0.00014458468640064014,
      "loss": 1.3601,
      "step": 1105
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.09600196778774261,
      "learning_rate": 0.00014449243353882978,
      "loss": 1.125,
      "step": 1106
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.08367899060249329,
      "learning_rate": 0.00014440013344124735,
      "loss": 1.158,
      "step": 1107
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.10402350127696991,
      "learning_rate": 0.00014430778620588396,
      "loss": 1.0836,
      "step": 1108
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.08525457233190536,
      "learning_rate": 0.00014421539193078088,
      "loss": 1.0902,
      "step": 1109
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.09753510355949402,
      "learning_rate": 0.00014412295071402934,
      "loss": 1.2485,
      "step": 1110
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.09461357444524765,
      "learning_rate": 0.00014403046265377024,
      "loss": 1.2085,
      "step": 1111
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.08117979764938354,
      "learning_rate": 0.0001439379278481944,
      "loss": 1.0515,
      "step": 1112
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.1041373535990715,
      "learning_rate": 0.00014384534639554216,
      "loss": 1.0654,
      "step": 1113
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.08893406391143799,
      "learning_rate": 0.00014375271839410338,
      "loss": 0.9929,
      "step": 1114
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.08799731731414795,
      "learning_rate": 0.00014366004394221745,
      "loss": 0.9943,
      "step": 1115
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.11736821383237839,
      "learning_rate": 0.00014356732313827288,
      "loss": 1.3649,
      "step": 1116
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.07686550915241241,
      "learning_rate": 0.00014347455608070762,
      "loss": 0.8763,
      "step": 1117
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.08737040311098099,
      "learning_rate": 0.00014338174286800852,
      "loss": 1.0713,
      "step": 1118
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.09222594648599625,
      "learning_rate": 0.00014328888359871157,
      "loss": 1.2232,
      "step": 1119
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.08900738507509232,
      "learning_rate": 0.00014319597837140157,
      "loss": 1.3012,
      "step": 1120
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.08774983137845993,
      "learning_rate": 0.0001431030272847122,
      "loss": 1.232,
      "step": 1121
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.08808692544698715,
      "learning_rate": 0.0001430100304373257,
      "loss": 0.8727,
      "step": 1122
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.09503446519374847,
      "learning_rate": 0.00014291698792797306,
      "loss": 1.2056,
      "step": 1123
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.1891634315252304,
      "learning_rate": 0.0001428238998554336,
      "loss": 1.035,
      "step": 1124
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.0838143453001976,
      "learning_rate": 0.00014273076631853503,
      "loss": 1.1841,
      "step": 1125
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.08770063519477844,
      "learning_rate": 0.00014263758741615346,
      "loss": 1.2907,
      "step": 1126
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.08471453934907913,
      "learning_rate": 0.00014254436324721297,
      "loss": 1.3639,
      "step": 1127
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.07473208755254745,
      "learning_rate": 0.00014245109391068585,
      "loss": 1.1097,
      "step": 1128
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.07981300354003906,
      "learning_rate": 0.00014235777950559228,
      "loss": 1.3015,
      "step": 1129
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.09128767997026443,
      "learning_rate": 0.00014226442013100035,
      "loss": 1.2391,
      "step": 1130
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.11322212964296341,
      "learning_rate": 0.00014217101588602572,
      "loss": 1.4983,
      "step": 1131
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.0780053436756134,
      "learning_rate": 0.0001420775668698319,
      "loss": 0.9616,
      "step": 1132
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.0901261419057846,
      "learning_rate": 0.00014198407318162976,
      "loss": 1.218,
      "step": 1133
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.08618736267089844,
      "learning_rate": 0.00014189053492067775,
      "loss": 1.1451,
      "step": 1134
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.0928853377699852,
      "learning_rate": 0.0001417969521862815,
      "loss": 1.0681,
      "step": 1135
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.0962471067905426,
      "learning_rate": 0.00014170332507779397,
      "loss": 1.2452,
      "step": 1136
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.10371973365545273,
      "learning_rate": 0.00014160965369461515,
      "loss": 1.2264,
      "step": 1137
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.09922056645154953,
      "learning_rate": 0.0001415159381361921,
      "loss": 1.386,
      "step": 1138
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.12338308990001678,
      "learning_rate": 0.00014142217850201868,
      "loss": 1.0467,
      "step": 1139
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.09021501988172531,
      "learning_rate": 0.00014132837489163567,
      "loss": 1.1333,
      "step": 1140
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.08738788217306137,
      "learning_rate": 0.00014123452740463042,
      "loss": 0.983,
      "step": 1141
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.08590232580900192,
      "learning_rate": 0.00014114063614063696,
      "loss": 1.1199,
      "step": 1142
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.08662337064743042,
      "learning_rate": 0.00014104670119933571,
      "loss": 1.128,
      "step": 1143
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.09038158506155014,
      "learning_rate": 0.00014095272268045355,
      "loss": 1.19,
      "step": 1144
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.09062106162309647,
      "learning_rate": 0.00014085870068376353,
      "loss": 1.2092,
      "step": 1145
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.1351018100976944,
      "learning_rate": 0.00014076463530908494,
      "loss": 1.2049,
      "step": 1146
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.10191931575536728,
      "learning_rate": 0.00014067052665628308,
      "loss": 1.3527,
      "step": 1147
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.07985897362232208,
      "learning_rate": 0.00014057637482526922,
      "loss": 1.1659,
      "step": 1148
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.10022406280040741,
      "learning_rate": 0.0001404821799160004,
      "loss": 1.2686,
      "step": 1149
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.08160050213336945,
      "learning_rate": 0.00014038794202847954,
      "loss": 1.0361,
      "step": 1150
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.08739824593067169,
      "learning_rate": 0.000140293661262755,
      "loss": 1.1512,
      "step": 1151
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.10146929323673248,
      "learning_rate": 0.00014019933771892084,
      "loss": 1.3,
      "step": 1152
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.10179619491100311,
      "learning_rate": 0.00014010497149711642,
      "loss": 1.4097,
      "step": 1153
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.08360686153173447,
      "learning_rate": 0.00014001056269752644,
      "loss": 1.1058,
      "step": 1154
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.0967346802353859,
      "learning_rate": 0.0001399161114203808,
      "loss": 1.1717,
      "step": 1155
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.09379181265830994,
      "learning_rate": 0.00013982161776595456,
      "loss": 1.1818,
      "step": 1156
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.09329712390899658,
      "learning_rate": 0.00013972708183456766,
      "loss": 0.8509,
      "step": 1157
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.08215396851301193,
      "learning_rate": 0.000139632503726585,
      "loss": 1.1277,
      "step": 1158
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.09043752402067184,
      "learning_rate": 0.00013953788354241622,
      "loss": 1.4025,
      "step": 1159
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.09531474113464355,
      "learning_rate": 0.0001394432213825157,
      "loss": 1.0859,
      "step": 1160
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.09292061626911163,
      "learning_rate": 0.00013934851734738221,
      "loss": 0.9693,
      "step": 1161
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.08968769013881683,
      "learning_rate": 0.00013925377153755925,
      "loss": 1.1753,
      "step": 1162
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.0891139954328537,
      "learning_rate": 0.00013915898405363443,
      "loss": 1.1893,
      "step": 1163
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.09048478305339813,
      "learning_rate": 0.00013906415499623972,
      "loss": 1.0884,
      "step": 1164
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.09769124537706375,
      "learning_rate": 0.00013896928446605113,
      "loss": 1.0972,
      "step": 1165
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.07943381369113922,
      "learning_rate": 0.0001388743725637889,
      "loss": 1.2175,
      "step": 1166
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.08798827230930328,
      "learning_rate": 0.00013877941939021695,
      "loss": 1.3913,
      "step": 1167
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.09645213931798935,
      "learning_rate": 0.00013868442504614317,
      "loss": 1.1566,
      "step": 1168
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.0855674147605896,
      "learning_rate": 0.0001385893896324191,
      "loss": 1.0702,
      "step": 1169
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.07673133909702301,
      "learning_rate": 0.00013849431324993992,
      "loss": 1.2589,
      "step": 1170
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.0823918953537941,
      "learning_rate": 0.0001383991959996443,
      "loss": 1.0888,
      "step": 1171
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.10688403993844986,
      "learning_rate": 0.00013830403798251422,
      "loss": 1.4245,
      "step": 1172
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.09957115352153778,
      "learning_rate": 0.00013820883929957503,
      "loss": 1.2257,
      "step": 1173
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.09672617167234421,
      "learning_rate": 0.00013811360005189525,
      "loss": 1.3465,
      "step": 1174
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.08894725143909454,
      "learning_rate": 0.00013801832034058645,
      "loss": 1.1642,
      "step": 1175
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.08050256967544556,
      "learning_rate": 0.0001379230002668031,
      "loss": 0.989,
      "step": 1176
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.08343324065208435,
      "learning_rate": 0.00013782763993174259,
      "loss": 1.3053,
      "step": 1177
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.08665145933628082,
      "learning_rate": 0.00013773223943664505,
      "loss": 0.9861,
      "step": 1178
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.08662264049053192,
      "learning_rate": 0.0001376367988827932,
      "loss": 1.0238,
      "step": 1179
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.0902816653251648,
      "learning_rate": 0.00013754131837151234,
      "loss": 1.1862,
      "step": 1180
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.08907479047775269,
      "learning_rate": 0.00013744579800417016,
      "loss": 0.9641,
      "step": 1181
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.09430835396051407,
      "learning_rate": 0.00013735023788217672,
      "loss": 1.0027,
      "step": 1182
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.0847993716597557,
      "learning_rate": 0.00013725463810698417,
      "loss": 0.9738,
      "step": 1183
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.0929441973567009,
      "learning_rate": 0.00013715899878008687,
      "loss": 1.2102,
      "step": 1184
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.07598242908716202,
      "learning_rate": 0.00013706332000302108,
      "loss": 1.0273,
      "step": 1185
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.09799207001924515,
      "learning_rate": 0.00013696760187736508,
      "loss": 1.0714,
      "step": 1186
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.10814066231250763,
      "learning_rate": 0.00013687184450473876,
      "loss": 1.3199,
      "step": 1187
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.07920951396226883,
      "learning_rate": 0.0001367760479868038,
      "loss": 1.1849,
      "step": 1188
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.08429884910583496,
      "learning_rate": 0.00013668021242526333,
      "loss": 1.3284,
      "step": 1189
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.09833259880542755,
      "learning_rate": 0.00013658433792186205,
      "loss": 1.3027,
      "step": 1190
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.08972413092851639,
      "learning_rate": 0.00013648842457838592,
      "loss": 1.1809,
      "step": 1191
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.07582113891839981,
      "learning_rate": 0.00013639247249666218,
      "loss": 1.1759,
      "step": 1192
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.07063476741313934,
      "learning_rate": 0.00013629648177855916,
      "loss": 0.9762,
      "step": 1193
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.08549682050943375,
      "learning_rate": 0.00013620045252598622,
      "loss": 1.1447,
      "step": 1194
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.09319033473730087,
      "learning_rate": 0.00013610438484089365,
      "loss": 1.1186,
      "step": 1195
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.08497250080108643,
      "learning_rate": 0.00013600827882527254,
      "loss": 1.2636,
      "step": 1196
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.0931629091501236,
      "learning_rate": 0.0001359121345811546,
      "loss": 1.042,
      "step": 1197
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.09610223025083542,
      "learning_rate": 0.00013581595221061227,
      "loss": 1.1181,
      "step": 1198
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.08825349062681198,
      "learning_rate": 0.00013571973181575835,
      "loss": 1.0396,
      "step": 1199
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.08976442366838455,
      "learning_rate": 0.00013562347349874604,
      "loss": 1.3945,
      "step": 1200
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.09342648833990097,
      "learning_rate": 0.00013552717736176878,
      "loss": 1.2207,
      "step": 1201
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.08452824503183365,
      "learning_rate": 0.00013543084350706028,
      "loss": 1.0522,
      "step": 1202
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.08465161174535751,
      "learning_rate": 0.00013533447203689409,
      "loss": 1.1641,
      "step": 1203
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.07297605276107788,
      "learning_rate": 0.00013523806305358385,
      "loss": 0.9522,
      "step": 1204
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.11933207511901855,
      "learning_rate": 0.00013514161665948297,
      "loss": 1.1795,
      "step": 1205
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.0859321653842926,
      "learning_rate": 0.00013504513295698462,
      "loss": 1.1732,
      "step": 1206
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.0957307368516922,
      "learning_rate": 0.0001349486120485215,
      "loss": 1.2965,
      "step": 1207
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.09841260313987732,
      "learning_rate": 0.00013485205403656591,
      "loss": 1.2246,
      "step": 1208
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.07643883675336838,
      "learning_rate": 0.00013475545902362943,
      "loss": 1.2657,
      "step": 1209
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.09062516689300537,
      "learning_rate": 0.00013465882711226302,
      "loss": 1.1998,
      "step": 1210
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.0803908184170723,
      "learning_rate": 0.00013456215840505678,
      "loss": 1.0853,
      "step": 1211
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.07891444116830826,
      "learning_rate": 0.00013446545300463986,
      "loss": 1.0384,
      "step": 1212
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.0776372179389,
      "learning_rate": 0.00013436871101368033,
      "loss": 1.0959,
      "step": 1213
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.08687058836221695,
      "learning_rate": 0.0001342719325348852,
      "loss": 1.1569,
      "step": 1214
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.0908912867307663,
      "learning_rate": 0.00013417511767100016,
      "loss": 1.2967,
      "step": 1215
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.086028091609478,
      "learning_rate": 0.00013407826652480956,
      "loss": 1.2632,
      "step": 1216
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.0805966779589653,
      "learning_rate": 0.00013398137919913618,
      "loss": 1.0845,
      "step": 1217
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.08439763635396957,
      "learning_rate": 0.00013388445579684134,
      "loss": 1.2389,
      "step": 1218
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.09502055495977402,
      "learning_rate": 0.00013378749642082457,
      "loss": 1.4107,
      "step": 1219
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.08694536983966827,
      "learning_rate": 0.00013369050117402362,
      "loss": 1.1534,
      "step": 1220
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.0910310447216034,
      "learning_rate": 0.00013359347015941432,
      "loss": 1.4174,
      "step": 1221
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.08172550797462463,
      "learning_rate": 0.00013349640348001054,
      "loss": 1.2574,
      "step": 1222
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.07421483844518661,
      "learning_rate": 0.00013339930123886382,
      "loss": 1.0209,
      "step": 1223
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.0931035578250885,
      "learning_rate": 0.00013330216353906368,
      "loss": 1.2249,
      "step": 1224
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.08503065258264542,
      "learning_rate": 0.00013320499048373718,
      "loss": 1.1302,
      "step": 1225
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.09309668093919754,
      "learning_rate": 0.00013310778217604888,
      "loss": 1.2408,
      "step": 1226
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.06965488940477371,
      "learning_rate": 0.00013301053871920087,
      "loss": 1.1801,
      "step": 1227
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.08761877566576004,
      "learning_rate": 0.00013291326021643246,
      "loss": 0.8351,
      "step": 1228
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.09199398010969162,
      "learning_rate": 0.0001328159467710202,
      "loss": 0.944,
      "step": 1229
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.08364813774824142,
      "learning_rate": 0.00013271859848627772,
      "loss": 1.0332,
      "step": 1230
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.09218093007802963,
      "learning_rate": 0.00013262121546555572,
      "loss": 1.3183,
      "step": 1231
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.11060269176959991,
      "learning_rate": 0.0001325237978122417,
      "loss": 1.1082,
      "step": 1232
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.09054608643054962,
      "learning_rate": 0.0001324263456297599,
      "loss": 1.1122,
      "step": 1233
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.0973866879940033,
      "learning_rate": 0.0001323288590215713,
      "loss": 0.9585,
      "step": 1234
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.11306141316890717,
      "learning_rate": 0.00013223133809117337,
      "loss": 1.186,
      "step": 1235
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.11251191049814224,
      "learning_rate": 0.00013213378294210006,
      "loss": 1.2047,
      "step": 1236
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.09960142523050308,
      "learning_rate": 0.00013203619367792158,
      "loss": 1.2015,
      "step": 1237
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.08028863370418549,
      "learning_rate": 0.0001319385704022445,
      "loss": 1.0966,
      "step": 1238
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.08503750711679459,
      "learning_rate": 0.00013184091321871133,
      "loss": 1.2161,
      "step": 1239
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.09345296025276184,
      "learning_rate": 0.0001317432222310006,
      "loss": 1.278,
      "step": 1240
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.08547773957252502,
      "learning_rate": 0.00013164549754282693,
      "loss": 1.0141,
      "step": 1241
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.09492174535989761,
      "learning_rate": 0.0001315477392579405,
      "loss": 1.0201,
      "step": 1242
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.08412059396505356,
      "learning_rate": 0.00013144994748012713,
      "loss": 1.3892,
      "step": 1243
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.08974771201610565,
      "learning_rate": 0.00013135212231320847,
      "loss": 0.8927,
      "step": 1244
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.09787634760141373,
      "learning_rate": 0.0001312542638610413,
      "loss": 1.3731,
      "step": 1245
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.08702712506055832,
      "learning_rate": 0.000131156372227518,
      "loss": 1.1564,
      "step": 1246
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.12134439498186111,
      "learning_rate": 0.00013105844751656594,
      "loss": 1.2847,
      "step": 1247
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.08712608367204666,
      "learning_rate": 0.0001309604898321478,
      "loss": 1.1427,
      "step": 1248
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.08822109550237656,
      "learning_rate": 0.00013086249927826119,
      "loss": 1.1056,
      "step": 1249
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.10544507950544357,
      "learning_rate": 0.00013076447595893859,
      "loss": 1.5419,
      "step": 1250
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.0898931622505188,
      "learning_rate": 0.00013066641997824734,
      "loss": 1.2817,
      "step": 1251
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.09420999884605408,
      "learning_rate": 0.00013056833144028935,
      "loss": 1.1529,
      "step": 1252
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.10036417096853256,
      "learning_rate": 0.00013047021044920119,
      "loss": 1.3166,
      "step": 1253
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.11062490195035934,
      "learning_rate": 0.00013037205710915382,
      "loss": 1.2535,
      "step": 1254
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.09266883134841919,
      "learning_rate": 0.00013027387152435266,
      "loss": 1.1405,
      "step": 1255
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.09206977486610413,
      "learning_rate": 0.00013017565379903716,
      "loss": 1.2001,
      "step": 1256
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.09695585072040558,
      "learning_rate": 0.00013007740403748108,
      "loss": 1.0446,
      "step": 1257
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.08620952814817429,
      "learning_rate": 0.00012997912234399204,
      "loss": 1.1169,
      "step": 1258
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.08978530019521713,
      "learning_rate": 0.00012988080882291175,
      "loss": 1.3111,
      "step": 1259
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.10054924339056015,
      "learning_rate": 0.00012978246357861552,
      "loss": 1.006,
      "step": 1260
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.09115590155124664,
      "learning_rate": 0.00012968408671551246,
      "loss": 1.3212,
      "step": 1261
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.07982508838176727,
      "learning_rate": 0.00012958567833804517,
      "loss": 0.9031,
      "step": 1262
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.0962832123041153,
      "learning_rate": 0.00012948723855068977,
      "loss": 1.2286,
      "step": 1263
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.0861852616071701,
      "learning_rate": 0.0001293887674579557,
      "loss": 1.287,
      "step": 1264
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.08311343193054199,
      "learning_rate": 0.00012929026516438562,
      "loss": 1.0399,
      "step": 1265
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.09084224700927734,
      "learning_rate": 0.00012919173177455533,
      "loss": 1.0108,
      "step": 1266
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.09911910444498062,
      "learning_rate": 0.00012909316739307368,
      "loss": 1.2692,
      "step": 1267
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.08711926639080048,
      "learning_rate": 0.00012899457212458233,
      "loss": 1.0833,
      "step": 1268
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.08221635222434998,
      "learning_rate": 0.00012889594607375587,
      "loss": 1.2175,
      "step": 1269
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.10001187771558762,
      "learning_rate": 0.00012879728934530143,
      "loss": 1.2152,
      "step": 1270
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.09377269446849823,
      "learning_rate": 0.00012869860204395877,
      "loss": 1.1532,
      "step": 1271
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.08989045768976212,
      "learning_rate": 0.0001285998842745001,
      "loss": 1.237,
      "step": 1272
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.11527752131223679,
      "learning_rate": 0.00012850113614173005,
      "loss": 1.3364,
      "step": 1273
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.08604636043310165,
      "learning_rate": 0.00012840235775048533,
      "loss": 1.0706,
      "step": 1274
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.07703463733196259,
      "learning_rate": 0.00012830354920563493,
      "loss": 1.1714,
      "step": 1275
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.08045919984579086,
      "learning_rate": 0.0001282047106120797,
      "loss": 1.0775,
      "step": 1276
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.09717388451099396,
      "learning_rate": 0.0001281058420747526,
      "loss": 1.2014,
      "step": 1277
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.09249131381511688,
      "learning_rate": 0.00012800694369861817,
      "loss": 1.4177,
      "step": 1278
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.09153535962104797,
      "learning_rate": 0.00012790801558867272,
      "loss": 1.2693,
      "step": 1279
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.08211056888103485,
      "learning_rate": 0.00012780905784994418,
      "loss": 1.0372,
      "step": 1280
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.08809658139944077,
      "learning_rate": 0.00012771007058749183,
      "loss": 1.277,
      "step": 1281
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.0787929818034172,
      "learning_rate": 0.0001276110539064063,
      "loss": 1.0201,
      "step": 1282
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.08550479263067245,
      "learning_rate": 0.00012751200791180962,
      "loss": 0.9998,
      "step": 1283
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.09406717866659164,
      "learning_rate": 0.00012741293270885468,
      "loss": 1.2511,
      "step": 1284
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.0858648419380188,
      "learning_rate": 0.00012731382840272564,
      "loss": 1.2468,
      "step": 1285
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.07706280052661896,
      "learning_rate": 0.0001272146950986373,
      "loss": 1.1974,
      "step": 1286
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.08311185240745544,
      "learning_rate": 0.00012711553290183553,
      "loss": 1.0518,
      "step": 1287
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.08380080759525299,
      "learning_rate": 0.0001270163419175966,
      "loss": 1.1027,
      "step": 1288
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.08663756400346756,
      "learning_rate": 0.00012691712225122752,
      "loss": 1.2496,
      "step": 1289
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.08722782135009766,
      "learning_rate": 0.00012681787400806567,
      "loss": 1.3418,
      "step": 1290
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.08794383704662323,
      "learning_rate": 0.00012671859729347884,
      "loss": 1.0888,
      "step": 1291
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.08084482699632645,
      "learning_rate": 0.00012661929221286492,
      "loss": 1.0297,
      "step": 1292
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.0863770842552185,
      "learning_rate": 0.00012651995887165212,
      "loss": 1.2373,
      "step": 1293
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.08851886540651321,
      "learning_rate": 0.00012642059737529842,
      "loss": 1.2889,
      "step": 1294
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.10227511078119278,
      "learning_rate": 0.00012632120782929185,
      "loss": 1.1617,
      "step": 1295
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.09257698059082031,
      "learning_rate": 0.00012622179033915015,
      "loss": 1.2073,
      "step": 1296
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.10253733396530151,
      "learning_rate": 0.00012612234501042078,
      "loss": 1.1484,
      "step": 1297
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.09285663813352585,
      "learning_rate": 0.00012602287194868073,
      "loss": 1.0529,
      "step": 1298
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.08632886409759521,
      "learning_rate": 0.00012592337125953633,
      "loss": 1.1751,
      "step": 1299
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.0837155357003212,
      "learning_rate": 0.00012582384304862346,
      "loss": 1.0312,
      "step": 1300
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.07497237622737885,
      "learning_rate": 0.000125724287421607,
      "loss": 1.0438,
      "step": 1301
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.08276520669460297,
      "learning_rate": 0.00012562470448418108,
      "loss": 0.9125,
      "step": 1302
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.08902527391910553,
      "learning_rate": 0.0001255250943420688,
      "loss": 1.2557,
      "step": 1303
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.10572145134210587,
      "learning_rate": 0.00012542545710102207,
      "loss": 1.4523,
      "step": 1304
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.08492980897426605,
      "learning_rate": 0.00012532579286682162,
      "loss": 1.2162,
      "step": 1305
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.09150967746973038,
      "learning_rate": 0.00012522610174527685,
      "loss": 1.0517,
      "step": 1306
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.10158524662256241,
      "learning_rate": 0.00012512638384222573,
      "loss": 1.0725,
      "step": 1307
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.08061851561069489,
      "learning_rate": 0.00012502663926353456,
      "loss": 0.9771,
      "step": 1308
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.11557295173406601,
      "learning_rate": 0.000124926868115098,
      "loss": 1.3486,
      "step": 1309
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.0924990326166153,
      "learning_rate": 0.00012482707050283907,
      "loss": 1.1827,
      "step": 1310
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.08090729266405106,
      "learning_rate": 0.00012472724653270862,
      "loss": 1.1164,
      "step": 1311
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.10747341811656952,
      "learning_rate": 0.0001246273963106857,
      "loss": 1.2252,
      "step": 1312
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.10453370213508606,
      "learning_rate": 0.00012452751994277713,
      "loss": 1.2535,
      "step": 1313
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.09473150223493576,
      "learning_rate": 0.0001244276175350175,
      "loss": 1.2502,
      "step": 1314
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.10395807027816772,
      "learning_rate": 0.00012432768919346906,
      "loss": 1.135,
      "step": 1315
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.08586447685956955,
      "learning_rate": 0.0001242277350242216,
      "loss": 1.1256,
      "step": 1316
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.09255239367485046,
      "learning_rate": 0.0001241277551333923,
      "loss": 1.1852,
      "step": 1317
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.10878726840019226,
      "learning_rate": 0.0001240277496271257,
      "loss": 1.1988,
      "step": 1318
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.08552098274230957,
      "learning_rate": 0.00012392771861159346,
      "loss": 1.1542,
      "step": 1319
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.09766525030136108,
      "learning_rate": 0.00012382766219299436,
      "loss": 1.0728,
      "step": 1320
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.09022209048271179,
      "learning_rate": 0.00012372758047755414,
      "loss": 1.1071,
      "step": 1321
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.08056436479091644,
      "learning_rate": 0.0001236274735715255,
      "loss": 1.1397,
      "step": 1322
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.09278228878974915,
      "learning_rate": 0.0001235273415811877,
      "loss": 1.2702,
      "step": 1323
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.08561549335718155,
      "learning_rate": 0.00012342718461284672,
      "loss": 1.1927,
      "step": 1324
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.10450749844312668,
      "learning_rate": 0.0001233270027728351,
      "loss": 1.3358,
      "step": 1325
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.09876471757888794,
      "learning_rate": 0.00012322679616751176,
      "loss": 1.3257,
      "step": 1326
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.09191320091485977,
      "learning_rate": 0.00012312656490326188,
      "loss": 1.1142,
      "step": 1327
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.08982070535421371,
      "learning_rate": 0.00012302630908649678,
      "loss": 1.204,
      "step": 1328
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.08208096027374268,
      "learning_rate": 0.000122926028823654,
      "loss": 1.229,
      "step": 1329
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.10138587653636932,
      "learning_rate": 0.0001228257242211969,
      "loss": 1.2986,
      "step": 1330
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.08681602030992508,
      "learning_rate": 0.00012272539538561467,
      "loss": 1.3729,
      "step": 1331
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.09762348979711533,
      "learning_rate": 0.00012262504242342235,
      "loss": 1.0962,
      "step": 1332
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.07970700412988663,
      "learning_rate": 0.00012252466544116048,
      "loss": 1.2618,
      "step": 1333
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.09303802251815796,
      "learning_rate": 0.00012242426454539516,
      "loss": 1.0158,
      "step": 1334
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.08835624158382416,
      "learning_rate": 0.00012232383984271783,
      "loss": 1.2125,
      "step": 1335
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.10848595201969147,
      "learning_rate": 0.00012222339143974523,
      "loss": 1.2646,
      "step": 1336
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.11647682636976242,
      "learning_rate": 0.00012212291944311933,
      "loss": 1.3383,
      "step": 1337
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.08612092584371567,
      "learning_rate": 0.000122022423959507,
      "loss": 1.1868,
      "step": 1338
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.10143036395311356,
      "learning_rate": 0.0001219219050956002,
      "loss": 1.2887,
      "step": 1339
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.09681069850921631,
      "learning_rate": 0.00012182136295811557,
      "loss": 1.2763,
      "step": 1340
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.08099117130041122,
      "learning_rate": 0.00012172079765379458,
      "loss": 1.0453,
      "step": 1341
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.08035444468259811,
      "learning_rate": 0.00012162020928940324,
      "loss": 1.1917,
      "step": 1342
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.08961553871631622,
      "learning_rate": 0.00012151959797173205,
      "loss": 1.069,
      "step": 1343
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.1157972514629364,
      "learning_rate": 0.00012141896380759581,
      "loss": 1.2185,
      "step": 1344
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.10159555077552795,
      "learning_rate": 0.00012131830690383375,
      "loss": 1.2967,
      "step": 1345
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.09573571383953094,
      "learning_rate": 0.00012121762736730904,
      "loss": 1.2887,
      "step": 1346
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.0860888808965683,
      "learning_rate": 0.00012111692530490899,
      "loss": 0.8751,
      "step": 1347
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.16526953876018524,
      "learning_rate": 0.00012101620082354484,
      "loss": 0.9683,
      "step": 1348
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.0962710753083229,
      "learning_rate": 0.00012091545403015159,
      "loss": 0.9592,
      "step": 1349
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.0951792299747467,
      "learning_rate": 0.0001208146850316879,
      "loss": 0.9172,
      "step": 1350
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.0804206058382988,
      "learning_rate": 0.00012071389393513603,
      "loss": 1.0321,
      "step": 1351
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.08747891336679459,
      "learning_rate": 0.00012061308084750175,
      "loss": 1.022,
      "step": 1352
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.10773107409477234,
      "learning_rate": 0.00012051224587581416,
      "loss": 1.2364,
      "step": 1353
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.08635377138853073,
      "learning_rate": 0.00012041138912712546,
      "loss": 1.2689,
      "step": 1354
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.08952300995588303,
      "learning_rate": 0.0001203105107085112,
      "loss": 0.8106,
      "step": 1355
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.11334968358278275,
      "learning_rate": 0.00012020961072706973,
      "loss": 1.1669,
      "step": 1356
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.10848329216241837,
      "learning_rate": 0.00012010868928992243,
      "loss": 1.0589,
      "step": 1357
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.1133638545870781,
      "learning_rate": 0.00012000774650421336,
      "loss": 1.3081,
      "step": 1358
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.08815950900316238,
      "learning_rate": 0.00011990678247710935,
      "loss": 0.9832,
      "step": 1359
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.08206349611282349,
      "learning_rate": 0.00011980579731579966,
      "loss": 1.2696,
      "step": 1360
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.08839456737041473,
      "learning_rate": 0.00011970479112749609,
      "loss": 1.0613,
      "step": 1361
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.08356121927499771,
      "learning_rate": 0.0001196037640194327,
      "loss": 1.1493,
      "step": 1362
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.07834324240684509,
      "learning_rate": 0.0001195027160988658,
      "loss": 1.2681,
      "step": 1363
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.0795789584517479,
      "learning_rate": 0.00011940164747307374,
      "loss": 1.0486,
      "step": 1364
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.22570103406906128,
      "learning_rate": 0.00011930055824935695,
      "loss": 1.1241,
      "step": 1365
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.08403278887271881,
      "learning_rate": 0.00011919944853503764,
      "loss": 1.2673,
      "step": 1366
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.08180595189332962,
      "learning_rate": 0.00011909831843745978,
      "loss": 1.1177,
      "step": 1367
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.10031206160783768,
      "learning_rate": 0.00011899716806398902,
      "loss": 1.0852,
      "step": 1368
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.0997086688876152,
      "learning_rate": 0.00011889599752201255,
      "loss": 0.961,
      "step": 1369
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.10722131282091141,
      "learning_rate": 0.00011879480691893887,
      "loss": 1.4097,
      "step": 1370
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.08794771134853363,
      "learning_rate": 0.00011869359636219788,
      "loss": 1.0357,
      "step": 1371
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.08072856813669205,
      "learning_rate": 0.00011859236595924069,
      "loss": 1.2738,
      "step": 1372
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.08724841475486755,
      "learning_rate": 0.00011849111581753932,
      "loss": 0.9264,
      "step": 1373
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.09085755795240402,
      "learning_rate": 0.00011838984604458692,
      "loss": 0.9303,
      "step": 1374
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.07917338609695435,
      "learning_rate": 0.00011828855674789738,
      "loss": 1.1925,
      "step": 1375
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.10229848325252533,
      "learning_rate": 0.00011818724803500539,
      "loss": 1.2509,
      "step": 1376
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.07423543930053711,
      "learning_rate": 0.0001180859200134661,
      "loss": 0.9187,
      "step": 1377
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.09093800187110901,
      "learning_rate": 0.00011798457279085542,
      "loss": 0.9583,
      "step": 1378
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.09684485197067261,
      "learning_rate": 0.00011788320647476938,
      "loss": 1.3184,
      "step": 1379
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.12195535749197006,
      "learning_rate": 0.00011778182117282443,
      "loss": 1.1374,
      "step": 1380
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.08829156309366226,
      "learning_rate": 0.00011768041699265717,
      "loss": 1.0709,
      "step": 1381
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.0958176925778389,
      "learning_rate": 0.0001175789940419242,
      "loss": 1.2382,
      "step": 1382
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.09135644137859344,
      "learning_rate": 0.00011747755242830202,
      "loss": 1.1228,
      "step": 1383
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.08884572982788086,
      "learning_rate": 0.00011737609225948702,
      "loss": 1.0929,
      "step": 1384
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.09734932333230972,
      "learning_rate": 0.00011727461364319527,
      "loss": 1.1049,
      "step": 1385
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.08991330862045288,
      "learning_rate": 0.0001171731166871624,
      "loss": 1.0455,
      "step": 1386
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.09676750749349594,
      "learning_rate": 0.0001170716014991435,
      "loss": 1.2276,
      "step": 1387
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.12714175879955292,
      "learning_rate": 0.00011697006818691305,
      "loss": 1.0119,
      "step": 1388
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.09282530099153519,
      "learning_rate": 0.00011686851685826477,
      "loss": 1.0845,
      "step": 1389
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.09789827466011047,
      "learning_rate": 0.00011676694762101146,
      "loss": 0.986,
      "step": 1390
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.0813322439789772,
      "learning_rate": 0.00011666536058298499,
      "loss": 1.0775,
      "step": 1391
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.1267024725675583,
      "learning_rate": 0.00011656375585203614,
      "loss": 1.1418,
      "step": 1392
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.09893757104873657,
      "learning_rate": 0.00011646213353603439,
      "loss": 1.2688,
      "step": 1393
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.08630049228668213,
      "learning_rate": 0.00011636049374286795,
      "loss": 1.1622,
      "step": 1394
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.0947432890534401,
      "learning_rate": 0.00011625883658044359,
      "loss": 1.1753,
      "step": 1395
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.09087851643562317,
      "learning_rate": 0.00011615716215668651,
      "loss": 0.9615,
      "step": 1396
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.10404366999864578,
      "learning_rate": 0.00011605547057954018,
      "loss": 1.2773,
      "step": 1397
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.09579934924840927,
      "learning_rate": 0.00011595376195696641,
      "loss": 1.1134,
      "step": 1398
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.08833558112382889,
      "learning_rate": 0.00011585203639694498,
      "loss": 1.1027,
      "step": 1399
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.08974206447601318,
      "learning_rate": 0.00011575029400747368,
      "loss": 0.9821,
      "step": 1400
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.11471564322710037,
      "learning_rate": 0.00011564853489656824,
      "loss": 1.2049,
      "step": 1401
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.07331151515245438,
      "learning_rate": 0.00011554675917226208,
      "loss": 0.9396,
      "step": 1402
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.09297305345535278,
      "learning_rate": 0.0001154449669426062,
      "loss": 1.2055,
      "step": 1403
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.09701349586248398,
      "learning_rate": 0.00011534315831566926,
      "loss": 1.0394,
      "step": 1404
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.07366570085287094,
      "learning_rate": 0.00011524133339953727,
      "loss": 1.1705,
      "step": 1405
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.10137824714183807,
      "learning_rate": 0.00011513949230231347,
      "loss": 1.1844,
      "step": 1406
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.1282086968421936,
      "learning_rate": 0.00011503763513211834,
      "loss": 1.3521,
      "step": 1407
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.10978394001722336,
      "learning_rate": 0.00011493576199708945,
      "loss": 1.1331,
      "step": 1408
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.09129098057746887,
      "learning_rate": 0.00011483387300538125,
      "loss": 1.1629,
      "step": 1409
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.10823319852352142,
      "learning_rate": 0.00011473196826516504,
      "loss": 1.2896,
      "step": 1410
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.10361718386411667,
      "learning_rate": 0.0001146300478846289,
      "loss": 1.3865,
      "step": 1411
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.09458521008491516,
      "learning_rate": 0.0001145281119719775,
      "loss": 1.0384,
      "step": 1412
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.08432728797197342,
      "learning_rate": 0.00011442616063543188,
      "loss": 0.9361,
      "step": 1413
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.10821312665939331,
      "learning_rate": 0.00011432419398322962,
      "loss": 1.3136,
      "step": 1414
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.1019124835729599,
      "learning_rate": 0.00011422221212362447,
      "loss": 1.1952,
      "step": 1415
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.08034075051546097,
      "learning_rate": 0.00011412021516488634,
      "loss": 1.3013,
      "step": 1416
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.09685003012418747,
      "learning_rate": 0.00011401820321530117,
      "loss": 1.2334,
      "step": 1417
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.09500446915626526,
      "learning_rate": 0.00011391617638317083,
      "loss": 1.0735,
      "step": 1418
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.33522164821624756,
      "learning_rate": 0.00011381413477681292,
      "loss": 1.1088,
      "step": 1419
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.09433950483798981,
      "learning_rate": 0.00011371207850456087,
      "loss": 1.1735,
      "step": 1420
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.0943494364619255,
      "learning_rate": 0.00011361000767476353,
      "loss": 1.0166,
      "step": 1421
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.08994188159704208,
      "learning_rate": 0.00011350792239578533,
      "loss": 1.4057,
      "step": 1422
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.08347003906965256,
      "learning_rate": 0.00011340582277600588,
      "loss": 1.0144,
      "step": 1423
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.08465338498353958,
      "learning_rate": 0.00011330370892382022,
      "loss": 1.1763,
      "step": 1424
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.0895058661699295,
      "learning_rate": 0.00011320158094763833,
      "loss": 1.1092,
      "step": 1425
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.09917373210191727,
      "learning_rate": 0.00011309943895588527,
      "loss": 1.1238,
      "step": 1426
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.0842377170920372,
      "learning_rate": 0.00011299728305700092,
      "loss": 1.0029,
      "step": 1427
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.08558105677366257,
      "learning_rate": 0.00011289511335944005,
      "loss": 0.9098,
      "step": 1428
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.07691995054483414,
      "learning_rate": 0.0001127929299716719,
      "loss": 1.1513,
      "step": 1429
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.11070670187473297,
      "learning_rate": 0.00011269073300218038,
      "loss": 1.0406,
      "step": 1430
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.09115037322044373,
      "learning_rate": 0.00011258852255946377,
      "loss": 0.8851,
      "step": 1431
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.13411705195903778,
      "learning_rate": 0.00011248629875203467,
      "loss": 0.9826,
      "step": 1432
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.08688797801733017,
      "learning_rate": 0.00011238406168841982,
      "loss": 1.1807,
      "step": 1433
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.08258987963199615,
      "learning_rate": 0.00011228181147716013,
      "loss": 1.2896,
      "step": 1434
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.07810018956661224,
      "learning_rate": 0.00011217954822681034,
      "loss": 0.9262,
      "step": 1435
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.08800841122865677,
      "learning_rate": 0.00011207727204593917,
      "loss": 1.0823,
      "step": 1436
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.0887501984834671,
      "learning_rate": 0.00011197498304312896,
      "loss": 1.3328,
      "step": 1437
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.09655321389436722,
      "learning_rate": 0.00011187268132697574,
      "loss": 1.0623,
      "step": 1438
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.07697466760873795,
      "learning_rate": 0.00011177036700608897,
      "loss": 1.1771,
      "step": 1439
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.08838430047035217,
      "learning_rate": 0.00011166804018909152,
      "loss": 1.184,
      "step": 1440
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.0987589955329895,
      "learning_rate": 0.00011156570098461953,
      "loss": 1.2888,
      "step": 1441
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.08954241126775742,
      "learning_rate": 0.0001114633495013223,
      "loss": 1.0998,
      "step": 1442
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.08703291416168213,
      "learning_rate": 0.00011136098584786217,
      "loss": 0.9278,
      "step": 1443
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.08863551914691925,
      "learning_rate": 0.00011125861013291439,
      "loss": 1.1157,
      "step": 1444
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.08209817856550217,
      "learning_rate": 0.00011115622246516697,
      "loss": 1.1279,
      "step": 1445
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.09977526217699051,
      "learning_rate": 0.00011105382295332068,
      "loss": 1.1276,
      "step": 1446
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.09060298651456833,
      "learning_rate": 0.00011095141170608882,
      "loss": 1.362,
      "step": 1447
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.08212457597255707,
      "learning_rate": 0.00011084898883219723,
      "loss": 1.1678,
      "step": 1448
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.08215862512588501,
      "learning_rate": 0.0001107465544403839,
      "loss": 0.9225,
      "step": 1449
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.08164898306131363,
      "learning_rate": 0.00011064410863939934,
      "loss": 1.1899,
      "step": 1450
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.08226540684700012,
      "learning_rate": 0.00011054165153800589,
      "loss": 1.2628,
      "step": 1451
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.10084257274866104,
      "learning_rate": 0.00011043918324497802,
      "loss": 1.1758,
      "step": 1452
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.09931132942438126,
      "learning_rate": 0.0001103367038691021,
      "loss": 1.0378,
      "step": 1453
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.0859564021229744,
      "learning_rate": 0.00011023421351917626,
      "loss": 0.9962,
      "step": 1454
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.09622316807508469,
      "learning_rate": 0.0001101317123040102,
      "loss": 0.9946,
      "step": 1455
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.1029711440205574,
      "learning_rate": 0.00011002920033242521,
      "loss": 1.0857,
      "step": 1456
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.09329650551080704,
      "learning_rate": 0.00010992667771325405,
      "loss": 1.1006,
      "step": 1457
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.09036722034215927,
      "learning_rate": 0.00010982414455534069,
      "loss": 1.0406,
      "step": 1458
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.10984571278095245,
      "learning_rate": 0.00010972160096754034,
      "loss": 1.1479,
      "step": 1459
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.09640296548604965,
      "learning_rate": 0.0001096190470587193,
      "loss": 1.2259,
      "step": 1460
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.0921231359243393,
      "learning_rate": 0.00010951648293775481,
      "loss": 1.0285,
      "step": 1461
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.08795608580112457,
      "learning_rate": 0.00010941390871353487,
      "loss": 0.9821,
      "step": 1462
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.08401835709810257,
      "learning_rate": 0.00010931132449495835,
      "loss": 1.4154,
      "step": 1463
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.10196711122989655,
      "learning_rate": 0.00010920873039093469,
      "loss": 1.1526,
      "step": 1464
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.08550386130809784,
      "learning_rate": 0.00010910612651038372,
      "loss": 0.8971,
      "step": 1465
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.09317058324813843,
      "learning_rate": 0.00010900351296223577,
      "loss": 1.065,
      "step": 1466
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.09476014226675034,
      "learning_rate": 0.00010890088985543137,
      "loss": 1.2147,
      "step": 1467
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.14203734695911407,
      "learning_rate": 0.00010879825729892123,
      "loss": 0.9751,
      "step": 1468
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.08843449503183365,
      "learning_rate": 0.00010869561540166604,
      "loss": 1.0875,
      "step": 1469
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.08830668777227402,
      "learning_rate": 0.00010859296427263654,
      "loss": 1.3292,
      "step": 1470
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.10075783729553223,
      "learning_rate": 0.00010849030402081311,
      "loss": 1.1229,
      "step": 1471
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.08239160478115082,
      "learning_rate": 0.00010838763475518588,
      "loss": 1.2608,
      "step": 1472
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.09686918556690216,
      "learning_rate": 0.00010828495658475457,
      "loss": 1.2141,
      "step": 1473
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.08807504922151566,
      "learning_rate": 0.00010818226961852835,
      "loss": 1.2415,
      "step": 1474
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.08916371315717697,
      "learning_rate": 0.00010807957396552565,
      "loss": 1.337,
      "step": 1475
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.09403186291456223,
      "learning_rate": 0.0001079768697347743,
      "loss": 1.3709,
      "step": 1476
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.09369078278541565,
      "learning_rate": 0.00010787415703531106,
      "loss": 1.0744,
      "step": 1477
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.08687245845794678,
      "learning_rate": 0.0001077714359761817,
      "loss": 0.8305,
      "step": 1478
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.10874254256486893,
      "learning_rate": 0.00010766870666644098,
      "loss": 1.1111,
      "step": 1479
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.08670711517333984,
      "learning_rate": 0.00010756596921515234,
      "loss": 1.1499,
      "step": 1480
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.09950361400842667,
      "learning_rate": 0.00010746322373138782,
      "loss": 1.188,
      "step": 1481
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.08970309048891068,
      "learning_rate": 0.00010736047032422809,
      "loss": 1.1061,
      "step": 1482
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.0889861136674881,
      "learning_rate": 0.00010725770910276218,
      "loss": 1.1794,
      "step": 1483
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.07253705710172653,
      "learning_rate": 0.00010715494017608743,
      "loss": 0.9302,
      "step": 1484
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.14619792997837067,
      "learning_rate": 0.00010705216365330928,
      "loss": 1.1516,
      "step": 1485
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.089421845972538,
      "learning_rate": 0.0001069493796435414,
      "loss": 0.9597,
      "step": 1486
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.10465262085199356,
      "learning_rate": 0.00010684658825590521,
      "loss": 1.389,
      "step": 1487
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.08181484043598175,
      "learning_rate": 0.00010674378959953015,
      "loss": 0.9245,
      "step": 1488
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.09142012894153595,
      "learning_rate": 0.00010664098378355325,
      "loss": 1.0725,
      "step": 1489
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.0918259471654892,
      "learning_rate": 0.00010653817091711919,
      "loss": 1.0588,
      "step": 1490
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.0977063924074173,
      "learning_rate": 0.00010643535110938014,
      "loss": 0.8997,
      "step": 1491
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.09734974801540375,
      "learning_rate": 0.00010633252446949562,
      "loss": 1.2123,
      "step": 1492
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.07984396815299988,
      "learning_rate": 0.00010622969110663239,
      "loss": 1.1921,
      "step": 1493
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.08105143904685974,
      "learning_rate": 0.00010612685112996437,
      "loss": 0.8557,
      "step": 1494
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.0952603816986084,
      "learning_rate": 0.00010602400464867255,
      "loss": 1.332,
      "step": 1495
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.0906563252210617,
      "learning_rate": 0.00010592115177194471,
      "loss": 1.0726,
      "step": 1496
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.09860397130250931,
      "learning_rate": 0.00010581829260897555,
      "loss": 1.1553,
      "step": 1497
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.09034127742052078,
      "learning_rate": 0.00010571542726896633,
      "loss": 1.141,
      "step": 1498
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.08600937575101852,
      "learning_rate": 0.0001056125558611249,
      "loss": 1.3734,
      "step": 1499
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.09543422609567642,
      "learning_rate": 0.00010550967849466564,
      "loss": 0.906,
      "step": 1500
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.08430718630552292,
      "learning_rate": 0.00010540679527880914,
      "loss": 1.1106,
      "step": 1501
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.08454833924770355,
      "learning_rate": 0.00010530390632278222,
      "loss": 0.9461,
      "step": 1502
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.10491041839122772,
      "learning_rate": 0.0001052010117358179,
      "loss": 1.039,
      "step": 1503
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.12160802632570267,
      "learning_rate": 0.00010509811162715499,
      "loss": 1.4197,
      "step": 1504
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.0849526971578598,
      "learning_rate": 0.00010499520610603834,
      "loss": 1.1532,
      "step": 1505
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.10352155566215515,
      "learning_rate": 0.00010489229528171847,
      "loss": 1.3926,
      "step": 1506
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.09881944209337234,
      "learning_rate": 0.00010478937926345154,
      "loss": 1.0617,
      "step": 1507
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.0948866605758667,
      "learning_rate": 0.00010468645816049918,
      "loss": 1.1235,
      "step": 1508
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.09189804643392563,
      "learning_rate": 0.0001045835320821285,
      "loss": 1.1182,
      "step": 1509
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.0979374349117279,
      "learning_rate": 0.00010448060113761182,
      "loss": 1.0516,
      "step": 1510
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.08869647234678268,
      "learning_rate": 0.00010437766543622669,
      "loss": 0.9857,
      "step": 1511
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.09148126095533371,
      "learning_rate": 0.00010427472508725564,
      "loss": 1.2069,
      "step": 1512
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.10273449122905731,
      "learning_rate": 0.00010417178019998622,
      "loss": 1.1986,
      "step": 1513
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.08176911622285843,
      "learning_rate": 0.00010406883088371069,
      "loss": 1.0117,
      "step": 1514
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.09893279522657394,
      "learning_rate": 0.00010396587724772608,
      "loss": 1.0838,
      "step": 1515
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.09672100096940994,
      "learning_rate": 0.00010386291940133404,
      "loss": 1.3202,
      "step": 1516
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.08901774883270264,
      "learning_rate": 0.00010375995745384064,
      "loss": 1.0402,
      "step": 1517
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.09123262763023376,
      "learning_rate": 0.00010365699151455623,
      "loss": 1.1215,
      "step": 1518
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.09209898114204407,
      "learning_rate": 0.0001035540216927956,
      "loss": 1.1871,
      "step": 1519
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.09589068591594696,
      "learning_rate": 0.00010345104809787747,
      "loss": 1.0412,
      "step": 1520
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.07181321084499359,
      "learning_rate": 0.00010334807083912463,
      "loss": 1.2467,
      "step": 1521
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.09226029366254807,
      "learning_rate": 0.0001032450900258638,
      "loss": 1.1057,
      "step": 1522
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.08866297453641891,
      "learning_rate": 0.00010314210576742544,
      "loss": 0.9112,
      "step": 1523
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.09634629637002945,
      "learning_rate": 0.00010303911817314365,
      "loss": 0.9939,
      "step": 1524
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.10096573829650879,
      "learning_rate": 0.00010293612735235607,
      "loss": 0.8711,
      "step": 1525
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.09180238097906113,
      "learning_rate": 0.00010283313341440382,
      "loss": 1.379,
      "step": 1526
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.08589636534452438,
      "learning_rate": 0.0001027301364686313,
      "loss": 1.3623,
      "step": 1527
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.08953863382339478,
      "learning_rate": 0.00010262713662438603,
      "loss": 1.103,
      "step": 1528
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.08932410925626755,
      "learning_rate": 0.00010252413399101877,
      "loss": 1.1554,
      "step": 1529
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.09286177903413773,
      "learning_rate": 0.00010242112867788307,
      "loss": 1.0348,
      "step": 1530
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.0911782830953598,
      "learning_rate": 0.00010231812079433542,
      "loss": 1.168,
      "step": 1531
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.08388300240039825,
      "learning_rate": 0.00010221511044973506,
      "loss": 1.01,
      "step": 1532
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.07732200622558594,
      "learning_rate": 0.00010211209775344377,
      "loss": 1.0821,
      "step": 1533
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.1292658895254135,
      "learning_rate": 0.00010200908281482584,
      "loss": 1.0545,
      "step": 1534
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.0958942249417305,
      "learning_rate": 0.00010190606574324799,
      "loss": 1.484,
      "step": 1535
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.09653940796852112,
      "learning_rate": 0.00010180304664807916,
      "loss": 1.5068,
      "step": 1536
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.08408050984144211,
      "learning_rate": 0.00010170002563869044,
      "loss": 1.0758,
      "step": 1537
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.09309494495391846,
      "learning_rate": 0.000101597002824455,
      "loss": 1.0259,
      "step": 1538
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.09328551590442657,
      "learning_rate": 0.00010149397831474787,
      "loss": 1.1898,
      "step": 1539
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.10631902515888214,
      "learning_rate": 0.00010139095221894588,
      "loss": 0.9469,
      "step": 1540
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.08702818304300308,
      "learning_rate": 0.0001012879246464276,
      "loss": 1.2296,
      "step": 1541
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.10087259113788605,
      "learning_rate": 0.00010118489570657312,
      "loss": 1.0818,
      "step": 1542
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.12534254789352417,
      "learning_rate": 0.000101081865508764,
      "loss": 1.0344,
      "step": 1543
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.09693174064159393,
      "learning_rate": 0.0001009788341623831,
      "loss": 1.006,
      "step": 1544
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.1262136995792389,
      "learning_rate": 0.00010087580177681458,
      "loss": 1.1636,
      "step": 1545
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.08032719045877457,
      "learning_rate": 0.00010077276846144358,
      "loss": 1.1668,
      "step": 1546
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.1510113626718521,
      "learning_rate": 0.00010066973432565639,
      "loss": 1.356,
      "step": 1547
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.08856373280286789,
      "learning_rate": 0.00010056669947883999,
      "loss": 1.1864,
      "step": 1548
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.08751031756401062,
      "learning_rate": 0.00010046366403038229,
      "loss": 1.0831,
      "step": 1549
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.4390200972557068,
      "learning_rate": 0.00010036062808967168,
      "loss": 0.974,
      "step": 1550
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.09046763181686401,
      "learning_rate": 0.0001002575917660972,
      "loss": 1.126,
      "step": 1551
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.08906295150518417,
      "learning_rate": 0.00010015455516904819,
      "loss": 1.0233,
      "step": 1552
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.08376338332891464,
      "learning_rate": 0.0001000515184079144,
      "loss": 0.9976,
      "step": 1553
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.08813194930553436,
      "learning_rate": 9.994848159208561e-05,
      "loss": 0.9689,
      "step": 1554
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.0848928838968277,
      "learning_rate": 9.984544483095181e-05,
      "loss": 1.0962,
      "step": 1555
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.08137081563472748,
      "learning_rate": 9.974240823390285e-05,
      "loss": 1.202,
      "step": 1556
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.08872334659099579,
      "learning_rate": 9.963937191032834e-05,
      "loss": 1.1594,
      "step": 1557
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.08986867964267731,
      "learning_rate": 9.953633596961773e-05,
      "loss": 1.1293,
      "step": 1558
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.08683433383703232,
      "learning_rate": 9.943330052116001e-05,
      "loss": 0.9802,
      "step": 1559
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.08998879790306091,
      "learning_rate": 9.933026567434365e-05,
      "loss": 1.0493,
      "step": 1560
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.08774431049823761,
      "learning_rate": 9.922723153855643e-05,
      "loss": 1.2231,
      "step": 1561
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.09754978120326996,
      "learning_rate": 9.912419822318545e-05,
      "loss": 1.1032,
      "step": 1562
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.08667407929897308,
      "learning_rate": 9.902116583761691e-05,
      "loss": 1.0801,
      "step": 1563
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.14995823800563812,
      "learning_rate": 9.891813449123604e-05,
      "loss": 1.1507,
      "step": 1564
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.08841430395841599,
      "learning_rate": 9.88151042934269e-05,
      "loss": 0.9971,
      "step": 1565
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.11697284132242203,
      "learning_rate": 9.871207535357242e-05,
      "loss": 0.9707,
      "step": 1566
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.084991455078125,
      "learning_rate": 9.860904778105413e-05,
      "loss": 1.1649,
      "step": 1567
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.08361074328422546,
      "learning_rate": 9.850602168525218e-05,
      "loss": 1.2864,
      "step": 1568
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.08681045472621918,
      "learning_rate": 9.840299717554504e-05,
      "loss": 1.1166,
      "step": 1569
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.14112353324890137,
      "learning_rate": 9.829997436130959e-05,
      "loss": 1.1502,
      "step": 1570
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.10277639329433441,
      "learning_rate": 9.819695335192085e-05,
      "loss": 1.2589,
      "step": 1571
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.0875738337635994,
      "learning_rate": 9.809393425675206e-05,
      "loss": 1.2676,
      "step": 1572
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.0787142813205719,
      "learning_rate": 9.799091718517418e-05,
      "loss": 0.9822,
      "step": 1573
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.09278953075408936,
      "learning_rate": 9.788790224655625e-05,
      "loss": 0.9578,
      "step": 1574
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.10362366586923599,
      "learning_rate": 9.778488955026495e-05,
      "loss": 1.0691,
      "step": 1575
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.0893579050898552,
      "learning_rate": 9.768187920566459e-05,
      "loss": 0.9144,
      "step": 1576
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.09827324002981186,
      "learning_rate": 9.757887132211695e-05,
      "loss": 1.0275,
      "step": 1577
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.08911921083927155,
      "learning_rate": 9.747586600898125e-05,
      "loss": 1.0292,
      "step": 1578
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.09204531461000443,
      "learning_rate": 9.737286337561398e-05,
      "loss": 1.2672,
      "step": 1579
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.08948075771331787,
      "learning_rate": 9.726986353136876e-05,
      "loss": 1.219,
      "step": 1580
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.09748535603284836,
      "learning_rate": 9.716686658559621e-05,
      "loss": 1.0734,
      "step": 1581
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.08578736335039139,
      "learning_rate": 9.706387264764395e-05,
      "loss": 1.0194,
      "step": 1582
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.08392781019210815,
      "learning_rate": 9.696088182685638e-05,
      "loss": 1.304,
      "step": 1583
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.09899682551622391,
      "learning_rate": 9.68578942325746e-05,
      "loss": 1.14,
      "step": 1584
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.0899963453412056,
      "learning_rate": 9.675490997413622e-05,
      "loss": 1.0936,
      "step": 1585
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.08999631553888321,
      "learning_rate": 9.665192916087539e-05,
      "loss": 0.907,
      "step": 1586
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.10483089089393616,
      "learning_rate": 9.654895190212253e-05,
      "loss": 1.1548,
      "step": 1587
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.090418741106987,
      "learning_rate": 9.644597830720443e-05,
      "loss": 1.0094,
      "step": 1588
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.0993262529373169,
      "learning_rate": 9.634300848544379e-05,
      "loss": 1.0332,
      "step": 1589
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.09174484759569168,
      "learning_rate": 9.62400425461594e-05,
      "loss": 0.9997,
      "step": 1590
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.09464286267757416,
      "learning_rate": 9.613708059866596e-05,
      "loss": 1.1863,
      "step": 1591
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.10829085856676102,
      "learning_rate": 9.603412275227396e-05,
      "loss": 1.3869,
      "step": 1592
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.11104355752468109,
      "learning_rate": 9.593116911628935e-05,
      "loss": 0.9643,
      "step": 1593
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.1187749058008194,
      "learning_rate": 9.58282198000138e-05,
      "loss": 1.2274,
      "step": 1594
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.0800420418381691,
      "learning_rate": 9.572527491274437e-05,
      "loss": 1.0434,
      "step": 1595
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.0982484519481659,
      "learning_rate": 9.562233456377335e-05,
      "loss": 1.2365,
      "step": 1596
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.11580273509025574,
      "learning_rate": 9.55193988623882e-05,
      "loss": 1.2816,
      "step": 1597
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.08642828464508057,
      "learning_rate": 9.541646791787152e-05,
      "loss": 1.1669,
      "step": 1598
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.10504204779863358,
      "learning_rate": 9.531354183950083e-05,
      "loss": 1.06,
      "step": 1599
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.0852760374546051,
      "learning_rate": 9.52106207365485e-05,
      "loss": 1.0612,
      "step": 1600
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.10574441403150558,
      "learning_rate": 9.510770471828156e-05,
      "loss": 1.2896,
      "step": 1601
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.12477613985538483,
      "learning_rate": 9.500479389396168e-05,
      "loss": 1.2855,
      "step": 1602
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.09092655032873154,
      "learning_rate": 9.490188837284503e-05,
      "loss": 1.0693,
      "step": 1603
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.0969330221414566,
      "learning_rate": 9.479898826418217e-05,
      "loss": 0.9968,
      "step": 1604
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.10302500426769257,
      "learning_rate": 9.469609367721781e-05,
      "loss": 1.09,
      "step": 1605
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.1196729987859726,
      "learning_rate": 9.459320472119088e-05,
      "loss": 1.1109,
      "step": 1606
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.093118816614151,
      "learning_rate": 9.449032150533437e-05,
      "loss": 1.004,
      "step": 1607
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.09315807372331619,
      "learning_rate": 9.438744413887514e-05,
      "loss": 1.2652,
      "step": 1608
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.09159765392541885,
      "learning_rate": 9.428457273103371e-05,
      "loss": 1.1693,
      "step": 1609
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.10726916044950485,
      "learning_rate": 9.418170739102447e-05,
      "loss": 1.3395,
      "step": 1610
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.16069358587265015,
      "learning_rate": 9.407884822805529e-05,
      "loss": 1.1842,
      "step": 1611
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.1112290769815445,
      "learning_rate": 9.397599535132749e-05,
      "loss": 1.4022,
      "step": 1612
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.0998128280043602,
      "learning_rate": 9.387314887003564e-05,
      "loss": 1.2401,
      "step": 1613
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.0887540802359581,
      "learning_rate": 9.377030889336764e-05,
      "loss": 1.1546,
      "step": 1614
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.1123807430267334,
      "learning_rate": 9.366747553050441e-05,
      "loss": 1.3342,
      "step": 1615
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.11113794893026352,
      "learning_rate": 9.356464889061988e-05,
      "loss": 1.1752,
      "step": 1616
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.11348582804203033,
      "learning_rate": 9.346182908288083e-05,
      "loss": 1.24,
      "step": 1617
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.0983775332570076,
      "learning_rate": 9.335901621644678e-05,
      "loss": 1.3173,
      "step": 1618
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.12112565338611603,
      "learning_rate": 9.325621040046988e-05,
      "loss": 1.1178,
      "step": 1619
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.11085223406553268,
      "learning_rate": 9.315341174409477e-05,
      "loss": 1.1246,
      "step": 1620
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.09420628845691681,
      "learning_rate": 9.305062035645867e-05,
      "loss": 1.011,
      "step": 1621
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.09570734202861786,
      "learning_rate": 9.294783634669076e-05,
      "loss": 1.1477,
      "step": 1622
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.08612988889217377,
      "learning_rate": 9.28450598239126e-05,
      "loss": 0.9526,
      "step": 1623
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.08804440498352051,
      "learning_rate": 9.274229089723782e-05,
      "loss": 1.1188,
      "step": 1624
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.1118922308087349,
      "learning_rate": 9.263952967577194e-05,
      "loss": 1.1224,
      "step": 1625
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.08840730041265488,
      "learning_rate": 9.253677626861219e-05,
      "loss": 0.9452,
      "step": 1626
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.08761528879404068,
      "learning_rate": 9.24340307848477e-05,
      "loss": 1.2771,
      "step": 1627
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.10330937057733536,
      "learning_rate": 9.233129333355902e-05,
      "loss": 1.0567,
      "step": 1628
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.08601588010787964,
      "learning_rate": 9.222856402381832e-05,
      "loss": 1.0733,
      "step": 1629
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.13251625001430511,
      "learning_rate": 9.212584296468898e-05,
      "loss": 1.187,
      "step": 1630
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.10423807054758072,
      "learning_rate": 9.202313026522571e-05,
      "loss": 1.2092,
      "step": 1631
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.10379697382450104,
      "learning_rate": 9.192042603447434e-05,
      "loss": 1.0908,
      "step": 1632
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.11194173991680145,
      "learning_rate": 9.181773038147168e-05,
      "loss": 1.0675,
      "step": 1633
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.09776081889867783,
      "learning_rate": 9.171504341524546e-05,
      "loss": 0.9585,
      "step": 1634
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.08580949157476425,
      "learning_rate": 9.161236524481415e-05,
      "loss": 1.1807,
      "step": 1635
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.07787908613681793,
      "learning_rate": 9.150969597918691e-05,
      "loss": 1.067,
      "step": 1636
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.09458938241004944,
      "learning_rate": 9.14070357273635e-05,
      "loss": 1.1411,
      "step": 1637
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.14569172263145447,
      "learning_rate": 9.130438459833397e-05,
      "loss": 0.9683,
      "step": 1638
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.09723403304815292,
      "learning_rate": 9.12017427010788e-05,
      "loss": 1.1726,
      "step": 1639
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.10078077763319016,
      "learning_rate": 9.109911014456864e-05,
      "loss": 1.23,
      "step": 1640
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.08864934742450714,
      "learning_rate": 9.099648703776429e-05,
      "loss": 1.0605,
      "step": 1641
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.1086459532380104,
      "learning_rate": 9.08938734896163e-05,
      "loss": 1.1975,
      "step": 1642
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.09757621586322784,
      "learning_rate": 9.079126960906532e-05,
      "loss": 1.0398,
      "step": 1643
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.10592546314001083,
      "learning_rate": 9.068867550504163e-05,
      "loss": 1.036,
      "step": 1644
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.09622690081596375,
      "learning_rate": 9.058609128646515e-05,
      "loss": 1.3171,
      "step": 1645
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.08799094706773758,
      "learning_rate": 9.048351706224523e-05,
      "loss": 1.1222,
      "step": 1646
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.09637622535228729,
      "learning_rate": 9.038095294128071e-05,
      "loss": 1.0675,
      "step": 1647
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.09280356764793396,
      "learning_rate": 9.027839903245965e-05,
      "loss": 1.1847,
      "step": 1648
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.09723308682441711,
      "learning_rate": 9.017585544465935e-05,
      "loss": 1.1787,
      "step": 1649
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.10138044506311417,
      "learning_rate": 9.007332228674599e-05,
      "loss": 1.0679,
      "step": 1650
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.08530982583761215,
      "learning_rate": 8.99707996675748e-05,
      "loss": 0.9675,
      "step": 1651
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.10112479329109192,
      "learning_rate": 8.986828769598982e-05,
      "loss": 1.068,
      "step": 1652
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.09918248653411865,
      "learning_rate": 8.976578648082378e-05,
      "loss": 1.0932,
      "step": 1653
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.11432183533906937,
      "learning_rate": 8.96632961308979e-05,
      "loss": 1.2878,
      "step": 1654
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.10209428519010544,
      "learning_rate": 8.956081675502199e-05,
      "loss": 0.9603,
      "step": 1655
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.09456180036067963,
      "learning_rate": 8.945834846199412e-05,
      "loss": 0.9838,
      "step": 1656
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.10398413985967636,
      "learning_rate": 8.93558913606007e-05,
      "loss": 1.2358,
      "step": 1657
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.09459967911243439,
      "learning_rate": 8.92534455596161e-05,
      "loss": 0.9755,
      "step": 1658
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.1017826497554779,
      "learning_rate": 8.91510111678028e-05,
      "loss": 1.164,
      "step": 1659
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.10723736882209778,
      "learning_rate": 8.904858829391116e-05,
      "loss": 1.1384,
      "step": 1660
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.10102162510156631,
      "learning_rate": 8.894617704667937e-05,
      "loss": 1.1647,
      "step": 1661
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.10086066275835037,
      "learning_rate": 8.884377753483304e-05,
      "loss": 1.0578,
      "step": 1662
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.0878998413681984,
      "learning_rate": 8.874138986708563e-05,
      "loss": 1.1418,
      "step": 1663
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.09546195715665817,
      "learning_rate": 8.863901415213784e-05,
      "loss": 0.9597,
      "step": 1664
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.1714036464691162,
      "learning_rate": 8.853665049867772e-05,
      "loss": 1.1558,
      "step": 1665
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.09392836689949036,
      "learning_rate": 8.843429901538049e-05,
      "loss": 1.1609,
      "step": 1666
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.09497623145580292,
      "learning_rate": 8.833195981090852e-05,
      "loss": 1.2594,
      "step": 1667
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.11227823793888092,
      "learning_rate": 8.822963299391106e-05,
      "loss": 1.039,
      "step": 1668
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.08898564428091049,
      "learning_rate": 8.81273186730243e-05,
      "loss": 0.9151,
      "step": 1669
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.08541446179151535,
      "learning_rate": 8.802501695687106e-05,
      "loss": 1.0041,
      "step": 1670
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.10063093900680542,
      "learning_rate": 8.792272795406084e-05,
      "loss": 1.1596,
      "step": 1671
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.09659677743911743,
      "learning_rate": 8.782045177318965e-05,
      "loss": 1.309,
      "step": 1672
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.08988797664642334,
      "learning_rate": 8.771818852283993e-05,
      "loss": 0.9076,
      "step": 1673
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.10435433685779572,
      "learning_rate": 8.761593831158022e-05,
      "loss": 1.0474,
      "step": 1674
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.10360485315322876,
      "learning_rate": 8.751370124796535e-05,
      "loss": 0.9603,
      "step": 1675
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.0891716480255127,
      "learning_rate": 8.741147744053624e-05,
      "loss": 1.1006,
      "step": 1676
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.10455801337957382,
      "learning_rate": 8.730926699781967e-05,
      "loss": 0.8442,
      "step": 1677
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.09745992720127106,
      "learning_rate": 8.720707002832811e-05,
      "loss": 1.1582,
      "step": 1678
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.09172283858060837,
      "learning_rate": 8.710488664055997e-05,
      "loss": 1.1524,
      "step": 1679
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.10276954621076584,
      "learning_rate": 8.700271694299907e-05,
      "loss": 1.0672,
      "step": 1680
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.10065661370754242,
      "learning_rate": 8.690056104411477e-05,
      "loss": 0.9603,
      "step": 1681
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.0919308066368103,
      "learning_rate": 8.679841905236169e-05,
      "loss": 1.1662,
      "step": 1682
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.10107772052288055,
      "learning_rate": 8.66962910761798e-05,
      "loss": 0.9189,
      "step": 1683
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.09063085913658142,
      "learning_rate": 8.659417722399412e-05,
      "loss": 1.2896,
      "step": 1684
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.08782243728637695,
      "learning_rate": 8.649207760421472e-05,
      "loss": 1.0118,
      "step": 1685
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.10642839223146439,
      "learning_rate": 8.638999232523648e-05,
      "loss": 1.1992,
      "step": 1686
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.09847152978181839,
      "learning_rate": 8.628792149543915e-05,
      "loss": 1.1325,
      "step": 1687
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.1033477932214737,
      "learning_rate": 8.618586522318708e-05,
      "loss": 0.9818,
      "step": 1688
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.09962837398052216,
      "learning_rate": 8.608382361682923e-05,
      "loss": 1.0941,
      "step": 1689
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.09534700214862823,
      "learning_rate": 8.598179678469886e-05,
      "loss": 0.9968,
      "step": 1690
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.09052200615406036,
      "learning_rate": 8.587978483511368e-05,
      "loss": 0.8451,
      "step": 1691
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.09424137324094772,
      "learning_rate": 8.577778787637553e-05,
      "loss": 1.0539,
      "step": 1692
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.08804541081190109,
      "learning_rate": 8.567580601677041e-05,
      "loss": 0.9411,
      "step": 1693
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.08246276527643204,
      "learning_rate": 8.557383936456815e-05,
      "loss": 0.9724,
      "step": 1694
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.09954670071601868,
      "learning_rate": 8.547188802802253e-05,
      "loss": 1.0284,
      "step": 1695
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.11991100013256073,
      "learning_rate": 8.536995211537108e-05,
      "loss": 1.2301,
      "step": 1696
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.1030411571264267,
      "learning_rate": 8.5268031734835e-05,
      "loss": 1.048,
      "step": 1697
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.09521787613630295,
      "learning_rate": 8.516612699461879e-05,
      "loss": 0.9931,
      "step": 1698
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.11362671852111816,
      "learning_rate": 8.506423800291058e-05,
      "loss": 1.4209,
      "step": 1699
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.10384287685155869,
      "learning_rate": 8.496236486788167e-05,
      "loss": 1.1823,
      "step": 1700
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.10857536643743515,
      "learning_rate": 8.486050769768657e-05,
      "loss": 1.1724,
      "step": 1701
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.10215967148542404,
      "learning_rate": 8.475866660046277e-05,
      "loss": 1.2666,
      "step": 1702
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.12411094456911087,
      "learning_rate": 8.465684168433075e-05,
      "loss": 1.3232,
      "step": 1703
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.12331940978765488,
      "learning_rate": 8.455503305739381e-05,
      "loss": 1.2565,
      "step": 1704
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.09833373129367828,
      "learning_rate": 8.445324082773797e-05,
      "loss": 1.4012,
      "step": 1705
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.10029523819684982,
      "learning_rate": 8.43514651034318e-05,
      "loss": 0.9891,
      "step": 1706
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.10253671556711197,
      "learning_rate": 8.424970599252633e-05,
      "loss": 0.9068,
      "step": 1707
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.10940627008676529,
      "learning_rate": 8.414796360305503e-05,
      "loss": 1.3442,
      "step": 1708
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.10060277581214905,
      "learning_rate": 8.404623804303364e-05,
      "loss": 1.1808,
      "step": 1709
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.113701231777668,
      "learning_rate": 8.394452942045985e-05,
      "loss": 1.124,
      "step": 1710
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.10197798907756805,
      "learning_rate": 8.384283784331351e-05,
      "loss": 1.1917,
      "step": 1711
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.11811815947294235,
      "learning_rate": 8.374116341955642e-05,
      "loss": 1.2467,
      "step": 1712
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.09793061017990112,
      "learning_rate": 8.36395062571321e-05,
      "loss": 0.9221,
      "step": 1713
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.10496238619089127,
      "learning_rate": 8.353786646396564e-05,
      "loss": 1.0621,
      "step": 1714
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.09578882902860641,
      "learning_rate": 8.343624414796388e-05,
      "loss": 1.039,
      "step": 1715
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.12194564193487167,
      "learning_rate": 8.333463941701501e-05,
      "loss": 1.1739,
      "step": 1716
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.09907002747058868,
      "learning_rate": 8.323305237898858e-05,
      "loss": 1.2384,
      "step": 1717
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.10670025646686554,
      "learning_rate": 8.313148314173527e-05,
      "loss": 1.22,
      "step": 1718
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.10209029912948608,
      "learning_rate": 8.302993181308697e-05,
      "loss": 1.3299,
      "step": 1719
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.08859424293041229,
      "learning_rate": 8.292839850085652e-05,
      "loss": 0.9466,
      "step": 1720
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.08388126641511917,
      "learning_rate": 8.282688331283764e-05,
      "loss": 1.1799,
      "step": 1721
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.08690060675144196,
      "learning_rate": 8.272538635680475e-05,
      "loss": 0.9033,
      "step": 1722
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.17803430557250977,
      "learning_rate": 8.262390774051299e-05,
      "loss": 1.2405,
      "step": 1723
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.10621819645166397,
      "learning_rate": 8.252244757169799e-05,
      "loss": 1.4116,
      "step": 1724
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.10853593796491623,
      "learning_rate": 8.242100595807585e-05,
      "loss": 1.154,
      "step": 1725
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.09998656064271927,
      "learning_rate": 8.231958300734286e-05,
      "loss": 0.9455,
      "step": 1726
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.09830087423324585,
      "learning_rate": 8.221817882717558e-05,
      "loss": 1.1683,
      "step": 1727
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.1087251752614975,
      "learning_rate": 8.211679352523062e-05,
      "loss": 1.2435,
      "step": 1728
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.11251130700111389,
      "learning_rate": 8.201542720914464e-05,
      "loss": 1.2506,
      "step": 1729
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.09583642333745956,
      "learning_rate": 8.191407998653392e-05,
      "loss": 1.027,
      "step": 1730
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.09885202348232269,
      "learning_rate": 8.181275196499465e-05,
      "loss": 1.0188,
      "step": 1731
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.09704544395208359,
      "learning_rate": 8.171144325210263e-05,
      "loss": 1.1882,
      "step": 1732
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.1069527268409729,
      "learning_rate": 8.16101539554131e-05,
      "loss": 1.0503,
      "step": 1733
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.2915920317173004,
      "learning_rate": 8.150888418246069e-05,
      "loss": 1.1127,
      "step": 1734
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.10358176380395889,
      "learning_rate": 8.140763404075935e-05,
      "loss": 1.192,
      "step": 1735
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.09029901027679443,
      "learning_rate": 8.130640363780212e-05,
      "loss": 1.0735,
      "step": 1736
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.12607234716415405,
      "learning_rate": 8.120519308106114e-05,
      "loss": 1.2728,
      "step": 1737
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.1002657562494278,
      "learning_rate": 8.11040024779875e-05,
      "loss": 1.0616,
      "step": 1738
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.10784013569355011,
      "learning_rate": 8.1002831936011e-05,
      "loss": 1.1291,
      "step": 1739
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.10209915041923523,
      "learning_rate": 8.090168156254024e-05,
      "loss": 1.1188,
      "step": 1740
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.11990582942962646,
      "learning_rate": 8.080055146496237e-05,
      "loss": 1.1925,
      "step": 1741
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.09590277820825577,
      "learning_rate": 8.069944175064309e-05,
      "loss": 1.0407,
      "step": 1742
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.11796679347753525,
      "learning_rate": 8.059835252692627e-05,
      "loss": 1.1229,
      "step": 1743
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.11333147436380386,
      "learning_rate": 8.049728390113422e-05,
      "loss": 1.0275,
      "step": 1744
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.10042162239551544,
      "learning_rate": 8.039623598056732e-05,
      "loss": 1.0375,
      "step": 1745
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.10519666224718094,
      "learning_rate": 8.029520887250396e-05,
      "loss": 1.2391,
      "step": 1746
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.12084035575389862,
      "learning_rate": 8.019420268420035e-05,
      "loss": 1.1266,
      "step": 1747
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.11919303238391876,
      "learning_rate": 8.009321752289067e-05,
      "loss": 1.4104,
      "step": 1748
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.08715026825666428,
      "learning_rate": 7.999225349578663e-05,
      "loss": 1.1007,
      "step": 1749
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.11018751561641693,
      "learning_rate": 7.98913107100776e-05,
      "loss": 1.3332,
      "step": 1750
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.09563156217336655,
      "learning_rate": 7.979038927293029e-05,
      "loss": 0.8596,
      "step": 1751
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.10469130426645279,
      "learning_rate": 7.968948929148882e-05,
      "loss": 0.7849,
      "step": 1752
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.11450375616550446,
      "learning_rate": 7.958861087287455e-05,
      "loss": 1.1808,
      "step": 1753
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.10223834216594696,
      "learning_rate": 7.94877541241859e-05,
      "loss": 1.0672,
      "step": 1754
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.09747231006622314,
      "learning_rate": 7.938691915249826e-05,
      "loss": 1.1788,
      "step": 1755
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.08669831603765488,
      "learning_rate": 7.928610606486399e-05,
      "loss": 0.9301,
      "step": 1756
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.08597883582115173,
      "learning_rate": 7.918531496831213e-05,
      "loss": 1.0367,
      "step": 1757
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.10345563292503357,
      "learning_rate": 7.908454596984845e-05,
      "loss": 0.991,
      "step": 1758
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.11869390308856964,
      "learning_rate": 7.898379917645517e-05,
      "loss": 1.0102,
      "step": 1759
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.11502056568861008,
      "learning_rate": 7.888307469509102e-05,
      "loss": 1.2568,
      "step": 1760
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.10966496169567108,
      "learning_rate": 7.878237263269097e-05,
      "loss": 1.2016,
      "step": 1761
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.10536835342645645,
      "learning_rate": 7.86816930961663e-05,
      "loss": 1.1956,
      "step": 1762
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.10817115008831024,
      "learning_rate": 7.858103619240422e-05,
      "loss": 1.1229,
      "step": 1763
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.09182746708393097,
      "learning_rate": 7.848040202826797e-05,
      "loss": 1.3064,
      "step": 1764
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.10925756394863129,
      "learning_rate": 7.837979071059676e-05,
      "loss": 1.2452,
      "step": 1765
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.09588959068059921,
      "learning_rate": 7.827920234620544e-05,
      "loss": 0.7358,
      "step": 1766
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.10715386271476746,
      "learning_rate": 7.817863704188444e-05,
      "loss": 1.1056,
      "step": 1767
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.0860549658536911,
      "learning_rate": 7.807809490439983e-05,
      "loss": 0.9436,
      "step": 1768
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.08202296495437622,
      "learning_rate": 7.7977576040493e-05,
      "loss": 1.0748,
      "step": 1769
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.11034297198057175,
      "learning_rate": 7.78770805568807e-05,
      "loss": 1.2058,
      "step": 1770
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.10076629370450974,
      "learning_rate": 7.777660856025478e-05,
      "loss": 1.167,
      "step": 1771
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.10119215399026871,
      "learning_rate": 7.767616015728219e-05,
      "loss": 1.0581,
      "step": 1772
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.09804743528366089,
      "learning_rate": 7.757573545460487e-05,
      "loss": 0.9243,
      "step": 1773
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.11209340393543243,
      "learning_rate": 7.747533455883955e-05,
      "loss": 0.8687,
      "step": 1774
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.11314871907234192,
      "learning_rate": 7.737495757657768e-05,
      "loss": 1.2354,
      "step": 1775
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.09508980065584183,
      "learning_rate": 7.727460461438535e-05,
      "loss": 1.196,
      "step": 1776
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.09334195405244827,
      "learning_rate": 7.717427577880312e-05,
      "loss": 1.1237,
      "step": 1777
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.10466314107179642,
      "learning_rate": 7.707397117634603e-05,
      "loss": 0.8376,
      "step": 1778
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.0980396568775177,
      "learning_rate": 7.697369091350325e-05,
      "loss": 0.8361,
      "step": 1779
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.08817454427480698,
      "learning_rate": 7.687343509673816e-05,
      "loss": 1.1389,
      "step": 1780
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.1025627925992012,
      "learning_rate": 7.677320383248825e-05,
      "loss": 1.1257,
      "step": 1781
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.0950944647192955,
      "learning_rate": 7.667299722716493e-05,
      "loss": 1.094,
      "step": 1782
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.09257030487060547,
      "learning_rate": 7.65728153871533e-05,
      "loss": 1.0561,
      "step": 1783
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.11526904255151749,
      "learning_rate": 7.647265841881233e-05,
      "loss": 1.0956,
      "step": 1784
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.11672840267419815,
      "learning_rate": 7.637252642847452e-05,
      "loss": 1.0245,
      "step": 1785
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.10257334262132645,
      "learning_rate": 7.627241952244587e-05,
      "loss": 1.0203,
      "step": 1786
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.09029462188482285,
      "learning_rate": 7.617233780700568e-05,
      "loss": 1.066,
      "step": 1787
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.09867659211158752,
      "learning_rate": 7.607228138840658e-05,
      "loss": 1.0679,
      "step": 1788
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.09823356568813324,
      "learning_rate": 7.597225037287433e-05,
      "loss": 1.177,
      "step": 1789
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.10935312509536743,
      "learning_rate": 7.587224486660771e-05,
      "loss": 1.0442,
      "step": 1790
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.10251200199127197,
      "learning_rate": 7.577226497577841e-05,
      "loss": 0.8364,
      "step": 1791
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.10783925652503967,
      "learning_rate": 7.567231080653096e-05,
      "loss": 1.0555,
      "step": 1792
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.09637187421321869,
      "learning_rate": 7.557238246498251e-05,
      "loss": 1.1436,
      "step": 1793
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.09876862168312073,
      "learning_rate": 7.547248005722291e-05,
      "loss": 0.9666,
      "step": 1794
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.10127399116754532,
      "learning_rate": 7.537260368931434e-05,
      "loss": 1.0503,
      "step": 1795
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.0992555096745491,
      "learning_rate": 7.52727534672914e-05,
      "loss": 1.172,
      "step": 1796
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.11890536546707153,
      "learning_rate": 7.517292949716095e-05,
      "loss": 1.2909,
      "step": 1797
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.11542758345603943,
      "learning_rate": 7.507313188490201e-05,
      "loss": 1.0816,
      "step": 1798
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.09621984511613846,
      "learning_rate": 7.497336073646548e-05,
      "loss": 1.2692,
      "step": 1799
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.11845225840806961,
      "learning_rate": 7.48736161577743e-05,
      "loss": 1.0897,
      "step": 1800
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.10763073712587357,
      "learning_rate": 7.477389825472314e-05,
      "loss": 1.2183,
      "step": 1801
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.111964650452137,
      "learning_rate": 7.46742071331784e-05,
      "loss": 1.074,
      "step": 1802
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.12040800601243973,
      "learning_rate": 7.457454289897796e-05,
      "loss": 1.103,
      "step": 1803
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.1029847040772438,
      "learning_rate": 7.447490565793121e-05,
      "loss": 1.0382,
      "step": 1804
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.1057555302977562,
      "learning_rate": 7.43752955158189e-05,
      "loss": 1.0769,
      "step": 1805
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.0991426482796669,
      "learning_rate": 7.427571257839302e-05,
      "loss": 0.6145,
      "step": 1806
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.08941187709569931,
      "learning_rate": 7.417615695137658e-05,
      "loss": 1.083,
      "step": 1807
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.11119288951158524,
      "learning_rate": 7.407662874046368e-05,
      "loss": 1.0702,
      "step": 1808
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.12452839314937592,
      "learning_rate": 7.397712805131932e-05,
      "loss": 1.1949,
      "step": 1809
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.08561979234218597,
      "learning_rate": 7.387765498957924e-05,
      "loss": 1.0292,
      "step": 1810
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.1040244922041893,
      "learning_rate": 7.377820966084986e-05,
      "loss": 0.9392,
      "step": 1811
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.12474718689918518,
      "learning_rate": 7.367879217070816e-05,
      "loss": 1.1049,
      "step": 1812
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.09586942195892334,
      "learning_rate": 7.357940262470157e-05,
      "loss": 1.1812,
      "step": 1813
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.093437060713768,
      "learning_rate": 7.348004112834791e-05,
      "loss": 1.1362,
      "step": 1814
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.11114737391471863,
      "learning_rate": 7.338070778713509e-05,
      "loss": 1.1167,
      "step": 1815
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.08943517506122589,
      "learning_rate": 7.328140270652117e-05,
      "loss": 1.1796,
      "step": 1816
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.10309294611215591,
      "learning_rate": 7.318212599193432e-05,
      "loss": 1.2328,
      "step": 1817
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.0918801948428154,
      "learning_rate": 7.308287774877254e-05,
      "loss": 1.0734,
      "step": 1818
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.1139645054936409,
      "learning_rate": 7.298365808240342e-05,
      "loss": 1.4055,
      "step": 1819
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.10042014718055725,
      "learning_rate": 7.28844670981645e-05,
      "loss": 1.1049,
      "step": 1820
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.0958545058965683,
      "learning_rate": 7.278530490136268e-05,
      "loss": 1.0721,
      "step": 1821
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.09955289214849472,
      "learning_rate": 7.26861715972744e-05,
      "loss": 0.8481,
      "step": 1822
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.10987333953380585,
      "learning_rate": 7.258706729114533e-05,
      "loss": 1.0024,
      "step": 1823
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.10780365765094757,
      "learning_rate": 7.248799208819042e-05,
      "loss": 0.9831,
      "step": 1824
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.10277656465768814,
      "learning_rate": 7.23889460935937e-05,
      "loss": 1.3103,
      "step": 1825
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.10252419859170914,
      "learning_rate": 7.228992941250822e-05,
      "loss": 1.1921,
      "step": 1826
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.11087819933891296,
      "learning_rate": 7.219094215005585e-05,
      "loss": 1.234,
      "step": 1827
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.10554228723049164,
      "learning_rate": 7.209198441132729e-05,
      "loss": 1.1149,
      "step": 1828
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.09352140873670578,
      "learning_rate": 7.199305630138185e-05,
      "loss": 1.2931,
      "step": 1829
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.10124289989471436,
      "learning_rate": 7.189415792524742e-05,
      "loss": 1.187,
      "step": 1830
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.10797513276338577,
      "learning_rate": 7.179528938792031e-05,
      "loss": 1.2304,
      "step": 1831
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.1394849568605423,
      "learning_rate": 7.169645079436509e-05,
      "loss": 1.1145,
      "step": 1832
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.11761580407619476,
      "learning_rate": 7.159764224951468e-05,
      "loss": 1.2356,
      "step": 1833
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.10669250786304474,
      "learning_rate": 7.149886385827e-05,
      "loss": 1.1634,
      "step": 1834
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.10505758970975876,
      "learning_rate": 7.140011572549989e-05,
      "loss": 1.205,
      "step": 1835
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.11049558222293854,
      "learning_rate": 7.130139795604125e-05,
      "loss": 1.238,
      "step": 1836
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.11414950340986252,
      "learning_rate": 7.12027106546986e-05,
      "loss": 0.9981,
      "step": 1837
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.08454291522502899,
      "learning_rate": 7.110405392624416e-05,
      "loss": 0.9491,
      "step": 1838
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.09835947304964066,
      "learning_rate": 7.100542787541766e-05,
      "loss": 1.0881,
      "step": 1839
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.09932353347539902,
      "learning_rate": 7.090683260692634e-05,
      "loss": 1.202,
      "step": 1840
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.09155373275279999,
      "learning_rate": 7.080826822544468e-05,
      "loss": 1.0645,
      "step": 1841
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.10137968510389328,
      "learning_rate": 7.070973483561443e-05,
      "loss": 1.0198,
      "step": 1842
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.10164333134889603,
      "learning_rate": 7.061123254204434e-05,
      "loss": 1.1857,
      "step": 1843
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.11338160932064056,
      "learning_rate": 7.051276144931025e-05,
      "loss": 1.0085,
      "step": 1844
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.11890163272619247,
      "learning_rate": 7.041432166195485e-05,
      "loss": 1.5122,
      "step": 1845
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.10228203982114792,
      "learning_rate": 7.03159132844876e-05,
      "loss": 1.0483,
      "step": 1846
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.11418533325195312,
      "learning_rate": 7.02175364213845e-05,
      "loss": 1.2067,
      "step": 1847
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.11347746104001999,
      "learning_rate": 7.011919117708828e-05,
      "loss": 1.2764,
      "step": 1848
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.10556711256504059,
      "learning_rate": 7.002087765600794e-05,
      "loss": 1.4174,
      "step": 1849
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.1658787876367569,
      "learning_rate": 6.992259596251897e-05,
      "loss": 1.1988,
      "step": 1850
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.10474526137113571,
      "learning_rate": 6.982434620096288e-05,
      "loss": 1.1092,
      "step": 1851
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.12340165674686432,
      "learning_rate": 6.972612847564736e-05,
      "loss": 1.3335,
      "step": 1852
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.10219371318817139,
      "learning_rate": 6.962794289084616e-05,
      "loss": 1.3216,
      "step": 1853
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.08388462662696838,
      "learning_rate": 6.952978955079885e-05,
      "loss": 1.0066,
      "step": 1854
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.10680616647005081,
      "learning_rate": 6.943166855971066e-05,
      "loss": 1.0262,
      "step": 1855
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.10939647257328033,
      "learning_rate": 6.933358002175268e-05,
      "loss": 1.0341,
      "step": 1856
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.11564091593027115,
      "learning_rate": 6.923552404106142e-05,
      "loss": 1.2827,
      "step": 1857
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.12150295078754425,
      "learning_rate": 6.913750072173884e-05,
      "loss": 1.0269,
      "step": 1858
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.09134622663259506,
      "learning_rate": 6.903951016785222e-05,
      "loss": 1.0652,
      "step": 1859
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.11072158068418503,
      "learning_rate": 6.894155248343409e-05,
      "loss": 0.9662,
      "step": 1860
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.0969066172838211,
      "learning_rate": 6.884362777248206e-05,
      "loss": 0.8547,
      "step": 1861
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.10480539500713348,
      "learning_rate": 6.874573613895872e-05,
      "loss": 0.9799,
      "step": 1862
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.10491026937961578,
      "learning_rate": 6.864787768679157e-05,
      "loss": 1.093,
      "step": 1863
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.11408980190753937,
      "learning_rate": 6.855005251987288e-05,
      "loss": 1.2147,
      "step": 1864
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.1164758950471878,
      "learning_rate": 6.845226074205954e-05,
      "loss": 1.3426,
      "step": 1865
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.09609007090330124,
      "learning_rate": 6.835450245717308e-05,
      "loss": 1.1996,
      "step": 1866
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.09114314615726471,
      "learning_rate": 6.825677776899941e-05,
      "loss": 1.0326,
      "step": 1867
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.10207358747720718,
      "learning_rate": 6.815908678128871e-05,
      "loss": 1.2204,
      "step": 1868
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.09515099972486496,
      "learning_rate": 6.806142959775552e-05,
      "loss": 1.1014,
      "step": 1869
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.12066389620304108,
      "learning_rate": 6.79638063220784e-05,
      "loss": 0.9467,
      "step": 1870
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.10968538373708725,
      "learning_rate": 6.786621705789998e-05,
      "loss": 0.9573,
      "step": 1871
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.0835646539926529,
      "learning_rate": 6.776866190882665e-05,
      "loss": 0.992,
      "step": 1872
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.11505427211523056,
      "learning_rate": 6.767114097842873e-05,
      "loss": 1.1258,
      "step": 1873
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.09720007330179214,
      "learning_rate": 6.757365437024011e-05,
      "loss": 0.9342,
      "step": 1874
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.1192919984459877,
      "learning_rate": 6.747620218775835e-05,
      "loss": 1.1094,
      "step": 1875
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.10996134579181671,
      "learning_rate": 6.737878453444429e-05,
      "loss": 1.1841,
      "step": 1876
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.11342544853687286,
      "learning_rate": 6.728140151372229e-05,
      "loss": 1.1728,
      "step": 1877
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.09665987640619278,
      "learning_rate": 6.718405322897983e-05,
      "loss": 1.1124,
      "step": 1878
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.10993858426809311,
      "learning_rate": 6.708673978356759e-05,
      "loss": 0.9636,
      "step": 1879
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.10078933835029602,
      "learning_rate": 6.698946128079917e-05,
      "loss": 1.2373,
      "step": 1880
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.10155204683542252,
      "learning_rate": 6.689221782395115e-05,
      "loss": 0.9629,
      "step": 1881
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.1060449406504631,
      "learning_rate": 6.679500951626283e-05,
      "loss": 0.8571,
      "step": 1882
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.11292152851819992,
      "learning_rate": 6.669783646093635e-05,
      "loss": 1.2698,
      "step": 1883
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.11200407147407532,
      "learning_rate": 6.660069876113621e-05,
      "loss": 0.9915,
      "step": 1884
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.11458922177553177,
      "learning_rate": 6.65035965199895e-05,
      "loss": 1.1818,
      "step": 1885
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.0975421816110611,
      "learning_rate": 6.640652984058566e-05,
      "loss": 1.0658,
      "step": 1886
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.09911008924245834,
      "learning_rate": 6.63094988259764e-05,
      "loss": 1.2639,
      "step": 1887
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.11829882115125656,
      "learning_rate": 6.621250357917545e-05,
      "loss": 1.1303,
      "step": 1888
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.09364532679319382,
      "learning_rate": 6.611554420315868e-05,
      "loss": 1.1184,
      "step": 1889
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.09063845872879028,
      "learning_rate": 6.601862080086383e-05,
      "loss": 0.9681,
      "step": 1890
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.12965691089630127,
      "learning_rate": 6.592173347519048e-05,
      "loss": 1.0785,
      "step": 1891
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.10060100257396698,
      "learning_rate": 6.582488232899986e-05,
      "loss": 1.2392,
      "step": 1892
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.11565978080034256,
      "learning_rate": 6.572806746511481e-05,
      "loss": 1.2867,
      "step": 1893
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.09936638921499252,
      "learning_rate": 6.563128898631968e-05,
      "loss": 1.1509,
      "step": 1894
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.12283065915107727,
      "learning_rate": 6.55345469953602e-05,
      "loss": 1.0608,
      "step": 1895
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.10678443312644958,
      "learning_rate": 6.543784159494323e-05,
      "loss": 1.0883,
      "step": 1896
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.11203552782535553,
      "learning_rate": 6.534117288773699e-05,
      "loss": 1.2262,
      "step": 1897
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.3979748785495758,
      "learning_rate": 6.524454097637057e-05,
      "loss": 0.8822,
      "step": 1898
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.11394743621349335,
      "learning_rate": 6.514794596343414e-05,
      "loss": 1.2171,
      "step": 1899
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.09650028496980667,
      "learning_rate": 6.505138795147853e-05,
      "loss": 1.176,
      "step": 1900
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.10146728157997131,
      "learning_rate": 6.495486704301539e-05,
      "loss": 1.0829,
      "step": 1901
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.09876731038093567,
      "learning_rate": 6.485838334051703e-05,
      "loss": 0.9313,
      "step": 1902
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.10412513464689255,
      "learning_rate": 6.476193694641619e-05,
      "loss": 1.1781,
      "step": 1903
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.11426477134227753,
      "learning_rate": 6.466552796310594e-05,
      "loss": 1.1394,
      "step": 1904
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.1314503699541092,
      "learning_rate": 6.456915649293975e-05,
      "loss": 1.3437,
      "step": 1905
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.10625962913036346,
      "learning_rate": 6.44728226382312e-05,
      "loss": 0.8359,
      "step": 1906
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.10714507848024368,
      "learning_rate": 6.437652650125398e-05,
      "loss": 1.1026,
      "step": 1907
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.11312135308980942,
      "learning_rate": 6.428026818424166e-05,
      "loss": 1.0505,
      "step": 1908
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.09673094004392624,
      "learning_rate": 6.418404778938773e-05,
      "loss": 1.0523,
      "step": 1909
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.1013663113117218,
      "learning_rate": 6.408786541884539e-05,
      "loss": 0.8973,
      "step": 1910
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.11602221429347992,
      "learning_rate": 6.399172117472751e-05,
      "loss": 1.1212,
      "step": 1911
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.10436409711837769,
      "learning_rate": 6.389561515910638e-05,
      "loss": 1.1116,
      "step": 1912
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.12416583299636841,
      "learning_rate": 6.37995474740138e-05,
      "loss": 1.2028,
      "step": 1913
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.12245836108922958,
      "learning_rate": 6.370351822144087e-05,
      "loss": 1.0978,
      "step": 1914
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.09418083727359772,
      "learning_rate": 6.360752750333785e-05,
      "loss": 1.1708,
      "step": 1915
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.14150846004486084,
      "learning_rate": 6.35115754216141e-05,
      "loss": 1.1094,
      "step": 1916
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.10404966026544571,
      "learning_rate": 6.341566207813798e-05,
      "loss": 1.2364,
      "step": 1917
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.11477816849946976,
      "learning_rate": 6.331978757473666e-05,
      "loss": 1.1323,
      "step": 1918
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.1599774807691574,
      "learning_rate": 6.322395201319625e-05,
      "loss": 1.3589,
      "step": 1919
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.10674341768026352,
      "learning_rate": 6.312815549526128e-05,
      "loss": 0.8621,
      "step": 1920
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.10059361904859543,
      "learning_rate": 6.303239812263493e-05,
      "loss": 1.3208,
      "step": 1921
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.10563770681619644,
      "learning_rate": 6.29366799969789e-05,
      "loss": 1.2563,
      "step": 1922
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.11859140545129776,
      "learning_rate": 6.284100121991319e-05,
      "loss": 1.0299,
      "step": 1923
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.1109216958284378,
      "learning_rate": 6.274536189301585e-05,
      "loss": 1.1413,
      "step": 1924
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.09343459457159042,
      "learning_rate": 6.264976211782329e-05,
      "loss": 1.1803,
      "step": 1925
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.10926727950572968,
      "learning_rate": 6.255420199582984e-05,
      "loss": 1.0362,
      "step": 1926
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.13089515268802643,
      "learning_rate": 6.245868162848769e-05,
      "loss": 1.2881,
      "step": 1927
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.1073448583483696,
      "learning_rate": 6.236320111720683e-05,
      "loss": 1.1311,
      "step": 1928
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.11213389784097672,
      "learning_rate": 6.226776056335498e-05,
      "loss": 1.1203,
      "step": 1929
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.09957650303840637,
      "learning_rate": 6.217236006825742e-05,
      "loss": 1.0158,
      "step": 1930
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.11883754283189774,
      "learning_rate": 6.207699973319694e-05,
      "loss": 1.0173,
      "step": 1931
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.12860716879367828,
      "learning_rate": 6.198167965941358e-05,
      "loss": 0.9863,
      "step": 1932
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.10693139582872391,
      "learning_rate": 6.188639994810476e-05,
      "loss": 1.0937,
      "step": 1933
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.09557534009218216,
      "learning_rate": 6.179116070042495e-05,
      "loss": 0.9764,
      "step": 1934
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.12166590243577957,
      "learning_rate": 6.169596201748583e-05,
      "loss": 1.2856,
      "step": 1935
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.09950409084558487,
      "learning_rate": 6.160080400035575e-05,
      "loss": 0.9587,
      "step": 1936
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.10558495670557022,
      "learning_rate": 6.150568675006009e-05,
      "loss": 1.1173,
      "step": 1937
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.10239928215742111,
      "learning_rate": 6.141061036758091e-05,
      "loss": 1.2519,
      "step": 1938
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.12042713165283203,
      "learning_rate": 6.13155749538569e-05,
      "loss": 0.9233,
      "step": 1939
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.11289887130260468,
      "learning_rate": 6.122058060978308e-05,
      "loss": 1.1007,
      "step": 1940
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.11658722907304764,
      "learning_rate": 6.112562743621114e-05,
      "loss": 1.0938,
      "step": 1941
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.12887884676456451,
      "learning_rate": 6.1030715533948854e-05,
      "loss": 1.2651,
      "step": 1942
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.10279668867588043,
      "learning_rate": 6.093584500376033e-05,
      "loss": 0.9434,
      "step": 1943
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.08670208603143692,
      "learning_rate": 6.0841015946365595e-05,
      "loss": 0.9708,
      "step": 1944
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.08955523371696472,
      "learning_rate": 6.074622846244077e-05,
      "loss": 0.975,
      "step": 1945
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.09682302922010422,
      "learning_rate": 6.0651482652617775e-05,
      "loss": 1.197,
      "step": 1946
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.1102338582277298,
      "learning_rate": 6.0556778617484365e-05,
      "loss": 1.2363,
      "step": 1947
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.10501591116189957,
      "learning_rate": 6.046211645758381e-05,
      "loss": 0.968,
      "step": 1948
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.11749190837144852,
      "learning_rate": 6.036749627341502e-05,
      "loss": 1.3324,
      "step": 1949
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.11527553200721741,
      "learning_rate": 6.027291816543237e-05,
      "loss": 0.9384,
      "step": 1950
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.10384111851453781,
      "learning_rate": 6.017838223404548e-05,
      "loss": 1.1258,
      "step": 1951
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.1329168975353241,
      "learning_rate": 6.008388857961922e-05,
      "loss": 1.3529,
      "step": 1952
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.08886339515447617,
      "learning_rate": 5.9989437302473595e-05,
      "loss": 0.851,
      "step": 1953
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.12311293929815292,
      "learning_rate": 5.9895028502883574e-05,
      "loss": 1.394,
      "step": 1954
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.10424396395683289,
      "learning_rate": 5.980066228107919e-05,
      "loss": 1.0762,
      "step": 1955
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.12105081230401993,
      "learning_rate": 5.9706338737245014e-05,
      "loss": 1.0565,
      "step": 1956
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.1086994856595993,
      "learning_rate": 5.961205797152047e-05,
      "loss": 0.7959,
      "step": 1957
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.1301957368850708,
      "learning_rate": 5.951782008399959e-05,
      "loss": 1.3297,
      "step": 1958
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.11359301954507828,
      "learning_rate": 5.9423625174730815e-05,
      "loss": 1.229,
      "step": 1959
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.12482339143753052,
      "learning_rate": 5.9329473343716925e-05,
      "loss": 1.129,
      "step": 1960
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.08495151996612549,
      "learning_rate": 5.9235364690915065e-05,
      "loss": 0.954,
      "step": 1961
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.11496656388044357,
      "learning_rate": 5.914129931623648e-05,
      "loss": 1.1057,
      "step": 1962
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.09873928129673004,
      "learning_rate": 5.904727731954649e-05,
      "loss": 1.1929,
      "step": 1963
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.09060632437467575,
      "learning_rate": 5.8953298800664315e-05,
      "loss": 1.177,
      "step": 1964
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.11073742061853409,
      "learning_rate": 5.885936385936307e-05,
      "loss": 1.1504,
      "step": 1965
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.10112930834293365,
      "learning_rate": 5.8765472595369594e-05,
      "loss": 1.0616,
      "step": 1966
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.10309349000453949,
      "learning_rate": 5.867162510836437e-05,
      "loss": 1.2067,
      "step": 1967
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.11506038159132004,
      "learning_rate": 5.857782149798135e-05,
      "loss": 1.0837,
      "step": 1968
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.12611688673496246,
      "learning_rate": 5.8484061863807924e-05,
      "loss": 1.2255,
      "step": 1969
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.1064082682132721,
      "learning_rate": 5.839034630538482e-05,
      "loss": 0.9284,
      "step": 1970
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.09728314727544785,
      "learning_rate": 5.8296674922206026e-05,
      "loss": 1.0255,
      "step": 1971
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.09384610503911972,
      "learning_rate": 5.820304781371851e-05,
      "loss": 1.1645,
      "step": 1972
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.10468161106109619,
      "learning_rate": 5.8109465079322265e-05,
      "loss": 1.0497,
      "step": 1973
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.11066216975450516,
      "learning_rate": 5.801592681837026e-05,
      "loss": 1.1672,
      "step": 1974
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.1013823002576828,
      "learning_rate": 5.7922433130168164e-05,
      "loss": 1.0503,
      "step": 1975
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.10544838756322861,
      "learning_rate": 5.782898411397431e-05,
      "loss": 1.0823,
      "step": 1976
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.09770195186138153,
      "learning_rate": 5.773557986899971e-05,
      "loss": 0.8281,
      "step": 1977
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.11781159043312073,
      "learning_rate": 5.764222049440771e-05,
      "loss": 1.0883,
      "step": 1978
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.09178627282381058,
      "learning_rate": 5.754890608931416e-05,
      "loss": 0.9407,
      "step": 1979
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.1579505056142807,
      "learning_rate": 5.7455636752787065e-05,
      "loss": 1.0936,
      "step": 1980
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.12202049791812897,
      "learning_rate": 5.736241258384658e-05,
      "loss": 1.1957,
      "step": 1981
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.10151268541812897,
      "learning_rate": 5.726923368146496e-05,
      "loss": 1.1368,
      "step": 1982
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.11667834222316742,
      "learning_rate": 5.7176100144566437e-05,
      "loss": 1.244,
      "step": 1983
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.11503670364618301,
      "learning_rate": 5.7083012072026974e-05,
      "loss": 1.2413,
      "step": 1984
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.11644425988197327,
      "learning_rate": 5.698996956267429e-05,
      "loss": 1.2809,
      "step": 1985
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.10202714800834656,
      "learning_rate": 5.689697271528783e-05,
      "loss": 1.0215,
      "step": 1986
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.1217864528298378,
      "learning_rate": 5.680402162859843e-05,
      "loss": 1.3768,
      "step": 1987
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.15675802528858185,
      "learning_rate": 5.6711116401288456e-05,
      "loss": 0.9796,
      "step": 1988
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.1056087464094162,
      "learning_rate": 5.661825713199151e-05,
      "loss": 0.9911,
      "step": 1989
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.12184251844882965,
      "learning_rate": 5.6525443919292396e-05,
      "loss": 1.5061,
      "step": 1990
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.12193474918603897,
      "learning_rate": 5.643267686172713e-05,
      "loss": 1.1606,
      "step": 1991
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.09978966414928436,
      "learning_rate": 5.6339956057782615e-05,
      "loss": 0.9979,
      "step": 1992
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.12334888428449631,
      "learning_rate": 5.624728160589663e-05,
      "loss": 1.2239,
      "step": 1993
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.10410087555646896,
      "learning_rate": 5.615465360445789e-05,
      "loss": 0.8929,
      "step": 1994
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.12925098836421967,
      "learning_rate": 5.6062072151805614e-05,
      "loss": 0.9908,
      "step": 1995
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.09985952824354172,
      "learning_rate": 5.596953734622978e-05,
      "loss": 1.0413,
      "step": 1996
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.10836029797792435,
      "learning_rate": 5.587704928597072e-05,
      "loss": 0.9761,
      "step": 1997
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.1013987585902214,
      "learning_rate": 5.578460806921912e-05,
      "loss": 1.0686,
      "step": 1998
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.10120022296905518,
      "learning_rate": 5.5692213794116045e-05,
      "loss": 1.3073,
      "step": 1999
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.11423132568597794,
      "learning_rate": 5.559986655875272e-05,
      "loss": 1.292,
      "step": 2000
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.10096541047096252,
      "learning_rate": 5.5507566461170236e-05,
      "loss": 1.1845,
      "step": 2001
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.10352316498756409,
      "learning_rate": 5.541531359935986e-05,
      "loss": 1.1398,
      "step": 2002
    }
  ],
  "logging_steps": 1,
  "max_steps": 3078,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 154,
  "total_flos": 1.5226989700536336e+19,
  "train_batch_size": 3,
  "trial_name": null,
  "trial_params": null
}