{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9160864785635764,
  "eval_steps": 500,
  "global_step": 5000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00018321729571271528,
      "grad_norm": 7.481241625973833,
      "learning_rate": 0.0,
      "loss": 0.764,
      "step": 1
    },
    {
      "epoch": 0.00036643459142543056,
      "grad_norm": 7.936839352385908,
      "learning_rate": 1.8315018315018317e-08,
      "loss": 0.7505,
      "step": 2
    },
    {
      "epoch": 0.0005496518871381459,
      "grad_norm": 8.381229660678587,
      "learning_rate": 3.6630036630036635e-08,
      "loss": 0.7767,
      "step": 3
    },
    {
      "epoch": 0.0007328691828508611,
      "grad_norm": 7.533434041856819,
      "learning_rate": 5.494505494505495e-08,
      "loss": 0.7545,
      "step": 4
    },
    {
      "epoch": 0.0009160864785635764,
      "grad_norm": 6.4876435204860545,
      "learning_rate": 7.326007326007327e-08,
      "loss": 0.7254,
      "step": 5
    },
    {
      "epoch": 0.0010993037742762918,
      "grad_norm": 6.984439562746247,
      "learning_rate": 9.157509157509159e-08,
      "loss": 0.7238,
      "step": 6
    },
    {
      "epoch": 0.001282521069989007,
      "grad_norm": 8.432795226889532,
      "learning_rate": 1.098901098901099e-07,
      "loss": 0.7667,
      "step": 7
    },
    {
      "epoch": 0.0014657383657017222,
      "grad_norm": 6.615389400475257,
      "learning_rate": 1.282051282051282e-07,
      "loss": 0.739,
      "step": 8
    },
    {
      "epoch": 0.0016489556614144375,
      "grad_norm": 7.043438048491804,
      "learning_rate": 1.4652014652014654e-07,
      "loss": 0.7412,
      "step": 9
    },
    {
      "epoch": 0.001832172957127153,
      "grad_norm": 7.763888342467084,
      "learning_rate": 1.6483516483516484e-07,
      "loss": 0.739,
      "step": 10
    },
    {
      "epoch": 0.002015390252839868,
      "grad_norm": 7.115680896600135,
      "learning_rate": 1.8315018315018317e-07,
      "loss": 0.6814,
      "step": 11
    },
    {
      "epoch": 0.0021986075485525836,
      "grad_norm": 9.472751553447468,
      "learning_rate": 2.014652014652015e-07,
      "loss": 0.7694,
      "step": 12
    },
    {
      "epoch": 0.0023818248442652986,
      "grad_norm": 9.164365397122241,
      "learning_rate": 2.197802197802198e-07,
      "loss": 0.8101,
      "step": 13
    },
    {
      "epoch": 0.002565042139978014,
      "grad_norm": 7.831934204465113,
      "learning_rate": 2.3809523809523811e-07,
      "loss": 0.7504,
      "step": 14
    },
    {
      "epoch": 0.002748259435690729,
      "grad_norm": 6.7423320112288865,
      "learning_rate": 2.564102564102564e-07,
      "loss": 0.7442,
      "step": 15
    },
    {
      "epoch": 0.0029314767314034445,
      "grad_norm": 7.8103949840893145,
      "learning_rate": 2.7472527472527475e-07,
      "loss": 0.7782,
      "step": 16
    },
    {
      "epoch": 0.00311469402711616,
      "grad_norm": 6.1519268993583465,
      "learning_rate": 2.930402930402931e-07,
      "loss": 0.663,
      "step": 17
    },
    {
      "epoch": 0.003297911322828875,
      "grad_norm": 8.049047835270914,
      "learning_rate": 3.113553113553114e-07,
      "loss": 0.7934,
      "step": 18
    },
    {
      "epoch": 0.0034811286185415903,
      "grad_norm": 6.388709624292669,
      "learning_rate": 3.296703296703297e-07,
      "loss": 0.7241,
      "step": 19
    },
    {
      "epoch": 0.003664345914254306,
      "grad_norm": 7.039170133500172,
      "learning_rate": 3.47985347985348e-07,
      "loss": 0.7133,
      "step": 20
    },
    {
      "epoch": 0.003847563209967021,
      "grad_norm": 8.416142106876258,
      "learning_rate": 3.6630036630036635e-07,
      "loss": 0.7787,
      "step": 21
    },
    {
      "epoch": 0.004030780505679736,
      "grad_norm": 5.942542945633484,
      "learning_rate": 3.846153846153847e-07,
      "loss": 0.692,
      "step": 22
    },
    {
      "epoch": 0.004213997801392451,
      "grad_norm": 6.397620608740201,
      "learning_rate": 4.02930402930403e-07,
      "loss": 0.6885,
      "step": 23
    },
    {
      "epoch": 0.004397215097105167,
      "grad_norm": 4.789506080162222,
      "learning_rate": 4.212454212454213e-07,
      "loss": 0.6818,
      "step": 24
    },
    {
      "epoch": 0.004580432392817882,
      "grad_norm": 5.4323837663846275,
      "learning_rate": 4.395604395604396e-07,
      "loss": 0.7202,
      "step": 25
    },
    {
      "epoch": 0.004763649688530597,
      "grad_norm": 6.001418955741802,
      "learning_rate": 4.578754578754579e-07,
      "loss": 0.6915,
      "step": 26
    },
    {
      "epoch": 0.004946866984243312,
      "grad_norm": 6.931290264891086,
      "learning_rate": 4.7619047619047623e-07,
      "loss": 0.7214,
      "step": 27
    },
    {
      "epoch": 0.005130084279956028,
      "grad_norm": 5.423177642103934,
      "learning_rate": 4.945054945054946e-07,
      "loss": 0.6627,
      "step": 28
    },
    {
      "epoch": 0.005313301575668743,
      "grad_norm": 5.824082478920574,
      "learning_rate": 5.128205128205128e-07,
      "loss": 0.7128,
      "step": 29
    },
    {
      "epoch": 0.005496518871381458,
      "grad_norm": 4.837515053542817,
      "learning_rate": 5.311355311355311e-07,
      "loss": 0.7063,
      "step": 30
    },
    {
      "epoch": 0.005679736167094174,
      "grad_norm": 4.2178492878732,
      "learning_rate": 5.494505494505495e-07,
      "loss": 0.6667,
      "step": 31
    },
    {
      "epoch": 0.005862953462806889,
      "grad_norm": 3.7310273500960283,
      "learning_rate": 5.677655677655678e-07,
      "loss": 0.6724,
      "step": 32
    },
    {
      "epoch": 0.006046170758519604,
      "grad_norm": 3.4436166557785013,
      "learning_rate": 5.860805860805862e-07,
      "loss": 0.6158,
      "step": 33
    },
    {
      "epoch": 0.00622938805423232,
      "grad_norm": 2.6914219359650264,
      "learning_rate": 6.043956043956044e-07,
      "loss": 0.6384,
      "step": 34
    },
    {
      "epoch": 0.006412605349945035,
      "grad_norm": 2.8611154351289803,
      "learning_rate": 6.227106227106228e-07,
      "loss": 0.6564,
      "step": 35
    },
    {
      "epoch": 0.00659582264565775,
      "grad_norm": 2.915608387835296,
      "learning_rate": 6.41025641025641e-07,
      "loss": 0.6556,
      "step": 36
    },
    {
      "epoch": 0.006779039941370466,
      "grad_norm": 3.104210670394775,
      "learning_rate": 6.593406593406594e-07,
      "loss": 0.6571,
      "step": 37
    },
    {
      "epoch": 0.006962257237083181,
      "grad_norm": 2.416024185643152,
      "learning_rate": 6.776556776556777e-07,
      "loss": 0.6118,
      "step": 38
    },
    {
      "epoch": 0.007145474532795896,
      "grad_norm": 2.2840327527366187,
      "learning_rate": 6.95970695970696e-07,
      "loss": 0.5773,
      "step": 39
    },
    {
      "epoch": 0.007328691828508612,
      "grad_norm": 2.994955066139323,
      "learning_rate": 7.142857142857143e-07,
      "loss": 0.6621,
      "step": 40
    },
    {
      "epoch": 0.007511909124221327,
      "grad_norm": 2.4977146662969956,
      "learning_rate": 7.326007326007327e-07,
      "loss": 0.5878,
      "step": 41
    },
    {
      "epoch": 0.007695126419934042,
      "grad_norm": 2.2697538551105443,
      "learning_rate": 7.50915750915751e-07,
      "loss": 0.6161,
      "step": 42
    },
    {
      "epoch": 0.007878343715646757,
      "grad_norm": 2.040084870467292,
      "learning_rate": 7.692307692307694e-07,
      "loss": 0.625,
      "step": 43
    },
    {
      "epoch": 0.008061561011359472,
      "grad_norm": 1.4264410515550054,
      "learning_rate": 7.875457875457876e-07,
      "loss": 0.5991,
      "step": 44
    },
    {
      "epoch": 0.008244778307072188,
      "grad_norm": 1.3307329745484617,
      "learning_rate": 8.05860805860806e-07,
      "loss": 0.5802,
      "step": 45
    },
    {
      "epoch": 0.008427995602784902,
      "grad_norm": 1.3186002922814006,
      "learning_rate": 8.241758241758242e-07,
      "loss": 0.5971,
      "step": 46
    },
    {
      "epoch": 0.008611212898497618,
      "grad_norm": 1.4454419288227918,
      "learning_rate": 8.424908424908426e-07,
      "loss": 0.6152,
      "step": 47
    },
    {
      "epoch": 0.008794430194210334,
      "grad_norm": 1.2728865809977838,
      "learning_rate": 8.608058608058609e-07,
      "loss": 0.6176,
      "step": 48
    },
    {
      "epoch": 0.008977647489923048,
      "grad_norm": 1.2387163683388445,
      "learning_rate": 8.791208791208792e-07,
      "loss": 0.6233,
      "step": 49
    },
    {
      "epoch": 0.009160864785635764,
      "grad_norm": 1.1465107255795282,
      "learning_rate": 8.974358974358975e-07,
      "loss": 0.5795,
      "step": 50
    },
    {
      "epoch": 0.00934408208134848,
      "grad_norm": 1.264265250343769,
      "learning_rate": 9.157509157509158e-07,
      "loss": 0.6262,
      "step": 51
    },
    {
      "epoch": 0.009527299377061194,
      "grad_norm": 0.919312835052228,
      "learning_rate": 9.340659340659342e-07,
      "loss": 0.5535,
      "step": 52
    },
    {
      "epoch": 0.00971051667277391,
      "grad_norm": 0.8672735287012353,
      "learning_rate": 9.523809523809525e-07,
      "loss": 0.5327,
      "step": 53
    },
    {
      "epoch": 0.009893733968486624,
      "grad_norm": 0.8288169490471791,
      "learning_rate": 9.706959706959708e-07,
      "loss": 0.5673,
      "step": 54
    },
    {
      "epoch": 0.01007695126419934,
      "grad_norm": 0.8603030677007734,
      "learning_rate": 9.890109890109891e-07,
      "loss": 0.5547,
      "step": 55
    },
    {
      "epoch": 0.010260168559912056,
      "grad_norm": 0.7482006424960487,
      "learning_rate": 1.0073260073260074e-06,
      "loss": 0.6012,
      "step": 56
    },
    {
      "epoch": 0.01044338585562477,
      "grad_norm": 0.6144742944660406,
      "learning_rate": 1.0256410256410257e-06,
      "loss": 0.5231,
      "step": 57
    },
    {
      "epoch": 0.010626603151337486,
      "grad_norm": 0.634897676727318,
      "learning_rate": 1.0439560439560442e-06,
      "loss": 0.5726,
      "step": 58
    },
    {
      "epoch": 0.010809820447050202,
      "grad_norm": 0.6410545094813134,
      "learning_rate": 1.0622710622710622e-06,
      "loss": 0.5695,
      "step": 59
    },
    {
      "epoch": 0.010993037742762916,
      "grad_norm": 0.6609456014192859,
      "learning_rate": 1.0805860805860807e-06,
      "loss": 0.5805,
      "step": 60
    },
    {
      "epoch": 0.011176255038475632,
      "grad_norm": 0.7416419125176478,
      "learning_rate": 1.098901098901099e-06,
      "loss": 0.634,
      "step": 61
    },
    {
      "epoch": 0.011359472334188348,
      "grad_norm": 0.6851293138177442,
      "learning_rate": 1.1172161172161173e-06,
      "loss": 0.5544,
      "step": 62
    },
    {
      "epoch": 0.011542689629901062,
      "grad_norm": 0.6383351643137376,
      "learning_rate": 1.1355311355311355e-06,
      "loss": 0.557,
      "step": 63
    },
    {
      "epoch": 0.011725906925613778,
      "grad_norm": 0.6348085314283121,
      "learning_rate": 1.153846153846154e-06,
      "loss": 0.5632,
      "step": 64
    },
    {
      "epoch": 0.011909124221326494,
      "grad_norm": 0.7024363928163538,
      "learning_rate": 1.1721611721611723e-06,
      "loss": 0.5839,
      "step": 65
    },
    {
      "epoch": 0.012092341517039208,
      "grad_norm": 0.5900911656210056,
      "learning_rate": 1.1904761904761906e-06,
      "loss": 0.5344,
      "step": 66
    },
    {
      "epoch": 0.012275558812751924,
      "grad_norm": 0.6275963867777459,
      "learning_rate": 1.2087912087912089e-06,
      "loss": 0.5584,
      "step": 67
    },
    {
      "epoch": 0.01245877610846464,
      "grad_norm": 0.5865171487667508,
      "learning_rate": 1.2271062271062271e-06,
      "loss": 0.575,
      "step": 68
    },
    {
      "epoch": 0.012641993404177354,
      "grad_norm": 0.674046870317235,
      "learning_rate": 1.2454212454212456e-06,
      "loss": 0.5744,
      "step": 69
    },
    {
      "epoch": 0.01282521069989007,
      "grad_norm": 0.60918911566989,
      "learning_rate": 1.2637362637362637e-06,
      "loss": 0.5423,
      "step": 70
    },
    {
      "epoch": 0.013008427995602785,
      "grad_norm": 0.6221860528344966,
      "learning_rate": 1.282051282051282e-06,
      "loss": 0.5652,
      "step": 71
    },
    {
      "epoch": 0.0131916452913155,
      "grad_norm": 0.606665778835579,
      "learning_rate": 1.3003663003663005e-06,
      "loss": 0.6123,
      "step": 72
    },
    {
      "epoch": 0.013374862587028215,
      "grad_norm": 0.5884723188789052,
      "learning_rate": 1.3186813186813187e-06,
      "loss": 0.5863,
      "step": 73
    },
    {
      "epoch": 0.013558079882740931,
      "grad_norm": 0.5824062487652404,
      "learning_rate": 1.336996336996337e-06,
      "loss": 0.5918,
      "step": 74
    },
    {
      "epoch": 0.013741297178453645,
      "grad_norm": 0.5460196146561194,
      "learning_rate": 1.3553113553113553e-06,
      "loss": 0.5912,
      "step": 75
    },
    {
      "epoch": 0.013924514474166361,
      "grad_norm": 0.49213553293102813,
      "learning_rate": 1.3736263736263738e-06,
      "loss": 0.5421,
      "step": 76
    },
    {
      "epoch": 0.014107731769879077,
      "grad_norm": 0.5594168254817149,
      "learning_rate": 1.391941391941392e-06,
      "loss": 0.5122,
      "step": 77
    },
    {
      "epoch": 0.014290949065591791,
      "grad_norm": 0.5277088034821339,
      "learning_rate": 1.4102564102564104e-06,
      "loss": 0.5678,
      "step": 78
    },
    {
      "epoch": 0.014474166361304507,
      "grad_norm": 0.49574136870511754,
      "learning_rate": 1.4285714285714286e-06,
      "loss": 0.5498,
      "step": 79
    },
    {
      "epoch": 0.014657383657017223,
      "grad_norm": 0.5944104688680958,
      "learning_rate": 1.4468864468864471e-06,
      "loss": 0.5469,
      "step": 80
    },
    {
      "epoch": 0.014840600952729937,
      "grad_norm": 0.4732970613815555,
      "learning_rate": 1.4652014652014654e-06,
      "loss": 0.5233,
      "step": 81
    },
    {
      "epoch": 0.015023818248442653,
      "grad_norm": 0.49591541086638596,
      "learning_rate": 1.4835164835164837e-06,
      "loss": 0.5367,
      "step": 82
    },
    {
      "epoch": 0.015207035544155369,
      "grad_norm": 0.4883648219378977,
      "learning_rate": 1.501831501831502e-06,
      "loss": 0.5782,
      "step": 83
    },
    {
      "epoch": 0.015390252839868083,
      "grad_norm": 0.48559293967760114,
      "learning_rate": 1.5201465201465202e-06,
      "loss": 0.5578,
      "step": 84
    },
    {
      "epoch": 0.015573470135580799,
      "grad_norm": 0.5802435990379926,
      "learning_rate": 1.5384615384615387e-06,
      "loss": 0.5562,
      "step": 85
    },
    {
      "epoch": 0.015756687431293513,
      "grad_norm": 0.6655689083082568,
      "learning_rate": 1.556776556776557e-06,
      "loss": 0.5916,
      "step": 86
    },
    {
      "epoch": 0.01593990472700623,
      "grad_norm": 0.5272919501805459,
      "learning_rate": 1.5750915750915753e-06,
      "loss": 0.5462,
      "step": 87
    },
    {
      "epoch": 0.016123122022718945,
      "grad_norm": 0.5025768009972991,
      "learning_rate": 1.5934065934065933e-06,
      "loss": 0.564,
      "step": 88
    },
    {
      "epoch": 0.01630633931843166,
      "grad_norm": 0.4868371012830415,
      "learning_rate": 1.611721611721612e-06,
      "loss": 0.557,
      "step": 89
    },
    {
      "epoch": 0.016489556614144377,
      "grad_norm": 0.4724914851279723,
      "learning_rate": 1.6300366300366301e-06,
      "loss": 0.534,
      "step": 90
    },
    {
      "epoch": 0.01667277390985709,
      "grad_norm": 0.4933114328584066,
      "learning_rate": 1.6483516483516484e-06,
      "loss": 0.5628,
      "step": 91
    },
    {
      "epoch": 0.016855991205569805,
      "grad_norm": 0.5429724547645147,
      "learning_rate": 1.6666666666666667e-06,
      "loss": 0.5693,
      "step": 92
    },
    {
      "epoch": 0.017039208501282523,
      "grad_norm": 0.46970029586030615,
      "learning_rate": 1.6849816849816852e-06,
      "loss": 0.5761,
      "step": 93
    },
    {
      "epoch": 0.017222425796995237,
      "grad_norm": 0.5466204682716642,
      "learning_rate": 1.7032967032967034e-06,
      "loss": 0.5407,
      "step": 94
    },
    {
      "epoch": 0.01740564309270795,
      "grad_norm": 0.46448768993410167,
      "learning_rate": 1.7216117216117217e-06,
      "loss": 0.5784,
      "step": 95
    },
    {
      "epoch": 0.01758886038842067,
      "grad_norm": 0.46769210989227256,
      "learning_rate": 1.73992673992674e-06,
      "loss": 0.5262,
      "step": 96
    },
    {
      "epoch": 0.017772077684133383,
      "grad_norm": 0.4412027593954725,
      "learning_rate": 1.7582417582417585e-06,
      "loss": 0.5608,
      "step": 97
    },
    {
      "epoch": 0.017955294979846097,
      "grad_norm": 0.5975733130220022,
      "learning_rate": 1.7765567765567768e-06,
      "loss": 0.5633,
      "step": 98
    },
    {
      "epoch": 0.018138512275558814,
      "grad_norm": 0.46156861116006753,
      "learning_rate": 1.794871794871795e-06,
      "loss": 0.5576,
      "step": 99
    },
    {
      "epoch": 0.01832172957127153,
      "grad_norm": 0.5193644526534718,
      "learning_rate": 1.8131868131868133e-06,
      "loss": 0.5533,
      "step": 100
    },
    {
      "epoch": 0.018504946866984243,
      "grad_norm": 0.479596247036775,
      "learning_rate": 1.8315018315018316e-06,
      "loss": 0.5337,
      "step": 101
    },
    {
      "epoch": 0.01868816416269696,
      "grad_norm": 0.4610500867184236,
      "learning_rate": 1.84981684981685e-06,
      "loss": 0.5314,
      "step": 102
    },
    {
      "epoch": 0.018871381458409674,
      "grad_norm": 0.481950984787821,
      "learning_rate": 1.8681318681318684e-06,
      "loss": 0.5865,
      "step": 103
    },
    {
      "epoch": 0.01905459875412239,
      "grad_norm": 0.5225151739123198,
      "learning_rate": 1.8864468864468866e-06,
      "loss": 0.5694,
      "step": 104
    },
    {
      "epoch": 0.019237816049835106,
      "grad_norm": 0.46381468108353424,
      "learning_rate": 1.904761904761905e-06,
      "loss": 0.557,
      "step": 105
    },
    {
      "epoch": 0.01942103334554782,
      "grad_norm": 0.45411743556679485,
      "learning_rate": 1.9230769230769234e-06,
      "loss": 0.5648,
      "step": 106
    },
    {
      "epoch": 0.019604250641260534,
      "grad_norm": 0.4859210831259208,
      "learning_rate": 1.9413919413919417e-06,
      "loss": 0.5685,
      "step": 107
    },
    {
      "epoch": 0.01978746793697325,
      "grad_norm": 0.4205701080898951,
      "learning_rate": 1.95970695970696e-06,
      "loss": 0.5426,
      "step": 108
    },
    {
      "epoch": 0.019970685232685966,
      "grad_norm": 0.5044757429436201,
      "learning_rate": 1.9780219780219782e-06,
      "loss": 0.5509,
      "step": 109
    },
    {
      "epoch": 0.02015390252839868,
      "grad_norm": 0.47571345015861244,
      "learning_rate": 1.9963369963369965e-06,
      "loss": 0.5281,
      "step": 110
    },
    {
      "epoch": 0.020337119824111394,
      "grad_norm": 0.5681283820477757,
      "learning_rate": 2.0146520146520148e-06,
      "loss": 0.5398,
      "step": 111
    },
    {
      "epoch": 0.020520337119824112,
      "grad_norm": 0.48199138528425167,
      "learning_rate": 2.032967032967033e-06,
      "loss": 0.56,
      "step": 112
    },
    {
      "epoch": 0.020703554415536826,
      "grad_norm": 0.4841461198775233,
      "learning_rate": 2.0512820512820513e-06,
      "loss": 0.5454,
      "step": 113
    },
    {
      "epoch": 0.02088677171124954,
      "grad_norm": 0.4680411378560794,
      "learning_rate": 2.0695970695970696e-06,
      "loss": 0.516,
      "step": 114
    },
    {
      "epoch": 0.021069989006962258,
      "grad_norm": 0.4426302566203345,
      "learning_rate": 2.0879120879120883e-06,
      "loss": 0.5493,
      "step": 115
    },
    {
      "epoch": 0.021253206302674972,
      "grad_norm": 0.5379521772056074,
      "learning_rate": 2.1062271062271066e-06,
      "loss": 0.5642,
      "step": 116
    },
    {
      "epoch": 0.021436423598387686,
      "grad_norm": 0.42644965401865687,
      "learning_rate": 2.1245421245421245e-06,
      "loss": 0.564,
      "step": 117
    },
    {
      "epoch": 0.021619640894100404,
      "grad_norm": 1.3341683924694292,
      "learning_rate": 2.1428571428571427e-06,
      "loss": 0.5831,
      "step": 118
    },
    {
      "epoch": 0.021802858189813118,
      "grad_norm": 0.5613781478585862,
      "learning_rate": 2.1611721611721614e-06,
      "loss": 0.5598,
      "step": 119
    },
    {
      "epoch": 0.021986075485525832,
      "grad_norm": 0.4389899980262906,
      "learning_rate": 2.1794871794871797e-06,
      "loss": 0.5498,
      "step": 120
    },
    {
      "epoch": 0.02216929278123855,
      "grad_norm": 0.5433793107490897,
      "learning_rate": 2.197802197802198e-06,
      "loss": 0.5838,
      "step": 121
    },
    {
      "epoch": 0.022352510076951264,
      "grad_norm": 0.49992126724035435,
      "learning_rate": 2.2161172161172163e-06,
      "loss": 0.5581,
      "step": 122
    },
    {
      "epoch": 0.022535727372663978,
      "grad_norm": 0.5192253683114394,
      "learning_rate": 2.2344322344322345e-06,
      "loss": 0.5963,
      "step": 123
    },
    {
      "epoch": 0.022718944668376696,
      "grad_norm": 0.5218720529273816,
      "learning_rate": 2.252747252747253e-06,
      "loss": 0.5568,
      "step": 124
    },
    {
      "epoch": 0.02290216196408941,
      "grad_norm": 0.41135006043138017,
      "learning_rate": 2.271062271062271e-06,
      "loss": 0.5256,
      "step": 125
    },
    {
      "epoch": 0.023085379259802124,
      "grad_norm": 0.4960132808732071,
      "learning_rate": 2.2893772893772894e-06,
      "loss": 0.5636,
      "step": 126
    },
    {
      "epoch": 0.02326859655551484,
      "grad_norm": 0.40294874528313,
      "learning_rate": 2.307692307692308e-06,
      "loss": 0.5373,
      "step": 127
    },
    {
      "epoch": 0.023451813851227556,
      "grad_norm": 0.49129951716432685,
      "learning_rate": 2.3260073260073264e-06,
      "loss": 0.5571,
      "step": 128
    },
    {
      "epoch": 0.02363503114694027,
      "grad_norm": 0.4541626724950761,
      "learning_rate": 2.3443223443223446e-06,
      "loss": 0.5407,
      "step": 129
    },
    {
      "epoch": 0.023818248442652987,
      "grad_norm": 0.44854257290105054,
      "learning_rate": 2.362637362637363e-06,
      "loss": 0.5516,
      "step": 130
    },
    {
      "epoch": 0.0240014657383657,
      "grad_norm": 0.4439039076319426,
      "learning_rate": 2.380952380952381e-06,
      "loss": 0.5192,
      "step": 131
    },
    {
      "epoch": 0.024184683034078416,
      "grad_norm": 0.4410959524536652,
      "learning_rate": 2.3992673992673995e-06,
      "loss": 0.5678,
      "step": 132
    },
    {
      "epoch": 0.024367900329791133,
      "grad_norm": 0.49361868947998544,
      "learning_rate": 2.4175824175824177e-06,
      "loss": 0.5591,
      "step": 133
    },
    {
      "epoch": 0.024551117625503847,
      "grad_norm": 0.5023022664764156,
      "learning_rate": 2.435897435897436e-06,
      "loss": 0.5818,
      "step": 134
    },
    {
      "epoch": 0.02473433492121656,
      "grad_norm": 0.4287249843742935,
      "learning_rate": 2.4542124542124543e-06,
      "loss": 0.5532,
      "step": 135
    },
    {
      "epoch": 0.02491755221692928,
      "grad_norm": 0.43595844702277614,
      "learning_rate": 2.472527472527473e-06,
      "loss": 0.534,
      "step": 136
    },
    {
      "epoch": 0.025100769512641993,
      "grad_norm": 0.5546618594341888,
      "learning_rate": 2.4908424908424913e-06,
      "loss": 0.5058,
      "step": 137
    },
    {
      "epoch": 0.025283986808354707,
      "grad_norm": 0.5017549598118495,
      "learning_rate": 2.509157509157509e-06,
      "loss": 0.5416,
      "step": 138
    },
    {
      "epoch": 0.025467204104067425,
      "grad_norm": 0.47047331776441903,
      "learning_rate": 2.5274725274725274e-06,
      "loss": 0.5557,
      "step": 139
    },
    {
      "epoch": 0.02565042139978014,
      "grad_norm": 0.4881037742451912,
      "learning_rate": 2.5457875457875457e-06,
      "loss": 0.5494,
      "step": 140
    },
    {
      "epoch": 0.025833638695492853,
      "grad_norm": 0.41933017046045795,
      "learning_rate": 2.564102564102564e-06,
      "loss": 0.5729,
      "step": 141
    },
    {
      "epoch": 0.02601685599120557,
      "grad_norm": 0.39974209370594543,
      "learning_rate": 2.582417582417583e-06,
      "loss": 0.5381,
      "step": 142
    },
    {
      "epoch": 0.026200073286918285,
      "grad_norm": 0.4473481461077892,
      "learning_rate": 2.600732600732601e-06,
      "loss": 0.5336,
      "step": 143
    },
    {
      "epoch": 0.026383290582631,
      "grad_norm": 0.45197895778035446,
      "learning_rate": 2.6190476190476192e-06,
      "loss": 0.5271,
      "step": 144
    },
    {
      "epoch": 0.026566507878343717,
      "grad_norm": 0.49529182062519755,
      "learning_rate": 2.6373626373626375e-06,
      "loss": 0.5468,
      "step": 145
    },
    {
      "epoch": 0.02674972517405643,
      "grad_norm": 0.5413416851523152,
      "learning_rate": 2.6556776556776558e-06,
      "loss": 0.5807,
      "step": 146
    },
    {
      "epoch": 0.026932942469769145,
      "grad_norm": 0.4703582853460863,
      "learning_rate": 2.673992673992674e-06,
      "loss": 0.538,
      "step": 147
    },
    {
      "epoch": 0.027116159765481863,
      "grad_norm": 0.4332295907365602,
      "learning_rate": 2.6923076923076923e-06,
      "loss": 0.5167,
      "step": 148
    },
    {
      "epoch": 0.027299377061194577,
      "grad_norm": 0.458616583095158,
      "learning_rate": 2.7106227106227106e-06,
      "loss": 0.5226,
      "step": 149
    },
    {
      "epoch": 0.02748259435690729,
      "grad_norm": 0.43740744109233864,
      "learning_rate": 2.728937728937729e-06,
      "loss": 0.541,
      "step": 150
    },
    {
      "epoch": 0.02766581165262001,
      "grad_norm": 0.5735574364330706,
      "learning_rate": 2.7472527472527476e-06,
      "loss": 0.5835,
      "step": 151
    },
    {
      "epoch": 0.027849028948332723,
      "grad_norm": 0.5055518766772779,
      "learning_rate": 2.765567765567766e-06,
      "loss": 0.5631,
      "step": 152
    },
    {
      "epoch": 0.028032246244045437,
      "grad_norm": 0.43271616931082146,
      "learning_rate": 2.783882783882784e-06,
      "loss": 0.5426,
      "step": 153
    },
    {
      "epoch": 0.028215463539758154,
      "grad_norm": 0.4971463373765023,
      "learning_rate": 2.8021978021978024e-06,
      "loss": 0.5389,
      "step": 154
    },
    {
      "epoch": 0.02839868083547087,
      "grad_norm": 0.4591734918280654,
      "learning_rate": 2.8205128205128207e-06,
      "loss": 0.5309,
      "step": 155
    },
    {
      "epoch": 0.028581898131183583,
      "grad_norm": 0.45247087926212365,
      "learning_rate": 2.838827838827839e-06,
      "loss": 0.5536,
      "step": 156
    },
    {
      "epoch": 0.0287651154268963,
      "grad_norm": 0.46626015341742694,
      "learning_rate": 2.8571428571428573e-06,
      "loss": 0.559,
      "step": 157
    },
    {
      "epoch": 0.028948332722609015,
      "grad_norm": 0.4834854871636071,
      "learning_rate": 2.8754578754578755e-06,
      "loss": 0.5476,
      "step": 158
    },
    {
      "epoch": 0.02913155001832173,
      "grad_norm": 0.570546858013933,
      "learning_rate": 2.8937728937728942e-06,
      "loss": 0.5394,
      "step": 159
    },
    {
      "epoch": 0.029314767314034446,
      "grad_norm": 0.45441480104130544,
      "learning_rate": 2.9120879120879125e-06,
      "loss": 0.5029,
      "step": 160
    },
    {
      "epoch": 0.02949798460974716,
      "grad_norm": 0.5206871098196969,
      "learning_rate": 2.930402930402931e-06,
      "loss": 0.528,
      "step": 161
    },
    {
      "epoch": 0.029681201905459875,
      "grad_norm": 0.43359542229542136,
      "learning_rate": 2.948717948717949e-06,
      "loss": 0.5502,
      "step": 162
    },
    {
      "epoch": 0.029864419201172592,
      "grad_norm": 0.46302617065984364,
      "learning_rate": 2.9670329670329673e-06,
      "loss": 0.5447,
      "step": 163
    },
    {
      "epoch": 0.030047636496885306,
      "grad_norm": 0.3915642271916536,
      "learning_rate": 2.9853479853479856e-06,
      "loss": 0.503,
      "step": 164
    },
    {
      "epoch": 0.03023085379259802,
      "grad_norm": 0.42991246482419715,
      "learning_rate": 3.003663003663004e-06,
      "loss": 0.521,
      "step": 165
    },
    {
      "epoch": 0.030414071088310738,
      "grad_norm": 0.468175424095518,
      "learning_rate": 3.021978021978022e-06,
      "loss": 0.5101,
      "step": 166
    },
    {
      "epoch": 0.030597288384023452,
      "grad_norm": 0.6468735604295471,
      "learning_rate": 3.0402930402930405e-06,
      "loss": 0.5617,
      "step": 167
    },
    {
      "epoch": 0.030780505679736166,
      "grad_norm": 0.5058923699848836,
      "learning_rate": 3.058608058608059e-06,
      "loss": 0.5154,
      "step": 168
    },
    {
      "epoch": 0.030963722975448884,
      "grad_norm": 0.45437537978064513,
      "learning_rate": 3.0769230769230774e-06,
      "loss": 0.4993,
      "step": 169
    },
    {
      "epoch": 0.031146940271161598,
      "grad_norm": 0.467183819204265,
      "learning_rate": 3.0952380952380957e-06,
      "loss": 0.5701,
      "step": 170
    },
    {
      "epoch": 0.031330157566874316,
      "grad_norm": 0.3835674459614267,
      "learning_rate": 3.113553113553114e-06,
      "loss": 0.4902,
      "step": 171
    },
    {
      "epoch": 0.031513374862587026,
      "grad_norm": 0.4292795112150875,
      "learning_rate": 3.1318681318681323e-06,
      "loss": 0.5237,
      "step": 172
    },
    {
      "epoch": 0.031696592158299744,
      "grad_norm": 0.6593051731116806,
      "learning_rate": 3.1501831501831505e-06,
      "loss": 0.5361,
      "step": 173
    },
    {
      "epoch": 0.03187980945401246,
      "grad_norm": 0.4718436483558741,
      "learning_rate": 3.1684981684981684e-06,
      "loss": 0.5324,
      "step": 174
    },
    {
      "epoch": 0.03206302674972517,
      "grad_norm": 0.48018416222395494,
      "learning_rate": 3.1868131868131867e-06,
      "loss": 0.5273,
      "step": 175
    },
    {
      "epoch": 0.03224624404543789,
      "grad_norm": 0.6316028239985647,
      "learning_rate": 3.205128205128206e-06,
      "loss": 0.5346,
      "step": 176
    },
    {
      "epoch": 0.03242946134115061,
      "grad_norm": 0.4596646339699305,
      "learning_rate": 3.223443223443224e-06,
      "loss": 0.5263,
      "step": 177
    },
    {
      "epoch": 0.03261267863686332,
      "grad_norm": 0.6529252419894329,
      "learning_rate": 3.2417582417582424e-06,
      "loss": 0.5442,
      "step": 178
    },
    {
      "epoch": 0.032795895932576036,
      "grad_norm": 0.5538108341969676,
      "learning_rate": 3.2600732600732602e-06,
      "loss": 0.543,
      "step": 179
    },
    {
      "epoch": 0.03297911322828875,
      "grad_norm": 0.46058359751530825,
      "learning_rate": 3.2783882783882785e-06,
      "loss": 0.5101,
      "step": 180
    },
    {
      "epoch": 0.033162330524001464,
      "grad_norm": 0.42238032667898895,
      "learning_rate": 3.2967032967032968e-06,
      "loss": 0.5487,
      "step": 181
    },
    {
      "epoch": 0.03334554781971418,
      "grad_norm": 0.49973876221605035,
      "learning_rate": 3.315018315018315e-06,
      "loss": 0.5333,
      "step": 182
    },
    {
      "epoch": 0.0335287651154269,
      "grad_norm": 0.49185079032879564,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 0.5733,
      "step": 183
    },
    {
      "epoch": 0.03371198241113961,
      "grad_norm": 0.41357500203470565,
      "learning_rate": 3.3516483516483516e-06,
      "loss": 0.5108,
      "step": 184
    },
    {
      "epoch": 0.03389519970685233,
      "grad_norm": 0.45597659979596383,
      "learning_rate": 3.3699633699633703e-06,
      "loss": 0.5316,
      "step": 185
    },
    {
      "epoch": 0.034078417002565045,
      "grad_norm": 0.523873134306111,
      "learning_rate": 3.3882783882783886e-06,
      "loss": 0.5516,
      "step": 186
    },
    {
      "epoch": 0.034261634298277756,
      "grad_norm": 0.4604705346503309,
      "learning_rate": 3.406593406593407e-06,
      "loss": 0.5463,
      "step": 187
    },
    {
      "epoch": 0.03444485159399047,
      "grad_norm": 0.4494660179181277,
      "learning_rate": 3.424908424908425e-06,
      "loss": 0.5195,
      "step": 188
    },
    {
      "epoch": 0.03462806888970319,
      "grad_norm": 0.47161535336220833,
      "learning_rate": 3.4432234432234434e-06,
      "loss": 0.5495,
      "step": 189
    },
    {
      "epoch": 0.0348112861854159,
      "grad_norm": 0.41422931205807795,
      "learning_rate": 3.4615384615384617e-06,
      "loss": 0.5165,
      "step": 190
    },
    {
      "epoch": 0.03499450348112862,
      "grad_norm": 0.48552414748511474,
      "learning_rate": 3.47985347985348e-06,
      "loss": 0.5207,
      "step": 191
    },
    {
      "epoch": 0.03517772077684134,
      "grad_norm": 0.49918231460984896,
      "learning_rate": 3.4981684981684982e-06,
      "loss": 0.5055,
      "step": 192
    },
    {
      "epoch": 0.03536093807255405,
      "grad_norm": 0.5047784031000427,
      "learning_rate": 3.516483516483517e-06,
      "loss": 0.5541,
      "step": 193
    },
    {
      "epoch": 0.035544155368266765,
      "grad_norm": 0.45515393167769386,
      "learning_rate": 3.5347985347985352e-06,
      "loss": 0.5324,
      "step": 194
    },
    {
      "epoch": 0.03572737266397948,
      "grad_norm": 0.4697755766255993,
      "learning_rate": 3.5531135531135535e-06,
      "loss": 0.5317,
      "step": 195
    },
    {
      "epoch": 0.035910589959692193,
      "grad_norm": 0.47670842684148323,
      "learning_rate": 3.5714285714285718e-06,
      "loss": 0.5331,
      "step": 196
    },
    {
      "epoch": 0.03609380725540491,
      "grad_norm": 0.46160363428859325,
      "learning_rate": 3.58974358974359e-06,
      "loss": 0.5645,
      "step": 197
    },
    {
      "epoch": 0.03627702455111763,
      "grad_norm": 0.5456279444043086,
      "learning_rate": 3.6080586080586083e-06,
      "loss": 0.4923,
      "step": 198
    },
    {
      "epoch": 0.03646024184683034,
      "grad_norm": 0.45679324633890633,
      "learning_rate": 3.6263736263736266e-06,
      "loss": 0.5408,
      "step": 199
    },
    {
      "epoch": 0.03664345914254306,
      "grad_norm": 0.4038620329916062,
      "learning_rate": 3.644688644688645e-06,
      "loss": 0.5542,
      "step": 200
    },
    {
      "epoch": 0.036826676438255775,
      "grad_norm": 0.42338470275172285,
      "learning_rate": 3.663003663003663e-06,
      "loss": 0.5509,
      "step": 201
    },
    {
      "epoch": 0.037009893733968485,
      "grad_norm": 0.48862631901451187,
      "learning_rate": 3.681318681318682e-06,
      "loss": 0.533,
      "step": 202
    },
    {
      "epoch": 0.0371931110296812,
      "grad_norm": 0.4339739485667441,
      "learning_rate": 3.6996336996337e-06,
      "loss": 0.5331,
      "step": 203
    },
    {
      "epoch": 0.03737632832539392,
      "grad_norm": 0.4040593227125272,
      "learning_rate": 3.7179487179487184e-06,
      "loss": 0.568,
      "step": 204
    },
    {
      "epoch": 0.03755954562110663,
      "grad_norm": 0.5025361443024049,
      "learning_rate": 3.7362637362637367e-06,
      "loss": 0.5616,
      "step": 205
    },
    {
      "epoch": 0.03774276291681935,
      "grad_norm": 0.43671528407867277,
      "learning_rate": 3.754578754578755e-06,
      "loss": 0.5468,
      "step": 206
    },
    {
      "epoch": 0.037925980212532066,
      "grad_norm": 0.5426409729355149,
      "learning_rate": 3.7728937728937733e-06,
      "loss": 0.5274,
      "step": 207
    },
    {
      "epoch": 0.03810919750824478,
      "grad_norm": 0.4383066270524436,
      "learning_rate": 3.7912087912087915e-06,
      "loss": 0.5491,
      "step": 208
    },
    {
      "epoch": 0.038292414803957495,
      "grad_norm": 0.4541571165503901,
      "learning_rate": 3.80952380952381e-06,
      "loss": 0.511,
      "step": 209
    },
    {
      "epoch": 0.03847563209967021,
      "grad_norm": 0.42914694472434756,
      "learning_rate": 3.827838827838828e-06,
      "loss": 0.4891,
      "step": 210
    },
    {
      "epoch": 0.03865884939538292,
      "grad_norm": 0.4583586099579229,
      "learning_rate": 3.846153846153847e-06,
      "loss": 0.5359,
      "step": 211
    },
    {
      "epoch": 0.03884206669109564,
      "grad_norm": 0.46332307938408596,
      "learning_rate": 3.864468864468865e-06,
      "loss": 0.506,
      "step": 212
    },
    {
      "epoch": 0.03902528398680836,
      "grad_norm": 0.4979093495563886,
      "learning_rate": 3.882783882783883e-06,
      "loss": 0.5523,
      "step": 213
    },
    {
      "epoch": 0.03920850128252107,
      "grad_norm": 0.524225251704003,
      "learning_rate": 3.901098901098901e-06,
      "loss": 0.543,
      "step": 214
    },
    {
      "epoch": 0.039391718578233786,
      "grad_norm": 0.5147235908704881,
      "learning_rate": 3.91941391941392e-06,
      "loss": 0.5465,
      "step": 215
    },
    {
      "epoch": 0.0395749358739465,
      "grad_norm": 0.4170039710750516,
      "learning_rate": 3.937728937728938e-06,
      "loss": 0.557,
      "step": 216
    },
    {
      "epoch": 0.039758153169659215,
      "grad_norm": 0.4459151957597281,
      "learning_rate": 3.9560439560439565e-06,
      "loss": 0.5176,
      "step": 217
    },
    {
      "epoch": 0.03994137046537193,
      "grad_norm": 0.4387028825678643,
      "learning_rate": 3.974358974358974e-06,
      "loss": 0.5433,
      "step": 218
    },
    {
      "epoch": 0.04012458776108464,
      "grad_norm": 0.4606220492260897,
      "learning_rate": 3.992673992673993e-06,
      "loss": 0.5558,
      "step": 219
    },
    {
      "epoch": 0.04030780505679736,
      "grad_norm": 0.43876788524484817,
      "learning_rate": 4.010989010989012e-06,
      "loss": 0.496,
      "step": 220
    },
    {
      "epoch": 0.04049102235251008,
      "grad_norm": 0.5354442317270937,
      "learning_rate": 4.0293040293040296e-06,
      "loss": 0.4883,
      "step": 221
    },
    {
      "epoch": 0.04067423964822279,
      "grad_norm": 0.4471338769246311,
      "learning_rate": 4.047619047619048e-06,
      "loss": 0.5248,
      "step": 222
    },
    {
      "epoch": 0.040857456943935506,
      "grad_norm": 0.4728450428012797,
      "learning_rate": 4.065934065934066e-06,
      "loss": 0.5412,
      "step": 223
    },
    {
      "epoch": 0.041040674239648224,
      "grad_norm": 0.5021628515290991,
      "learning_rate": 4.084249084249085e-06,
      "loss": 0.5398,
      "step": 224
    },
    {
      "epoch": 0.041223891535360935,
      "grad_norm": 0.379469323319607,
      "learning_rate": 4.102564102564103e-06,
      "loss": 0.5484,
      "step": 225
    },
    {
      "epoch": 0.04140710883107365,
      "grad_norm": 0.4682923741442823,
      "learning_rate": 4.120879120879121e-06,
      "loss": 0.5221,
      "step": 226
    },
    {
      "epoch": 0.04159032612678637,
      "grad_norm": 0.5298230539031403,
      "learning_rate": 4.139194139194139e-06,
      "loss": 0.5248,
      "step": 227
    },
    {
      "epoch": 0.04177354342249908,
      "grad_norm": 0.448919135267925,
      "learning_rate": 4.157509157509158e-06,
      "loss": 0.5492,
      "step": 228
    },
    {
      "epoch": 0.0419567607182118,
      "grad_norm": 0.4651550006247672,
      "learning_rate": 4.175824175824177e-06,
      "loss": 0.5244,
      "step": 229
    },
    {
      "epoch": 0.042139978013924516,
      "grad_norm": 0.46885786974024124,
      "learning_rate": 4.1941391941391945e-06,
      "loss": 0.5145,
      "step": 230
    },
    {
      "epoch": 0.04232319530963723,
      "grad_norm": 0.9939588576814024,
      "learning_rate": 4.212454212454213e-06,
      "loss": 0.507,
      "step": 231
    },
    {
      "epoch": 0.042506412605349944,
      "grad_norm": 0.42445387506164906,
      "learning_rate": 4.230769230769231e-06,
      "loss": 0.528,
      "step": 232
    },
    {
      "epoch": 0.04268962990106266,
      "grad_norm": 0.4386077325175301,
      "learning_rate": 4.249084249084249e-06,
      "loss": 0.5235,
      "step": 233
    },
    {
      "epoch": 0.04287284719677537,
      "grad_norm": 0.4275787850644743,
      "learning_rate": 4.267399267399268e-06,
      "loss": 0.5268,
      "step": 234
    },
    {
      "epoch": 0.04305606449248809,
      "grad_norm": 0.3819534900324145,
      "learning_rate": 4.2857142857142855e-06,
      "loss": 0.5108,
      "step": 235
    },
    {
      "epoch": 0.04323928178820081,
      "grad_norm": 0.5069196499403993,
      "learning_rate": 4.304029304029305e-06,
      "loss": 0.4914,
      "step": 236
    },
    {
      "epoch": 0.04342249908391352,
      "grad_norm": 0.4224671659155117,
      "learning_rate": 4.322344322344323e-06,
      "loss": 0.531,
      "step": 237
    },
    {
      "epoch": 0.043605716379626236,
      "grad_norm": 0.49892435842001814,
      "learning_rate": 4.340659340659341e-06,
      "loss": 0.5309,
      "step": 238
    },
    {
      "epoch": 0.043788933675338954,
      "grad_norm": 0.4435906661481072,
      "learning_rate": 4.358974358974359e-06,
      "loss": 0.5386,
      "step": 239
    },
    {
      "epoch": 0.043972150971051664,
      "grad_norm": 0.4646701721197805,
      "learning_rate": 4.377289377289377e-06,
      "loss": 0.5445,
      "step": 240
    },
    {
      "epoch": 0.04415536826676438,
      "grad_norm": 0.42345412346700445,
      "learning_rate": 4.395604395604396e-06,
      "loss": 0.5171,
      "step": 241
    },
    {
      "epoch": 0.0443385855624771,
      "grad_norm": 0.4664513677280782,
      "learning_rate": 4.413919413919414e-06,
      "loss": 0.5471,
      "step": 242
    },
    {
      "epoch": 0.04452180285818981,
      "grad_norm": 0.5007403600133091,
      "learning_rate": 4.4322344322344325e-06,
      "loss": 0.5224,
      "step": 243
    },
    {
      "epoch": 0.04470502015390253,
      "grad_norm": 0.4202775330369337,
      "learning_rate": 4.45054945054945e-06,
      "loss": 0.5283,
      "step": 244
    },
    {
      "epoch": 0.044888237449615245,
      "grad_norm": 0.485312343325994,
      "learning_rate": 4.468864468864469e-06,
      "loss": 0.5365,
      "step": 245
    },
    {
      "epoch": 0.045071454745327956,
      "grad_norm": 0.4796744192562041,
      "learning_rate": 4.487179487179488e-06,
      "loss": 0.5481,
      "step": 246
    },
    {
      "epoch": 0.045254672041040674,
      "grad_norm": 0.4699525411145978,
      "learning_rate": 4.505494505494506e-06,
      "loss": 0.526,
      "step": 247
    },
    {
      "epoch": 0.04543788933675339,
      "grad_norm": 0.37235134296143163,
      "learning_rate": 4.523809523809524e-06,
      "loss": 0.4929,
      "step": 248
    },
    {
      "epoch": 0.0456211066324661,
      "grad_norm": 0.4594065464998237,
      "learning_rate": 4.542124542124542e-06,
      "loss": 0.5435,
      "step": 249
    },
    {
      "epoch": 0.04580432392817882,
      "grad_norm": 0.4812140084395847,
      "learning_rate": 4.560439560439561e-06,
      "loss": 0.4714,
      "step": 250
    },
    {
      "epoch": 0.04598754122389154,
      "grad_norm": 0.44275937617791644,
      "learning_rate": 4.578754578754579e-06,
      "loss": 0.5289,
      "step": 251
    },
    {
      "epoch": 0.04617075851960425,
      "grad_norm": 0.543477861772032,
      "learning_rate": 4.5970695970695975e-06,
      "loss": 0.5176,
      "step": 252
    },
    {
      "epoch": 0.046353975815316965,
      "grad_norm": 0.9195336625704912,
      "learning_rate": 4.615384615384616e-06,
      "loss": 0.5315,
      "step": 253
    },
    {
      "epoch": 0.04653719311102968,
      "grad_norm": 0.4922315670719196,
      "learning_rate": 4.633699633699634e-06,
      "loss": 0.5364,
      "step": 254
    },
    {
      "epoch": 0.046720410406742394,
      "grad_norm": 0.47361690353516367,
      "learning_rate": 4.652014652014653e-06,
      "loss": 0.5591,
      "step": 255
    },
    {
      "epoch": 0.04690362770245511,
      "grad_norm": 0.5164779414047217,
      "learning_rate": 4.6703296703296706e-06,
      "loss": 0.5538,
      "step": 256
    },
    {
      "epoch": 0.04708684499816783,
      "grad_norm": 0.421397036777767,
      "learning_rate": 4.688644688644689e-06,
      "loss": 0.5338,
      "step": 257
    },
    {
      "epoch": 0.04727006229388054,
      "grad_norm": 0.5053871259325204,
      "learning_rate": 4.706959706959707e-06,
      "loss": 0.544,
      "step": 258
    },
    {
      "epoch": 0.04745327958959326,
      "grad_norm": 0.4607447877406368,
      "learning_rate": 4.725274725274726e-06,
      "loss": 0.4812,
      "step": 259
    },
    {
      "epoch": 0.047636496885305975,
      "grad_norm": 0.4875422302168998,
      "learning_rate": 4.743589743589744e-06,
      "loss": 0.5614,
      "step": 260
    },
    {
      "epoch": 0.047819714181018685,
      "grad_norm": 0.41579068200919733,
      "learning_rate": 4.761904761904762e-06,
      "loss": 0.4729,
      "step": 261
    },
    {
      "epoch": 0.0480029314767314,
      "grad_norm": 0.46282242693556186,
      "learning_rate": 4.780219780219781e-06,
      "loss": 0.5224,
      "step": 262
    },
    {
      "epoch": 0.04818614877244412,
      "grad_norm": 0.4482830307148575,
      "learning_rate": 4.798534798534799e-06,
      "loss": 0.5326,
      "step": 263
    },
    {
      "epoch": 0.04836936606815683,
      "grad_norm": 0.4342637761169385,
      "learning_rate": 4.816849816849818e-06,
      "loss": 0.5056,
      "step": 264
    },
    {
      "epoch": 0.04855258336386955,
      "grad_norm": 0.42342307710917526,
      "learning_rate": 4.8351648351648355e-06,
      "loss": 0.5049,
      "step": 265
    },
    {
      "epoch": 0.04873580065958227,
      "grad_norm": 0.41567729548709964,
      "learning_rate": 4.853479853479854e-06,
      "loss": 0.5313,
      "step": 266
    },
    {
      "epoch": 0.04891901795529498,
      "grad_norm": 0.44877730848158315,
      "learning_rate": 4.871794871794872e-06,
      "loss": 0.5027,
      "step": 267
    },
    {
      "epoch": 0.049102235251007695,
      "grad_norm": 0.46298601715996757,
      "learning_rate": 4.890109890109891e-06,
      "loss": 0.5418,
      "step": 268
    },
    {
      "epoch": 0.04928545254672041,
      "grad_norm": 0.4233152082129357,
      "learning_rate": 4.908424908424909e-06,
      "loss": 0.534,
      "step": 269
    },
    {
      "epoch": 0.04946866984243312,
      "grad_norm": 0.42327618076780654,
      "learning_rate": 4.926739926739927e-06,
      "loss": 0.5073,
      "step": 270
    },
    {
      "epoch": 0.04965188713814584,
      "grad_norm": 0.47132160003804374,
      "learning_rate": 4.945054945054946e-06,
      "loss": 0.564,
      "step": 271
    },
    {
      "epoch": 0.04983510443385856,
      "grad_norm": 0.467395758671848,
      "learning_rate": 4.963369963369964e-06,
      "loss": 0.5194,
      "step": 272
    },
    {
      "epoch": 0.05001832172957127,
      "grad_norm": 0.4377241688268797,
      "learning_rate": 4.9816849816849826e-06,
      "loss": 0.5473,
      "step": 273
    },
    {
      "epoch": 0.05020153902528399,
      "grad_norm": 0.4344310773487788,
      "learning_rate": 5e-06,
      "loss": 0.5198,
      "step": 274
    },
    {
      "epoch": 0.050384756320996704,
      "grad_norm": 0.505691771505538,
      "learning_rate": 5.018315018315018e-06,
      "loss": 0.5001,
      "step": 275
    },
    {
      "epoch": 0.050567973616709415,
      "grad_norm": 0.4741702696479342,
      "learning_rate": 5.036630036630037e-06,
      "loss": 0.5269,
      "step": 276
    },
    {
      "epoch": 0.05075119091242213,
      "grad_norm": 0.4123760853657366,
      "learning_rate": 5.054945054945055e-06,
      "loss": 0.5366,
      "step": 277
    },
    {
      "epoch": 0.05093440820813485,
      "grad_norm": 0.5165952852785715,
      "learning_rate": 5.0732600732600735e-06,
      "loss": 0.5629,
      "step": 278
    },
    {
      "epoch": 0.05111762550384756,
      "grad_norm": 0.6018743338441076,
      "learning_rate": 5.091575091575091e-06,
      "loss": 0.5268,
      "step": 279
    },
    {
      "epoch": 0.05130084279956028,
      "grad_norm": 0.4647905088113548,
      "learning_rate": 5.10989010989011e-06,
      "loss": 0.5353,
      "step": 280
    },
    {
      "epoch": 0.051484060095272996,
      "grad_norm": 0.4666862939383661,
      "learning_rate": 5.128205128205128e-06,
      "loss": 0.5582,
      "step": 281
    },
    {
      "epoch": 0.05166727739098571,
      "grad_norm": 0.42295571485014016,
      "learning_rate": 5.146520146520147e-06,
      "loss": 0.5389,
      "step": 282
    },
    {
      "epoch": 0.051850494686698424,
      "grad_norm": 0.5088982589681916,
      "learning_rate": 5.164835164835166e-06,
      "loss": 0.5114,
      "step": 283
    },
    {
      "epoch": 0.05203371198241114,
      "grad_norm": 0.39252264391052066,
      "learning_rate": 5.183150183150184e-06,
      "loss": 0.5078,
      "step": 284
    },
    {
      "epoch": 0.05221692927812385,
      "grad_norm": 0.47464881831711925,
      "learning_rate": 5.201465201465202e-06,
      "loss": 0.5719,
      "step": 285
    },
    {
      "epoch": 0.05240014657383657,
      "grad_norm": 0.42811181510690394,
      "learning_rate": 5.219780219780221e-06,
      "loss": 0.536,
      "step": 286
    },
    {
      "epoch": 0.05258336386954929,
      "grad_norm": 0.4983761768332983,
      "learning_rate": 5.2380952380952384e-06,
      "loss": 0.5454,
      "step": 287
    },
    {
      "epoch": 0.052766581165262,
      "grad_norm": 0.3871752405078846,
      "learning_rate": 5.256410256410257e-06,
      "loss": 0.5172,
      "step": 288
    },
    {
      "epoch": 0.052949798460974716,
      "grad_norm": 0.44878294094458826,
      "learning_rate": 5.274725274725275e-06,
      "loss": 0.4965,
      "step": 289
    },
    {
      "epoch": 0.053133015756687434,
      "grad_norm": 0.4193937449864018,
      "learning_rate": 5.293040293040294e-06,
      "loss": 0.5418,
      "step": 290
    },
    {
      "epoch": 0.053316233052400144,
      "grad_norm": 0.47326184468203625,
      "learning_rate": 5.3113553113553116e-06,
      "loss": 0.5465,
      "step": 291
    },
    {
      "epoch": 0.05349945034811286,
      "grad_norm": 0.46890596965933473,
      "learning_rate": 5.32967032967033e-06,
      "loss": 0.5427,
      "step": 292
    },
    {
      "epoch": 0.05368266764382558,
      "grad_norm": 0.4718404244115825,
      "learning_rate": 5.347985347985348e-06,
      "loss": 0.5315,
      "step": 293
    },
    {
      "epoch": 0.05386588493953829,
      "grad_norm": 0.5313479853203268,
      "learning_rate": 5.366300366300367e-06,
      "loss": 0.5261,
      "step": 294
    },
    {
      "epoch": 0.05404910223525101,
      "grad_norm": 0.4619862699623299,
      "learning_rate": 5.384615384615385e-06,
      "loss": 0.5224,
      "step": 295
    },
    {
      "epoch": 0.054232319530963725,
      "grad_norm": 0.4235637361399875,
      "learning_rate": 5.402930402930403e-06,
      "loss": 0.5484,
      "step": 296
    },
    {
      "epoch": 0.054415536826676436,
      "grad_norm": 0.4826898937600368,
      "learning_rate": 5.421245421245421e-06,
      "loss": 0.524,
      "step": 297
    },
    {
      "epoch": 0.054598754122389154,
      "grad_norm": 0.43904512964940123,
      "learning_rate": 5.43956043956044e-06,
      "loss": 0.5486,
      "step": 298
    },
    {
      "epoch": 0.05478197141810187,
      "grad_norm": 0.5045757484045217,
      "learning_rate": 5.457875457875458e-06,
      "loss": 0.5407,
      "step": 299
    },
    {
      "epoch": 0.05496518871381458,
      "grad_norm": 0.47829971819207484,
      "learning_rate": 5.476190476190477e-06,
      "loss": 0.5344,
      "step": 300
    },
    {
      "epoch": 0.0551484060095273,
      "grad_norm": 0.416644246441645,
      "learning_rate": 5.494505494505495e-06,
      "loss": 0.5111,
      "step": 301
    },
    {
      "epoch": 0.05533162330524002,
      "grad_norm": 0.488275746902462,
      "learning_rate": 5.512820512820514e-06,
      "loss": 0.54,
      "step": 302
    },
    {
      "epoch": 0.05551484060095273,
      "grad_norm": 0.43082352297647686,
      "learning_rate": 5.531135531135532e-06,
      "loss": 0.5219,
      "step": 303
    },
    {
      "epoch": 0.055698057896665445,
      "grad_norm": 0.41708996725660685,
      "learning_rate": 5.5494505494505504e-06,
      "loss": 0.5272,
      "step": 304
    },
    {
      "epoch": 0.05588127519237816,
      "grad_norm": 0.4748217492221608,
      "learning_rate": 5.567765567765568e-06,
      "loss": 0.5439,
      "step": 305
    },
    {
      "epoch": 0.056064492488090874,
      "grad_norm": 0.5257169187612324,
      "learning_rate": 5.586080586080587e-06,
      "loss": 0.5671,
      "step": 306
    },
    {
      "epoch": 0.05624770978380359,
      "grad_norm": 0.4243472668028098,
      "learning_rate": 5.604395604395605e-06,
      "loss": 0.5044,
      "step": 307
    },
    {
      "epoch": 0.05643092707951631,
      "grad_norm": 0.43876355547814727,
      "learning_rate": 5.6227106227106235e-06,
      "loss": 0.4815,
      "step": 308
    },
    {
      "epoch": 0.05661414437522902,
      "grad_norm": 0.43342398130791976,
      "learning_rate": 5.641025641025641e-06,
      "loss": 0.5308,
      "step": 309
    },
    {
      "epoch": 0.05679736167094174,
      "grad_norm": 0.4660705177035744,
      "learning_rate": 5.65934065934066e-06,
      "loss": 0.5686,
      "step": 310
    },
    {
      "epoch": 0.056980578966654455,
      "grad_norm": 0.4170384834874546,
      "learning_rate": 5.677655677655678e-06,
      "loss": 0.4965,
      "step": 311
    },
    {
      "epoch": 0.057163796262367166,
      "grad_norm": 0.4568771189697619,
      "learning_rate": 5.695970695970696e-06,
      "loss": 0.5074,
      "step": 312
    },
    {
      "epoch": 0.05734701355807988,
      "grad_norm": 0.4666988354433752,
      "learning_rate": 5.7142857142857145e-06,
      "loss": 0.5225,
      "step": 313
    },
    {
      "epoch": 0.0575302308537926,
      "grad_norm": 0.38305953336818827,
      "learning_rate": 5.732600732600732e-06,
      "loss": 0.5057,
      "step": 314
    },
    {
      "epoch": 0.05771344814950531,
      "grad_norm": 0.8971752127635111,
      "learning_rate": 5.750915750915751e-06,
      "loss": 0.5556,
      "step": 315
    },
    {
      "epoch": 0.05789666544521803,
      "grad_norm": 0.4580428245754137,
      "learning_rate": 5.769230769230769e-06,
      "loss": 0.5344,
      "step": 316
    },
    {
      "epoch": 0.05807988274093075,
      "grad_norm": 0.414647309534276,
      "learning_rate": 5.7875457875457885e-06,
      "loss": 0.5177,
      "step": 317
    },
    {
      "epoch": 0.05826310003664346,
      "grad_norm": 0.45495854796733415,
      "learning_rate": 5.805860805860807e-06,
      "loss": 0.5214,
      "step": 318
    },
    {
      "epoch": 0.058446317332356175,
      "grad_norm": 0.47098300998769715,
      "learning_rate": 5.824175824175825e-06,
      "loss": 0.5519,
      "step": 319
    },
    {
      "epoch": 0.05862953462806889,
      "grad_norm": 0.43335718768494447,
      "learning_rate": 5.842490842490844e-06,
      "loss": 0.5282,
      "step": 320
    },
    {
      "epoch": 0.0588127519237816,
      "grad_norm": 0.4649559782288625,
      "learning_rate": 5.860805860805862e-06,
      "loss": 0.5163,
      "step": 321
    },
    {
      "epoch": 0.05899596921949432,
      "grad_norm": 0.44623794630893965,
      "learning_rate": 5.8791208791208794e-06,
      "loss": 0.514,
      "step": 322
    },
    {
      "epoch": 0.05917918651520704,
      "grad_norm": 0.4521538486948526,
      "learning_rate": 5.897435897435898e-06,
      "loss": 0.5248,
      "step": 323
    },
    {
      "epoch": 0.05936240381091975,
      "grad_norm": 0.453853173278213,
      "learning_rate": 5.915750915750916e-06,
      "loss": 0.5105,
      "step": 324
    },
    {
      "epoch": 0.05954562110663247,
      "grad_norm": 0.45615939787874893,
      "learning_rate": 5.934065934065935e-06,
      "loss": 0.5321,
      "step": 325
    },
    {
      "epoch": 0.059728838402345184,
      "grad_norm": 0.5103507598238842,
      "learning_rate": 5.9523809523809525e-06,
      "loss": 0.4889,
      "step": 326
    },
    {
      "epoch": 0.059912055698057895,
      "grad_norm": 0.4755868373014201,
      "learning_rate": 5.970695970695971e-06,
      "loss": 0.5233,
      "step": 327
    },
    {
      "epoch": 0.06009527299377061,
      "grad_norm": 0.48186711326734255,
      "learning_rate": 5.989010989010989e-06,
      "loss": 0.5216,
      "step": 328
    },
    {
      "epoch": 0.06027849028948333,
      "grad_norm": 0.406290487409726,
      "learning_rate": 6.007326007326008e-06,
      "loss": 0.5048,
      "step": 329
    },
    {
      "epoch": 0.06046170758519604,
      "grad_norm": 0.47965200235867606,
      "learning_rate": 6.025641025641026e-06,
      "loss": 0.513,
      "step": 330
    },
    {
      "epoch": 0.06064492488090876,
      "grad_norm": 0.492103246179344,
      "learning_rate": 6.043956043956044e-06,
      "loss": 0.5553,
      "step": 331
    },
    {
      "epoch": 0.060828142176621476,
      "grad_norm": 0.49171785130479284,
      "learning_rate": 6.062271062271062e-06,
      "loss": 0.5289,
      "step": 332
    },
    {
      "epoch": 0.06101135947233419,
      "grad_norm": 0.4659535600554528,
      "learning_rate": 6.080586080586081e-06,
      "loss": 0.5143,
      "step": 333
    },
    {
      "epoch": 0.061194576768046904,
      "grad_norm": 0.43136677550682173,
      "learning_rate": 6.0989010989011e-06,
      "loss": 0.469,
      "step": 334
    },
    {
      "epoch": 0.06137779406375962,
      "grad_norm": 0.6094192173431031,
      "learning_rate": 6.117216117216118e-06,
      "loss": 0.5121,
      "step": 335
    },
    {
      "epoch": 0.06156101135947233,
      "grad_norm": 0.45352827270619606,
      "learning_rate": 6.135531135531136e-06,
      "loss": 0.5097,
      "step": 336
    },
    {
      "epoch": 0.06174422865518505,
      "grad_norm": 0.42626268219917746,
      "learning_rate": 6.153846153846155e-06,
      "loss": 0.5234,
      "step": 337
    },
    {
      "epoch": 0.06192744595089777,
      "grad_norm": 0.4438479757326601,
      "learning_rate": 6.172161172161173e-06,
      "loss": 0.4852,
      "step": 338
    },
    {
      "epoch": 0.06211066324661048,
      "grad_norm": 0.688188614062373,
      "learning_rate": 6.1904761904761914e-06,
      "loss": 0.502,
      "step": 339
    },
    {
      "epoch": 0.062293880542323196,
      "grad_norm": 0.5160627484540854,
      "learning_rate": 6.208791208791209e-06,
      "loss": 0.521,
      "step": 340
    },
    {
      "epoch": 0.062477097838035914,
      "grad_norm": 0.4356067335955304,
      "learning_rate": 6.227106227106228e-06,
      "loss": 0.4918,
      "step": 341
    },
    {
      "epoch": 0.06266031513374863,
      "grad_norm": 0.5001791021027777,
      "learning_rate": 6.245421245421246e-06,
      "loss": 0.5173,
      "step": 342
    },
    {
      "epoch": 0.06284353242946134,
      "grad_norm": 0.45621279623031163,
      "learning_rate": 6.2637362637362645e-06,
      "loss": 0.5532,
      "step": 343
    },
    {
      "epoch": 0.06302674972517405,
      "grad_norm": 0.4686583276600699,
      "learning_rate": 6.282051282051282e-06,
      "loss": 0.5544,
      "step": 344
    },
    {
      "epoch": 0.06320996702088677,
      "grad_norm": 0.4500457038114704,
      "learning_rate": 6.300366300366301e-06,
      "loss": 0.5094,
      "step": 345
    },
    {
      "epoch": 0.06339318431659949,
      "grad_norm": 0.4707435610591325,
      "learning_rate": 6.318681318681319e-06,
      "loss": 0.5317,
      "step": 346
    },
    {
      "epoch": 0.0635764016123122,
      "grad_norm": 0.44910822533973516,
      "learning_rate": 6.336996336996337e-06,
      "loss": 0.5063,
      "step": 347
    },
    {
      "epoch": 0.06375961890802492,
      "grad_norm": 0.4262957774336457,
      "learning_rate": 6.3553113553113555e-06,
      "loss": 0.5389,
      "step": 348
    },
    {
      "epoch": 0.06394283620373763,
      "grad_norm": 0.4958715530578741,
      "learning_rate": 6.373626373626373e-06,
      "loss": 0.5253,
      "step": 349
    },
    {
      "epoch": 0.06412605349945034,
      "grad_norm": 0.4706503863353741,
      "learning_rate": 6.391941391941392e-06,
      "loss": 0.5078,
      "step": 350
    },
    {
      "epoch": 0.06430927079516306,
      "grad_norm": 0.5025375698465898,
      "learning_rate": 6.410256410256412e-06,
      "loss": 0.5366,
      "step": 351
    },
    {
      "epoch": 0.06449248809087578,
      "grad_norm": 0.43307402952194485,
      "learning_rate": 6.4285714285714295e-06,
      "loss": 0.5053,
      "step": 352
    },
    {
      "epoch": 0.0646757053865885,
      "grad_norm": 0.4145957842766705,
      "learning_rate": 6.446886446886448e-06,
      "loss": 0.5134,
      "step": 353
    },
    {
      "epoch": 0.06485892268230121,
      "grad_norm": 0.42558146560441634,
      "learning_rate": 6.465201465201466e-06,
      "loss": 0.498,
      "step": 354
    },
    {
      "epoch": 0.06504213997801392,
      "grad_norm": 0.6808736114735602,
      "learning_rate": 6.483516483516485e-06,
      "loss": 0.4865,
      "step": 355
    },
    {
      "epoch": 0.06522535727372664,
      "grad_norm": 0.4858578720351213,
      "learning_rate": 6.5018315018315026e-06,
      "loss": 0.4977,
      "step": 356
    },
    {
      "epoch": 0.06540857456943935,
      "grad_norm": 0.5523209851617275,
      "learning_rate": 6.5201465201465204e-06,
      "loss": 0.5278,
      "step": 357
    },
    {
      "epoch": 0.06559179186515207,
      "grad_norm": 0.4756243917905379,
      "learning_rate": 6.538461538461539e-06,
      "loss": 0.5018,
      "step": 358
    },
    {
      "epoch": 0.06577500916086479,
      "grad_norm": 0.5270789359516691,
      "learning_rate": 6.556776556776557e-06,
      "loss": 0.5127,
      "step": 359
    },
    {
      "epoch": 0.0659582264565775,
      "grad_norm": 0.5213313487503423,
      "learning_rate": 6.575091575091576e-06,
      "loss": 0.504,
      "step": 360
    },
    {
      "epoch": 0.06614144375229021,
      "grad_norm": 0.47699985237826076,
      "learning_rate": 6.5934065934065935e-06,
      "loss": 0.5356,
      "step": 361
    },
    {
      "epoch": 0.06632466104800293,
      "grad_norm": 0.4398115760336562,
      "learning_rate": 6.611721611721612e-06,
      "loss": 0.5038,
      "step": 362
    },
    {
      "epoch": 0.06650787834371565,
      "grad_norm": 0.5848808647247892,
      "learning_rate": 6.63003663003663e-06,
      "loss": 0.5393,
      "step": 363
    },
    {
      "epoch": 0.06669109563942836,
      "grad_norm": 0.40297449884724584,
      "learning_rate": 6.648351648351649e-06,
      "loss": 0.5231,
      "step": 364
    },
    {
      "epoch": 0.06687431293514108,
      "grad_norm": 0.4615954062532406,
      "learning_rate": 6.666666666666667e-06,
      "loss": 0.5017,
      "step": 365
    },
    {
      "epoch": 0.0670575302308538,
      "grad_norm": 0.4204668889117905,
      "learning_rate": 6.684981684981685e-06,
      "loss": 0.5651,
      "step": 366
    },
    {
      "epoch": 0.0672407475265665,
      "grad_norm": 0.4765525618556606,
      "learning_rate": 6.703296703296703e-06,
      "loss": 0.5253,
      "step": 367
    },
    {
      "epoch": 0.06742396482227922,
      "grad_norm": 0.431663431335195,
      "learning_rate": 6.721611721611723e-06,
      "loss": 0.5398,
      "step": 368
    },
    {
      "epoch": 0.06760718211799194,
      "grad_norm": 0.4403652862248983,
      "learning_rate": 6.739926739926741e-06,
      "loss": 0.5252,
      "step": 369
    },
    {
      "epoch": 0.06779039941370466,
      "grad_norm": 0.483725795531489,
      "learning_rate": 6.758241758241759e-06,
      "loss": 0.5349,
      "step": 370
    },
    {
      "epoch": 0.06797361670941737,
      "grad_norm": 0.8892216780264888,
      "learning_rate": 6.776556776556777e-06,
      "loss": 0.5184,
      "step": 371
    },
    {
      "epoch": 0.06815683400513009,
      "grad_norm": 0.48775432933817636,
      "learning_rate": 6.794871794871796e-06,
      "loss": 0.5275,
      "step": 372
    },
    {
      "epoch": 0.0683400513008428,
      "grad_norm": 0.4772597017011689,
      "learning_rate": 6.813186813186814e-06,
      "loss": 0.5517,
      "step": 373
    },
    {
      "epoch": 0.06852326859655551,
      "grad_norm": 0.46418441159832313,
      "learning_rate": 6.831501831501832e-06,
      "loss": 0.5429,
      "step": 374
    },
    {
      "epoch": 0.06870648589226823,
      "grad_norm": 0.45474945807496187,
      "learning_rate": 6.84981684981685e-06,
      "loss": 0.4999,
      "step": 375
    },
    {
      "epoch": 0.06888970318798095,
      "grad_norm": 0.5576640330118253,
      "learning_rate": 6.868131868131869e-06,
      "loss": 0.5198,
      "step": 376
    },
    {
      "epoch": 0.06907292048369366,
      "grad_norm": 0.4921371781399045,
      "learning_rate": 6.886446886446887e-06,
      "loss": 0.5379,
      "step": 377
    },
    {
      "epoch": 0.06925613777940638,
      "grad_norm": 0.41639097386056484,
      "learning_rate": 6.9047619047619055e-06,
      "loss": 0.519,
      "step": 378
    },
    {
      "epoch": 0.06943935507511909,
      "grad_norm": 0.4778909271586564,
      "learning_rate": 6.923076923076923e-06,
      "loss": 0.5336,
      "step": 379
    },
    {
      "epoch": 0.0696225723708318,
      "grad_norm": 0.4735414706699025,
      "learning_rate": 6.941391941391942e-06,
      "loss": 0.5,
      "step": 380
    },
    {
      "epoch": 0.06980578966654452,
      "grad_norm": 0.5646322357431656,
      "learning_rate": 6.95970695970696e-06,
      "loss": 0.5073,
      "step": 381
    },
    {
      "epoch": 0.06998900696225724,
      "grad_norm": 0.48231469572609614,
      "learning_rate": 6.978021978021979e-06,
      "loss": 0.519,
      "step": 382
    },
    {
      "epoch": 0.07017222425796996,
      "grad_norm": 0.5051213072897166,
      "learning_rate": 6.9963369963369965e-06,
      "loss": 0.5315,
      "step": 383
    },
    {
      "epoch": 0.07035544155368267,
      "grad_norm": 0.5166250853237789,
      "learning_rate": 7.014652014652014e-06,
      "loss": 0.4978,
      "step": 384
    },
    {
      "epoch": 0.07053865884939538,
      "grad_norm": 0.43900982727967125,
      "learning_rate": 7.032967032967034e-06,
      "loss": 0.4913,
      "step": 385
    },
    {
      "epoch": 0.0707218761451081,
      "grad_norm": 0.5262819691743885,
      "learning_rate": 7.051282051282053e-06,
      "loss": 0.5189,
      "step": 386
    },
    {
      "epoch": 0.07090509344082081,
      "grad_norm": 0.4906825009780104,
      "learning_rate": 7.0695970695970705e-06,
      "loss": 0.5586,
      "step": 387
    },
    {
      "epoch": 0.07108831073653353,
      "grad_norm": 0.48825547184252527,
      "learning_rate": 7.087912087912089e-06,
      "loss": 0.5218,
      "step": 388
    },
    {
      "epoch": 0.07127152803224625,
      "grad_norm": 0.5005437189224704,
      "learning_rate": 7.106227106227107e-06,
      "loss": 0.5088,
      "step": 389
    },
    {
      "epoch": 0.07145474532795897,
      "grad_norm": 0.4820090004987099,
      "learning_rate": 7.124542124542126e-06,
      "loss": 0.5132,
      "step": 390
    },
    {
      "epoch": 0.07163796262367167,
      "grad_norm": 0.46585258023856246,
      "learning_rate": 7.1428571428571436e-06,
      "loss": 0.5198,
      "step": 391
    },
    {
      "epoch": 0.07182117991938439,
      "grad_norm": 0.5351346796257885,
      "learning_rate": 7.161172161172162e-06,
      "loss": 0.5174,
      "step": 392
    },
    {
      "epoch": 0.0720043972150971,
      "grad_norm": 0.505980784032641,
      "learning_rate": 7.17948717948718e-06,
      "loss": 0.517,
      "step": 393
    },
    {
      "epoch": 0.07218761451080982,
      "grad_norm": 0.3991493735258601,
      "learning_rate": 7.197802197802198e-06,
      "loss": 0.5193,
      "step": 394
    },
    {
      "epoch": 0.07237083180652254,
      "grad_norm": 0.47050897190858826,
      "learning_rate": 7.216117216117217e-06,
      "loss": 0.5278,
      "step": 395
    },
    {
      "epoch": 0.07255404910223526,
      "grad_norm": 0.42709223237684557,
      "learning_rate": 7.2344322344322345e-06,
      "loss": 0.5233,
      "step": 396
    },
    {
      "epoch": 0.07273726639794796,
      "grad_norm": 0.40701893214503493,
      "learning_rate": 7.252747252747253e-06,
      "loss": 0.4594,
      "step": 397
    },
    {
      "epoch": 0.07292048369366068,
      "grad_norm": 0.4793723507064191,
      "learning_rate": 7.271062271062271e-06,
      "loss": 0.5022,
      "step": 398
    },
    {
      "epoch": 0.0731037009893734,
      "grad_norm": 0.4084855491847111,
      "learning_rate": 7.28937728937729e-06,
      "loss": 0.5177,
      "step": 399
    },
    {
      "epoch": 0.07328691828508611,
      "grad_norm": 0.48791204362548757,
      "learning_rate": 7.307692307692308e-06,
      "loss": 0.5336,
      "step": 400
    },
    {
      "epoch": 0.07347013558079883,
      "grad_norm": 0.4721917787188149,
      "learning_rate": 7.326007326007326e-06,
      "loss": 0.5291,
      "step": 401
    },
    {
      "epoch": 0.07365335287651155,
      "grad_norm": 0.4482564665450733,
      "learning_rate": 7.344322344322346e-06,
      "loss": 0.516,
      "step": 402
    },
    {
      "epoch": 0.07383657017222425,
      "grad_norm": 0.503350703275625,
      "learning_rate": 7.362637362637364e-06,
      "loss": 0.5232,
      "step": 403
    },
    {
      "epoch": 0.07401978746793697,
      "grad_norm": 0.5152368271826678,
      "learning_rate": 7.380952380952382e-06,
      "loss": 0.5258,
      "step": 404
    },
    {
      "epoch": 0.07420300476364969,
      "grad_norm": 0.4523690267979874,
      "learning_rate": 7.3992673992674e-06,
      "loss": 0.5007,
      "step": 405
    },
    {
      "epoch": 0.0743862220593624,
      "grad_norm": 0.44122338596098665,
      "learning_rate": 7.417582417582418e-06,
      "loss": 0.5325,
      "step": 406
    },
    {
      "epoch": 0.07456943935507512,
      "grad_norm": 0.418021168922302,
      "learning_rate": 7.435897435897437e-06,
      "loss": 0.5048,
      "step": 407
    },
    {
      "epoch": 0.07475265665078784,
      "grad_norm": 0.44537098554090276,
      "learning_rate": 7.454212454212455e-06,
      "loss": 0.5294,
      "step": 408
    },
    {
      "epoch": 0.07493587394650054,
      "grad_norm": 0.41384101894590325,
      "learning_rate": 7.472527472527473e-06,
      "loss": 0.5119,
      "step": 409
    },
    {
      "epoch": 0.07511909124221326,
      "grad_norm": 0.4647470180215214,
      "learning_rate": 7.490842490842491e-06,
      "loss": 0.5202,
      "step": 410
    },
    {
      "epoch": 0.07530230853792598,
      "grad_norm": 0.4836409216489063,
      "learning_rate": 7.50915750915751e-06,
      "loss": 0.5056,
      "step": 411
    },
    {
      "epoch": 0.0754855258336387,
      "grad_norm": 0.45195196209865357,
      "learning_rate": 7.527472527472528e-06,
      "loss": 0.5213,
      "step": 412
    },
    {
      "epoch": 0.07566874312935142,
      "grad_norm": 0.5036829282617328,
      "learning_rate": 7.5457875457875465e-06,
      "loss": 0.5347,
      "step": 413
    },
    {
      "epoch": 0.07585196042506413,
      "grad_norm": 0.4666038283310089,
      "learning_rate": 7.564102564102564e-06,
      "loss": 0.5151,
      "step": 414
    },
    {
      "epoch": 0.07603517772077684,
      "grad_norm": 0.5067769344340564,
      "learning_rate": 7.582417582417583e-06,
      "loss": 0.5171,
      "step": 415
    },
    {
      "epoch": 0.07621839501648955,
      "grad_norm": 0.4093230258713508,
      "learning_rate": 7.600732600732601e-06,
      "loss": 0.5039,
      "step": 416
    },
    {
      "epoch": 0.07640161231220227,
      "grad_norm": 0.6498006485071868,
      "learning_rate": 7.61904761904762e-06,
      "loss": 0.5232,
      "step": 417
    },
    {
      "epoch": 0.07658482960791499,
      "grad_norm": 0.4558152414900924,
      "learning_rate": 7.637362637362638e-06,
      "loss": 0.5232,
      "step": 418
    },
    {
      "epoch": 0.0767680469036277,
      "grad_norm": 0.4804930639066785,
      "learning_rate": 7.655677655677656e-06,
      "loss": 0.5088,
      "step": 419
    },
    {
      "epoch": 0.07695126419934042,
      "grad_norm": 0.5081120095319347,
      "learning_rate": 7.673992673992676e-06,
      "loss": 0.5308,
      "step": 420
    },
    {
      "epoch": 0.07713448149505313,
      "grad_norm": 0.42393212923875745,
      "learning_rate": 7.692307692307694e-06,
      "loss": 0.5084,
      "step": 421
    },
    {
      "epoch": 0.07731769879076585,
      "grad_norm": 0.44672075335716155,
      "learning_rate": 7.710622710622711e-06,
      "loss": 0.483,
      "step": 422
    },
    {
      "epoch": 0.07750091608647856,
      "grad_norm": 0.4942211324726324,
      "learning_rate": 7.72893772893773e-06,
      "loss": 0.5236,
      "step": 423
    },
    {
      "epoch": 0.07768413338219128,
      "grad_norm": 0.39817279842841763,
      "learning_rate": 7.747252747252749e-06,
      "loss": 0.5332,
      "step": 424
    },
    {
      "epoch": 0.077867350677904,
      "grad_norm": 0.4608671155196199,
      "learning_rate": 7.765567765567767e-06,
      "loss": 0.523,
      "step": 425
    },
    {
      "epoch": 0.07805056797361672,
      "grad_norm": 0.5225991254379231,
      "learning_rate": 7.783882783882785e-06,
      "loss": 0.5171,
      "step": 426
    },
    {
      "epoch": 0.07823378526932942,
      "grad_norm": 0.5423490196220466,
      "learning_rate": 7.802197802197802e-06,
      "loss": 0.4985,
      "step": 427
    },
    {
      "epoch": 0.07841700256504214,
      "grad_norm": 0.502419506962013,
      "learning_rate": 7.820512820512822e-06,
      "loss": 0.5087,
      "step": 428
    },
    {
      "epoch": 0.07860021986075486,
      "grad_norm": 0.5102984182578104,
      "learning_rate": 7.83882783882784e-06,
      "loss": 0.5358,
      "step": 429
    },
    {
      "epoch": 0.07878343715646757,
      "grad_norm": 0.4742126281062651,
      "learning_rate": 7.857142857142858e-06,
      "loss": 0.5585,
      "step": 430
    },
    {
      "epoch": 0.07896665445218029,
      "grad_norm": 0.508787409495283,
      "learning_rate": 7.875457875457876e-06,
      "loss": 0.5411,
      "step": 431
    },
    {
      "epoch": 0.079149871747893,
      "grad_norm": 0.4559258370924022,
      "learning_rate": 7.893772893772893e-06,
      "loss": 0.5229,
      "step": 432
    },
    {
      "epoch": 0.07933308904360571,
      "grad_norm": 0.6320276655690735,
      "learning_rate": 7.912087912087913e-06,
      "loss": 0.4688,
      "step": 433
    },
    {
      "epoch": 0.07951630633931843,
      "grad_norm": 0.9797165625621964,
      "learning_rate": 7.93040293040293e-06,
      "loss": 0.5372,
      "step": 434
    },
    {
      "epoch": 0.07969952363503115,
      "grad_norm": 0.43648526458810954,
      "learning_rate": 7.948717948717949e-06,
      "loss": 0.4528,
      "step": 435
    },
    {
      "epoch": 0.07988274093074386,
      "grad_norm": 0.46101717931557235,
      "learning_rate": 7.967032967032966e-06,
      "loss": 0.4836,
      "step": 436
    },
    {
      "epoch": 0.08006595822645658,
      "grad_norm": 0.46019219132505085,
      "learning_rate": 7.985347985347986e-06,
      "loss": 0.4874,
      "step": 437
    },
    {
      "epoch": 0.08024917552216929,
      "grad_norm": 0.4228905699110607,
      "learning_rate": 8.003663003663006e-06,
      "loss": 0.483,
      "step": 438
    },
    {
      "epoch": 0.080432392817882,
      "grad_norm": 0.4920935432281776,
      "learning_rate": 8.021978021978023e-06,
      "loss": 0.489,
      "step": 439
    },
    {
      "epoch": 0.08061561011359472,
      "grad_norm": 0.45385267234753407,
      "learning_rate": 8.040293040293041e-06,
      "loss": 0.5262,
      "step": 440
    },
    {
      "epoch": 0.08079882740930744,
      "grad_norm": 0.48390990285633756,
      "learning_rate": 8.058608058608059e-06,
      "loss": 0.4969,
      "step": 441
    },
    {
      "epoch": 0.08098204470502016,
      "grad_norm": 0.4424118373260341,
      "learning_rate": 8.076923076923077e-06,
      "loss": 0.5217,
      "step": 442
    },
    {
      "epoch": 0.08116526200073287,
      "grad_norm": 0.4647327426734162,
      "learning_rate": 8.095238095238097e-06,
      "loss": 0.5103,
      "step": 443
    },
    {
      "epoch": 0.08134847929644558,
      "grad_norm": 0.42019112334691044,
      "learning_rate": 8.113553113553114e-06,
      "loss": 0.5378,
      "step": 444
    },
    {
      "epoch": 0.0815316965921583,
      "grad_norm": 0.40127483204178854,
      "learning_rate": 8.131868131868132e-06,
      "loss": 0.4813,
      "step": 445
    },
    {
      "epoch": 0.08171491388787101,
      "grad_norm": 0.4606579465800615,
      "learning_rate": 8.15018315018315e-06,
      "loss": 0.5067,
      "step": 446
    },
    {
      "epoch": 0.08189813118358373,
      "grad_norm": 0.4715535246345655,
      "learning_rate": 8.16849816849817e-06,
      "loss": 0.5181,
      "step": 447
    },
    {
      "epoch": 0.08208134847929645,
      "grad_norm": 0.5386430386856308,
      "learning_rate": 8.186813186813188e-06,
      "loss": 0.5188,
      "step": 448
    },
    {
      "epoch": 0.08226456577500917,
      "grad_norm": 0.5389030998275688,
      "learning_rate": 8.205128205128205e-06,
      "loss": 0.516,
      "step": 449
    },
    {
      "epoch": 0.08244778307072187,
      "grad_norm": 0.5181954163327931,
      "learning_rate": 8.223443223443223e-06,
      "loss": 0.5099,
      "step": 450
    },
    {
      "epoch": 0.08263100036643459,
      "grad_norm": 0.5425277965290457,
      "learning_rate": 8.241758241758243e-06,
      "loss": 0.5508,
      "step": 451
    },
    {
      "epoch": 0.0828142176621473,
      "grad_norm": 0.4366152129754919,
      "learning_rate": 8.26007326007326e-06,
      "loss": 0.4772,
      "step": 452
    },
    {
      "epoch": 0.08299743495786002,
      "grad_norm": 0.45607475441878936,
      "learning_rate": 8.278388278388278e-06,
      "loss": 0.5319,
      "step": 453
    },
    {
      "epoch": 0.08318065225357274,
      "grad_norm": 0.4712644997156548,
      "learning_rate": 8.296703296703298e-06,
      "loss": 0.5477,
      "step": 454
    },
    {
      "epoch": 0.08336386954928546,
      "grad_norm": 0.6856852588986854,
      "learning_rate": 8.315018315018316e-06,
      "loss": 0.5235,
      "step": 455
    },
    {
      "epoch": 0.08354708684499816,
      "grad_norm": 0.5019345602931549,
      "learning_rate": 8.333333333333334e-06,
      "loss": 0.5101,
      "step": 456
    },
    {
      "epoch": 0.08373030414071088,
      "grad_norm": 0.4155972768165925,
      "learning_rate": 8.351648351648353e-06,
      "loss": 0.4986,
      "step": 457
    },
    {
      "epoch": 0.0839135214364236,
      "grad_norm": 0.45725631484653695,
      "learning_rate": 8.369963369963371e-06,
      "loss": 0.5233,
      "step": 458
    },
    {
      "epoch": 0.08409673873213631,
      "grad_norm": 0.5500464841633228,
      "learning_rate": 8.388278388278389e-06,
      "loss": 0.5225,
      "step": 459
    },
    {
      "epoch": 0.08427995602784903,
      "grad_norm": 0.5210381864086956,
      "learning_rate": 8.406593406593407e-06,
      "loss": 0.5509,
      "step": 460
    },
    {
      "epoch": 0.08446317332356175,
      "grad_norm": 0.4559821107303101,
      "learning_rate": 8.424908424908426e-06,
      "loss": 0.5118,
      "step": 461
    },
    {
      "epoch": 0.08464639061927445,
      "grad_norm": 0.48323545775926524,
      "learning_rate": 8.443223443223444e-06,
      "loss": 0.5049,
      "step": 462
    },
    {
      "epoch": 0.08482960791498717,
      "grad_norm": 0.4812859935236779,
      "learning_rate": 8.461538461538462e-06,
      "loss": 0.5204,
      "step": 463
    },
    {
      "epoch": 0.08501282521069989,
      "grad_norm": 0.454474341410942,
      "learning_rate": 8.47985347985348e-06,
      "loss": 0.5387,
      "step": 464
    },
    {
      "epoch": 0.0851960425064126,
      "grad_norm": 0.6615650181808158,
      "learning_rate": 8.498168498168498e-06,
      "loss": 0.5393,
      "step": 465
    },
    {
      "epoch": 0.08537925980212532,
      "grad_norm": 0.4355325124699567,
      "learning_rate": 8.516483516483517e-06,
      "loss": 0.5027,
      "step": 466
    },
    {
      "epoch": 0.08556247709783804,
      "grad_norm": 0.43977659231205646,
      "learning_rate": 8.534798534798535e-06,
      "loss": 0.4851,
      "step": 467
    },
    {
      "epoch": 0.08574569439355074,
      "grad_norm": 0.5490378411527629,
      "learning_rate": 8.553113553113553e-06,
      "loss": 0.5087,
      "step": 468
    },
    {
      "epoch": 0.08592891168926346,
      "grad_norm": 0.4334113007101785,
      "learning_rate": 8.571428571428571e-06,
      "loss": 0.4874,
      "step": 469
    },
    {
      "epoch": 0.08611212898497618,
      "grad_norm": 0.48093462345535853,
      "learning_rate": 8.58974358974359e-06,
      "loss": 0.5103,
      "step": 470
    },
    {
      "epoch": 0.0862953462806889,
      "grad_norm": 0.509104778628553,
      "learning_rate": 8.60805860805861e-06,
      "loss": 0.5125,
      "step": 471
    },
    {
      "epoch": 0.08647856357640162,
      "grad_norm": 0.46329459466937095,
      "learning_rate": 8.626373626373628e-06,
      "loss": 0.4862,
      "step": 472
    },
    {
      "epoch": 0.08666178087211433,
      "grad_norm": 0.41221910536829426,
      "learning_rate": 8.644688644688646e-06,
      "loss": 0.5058,
      "step": 473
    },
    {
      "epoch": 0.08684499816782704,
      "grad_norm": 0.4965957595147397,
      "learning_rate": 8.663003663003664e-06,
      "loss": 0.5045,
      "step": 474
    },
    {
      "epoch": 0.08702821546353975,
      "grad_norm": 0.6831024596734047,
      "learning_rate": 8.681318681318681e-06,
      "loss": 0.533,
      "step": 475
    },
    {
      "epoch": 0.08721143275925247,
      "grad_norm": 0.44117689667679433,
      "learning_rate": 8.699633699633701e-06,
      "loss": 0.494,
      "step": 476
    },
    {
      "epoch": 0.08739465005496519,
      "grad_norm": 0.49552902332130444,
      "learning_rate": 8.717948717948719e-06,
      "loss": 0.5295,
      "step": 477
    },
    {
      "epoch": 0.08757786735067791,
      "grad_norm": 0.5202864223018397,
      "learning_rate": 8.736263736263737e-06,
      "loss": 0.5315,
      "step": 478
    },
    {
      "epoch": 0.08776108464639062,
      "grad_norm": 0.4531456591891388,
      "learning_rate": 8.754578754578755e-06,
      "loss": 0.5177,
      "step": 479
    },
    {
      "epoch": 0.08794430194210333,
      "grad_norm": 0.5060531781359298,
      "learning_rate": 8.772893772893774e-06,
      "loss": 0.5422,
      "step": 480
    },
    {
      "epoch": 0.08812751923781605,
      "grad_norm": 0.44222377285427994,
      "learning_rate": 8.791208791208792e-06,
      "loss": 0.4679,
      "step": 481
    },
    {
      "epoch": 0.08831073653352876,
      "grad_norm": 0.4308135949373974,
      "learning_rate": 8.80952380952381e-06,
      "loss": 0.5057,
      "step": 482
    },
    {
      "epoch": 0.08849395382924148,
      "grad_norm": 0.5107147323097014,
      "learning_rate": 8.827838827838828e-06,
      "loss": 0.5147,
      "step": 483
    },
    {
      "epoch": 0.0886771711249542,
      "grad_norm": 0.4722359038239213,
      "learning_rate": 8.846153846153847e-06,
      "loss": 0.5069,
      "step": 484
    },
    {
      "epoch": 0.08886038842066692,
      "grad_norm": 0.4913307139634766,
      "learning_rate": 8.864468864468865e-06,
      "loss": 0.4943,
      "step": 485
    },
    {
      "epoch": 0.08904360571637962,
      "grad_norm": 0.47381589638250404,
      "learning_rate": 8.882783882783883e-06,
      "loss": 0.5432,
      "step": 486
    },
    {
      "epoch": 0.08922682301209234,
      "grad_norm": 0.4763727220823097,
      "learning_rate": 8.9010989010989e-06,
      "loss": 0.4765,
      "step": 487
    },
    {
      "epoch": 0.08941004030780506,
      "grad_norm": 0.48581942940784734,
      "learning_rate": 8.91941391941392e-06,
      "loss": 0.4918,
      "step": 488
    },
    {
      "epoch": 0.08959325760351777,
      "grad_norm": 0.4771435540271998,
      "learning_rate": 8.937728937728938e-06,
      "loss": 0.5146,
      "step": 489
    },
    {
      "epoch": 0.08977647489923049,
      "grad_norm": 0.5554558590150881,
      "learning_rate": 8.956043956043958e-06,
      "loss": 0.5139,
      "step": 490
    },
    {
      "epoch": 0.08995969219494321,
      "grad_norm": 0.4409852140988399,
      "learning_rate": 8.974358974358976e-06,
      "loss": 0.494,
      "step": 491
    },
    {
      "epoch": 0.09014290949065591,
      "grad_norm": 0.470617109732078,
      "learning_rate": 8.992673992673993e-06,
      "loss": 0.5293,
      "step": 492
    },
    {
      "epoch": 0.09032612678636863,
      "grad_norm": 0.48719044521659705,
      "learning_rate": 9.010989010989011e-06,
      "loss": 0.5111,
      "step": 493
    },
    {
      "epoch": 0.09050934408208135,
      "grad_norm": 0.46876439756978366,
      "learning_rate": 9.02930402930403e-06,
      "loss": 0.4942,
      "step": 494
    },
    {
      "epoch": 0.09069256137779406,
      "grad_norm": 0.46671821534033575,
      "learning_rate": 9.047619047619049e-06,
      "loss": 0.5617,
      "step": 495
    },
    {
      "epoch": 0.09087577867350678,
      "grad_norm": 0.4868372988815388,
      "learning_rate": 9.065934065934067e-06,
      "loss": 0.5195,
      "step": 496
    },
    {
      "epoch": 0.0910589959692195,
      "grad_norm": 0.47526685976460153,
      "learning_rate": 9.084249084249084e-06,
      "loss": 0.4561,
      "step": 497
    },
    {
      "epoch": 0.0912422132649322,
      "grad_norm": 0.526795639153496,
      "learning_rate": 9.102564102564104e-06,
      "loss": 0.4905,
      "step": 498
    },
    {
      "epoch": 0.09142543056064492,
      "grad_norm": 0.47935527575760656,
      "learning_rate": 9.120879120879122e-06,
      "loss": 0.5129,
      "step": 499
    },
    {
      "epoch": 0.09160864785635764,
      "grad_norm": 0.47020582683735346,
      "learning_rate": 9.13919413919414e-06,
      "loss": 0.511,
      "step": 500
    },
    {
      "epoch": 0.09179186515207036,
      "grad_norm": 0.46760420885699033,
      "learning_rate": 9.157509157509158e-06,
      "loss": 0.4789,
      "step": 501
    },
    {
      "epoch": 0.09197508244778307,
      "grad_norm": 0.4695251283934706,
      "learning_rate": 9.175824175824175e-06,
      "loss": 0.5351,
      "step": 502
    },
    {
      "epoch": 0.09215829974349579,
      "grad_norm": 0.5153360795669553,
      "learning_rate": 9.194139194139195e-06,
      "loss": 0.5522,
      "step": 503
    },
    {
      "epoch": 0.0923415170392085,
      "grad_norm": 0.44806081150815513,
      "learning_rate": 9.212454212454213e-06,
      "loss": 0.5173,
      "step": 504
    },
    {
      "epoch": 0.09252473433492121,
      "grad_norm": 0.451536504838503,
      "learning_rate": 9.230769230769232e-06,
      "loss": 0.5082,
      "step": 505
    },
    {
      "epoch": 0.09270795163063393,
      "grad_norm": 0.48436384147084766,
      "learning_rate": 9.24908424908425e-06,
      "loss": 0.5388,
      "step": 506
    },
    {
      "epoch": 0.09289116892634665,
      "grad_norm": 0.4609113225702784,
      "learning_rate": 9.267399267399268e-06,
      "loss": 0.4892,
      "step": 507
    },
    {
      "epoch": 0.09307438622205937,
      "grad_norm": 0.4098711492197863,
      "learning_rate": 9.285714285714288e-06,
      "loss": 0.4856,
      "step": 508
    },
    {
      "epoch": 0.09325760351777208,
      "grad_norm": 0.4715675907322317,
      "learning_rate": 9.304029304029305e-06,
      "loss": 0.53,
      "step": 509
    },
    {
      "epoch": 0.09344082081348479,
      "grad_norm": 0.5026574189450673,
      "learning_rate": 9.322344322344323e-06,
      "loss": 0.5314,
      "step": 510
    },
    {
      "epoch": 0.0936240381091975,
      "grad_norm": 0.4253199666429807,
      "learning_rate": 9.340659340659341e-06,
      "loss": 0.5068,
      "step": 511
    },
    {
      "epoch": 0.09380725540491022,
      "grad_norm": 0.45894485399853974,
      "learning_rate": 9.358974358974359e-06,
      "loss": 0.5235,
      "step": 512
    },
    {
      "epoch": 0.09399047270062294,
      "grad_norm": 0.7513225377427756,
      "learning_rate": 9.377289377289379e-06,
      "loss": 0.5071,
      "step": 513
    },
    {
      "epoch": 0.09417368999633566,
      "grad_norm": 0.5231017027547264,
      "learning_rate": 9.395604395604396e-06,
      "loss": 0.5339,
      "step": 514
    },
    {
      "epoch": 0.09435690729204838,
      "grad_norm": 0.5146997140217462,
      "learning_rate": 9.413919413919414e-06,
      "loss": 0.5052,
      "step": 515
    },
    {
      "epoch": 0.09454012458776108,
      "grad_norm": 0.47760493192836756,
      "learning_rate": 9.432234432234432e-06,
      "loss": 0.5102,
      "step": 516
    },
    {
      "epoch": 0.0947233418834738,
      "grad_norm": 0.44117590454697736,
      "learning_rate": 9.450549450549452e-06,
      "loss": 0.5237,
      "step": 517
    },
    {
      "epoch": 0.09490655917918651,
      "grad_norm": 0.5004680185091399,
      "learning_rate": 9.46886446886447e-06,
      "loss": 0.5243,
      "step": 518
    },
    {
      "epoch": 0.09508977647489923,
      "grad_norm": 0.4549800276149351,
      "learning_rate": 9.487179487179487e-06,
      "loss": 0.5139,
      "step": 519
    },
    {
      "epoch": 0.09527299377061195,
      "grad_norm": 0.4263327588755031,
      "learning_rate": 9.505494505494505e-06,
      "loss": 0.4877,
      "step": 520
    },
    {
      "epoch": 0.09545621106632467,
      "grad_norm": 0.4484968491218323,
      "learning_rate": 9.523809523809525e-06,
      "loss": 0.4986,
      "step": 521
    },
    {
      "epoch": 0.09563942836203737,
      "grad_norm": 0.39390345192807547,
      "learning_rate": 9.542124542124543e-06,
      "loss": 0.5116,
      "step": 522
    },
    {
      "epoch": 0.09582264565775009,
      "grad_norm": 0.4529147798983982,
      "learning_rate": 9.560439560439562e-06,
      "loss": 0.5312,
      "step": 523
    },
    {
      "epoch": 0.0960058629534628,
      "grad_norm": 0.49701803503982106,
      "learning_rate": 9.57875457875458e-06,
      "loss": 0.529,
      "step": 524
    },
    {
      "epoch": 0.09618908024917552,
      "grad_norm": 0.4097214793479841,
      "learning_rate": 9.597069597069598e-06,
      "loss": 0.5005,
      "step": 525
    },
    {
      "epoch": 0.09637229754488824,
      "grad_norm": 0.5148151884655592,
      "learning_rate": 9.615384615384616e-06,
      "loss": 0.53,
      "step": 526
    },
    {
      "epoch": 0.09655551484060096,
      "grad_norm": 0.4264857545219357,
      "learning_rate": 9.633699633699635e-06,
      "loss": 0.5136,
      "step": 527
    },
    {
      "epoch": 0.09673873213631366,
      "grad_norm": 0.45426464252638443,
      "learning_rate": 9.652014652014653e-06,
      "loss": 0.5117,
      "step": 528
    },
    {
      "epoch": 0.09692194943202638,
      "grad_norm": 0.47571176071645493,
      "learning_rate": 9.670329670329671e-06,
      "loss": 0.5185,
      "step": 529
    },
    {
      "epoch": 0.0971051667277391,
      "grad_norm": 0.42418752426373113,
      "learning_rate": 9.688644688644689e-06,
      "loss": 0.5285,
      "step": 530
    },
    {
      "epoch": 0.09728838402345182,
      "grad_norm": 0.48590348616099827,
      "learning_rate": 9.706959706959708e-06,
      "loss": 0.5339,
      "step": 531
    },
    {
      "epoch": 0.09747160131916453,
      "grad_norm": 0.463774513888958,
      "learning_rate": 9.725274725274726e-06,
      "loss": 0.5386,
      "step": 532
    },
    {
      "epoch": 0.09765481861487725,
      "grad_norm": 0.4891808396070614,
      "learning_rate": 9.743589743589744e-06,
      "loss": 0.5326,
      "step": 533
    },
    {
      "epoch": 0.09783803591058995,
      "grad_norm": 0.40841004082693305,
      "learning_rate": 9.761904761904762e-06,
      "loss": 0.5085,
      "step": 534
    },
    {
      "epoch": 0.09802125320630267,
      "grad_norm": 0.42494728872814735,
      "learning_rate": 9.780219780219781e-06,
      "loss": 0.4751,
      "step": 535
    },
    {
      "epoch": 0.09820447050201539,
      "grad_norm": 0.4594283822364781,
      "learning_rate": 9.7985347985348e-06,
      "loss": 0.5275,
      "step": 536
    },
    {
      "epoch": 0.09838768779772811,
      "grad_norm": 0.4064302259117676,
      "learning_rate": 9.816849816849817e-06,
      "loss": 0.5089,
      "step": 537
    },
    {
      "epoch": 0.09857090509344082,
      "grad_norm": 0.4860027724973198,
      "learning_rate": 9.835164835164835e-06,
      "loss": 0.505,
      "step": 538
    },
    {
      "epoch": 0.09875412238915354,
      "grad_norm": 0.47625362870716265,
      "learning_rate": 9.853479853479855e-06,
      "loss": 0.4954,
      "step": 539
    },
    {
      "epoch": 0.09893733968486625,
      "grad_norm": 0.4592940212317861,
      "learning_rate": 9.871794871794872e-06,
      "loss": 0.4871,
      "step": 540
    },
    {
      "epoch": 0.09912055698057896,
      "grad_norm": 0.42717127053329573,
      "learning_rate": 9.890109890109892e-06,
      "loss": 0.5261,
      "step": 541
    },
    {
      "epoch": 0.09930377427629168,
      "grad_norm": 0.43970535809042904,
      "learning_rate": 9.90842490842491e-06,
      "loss": 0.4866,
      "step": 542
    },
    {
      "epoch": 0.0994869915720044,
      "grad_norm": 0.42143360797263807,
      "learning_rate": 9.926739926739928e-06,
      "loss": 0.5113,
      "step": 543
    },
    {
      "epoch": 0.09967020886771712,
      "grad_norm": 0.4416711016318173,
      "learning_rate": 9.945054945054946e-06,
      "loss": 0.5116,
      "step": 544
    },
    {
      "epoch": 0.09985342616342983,
      "grad_norm": 0.45325267149265236,
      "learning_rate": 9.963369963369965e-06,
      "loss": 0.5283,
      "step": 545
    },
    {
      "epoch": 0.10003664345914254,
      "grad_norm": 0.3948707773420248,
      "learning_rate": 9.981684981684983e-06,
      "loss": 0.5114,
      "step": 546
    },
    {
      "epoch": 0.10021986075485526,
      "grad_norm": 0.42983426021717475,
      "learning_rate": 1e-05,
      "loss": 0.5169,
      "step": 547
    },
    {
      "epoch": 0.10040307805056797,
      "grad_norm": 0.5119731461361727,
      "learning_rate": 9.999998977359419e-06,
      "loss": 0.518,
      "step": 548
    },
    {
      "epoch": 0.10058629534628069,
      "grad_norm": 0.48479775231872485,
      "learning_rate": 9.999995909438092e-06,
      "loss": 0.5207,
      "step": 549
    },
    {
      "epoch": 0.10076951264199341,
      "grad_norm": 0.45005420614602115,
      "learning_rate": 9.999990796237274e-06,
      "loss": 0.4878,
      "step": 550
    },
    {
      "epoch": 0.10095272993770613,
      "grad_norm": 0.40595587220813967,
      "learning_rate": 9.999983637759059e-06,
      "loss": 0.4712,
      "step": 551
    },
    {
      "epoch": 0.10113594723341883,
      "grad_norm": 0.43893870910937327,
      "learning_rate": 9.999974434006372e-06,
      "loss": 0.4964,
      "step": 552
    },
    {
      "epoch": 0.10131916452913155,
      "grad_norm": 0.4638079942473788,
      "learning_rate": 9.99996318498298e-06,
      "loss": 0.4834,
      "step": 553
    },
    {
      "epoch": 0.10150238182484426,
      "grad_norm": 0.45078724585599195,
      "learning_rate": 9.999949890693484e-06,
      "loss": 0.4828,
      "step": 554
    },
    {
      "epoch": 0.10168559912055698,
      "grad_norm": 0.4968230440871285,
      "learning_rate": 9.999934551143319e-06,
      "loss": 0.5146,
      "step": 555
    },
    {
      "epoch": 0.1018688164162697,
      "grad_norm": 0.4431824586567993,
      "learning_rate": 9.999917166338767e-06,
      "loss": 0.5117,
      "step": 556
    },
    {
      "epoch": 0.10205203371198242,
      "grad_norm": 0.40809319706771474,
      "learning_rate": 9.999897736286932e-06,
      "loss": 0.4942,
      "step": 557
    },
    {
      "epoch": 0.10223525100769512,
      "grad_norm": 0.46904649406632837,
      "learning_rate": 9.999876260995767e-06,
      "loss": 0.5223,
      "step": 558
    },
    {
      "epoch": 0.10241846830340784,
      "grad_norm": 0.45993616230767786,
      "learning_rate": 9.999852740474054e-06,
      "loss": 0.498,
      "step": 559
    },
    {
      "epoch": 0.10260168559912056,
      "grad_norm": 0.41328723379038895,
      "learning_rate": 9.999827174731414e-06,
      "loss": 0.5294,
      "step": 560
    },
    {
      "epoch": 0.10278490289483327,
      "grad_norm": 0.4584774156426854,
      "learning_rate": 9.999799563778307e-06,
      "loss": 0.5138,
      "step": 561
    },
    {
      "epoch": 0.10296812019054599,
      "grad_norm": 0.4626480547701558,
      "learning_rate": 9.999769907626024e-06,
      "loss": 0.5122,
      "step": 562
    },
    {
      "epoch": 0.10315133748625871,
      "grad_norm": 0.4647555669122866,
      "learning_rate": 9.9997382062867e-06,
      "loss": 0.5276,
      "step": 563
    },
    {
      "epoch": 0.10333455478197141,
      "grad_norm": 0.41824885855037686,
      "learning_rate": 9.9997044597733e-06,
      "loss": 0.4976,
      "step": 564
    },
    {
      "epoch": 0.10351777207768413,
      "grad_norm": 0.41187305924650414,
      "learning_rate": 9.999668668099628e-06,
      "loss": 0.4953,
      "step": 565
    },
    {
      "epoch": 0.10370098937339685,
      "grad_norm": 0.42660595756816655,
      "learning_rate": 9.999630831280329e-06,
      "loss": 0.514,
      "step": 566
    },
    {
      "epoch": 0.10388420666910957,
      "grad_norm": 0.5099786508796531,
      "learning_rate": 9.999590949330876e-06,
      "loss": 0.5038,
      "step": 567
    },
    {
      "epoch": 0.10406742396482228,
      "grad_norm": 0.4926825490754442,
      "learning_rate": 9.999549022267582e-06,
      "loss": 0.5535,
      "step": 568
    },
    {
      "epoch": 0.104250641260535,
      "grad_norm": 0.4578490443823955,
      "learning_rate": 9.999505050107601e-06,
      "loss": 0.5075,
      "step": 569
    },
    {
      "epoch": 0.1044338585562477,
      "grad_norm": 0.4733323605035433,
      "learning_rate": 9.99945903286892e-06,
      "loss": 0.4747,
      "step": 570
    },
    {
      "epoch": 0.10461707585196042,
      "grad_norm": 0.44893796479946446,
      "learning_rate": 9.999410970570358e-06,
      "loss": 0.4711,
      "step": 571
    },
    {
      "epoch": 0.10480029314767314,
      "grad_norm": 0.5254914900315981,
      "learning_rate": 9.99936086323158e-06,
      "loss": 0.5358,
      "step": 572
    },
    {
      "epoch": 0.10498351044338586,
      "grad_norm": 0.537923540220477,
      "learning_rate": 9.999308710873083e-06,
      "loss": 0.5079,
      "step": 573
    },
    {
      "epoch": 0.10516672773909858,
      "grad_norm": 0.45536567675754,
      "learning_rate": 9.999254513516196e-06,
      "loss": 0.4908,
      "step": 574
    },
    {
      "epoch": 0.10534994503481128,
      "grad_norm": 0.38323869490085266,
      "learning_rate": 9.999198271183094e-06,
      "loss": 0.4983,
      "step": 575
    },
    {
      "epoch": 0.105533162330524,
      "grad_norm": 0.43580085679521197,
      "learning_rate": 9.999139983896779e-06,
      "loss": 0.5031,
      "step": 576
    },
    {
      "epoch": 0.10571637962623671,
      "grad_norm": 0.4193926406628939,
      "learning_rate": 9.999079651681096e-06,
      "loss": 0.5026,
      "step": 577
    },
    {
      "epoch": 0.10589959692194943,
      "grad_norm": 0.5149327291476714,
      "learning_rate": 9.999017274560722e-06,
      "loss": 0.5414,
      "step": 578
    },
    {
      "epoch": 0.10608281421766215,
      "grad_norm": 0.44098660936462153,
      "learning_rate": 9.998952852561176e-06,
      "loss": 0.5032,
      "step": 579
    },
    {
      "epoch": 0.10626603151337487,
      "grad_norm": 0.4413320145497695,
      "learning_rate": 9.998886385708807e-06,
      "loss": 0.497,
      "step": 580
    },
    {
      "epoch": 0.10644924880908757,
      "grad_norm": 0.45575842795199323,
      "learning_rate": 9.998817874030808e-06,
      "loss": 0.5207,
      "step": 581
    },
    {
      "epoch": 0.10663246610480029,
      "grad_norm": 0.532654166955093,
      "learning_rate": 9.9987473175552e-06,
      "loss": 0.5212,
      "step": 582
    },
    {
      "epoch": 0.106815683400513,
      "grad_norm": 0.4157619606008366,
      "learning_rate": 9.998674716310846e-06,
      "loss": 0.5085,
      "step": 583
    },
    {
      "epoch": 0.10699890069622572,
      "grad_norm": 0.4868388397165033,
      "learning_rate": 9.998600070327444e-06,
      "loss": 0.5306,
      "step": 584
    },
    {
      "epoch": 0.10718211799193844,
      "grad_norm": 0.49401937562080056,
      "learning_rate": 9.998523379635527e-06,
      "loss": 0.5429,
      "step": 585
    },
    {
      "epoch": 0.10736533528765116,
      "grad_norm": 0.3986626914030523,
      "learning_rate": 9.99844464426647e-06,
      "loss": 0.4695,
      "step": 586
    },
    {
      "epoch": 0.10754855258336386,
      "grad_norm": 0.49524254606268836,
      "learning_rate": 9.998363864252474e-06,
      "loss": 0.5226,
      "step": 587
    },
    {
      "epoch": 0.10773176987907658,
      "grad_norm": 0.46186447850660334,
      "learning_rate": 9.998281039626588e-06,
      "loss": 0.5294,
      "step": 588
    },
    {
      "epoch": 0.1079149871747893,
      "grad_norm": 0.4207082230286084,
      "learning_rate": 9.99819617042269e-06,
      "loss": 0.5096,
      "step": 589
    },
    {
      "epoch": 0.10809820447050202,
      "grad_norm": 0.3955565788721964,
      "learning_rate": 9.998109256675496e-06,
      "loss": 0.4931,
      "step": 590
    },
    {
      "epoch": 0.10828142176621473,
      "grad_norm": 0.36723747707336185,
      "learning_rate": 9.998020298420559e-06,
      "loss": 0.4964,
      "step": 591
    },
    {
      "epoch": 0.10846463906192745,
      "grad_norm": 0.4185544526751163,
      "learning_rate": 9.997929295694266e-06,
      "loss": 0.4801,
      "step": 592
    },
    {
      "epoch": 0.10864785635764015,
      "grad_norm": 0.42948593775837285,
      "learning_rate": 9.997836248533845e-06,
      "loss": 0.5197,
      "step": 593
    },
    {
      "epoch": 0.10883107365335287,
      "grad_norm": 0.43966759837587943,
      "learning_rate": 9.997741156977356e-06,
      "loss": 0.5254,
      "step": 594
    },
    {
      "epoch": 0.10901429094906559,
      "grad_norm": 0.4632445570564666,
      "learning_rate": 9.997644021063698e-06,
      "loss": 0.4802,
      "step": 595
    },
    {
      "epoch": 0.10919750824477831,
      "grad_norm": 0.46480621716730125,
      "learning_rate": 9.997544840832604e-06,
      "loss": 0.5219,
      "step": 596
    },
    {
      "epoch": 0.10938072554049103,
      "grad_norm": 0.44567173311984926,
      "learning_rate": 9.997443616324645e-06,
      "loss": 0.5105,
      "step": 597
    },
    {
      "epoch": 0.10956394283620374,
      "grad_norm": 0.4534263401515789,
      "learning_rate": 9.997340347581226e-06,
      "loss": 0.5212,
      "step": 598
    },
    {
      "epoch": 0.10974716013191645,
      "grad_norm": 0.40359525147680225,
      "learning_rate": 9.99723503464459e-06,
      "loss": 0.5261,
      "step": 599
    },
    {
      "epoch": 0.10993037742762916,
      "grad_norm": 0.8305073137318505,
      "learning_rate": 9.99712767755782e-06,
      "loss": 0.5173,
      "step": 600
    },
    {
      "epoch": 0.11011359472334188,
      "grad_norm": 0.5039765167575108,
      "learning_rate": 9.997018276364825e-06,
      "loss": 0.4983,
      "step": 601
    },
    {
      "epoch": 0.1102968120190546,
      "grad_norm": 0.4000444070826362,
      "learning_rate": 9.99690683111036e-06,
      "loss": 0.4876,
      "step": 602
    },
    {
      "epoch": 0.11048002931476732,
      "grad_norm": 0.45535979366815893,
      "learning_rate": 9.99679334184001e-06,
      "loss": 0.5116,
      "step": 603
    },
    {
      "epoch": 0.11066324661048003,
      "grad_norm": 0.5208092576973751,
      "learning_rate": 9.996677808600202e-06,
      "loss": 0.5079,
      "step": 604
    },
    {
      "epoch": 0.11084646390619274,
      "grad_norm": 0.47721138790862244,
      "learning_rate": 9.996560231438193e-06,
      "loss": 0.5031,
      "step": 605
    },
    {
      "epoch": 0.11102968120190546,
      "grad_norm": 0.4106250945716929,
      "learning_rate": 9.996440610402078e-06,
      "loss": 0.4789,
      "step": 606
    },
    {
      "epoch": 0.11121289849761817,
      "grad_norm": 0.4981443340009068,
      "learning_rate": 9.996318945540792e-06,
      "loss": 0.4749,
      "step": 607
    },
    {
      "epoch": 0.11139611579333089,
      "grad_norm": 0.4365748987869686,
      "learning_rate": 9.996195236904098e-06,
      "loss": 0.503,
      "step": 608
    },
    {
      "epoch": 0.11157933308904361,
      "grad_norm": 0.42769357659836243,
      "learning_rate": 9.996069484542605e-06,
      "loss": 0.4883,
      "step": 609
    },
    {
      "epoch": 0.11176255038475633,
      "grad_norm": 0.4468425715852285,
      "learning_rate": 9.995941688507749e-06,
      "loss": 0.528,
      "step": 610
    },
    {
      "epoch": 0.11194576768046903,
      "grad_norm": 0.44305501127316244,
      "learning_rate": 9.995811848851807e-06,
      "loss": 0.5192,
      "step": 611
    },
    {
      "epoch": 0.11212898497618175,
      "grad_norm": 0.4430509247761743,
      "learning_rate": 9.995679965627891e-06,
      "loss": 0.4879,
      "step": 612
    },
    {
      "epoch": 0.11231220227189447,
      "grad_norm": 0.4330736232909904,
      "learning_rate": 9.995546038889948e-06,
      "loss": 0.5315,
      "step": 613
    },
    {
      "epoch": 0.11249541956760718,
      "grad_norm": 0.38536887827486094,
      "learning_rate": 9.995410068692763e-06,
      "loss": 0.4789,
      "step": 614
    },
    {
      "epoch": 0.1126786368633199,
      "grad_norm": 0.5420414741691238,
      "learning_rate": 9.995272055091954e-06,
      "loss": 0.4863,
      "step": 615
    },
    {
      "epoch": 0.11286185415903262,
      "grad_norm": 0.4166977498062619,
      "learning_rate": 9.995131998143976e-06,
      "loss": 0.4863,
      "step": 616
    },
    {
      "epoch": 0.11304507145474532,
      "grad_norm": 0.40681536551456327,
      "learning_rate": 9.99498989790612e-06,
      "loss": 0.5158,
      "step": 617
    },
    {
      "epoch": 0.11322828875045804,
      "grad_norm": 0.4164498167643854,
      "learning_rate": 9.994845754436516e-06,
      "loss": 0.5287,
      "step": 618
    },
    {
      "epoch": 0.11341150604617076,
      "grad_norm": 0.430875770675555,
      "learning_rate": 9.994699567794123e-06,
      "loss": 0.4949,
      "step": 619
    },
    {
      "epoch": 0.11359472334188347,
      "grad_norm": 0.47209089186963143,
      "learning_rate": 9.994551338038742e-06,
      "loss": 0.5212,
      "step": 620
    },
    {
      "epoch": 0.11377794063759619,
      "grad_norm": 0.4693460118731517,
      "learning_rate": 9.994401065231008e-06,
      "loss": 0.5218,
      "step": 621
    },
    {
      "epoch": 0.11396115793330891,
      "grad_norm": 0.43645941737097255,
      "learning_rate": 9.994248749432388e-06,
      "loss": 0.5355,
      "step": 622
    },
    {
      "epoch": 0.11414437522902161,
      "grad_norm": 0.45174829183811943,
      "learning_rate": 9.994094390705189e-06,
      "loss": 0.4941,
      "step": 623
    },
    {
      "epoch": 0.11432759252473433,
      "grad_norm": 0.4609885421062077,
      "learning_rate": 9.993937989112554e-06,
      "loss": 0.5424,
      "step": 624
    },
    {
      "epoch": 0.11451080982044705,
      "grad_norm": 0.4711205796072519,
      "learning_rate": 9.993779544718459e-06,
      "loss": 0.5054,
      "step": 625
    },
    {
      "epoch": 0.11469402711615977,
      "grad_norm": 0.4692458224302816,
      "learning_rate": 9.993619057587714e-06,
      "loss": 0.5013,
      "step": 626
    },
    {
      "epoch": 0.11487724441187248,
      "grad_norm": 0.44543459536907126,
      "learning_rate": 9.99345652778597e-06,
      "loss": 0.4882,
      "step": 627
    },
    {
      "epoch": 0.1150604617075852,
      "grad_norm": 0.43461884283611496,
      "learning_rate": 9.993291955379713e-06,
      "loss": 0.5352,
      "step": 628
    },
    {
      "epoch": 0.1152436790032979,
      "grad_norm": 0.41500076390959145,
      "learning_rate": 9.993125340436258e-06,
      "loss": 0.4895,
      "step": 629
    },
    {
      "epoch": 0.11542689629901062,
      "grad_norm": 0.4307377636082482,
      "learning_rate": 9.992956683023762e-06,
      "loss": 0.5149,
      "step": 630
    },
    {
      "epoch": 0.11561011359472334,
      "grad_norm": 0.45085961488644083,
      "learning_rate": 9.992785983211214e-06,
      "loss": 0.5061,
      "step": 631
    },
    {
      "epoch": 0.11579333089043606,
      "grad_norm": 0.45702457348234676,
      "learning_rate": 9.992613241068444e-06,
      "loss": 0.4947,
      "step": 632
    },
    {
      "epoch": 0.11597654818614878,
      "grad_norm": 0.46046219980195896,
      "learning_rate": 9.992438456666108e-06,
      "loss": 0.4727,
      "step": 633
    },
    {
      "epoch": 0.1161597654818615,
      "grad_norm": 0.5109084834664002,
      "learning_rate": 9.992261630075704e-06,
      "loss": 0.5015,
      "step": 634
    },
    {
      "epoch": 0.1163429827775742,
      "grad_norm": 0.4605028589793491,
      "learning_rate": 9.992082761369567e-06,
      "loss": 0.518,
      "step": 635
    },
    {
      "epoch": 0.11652620007328691,
      "grad_norm": 0.4135254020313275,
      "learning_rate": 9.991901850620861e-06,
      "loss": 0.4833,
      "step": 636
    },
    {
      "epoch": 0.11670941736899963,
      "grad_norm": 0.5226822189268372,
      "learning_rate": 9.99171889790359e-06,
      "loss": 0.5118,
      "step": 637
    },
    {
      "epoch": 0.11689263466471235,
      "grad_norm": 0.4061164579366039,
      "learning_rate": 9.991533903292592e-06,
      "loss": 0.4953,
      "step": 638
    },
    {
      "epoch": 0.11707585196042507,
      "grad_norm": 2.3765281557608486,
      "learning_rate": 9.99134686686354e-06,
      "loss": 0.4708,
      "step": 639
    },
    {
      "epoch": 0.11725906925613779,
      "grad_norm": 0.4675538148921928,
      "learning_rate": 9.991157788692942e-06,
      "loss": 0.4994,
      "step": 640
    },
    {
      "epoch": 0.11744228655185049,
      "grad_norm": 0.4467597960418954,
      "learning_rate": 9.990966668858144e-06,
      "loss": 0.4982,
      "step": 641
    },
    {
      "epoch": 0.1176255038475632,
      "grad_norm": 0.46222076234046117,
      "learning_rate": 9.99077350743732e-06,
      "loss": 0.5208,
      "step": 642
    },
    {
      "epoch": 0.11780872114327592,
      "grad_norm": 0.45856899421216063,
      "learning_rate": 9.990578304509488e-06,
      "loss": 0.5109,
      "step": 643
    },
    {
      "epoch": 0.11799193843898864,
      "grad_norm": 0.5006843127431095,
      "learning_rate": 9.990381060154496e-06,
      "loss": 0.4941,
      "step": 644
    },
    {
      "epoch": 0.11817515573470136,
      "grad_norm": 0.4638055815431298,
      "learning_rate": 9.990181774453028e-06,
      "loss": 0.509,
      "step": 645
    },
    {
      "epoch": 0.11835837303041408,
      "grad_norm": 0.4429725714841303,
      "learning_rate": 9.989980447486601e-06,
      "loss": 0.5196,
      "step": 646
    },
    {
      "epoch": 0.11854159032612678,
      "grad_norm": 0.44051330732830757,
      "learning_rate": 9.989777079337572e-06,
      "loss": 0.5316,
      "step": 647
    },
    {
      "epoch": 0.1187248076218395,
      "grad_norm": 0.41555588890083767,
      "learning_rate": 9.989571670089129e-06,
      "loss": 0.5126,
      "step": 648
    },
    {
      "epoch": 0.11890802491755222,
      "grad_norm": 0.46239837428682623,
      "learning_rate": 9.989364219825295e-06,
      "loss": 0.506,
      "step": 649
    },
    {
      "epoch": 0.11909124221326493,
      "grad_norm": 0.416093035128269,
      "learning_rate": 9.98915472863093e-06,
      "loss": 0.5194,
      "step": 650
    },
    {
      "epoch": 0.11927445950897765,
      "grad_norm": 0.43847114193541153,
      "learning_rate": 9.988943196591727e-06,
      "loss": 0.4994,
      "step": 651
    },
    {
      "epoch": 0.11945767680469037,
      "grad_norm": 0.44451525143619486,
      "learning_rate": 9.988729623794215e-06,
      "loss": 0.5283,
      "step": 652
    },
    {
      "epoch": 0.11964089410040307,
      "grad_norm": 0.4041297930697904,
      "learning_rate": 9.988514010325758e-06,
      "loss": 0.5049,
      "step": 653
    },
    {
      "epoch": 0.11982411139611579,
      "grad_norm": 0.4075716530480146,
      "learning_rate": 9.988296356274551e-06,
      "loss": 0.4921,
      "step": 654
    },
    {
      "epoch": 0.12000732869182851,
      "grad_norm": 0.40736195443308915,
      "learning_rate": 9.988076661729631e-06,
      "loss": 0.4805,
      "step": 655
    },
    {
      "epoch": 0.12019054598754123,
      "grad_norm": 0.4545077167148167,
      "learning_rate": 9.987854926780863e-06,
      "loss": 0.4789,
      "step": 656
    },
    {
      "epoch": 0.12037376328325394,
      "grad_norm": 0.5314832542562551,
      "learning_rate": 9.987631151518948e-06,
      "loss": 0.5263,
      "step": 657
    },
    {
      "epoch": 0.12055698057896666,
      "grad_norm": 0.4967524623940482,
      "learning_rate": 9.987405336035425e-06,
      "loss": 0.5106,
      "step": 658
    },
    {
      "epoch": 0.12074019787467936,
      "grad_norm": 0.4306664623952609,
      "learning_rate": 9.987177480422663e-06,
      "loss": 0.5376,
      "step": 659
    },
    {
      "epoch": 0.12092341517039208,
      "grad_norm": 0.4158801663482348,
      "learning_rate": 9.98694758477387e-06,
      "loss": 0.4838,
      "step": 660
    },
    {
      "epoch": 0.1211066324661048,
      "grad_norm": 0.40605820771792417,
      "learning_rate": 9.986715649183084e-06,
      "loss": 0.505,
      "step": 661
    },
    {
      "epoch": 0.12128984976181752,
      "grad_norm": 0.4085721106839356,
      "learning_rate": 9.986481673745183e-06,
      "loss": 0.4993,
      "step": 662
    },
    {
      "epoch": 0.12147306705753023,
      "grad_norm": 0.4785768918832099,
      "learning_rate": 9.986245658555873e-06,
      "loss": 0.5387,
      "step": 663
    },
    {
      "epoch": 0.12165628435324295,
      "grad_norm": 0.4175528791505364,
      "learning_rate": 9.986007603711698e-06,
      "loss": 0.4976,
      "step": 664
    },
    {
      "epoch": 0.12183950164895566,
      "grad_norm": 0.4323331836919794,
      "learning_rate": 9.985767509310035e-06,
      "loss": 0.5346,
      "step": 665
    },
    {
      "epoch": 0.12202271894466837,
      "grad_norm": 0.4868011056584651,
      "learning_rate": 9.9855253754491e-06,
      "loss": 0.5309,
      "step": 666
    },
    {
      "epoch": 0.12220593624038109,
      "grad_norm": 0.46372133085485157,
      "learning_rate": 9.985281202227936e-06,
      "loss": 0.5053,
      "step": 667
    },
    {
      "epoch": 0.12238915353609381,
      "grad_norm": 0.48326269099644514,
      "learning_rate": 9.985034989746423e-06,
      "loss": 0.4941,
      "step": 668
    },
    {
      "epoch": 0.12257237083180653,
      "grad_norm": 0.4557552947362274,
      "learning_rate": 9.984786738105279e-06,
      "loss": 0.5121,
      "step": 669
    },
    {
      "epoch": 0.12275558812751924,
      "grad_norm": 0.39704238565295197,
      "learning_rate": 9.98453644740605e-06,
      "loss": 0.4962,
      "step": 670
    },
    {
      "epoch": 0.12293880542323195,
      "grad_norm": 0.40645243334504044,
      "learning_rate": 9.98428411775112e-06,
      "loss": 0.5046,
      "step": 671
    },
    {
      "epoch": 0.12312202271894467,
      "grad_norm": 0.42629021258457467,
      "learning_rate": 9.984029749243707e-06,
      "loss": 0.5084,
      "step": 672
    },
    {
      "epoch": 0.12330524001465738,
      "grad_norm": 0.45965819318406503,
      "learning_rate": 9.98377334198786e-06,
      "loss": 0.4759,
      "step": 673
    },
    {
      "epoch": 0.1234884573103701,
      "grad_norm": 0.41967629717267835,
      "learning_rate": 9.983514896088466e-06,
      "loss": 0.498,
      "step": 674
    },
    {
      "epoch": 0.12367167460608282,
      "grad_norm": 0.4295939596150219,
      "learning_rate": 9.983254411651242e-06,
      "loss": 0.5243,
      "step": 675
    },
    {
      "epoch": 0.12385489190179554,
      "grad_norm": 0.4808089074794197,
      "learning_rate": 9.982991888782742e-06,
      "loss": 0.5,
      "step": 676
    },
    {
      "epoch": 0.12403810919750824,
      "grad_norm": 0.48728725704379316,
      "learning_rate": 9.982727327590352e-06,
      "loss": 0.5459,
      "step": 677
    },
    {
      "epoch": 0.12422132649322096,
      "grad_norm": 0.42799437772375803,
      "learning_rate": 9.982460728182292e-06,
      "loss": 0.5488,
      "step": 678
    },
    {
      "epoch": 0.12440454378893367,
      "grad_norm": 0.4334349975707624,
      "learning_rate": 9.982192090667618e-06,
      "loss": 0.501,
      "step": 679
    },
    {
      "epoch": 0.12458776108464639,
      "grad_norm": 0.45671378695636383,
      "learning_rate": 9.981921415156217e-06,
      "loss": 0.5236,
      "step": 680
    },
    {
      "epoch": 0.12477097838035911,
      "grad_norm": 0.49531406109254905,
      "learning_rate": 9.98164870175881e-06,
      "loss": 0.5224,
      "step": 681
    },
    {
      "epoch": 0.12495419567607183,
      "grad_norm": 0.3902067301024602,
      "learning_rate": 9.981373950586952e-06,
      "loss": 0.4835,
      "step": 682
    },
    {
      "epoch": 0.12513741297178455,
      "grad_norm": 0.46995820446689096,
      "learning_rate": 9.981097161753032e-06,
      "loss": 0.527,
      "step": 683
    },
    {
      "epoch": 0.12532063026749726,
      "grad_norm": 0.43642001976560174,
      "learning_rate": 9.980818335370273e-06,
      "loss": 0.514,
      "step": 684
    },
    {
      "epoch": 0.12550384756320998,
      "grad_norm": 0.5074521053811396,
      "learning_rate": 9.980537471552728e-06,
      "loss": 0.4897,
      "step": 685
    },
    {
      "epoch": 0.12568706485892267,
      "grad_norm": 0.43625566798430576,
      "learning_rate": 9.98025457041529e-06,
      "loss": 0.5174,
      "step": 686
    },
    {
      "epoch": 0.1258702821546354,
      "grad_norm": 0.4129578447344159,
      "learning_rate": 9.979969632073678e-06,
      "loss": 0.5135,
      "step": 687
    },
    {
      "epoch": 0.1260534994503481,
      "grad_norm": 0.4553566655837448,
      "learning_rate": 9.97968265664445e-06,
      "loss": 0.5228,
      "step": 688
    },
    {
      "epoch": 0.12623671674606082,
      "grad_norm": 0.4682536997157449,
      "learning_rate": 9.979393644244992e-06,
      "loss": 0.5039,
      "step": 689
    },
    {
      "epoch": 0.12641993404177354,
      "grad_norm": 0.42839595687214543,
      "learning_rate": 9.979102594993533e-06,
      "loss": 0.5128,
      "step": 690
    },
    {
      "epoch": 0.12660315133748626,
      "grad_norm": 0.46092632925079513,
      "learning_rate": 9.978809509009121e-06,
      "loss": 0.5011,
      "step": 691
    },
    {
      "epoch": 0.12678636863319898,
      "grad_norm": 0.4486176186332823,
      "learning_rate": 9.97851438641165e-06,
      "loss": 0.5169,
      "step": 692
    },
    {
      "epoch": 0.1269695859289117,
      "grad_norm": 0.47419826995019465,
      "learning_rate": 9.978217227321837e-06,
      "loss": 0.5131,
      "step": 693
    },
    {
      "epoch": 0.1271528032246244,
      "grad_norm": 0.4004091408746546,
      "learning_rate": 9.97791803186124e-06,
      "loss": 0.4743,
      "step": 694
    },
    {
      "epoch": 0.12733602052033713,
      "grad_norm": 0.38849935615066844,
      "learning_rate": 9.977616800152248e-06,
      "loss": 0.4944,
      "step": 695
    },
    {
      "epoch": 0.12751923781604985,
      "grad_norm": 0.44216099670793213,
      "learning_rate": 9.977313532318078e-06,
      "loss": 0.5072,
      "step": 696
    },
    {
      "epoch": 0.12770245511176256,
      "grad_norm": 0.4462646919434802,
      "learning_rate": 9.977008228482785e-06,
      "loss": 0.4901,
      "step": 697
    },
    {
      "epoch": 0.12788567240747525,
      "grad_norm": 0.44769942596462214,
      "learning_rate": 9.976700888771259e-06,
      "loss": 0.5263,
      "step": 698
    },
    {
      "epoch": 0.12806888970318797,
      "grad_norm": 0.5113829977752261,
      "learning_rate": 9.976391513309212e-06,
      "loss": 0.5202,
      "step": 699
    },
    {
      "epoch": 0.1282521069989007,
      "grad_norm": 0.4245344457429005,
      "learning_rate": 9.976080102223202e-06,
      "loss": 0.5182,
      "step": 700
    },
    {
      "epoch": 0.1284353242946134,
      "grad_norm": 0.4305381223047699,
      "learning_rate": 9.97576665564061e-06,
      "loss": 0.507,
      "step": 701
    },
    {
      "epoch": 0.12861854159032612,
      "grad_norm": 0.47072785404283757,
      "learning_rate": 9.975451173689658e-06,
      "loss": 0.5166,
      "step": 702
    },
    {
      "epoch": 0.12880175888603884,
      "grad_norm": 0.6675845713373886,
      "learning_rate": 9.975133656499392e-06,
      "loss": 0.47,
      "step": 703
    },
    {
      "epoch": 0.12898497618175156,
      "grad_norm": 0.4533261672443661,
      "learning_rate": 9.974814104199694e-06,
      "loss": 0.5362,
      "step": 704
    },
    {
      "epoch": 0.12916819347746428,
      "grad_norm": 0.4503943455070683,
      "learning_rate": 9.97449251692128e-06,
      "loss": 0.5134,
      "step": 705
    },
    {
      "epoch": 0.129351410773177,
      "grad_norm": 0.44545859946020006,
      "learning_rate": 9.974168894795698e-06,
      "loss": 0.4981,
      "step": 706
    },
    {
      "epoch": 0.1295346280688897,
      "grad_norm": 0.430864283858029,
      "learning_rate": 9.973843237955328e-06,
      "loss": 0.5329,
      "step": 707
    },
    {
      "epoch": 0.12971784536460243,
      "grad_norm": 0.7865986917626206,
      "learning_rate": 9.973515546533379e-06,
      "loss": 0.504,
      "step": 708
    },
    {
      "epoch": 0.12990106266031515,
      "grad_norm": 0.44976211133712124,
      "learning_rate": 9.973185820663897e-06,
      "loss": 0.4737,
      "step": 709
    },
    {
      "epoch": 0.13008427995602784,
      "grad_norm": 0.4549304394815992,
      "learning_rate": 9.97285406048176e-06,
      "loss": 0.5425,
      "step": 710
    },
    {
      "epoch": 0.13026749725174055,
      "grad_norm": 0.5049990473394447,
      "learning_rate": 9.972520266122676e-06,
      "loss": 0.5117,
      "step": 711
    },
    {
      "epoch": 0.13045071454745327,
      "grad_norm": 0.42657669286902156,
      "learning_rate": 9.972184437723182e-06,
      "loss": 0.5057,
      "step": 712
    },
    {
      "epoch": 0.130633931843166,
      "grad_norm": 0.5299863700854671,
      "learning_rate": 9.971846575420656e-06,
      "loss": 0.5262,
      "step": 713
    },
    {
      "epoch": 0.1308171491388787,
      "grad_norm": 0.45345740582998295,
      "learning_rate": 9.9715066793533e-06,
      "loss": 0.4997,
      "step": 714
    },
    {
      "epoch": 0.13100036643459143,
      "grad_norm": 0.39393086616308026,
      "learning_rate": 9.971164749660149e-06,
      "loss": 0.4996,
      "step": 715
    },
    {
      "epoch": 0.13118358373030414,
      "grad_norm": 0.4577611248522203,
      "learning_rate": 9.970820786481075e-06,
      "loss": 0.5018,
      "step": 716
    },
    {
      "epoch": 0.13136680102601686,
      "grad_norm": 0.43279352533859367,
      "learning_rate": 9.970474789956775e-06,
      "loss": 0.4914,
      "step": 717
    },
    {
      "epoch": 0.13155001832172958,
      "grad_norm": 0.4366448132250816,
      "learning_rate": 9.970126760228785e-06,
      "loss": 0.4864,
      "step": 718
    },
    {
      "epoch": 0.1317332356174423,
      "grad_norm": 0.43998158412052296,
      "learning_rate": 9.969776697439463e-06,
      "loss": 0.4834,
      "step": 719
    },
    {
      "epoch": 0.131916452913155,
      "grad_norm": 0.46940772392002544,
      "learning_rate": 9.969424601732011e-06,
      "loss": 0.501,
      "step": 720
    },
    {
      "epoch": 0.1320996702088677,
      "grad_norm": 0.43117110167391715,
      "learning_rate": 9.96907047325045e-06,
      "loss": 0.5562,
      "step": 721
    },
    {
      "epoch": 0.13228288750458042,
      "grad_norm": 0.4119352967972661,
      "learning_rate": 9.968714312139642e-06,
      "loss": 0.4748,
      "step": 722
    },
    {
      "epoch": 0.13246610480029314,
      "grad_norm": 0.5028443530663289,
      "learning_rate": 9.968356118545277e-06,
      "loss": 0.5344,
      "step": 723
    },
    {
      "epoch": 0.13264932209600586,
      "grad_norm": 0.43089419048593447,
      "learning_rate": 9.967995892613875e-06,
      "loss": 0.4704,
      "step": 724
    },
    {
      "epoch": 0.13283253939171857,
      "grad_norm": 0.5044933769783081,
      "learning_rate": 9.967633634492788e-06,
      "loss": 0.4996,
      "step": 725
    },
    {
      "epoch": 0.1330157566874313,
      "grad_norm": 0.442554097189932,
      "learning_rate": 9.967269344330201e-06,
      "loss": 0.5278,
      "step": 726
    },
    {
      "epoch": 0.133198973983144,
      "grad_norm": 0.431094495901828,
      "learning_rate": 9.966903022275131e-06,
      "loss": 0.4943,
      "step": 727
    },
    {
      "epoch": 0.13338219127885673,
      "grad_norm": 0.6222105275898999,
      "learning_rate": 9.966534668477421e-06,
      "loss": 0.5215,
      "step": 728
    },
    {
      "epoch": 0.13356540857456944,
      "grad_norm": 0.4562449049230116,
      "learning_rate": 9.96616428308775e-06,
      "loss": 0.5112,
      "step": 729
    },
    {
      "epoch": 0.13374862587028216,
      "grad_norm": 0.4249667668518143,
      "learning_rate": 9.965791866257626e-06,
      "loss": 0.5083,
      "step": 730
    },
    {
      "epoch": 0.13393184316599488,
      "grad_norm": 0.42736565388331654,
      "learning_rate": 9.96541741813939e-06,
      "loss": 0.5078,
      "step": 731
    },
    {
      "epoch": 0.1341150604617076,
      "grad_norm": 0.42789645341508464,
      "learning_rate": 9.96504093888621e-06,
      "loss": 0.5148,
      "step": 732
    },
    {
      "epoch": 0.1342982777574203,
      "grad_norm": 0.5018533252539279,
      "learning_rate": 9.964662428652088e-06,
      "loss": 0.4994,
      "step": 733
    },
    {
      "epoch": 0.134481495053133,
      "grad_norm": 0.4561559749816332,
      "learning_rate": 9.964281887591856e-06,
      "loss": 0.5036,
      "step": 734
    },
    {
      "epoch": 0.13466471234884572,
      "grad_norm": 0.43874828747054045,
      "learning_rate": 9.963899315861176e-06,
      "loss": 0.4976,
      "step": 735
    },
    {
      "epoch": 0.13484792964455844,
      "grad_norm": 0.44683273370213666,
      "learning_rate": 9.963514713616544e-06,
      "loss": 0.4837,
      "step": 736
    },
    {
      "epoch": 0.13503114694027116,
      "grad_norm": 0.4575940082218496,
      "learning_rate": 9.963128081015282e-06,
      "loss": 0.531,
      "step": 737
    },
    {
      "epoch": 0.13521436423598387,
      "grad_norm": 0.4190671986873532,
      "learning_rate": 9.962739418215545e-06,
      "loss": 0.525,
      "step": 738
    },
    {
      "epoch": 0.1353975815316966,
      "grad_norm": 0.41284775197321,
      "learning_rate": 9.962348725376318e-06,
      "loss": 0.519,
      "step": 739
    },
    {
      "epoch": 0.1355807988274093,
      "grad_norm": 0.41220938724190687,
      "learning_rate": 9.961956002657414e-06,
      "loss": 0.535,
      "step": 740
    },
    {
      "epoch": 0.13576401612312203,
      "grad_norm": 0.4428272636340964,
      "learning_rate": 9.961561250219482e-06,
      "loss": 0.5287,
      "step": 741
    },
    {
      "epoch": 0.13594723341883475,
      "grad_norm": 0.42565025293852765,
      "learning_rate": 9.961164468223996e-06,
      "loss": 0.5329,
      "step": 742
    },
    {
      "epoch": 0.13613045071454746,
      "grad_norm": 0.5963216630193675,
      "learning_rate": 9.960765656833263e-06,
      "loss": 0.5036,
      "step": 743
    },
    {
      "epoch": 0.13631366801026018,
      "grad_norm": 0.42494573499796934,
      "learning_rate": 9.96036481621042e-06,
      "loss": 0.4936,
      "step": 744
    },
    {
      "epoch": 0.13649688530597287,
      "grad_norm": 0.39224716002216886,
      "learning_rate": 9.959961946519431e-06,
      "loss": 0.4704,
      "step": 745
    },
    {
      "epoch": 0.1366801026016856,
      "grad_norm": 0.42574265198042266,
      "learning_rate": 9.959557047925095e-06,
      "loss": 0.4964,
      "step": 746
    },
    {
      "epoch": 0.1368633198973983,
      "grad_norm": 0.457270415221301,
      "learning_rate": 9.959150120593035e-06,
      "loss": 0.5322,
      "step": 747
    },
    {
      "epoch": 0.13704653719311102,
      "grad_norm": 0.4245718410150897,
      "learning_rate": 9.95874116468971e-06,
      "loss": 0.4952,
      "step": 748
    },
    {
      "epoch": 0.13722975448882374,
      "grad_norm": 0.47589556246220993,
      "learning_rate": 9.958330180382405e-06,
      "loss": 0.5124,
      "step": 749
    },
    {
      "epoch": 0.13741297178453646,
      "grad_norm": 0.45440270321018955,
      "learning_rate": 9.957917167839238e-06,
      "loss": 0.5109,
      "step": 750
    },
    {
      "epoch": 0.13759618908024918,
      "grad_norm": 0.5232685566183007,
      "learning_rate": 9.95750212722915e-06,
      "loss": 0.5174,
      "step": 751
    },
    {
      "epoch": 0.1377794063759619,
      "grad_norm": 0.538012343254673,
      "learning_rate": 9.957085058721918e-06,
      "loss": 0.5105,
      "step": 752
    },
    {
      "epoch": 0.1379626236716746,
      "grad_norm": 0.38959097348139504,
      "learning_rate": 9.956665962488148e-06,
      "loss": 0.4533,
      "step": 753
    },
    {
      "epoch": 0.13814584096738733,
      "grad_norm": 0.4404610898092818,
      "learning_rate": 9.956244838699271e-06,
      "loss": 0.4978,
      "step": 754
    },
    {
      "epoch": 0.13832905826310005,
      "grad_norm": 0.47384922621236214,
      "learning_rate": 9.955821687527554e-06,
      "loss": 0.5309,
      "step": 755
    },
    {
      "epoch": 0.13851227555881276,
      "grad_norm": 0.45266354792605684,
      "learning_rate": 9.955396509146084e-06,
      "loss": 0.5151,
      "step": 756
    },
    {
      "epoch": 0.13869549285452545,
      "grad_norm": 0.4098036061670406,
      "learning_rate": 9.95496930372879e-06,
      "loss": 0.5,
      "step": 757
    },
    {
      "epoch": 0.13887871015023817,
      "grad_norm": 0.4520393902857722,
      "learning_rate": 9.954540071450418e-06,
      "loss": 0.4766,
      "step": 758
    },
    {
      "epoch": 0.1390619274459509,
      "grad_norm": 0.41592431105518124,
      "learning_rate": 9.95410881248655e-06,
      "loss": 0.5279,
      "step": 759
    },
    {
      "epoch": 0.1392451447416636,
      "grad_norm": 0.9055926932881602,
      "learning_rate": 9.953675527013594e-06,
      "loss": 0.4544,
      "step": 760
    },
    {
      "epoch": 0.13942836203737632,
      "grad_norm": 0.4230083797544526,
      "learning_rate": 9.953240215208787e-06,
      "loss": 0.5174,
      "step": 761
    },
    {
      "epoch": 0.13961157933308904,
      "grad_norm": 0.46167105853029766,
      "learning_rate": 9.9528028772502e-06,
      "loss": 0.5087,
      "step": 762
    },
    {
      "epoch": 0.13979479662880176,
      "grad_norm": 0.4614988799168283,
      "learning_rate": 9.952363513316727e-06,
      "loss": 0.5035,
      "step": 763
    },
    {
      "epoch": 0.13997801392451448,
      "grad_norm": 0.4599378559524754,
      "learning_rate": 9.951922123588091e-06,
      "loss": 0.4982,
      "step": 764
    },
    {
      "epoch": 0.1401612312202272,
      "grad_norm": 0.4169187563233499,
      "learning_rate": 9.951478708244847e-06,
      "loss": 0.5205,
      "step": 765
    },
    {
      "epoch": 0.1403444485159399,
      "grad_norm": 1.4346541301623688,
      "learning_rate": 9.951033267468375e-06,
      "loss": 0.4704,
      "step": 766
    },
    {
      "epoch": 0.14052766581165263,
      "grad_norm": 0.4477016515011828,
      "learning_rate": 9.950585801440889e-06,
      "loss": 0.489,
      "step": 767
    },
    {
      "epoch": 0.14071088310736535,
      "grad_norm": 0.4178701034776549,
      "learning_rate": 9.950136310345425e-06,
      "loss": 0.5147,
      "step": 768
    },
    {
      "epoch": 0.14089410040307804,
      "grad_norm": 0.4893104037393506,
      "learning_rate": 9.949684794365848e-06,
      "loss": 0.4913,
      "step": 769
    },
    {
      "epoch": 0.14107731769879076,
      "grad_norm": 0.4018838415277579,
      "learning_rate": 9.949231253686857e-06,
      "loss": 0.464,
      "step": 770
    },
    {
      "epoch": 0.14126053499450347,
      "grad_norm": 0.38608379924790914,
      "learning_rate": 9.948775688493974e-06,
      "loss": 0.5173,
      "step": 771
    },
    {
      "epoch": 0.1414437522902162,
      "grad_norm": 0.4162388206396457,
      "learning_rate": 9.948318098973552e-06,
      "loss": 0.4917,
      "step": 772
    },
    {
      "epoch": 0.1416269695859289,
      "grad_norm": 0.3781950328417496,
      "learning_rate": 9.947858485312772e-06,
      "loss": 0.4446,
      "step": 773
    },
    {
      "epoch": 0.14181018688164163,
      "grad_norm": 0.45959051057998834,
      "learning_rate": 9.947396847699638e-06,
      "loss": 0.4918,
      "step": 774
    },
    {
      "epoch": 0.14199340417735434,
      "grad_norm": 0.480317102541819,
      "learning_rate": 9.946933186322988e-06,
      "loss": 0.5369,
      "step": 775
    },
    {
      "epoch": 0.14217662147306706,
      "grad_norm": 0.5008985493720574,
      "learning_rate": 9.946467501372485e-06,
      "loss": 0.4992,
      "step": 776
    },
    {
      "epoch": 0.14235983876877978,
      "grad_norm": 0.4117591563183844,
      "learning_rate": 9.94599979303862e-06,
      "loss": 0.4818,
      "step": 777
    },
    {
      "epoch": 0.1425430560644925,
      "grad_norm": 0.531108956987235,
      "learning_rate": 9.945530061512714e-06,
      "loss": 0.517,
      "step": 778
    },
    {
      "epoch": 0.1427262733602052,
      "grad_norm": 0.43817523582155865,
      "learning_rate": 9.945058306986911e-06,
      "loss": 0.5473,
      "step": 779
    },
    {
      "epoch": 0.14290949065591793,
      "grad_norm": 0.4747080227792923,
      "learning_rate": 9.944584529654187e-06,
      "loss": 0.4819,
      "step": 780
    },
    {
      "epoch": 0.14309270795163062,
      "grad_norm": 0.4249215515551791,
      "learning_rate": 9.944108729708342e-06,
      "loss": 0.4979,
      "step": 781
    },
    {
      "epoch": 0.14327592524734334,
      "grad_norm": 0.43558257752578505,
      "learning_rate": 9.943630907344008e-06,
      "loss": 0.484,
      "step": 782
    },
    {
      "epoch": 0.14345914254305606,
      "grad_norm": 0.4750219883418816,
      "learning_rate": 9.943151062756638e-06,
      "loss": 0.4825,
      "step": 783
    },
    {
      "epoch": 0.14364235983876877,
      "grad_norm": 0.4332476417990451,
      "learning_rate": 9.942669196142516e-06,
      "loss": 0.4929,
      "step": 784
    },
    {
      "epoch": 0.1438255771344815,
      "grad_norm": 0.48307720479460303,
      "learning_rate": 9.942185307698754e-06,
      "loss": 0.5099,
      "step": 785
    },
    {
      "epoch": 0.1440087944301942,
      "grad_norm": 0.43004630110605213,
      "learning_rate": 9.941699397623289e-06,
      "loss": 0.4435,
      "step": 786
    },
    {
      "epoch": 0.14419201172590693,
      "grad_norm": 0.5526090978976514,
      "learning_rate": 9.941211466114883e-06,
      "loss": 0.4831,
      "step": 787
    },
    {
      "epoch": 0.14437522902161964,
      "grad_norm": 0.4299548315161719,
      "learning_rate": 9.94072151337313e-06,
      "loss": 0.5055,
      "step": 788
    },
    {
      "epoch": 0.14455844631733236,
      "grad_norm": 0.46488795405005734,
      "learning_rate": 9.940229539598449e-06,
      "loss": 0.5247,
      "step": 789
    },
    {
      "epoch": 0.14474166361304508,
      "grad_norm": 0.45711196453956754,
      "learning_rate": 9.939735544992084e-06,
      "loss": 0.5155,
      "step": 790
    },
    {
      "epoch": 0.1449248809087578,
      "grad_norm": 0.39377908902960373,
      "learning_rate": 9.939239529756106e-06,
      "loss": 0.4861,
      "step": 791
    },
    {
      "epoch": 0.14510809820447051,
      "grad_norm": 0.3780973854580167,
      "learning_rate": 9.938741494093413e-06,
      "loss": 0.4743,
      "step": 792
    },
    {
      "epoch": 0.1452913155001832,
      "grad_norm": 0.4442667746426281,
      "learning_rate": 9.93824143820773e-06,
      "loss": 0.5124,
      "step": 793
    },
    {
      "epoch": 0.14547453279589592,
      "grad_norm": 0.47139079982459514,
      "learning_rate": 9.93773936230361e-06,
      "loss": 0.5095,
      "step": 794
    },
    {
      "epoch": 0.14565775009160864,
      "grad_norm": 0.47478113201389704,
      "learning_rate": 9.937235266586425e-06,
      "loss": 0.5242,
      "step": 795
    },
    {
      "epoch": 0.14584096738732136,
      "grad_norm": 0.4253566981856297,
      "learning_rate": 9.936729151262383e-06,
      "loss": 0.4816,
      "step": 796
    },
    {
      "epoch": 0.14602418468303408,
      "grad_norm": 0.3995444614750483,
      "learning_rate": 9.936221016538514e-06,
      "loss": 0.5114,
      "step": 797
    },
    {
      "epoch": 0.1462074019787468,
      "grad_norm": 0.3958644449360531,
      "learning_rate": 9.935710862622671e-06,
      "loss": 0.5044,
      "step": 798
    },
    {
      "epoch": 0.1463906192744595,
      "grad_norm": 0.39672728856696343,
      "learning_rate": 9.935198689723537e-06,
      "loss": 0.5079,
      "step": 799
    },
    {
      "epoch": 0.14657383657017223,
      "grad_norm": 0.4401216989939036,
      "learning_rate": 9.934684498050619e-06,
      "loss": 0.5169,
      "step": 800
    },
    {
      "epoch": 0.14675705386588495,
      "grad_norm": 0.42531985045283716,
      "learning_rate": 9.93416828781425e-06,
      "loss": 0.5039,
      "step": 801
    },
    {
      "epoch": 0.14694027116159766,
      "grad_norm": 0.43641771981673,
      "learning_rate": 9.93365005922559e-06,
      "loss": 0.4705,
      "step": 802
    },
    {
      "epoch": 0.14712348845731038,
      "grad_norm": 0.4154214727248315,
      "learning_rate": 9.933129812496623e-06,
      "loss": 0.4801,
      "step": 803
    },
    {
      "epoch": 0.1473067057530231,
      "grad_norm": 0.4668765888893056,
      "learning_rate": 9.932607547840161e-06,
      "loss": 0.5262,
      "step": 804
    },
    {
      "epoch": 0.1474899230487358,
      "grad_norm": 0.45163409733644266,
      "learning_rate": 9.932083265469836e-06,
      "loss": 0.5009,
      "step": 805
    },
    {
      "epoch": 0.1476731403444485,
      "grad_norm": 0.44602336917824525,
      "learning_rate": 9.93155696560011e-06,
      "loss": 0.5071,
      "step": 806
    },
    {
      "epoch": 0.14785635764016122,
      "grad_norm": 0.40571563214546336,
      "learning_rate": 9.931028648446273e-06,
      "loss": 0.4867,
      "step": 807
    },
    {
      "epoch": 0.14803957493587394,
      "grad_norm": 0.412866633306789,
      "learning_rate": 9.930498314224433e-06,
      "loss": 0.5204,
      "step": 808
    },
    {
      "epoch": 0.14822279223158666,
      "grad_norm": 0.4491417286505596,
      "learning_rate": 9.929965963151526e-06,
      "loss": 0.4959,
      "step": 809
    },
    {
      "epoch": 0.14840600952729938,
      "grad_norm": 0.483698524685917,
      "learning_rate": 9.929431595445315e-06,
      "loss": 0.4945,
      "step": 810
    },
    {
      "epoch": 0.1485892268230121,
      "grad_norm": 0.45809625895317874,
      "learning_rate": 9.928895211324387e-06,
      "loss": 0.4795,
      "step": 811
    },
    {
      "epoch": 0.1487724441187248,
      "grad_norm": 0.4671855759216309,
      "learning_rate": 9.928356811008153e-06,
      "loss": 0.502,
      "step": 812
    },
    {
      "epoch": 0.14895566141443753,
      "grad_norm": 0.49991252806247843,
      "learning_rate": 9.927816394716847e-06,
      "loss": 0.4989,
      "step": 813
    },
    {
      "epoch": 0.14913887871015025,
      "grad_norm": 0.4930888660574426,
      "learning_rate": 9.92727396267153e-06,
      "loss": 0.5256,
      "step": 814
    },
    {
      "epoch": 0.14932209600586296,
      "grad_norm": 0.4301245288190715,
      "learning_rate": 9.926729515094092e-06,
      "loss": 0.5062,
      "step": 815
    },
    {
      "epoch": 0.14950531330157568,
      "grad_norm": 0.4254345495226345,
      "learning_rate": 9.926183052207235e-06,
      "loss": 0.4885,
      "step": 816
    },
    {
      "epoch": 0.14968853059728837,
      "grad_norm": 0.40854658960332646,
      "learning_rate": 9.925634574234499e-06,
      "loss": 0.4909,
      "step": 817
    },
    {
      "epoch": 0.1498717478930011,
      "grad_norm": 0.4307966660913799,
      "learning_rate": 9.925084081400241e-06,
      "loss": 0.4974,
      "step": 818
    },
    {
      "epoch": 0.1500549651887138,
      "grad_norm": 0.44710983697734263,
      "learning_rate": 9.924531573929641e-06,
      "loss": 0.5107,
      "step": 819
    },
    {
      "epoch": 0.15023818248442652,
      "grad_norm": 0.47247983608563787,
      "learning_rate": 9.923977052048708e-06,
      "loss": 0.5185,
      "step": 820
    },
    {
      "epoch": 0.15042139978013924,
      "grad_norm": 0.43408666873611645,
      "learning_rate": 9.923420515984272e-06,
      "loss": 0.5256,
      "step": 821
    },
    {
      "epoch": 0.15060461707585196,
      "grad_norm": 0.3618361050633503,
      "learning_rate": 9.922861965963987e-06,
      "loss": 0.4835,
      "step": 822
    },
    {
      "epoch": 0.15078783437156468,
      "grad_norm": 0.478572088704784,
      "learning_rate": 9.922301402216334e-06,
      "loss": 0.4971,
      "step": 823
    },
    {
      "epoch": 0.1509710516672774,
      "grad_norm": 0.4956723559981853,
      "learning_rate": 9.921738824970611e-06,
      "loss": 0.4664,
      "step": 824
    },
    {
      "epoch": 0.1511542689629901,
      "grad_norm": 0.43104833444065105,
      "learning_rate": 9.921174234456947e-06,
      "loss": 0.5056,
      "step": 825
    },
    {
      "epoch": 0.15133748625870283,
      "grad_norm": 0.38636058698792763,
      "learning_rate": 9.920607630906289e-06,
      "loss": 0.509,
      "step": 826
    },
    {
      "epoch": 0.15152070355441555,
      "grad_norm": 0.4638108326048624,
      "learning_rate": 9.920039014550413e-06,
      "loss": 0.4928,
      "step": 827
    },
    {
      "epoch": 0.15170392085012827,
      "grad_norm": 0.38962500919500936,
      "learning_rate": 9.919468385621912e-06,
      "loss": 0.5025,
      "step": 828
    },
    {
      "epoch": 0.15188713814584096,
      "grad_norm": 0.423466480397551,
      "learning_rate": 9.918895744354204e-06,
      "loss": 0.4903,
      "step": 829
    },
    {
      "epoch": 0.15207035544155367,
      "grad_norm": 0.5945183810824295,
      "learning_rate": 9.918321090981537e-06,
      "loss": 0.4961,
      "step": 830
    },
    {
      "epoch": 0.1522535727372664,
      "grad_norm": 0.3857346095853992,
      "learning_rate": 9.917744425738971e-06,
      "loss": 0.4903,
      "step": 831
    },
    {
      "epoch": 0.1524367900329791,
      "grad_norm": 0.4368019305898112,
      "learning_rate": 9.917165748862398e-06,
      "loss": 0.4985,
      "step": 832
    },
    {
      "epoch": 0.15262000732869183,
      "grad_norm": 0.4622792781214721,
      "learning_rate": 9.916585060588526e-06,
      "loss": 0.5298,
      "step": 833
    },
    {
      "epoch": 0.15280322462440454,
      "grad_norm": 0.43464073300377387,
      "learning_rate": 9.916002361154894e-06,
      "loss": 0.4956,
      "step": 834
    },
    {
      "epoch": 0.15298644192011726,
      "grad_norm": 0.37914154472744427,
      "learning_rate": 9.915417650799855e-06,
      "loss": 0.4914,
      "step": 835
    },
    {
      "epoch": 0.15316965921582998,
      "grad_norm": 0.41110768627195465,
      "learning_rate": 9.914830929762588e-06,
      "loss": 0.4933,
      "step": 836
    },
    {
      "epoch": 0.1533528765115427,
      "grad_norm": 0.3922989216974703,
      "learning_rate": 9.914242198283099e-06,
      "loss": 0.5,
      "step": 837
    },
    {
      "epoch": 0.1535360938072554,
      "grad_norm": 0.4310098182316404,
      "learning_rate": 9.91365145660221e-06,
      "loss": 0.4817,
      "step": 838
    },
    {
      "epoch": 0.15371931110296813,
      "grad_norm": 0.40690680117071937,
      "learning_rate": 9.913058704961565e-06,
      "loss": 0.4778,
      "step": 839
    },
    {
      "epoch": 0.15390252839868085,
      "grad_norm": 0.4584415585967629,
      "learning_rate": 9.912463943603635e-06,
      "loss": 0.4585,
      "step": 840
    },
    {
      "epoch": 0.15408574569439354,
      "grad_norm": 0.48734349658323495,
      "learning_rate": 9.911867172771711e-06,
      "loss": 0.5345,
      "step": 841
    },
    {
      "epoch": 0.15426896299010626,
      "grad_norm": 0.442686833828428,
      "learning_rate": 9.911268392709908e-06,
      "loss": 0.5134,
      "step": 842
    },
    {
      "epoch": 0.15445218028581897,
      "grad_norm": 0.44506293028939,
      "learning_rate": 9.910667603663156e-06,
      "loss": 0.5158,
      "step": 843
    },
    {
      "epoch": 0.1546353975815317,
      "grad_norm": 0.4311992637968541,
      "learning_rate": 9.910064805877214e-06,
      "loss": 0.4837,
      "step": 844
    },
    {
      "epoch": 0.1548186148772444,
      "grad_norm": 0.4493099076015729,
      "learning_rate": 9.90945999959866e-06,
      "loss": 0.5108,
      "step": 845
    },
    {
      "epoch": 0.15500183217295713,
      "grad_norm": 0.45478365363321205,
      "learning_rate": 9.908853185074896e-06,
      "loss": 0.4998,
      "step": 846
    },
    {
      "epoch": 0.15518504946866984,
      "grad_norm": 0.46301414888311854,
      "learning_rate": 9.90824436255414e-06,
      "loss": 0.5225,
      "step": 847
    },
    {
      "epoch": 0.15536826676438256,
      "grad_norm": 0.40118617155548936,
      "learning_rate": 9.907633532285435e-06,
      "loss": 0.4927,
      "step": 848
    },
    {
      "epoch": 0.15555148406009528,
      "grad_norm": 0.49481295874709574,
      "learning_rate": 9.907020694518646e-06,
      "loss": 0.4933,
      "step": 849
    },
    {
      "epoch": 0.155734701355808,
      "grad_norm": 0.4102626498510104,
      "learning_rate": 9.90640584950446e-06,
      "loss": 0.5111,
      "step": 850
    },
    {
      "epoch": 0.15591791865152071,
      "grad_norm": 0.46514690031713113,
      "learning_rate": 9.905788997494377e-06,
      "loss": 0.4728,
      "step": 851
    },
    {
      "epoch": 0.15610113594723343,
      "grad_norm": 0.4054441718781369,
      "learning_rate": 9.905170138740732e-06,
      "loss": 0.4828,
      "step": 852
    },
    {
      "epoch": 0.15628435324294612,
      "grad_norm": 0.4400252577977126,
      "learning_rate": 9.904549273496666e-06,
      "loss": 0.501,
      "step": 853
    },
    {
      "epoch": 0.15646757053865884,
      "grad_norm": 0.42167618939817325,
      "learning_rate": 9.903926402016153e-06,
      "loss": 0.4922,
      "step": 854
    },
    {
      "epoch": 0.15665078783437156,
      "grad_norm": 0.4093707700968775,
      "learning_rate": 9.90330152455398e-06,
      "loss": 0.5014,
      "step": 855
    },
    {
      "epoch": 0.15683400513008428,
      "grad_norm": 0.4523522809487888,
      "learning_rate": 9.902674641365756e-06,
      "loss": 0.4829,
      "step": 856
    },
    {
      "epoch": 0.157017222425797,
      "grad_norm": 0.49143897815029397,
      "learning_rate": 9.902045752707916e-06,
      "loss": 0.5074,
      "step": 857
    },
    {
      "epoch": 0.1572004397215097,
      "grad_norm": 0.43621740114283203,
      "learning_rate": 9.901414858837706e-06,
      "loss": 0.5182,
      "step": 858
    },
    {
      "epoch": 0.15738365701722243,
      "grad_norm": 0.40732498942379025,
      "learning_rate": 9.9007819600132e-06,
      "loss": 0.4674,
      "step": 859
    },
    {
      "epoch": 0.15756687431293515,
      "grad_norm": 0.43675476681733244,
      "learning_rate": 9.900147056493285e-06,
      "loss": 0.5374,
      "step": 860
    },
    {
      "epoch": 0.15775009160864786,
      "grad_norm": 0.43060074322101793,
      "learning_rate": 9.89951014853768e-06,
      "loss": 0.4635,
      "step": 861
    },
    {
      "epoch": 0.15793330890436058,
      "grad_norm": 0.41179202097945616,
      "learning_rate": 9.898871236406907e-06,
      "loss": 0.4951,
      "step": 862
    },
    {
      "epoch": 0.1581165262000733,
      "grad_norm": 0.371370018002044,
      "learning_rate": 9.898230320362323e-06,
      "loss": 0.479,
      "step": 863
    },
    {
      "epoch": 0.158299743495786,
      "grad_norm": 0.4300134296591519,
      "learning_rate": 9.897587400666097e-06,
      "loss": 0.4868,
      "step": 864
    },
    {
      "epoch": 0.1584829607914987,
      "grad_norm": 0.43589209027697184,
      "learning_rate": 9.896942477581221e-06,
      "loss": 0.5124,
      "step": 865
    },
    {
      "epoch": 0.15866617808721142,
      "grad_norm": 0.575247632832188,
      "learning_rate": 9.896295551371503e-06,
      "loss": 0.5053,
      "step": 866
    },
    {
      "epoch": 0.15884939538292414,
      "grad_norm": 0.4273872012355264,
      "learning_rate": 9.89564662230157e-06,
      "loss": 0.5138,
      "step": 867
    },
    {
      "epoch": 0.15903261267863686,
      "grad_norm": 0.4543163505662005,
      "learning_rate": 9.894995690636874e-06,
      "loss": 0.5229,
      "step": 868
    },
    {
      "epoch": 0.15921582997434958,
      "grad_norm": 0.4491410597219586,
      "learning_rate": 9.894342756643684e-06,
      "loss": 0.5045,
      "step": 869
    },
    {
      "epoch": 0.1593990472700623,
      "grad_norm": 0.47087708750396473,
      "learning_rate": 9.893687820589081e-06,
      "loss": 0.5087,
      "step": 870
    },
    {
      "epoch": 0.159582264565775,
      "grad_norm": 0.4240236693967998,
      "learning_rate": 9.893030882740977e-06,
      "loss": 0.5052,
      "step": 871
    },
    {
      "epoch": 0.15976548186148773,
      "grad_norm": 0.4287525963131784,
      "learning_rate": 9.892371943368092e-06,
      "loss": 0.527,
      "step": 872
    },
    {
      "epoch": 0.15994869915720045,
      "grad_norm": 0.4131563755872441,
      "learning_rate": 9.891711002739971e-06,
      "loss": 0.5074,
      "step": 873
    },
    {
      "epoch": 0.16013191645291316,
      "grad_norm": 0.39231143806918656,
      "learning_rate": 9.891048061126975e-06,
      "loss": 0.5018,
      "step": 874
    },
    {
      "epoch": 0.16031513374862588,
      "grad_norm": 0.4391493046066672,
      "learning_rate": 9.890383118800287e-06,
      "loss": 0.518,
      "step": 875
    },
    {
      "epoch": 0.16049835104433857,
      "grad_norm": 0.468016398258625,
      "learning_rate": 9.889716176031903e-06,
      "loss": 0.5191,
      "step": 876
    },
    {
      "epoch": 0.1606815683400513,
      "grad_norm": 0.4619425954928644,
      "learning_rate": 9.88904723309464e-06,
      "loss": 0.5114,
      "step": 877
    },
    {
      "epoch": 0.160864785635764,
      "grad_norm": 0.4581492770476195,
      "learning_rate": 9.888376290262134e-06,
      "loss": 0.5349,
      "step": 878
    },
    {
      "epoch": 0.16104800293147672,
      "grad_norm": 0.390022001202663,
      "learning_rate": 9.887703347808838e-06,
      "loss": 0.507,
      "step": 879
    },
    {
      "epoch": 0.16123122022718944,
      "grad_norm": 0.38271876665722593,
      "learning_rate": 9.887028406010026e-06,
      "loss": 0.4987,
      "step": 880
    },
    {
      "epoch": 0.16141443752290216,
      "grad_norm": 0.39991523006604696,
      "learning_rate": 9.886351465141785e-06,
      "loss": 0.4807,
      "step": 881
    },
    {
      "epoch": 0.16159765481861488,
      "grad_norm": 0.3867195675970219,
      "learning_rate": 9.88567252548102e-06,
      "loss": 0.515,
      "step": 882
    },
    {
      "epoch": 0.1617808721143276,
      "grad_norm": 0.47566001886735476,
      "learning_rate": 9.884991587305459e-06,
      "loss": 0.4461,
      "step": 883
    },
    {
      "epoch": 0.1619640894100403,
      "grad_norm": 0.4453653597243864,
      "learning_rate": 9.884308650893642e-06,
      "loss": 0.5493,
      "step": 884
    },
    {
      "epoch": 0.16214730670575303,
      "grad_norm": 0.38787040868110323,
      "learning_rate": 9.883623716524929e-06,
      "loss": 0.4998,
      "step": 885
    },
    {
      "epoch": 0.16233052400146575,
      "grad_norm": 0.4570258592705414,
      "learning_rate": 9.882936784479498e-06,
      "loss": 0.5226,
      "step": 886
    },
    {
      "epoch": 0.16251374129717847,
      "grad_norm": 0.4438200453897428,
      "learning_rate": 9.882247855038339e-06,
      "loss": 0.5073,
      "step": 887
    },
    {
      "epoch": 0.16269695859289116,
      "grad_norm": 0.3887912773501902,
      "learning_rate": 9.881556928483266e-06,
      "loss": 0.5213,
      "step": 888
    },
    {
      "epoch": 0.16288017588860387,
      "grad_norm": 0.44048355093202696,
      "learning_rate": 9.880864005096906e-06,
      "loss": 0.511,
      "step": 889
    },
    {
      "epoch": 0.1630633931843166,
      "grad_norm": 0.44235079469227967,
      "learning_rate": 9.880169085162703e-06,
      "loss": 0.5223,
      "step": 890
    },
    {
      "epoch": 0.1632466104800293,
      "grad_norm": 0.3877832289424,
      "learning_rate": 9.87947216896492e-06,
      "loss": 0.4537,
      "step": 891
    },
    {
      "epoch": 0.16342982777574203,
      "grad_norm": 0.44869938145307137,
      "learning_rate": 9.878773256788635e-06,
      "loss": 0.5013,
      "step": 892
    },
    {
      "epoch": 0.16361304507145474,
      "grad_norm": 0.46375171983760244,
      "learning_rate": 9.878072348919738e-06,
      "loss": 0.489,
      "step": 893
    },
    {
      "epoch": 0.16379626236716746,
      "grad_norm": 0.49608852880970994,
      "learning_rate": 9.877369445644945e-06,
      "loss": 0.5177,
      "step": 894
    },
    {
      "epoch": 0.16397947966288018,
      "grad_norm": 0.4082183549684993,
      "learning_rate": 9.876664547251781e-06,
      "loss": 0.5091,
      "step": 895
    },
    {
      "epoch": 0.1641626969585929,
      "grad_norm": 0.4347968628628821,
      "learning_rate": 9.875957654028588e-06,
      "loss": 0.5242,
      "step": 896
    },
    {
      "epoch": 0.16434591425430561,
      "grad_norm": 0.45545255399303036,
      "learning_rate": 9.875248766264527e-06,
      "loss": 0.5406,
      "step": 897
    },
    {
      "epoch": 0.16452913155001833,
      "grad_norm": 0.41358644063630506,
      "learning_rate": 9.874537884249574e-06,
      "loss": 0.511,
      "step": 898
    },
    {
      "epoch": 0.16471234884573105,
      "grad_norm": 0.4576667619206321,
      "learning_rate": 9.873825008274514e-06,
      "loss": 0.5073,
      "step": 899
    },
    {
      "epoch": 0.16489556614144374,
      "grad_norm": 0.47721781865779744,
      "learning_rate": 9.87311013863096e-06,
      "loss": 0.5044,
      "step": 900
    },
    {
      "epoch": 0.16507878343715646,
      "grad_norm": 0.4622288619794578,
      "learning_rate": 9.872393275611329e-06,
      "loss": 0.5096,
      "step": 901
    },
    {
      "epoch": 0.16526200073286917,
      "grad_norm": 0.41177688817899083,
      "learning_rate": 9.871674419508864e-06,
      "loss": 0.523,
      "step": 902
    },
    {
      "epoch": 0.1654452180285819,
      "grad_norm": 0.371054810469729,
      "learning_rate": 9.87095357061761e-06,
      "loss": 0.4897,
      "step": 903
    },
    {
      "epoch": 0.1656284353242946,
      "grad_norm": 0.41574608839188226,
      "learning_rate": 9.87023072923244e-06,
      "loss": 0.4823,
      "step": 904
    },
    {
      "epoch": 0.16581165262000733,
      "grad_norm": 0.4218915251343208,
      "learning_rate": 9.869505895649036e-06,
      "loss": 0.5079,
      "step": 905
    },
    {
      "epoch": 0.16599486991572004,
      "grad_norm": 0.5549831381708766,
      "learning_rate": 9.868779070163895e-06,
      "loss": 0.484,
      "step": 906
    },
    {
      "epoch": 0.16617808721143276,
      "grad_norm": 0.3891473564827362,
      "learning_rate": 9.868050253074328e-06,
      "loss": 0.4903,
      "step": 907
    },
    {
      "epoch": 0.16636130450714548,
      "grad_norm": 0.4268945705632106,
      "learning_rate": 9.867319444678465e-06,
      "loss": 0.5024,
      "step": 908
    },
    {
      "epoch": 0.1665445218028582,
      "grad_norm": 0.40332206359603545,
      "learning_rate": 9.866586645275247e-06,
      "loss": 0.4477,
      "step": 909
    },
    {
      "epoch": 0.16672773909857092,
      "grad_norm": 0.3720747589583317,
      "learning_rate": 9.86585185516443e-06,
      "loss": 0.469,
      "step": 910
    },
    {
      "epoch": 0.16691095639428363,
      "grad_norm": 0.451113552639029,
      "learning_rate": 9.865115074646583e-06,
      "loss": 0.5221,
      "step": 911
    },
    {
      "epoch": 0.16709417368999632,
      "grad_norm": 0.4454998332020719,
      "learning_rate": 9.864376304023092e-06,
      "loss": 0.495,
      "step": 912
    },
    {
      "epoch": 0.16727739098570904,
      "grad_norm": 0.5363910151131063,
      "learning_rate": 9.863635543596156e-06,
      "loss": 0.5233,
      "step": 913
    },
    {
      "epoch": 0.16746060828142176,
      "grad_norm": 0.4392403856880424,
      "learning_rate": 9.862892793668787e-06,
      "loss": 0.4998,
      "step": 914
    },
    {
      "epoch": 0.16764382557713448,
      "grad_norm": 0.42093143672832734,
      "learning_rate": 9.862148054544812e-06,
      "loss": 0.4977,
      "step": 915
    },
    {
      "epoch": 0.1678270428728472,
      "grad_norm": 0.39275787265485074,
      "learning_rate": 9.86140132652887e-06,
      "loss": 0.4694,
      "step": 916
    },
    {
      "epoch": 0.1680102601685599,
      "grad_norm": 0.4159908861548446,
      "learning_rate": 9.860652609926417e-06,
      "loss": 0.4886,
      "step": 917
    },
    {
      "epoch": 0.16819347746427263,
      "grad_norm": 0.38579180273261776,
      "learning_rate": 9.859901905043718e-06,
      "loss": 0.48,
      "step": 918
    },
    {
      "epoch": 0.16837669475998535,
      "grad_norm": 0.4273621763370794,
      "learning_rate": 9.859149212187855e-06,
      "loss": 0.512,
      "step": 919
    },
    {
      "epoch": 0.16855991205569806,
      "grad_norm": 0.45913559298162226,
      "learning_rate": 9.85839453166672e-06,
      "loss": 0.4877,
      "step": 920
    },
    {
      "epoch": 0.16874312935141078,
      "grad_norm": 0.3847363797846655,
      "learning_rate": 9.85763786378902e-06,
      "loss": 0.4586,
      "step": 921
    },
    {
      "epoch": 0.1689263466471235,
      "grad_norm": 0.4872256895625686,
      "learning_rate": 9.856879208864277e-06,
      "loss": 0.5035,
      "step": 922
    },
    {
      "epoch": 0.16910956394283622,
      "grad_norm": 0.47756329412725707,
      "learning_rate": 9.85611856720282e-06,
      "loss": 0.5031,
      "step": 923
    },
    {
      "epoch": 0.1692927812385489,
      "grad_norm": 0.474431940864528,
      "learning_rate": 9.8553559391158e-06,
      "loss": 0.512,
      "step": 924
    },
    {
      "epoch": 0.16947599853426162,
      "grad_norm": 0.41972238109665655,
      "learning_rate": 9.85459132491517e-06,
      "loss": 0.5386,
      "step": 925
    },
    {
      "epoch": 0.16965921582997434,
      "grad_norm": 0.4369771091332424,
      "learning_rate": 9.8538247249137e-06,
      "loss": 0.4909,
      "step": 926
    },
    {
      "epoch": 0.16984243312568706,
      "grad_norm": 0.4523772832392917,
      "learning_rate": 9.853056139424974e-06,
      "loss": 0.4951,
      "step": 927
    },
    {
      "epoch": 0.17002565042139978,
      "grad_norm": 0.40235086982371876,
      "learning_rate": 9.852285568763387e-06,
      "loss": 0.4828,
      "step": 928
    },
    {
      "epoch": 0.1702088677171125,
      "grad_norm": 0.4150844402567988,
      "learning_rate": 9.851513013244144e-06,
      "loss": 0.4933,
      "step": 929
    },
    {
      "epoch": 0.1703920850128252,
      "grad_norm": 0.3941602147072389,
      "learning_rate": 9.850738473183266e-06,
      "loss": 0.4855,
      "step": 930
    },
    {
      "epoch": 0.17057530230853793,
      "grad_norm": 0.47118394280764797,
      "learning_rate": 9.849961948897582e-06,
      "loss": 0.5024,
      "step": 931
    },
    {
      "epoch": 0.17075851960425065,
      "grad_norm": 0.3912878663413955,
      "learning_rate": 9.849183440704735e-06,
      "loss": 0.5041,
      "step": 932
    },
    {
      "epoch": 0.17094173689996336,
      "grad_norm": 0.4001961484144372,
      "learning_rate": 9.848402948923177e-06,
      "loss": 0.4753,
      "step": 933
    },
    {
      "epoch": 0.17112495419567608,
      "grad_norm": 0.4441137892348275,
      "learning_rate": 9.847620473872172e-06,
      "loss": 0.5102,
      "step": 934
    },
    {
      "epoch": 0.1713081714913888,
      "grad_norm": 0.40101758764349804,
      "learning_rate": 9.846836015871802e-06,
      "loss": 0.4824,
      "step": 935
    },
    {
      "epoch": 0.1714913887871015,
      "grad_norm": 0.41075944565503664,
      "learning_rate": 9.846049575242949e-06,
      "loss": 0.5235,
      "step": 936
    },
    {
      "epoch": 0.1716746060828142,
      "grad_norm": 0.3780837940291423,
      "learning_rate": 9.845261152307312e-06,
      "loss": 0.5211,
      "step": 937
    },
    {
      "epoch": 0.17185782337852692,
      "grad_norm": 0.45070991069476113,
      "learning_rate": 9.844470747387403e-06,
      "loss": 0.4926,
      "step": 938
    },
    {
      "epoch": 0.17204104067423964,
      "grad_norm": 0.40836878453605646,
      "learning_rate": 9.843678360806542e-06,
      "loss": 0.5173,
      "step": 939
    },
    {
      "epoch": 0.17222425796995236,
      "grad_norm": 0.36676941914948374,
      "learning_rate": 9.842883992888855e-06,
      "loss": 0.5101,
      "step": 940
    },
    {
      "epoch": 0.17240747526566508,
      "grad_norm": 0.42894488109200807,
      "learning_rate": 9.842087643959288e-06,
      "loss": 0.5398,
      "step": 941
    },
    {
      "epoch": 0.1725906925613778,
      "grad_norm": 0.4004768449690441,
      "learning_rate": 9.841289314343591e-06,
      "loss": 0.4967,
      "step": 942
    },
    {
      "epoch": 0.1727739098570905,
      "grad_norm": 0.3781076276341992,
      "learning_rate": 9.840489004368325e-06,
      "loss": 0.4731,
      "step": 943
    },
    {
      "epoch": 0.17295712715280323,
      "grad_norm": 0.45307945315267256,
      "learning_rate": 9.839686714360864e-06,
      "loss": 0.4737,
      "step": 944
    },
    {
      "epoch": 0.17314034444851595,
      "grad_norm": 0.4079247794136399,
      "learning_rate": 9.838882444649387e-06,
      "loss": 0.4927,
      "step": 945
    },
    {
      "epoch": 0.17332356174422867,
      "grad_norm": 0.47171018664243136,
      "learning_rate": 9.838076195562886e-06,
      "loss": 0.5009,
      "step": 946
    },
    {
      "epoch": 0.17350677903994138,
      "grad_norm": 0.44572108382734166,
      "learning_rate": 9.837267967431164e-06,
      "loss": 0.4858,
      "step": 947
    },
    {
      "epoch": 0.17368999633565407,
      "grad_norm": 0.40649730883742624,
      "learning_rate": 9.83645776058483e-06,
      "loss": 0.4943,
      "step": 948
    },
    {
      "epoch": 0.1738732136313668,
      "grad_norm": 0.43002759908477306,
      "learning_rate": 9.835645575355304e-06,
      "loss": 0.4872,
      "step": 949
    },
    {
      "epoch": 0.1740564309270795,
      "grad_norm": 0.39064612647120167,
      "learning_rate": 9.834831412074816e-06,
      "loss": 0.4409,
      "step": 950
    },
    {
      "epoch": 0.17423964822279223,
      "grad_norm": 0.3761573603114394,
      "learning_rate": 9.834015271076405e-06,
      "loss": 0.459,
      "step": 951
    },
    {
      "epoch": 0.17442286551850494,
      "grad_norm": 0.42796519720566795,
      "learning_rate": 9.83319715269392e-06,
      "loss": 0.4906,
      "step": 952
    },
    {
      "epoch": 0.17460608281421766,
      "grad_norm": 0.5091807084893948,
      "learning_rate": 9.832377057262015e-06,
      "loss": 0.5516,
      "step": 953
    },
    {
      "epoch": 0.17478930010993038,
      "grad_norm": 0.48065067696295527,
      "learning_rate": 9.831554985116155e-06,
      "loss": 0.5097,
      "step": 954
    },
    {
      "epoch": 0.1749725174056431,
      "grad_norm": 0.4310364985277951,
      "learning_rate": 9.830730936592615e-06,
      "loss": 0.5025,
      "step": 955
    },
    {
      "epoch": 0.17515573470135581,
      "grad_norm": 0.39964086093662415,
      "learning_rate": 9.829904912028477e-06,
      "loss": 0.494,
      "step": 956
    },
    {
      "epoch": 0.17533895199706853,
      "grad_norm": 0.40935380850458175,
      "learning_rate": 9.829076911761631e-06,
      "loss": 0.5182,
      "step": 957
    },
    {
      "epoch": 0.17552216929278125,
      "grad_norm": 0.454766087870644,
      "learning_rate": 9.828246936130777e-06,
      "loss": 0.5113,
      "step": 958
    },
    {
      "epoch": 0.17570538658849397,
      "grad_norm": 0.5087972352515657,
      "learning_rate": 9.827414985475419e-06,
      "loss": 0.4797,
      "step": 959
    },
    {
      "epoch": 0.17588860388420666,
      "grad_norm": 0.4255562501722622,
      "learning_rate": 9.826581060135873e-06,
      "loss": 0.5045,
      "step": 960
    },
    {
      "epoch": 0.17607182117991937,
      "grad_norm": 0.45583787528367603,
      "learning_rate": 9.825745160453264e-06,
      "loss": 0.4755,
      "step": 961
    },
    {
      "epoch": 0.1762550384756321,
      "grad_norm": 0.45648883029913284,
      "learning_rate": 9.824907286769519e-06,
      "loss": 0.4736,
      "step": 962
    },
    {
      "epoch": 0.1764382557713448,
      "grad_norm": 0.436071698669034,
      "learning_rate": 9.824067439427374e-06,
      "loss": 0.5036,
      "step": 963
    },
    {
      "epoch": 0.17662147306705753,
      "grad_norm": 0.41502000197263017,
      "learning_rate": 9.823225618770378e-06,
      "loss": 0.5121,
      "step": 964
    },
    {
      "epoch": 0.17680469036277024,
      "grad_norm": 0.450252173902017,
      "learning_rate": 9.822381825142879e-06,
      "loss": 0.506,
      "step": 965
    },
    {
      "epoch": 0.17698790765848296,
      "grad_norm": 0.43561778776659554,
      "learning_rate": 9.82153605889004e-06,
      "loss": 0.5304,
      "step": 966
    },
    {
      "epoch": 0.17717112495419568,
      "grad_norm": 0.4306520452468297,
      "learning_rate": 9.820688320357823e-06,
      "loss": 0.5112,
      "step": 967
    },
    {
      "epoch": 0.1773543422499084,
      "grad_norm": 0.39680977809710444,
      "learning_rate": 9.819838609893005e-06,
      "loss": 0.4904,
      "step": 968
    },
    {
      "epoch": 0.17753755954562112,
      "grad_norm": 0.4225898008101114,
      "learning_rate": 9.81898692784316e-06,
      "loss": 0.5137,
      "step": 969
    },
    {
      "epoch": 0.17772077684133383,
      "grad_norm": 0.4267062187327317,
      "learning_rate": 9.818133274556679e-06,
      "loss": 0.517,
      "step": 970
    },
    {
      "epoch": 0.17790399413704655,
      "grad_norm": 0.4450452397955529,
      "learning_rate": 9.81727765038275e-06,
      "loss": 0.4949,
      "step": 971
    },
    {
      "epoch": 0.17808721143275924,
      "grad_norm": 0.42730228271929965,
      "learning_rate": 9.816420055671374e-06,
      "loss": 0.5013,
      "step": 972
    },
    {
      "epoch": 0.17827042872847196,
      "grad_norm": 0.4421383626296405,
      "learning_rate": 9.815560490773356e-06,
      "loss": 0.4679,
      "step": 973
    },
    {
      "epoch": 0.17845364602418468,
      "grad_norm": 0.43307265096730885,
      "learning_rate": 9.814698956040305e-06,
      "loss": 0.4976,
      "step": 974
    },
    {
      "epoch": 0.1786368633198974,
      "grad_norm": 0.40376464412932705,
      "learning_rate": 9.813835451824636e-06,
      "loss": 0.5021,
      "step": 975
    },
    {
      "epoch": 0.1788200806156101,
      "grad_norm": 0.44775776339538953,
      "learning_rate": 9.812969978479573e-06,
      "loss": 0.4824,
      "step": 976
    },
    {
      "epoch": 0.17900329791132283,
      "grad_norm": 0.468036097947629,
      "learning_rate": 9.812102536359142e-06,
      "loss": 0.4966,
      "step": 977
    },
    {
      "epoch": 0.17918651520703555,
      "grad_norm": 0.49832149697786493,
      "learning_rate": 9.811233125818176e-06,
      "loss": 0.4853,
      "step": 978
    },
    {
      "epoch": 0.17936973250274826,
      "grad_norm": 0.44754723833693727,
      "learning_rate": 9.810361747212313e-06,
      "loss": 0.4999,
      "step": 979
    },
    {
      "epoch": 0.17955294979846098,
      "grad_norm": 0.4747011696315986,
      "learning_rate": 9.809488400897996e-06,
      "loss": 0.5108,
      "step": 980
    },
    {
      "epoch": 0.1797361670941737,
      "grad_norm": 0.4055842519238836,
      "learning_rate": 9.808613087232473e-06,
      "loss": 0.4786,
      "step": 981
    },
    {
      "epoch": 0.17991938438988642,
      "grad_norm": 0.3971701443501286,
      "learning_rate": 9.807735806573795e-06,
      "loss": 0.4925,
      "step": 982
    },
    {
      "epoch": 0.18010260168559913,
      "grad_norm": 0.3784480421793096,
      "learning_rate": 9.806856559280819e-06,
      "loss": 0.4762,
      "step": 983
    },
    {
      "epoch": 0.18028581898131182,
      "grad_norm": 0.41465183173286063,
      "learning_rate": 9.80597534571321e-06,
      "loss": 0.5037,
      "step": 984
    },
    {
      "epoch": 0.18046903627702454,
      "grad_norm": 0.4713550462839489,
      "learning_rate": 9.80509216623143e-06,
      "loss": 0.4816,
      "step": 985
    },
    {
      "epoch": 0.18065225357273726,
      "grad_norm": 0.34923786309805893,
      "learning_rate": 9.804207021196751e-06,
      "loss": 0.4903,
      "step": 986
    },
    {
      "epoch": 0.18083547086844998,
      "grad_norm": 0.4359203385963395,
      "learning_rate": 9.803319910971248e-06,
      "loss": 0.5252,
      "step": 987
    },
    {
      "epoch": 0.1810186881641627,
      "grad_norm": 0.40286824933567683,
      "learning_rate": 9.802430835917796e-06,
      "loss": 0.5248,
      "step": 988
    },
    {
      "epoch": 0.1812019054598754,
      "grad_norm": 0.44314680454994215,
      "learning_rate": 9.801539796400078e-06,
      "loss": 0.5071,
      "step": 989
    },
    {
      "epoch": 0.18138512275558813,
      "grad_norm": 0.44074612784921385,
      "learning_rate": 9.80064679278258e-06,
      "loss": 0.5057,
      "step": 990
    },
    {
      "epoch": 0.18156834005130085,
      "grad_norm": 0.40968360376086815,
      "learning_rate": 9.799751825430592e-06,
      "loss": 0.4919,
      "step": 991
    },
    {
      "epoch": 0.18175155734701356,
      "grad_norm": 0.4204735967781832,
      "learning_rate": 9.798854894710202e-06,
      "loss": 0.546,
      "step": 992
    },
    {
      "epoch": 0.18193477464272628,
      "grad_norm": 0.36210624498761007,
      "learning_rate": 9.79795600098831e-06,
      "loss": 0.4904,
      "step": 993
    },
    {
      "epoch": 0.182117991938439,
      "grad_norm": 0.45193717949202633,
      "learning_rate": 9.797055144632609e-06,
      "loss": 0.5292,
      "step": 994
    },
    {
      "epoch": 0.18230120923415172,
      "grad_norm": 0.415630496229026,
      "learning_rate": 9.796152326011604e-06,
      "loss": 0.533,
      "step": 995
    },
    {
      "epoch": 0.1824844265298644,
      "grad_norm": 0.39372729416385926,
      "learning_rate": 9.795247545494594e-06,
      "loss": 0.5147,
      "step": 996
    },
    {
      "epoch": 0.18266764382557713,
      "grad_norm": 0.43540226077312505,
      "learning_rate": 9.794340803451692e-06,
      "loss": 0.49,
      "step": 997
    },
    {
      "epoch": 0.18285086112128984,
      "grad_norm": 0.39372791981341043,
      "learning_rate": 9.7934321002538e-06,
      "loss": 0.4776,
      "step": 998
    },
    {
      "epoch": 0.18303407841700256,
      "grad_norm": 0.40381508343023165,
      "learning_rate": 9.792521436272633e-06,
      "loss": 0.4566,
      "step": 999
    },
    {
      "epoch": 0.18321729571271528,
      "grad_norm": 0.47729065322343966,
      "learning_rate": 9.791608811880702e-06,
      "loss": 0.5013,
      "step": 1000
    },
    {
      "epoch": 0.183400513008428,
      "grad_norm": 0.4569898838129068,
      "learning_rate": 9.79069422745132e-06,
      "loss": 0.4834,
      "step": 1001
    },
    {
      "epoch": 0.1835837303041407,
      "grad_norm": 0.41137738030360954,
      "learning_rate": 9.789777683358607e-06,
      "loss": 0.4982,
      "step": 1002
    },
    {
      "epoch": 0.18376694759985343,
      "grad_norm": 0.443462511432857,
      "learning_rate": 9.788859179977478e-06,
      "loss": 0.4822,
      "step": 1003
    },
    {
      "epoch": 0.18395016489556615,
      "grad_norm": 0.3803483898936361,
      "learning_rate": 9.787938717683654e-06,
      "loss": 0.4781,
      "step": 1004
    },
    {
      "epoch": 0.18413338219127887,
      "grad_norm": 0.4711405888417879,
      "learning_rate": 9.787016296853657e-06,
      "loss": 0.5104,
      "step": 1005
    },
    {
      "epoch": 0.18431659948699158,
      "grad_norm": 0.42018309024133216,
      "learning_rate": 9.786091917864807e-06,
      "loss": 0.4922,
      "step": 1006
    },
    {
      "epoch": 0.18449981678270427,
      "grad_norm": 0.46053661876076,
      "learning_rate": 9.785165581095225e-06,
      "loss": 0.4777,
      "step": 1007
    },
    {
      "epoch": 0.184683034078417,
      "grad_norm": 0.38543837395940844,
      "learning_rate": 9.78423728692384e-06,
      "loss": 0.5053,
      "step": 1008
    },
    {
      "epoch": 0.1848662513741297,
      "grad_norm": 0.3681107156627339,
      "learning_rate": 9.783307035730375e-06,
      "loss": 0.463,
      "step": 1009
    },
    {
      "epoch": 0.18504946866984243,
      "grad_norm": 0.42988658038887384,
      "learning_rate": 9.782374827895353e-06,
      "loss": 0.5179,
      "step": 1010
    },
    {
      "epoch": 0.18523268596555514,
      "grad_norm": 0.3985975808728344,
      "learning_rate": 9.781440663800099e-06,
      "loss": 0.4979,
      "step": 1011
    },
    {
      "epoch": 0.18541590326126786,
      "grad_norm": 0.419869548881785,
      "learning_rate": 9.780504543826741e-06,
      "loss": 0.4952,
      "step": 1012
    },
    {
      "epoch": 0.18559912055698058,
      "grad_norm": 0.4348607167141751,
      "learning_rate": 9.779566468358205e-06,
      "loss": 0.4999,
      "step": 1013
    },
    {
      "epoch": 0.1857823378526933,
      "grad_norm": 0.43518629406794973,
      "learning_rate": 9.778626437778214e-06,
      "loss": 0.5028,
      "step": 1014
    },
    {
      "epoch": 0.18596555514840601,
      "grad_norm": 0.4475968637904264,
      "learning_rate": 9.777684452471296e-06,
      "loss": 0.4997,
      "step": 1015
    },
    {
      "epoch": 0.18614877244411873,
      "grad_norm": 0.4834533700606862,
      "learning_rate": 9.776740512822773e-06,
      "loss": 0.5139,
      "step": 1016
    },
    {
      "epoch": 0.18633198973983145,
      "grad_norm": 0.49443428074486423,
      "learning_rate": 9.775794619218773e-06,
      "loss": 0.4818,
      "step": 1017
    },
    {
      "epoch": 0.18651520703554417,
      "grad_norm": 0.42771715112146097,
      "learning_rate": 9.774846772046216e-06,
      "loss": 0.507,
      "step": 1018
    },
    {
      "epoch": 0.18669842433125686,
      "grad_norm": 0.43776726147874706,
      "learning_rate": 9.77389697169283e-06,
      "loss": 0.5002,
      "step": 1019
    },
    {
      "epoch": 0.18688164162696957,
      "grad_norm": 0.44345646316302056,
      "learning_rate": 9.77294521854713e-06,
      "loss": 0.4953,
      "step": 1020
    },
    {
      "epoch": 0.1870648589226823,
      "grad_norm": 0.4199805356687226,
      "learning_rate": 9.77199151299844e-06,
      "loss": 0.491,
      "step": 1021
    },
    {
      "epoch": 0.187248076218395,
      "grad_norm": 0.4157991523056247,
      "learning_rate": 9.77103585543688e-06,
      "loss": 0.4809,
      "step": 1022
    },
    {
      "epoch": 0.18743129351410773,
      "grad_norm": 0.3883786524287937,
      "learning_rate": 9.770078246253367e-06,
      "loss": 0.4811,
      "step": 1023
    },
    {
      "epoch": 0.18761451080982045,
      "grad_norm": 0.4460460362572771,
      "learning_rate": 9.769118685839616e-06,
      "loss": 0.4869,
      "step": 1024
    },
    {
      "epoch": 0.18779772810553316,
      "grad_norm": 0.4153757045736682,
      "learning_rate": 9.768157174588144e-06,
      "loss": 0.4464,
      "step": 1025
    },
    {
      "epoch": 0.18798094540124588,
      "grad_norm": 0.4146331433621528,
      "learning_rate": 9.767193712892259e-06,
      "loss": 0.4588,
      "step": 1026
    },
    {
      "epoch": 0.1881641626969586,
      "grad_norm": 0.42852199415357106,
      "learning_rate": 9.766228301146074e-06,
      "loss": 0.5132,
      "step": 1027
    },
    {
      "epoch": 0.18834737999267132,
      "grad_norm": 0.40617799593038223,
      "learning_rate": 9.765260939744496e-06,
      "loss": 0.4715,
      "step": 1028
    },
    {
      "epoch": 0.18853059728838403,
      "grad_norm": 0.43057345885222986,
      "learning_rate": 9.76429162908323e-06,
      "loss": 0.4613,
      "step": 1029
    },
    {
      "epoch": 0.18871381458409675,
      "grad_norm": 0.4287852170015339,
      "learning_rate": 9.763320369558777e-06,
      "loss": 0.5029,
      "step": 1030
    },
    {
      "epoch": 0.18889703187980944,
      "grad_norm": 0.4338612990572842,
      "learning_rate": 9.762347161568441e-06,
      "loss": 0.51,
      "step": 1031
    },
    {
      "epoch": 0.18908024917552216,
      "grad_norm": 0.6099286344029112,
      "learning_rate": 9.761372005510315e-06,
      "loss": 0.5176,
      "step": 1032
    },
    {
      "epoch": 0.18926346647123488,
      "grad_norm": 0.4139699553573524,
      "learning_rate": 9.760394901783294e-06,
      "loss": 0.4803,
      "step": 1033
    },
    {
      "epoch": 0.1894466837669476,
      "grad_norm": 0.4613287614032801,
      "learning_rate": 9.759415850787068e-06,
      "loss": 0.5114,
      "step": 1034
    },
    {
      "epoch": 0.1896299010626603,
      "grad_norm": 0.43042214487008984,
      "learning_rate": 9.758434852922124e-06,
      "loss": 0.5049,
      "step": 1035
    },
    {
      "epoch": 0.18981311835837303,
      "grad_norm": 0.4708254422812291,
      "learning_rate": 9.757451908589746e-06,
      "loss": 0.5466,
      "step": 1036
    },
    {
      "epoch": 0.18999633565408575,
      "grad_norm": 0.4823877518080949,
      "learning_rate": 9.756467018192013e-06,
      "loss": 0.4851,
      "step": 1037
    },
    {
      "epoch": 0.19017955294979846,
      "grad_norm": 0.49290249361142535,
      "learning_rate": 9.7554801821318e-06,
      "loss": 0.4915,
      "step": 1038
    },
    {
      "epoch": 0.19036277024551118,
      "grad_norm": 0.5097570694075713,
      "learning_rate": 9.754491400812779e-06,
      "loss": 0.5195,
      "step": 1039
    },
    {
      "epoch": 0.1905459875412239,
      "grad_norm": 0.41886567376911943,
      "learning_rate": 9.753500674639417e-06,
      "loss": 0.5133,
      "step": 1040
    },
    {
      "epoch": 0.19072920483693662,
      "grad_norm": 0.48924775085841404,
      "learning_rate": 9.752508004016976e-06,
      "loss": 0.5174,
      "step": 1041
    },
    {
      "epoch": 0.19091242213264933,
      "grad_norm": 0.44418461742112236,
      "learning_rate": 9.751513389351517e-06,
      "loss": 0.4711,
      "step": 1042
    },
    {
      "epoch": 0.19109563942836202,
      "grad_norm": 0.4103673664900802,
      "learning_rate": 9.75051683104989e-06,
      "loss": 0.478,
      "step": 1043
    },
    {
      "epoch": 0.19127885672407474,
      "grad_norm": 0.45394849049437136,
      "learning_rate": 9.749518329519745e-06,
      "loss": 0.5069,
      "step": 1044
    },
    {
      "epoch": 0.19146207401978746,
      "grad_norm": 0.4841087058964896,
      "learning_rate": 9.748517885169525e-06,
      "loss": 0.5226,
      "step": 1045
    },
    {
      "epoch": 0.19164529131550018,
      "grad_norm": 0.4138362206735341,
      "learning_rate": 9.747515498408466e-06,
      "loss": 0.5085,
      "step": 1046
    },
    {
      "epoch": 0.1918285086112129,
      "grad_norm": 0.4267417097417006,
      "learning_rate": 9.746511169646604e-06,
      "loss": 0.5074,
      "step": 1047
    },
    {
      "epoch": 0.1920117259069256,
      "grad_norm": 0.4397686656970245,
      "learning_rate": 9.745504899294764e-06,
      "loss": 0.5242,
      "step": 1048
    },
    {
      "epoch": 0.19219494320263833,
      "grad_norm": 0.6027364595972364,
      "learning_rate": 9.744496687764568e-06,
      "loss": 0.5046,
      "step": 1049
    },
    {
      "epoch": 0.19237816049835105,
      "grad_norm": 0.45130752478163744,
      "learning_rate": 9.743486535468431e-06,
      "loss": 0.4699,
      "step": 1050
    },
    {
      "epoch": 0.19256137779406376,
      "grad_norm": 0.4971542747077622,
      "learning_rate": 9.742474442819561e-06,
      "loss": 0.4446,
      "step": 1051
    },
    {
      "epoch": 0.19274459508977648,
      "grad_norm": 0.566649600088142,
      "learning_rate": 9.741460410231962e-06,
      "loss": 0.5531,
      "step": 1052
    },
    {
      "epoch": 0.1929278123854892,
      "grad_norm": 0.44162327591540923,
      "learning_rate": 9.74044443812043e-06,
      "loss": 0.5194,
      "step": 1053
    },
    {
      "epoch": 0.19311102968120192,
      "grad_norm": 0.40323605263226747,
      "learning_rate": 9.739426526900555e-06,
      "loss": 0.5013,
      "step": 1054
    },
    {
      "epoch": 0.1932942469769146,
      "grad_norm": 0.45567902759630347,
      "learning_rate": 9.738406676988721e-06,
      "loss": 0.4397,
      "step": 1055
    },
    {
      "epoch": 0.19347746427262733,
      "grad_norm": 0.4604601552443739,
      "learning_rate": 9.737384888802099e-06,
      "loss": 0.4888,
      "step": 1056
    },
    {
      "epoch": 0.19366068156834004,
      "grad_norm": 0.3927639599518843,
      "learning_rate": 9.736361162758665e-06,
      "loss": 0.4632,
      "step": 1057
    },
    {
      "epoch": 0.19384389886405276,
      "grad_norm": 0.40880550818933825,
      "learning_rate": 9.735335499277176e-06,
      "loss": 0.484,
      "step": 1058
    },
    {
      "epoch": 0.19402711615976548,
      "grad_norm": 0.4813436727815402,
      "learning_rate": 9.734307898777187e-06,
      "loss": 0.5351,
      "step": 1059
    },
    {
      "epoch": 0.1942103334554782,
      "grad_norm": 0.44626763914485296,
      "learning_rate": 9.733278361679042e-06,
      "loss": 0.4847,
      "step": 1060
    },
    {
      "epoch": 0.1943935507511909,
      "grad_norm": 0.3999429153352251,
      "learning_rate": 9.732246888403885e-06,
      "loss": 0.4888,
      "step": 1061
    },
    {
      "epoch": 0.19457676804690363,
      "grad_norm": 0.39498667028752193,
      "learning_rate": 9.731213479373643e-06,
      "loss": 0.4947,
      "step": 1062
    },
    {
      "epoch": 0.19475998534261635,
      "grad_norm": 0.4096597841615662,
      "learning_rate": 9.730178135011036e-06,
      "loss": 0.4747,
      "step": 1063
    },
    {
      "epoch": 0.19494320263832907,
      "grad_norm": 0.4279641584926225,
      "learning_rate": 9.729140855739585e-06,
      "loss": 0.5013,
      "step": 1064
    },
    {
      "epoch": 0.19512641993404178,
      "grad_norm": 0.5191493361942445,
      "learning_rate": 9.72810164198359e-06,
      "loss": 0.4947,
      "step": 1065
    },
    {
      "epoch": 0.1953096372297545,
      "grad_norm": 0.4196384047011208,
      "learning_rate": 9.727060494168148e-06,
      "loss": 0.4825,
      "step": 1066
    },
    {
      "epoch": 0.1954928545254672,
      "grad_norm": 0.4345875246850262,
      "learning_rate": 9.726017412719151e-06,
      "loss": 0.4734,
      "step": 1067
    },
    {
      "epoch": 0.1956760718211799,
      "grad_norm": 0.45563595275942326,
      "learning_rate": 9.724972398063273e-06,
      "loss": 0.5153,
      "step": 1068
    },
    {
      "epoch": 0.19585928911689263,
      "grad_norm": 0.44886022596575603,
      "learning_rate": 9.723925450627988e-06,
      "loss": 0.478,
      "step": 1069
    },
    {
      "epoch": 0.19604250641260534,
      "grad_norm": 0.413358196754176,
      "learning_rate": 9.722876570841554e-06,
      "loss": 0.5132,
      "step": 1070
    },
    {
      "epoch": 0.19622572370831806,
      "grad_norm": 0.41859249060654946,
      "learning_rate": 9.721825759133022e-06,
      "loss": 0.4911,
      "step": 1071
    },
    {
      "epoch": 0.19640894100403078,
      "grad_norm": 0.4261104024613703,
      "learning_rate": 9.720773015932234e-06,
      "loss": 0.512,
      "step": 1072
    },
    {
      "epoch": 0.1965921582997435,
      "grad_norm": 0.41207466582794494,
      "learning_rate": 9.71971834166982e-06,
      "loss": 0.4739,
      "step": 1073
    },
    {
      "epoch": 0.19677537559545621,
      "grad_norm": 0.4191753315427551,
      "learning_rate": 9.718661736777202e-06,
      "loss": 0.4906,
      "step": 1074
    },
    {
      "epoch": 0.19695859289116893,
      "grad_norm": 0.42085342925013736,
      "learning_rate": 9.71760320168659e-06,
      "loss": 0.5164,
      "step": 1075
    },
    {
      "epoch": 0.19714181018688165,
      "grad_norm": 0.4268987095250944,
      "learning_rate": 9.716542736830985e-06,
      "loss": 0.4861,
      "step": 1076
    },
    {
      "epoch": 0.19732502748259437,
      "grad_norm": 0.42610930294181376,
      "learning_rate": 9.715480342644177e-06,
      "loss": 0.475,
      "step": 1077
    },
    {
      "epoch": 0.19750824477830708,
      "grad_norm": 0.46458365169769283,
      "learning_rate": 9.714416019560744e-06,
      "loss": 0.4949,
      "step": 1078
    },
    {
      "epoch": 0.19769146207401977,
      "grad_norm": 0.40388410318318285,
      "learning_rate": 9.713349768016055e-06,
      "loss": 0.4886,
      "step": 1079
    },
    {
      "epoch": 0.1978746793697325,
      "grad_norm": 0.47359324461508207,
      "learning_rate": 9.712281588446267e-06,
      "loss": 0.5166,
      "step": 1080
    },
    {
      "epoch": 0.1980578966654452,
      "grad_norm": 0.3996969974243518,
      "learning_rate": 9.711211481288323e-06,
      "loss": 0.5208,
      "step": 1081
    },
    {
      "epoch": 0.19824111396115793,
      "grad_norm": 0.37701213979445153,
      "learning_rate": 9.710139446979961e-06,
      "loss": 0.5,
      "step": 1082
    },
    {
      "epoch": 0.19842433125687065,
      "grad_norm": 0.43491339118601396,
      "learning_rate": 9.7090654859597e-06,
      "loss": 0.4899,
      "step": 1083
    },
    {
      "epoch": 0.19860754855258336,
      "grad_norm": 0.4651922376126236,
      "learning_rate": 9.707989598666852e-06,
      "loss": 0.4684,
      "step": 1084
    },
    {
      "epoch": 0.19879076584829608,
      "grad_norm": 0.41200327863289965,
      "learning_rate": 9.706911785541515e-06,
      "loss": 0.4408,
      "step": 1085
    },
    {
      "epoch": 0.1989739831440088,
      "grad_norm": 0.48300341584043166,
      "learning_rate": 9.705832047024574e-06,
      "loss": 0.53,
      "step": 1086
    },
    {
      "epoch": 0.19915720043972152,
      "grad_norm": 0.4403619842708917,
      "learning_rate": 9.704750383557707e-06,
      "loss": 0.5361,
      "step": 1087
    },
    {
      "epoch": 0.19934041773543423,
      "grad_norm": 0.3719557224033517,
      "learning_rate": 9.70366679558337e-06,
      "loss": 0.4948,
      "step": 1088
    },
    {
      "epoch": 0.19952363503114695,
      "grad_norm": 0.4176787500801207,
      "learning_rate": 9.702581283544813e-06,
      "loss": 0.5145,
      "step": 1089
    },
    {
      "epoch": 0.19970685232685967,
      "grad_norm": 0.4221402861265115,
      "learning_rate": 9.701493847886075e-06,
      "loss": 0.5128,
      "step": 1090
    },
    {
      "epoch": 0.19989006962257236,
      "grad_norm": 0.40690517337963633,
      "learning_rate": 9.700404489051974e-06,
      "loss": 0.4911,
      "step": 1091
    },
    {
      "epoch": 0.20007328691828508,
      "grad_norm": 0.46227138813892915,
      "learning_rate": 9.69931320748812e-06,
      "loss": 0.5037,
      "step": 1092
    },
    {
      "epoch": 0.2002565042139978,
      "grad_norm": 0.3860882899117114,
      "learning_rate": 9.69822000364091e-06,
      "loss": 0.5063,
      "step": 1093
    },
    {
      "epoch": 0.2004397215097105,
      "grad_norm": 0.512213232549586,
      "learning_rate": 9.697124877957524e-06,
      "loss": 0.5019,
      "step": 1094
    },
    {
      "epoch": 0.20062293880542323,
      "grad_norm": 0.455116276042089,
      "learning_rate": 9.69602783088593e-06,
      "loss": 0.5145,
      "step": 1095
    },
    {
      "epoch": 0.20080615610113595,
      "grad_norm": 0.4251117291337367,
      "learning_rate": 9.694928862874883e-06,
      "loss": 0.5096,
      "step": 1096
    },
    {
      "epoch": 0.20098937339684866,
      "grad_norm": 0.46240748219044453,
      "learning_rate": 9.693827974373925e-06,
      "loss": 0.4506,
      "step": 1097
    },
    {
      "epoch": 0.20117259069256138,
      "grad_norm": 0.35673376148210156,
      "learning_rate": 9.692725165833377e-06,
      "loss": 0.4688,
      "step": 1098
    },
    {
      "epoch": 0.2013558079882741,
      "grad_norm": 0.469083523866663,
      "learning_rate": 9.69162043770435e-06,
      "loss": 0.5049,
      "step": 1099
    },
    {
      "epoch": 0.20153902528398682,
      "grad_norm": 0.42797732688089807,
      "learning_rate": 9.690513790438743e-06,
      "loss": 0.4696,
      "step": 1100
    },
    {
      "epoch": 0.20172224257969953,
      "grad_norm": 0.4281881317554375,
      "learning_rate": 9.689405224489235e-06,
      "loss": 0.4973,
      "step": 1101
    },
    {
      "epoch": 0.20190545987541225,
      "grad_norm": 0.4513286311031276,
      "learning_rate": 9.688294740309292e-06,
      "loss": 0.4694,
      "step": 1102
    },
    {
      "epoch": 0.20208867717112494,
      "grad_norm": 0.3940963878288531,
      "learning_rate": 9.687182338353166e-06,
      "loss": 0.4765,
      "step": 1103
    },
    {
      "epoch": 0.20227189446683766,
      "grad_norm": 0.3902749441842877,
      "learning_rate": 9.68606801907589e-06,
      "loss": 0.4759,
      "step": 1104
    },
    {
      "epoch": 0.20245511176255038,
      "grad_norm": 0.4789649740688253,
      "learning_rate": 9.684951782933282e-06,
      "loss": 0.4948,
      "step": 1105
    },
    {
      "epoch": 0.2026383290582631,
      "grad_norm": 0.47833293392492787,
      "learning_rate": 9.683833630381949e-06,
      "loss": 0.5239,
      "step": 1106
    },
    {
      "epoch": 0.2028215463539758,
      "grad_norm": 0.38231892821814056,
      "learning_rate": 9.682713561879275e-06,
      "loss": 0.4958,
      "step": 1107
    },
    {
      "epoch": 0.20300476364968853,
      "grad_norm": 0.37675479403578893,
      "learning_rate": 9.681591577883433e-06,
      "loss": 0.4778,
      "step": 1108
    },
    {
      "epoch": 0.20318798094540125,
      "grad_norm": 0.3570523937587689,
      "learning_rate": 9.680467678853378e-06,
      "loss": 0.484,
      "step": 1109
    },
    {
      "epoch": 0.20337119824111397,
      "grad_norm": 0.4245386369867795,
      "learning_rate": 9.679341865248848e-06,
      "loss": 0.4866,
      "step": 1110
    },
    {
      "epoch": 0.20355441553682668,
      "grad_norm": 0.4405417241764804,
      "learning_rate": 9.678214137530361e-06,
      "loss": 0.4532,
      "step": 1111
    },
    {
      "epoch": 0.2037376328325394,
      "grad_norm": 0.3965079787279517,
      "learning_rate": 9.677084496159224e-06,
      "loss": 0.4731,
      "step": 1112
    },
    {
      "epoch": 0.20392085012825212,
      "grad_norm": 0.38208118269449826,
      "learning_rate": 9.675952941597522e-06,
      "loss": 0.4397,
      "step": 1113
    },
    {
      "epoch": 0.20410406742396484,
      "grad_norm": 0.39488634039550174,
      "learning_rate": 9.674819474308126e-06,
      "loss": 0.4928,
      "step": 1114
    },
    {
      "epoch": 0.20428728471967753,
      "grad_norm": 0.3739080933909842,
      "learning_rate": 9.673684094754686e-06,
      "loss": 0.486,
      "step": 1115
    },
    {
      "epoch": 0.20447050201539024,
      "grad_norm": 0.3958666571427383,
      "learning_rate": 9.672546803401638e-06,
      "loss": 0.5102,
      "step": 1116
    },
    {
      "epoch": 0.20465371931110296,
      "grad_norm": 1.2610206438333627,
      "learning_rate": 9.671407600714197e-06,
      "loss": 0.4555,
      "step": 1117
    },
    {
      "epoch": 0.20483693660681568,
      "grad_norm": 0.4461796609741918,
      "learning_rate": 9.670266487158363e-06,
      "loss": 0.4718,
      "step": 1118
    },
    {
      "epoch": 0.2050201539025284,
      "grad_norm": 0.43024748470939017,
      "learning_rate": 9.669123463200914e-06,
      "loss": 0.4953,
      "step": 1119
    },
    {
      "epoch": 0.2052033711982411,
      "grad_norm": 0.44154226794099993,
      "learning_rate": 9.66797852930941e-06,
      "loss": 0.5181,
      "step": 1120
    },
    {
      "epoch": 0.20538658849395383,
      "grad_norm": 0.41502499575208784,
      "learning_rate": 9.666831685952194e-06,
      "loss": 0.4772,
      "step": 1121
    },
    {
      "epoch": 0.20556980578966655,
      "grad_norm": 0.4084436936730005,
      "learning_rate": 9.66568293359839e-06,
      "loss": 0.5047,
      "step": 1122
    },
    {
      "epoch": 0.20575302308537927,
      "grad_norm": 0.43479037966133816,
      "learning_rate": 9.664532272717902e-06,
      "loss": 0.4698,
      "step": 1123
    },
    {
      "epoch": 0.20593624038109198,
      "grad_norm": 0.7606951229520282,
      "learning_rate": 9.663379703781414e-06,
      "loss": 0.4841,
      "step": 1124
    },
    {
      "epoch": 0.2061194576768047,
      "grad_norm": 0.4006994667526495,
      "learning_rate": 9.662225227260395e-06,
      "loss": 0.4963,
      "step": 1125
    },
    {
      "epoch": 0.20630267497251742,
      "grad_norm": 0.39866531966563096,
      "learning_rate": 9.661068843627088e-06,
      "loss": 0.4777,
      "step": 1126
    },
    {
      "epoch": 0.2064858922682301,
      "grad_norm": 0.4035785610200985,
      "learning_rate": 9.65991055335452e-06,
      "loss": 0.4666,
      "step": 1127
    },
    {
      "epoch": 0.20666910956394283,
      "grad_norm": 0.438045344209569,
      "learning_rate": 9.658750356916494e-06,
      "loss": 0.4956,
      "step": 1128
    },
    {
      "epoch": 0.20685232685965554,
      "grad_norm": 0.3835030416878391,
      "learning_rate": 9.657588254787598e-06,
      "loss": 0.4886,
      "step": 1129
    },
    {
      "epoch": 0.20703554415536826,
      "grad_norm": 0.4044887736362754,
      "learning_rate": 9.6564242474432e-06,
      "loss": 0.4831,
      "step": 1130
    },
    {
      "epoch": 0.20721876145108098,
      "grad_norm": 0.40816269155213675,
      "learning_rate": 9.655258335359438e-06,
      "loss": 0.497,
      "step": 1131
    },
    {
      "epoch": 0.2074019787467937,
      "grad_norm": 0.39413831022845913,
      "learning_rate": 9.65409051901324e-06,
      "loss": 0.4588,
      "step": 1132
    },
    {
      "epoch": 0.20758519604250641,
      "grad_norm": 0.5053059172212088,
      "learning_rate": 9.652920798882307e-06,
      "loss": 0.4985,
      "step": 1133
    },
    {
      "epoch": 0.20776841333821913,
      "grad_norm": 0.3669036545586826,
      "learning_rate": 9.651749175445123e-06,
      "loss": 0.4917,
      "step": 1134
    },
    {
      "epoch": 0.20795163063393185,
      "grad_norm": 0.4268516645401171,
      "learning_rate": 9.650575649180944e-06,
      "loss": 0.4849,
      "step": 1135
    },
    {
      "epoch": 0.20813484792964457,
      "grad_norm": 0.4262534436550349,
      "learning_rate": 9.649400220569812e-06,
      "loss": 0.5128,
      "step": 1136
    },
    {
      "epoch": 0.20831806522535729,
      "grad_norm": 0.3944076446197719,
      "learning_rate": 9.648222890092538e-06,
      "loss": 0.5014,
      "step": 1137
    },
    {
      "epoch": 0.20850128252107,
      "grad_norm": 0.40237247723443686,
      "learning_rate": 9.647043658230723e-06,
      "loss": 0.5162,
      "step": 1138
    },
    {
      "epoch": 0.2086844998167827,
      "grad_norm": 0.40871120340037176,
      "learning_rate": 9.645862525466734e-06,
      "loss": 0.5021,
      "step": 1139
    },
    {
      "epoch": 0.2088677171124954,
      "grad_norm": 0.40979376980666626,
      "learning_rate": 9.644679492283723e-06,
      "loss": 0.5104,
      "step": 1140
    },
    {
      "epoch": 0.20905093440820813,
      "grad_norm": 0.41263650327798096,
      "learning_rate": 9.643494559165616e-06,
      "loss": 0.4764,
      "step": 1141
    },
    {
      "epoch": 0.20923415170392085,
      "grad_norm": 0.37127003400941044,
      "learning_rate": 9.64230772659712e-06,
      "loss": 0.4858,
      "step": 1142
    },
    {
      "epoch": 0.20941736899963356,
      "grad_norm": 0.4556209336445142,
      "learning_rate": 9.641118995063712e-06,
      "loss": 0.4668,
      "step": 1143
    },
    {
      "epoch": 0.20960058629534628,
      "grad_norm": 0.37966915346806135,
      "learning_rate": 9.639928365051655e-06,
      "loss": 0.4733,
      "step": 1144
    },
    {
      "epoch": 0.209783803591059,
      "grad_norm": 0.5527182868106905,
      "learning_rate": 9.638735837047976e-06,
      "loss": 0.5182,
      "step": 1145
    },
    {
      "epoch": 0.20996702088677172,
      "grad_norm": 0.37939914018444165,
      "learning_rate": 9.637541411540496e-06,
      "loss": 0.4866,
      "step": 1146
    },
    {
      "epoch": 0.21015023818248443,
      "grad_norm": 0.44598863023348195,
      "learning_rate": 9.636345089017795e-06,
      "loss": 0.5115,
      "step": 1147
    },
    {
      "epoch": 0.21033345547819715,
      "grad_norm": 0.4509291233105335,
      "learning_rate": 9.635146869969239e-06,
      "loss": 0.5099,
      "step": 1148
    },
    {
      "epoch": 0.21051667277390987,
      "grad_norm": 0.43540452743790453,
      "learning_rate": 9.633946754884963e-06,
      "loss": 0.4971,
      "step": 1149
    },
    {
      "epoch": 0.21069989006962256,
      "grad_norm": 0.43503175511293474,
      "learning_rate": 9.63274474425589e-06,
      "loss": 0.535,
      "step": 1150
    },
    {
      "epoch": 0.21088310736533528,
      "grad_norm": 0.4284909564211116,
      "learning_rate": 9.6315408385737e-06,
      "loss": 0.5195,
      "step": 1151
    },
    {
      "epoch": 0.211066324661048,
      "grad_norm": 0.4144953761451503,
      "learning_rate": 9.630335038330867e-06,
      "loss": 0.4917,
      "step": 1152
    },
    {
      "epoch": 0.2112495419567607,
      "grad_norm": 0.4897343272100308,
      "learning_rate": 9.629127344020625e-06,
      "loss": 0.5315,
      "step": 1153
    },
    {
      "epoch": 0.21143275925247343,
      "grad_norm": 0.422768220232635,
      "learning_rate": 9.627917756136991e-06,
      "loss": 0.4751,
      "step": 1154
    },
    {
      "epoch": 0.21161597654818615,
      "grad_norm": 0.4834794267838247,
      "learning_rate": 9.626706275174754e-06,
      "loss": 0.49,
      "step": 1155
    },
    {
      "epoch": 0.21179919384389886,
      "grad_norm": 0.43277895942455413,
      "learning_rate": 9.625492901629478e-06,
      "loss": 0.4942,
      "step": 1156
    },
    {
      "epoch": 0.21198241113961158,
      "grad_norm": 0.4500403514457418,
      "learning_rate": 9.624277635997503e-06,
      "loss": 0.4794,
      "step": 1157
    },
    {
      "epoch": 0.2121656284353243,
      "grad_norm": 0.4099295617842837,
      "learning_rate": 9.62306047877594e-06,
      "loss": 0.5079,
      "step": 1158
    },
    {
      "epoch": 0.21234884573103702,
      "grad_norm": 0.39697880470360636,
      "learning_rate": 9.62184143046267e-06,
      "loss": 0.4718,
      "step": 1159
    },
    {
      "epoch": 0.21253206302674973,
      "grad_norm": 0.45285900320929984,
      "learning_rate": 9.620620491556359e-06,
      "loss": 0.4815,
      "step": 1160
    },
    {
      "epoch": 0.21271528032246245,
      "grad_norm": 0.4616778523748189,
      "learning_rate": 9.619397662556434e-06,
      "loss": 0.5072,
      "step": 1161
    },
    {
      "epoch": 0.21289849761817514,
      "grad_norm": 0.42472446401669417,
      "learning_rate": 9.618172943963107e-06,
      "loss": 0.5205,
      "step": 1162
    },
    {
      "epoch": 0.21308171491388786,
      "grad_norm": 1.1202188747857207,
      "learning_rate": 9.61694633627735e-06,
      "loss": 0.4941,
      "step": 1163
    },
    {
      "epoch": 0.21326493220960058,
      "grad_norm": 0.4238555504122449,
      "learning_rate": 9.615717840000922e-06,
      "loss": 0.5259,
      "step": 1164
    },
    {
      "epoch": 0.2134481495053133,
      "grad_norm": 0.4331940724685078,
      "learning_rate": 9.614487455636341e-06,
      "loss": 0.4792,
      "step": 1165
    },
    {
      "epoch": 0.213631366801026,
      "grad_norm": 0.42864744785979175,
      "learning_rate": 9.613255183686906e-06,
      "loss": 0.4737,
      "step": 1166
    },
    {
      "epoch": 0.21381458409673873,
      "grad_norm": 0.43365153166481973,
      "learning_rate": 9.612021024656685e-06,
      "loss": 0.4709,
      "step": 1167
    },
    {
      "epoch": 0.21399780139245145,
      "grad_norm": 0.43747080354215073,
      "learning_rate": 9.610784979050519e-06,
      "loss": 0.5012,
      "step": 1168
    },
    {
      "epoch": 0.21418101868816417,
      "grad_norm": 0.4204470389686437,
      "learning_rate": 9.609547047374018e-06,
      "loss": 0.4905,
      "step": 1169
    },
    {
      "epoch": 0.21436423598387688,
      "grad_norm": 0.42512506549883267,
      "learning_rate": 9.608307230133566e-06,
      "loss": 0.4672,
      "step": 1170
    },
    {
      "epoch": 0.2145474532795896,
      "grad_norm": 0.4326161922702061,
      "learning_rate": 9.607065527836324e-06,
      "loss": 0.5035,
      "step": 1171
    },
    {
      "epoch": 0.21473067057530232,
      "grad_norm": 0.4012535242609492,
      "learning_rate": 9.60582194099021e-06,
      "loss": 0.5042,
      "step": 1172
    },
    {
      "epoch": 0.21491388787101504,
      "grad_norm": 0.407044902400079,
      "learning_rate": 9.604576470103923e-06,
      "loss": 0.4751,
      "step": 1173
    },
    {
      "epoch": 0.21509710516672773,
      "grad_norm": 0.420735767335274,
      "learning_rate": 9.603329115686934e-06,
      "loss": 0.4872,
      "step": 1174
    },
    {
      "epoch": 0.21528032246244044,
      "grad_norm": 0.41386495522739447,
      "learning_rate": 9.60207987824948e-06,
      "loss": 0.4554,
      "step": 1175
    },
    {
      "epoch": 0.21546353975815316,
      "grad_norm": 0.3993847396510676,
      "learning_rate": 9.600828758302568e-06,
      "loss": 0.4769,
      "step": 1176
    },
    {
      "epoch": 0.21564675705386588,
      "grad_norm": 0.43412675596114314,
      "learning_rate": 9.599575756357974e-06,
      "loss": 0.4604,
      "step": 1177
    },
    {
      "epoch": 0.2158299743495786,
      "grad_norm": 0.42400411471398847,
      "learning_rate": 9.598320872928251e-06,
      "loss": 0.4644,
      "step": 1178
    },
    {
      "epoch": 0.2160131916452913,
      "grad_norm": 0.43220524123609294,
      "learning_rate": 9.597064108526715e-06,
      "loss": 0.4931,
      "step": 1179
    },
    {
      "epoch": 0.21619640894100403,
      "grad_norm": 0.4139513466321143,
      "learning_rate": 9.595805463667452e-06,
      "loss": 0.502,
      "step": 1180
    },
    {
      "epoch": 0.21637962623671675,
      "grad_norm": 0.5080108758300018,
      "learning_rate": 9.59454493886532e-06,
      "loss": 0.4825,
      "step": 1181
    },
    {
      "epoch": 0.21656284353242947,
      "grad_norm": 0.47000114005402754,
      "learning_rate": 9.593282534635945e-06,
      "loss": 0.4678,
      "step": 1182
    },
    {
      "epoch": 0.21674606082814218,
      "grad_norm": 0.42032814714737154,
      "learning_rate": 9.59201825149572e-06,
      "loss": 0.5086,
      "step": 1183
    },
    {
      "epoch": 0.2169292781238549,
      "grad_norm": 0.4011425053622946,
      "learning_rate": 9.590752089961811e-06,
      "loss": 0.5067,
      "step": 1184
    },
    {
      "epoch": 0.21711249541956762,
      "grad_norm": 0.38415361503458767,
      "learning_rate": 9.589484050552142e-06,
      "loss": 0.5192,
      "step": 1185
    },
    {
      "epoch": 0.2172957127152803,
      "grad_norm": 0.4099189657711175,
      "learning_rate": 9.588214133785421e-06,
      "loss": 0.5087,
      "step": 1186
    },
    {
      "epoch": 0.21747893001099303,
      "grad_norm": 0.4259010610337274,
      "learning_rate": 9.58694234018111e-06,
      "loss": 0.4931,
      "step": 1187
    },
    {
      "epoch": 0.21766214730670574,
      "grad_norm": 0.4709131450449139,
      "learning_rate": 9.585668670259446e-06,
      "loss": 0.4949,
      "step": 1188
    },
    {
      "epoch": 0.21784536460241846,
      "grad_norm": 0.44547955151410057,
      "learning_rate": 9.584393124541431e-06,
      "loss": 0.4771,
      "step": 1189
    },
    {
      "epoch": 0.21802858189813118,
      "grad_norm": 0.43579531600042903,
      "learning_rate": 9.583115703548835e-06,
      "loss": 0.5121,
      "step": 1190
    },
    {
      "epoch": 0.2182117991938439,
      "grad_norm": 0.3959951122458681,
      "learning_rate": 9.581836407804196e-06,
      "loss": 0.4739,
      "step": 1191
    },
    {
      "epoch": 0.21839501648955661,
      "grad_norm": 0.39913718386402464,
      "learning_rate": 9.580555237830817e-06,
      "loss": 0.476,
      "step": 1192
    },
    {
      "epoch": 0.21857823378526933,
      "grad_norm": 0.3981984945355583,
      "learning_rate": 9.579272194152767e-06,
      "loss": 0.5042,
      "step": 1193
    },
    {
      "epoch": 0.21876145108098205,
      "grad_norm": 0.4369820172983135,
      "learning_rate": 9.577987277294887e-06,
      "loss": 0.5072,
      "step": 1194
    },
    {
      "epoch": 0.21894466837669477,
      "grad_norm": 0.43452616563791835,
      "learning_rate": 9.576700487782775e-06,
      "loss": 0.5111,
      "step": 1195
    },
    {
      "epoch": 0.21912788567240749,
      "grad_norm": 0.45908350014787985,
      "learning_rate": 9.575411826142806e-06,
      "loss": 0.5284,
      "step": 1196
    },
    {
      "epoch": 0.2193111029681202,
      "grad_norm": 0.40541576693311915,
      "learning_rate": 9.57412129290211e-06,
      "loss": 0.465,
      "step": 1197
    },
    {
      "epoch": 0.2194943202638329,
      "grad_norm": 0.3894120792636639,
      "learning_rate": 9.572828888588593e-06,
      "loss": 0.502,
      "step": 1198
    },
    {
      "epoch": 0.2196775375595456,
      "grad_norm": 0.41214065106611036,
      "learning_rate": 9.571534613730915e-06,
      "loss": 0.4999,
      "step": 1199
    },
    {
      "epoch": 0.21986075485525833,
      "grad_norm": 0.38064251771626856,
      "learning_rate": 9.57023846885851e-06,
      "loss": 0.485,
      "step": 1200
    },
    {
      "epoch": 0.22004397215097105,
      "grad_norm": 0.3546653255179806,
      "learning_rate": 9.568940454501578e-06,
      "loss": 0.4575,
      "step": 1201
    },
    {
      "epoch": 0.22022718944668376,
      "grad_norm": 0.40806335023375157,
      "learning_rate": 9.567640571191073e-06,
      "loss": 0.4516,
      "step": 1202
    },
    {
      "epoch": 0.22041040674239648,
      "grad_norm": 0.4688612954629896,
      "learning_rate": 9.566338819458726e-06,
      "loss": 0.5134,
      "step": 1203
    },
    {
      "epoch": 0.2205936240381092,
      "grad_norm": 0.39969548266649896,
      "learning_rate": 9.56503519983702e-06,
      "loss": 0.4847,
      "step": 1204
    },
    {
      "epoch": 0.22077684133382192,
      "grad_norm": 0.4383715060312841,
      "learning_rate": 9.563729712859216e-06,
      "loss": 0.5254,
      "step": 1205
    },
    {
      "epoch": 0.22096005862953463,
      "grad_norm": 0.4352285842560572,
      "learning_rate": 9.562422359059328e-06,
      "loss": 0.5016,
      "step": 1206
    },
    {
      "epoch": 0.22114327592524735,
      "grad_norm": 0.39691391609356236,
      "learning_rate": 9.561113138972138e-06,
      "loss": 0.5089,
      "step": 1207
    },
    {
      "epoch": 0.22132649322096007,
      "grad_norm": 0.3960087971203996,
      "learning_rate": 9.55980205313319e-06,
      "loss": 0.4977,
      "step": 1208
    },
    {
      "epoch": 0.2215097105166728,
      "grad_norm": 0.4287362367803256,
      "learning_rate": 9.558489102078792e-06,
      "loss": 0.4641,
      "step": 1209
    },
    {
      "epoch": 0.22169292781238548,
      "grad_norm": 0.3811089768117096,
      "learning_rate": 9.557174286346014e-06,
      "loss": 0.5213,
      "step": 1210
    },
    {
      "epoch": 0.2218761451080982,
      "grad_norm": 0.4593900206484617,
      "learning_rate": 9.555857606472692e-06,
      "loss": 0.514,
      "step": 1211
    },
    {
      "epoch": 0.2220593624038109,
      "grad_norm": 0.3711599555884036,
      "learning_rate": 9.554539062997421e-06,
      "loss": 0.5003,
      "step": 1212
    },
    {
      "epoch": 0.22224257969952363,
      "grad_norm": 0.42622144015650515,
      "learning_rate": 9.553218656459558e-06,
      "loss": 0.5486,
      "step": 1213
    },
    {
      "epoch": 0.22242579699523635,
      "grad_norm": 0.4167867779019379,
      "learning_rate": 9.551896387399226e-06,
      "loss": 0.5184,
      "step": 1214
    },
    {
      "epoch": 0.22260901429094906,
      "grad_norm": 0.3809013711065984,
      "learning_rate": 9.550572256357305e-06,
      "loss": 0.5022,
      "step": 1215
    },
    {
      "epoch": 0.22279223158666178,
      "grad_norm": 0.44157858433876945,
      "learning_rate": 9.54924626387544e-06,
      "loss": 0.4605,
      "step": 1216
    },
    {
      "epoch": 0.2229754488823745,
      "grad_norm": 0.38145210565349935,
      "learning_rate": 9.547918410496037e-06,
      "loss": 0.497,
      "step": 1217
    },
    {
      "epoch": 0.22315866617808722,
      "grad_norm": 0.4245361578656831,
      "learning_rate": 9.546588696762262e-06,
      "loss": 0.5249,
      "step": 1218
    },
    {
      "epoch": 0.22334188347379993,
      "grad_norm": 0.3806441240590457,
      "learning_rate": 9.545257123218043e-06,
      "loss": 0.489,
      "step": 1219
    },
    {
      "epoch": 0.22352510076951265,
      "grad_norm": 0.3771756284454525,
      "learning_rate": 9.54392369040807e-06,
      "loss": 0.4835,
      "step": 1220
    },
    {
      "epoch": 0.22370831806522537,
      "grad_norm": 0.42014861145100263,
      "learning_rate": 9.542588398877787e-06,
      "loss": 0.4908,
      "step": 1221
    },
    {
      "epoch": 0.22389153536093806,
      "grad_norm": 0.40603250481690667,
      "learning_rate": 9.54125124917341e-06,
      "loss": 0.4936,
      "step": 1222
    },
    {
      "epoch": 0.22407475265665078,
      "grad_norm": 0.4061177784088164,
      "learning_rate": 9.539912241841904e-06,
      "loss": 0.4827,
      "step": 1223
    },
    {
      "epoch": 0.2242579699523635,
      "grad_norm": 0.3861564878611609,
      "learning_rate": 9.538571377431e-06,
      "loss": 0.4676,
      "step": 1224
    },
    {
      "epoch": 0.2244411872480762,
      "grad_norm": 0.42382201486067383,
      "learning_rate": 9.537228656489187e-06,
      "loss": 0.4602,
      "step": 1225
    },
    {
      "epoch": 0.22462440454378893,
      "grad_norm": 0.3822471479641513,
      "learning_rate": 9.53588407956571e-06,
      "loss": 0.4508,
      "step": 1226
    },
    {
      "epoch": 0.22480762183950165,
      "grad_norm": 0.3882035970294104,
      "learning_rate": 9.534537647210582e-06,
      "loss": 0.4723,
      "step": 1227
    },
    {
      "epoch": 0.22499083913521437,
      "grad_norm": 0.46953161111998076,
      "learning_rate": 9.533189359974564e-06,
      "loss": 0.5037,
      "step": 1228
    },
    {
      "epoch": 0.22517405643092708,
      "grad_norm": 0.3742186217573921,
      "learning_rate": 9.531839218409186e-06,
      "loss": 0.4821,
      "step": 1229
    },
    {
      "epoch": 0.2253572737266398,
      "grad_norm": 0.42732489656890116,
      "learning_rate": 9.53048722306673e-06,
      "loss": 0.4959,
      "step": 1230
    },
    {
      "epoch": 0.22554049102235252,
      "grad_norm": 0.36370123103326807,
      "learning_rate": 9.52913337450024e-06,
      "loss": 0.509,
      "step": 1231
    },
    {
      "epoch": 0.22572370831806524,
      "grad_norm": 0.3842157959300981,
      "learning_rate": 9.527777673263512e-06,
      "loss": 0.4776,
      "step": 1232
    },
    {
      "epoch": 0.22590692561377795,
      "grad_norm": 0.39958584358419963,
      "learning_rate": 9.526420119911109e-06,
      "loss": 0.4937,
      "step": 1233
    },
    {
      "epoch": 0.22609014290949064,
      "grad_norm": 0.3795874511893427,
      "learning_rate": 9.525060714998341e-06,
      "loss": 0.4673,
      "step": 1234
    },
    {
      "epoch": 0.22627336020520336,
      "grad_norm": 0.443615180266169,
      "learning_rate": 9.523699459081285e-06,
      "loss": 0.497,
      "step": 1235
    },
    {
      "epoch": 0.22645657750091608,
      "grad_norm": 0.4126187255162815,
      "learning_rate": 9.52233635271677e-06,
      "loss": 0.5026,
      "step": 1236
    },
    {
      "epoch": 0.2266397947966288,
      "grad_norm": 0.3898731986202734,
      "learning_rate": 9.520971396462383e-06,
      "loss": 0.5142,
      "step": 1237
    },
    {
      "epoch": 0.2268230120923415,
      "grad_norm": 0.4303787774334329,
      "learning_rate": 9.519604590876471e-06,
      "loss": 0.5027,
      "step": 1238
    },
    {
      "epoch": 0.22700622938805423,
      "grad_norm": 0.4881712350764513,
      "learning_rate": 9.51823593651813e-06,
      "loss": 0.5194,
      "step": 1239
    },
    {
      "epoch": 0.22718944668376695,
      "grad_norm": 0.3958516733915845,
      "learning_rate": 9.516865433947218e-06,
      "loss": 0.4873,
      "step": 1240
    },
    {
      "epoch": 0.22737266397947967,
      "grad_norm": 0.37588183496475464,
      "learning_rate": 9.515493083724348e-06,
      "loss": 0.483,
      "step": 1241
    },
    {
      "epoch": 0.22755588127519238,
      "grad_norm": 0.42594083794952703,
      "learning_rate": 9.514118886410889e-06,
      "loss": 0.515,
      "step": 1242
    },
    {
      "epoch": 0.2277390985709051,
      "grad_norm": 0.42418243334298944,
      "learning_rate": 9.512742842568964e-06,
      "loss": 0.5057,
      "step": 1243
    },
    {
      "epoch": 0.22792231586661782,
      "grad_norm": 0.4402484021876601,
      "learning_rate": 9.511364952761453e-06,
      "loss": 0.4961,
      "step": 1244
    },
    {
      "epoch": 0.22810553316233054,
      "grad_norm": 0.39304351029537393,
      "learning_rate": 9.509985217551989e-06,
      "loss": 0.4803,
      "step": 1245
    },
    {
      "epoch": 0.22828875045804323,
      "grad_norm": 0.40248532246553786,
      "learning_rate": 9.508603637504962e-06,
      "loss": 0.4801,
      "step": 1246
    },
    {
      "epoch": 0.22847196775375594,
      "grad_norm": 0.4302259083201261,
      "learning_rate": 9.507220213185517e-06,
      "loss": 0.5027,
      "step": 1247
    },
    {
      "epoch": 0.22865518504946866,
      "grad_norm": 0.40571061563755584,
      "learning_rate": 9.505834945159552e-06,
      "loss": 0.5162,
      "step": 1248
    },
    {
      "epoch": 0.22883840234518138,
      "grad_norm": 0.4032017209651049,
      "learning_rate": 9.504447833993717e-06,
      "loss": 0.4948,
      "step": 1249
    },
    {
      "epoch": 0.2290216196408941,
      "grad_norm": 0.4195307039259119,
      "learning_rate": 9.503058880255423e-06,
      "loss": 0.5007,
      "step": 1250
    },
    {
      "epoch": 0.22920483693660682,
      "grad_norm": 0.4677433036389937,
      "learning_rate": 9.501668084512827e-06,
      "loss": 0.4676,
      "step": 1251
    },
    {
      "epoch": 0.22938805423231953,
      "grad_norm": 0.44203412318706997,
      "learning_rate": 9.500275447334843e-06,
      "loss": 0.5178,
      "step": 1252
    },
    {
      "epoch": 0.22957127152803225,
      "grad_norm": 0.3745369415002761,
      "learning_rate": 9.498880969291138e-06,
      "loss": 0.4705,
      "step": 1253
    },
    {
      "epoch": 0.22975448882374497,
      "grad_norm": 0.3760740011440762,
      "learning_rate": 9.497484650952133e-06,
      "loss": 0.4982,
      "step": 1254
    },
    {
      "epoch": 0.22993770611945769,
      "grad_norm": 0.38594463821493263,
      "learning_rate": 9.496086492889001e-06,
      "loss": 0.4887,
      "step": 1255
    },
    {
      "epoch": 0.2301209234151704,
      "grad_norm": 0.4212966089256434,
      "learning_rate": 9.494686495673665e-06,
      "loss": 0.4837,
      "step": 1256
    },
    {
      "epoch": 0.23030414071088312,
      "grad_norm": 0.4210112942058116,
      "learning_rate": 9.493284659878802e-06,
      "loss": 0.517,
      "step": 1257
    },
    {
      "epoch": 0.2304873580065958,
      "grad_norm": 0.41531125869001356,
      "learning_rate": 9.491880986077846e-06,
      "loss": 0.5263,
      "step": 1258
    },
    {
      "epoch": 0.23067057530230853,
      "grad_norm": 0.46209059357171517,
      "learning_rate": 9.490475474844976e-06,
      "loss": 0.5232,
      "step": 1259
    },
    {
      "epoch": 0.23085379259802125,
      "grad_norm": 0.4297726055183601,
      "learning_rate": 9.489068126755124e-06,
      "loss": 0.4613,
      "step": 1260
    },
    {
      "epoch": 0.23103700989373396,
      "grad_norm": 0.46903664754890034,
      "learning_rate": 9.487658942383975e-06,
      "loss": 0.5076,
      "step": 1261
    },
    {
      "epoch": 0.23122022718944668,
      "grad_norm": 0.48896965014560756,
      "learning_rate": 9.486247922307967e-06,
      "loss": 0.487,
      "step": 1262
    },
    {
      "epoch": 0.2314034444851594,
      "grad_norm": 0.4218926363173936,
      "learning_rate": 9.484835067104285e-06,
      "loss": 0.4914,
      "step": 1263
    },
    {
      "epoch": 0.23158666178087212,
      "grad_norm": 0.40940946307427944,
      "learning_rate": 9.483420377350865e-06,
      "loss": 0.4984,
      "step": 1264
    },
    {
      "epoch": 0.23176987907658483,
      "grad_norm": 0.45293257509435014,
      "learning_rate": 9.482003853626396e-06,
      "loss": 0.5082,
      "step": 1265
    },
    {
      "epoch": 0.23195309637229755,
      "grad_norm": 0.3935023699694669,
      "learning_rate": 9.480585496510315e-06,
      "loss": 0.5099,
      "step": 1266
    },
    {
      "epoch": 0.23213631366801027,
      "grad_norm": 0.39198925832901294,
      "learning_rate": 9.479165306582811e-06,
      "loss": 0.4682,
      "step": 1267
    },
    {
      "epoch": 0.232319530963723,
      "grad_norm": 0.34440630702814135,
      "learning_rate": 9.47774328442482e-06,
      "loss": 0.4835,
      "step": 1268
    },
    {
      "epoch": 0.2325027482594357,
      "grad_norm": 0.4696525716200109,
      "learning_rate": 9.476319430618033e-06,
      "loss": 0.5098,
      "step": 1269
    },
    {
      "epoch": 0.2326859655551484,
      "grad_norm": 0.4172646920959579,
      "learning_rate": 9.47489374574488e-06,
      "loss": 0.5023,
      "step": 1270
    },
    {
      "epoch": 0.2328691828508611,
      "grad_norm": 0.3756156161424675,
      "learning_rate": 9.473466230388552e-06,
      "loss": 0.4754,
      "step": 1271
    },
    {
      "epoch": 0.23305240014657383,
      "grad_norm": 1.9398173346161394,
      "learning_rate": 9.472036885132979e-06,
      "loss": 0.5082,
      "step": 1272
    },
    {
      "epoch": 0.23323561744228655,
      "grad_norm": 0.47073412743230747,
      "learning_rate": 9.470605710562845e-06,
      "loss": 0.5285,
      "step": 1273
    },
    {
      "epoch": 0.23341883473799926,
      "grad_norm": 0.38789836660988597,
      "learning_rate": 9.469172707263582e-06,
      "loss": 0.4925,
      "step": 1274
    },
    {
      "epoch": 0.23360205203371198,
      "grad_norm": 0.3825601936653152,
      "learning_rate": 9.467737875821368e-06,
      "loss": 0.4659,
      "step": 1275
    },
    {
      "epoch": 0.2337852693294247,
      "grad_norm": 0.3973414450558941,
      "learning_rate": 9.46630121682313e-06,
      "loss": 0.4772,
      "step": 1276
    },
    {
      "epoch": 0.23396848662513742,
      "grad_norm": 0.40322202930522744,
      "learning_rate": 9.464862730856542e-06,
      "loss": 0.4832,
      "step": 1277
    },
    {
      "epoch": 0.23415170392085013,
      "grad_norm": 0.42699100304138604,
      "learning_rate": 9.463422418510024e-06,
      "loss": 0.5212,
      "step": 1278
    },
    {
      "epoch": 0.23433492121656285,
      "grad_norm": 0.42176298384733996,
      "learning_rate": 9.461980280372748e-06,
      "loss": 0.4669,
      "step": 1279
    },
    {
      "epoch": 0.23451813851227557,
      "grad_norm": 0.4081443681151287,
      "learning_rate": 9.460536317034627e-06,
      "loss": 0.5113,
      "step": 1280
    },
    {
      "epoch": 0.2347013558079883,
      "grad_norm": 0.38795147083032466,
      "learning_rate": 9.459090529086325e-06,
      "loss": 0.4392,
      "step": 1281
    },
    {
      "epoch": 0.23488457310370098,
      "grad_norm": 0.5217298258213892,
      "learning_rate": 9.457642917119249e-06,
      "loss": 0.5181,
      "step": 1282
    },
    {
      "epoch": 0.2350677903994137,
      "grad_norm": 0.42457976380897766,
      "learning_rate": 9.456193481725555e-06,
      "loss": 0.5034,
      "step": 1283
    },
    {
      "epoch": 0.2352510076951264,
      "grad_norm": 0.37057304524699214,
      "learning_rate": 9.454742223498145e-06,
      "loss": 0.4502,
      "step": 1284
    },
    {
      "epoch": 0.23543422499083913,
      "grad_norm": 0.3946439030149264,
      "learning_rate": 9.453289143030662e-06,
      "loss": 0.4777,
      "step": 1285
    },
    {
      "epoch": 0.23561744228655185,
      "grad_norm": 0.44885227772255887,
      "learning_rate": 9.451834240917498e-06,
      "loss": 0.4847,
      "step": 1286
    },
    {
      "epoch": 0.23580065958226457,
      "grad_norm": 0.43519145234243767,
      "learning_rate": 9.45037751775379e-06,
      "loss": 0.5088,
      "step": 1287
    },
    {
      "epoch": 0.23598387687797728,
      "grad_norm": 0.4309093065470007,
      "learning_rate": 9.448918974135424e-06,
      "loss": 0.4677,
      "step": 1288
    },
    {
      "epoch": 0.23616709417369,
      "grad_norm": 0.47978496271668625,
      "learning_rate": 9.447458610659019e-06,
      "loss": 0.5116,
      "step": 1289
    },
    {
      "epoch": 0.23635031146940272,
      "grad_norm": 0.41021471445709895,
      "learning_rate": 9.445996427921951e-06,
      "loss": 0.523,
      "step": 1290
    },
    {
      "epoch": 0.23653352876511544,
      "grad_norm": 0.4296171869446803,
      "learning_rate": 9.444532426522334e-06,
      "loss": 0.4691,
      "step": 1291
    },
    {
      "epoch": 0.23671674606082815,
      "grad_norm": 0.4077954317933853,
      "learning_rate": 9.443066607059026e-06,
      "loss": 0.4772,
      "step": 1292
    },
    {
      "epoch": 0.23689996335654084,
      "grad_norm": 0.35793769775976464,
      "learning_rate": 9.44159897013163e-06,
      "loss": 0.4924,
      "step": 1293
    },
    {
      "epoch": 0.23708318065225356,
      "grad_norm": 0.39909841974854016,
      "learning_rate": 9.440129516340492e-06,
      "loss": 0.4823,
      "step": 1294
    },
    {
      "epoch": 0.23726639794796628,
      "grad_norm": 0.3675254686648848,
      "learning_rate": 9.4386582462867e-06,
      "loss": 0.506,
      "step": 1295
    },
    {
      "epoch": 0.237449615243679,
      "grad_norm": 0.37951723029275103,
      "learning_rate": 9.43718516057209e-06,
      "loss": 0.4996,
      "step": 1296
    },
    {
      "epoch": 0.23763283253939171,
      "grad_norm": 0.4395625646258237,
      "learning_rate": 9.435710259799234e-06,
      "loss": 0.4841,
      "step": 1297
    },
    {
      "epoch": 0.23781604983510443,
      "grad_norm": 0.4409131115143356,
      "learning_rate": 9.434233544571446e-06,
      "loss": 0.524,
      "step": 1298
    },
    {
      "epoch": 0.23799926713081715,
      "grad_norm": 0.38035953245650445,
      "learning_rate": 9.432755015492794e-06,
      "loss": 0.4833,
      "step": 1299
    },
    {
      "epoch": 0.23818248442652987,
      "grad_norm": 0.37603352556682307,
      "learning_rate": 9.431274673168072e-06,
      "loss": 0.4771,
      "step": 1300
    },
    {
      "epoch": 0.23836570172224258,
      "grad_norm": 0.3973590263816894,
      "learning_rate": 9.429792518202826e-06,
      "loss": 0.4519,
      "step": 1301
    },
    {
      "epoch": 0.2385489190179553,
      "grad_norm": 0.46279982818002663,
      "learning_rate": 9.428308551203342e-06,
      "loss": 0.5067,
      "step": 1302
    },
    {
      "epoch": 0.23873213631366802,
      "grad_norm": 0.44423083147602355,
      "learning_rate": 9.426822772776645e-06,
      "loss": 0.4955,
      "step": 1303
    },
    {
      "epoch": 0.23891535360938074,
      "grad_norm": 0.3765473227250332,
      "learning_rate": 9.425335183530501e-06,
      "loss": 0.4688,
      "step": 1304
    },
    {
      "epoch": 0.23909857090509343,
      "grad_norm": 0.38352159262743835,
      "learning_rate": 9.42384578407342e-06,
      "loss": 0.5013,
      "step": 1305
    },
    {
      "epoch": 0.23928178820080614,
      "grad_norm": 0.38474924269669325,
      "learning_rate": 9.422354575014644e-06,
      "loss": 0.5259,
      "step": 1306
    },
    {
      "epoch": 0.23946500549651886,
      "grad_norm": 0.3764815533565891,
      "learning_rate": 9.42086155696417e-06,
      "loss": 0.4907,
      "step": 1307
    },
    {
      "epoch": 0.23964822279223158,
      "grad_norm": 0.40120663442717996,
      "learning_rate": 9.41936673053272e-06,
      "loss": 0.5082,
      "step": 1308
    },
    {
      "epoch": 0.2398314400879443,
      "grad_norm": 0.38410734753609116,
      "learning_rate": 9.417870096331764e-06,
      "loss": 0.5235,
      "step": 1309
    },
    {
      "epoch": 0.24001465738365702,
      "grad_norm": 0.4824543008653062,
      "learning_rate": 9.416371654973513e-06,
      "loss": 0.5306,
      "step": 1310
    },
    {
      "epoch": 0.24019787467936973,
      "grad_norm": 0.4448880086308854,
      "learning_rate": 9.414871407070906e-06,
      "loss": 0.5045,
      "step": 1311
    },
    {
      "epoch": 0.24038109197508245,
      "grad_norm": 0.3818507137941972,
      "learning_rate": 9.413369353237637e-06,
      "loss": 0.4903,
      "step": 1312
    },
    {
      "epoch": 0.24056430927079517,
      "grad_norm": 0.42284475981294684,
      "learning_rate": 9.411865494088124e-06,
      "loss": 0.4964,
      "step": 1313
    },
    {
      "epoch": 0.24074752656650789,
      "grad_norm": 0.39875491330187324,
      "learning_rate": 9.410359830237534e-06,
      "loss": 0.5081,
      "step": 1314
    },
    {
      "epoch": 0.2409307438622206,
      "grad_norm": 0.3905340354403746,
      "learning_rate": 9.408852362301768e-06,
      "loss": 0.5006,
      "step": 1315
    },
    {
      "epoch": 0.24111396115793332,
      "grad_norm": 0.5340945724213095,
      "learning_rate": 9.407343090897464e-06,
      "loss": 0.5028,
      "step": 1316
    },
    {
      "epoch": 0.241297178453646,
      "grad_norm": 0.43175601981581013,
      "learning_rate": 9.405832016641997e-06,
      "loss": 0.5053,
      "step": 1317
    },
    {
      "epoch": 0.24148039574935873,
      "grad_norm": 0.4128194078123402,
      "learning_rate": 9.404319140153484e-06,
      "loss": 0.446,
      "step": 1318
    },
    {
      "epoch": 0.24166361304507145,
      "grad_norm": 0.3673682428697322,
      "learning_rate": 9.402804462050776e-06,
      "loss": 0.4664,
      "step": 1319
    },
    {
      "epoch": 0.24184683034078416,
      "grad_norm": 0.35927179937888154,
      "learning_rate": 9.401287982953462e-06,
      "loss": 0.4772,
      "step": 1320
    },
    {
      "epoch": 0.24203004763649688,
      "grad_norm": 0.436824106029447,
      "learning_rate": 9.399769703481865e-06,
      "loss": 0.4973,
      "step": 1321
    },
    {
      "epoch": 0.2422132649322096,
      "grad_norm": 0.44788915497504966,
      "learning_rate": 9.39824962425705e-06,
      "loss": 0.5297,
      "step": 1322
    },
    {
      "epoch": 0.24239648222792232,
      "grad_norm": 0.43045640486065784,
      "learning_rate": 9.396727745900811e-06,
      "loss": 0.4906,
      "step": 1323
    },
    {
      "epoch": 0.24257969952363503,
      "grad_norm": 0.5421905192174398,
      "learning_rate": 9.395204069035686e-06,
      "loss": 0.4659,
      "step": 1324
    },
    {
      "epoch": 0.24276291681934775,
      "grad_norm": 0.4219323385690796,
      "learning_rate": 9.39367859428494e-06,
      "loss": 0.5003,
      "step": 1325
    },
    {
      "epoch": 0.24294613411506047,
      "grad_norm": 0.4119758712615104,
      "learning_rate": 9.392151322272583e-06,
      "loss": 0.499,
      "step": 1326
    },
    {
      "epoch": 0.2431293514107732,
      "grad_norm": 0.4287819235082752,
      "learning_rate": 9.390622253623353e-06,
      "loss": 0.4939,
      "step": 1327
    },
    {
      "epoch": 0.2433125687064859,
      "grad_norm": 0.38055263240566445,
      "learning_rate": 9.389091388962723e-06,
      "loss": 0.4712,
      "step": 1328
    },
    {
      "epoch": 0.2434957860021986,
      "grad_norm": 0.36009711673291733,
      "learning_rate": 9.387558728916905e-06,
      "loss": 0.4728,
      "step": 1329
    },
    {
      "epoch": 0.2436790032979113,
      "grad_norm": 0.43571235014716525,
      "learning_rate": 9.386024274112842e-06,
      "loss": 0.4821,
      "step": 1330
    },
    {
      "epoch": 0.24386222059362403,
      "grad_norm": 0.3659773293799275,
      "learning_rate": 9.384488025178214e-06,
      "loss": 0.4572,
      "step": 1331
    },
    {
      "epoch": 0.24404543788933675,
      "grad_norm": 0.37704886297840073,
      "learning_rate": 9.382949982741429e-06,
      "loss": 0.4336,
      "step": 1332
    },
    {
      "epoch": 0.24422865518504946,
      "grad_norm": 0.4586883760808847,
      "learning_rate": 9.38141014743164e-06,
      "loss": 0.4783,
      "step": 1333
    },
    {
      "epoch": 0.24441187248076218,
      "grad_norm": 0.5054332600007021,
      "learning_rate": 9.379868519878718e-06,
      "loss": 0.4883,
      "step": 1334
    },
    {
      "epoch": 0.2445950897764749,
      "grad_norm": 0.3980887593736299,
      "learning_rate": 9.378325100713283e-06,
      "loss": 0.4865,
      "step": 1335
    },
    {
      "epoch": 0.24477830707218762,
      "grad_norm": 0.4215392454714871,
      "learning_rate": 9.376779890566675e-06,
      "loss": 0.5154,
      "step": 1336
    },
    {
      "epoch": 0.24496152436790034,
      "grad_norm": 0.42292016972151214,
      "learning_rate": 9.375232890070973e-06,
      "loss": 0.5184,
      "step": 1337
    },
    {
      "epoch": 0.24514474166361305,
      "grad_norm": 0.38508367690050965,
      "learning_rate": 9.373684099858989e-06,
      "loss": 0.5014,
      "step": 1338
    },
    {
      "epoch": 0.24532795895932577,
      "grad_norm": 0.4481685963998327,
      "learning_rate": 9.372133520564264e-06,
      "loss": 0.4831,
      "step": 1339
    },
    {
      "epoch": 0.2455111762550385,
      "grad_norm": 0.5247732605935221,
      "learning_rate": 9.37058115282107e-06,
      "loss": 0.5238,
      "step": 1340
    },
    {
      "epoch": 0.24569439355075118,
      "grad_norm": 0.3817180851569393,
      "learning_rate": 9.369026997264417e-06,
      "loss": 0.4513,
      "step": 1341
    },
    {
      "epoch": 0.2458776108464639,
      "grad_norm": 0.41437756480910404,
      "learning_rate": 9.36747105453004e-06,
      "loss": 0.4692,
      "step": 1342
    },
    {
      "epoch": 0.2460608281421766,
      "grad_norm": 0.45961904721533503,
      "learning_rate": 9.365913325254406e-06,
      "loss": 0.4824,
      "step": 1343
    },
    {
      "epoch": 0.24624404543788933,
      "grad_norm": 0.411323007740071,
      "learning_rate": 9.364353810074716e-06,
      "loss": 0.4767,
      "step": 1344
    },
    {
      "epoch": 0.24642726273360205,
      "grad_norm": 0.40884023238234113,
      "learning_rate": 9.362792509628897e-06,
      "loss": 0.5129,
      "step": 1345
    },
    {
      "epoch": 0.24661048002931477,
      "grad_norm": 0.4143220748874932,
      "learning_rate": 9.361229424555609e-06,
      "loss": 0.4969,
      "step": 1346
    },
    {
      "epoch": 0.24679369732502748,
      "grad_norm": 0.42312617400069397,
      "learning_rate": 9.359664555494244e-06,
      "loss": 0.4586,
      "step": 1347
    },
    {
      "epoch": 0.2469769146207402,
      "grad_norm": 0.476793297997145,
      "learning_rate": 9.35809790308492e-06,
      "loss": 0.4933,
      "step": 1348
    },
    {
      "epoch": 0.24716013191645292,
      "grad_norm": 0.42441332538018967,
      "learning_rate": 9.356529467968485e-06,
      "loss": 0.4588,
      "step": 1349
    },
    {
      "epoch": 0.24734334921216564,
      "grad_norm": 0.39138693081487125,
      "learning_rate": 9.354959250786519e-06,
      "loss": 0.4602,
      "step": 1350
    },
    {
      "epoch": 0.24752656650787835,
      "grad_norm": 0.44700626066197013,
      "learning_rate": 9.353387252181328e-06,
      "loss": 0.4954,
      "step": 1351
    },
    {
      "epoch": 0.24770978380359107,
      "grad_norm": 0.5055157069210112,
      "learning_rate": 9.351813472795947e-06,
      "loss": 0.4796,
      "step": 1352
    },
    {
      "epoch": 0.24789300109930376,
      "grad_norm": 0.45338574174735713,
      "learning_rate": 9.350237913274143e-06,
      "loss": 0.5119,
      "step": 1353
    },
    {
      "epoch": 0.24807621839501648,
      "grad_norm": 0.392746885183511,
      "learning_rate": 9.348660574260406e-06,
      "loss": 0.514,
      "step": 1354
    },
    {
      "epoch": 0.2482594356907292,
      "grad_norm": 0.4164788422614105,
      "learning_rate": 9.347081456399958e-06,
      "loss": 0.5089,
      "step": 1355
    },
    {
      "epoch": 0.24844265298644191,
      "grad_norm": 0.7070530239591771,
      "learning_rate": 9.345500560338745e-06,
      "loss": 0.4702,
      "step": 1356
    },
    {
      "epoch": 0.24862587028215463,
      "grad_norm": 0.4394194345754478,
      "learning_rate": 9.343917886723444e-06,
      "loss": 0.477,
      "step": 1357
    },
    {
      "epoch": 0.24880908757786735,
      "grad_norm": 0.42911702918417705,
      "learning_rate": 9.342333436201457e-06,
      "loss": 0.4923,
      "step": 1358
    },
    {
      "epoch": 0.24899230487358007,
      "grad_norm": 0.4470370063218885,
      "learning_rate": 9.340747209420913e-06,
      "loss": 0.5228,
      "step": 1359
    },
    {
      "epoch": 0.24917552216929278,
      "grad_norm": 0.4599577217037793,
      "learning_rate": 9.339159207030668e-06,
      "loss": 0.5182,
      "step": 1360
    },
    {
      "epoch": 0.2493587394650055,
      "grad_norm": 0.4405760361683581,
      "learning_rate": 9.337569429680306e-06,
      "loss": 0.5319,
      "step": 1361
    },
    {
      "epoch": 0.24954195676071822,
      "grad_norm": 0.4164050414490823,
      "learning_rate": 9.335977878020132e-06,
      "loss": 0.5231,
      "step": 1362
    },
    {
      "epoch": 0.24972517405643094,
      "grad_norm": 0.4968041900926753,
      "learning_rate": 9.334384552701183e-06,
      "loss": 0.5057,
      "step": 1363
    },
    {
      "epoch": 0.24990839135214366,
      "grad_norm": 0.40916476625199594,
      "learning_rate": 9.332789454375219e-06,
      "loss": 0.4936,
      "step": 1364
    },
    {
      "epoch": 0.25009160864785634,
      "grad_norm": 0.40707879703628913,
      "learning_rate": 9.331192583694722e-06,
      "loss": 0.4911,
      "step": 1365
    },
    {
      "epoch": 0.2502748259435691,
      "grad_norm": 0.36742835933618884,
      "learning_rate": 9.329593941312904e-06,
      "loss": 0.4697,
      "step": 1366
    },
    {
      "epoch": 0.2504580432392818,
      "grad_norm": 0.417024876859677,
      "learning_rate": 9.327993527883698e-06,
      "loss": 0.4726,
      "step": 1367
    },
    {
      "epoch": 0.2506412605349945,
      "grad_norm": 0.4039071282595343,
      "learning_rate": 9.326391344061767e-06,
      "loss": 0.4545,
      "step": 1368
    },
    {
      "epoch": 0.2508244778307072,
      "grad_norm": 0.5042927537180502,
      "learning_rate": 9.32478739050249e-06,
      "loss": 0.4994,
      "step": 1369
    },
    {
      "epoch": 0.25100769512641996,
      "grad_norm": 0.43157899355551005,
      "learning_rate": 9.323181667861976e-06,
      "loss": 0.5033,
      "step": 1370
    },
    {
      "epoch": 0.25119091242213265,
      "grad_norm": 0.4065168380531392,
      "learning_rate": 9.321574176797055e-06,
      "loss": 0.4767,
      "step": 1371
    },
    {
      "epoch": 0.25137412971784534,
      "grad_norm": 0.3698342286632864,
      "learning_rate": 9.31996491796528e-06,
      "loss": 0.4863,
      "step": 1372
    },
    {
      "epoch": 0.2515573470135581,
      "grad_norm": 0.43408179894940496,
      "learning_rate": 9.318353892024934e-06,
      "loss": 0.505,
      "step": 1373
    },
    {
      "epoch": 0.2517405643092708,
      "grad_norm": 0.39467414262175576,
      "learning_rate": 9.316741099635012e-06,
      "loss": 0.4922,
      "step": 1374
    },
    {
      "epoch": 0.2519237816049835,
      "grad_norm": 0.37099615952376014,
      "learning_rate": 9.315126541455237e-06,
      "loss": 0.4723,
      "step": 1375
    },
    {
      "epoch": 0.2521069989006962,
      "grad_norm": 0.40654704513015383,
      "learning_rate": 9.313510218146055e-06,
      "loss": 0.4858,
      "step": 1376
    },
    {
      "epoch": 0.25229021619640896,
      "grad_norm": 0.4320196580766476,
      "learning_rate": 9.311892130368636e-06,
      "loss": 0.4773,
      "step": 1377
    },
    {
      "epoch": 0.25247343349212165,
      "grad_norm": 0.4649358511506784,
      "learning_rate": 9.310272278784865e-06,
      "loss": 0.506,
      "step": 1378
    },
    {
      "epoch": 0.2526566507878344,
      "grad_norm": 0.37417265682881873,
      "learning_rate": 9.308650664057352e-06,
      "loss": 0.474,
      "step": 1379
    },
    {
      "epoch": 0.2528398680835471,
      "grad_norm": 0.3877983907225597,
      "learning_rate": 9.307027286849434e-06,
      "loss": 0.5005,
      "step": 1380
    },
    {
      "epoch": 0.2530230853792598,
      "grad_norm": 0.3604568123656264,
      "learning_rate": 9.305402147825155e-06,
      "loss": 0.4931,
      "step": 1381
    },
    {
      "epoch": 0.2532063026749725,
      "grad_norm": 0.4076431370889414,
      "learning_rate": 9.303775247649297e-06,
      "loss": 0.4781,
      "step": 1382
    },
    {
      "epoch": 0.2533895199706852,
      "grad_norm": 0.4125540102911716,
      "learning_rate": 9.302146586987347e-06,
      "loss": 0.489,
      "step": 1383
    },
    {
      "epoch": 0.25357273726639795,
      "grad_norm": 0.38688511296298134,
      "learning_rate": 9.300516166505523e-06,
      "loss": 0.4997,
      "step": 1384
    },
    {
      "epoch": 0.25375595456211064,
      "grad_norm": 0.3901423062453873,
      "learning_rate": 9.298883986870757e-06,
      "loss": 0.4599,
      "step": 1385
    },
    {
      "epoch": 0.2539391718578234,
      "grad_norm": 0.3963777690852405,
      "learning_rate": 9.297250048750702e-06,
      "loss": 0.5013,
      "step": 1386
    },
    {
      "epoch": 0.2541223891535361,
      "grad_norm": 0.42814597983549907,
      "learning_rate": 9.295614352813732e-06,
      "loss": 0.4841,
      "step": 1387
    },
    {
      "epoch": 0.2543056064492488,
      "grad_norm": 0.4342615131111368,
      "learning_rate": 9.293976899728936e-06,
      "loss": 0.4893,
      "step": 1388
    },
    {
      "epoch": 0.2544888237449615,
      "grad_norm": 0.3801898878490571,
      "learning_rate": 9.292337690166127e-06,
      "loss": 0.4921,
      "step": 1389
    },
    {
      "epoch": 0.25467204104067426,
      "grad_norm": 0.41610528591828644,
      "learning_rate": 9.290696724795833e-06,
      "loss": 0.5179,
      "step": 1390
    },
    {
      "epoch": 0.25485525833638695,
      "grad_norm": 0.4071057844053913,
      "learning_rate": 9.289054004289302e-06,
      "loss": 0.463,
      "step": 1391
    },
    {
      "epoch": 0.2550384756320997,
      "grad_norm": 0.44828293293160687,
      "learning_rate": 9.287409529318497e-06,
      "loss": 0.4899,
      "step": 1392
    },
    {
      "epoch": 0.2552216929278124,
      "grad_norm": 0.4044272763220796,
      "learning_rate": 9.285763300556101e-06,
      "loss": 0.5114,
      "step": 1393
    },
    {
      "epoch": 0.25540491022352513,
      "grad_norm": 0.4027954029425126,
      "learning_rate": 9.284115318675515e-06,
      "loss": 0.4706,
      "step": 1394
    },
    {
      "epoch": 0.2555881275192378,
      "grad_norm": 0.4318050133048906,
      "learning_rate": 9.282465584350856e-06,
      "loss": 0.4931,
      "step": 1395
    },
    {
      "epoch": 0.2557713448149505,
      "grad_norm": 0.39621664861383626,
      "learning_rate": 9.280814098256961e-06,
      "loss": 0.4561,
      "step": 1396
    },
    {
      "epoch": 0.25595456211066325,
      "grad_norm": 0.4720751749880995,
      "learning_rate": 9.279160861069376e-06,
      "loss": 0.4889,
      "step": 1397
    },
    {
      "epoch": 0.25613777940637594,
      "grad_norm": 0.47784125077057304,
      "learning_rate": 9.277505873464369e-06,
      "loss": 0.5292,
      "step": 1398
    },
    {
      "epoch": 0.2563209967020887,
      "grad_norm": 0.48714587413048666,
      "learning_rate": 9.275849136118926e-06,
      "loss": 0.4785,
      "step": 1399
    },
    {
      "epoch": 0.2565042139978014,
      "grad_norm": 0.403984192319981,
      "learning_rate": 9.274190649710743e-06,
      "loss": 0.5076,
      "step": 1400
    },
    {
      "epoch": 0.2566874312935141,
      "grad_norm": 0.39832914408918374,
      "learning_rate": 9.272530414918236e-06,
      "loss": 0.508,
      "step": 1401
    },
    {
      "epoch": 0.2568706485892268,
      "grad_norm": 0.4345591492942482,
      "learning_rate": 9.270868432420532e-06,
      "loss": 0.434,
      "step": 1402
    },
    {
      "epoch": 0.25705386588493956,
      "grad_norm": 0.38575416668818974,
      "learning_rate": 9.269204702897476e-06,
      "loss": 0.5123,
      "step": 1403
    },
    {
      "epoch": 0.25723708318065225,
      "grad_norm": 0.46248145640766813,
      "learning_rate": 9.267539227029628e-06,
      "loss": 0.462,
      "step": 1404
    },
    {
      "epoch": 0.257420300476365,
      "grad_norm": 0.41624325170317916,
      "learning_rate": 9.265872005498263e-06,
      "loss": 0.5224,
      "step": 1405
    },
    {
      "epoch": 0.2576035177720777,
      "grad_norm": 0.45537999223861836,
      "learning_rate": 9.264203038985362e-06,
      "loss": 0.4863,
      "step": 1406
    },
    {
      "epoch": 0.2577867350677904,
      "grad_norm": 0.41647722499814044,
      "learning_rate": 9.262532328173633e-06,
      "loss": 0.498,
      "step": 1407
    },
    {
      "epoch": 0.2579699523635031,
      "grad_norm": 0.39714530799054115,
      "learning_rate": 9.260859873746487e-06,
      "loss": 0.4874,
      "step": 1408
    },
    {
      "epoch": 0.2581531696592158,
      "grad_norm": 0.3703455263000783,
      "learning_rate": 9.259185676388053e-06,
      "loss": 0.4676,
      "step": 1409
    },
    {
      "epoch": 0.25833638695492855,
      "grad_norm": 0.40896486520452896,
      "learning_rate": 9.257509736783173e-06,
      "loss": 0.4972,
      "step": 1410
    },
    {
      "epoch": 0.25851960425064124,
      "grad_norm": 0.38349770802111716,
      "learning_rate": 9.2558320556174e-06,
      "loss": 0.4986,
      "step": 1411
    },
    {
      "epoch": 0.258702821546354,
      "grad_norm": 0.38845233640399973,
      "learning_rate": 9.254152633576996e-06,
      "loss": 0.4781,
      "step": 1412
    },
    {
      "epoch": 0.2588860388420667,
      "grad_norm": 0.4414806402475634,
      "learning_rate": 9.252471471348945e-06,
      "loss": 0.4998,
      "step": 1413
    },
    {
      "epoch": 0.2590692561377794,
      "grad_norm": 0.6508729529767923,
      "learning_rate": 9.250788569620933e-06,
      "loss": 0.4731,
      "step": 1414
    },
    {
      "epoch": 0.2592524734334921,
      "grad_norm": 0.3943363905618656,
      "learning_rate": 9.249103929081362e-06,
      "loss": 0.5024,
      "step": 1415
    },
    {
      "epoch": 0.25943569072920486,
      "grad_norm": 0.40856928097689554,
      "learning_rate": 9.247417550419347e-06,
      "loss": 0.5212,
      "step": 1416
    },
    {
      "epoch": 0.25961890802491755,
      "grad_norm": 0.441062293662255,
      "learning_rate": 9.245729434324708e-06,
      "loss": 0.4818,
      "step": 1417
    },
    {
      "epoch": 0.2598021253206303,
      "grad_norm": 0.3948984673415181,
      "learning_rate": 9.244039581487983e-06,
      "loss": 0.4666,
      "step": 1418
    },
    {
      "epoch": 0.259985342616343,
      "grad_norm": 0.3925260255665206,
      "learning_rate": 9.242347992600416e-06,
      "loss": 0.5116,
      "step": 1419
    },
    {
      "epoch": 0.2601685599120557,
      "grad_norm": 0.4304859621407188,
      "learning_rate": 9.24065466835396e-06,
      "loss": 0.4982,
      "step": 1420
    },
    {
      "epoch": 0.2603517772077684,
      "grad_norm": 0.40221018211406145,
      "learning_rate": 9.23895960944128e-06,
      "loss": 0.5005,
      "step": 1421
    },
    {
      "epoch": 0.2605349945034811,
      "grad_norm": 0.41700277900738475,
      "learning_rate": 9.237262816555755e-06,
      "loss": 0.5002,
      "step": 1422
    },
    {
      "epoch": 0.26071821179919386,
      "grad_norm": 0.4685774232060306,
      "learning_rate": 9.235564290391461e-06,
      "loss": 0.511,
      "step": 1423
    },
    {
      "epoch": 0.26090142909490655,
      "grad_norm": 0.43210491917117466,
      "learning_rate": 9.233864031643199e-06,
      "loss": 0.4969,
      "step": 1424
    },
    {
      "epoch": 0.2610846463906193,
      "grad_norm": 0.39899357606382013,
      "learning_rate": 9.232162041006463e-06,
      "loss": 0.5067,
      "step": 1425
    },
    {
      "epoch": 0.261267863686332,
      "grad_norm": 0.3914730405010264,
      "learning_rate": 9.230458319177467e-06,
      "loss": 0.4567,
      "step": 1426
    },
    {
      "epoch": 0.2614510809820447,
      "grad_norm": 0.4224757115631004,
      "learning_rate": 9.22875286685313e-06,
      "loss": 0.4878,
      "step": 1427
    },
    {
      "epoch": 0.2616342982777574,
      "grad_norm": 0.44070937438452384,
      "learning_rate": 9.227045684731075e-06,
      "loss": 0.4751,
      "step": 1428
    },
    {
      "epoch": 0.26181751557347016,
      "grad_norm": 0.41874124802141355,
      "learning_rate": 9.225336773509637e-06,
      "loss": 0.495,
      "step": 1429
    },
    {
      "epoch": 0.26200073286918285,
      "grad_norm": 0.39663369299149254,
      "learning_rate": 9.223626133887856e-06,
      "loss": 0.502,
      "step": 1430
    },
    {
      "epoch": 0.26218395016489554,
      "grad_norm": 0.3978403037913836,
      "learning_rate": 9.22191376656548e-06,
      "loss": 0.5057,
      "step": 1431
    },
    {
      "epoch": 0.2623671674606083,
      "grad_norm": 0.39621285816390917,
      "learning_rate": 9.220199672242965e-06,
      "loss": 0.4787,
      "step": 1432
    },
    {
      "epoch": 0.262550384756321,
      "grad_norm": 0.36823591327830396,
      "learning_rate": 9.218483851621469e-06,
      "loss": 0.4759,
      "step": 1433
    },
    {
      "epoch": 0.2627336020520337,
      "grad_norm": 0.40956001204846254,
      "learning_rate": 9.216766305402862e-06,
      "loss": 0.4992,
      "step": 1434
    },
    {
      "epoch": 0.2629168193477464,
      "grad_norm": 0.4909546794694869,
      "learning_rate": 9.215047034289716e-06,
      "loss": 0.4893,
      "step": 1435
    },
    {
      "epoch": 0.26310003664345916,
      "grad_norm": 0.38305868280097505,
      "learning_rate": 9.213326038985308e-06,
      "loss": 0.4998,
      "step": 1436
    },
    {
      "epoch": 0.26328325393917185,
      "grad_norm": 0.4506364554374671,
      "learning_rate": 9.211603320193624e-06,
      "loss": 0.5376,
      "step": 1437
    },
    {
      "epoch": 0.2634664712348846,
      "grad_norm": 0.4532783129632112,
      "learning_rate": 9.209878878619354e-06,
      "loss": 0.4792,
      "step": 1438
    },
    {
      "epoch": 0.2636496885305973,
      "grad_norm": 0.3927838537868758,
      "learning_rate": 9.208152714967888e-06,
      "loss": 0.4671,
      "step": 1439
    },
    {
      "epoch": 0.26383290582631,
      "grad_norm": 0.43211843791598387,
      "learning_rate": 9.206424829945326e-06,
      "loss": 0.5083,
      "step": 1440
    },
    {
      "epoch": 0.2640161231220227,
      "grad_norm": 0.4598413576241595,
      "learning_rate": 9.20469522425847e-06,
      "loss": 0.4946,
      "step": 1441
    },
    {
      "epoch": 0.2641993404177354,
      "grad_norm": 0.4087512250232026,
      "learning_rate": 9.202963898614825e-06,
      "loss": 0.5002,
      "step": 1442
    },
    {
      "epoch": 0.26438255771344815,
      "grad_norm": 0.4584659510926636,
      "learning_rate": 9.201230853722603e-06,
      "loss": 0.4979,
      "step": 1443
    },
    {
      "epoch": 0.26456577500916084,
      "grad_norm": 0.4088655212775404,
      "learning_rate": 9.199496090290713e-06,
      "loss": 0.5083,
      "step": 1444
    },
    {
      "epoch": 0.2647489923048736,
      "grad_norm": 0.39750766713674895,
      "learning_rate": 9.197759609028774e-06,
      "loss": 0.4447,
      "step": 1445
    },
    {
      "epoch": 0.2649322096005863,
      "grad_norm": 2.5841998747640154,
      "learning_rate": 9.196021410647104e-06,
      "loss": 0.4938,
      "step": 1446
    },
    {
      "epoch": 0.265115426896299,
      "grad_norm": 0.4352826266759048,
      "learning_rate": 9.194281495856724e-06,
      "loss": 0.4791,
      "step": 1447
    },
    {
      "epoch": 0.2652986441920117,
      "grad_norm": 0.4347966702352818,
      "learning_rate": 9.192539865369354e-06,
      "loss": 0.4713,
      "step": 1448
    },
    {
      "epoch": 0.26548186148772446,
      "grad_norm": 0.37418945105267554,
      "learning_rate": 9.190796519897423e-06,
      "loss": 0.4953,
      "step": 1449
    },
    {
      "epoch": 0.26566507878343715,
      "grad_norm": 0.45051341568089304,
      "learning_rate": 9.189051460154054e-06,
      "loss": 0.4844,
      "step": 1450
    },
    {
      "epoch": 0.2658482960791499,
      "grad_norm": 0.4213633340607822,
      "learning_rate": 9.187304686853078e-06,
      "loss": 0.4927,
      "step": 1451
    },
    {
      "epoch": 0.2660315133748626,
      "grad_norm": 0.4083049015051242,
      "learning_rate": 9.185556200709021e-06,
      "loss": 0.4819,
      "step": 1452
    },
    {
      "epoch": 0.26621473067057533,
      "grad_norm": 0.7665941590007657,
      "learning_rate": 9.183806002437112e-06,
      "loss": 0.5237,
      "step": 1453
    },
    {
      "epoch": 0.266397947966288,
      "grad_norm": 0.4231366399299115,
      "learning_rate": 9.182054092753281e-06,
      "loss": 0.5165,
      "step": 1454
    },
    {
      "epoch": 0.2665811652620007,
      "grad_norm": 0.3819742000154287,
      "learning_rate": 9.180300472374158e-06,
      "loss": 0.5068,
      "step": 1455
    },
    {
      "epoch": 0.26676438255771345,
      "grad_norm": 0.430881793871794,
      "learning_rate": 9.178545142017073e-06,
      "loss": 0.4855,
      "step": 1456
    },
    {
      "epoch": 0.26694759985342614,
      "grad_norm": 0.4120790750347018,
      "learning_rate": 9.176788102400053e-06,
      "loss": 0.4885,
      "step": 1457
    },
    {
      "epoch": 0.2671308171491389,
      "grad_norm": 0.4538815285108574,
      "learning_rate": 9.175029354241827e-06,
      "loss": 0.4863,
      "step": 1458
    },
    {
      "epoch": 0.2673140344448516,
      "grad_norm": 0.3830901020270506,
      "learning_rate": 9.173268898261822e-06,
      "loss": 0.4863,
      "step": 1459
    },
    {
      "epoch": 0.2674972517405643,
      "grad_norm": 0.4245356876119995,
      "learning_rate": 9.171506735180164e-06,
      "loss": 0.4711,
      "step": 1460
    },
    {
      "epoch": 0.267680469036277,
      "grad_norm": 0.47590664332011035,
      "learning_rate": 9.169742865717675e-06,
      "loss": 0.4902,
      "step": 1461
    },
    {
      "epoch": 0.26786368633198976,
      "grad_norm": 0.4472826376520853,
      "learning_rate": 9.167977290595879e-06,
      "loss": 0.4752,
      "step": 1462
    },
    {
      "epoch": 0.26804690362770245,
      "grad_norm": 0.45383853982527605,
      "learning_rate": 9.166210010536996e-06,
      "loss": 0.5041,
      "step": 1463
    },
    {
      "epoch": 0.2682301209234152,
      "grad_norm": 0.4349556389365925,
      "learning_rate": 9.164441026263939e-06,
      "loss": 0.4841,
      "step": 1464
    },
    {
      "epoch": 0.2684133382191279,
      "grad_norm": 0.3896144484943624,
      "learning_rate": 9.162670338500323e-06,
      "loss": 0.4691,
      "step": 1465
    },
    {
      "epoch": 0.2685965555148406,
      "grad_norm": 0.40828579323895614,
      "learning_rate": 9.160897947970463e-06,
      "loss": 0.5087,
      "step": 1466
    },
    {
      "epoch": 0.2687797728105533,
      "grad_norm": 0.44921268339324344,
      "learning_rate": 9.159123855399364e-06,
      "loss": 0.5205,
      "step": 1467
    },
    {
      "epoch": 0.268962990106266,
      "grad_norm": 0.3749973142689185,
      "learning_rate": 9.157348061512728e-06,
      "loss": 0.5054,
      "step": 1468
    },
    {
      "epoch": 0.26914620740197875,
      "grad_norm": 0.8460064155416173,
      "learning_rate": 9.155570567036956e-06,
      "loss": 0.504,
      "step": 1469
    },
    {
      "epoch": 0.26932942469769144,
      "grad_norm": 0.40099978049747603,
      "learning_rate": 9.153791372699141e-06,
      "loss": 0.5169,
      "step": 1470
    },
    {
      "epoch": 0.2695126419934042,
      "grad_norm": 0.399695867626504,
      "learning_rate": 9.152010479227078e-06,
      "loss": 0.4435,
      "step": 1471
    },
    {
      "epoch": 0.2696958592891169,
      "grad_norm": 0.4522941668627639,
      "learning_rate": 9.15022788734925e-06,
      "loss": 0.4892,
      "step": 1472
    },
    {
      "epoch": 0.2698790765848296,
      "grad_norm": 0.3907998733925797,
      "learning_rate": 9.148443597794839e-06,
      "loss": 0.4763,
      "step": 1473
    },
    {
      "epoch": 0.2700622938805423,
      "grad_norm": 0.3989688222157153,
      "learning_rate": 9.146657611293714e-06,
      "loss": 0.4907,
      "step": 1474
    },
    {
      "epoch": 0.27024551117625506,
      "grad_norm": 0.4158272717294187,
      "learning_rate": 9.144869928576451e-06,
      "loss": 0.4585,
      "step": 1475
    },
    {
      "epoch": 0.27042872847196775,
      "grad_norm": 0.4122595114642358,
      "learning_rate": 9.14308055037431e-06,
      "loss": 0.5156,
      "step": 1476
    },
    {
      "epoch": 0.2706119457676805,
      "grad_norm": 0.5428248637214301,
      "learning_rate": 9.141289477419246e-06,
      "loss": 0.5146,
      "step": 1477
    },
    {
      "epoch": 0.2707951630633932,
      "grad_norm": 0.4081668756027033,
      "learning_rate": 9.139496710443911e-06,
      "loss": 0.4962,
      "step": 1478
    },
    {
      "epoch": 0.2709783803591059,
      "grad_norm": 0.43919686618422127,
      "learning_rate": 9.137702250181646e-06,
      "loss": 0.5238,
      "step": 1479
    },
    {
      "epoch": 0.2711615976548186,
      "grad_norm": 0.4199352917649959,
      "learning_rate": 9.135906097366486e-06,
      "loss": 0.5171,
      "step": 1480
    },
    {
      "epoch": 0.2713448149505313,
      "grad_norm": 0.3812628825329553,
      "learning_rate": 9.134108252733159e-06,
      "loss": 0.4919,
      "step": 1481
    },
    {
      "epoch": 0.27152803224624406,
      "grad_norm": 0.4062350904486568,
      "learning_rate": 9.132308717017084e-06,
      "loss": 0.4827,
      "step": 1482
    },
    {
      "epoch": 0.27171124954195675,
      "grad_norm": 0.37649670407672037,
      "learning_rate": 9.130507490954375e-06,
      "loss": 0.4862,
      "step": 1483
    },
    {
      "epoch": 0.2718944668376695,
      "grad_norm": 0.39510364308925733,
      "learning_rate": 9.12870457528183e-06,
      "loss": 0.4695,
      "step": 1484
    },
    {
      "epoch": 0.2720776841333822,
      "grad_norm": 0.4412716554236446,
      "learning_rate": 9.126899970736947e-06,
      "loss": 0.4929,
      "step": 1485
    },
    {
      "epoch": 0.2722609014290949,
      "grad_norm": 0.37777764528277363,
      "learning_rate": 9.125093678057909e-06,
      "loss": 0.4965,
      "step": 1486
    },
    {
      "epoch": 0.2724441187248076,
      "grad_norm": 0.3701200088318955,
      "learning_rate": 9.12328569798359e-06,
      "loss": 0.4857,
      "step": 1487
    },
    {
      "epoch": 0.27262733602052036,
      "grad_norm": 0.4323306961731567,
      "learning_rate": 9.121476031253557e-06,
      "loss": 0.47,
      "step": 1488
    },
    {
      "epoch": 0.27281055331623305,
      "grad_norm": 0.40253559983281856,
      "learning_rate": 9.119664678608067e-06,
      "loss": 0.4474,
      "step": 1489
    },
    {
      "epoch": 0.27299377061194574,
      "grad_norm": 0.36316272808709116,
      "learning_rate": 9.117851640788064e-06,
      "loss": 0.4743,
      "step": 1490
    },
    {
      "epoch": 0.2731769879076585,
      "grad_norm": 0.39987807717863316,
      "learning_rate": 9.11603691853518e-06,
      "loss": 0.5074,
      "step": 1491
    },
    {
      "epoch": 0.2733602052033712,
      "grad_norm": 0.36775081110408747,
      "learning_rate": 9.11422051259174e-06,
      "loss": 0.4805,
      "step": 1492
    },
    {
      "epoch": 0.2735434224990839,
      "grad_norm": 0.41940289454678054,
      "learning_rate": 9.112402423700759e-06,
      "loss": 0.5071,
      "step": 1493
    },
    {
      "epoch": 0.2737266397947966,
      "grad_norm": 0.3883498469145558,
      "learning_rate": 9.110582652605934e-06,
      "loss": 0.4839,
      "step": 1494
    },
    {
      "epoch": 0.27390985709050936,
      "grad_norm": 0.40736107872427696,
      "learning_rate": 9.108761200051655e-06,
      "loss": 0.4769,
      "step": 1495
    },
    {
      "epoch": 0.27409307438622205,
      "grad_norm": 0.42145067923082186,
      "learning_rate": 9.106938066782998e-06,
      "loss": 0.5176,
      "step": 1496
    },
    {
      "epoch": 0.2742762916819348,
      "grad_norm": 0.4436513324175086,
      "learning_rate": 9.105113253545727e-06,
      "loss": 0.5185,
      "step": 1497
    },
    {
      "epoch": 0.2744595089776475,
      "grad_norm": 0.3692944363116775,
      "learning_rate": 9.103286761086294e-06,
      "loss": 0.4369,
      "step": 1498
    },
    {
      "epoch": 0.2746427262733602,
      "grad_norm": 0.4760665480063585,
      "learning_rate": 9.101458590151837e-06,
      "loss": 0.5006,
      "step": 1499
    },
    {
      "epoch": 0.2748259435690729,
      "grad_norm": 0.4079202639977091,
      "learning_rate": 9.099628741490179e-06,
      "loss": 0.486,
      "step": 1500
    },
    {
      "epoch": 0.27500916086478566,
      "grad_norm": 0.43182526673935,
      "learning_rate": 9.097797215849834e-06,
      "loss": 0.5081,
      "step": 1501
    },
    {
      "epoch": 0.27519237816049835,
      "grad_norm": 0.39431567471837187,
      "learning_rate": 9.095964013979998e-06,
      "loss": 0.4692,
      "step": 1502
    },
    {
      "epoch": 0.27537559545621104,
      "grad_norm": 0.4019693616622923,
      "learning_rate": 9.094129136630552e-06,
      "loss": 0.476,
      "step": 1503
    },
    {
      "epoch": 0.2755588127519238,
      "grad_norm": 0.4313498077896387,
      "learning_rate": 9.092292584552064e-06,
      "loss": 0.4775,
      "step": 1504
    },
    {
      "epoch": 0.2757420300476365,
      "grad_norm": 0.3604034259823722,
      "learning_rate": 9.09045435849579e-06,
      "loss": 0.497,
      "step": 1505
    },
    {
      "epoch": 0.2759252473433492,
      "grad_norm": 0.4981716823895217,
      "learning_rate": 9.088614459213665e-06,
      "loss": 0.5151,
      "step": 1506
    },
    {
      "epoch": 0.2761084646390619,
      "grad_norm": 0.42985286366030234,
      "learning_rate": 9.086772887458314e-06,
      "loss": 0.4724,
      "step": 1507
    },
    {
      "epoch": 0.27629168193477466,
      "grad_norm": 0.40646371473453785,
      "learning_rate": 9.08492964398304e-06,
      "loss": 0.4875,
      "step": 1508
    },
    {
      "epoch": 0.27647489923048735,
      "grad_norm": 0.3651071526478735,
      "learning_rate": 9.083084729541836e-06,
      "loss": 0.5,
      "step": 1509
    },
    {
      "epoch": 0.2766581165262001,
      "grad_norm": 0.49895693881998293,
      "learning_rate": 9.081238144889373e-06,
      "loss": 0.5184,
      "step": 1510
    },
    {
      "epoch": 0.2768413338219128,
      "grad_norm": 0.4128024780491911,
      "learning_rate": 9.079389890781011e-06,
      "loss": 0.4879,
      "step": 1511
    },
    {
      "epoch": 0.27702455111762553,
      "grad_norm": 0.41553878397064187,
      "learning_rate": 9.077539967972788e-06,
      "loss": 0.5132,
      "step": 1512
    },
    {
      "epoch": 0.2772077684133382,
      "grad_norm": 0.5023456269550239,
      "learning_rate": 9.075688377221428e-06,
      "loss": 0.5316,
      "step": 1513
    },
    {
      "epoch": 0.2773909857090509,
      "grad_norm": 0.42658543986166453,
      "learning_rate": 9.073835119284333e-06,
      "loss": 0.4954,
      "step": 1514
    },
    {
      "epoch": 0.27757420300476365,
      "grad_norm": 0.4257754248428276,
      "learning_rate": 9.071980194919592e-06,
      "loss": 0.4739,
      "step": 1515
    },
    {
      "epoch": 0.27775742030047634,
      "grad_norm": 0.36513061047252116,
      "learning_rate": 9.070123604885973e-06,
      "loss": 0.4666,
      "step": 1516
    },
    {
      "epoch": 0.2779406375961891,
      "grad_norm": 0.39730883326499855,
      "learning_rate": 9.068265349942926e-06,
      "loss": 0.4857,
      "step": 1517
    },
    {
      "epoch": 0.2781238548919018,
      "grad_norm": 0.4089832030333659,
      "learning_rate": 9.06640543085058e-06,
      "loss": 0.5033,
      "step": 1518
    },
    {
      "epoch": 0.2783070721876145,
      "grad_norm": 0.45930382348605114,
      "learning_rate": 9.064543848369749e-06,
      "loss": 0.5071,
      "step": 1519
    },
    {
      "epoch": 0.2784902894833272,
      "grad_norm": 0.420241795630585,
      "learning_rate": 9.062680603261923e-06,
      "loss": 0.4966,
      "step": 1520
    },
    {
      "epoch": 0.27867350677903996,
      "grad_norm": 0.45585947515287706,
      "learning_rate": 9.060815696289273e-06,
      "loss": 0.475,
      "step": 1521
    },
    {
      "epoch": 0.27885672407475265,
      "grad_norm": 0.37205804655379004,
      "learning_rate": 9.058949128214655e-06,
      "loss": 0.5017,
      "step": 1522
    },
    {
      "epoch": 0.2790399413704654,
      "grad_norm": 0.4529387207435349,
      "learning_rate": 9.057080899801598e-06,
      "loss": 0.482,
      "step": 1523
    },
    {
      "epoch": 0.2792231586661781,
      "grad_norm": 0.3712655517985857,
      "learning_rate": 9.055211011814312e-06,
      "loss": 0.458,
      "step": 1524
    },
    {
      "epoch": 0.27940637596189083,
      "grad_norm": 0.39642625126203734,
      "learning_rate": 9.053339465017685e-06,
      "loss": 0.4687,
      "step": 1525
    },
    {
      "epoch": 0.2795895932576035,
      "grad_norm": 0.4136774885883469,
      "learning_rate": 9.051466260177286e-06,
      "loss": 0.5088,
      "step": 1526
    },
    {
      "epoch": 0.2797728105533162,
      "grad_norm": 0.41134059761022984,
      "learning_rate": 9.049591398059364e-06,
      "loss": 0.4934,
      "step": 1527
    },
    {
      "epoch": 0.27995602784902895,
      "grad_norm": 0.42078398613472917,
      "learning_rate": 9.047714879430841e-06,
      "loss": 0.488,
      "step": 1528
    },
    {
      "epoch": 0.28013924514474164,
      "grad_norm": 0.3893031394642896,
      "learning_rate": 9.045836705059316e-06,
      "loss": 0.4787,
      "step": 1529
    },
    {
      "epoch": 0.2803224624404544,
      "grad_norm": 0.4093693977481649,
      "learning_rate": 9.043956875713071e-06,
      "loss": 0.5038,
      "step": 1530
    },
    {
      "epoch": 0.2805056797361671,
      "grad_norm": 0.39262539132038,
      "learning_rate": 9.042075392161062e-06,
      "loss": 0.4789,
      "step": 1531
    },
    {
      "epoch": 0.2806888970318798,
      "grad_norm": 0.45335811960346867,
      "learning_rate": 9.040192255172919e-06,
      "loss": 0.4875,
      "step": 1532
    },
    {
      "epoch": 0.2808721143275925,
      "grad_norm": 0.36503912559147556,
      "learning_rate": 9.038307465518954e-06,
      "loss": 0.477,
      "step": 1533
    },
    {
      "epoch": 0.28105533162330526,
      "grad_norm": 0.4257211312986204,
      "learning_rate": 9.03642102397015e-06,
      "loss": 0.469,
      "step": 1534
    },
    {
      "epoch": 0.28123854891901795,
      "grad_norm": 0.4252988723490824,
      "learning_rate": 9.034532931298169e-06,
      "loss": 0.4881,
      "step": 1535
    },
    {
      "epoch": 0.2814217662147307,
      "grad_norm": 0.40947075405147687,
      "learning_rate": 9.032643188275346e-06,
      "loss": 0.4943,
      "step": 1536
    },
    {
      "epoch": 0.2816049835104434,
      "grad_norm": 0.4104856496215327,
      "learning_rate": 9.030751795674693e-06,
      "loss": 0.5001,
      "step": 1537
    },
    {
      "epoch": 0.2817882008061561,
      "grad_norm": 0.4108489148032505,
      "learning_rate": 9.028858754269893e-06,
      "loss": 0.486,
      "step": 1538
    },
    {
      "epoch": 0.2819714181018688,
      "grad_norm": 0.400218515841904,
      "learning_rate": 9.026964064835312e-06,
      "loss": 0.4875,
      "step": 1539
    },
    {
      "epoch": 0.2821546353975815,
      "grad_norm": 0.392307962036209,
      "learning_rate": 9.02506772814598e-06,
      "loss": 0.4696,
      "step": 1540
    },
    {
      "epoch": 0.28233785269329426,
      "grad_norm": 0.39418249225011087,
      "learning_rate": 9.023169744977607e-06,
      "loss": 0.4944,
      "step": 1541
    },
    {
      "epoch": 0.28252106998900695,
      "grad_norm": 0.36881071138331667,
      "learning_rate": 9.021270116106574e-06,
      "loss": 0.458,
      "step": 1542
    },
    {
      "epoch": 0.2827042872847197,
      "grad_norm": 0.3604688853323364,
      "learning_rate": 9.019368842309937e-06,
      "loss": 0.4612,
      "step": 1543
    },
    {
      "epoch": 0.2828875045804324,
      "grad_norm": 0.43502584499562924,
      "learning_rate": 9.017465924365423e-06,
      "loss": 0.535,
      "step": 1544
    },
    {
      "epoch": 0.2830707218761451,
      "grad_norm": 0.3495743983793779,
      "learning_rate": 9.015561363051434e-06,
      "loss": 0.4884,
      "step": 1545
    },
    {
      "epoch": 0.2832539391718578,
      "grad_norm": 0.38746814328257545,
      "learning_rate": 9.01365515914704e-06,
      "loss": 0.4684,
      "step": 1546
    },
    {
      "epoch": 0.28343715646757056,
      "grad_norm": 0.42208621683162756,
      "learning_rate": 9.011747313431988e-06,
      "loss": 0.4894,
      "step": 1547
    },
    {
      "epoch": 0.28362037376328325,
      "grad_norm": 0.40174728758795464,
      "learning_rate": 9.009837826686693e-06,
      "loss": 0.4892,
      "step": 1548
    },
    {
      "epoch": 0.283803591058996,
      "grad_norm": 0.3804107018996848,
      "learning_rate": 9.007926699692244e-06,
      "loss": 0.4781,
      "step": 1549
    },
    {
      "epoch": 0.2839868083547087,
      "grad_norm": 0.4347596518542267,
      "learning_rate": 9.006013933230398e-06,
      "loss": 0.4735,
      "step": 1550
    },
    {
      "epoch": 0.2841700256504214,
      "grad_norm": 0.4121135548481947,
      "learning_rate": 9.004099528083583e-06,
      "loss": 0.4719,
      "step": 1551
    },
    {
      "epoch": 0.2843532429461341,
      "grad_norm": 0.44795396529132614,
      "learning_rate": 9.0021834850349e-06,
      "loss": 0.5099,
      "step": 1552
    },
    {
      "epoch": 0.2845364602418468,
      "grad_norm": 0.44372233437035424,
      "learning_rate": 9.000265804868118e-06,
      "loss": 0.4532,
      "step": 1553
    },
    {
      "epoch": 0.28471967753755956,
      "grad_norm": 0.37122246988181606,
      "learning_rate": 8.998346488367675e-06,
      "loss": 0.5031,
      "step": 1554
    },
    {
      "epoch": 0.28490289483327225,
      "grad_norm": 0.4132553844079889,
      "learning_rate": 8.996425536318683e-06,
      "loss": 0.4973,
      "step": 1555
    },
    {
      "epoch": 0.285086112128985,
      "grad_norm": 0.44678572881841533,
      "learning_rate": 8.994502949506914e-06,
      "loss": 0.4937,
      "step": 1556
    },
    {
      "epoch": 0.2852693294246977,
      "grad_norm": 0.3961645213095161,
      "learning_rate": 8.99257872871882e-06,
      "loss": 0.4917,
      "step": 1557
    },
    {
      "epoch": 0.2854525467204104,
      "grad_norm": 0.4068575794251254,
      "learning_rate": 8.99065287474151e-06,
      "loss": 0.5059,
      "step": 1558
    },
    {
      "epoch": 0.2856357640161231,
      "grad_norm": 0.3439421297681402,
      "learning_rate": 8.98872538836277e-06,
      "loss": 0.4943,
      "step": 1559
    },
    {
      "epoch": 0.28581898131183586,
      "grad_norm": 0.4072178672567339,
      "learning_rate": 8.986796270371047e-06,
      "loss": 0.4884,
      "step": 1560
    },
    {
      "epoch": 0.28600219860754855,
      "grad_norm": 0.42449273454289244,
      "learning_rate": 8.984865521555464e-06,
      "loss": 0.4875,
      "step": 1561
    },
    {
      "epoch": 0.28618541590326124,
      "grad_norm": 0.37613787684490696,
      "learning_rate": 8.9829331427058e-06,
      "loss": 0.4857,
      "step": 1562
    },
    {
      "epoch": 0.286368633198974,
      "grad_norm": 0.36486974332112687,
      "learning_rate": 8.980999134612512e-06,
      "loss": 0.5002,
      "step": 1563
    },
    {
      "epoch": 0.2865518504946867,
      "grad_norm": 0.38386234504756434,
      "learning_rate": 8.979063498066714e-06,
      "loss": 0.4885,
      "step": 1564
    },
    {
      "epoch": 0.2867350677903994,
      "grad_norm": 0.39062088012736546,
      "learning_rate": 8.977126233860193e-06,
      "loss": 0.4936,
      "step": 1565
    },
    {
      "epoch": 0.2869182850861121,
      "grad_norm": 0.4126575331178653,
      "learning_rate": 8.975187342785397e-06,
      "loss": 0.4903,
      "step": 1566
    },
    {
      "epoch": 0.28710150238182486,
      "grad_norm": 0.46684149874863134,
      "learning_rate": 8.973246825635441e-06,
      "loss": 0.527,
      "step": 1567
    },
    {
      "epoch": 0.28728471967753755,
      "grad_norm": 0.39335552791237355,
      "learning_rate": 8.97130468320411e-06,
      "loss": 0.4779,
      "step": 1568
    },
    {
      "epoch": 0.2874679369732503,
      "grad_norm": 0.4246548051800614,
      "learning_rate": 8.969360916285844e-06,
      "loss": 0.4815,
      "step": 1569
    },
    {
      "epoch": 0.287651154268963,
      "grad_norm": 0.44025612619503274,
      "learning_rate": 8.967415525675756e-06,
      "loss": 0.4371,
      "step": 1570
    },
    {
      "epoch": 0.28783437156467573,
      "grad_norm": 0.9703871617250511,
      "learning_rate": 8.96546851216962e-06,
      "loss": 0.4856,
      "step": 1571
    },
    {
      "epoch": 0.2880175888603884,
      "grad_norm": 0.49217374632039296,
      "learning_rate": 8.96351987656387e-06,
      "loss": 0.5087,
      "step": 1572
    },
    {
      "epoch": 0.28820080615610116,
      "grad_norm": 0.41378220482583816,
      "learning_rate": 8.961569619655615e-06,
      "loss": 0.4736,
      "step": 1573
    },
    {
      "epoch": 0.28838402345181385,
      "grad_norm": 0.4186462441272065,
      "learning_rate": 8.959617742242615e-06,
      "loss": 0.493,
      "step": 1574
    },
    {
      "epoch": 0.28856724074752654,
      "grad_norm": 0.3880931424436376,
      "learning_rate": 8.957664245123297e-06,
      "loss": 0.4844,
      "step": 1575
    },
    {
      "epoch": 0.2887504580432393,
      "grad_norm": 0.3741132383694949,
      "learning_rate": 8.955709129096752e-06,
      "loss": 0.4055,
      "step": 1576
    },
    {
      "epoch": 0.288933675338952,
      "grad_norm": 0.44863598418647255,
      "learning_rate": 8.953752394962736e-06,
      "loss": 0.5278,
      "step": 1577
    },
    {
      "epoch": 0.2891168926346647,
      "grad_norm": 0.3876273635035489,
      "learning_rate": 8.951794043521657e-06,
      "loss": 0.4859,
      "step": 1578
    },
    {
      "epoch": 0.2893001099303774,
      "grad_norm": 0.34806890820847197,
      "learning_rate": 8.949834075574595e-06,
      "loss": 0.4768,
      "step": 1579
    },
    {
      "epoch": 0.28948332722609016,
      "grad_norm": 0.4072445168776299,
      "learning_rate": 8.947872491923288e-06,
      "loss": 0.487,
      "step": 1580
    },
    {
      "epoch": 0.28966654452180285,
      "grad_norm": 0.4293336896066131,
      "learning_rate": 8.94590929337013e-06,
      "loss": 0.5008,
      "step": 1581
    },
    {
      "epoch": 0.2898497618175156,
      "grad_norm": 0.41128872476228806,
      "learning_rate": 8.943944480718184e-06,
      "loss": 0.51,
      "step": 1582
    },
    {
      "epoch": 0.2900329791132283,
      "grad_norm": 0.36929320177047475,
      "learning_rate": 8.941978054771165e-06,
      "loss": 0.5116,
      "step": 1583
    },
    {
      "epoch": 0.29021619640894103,
      "grad_norm": 0.3533069262895081,
      "learning_rate": 8.940010016333453e-06,
      "loss": 0.462,
      "step": 1584
    },
    {
      "epoch": 0.2903994137046537,
      "grad_norm": 0.4290477614884879,
      "learning_rate": 8.938040366210088e-06,
      "loss": 0.4886,
      "step": 1585
    },
    {
      "epoch": 0.2905826310003664,
      "grad_norm": 0.4049126999073717,
      "learning_rate": 8.936069105206767e-06,
      "loss": 0.488,
      "step": 1586
    },
    {
      "epoch": 0.29076584829607915,
      "grad_norm": 0.37625165658845383,
      "learning_rate": 8.934096234129843e-06,
      "loss": 0.4704,
      "step": 1587
    },
    {
      "epoch": 0.29094906559179184,
      "grad_norm": 0.4368199590248626,
      "learning_rate": 8.932121753786339e-06,
      "loss": 0.5089,
      "step": 1588
    },
    {
      "epoch": 0.2911322828875046,
      "grad_norm": 0.4293928339113946,
      "learning_rate": 8.930145664983921e-06,
      "loss": 0.4989,
      "step": 1589
    },
    {
      "epoch": 0.2913155001832173,
      "grad_norm": 0.362276762434061,
      "learning_rate": 8.928167968530921e-06,
      "loss": 0.4848,
      "step": 1590
    },
    {
      "epoch": 0.29149871747893,
      "grad_norm": 0.4545018284719774,
      "learning_rate": 8.926188665236334e-06,
      "loss": 0.5297,
      "step": 1591
    },
    {
      "epoch": 0.2916819347746427,
      "grad_norm": 0.4271204305866213,
      "learning_rate": 8.924207755909801e-06,
      "loss": 0.4635,
      "step": 1592
    },
    {
      "epoch": 0.29186515207035546,
      "grad_norm": 0.3895989149171432,
      "learning_rate": 8.922225241361629e-06,
      "loss": 0.4802,
      "step": 1593
    },
    {
      "epoch": 0.29204836936606815,
      "grad_norm": 0.36495793219351547,
      "learning_rate": 8.920241122402773e-06,
      "loss": 0.4963,
      "step": 1594
    },
    {
      "epoch": 0.2922315866617809,
      "grad_norm": 0.38869432485787914,
      "learning_rate": 8.918255399844855e-06,
      "loss": 0.4996,
      "step": 1595
    },
    {
      "epoch": 0.2924148039574936,
      "grad_norm": 0.4601922887324616,
      "learning_rate": 8.916268074500141e-06,
      "loss": 0.5025,
      "step": 1596
    },
    {
      "epoch": 0.2925980212532063,
      "grad_norm": 0.39205663001486896,
      "learning_rate": 8.914279147181564e-06,
      "loss": 0.4603,
      "step": 1597
    },
    {
      "epoch": 0.292781238548919,
      "grad_norm": 0.4013458043993565,
      "learning_rate": 8.912288618702706e-06,
      "loss": 0.487,
      "step": 1598
    },
    {
      "epoch": 0.2929644558446317,
      "grad_norm": 0.38939321801864035,
      "learning_rate": 8.910296489877803e-06,
      "loss": 0.5029,
      "step": 1599
    },
    {
      "epoch": 0.29314767314034446,
      "grad_norm": 0.35395541109470974,
      "learning_rate": 8.90830276152175e-06,
      "loss": 0.4551,
      "step": 1600
    },
    {
      "epoch": 0.29333089043605715,
      "grad_norm": 0.41856036352490694,
      "learning_rate": 8.906307434450092e-06,
      "loss": 0.4949,
      "step": 1601
    },
    {
      "epoch": 0.2935141077317699,
      "grad_norm": 0.5275243050289077,
      "learning_rate": 8.904310509479031e-06,
      "loss": 0.4961,
      "step": 1602
    },
    {
      "epoch": 0.2936973250274826,
      "grad_norm": 0.4742284206723536,
      "learning_rate": 8.902311987425422e-06,
      "loss": 0.5095,
      "step": 1603
    },
    {
      "epoch": 0.2938805423231953,
      "grad_norm": 0.3390894324421048,
      "learning_rate": 8.900311869106772e-06,
      "loss": 0.4675,
      "step": 1604
    },
    {
      "epoch": 0.294063759618908,
      "grad_norm": 0.39896932989796424,
      "learning_rate": 8.898310155341245e-06,
      "loss": 0.4819,
      "step": 1605
    },
    {
      "epoch": 0.29424697691462076,
      "grad_norm": 0.5410338815825568,
      "learning_rate": 8.896306846947649e-06,
      "loss": 0.5032,
      "step": 1606
    },
    {
      "epoch": 0.29443019421033345,
      "grad_norm": 0.4070700524177446,
      "learning_rate": 8.894301944745453e-06,
      "loss": 0.48,
      "step": 1607
    },
    {
      "epoch": 0.2946134115060462,
      "grad_norm": 0.42862296543081163,
      "learning_rate": 8.892295449554777e-06,
      "loss": 0.4605,
      "step": 1608
    },
    {
      "epoch": 0.2947966288017589,
      "grad_norm": 0.4287346890153464,
      "learning_rate": 8.890287362196385e-06,
      "loss": 0.485,
      "step": 1609
    },
    {
      "epoch": 0.2949798460974716,
      "grad_norm": 0.43250442423486146,
      "learning_rate": 8.888277683491701e-06,
      "loss": 0.4854,
      "step": 1610
    },
    {
      "epoch": 0.2951630633931843,
      "grad_norm": 0.49215086511267214,
      "learning_rate": 8.886266414262797e-06,
      "loss": 0.489,
      "step": 1611
    },
    {
      "epoch": 0.295346280688897,
      "grad_norm": 0.4186341465088225,
      "learning_rate": 8.884253555332393e-06,
      "loss": 0.5078,
      "step": 1612
    },
    {
      "epoch": 0.29552949798460976,
      "grad_norm": 0.4406315027714821,
      "learning_rate": 8.882239107523863e-06,
      "loss": 0.4937,
      "step": 1613
    },
    {
      "epoch": 0.29571271528032245,
      "grad_norm": 0.3726428857037365,
      "learning_rate": 8.88022307166123e-06,
      "loss": 0.453,
      "step": 1614
    },
    {
      "epoch": 0.2958959325760352,
      "grad_norm": 0.42821871054675215,
      "learning_rate": 8.878205448569163e-06,
      "loss": 0.4934,
      "step": 1615
    },
    {
      "epoch": 0.2960791498717479,
      "grad_norm": 0.3670484899531654,
      "learning_rate": 8.876186239072988e-06,
      "loss": 0.486,
      "step": 1616
    },
    {
      "epoch": 0.2962623671674606,
      "grad_norm": 0.34461787552049733,
      "learning_rate": 8.874165443998672e-06,
      "loss": 0.4761,
      "step": 1617
    },
    {
      "epoch": 0.2964455844631733,
      "grad_norm": 0.37867132917069235,
      "learning_rate": 8.872143064172834e-06,
      "loss": 0.4821,
      "step": 1618
    },
    {
      "epoch": 0.29662880175888606,
      "grad_norm": 0.3712153633078572,
      "learning_rate": 8.870119100422743e-06,
      "loss": 0.4931,
      "step": 1619
    },
    {
      "epoch": 0.29681201905459875,
      "grad_norm": 0.36684611413431756,
      "learning_rate": 8.86809355357631e-06,
      "loss": 0.4616,
      "step": 1620
    },
    {
      "epoch": 0.29699523635031144,
      "grad_norm": 0.38108459496354996,
      "learning_rate": 8.866066424462103e-06,
      "loss": 0.5118,
      "step": 1621
    },
    {
      "epoch": 0.2971784536460242,
      "grad_norm": 0.382915281692164,
      "learning_rate": 8.864037713909329e-06,
      "loss": 0.4564,
      "step": 1622
    },
    {
      "epoch": 0.2973616709417369,
      "grad_norm": 0.38365339546998406,
      "learning_rate": 8.862007422747842e-06,
      "loss": 0.516,
      "step": 1623
    },
    {
      "epoch": 0.2975448882374496,
      "grad_norm": 0.5453723638931661,
      "learning_rate": 8.85997555180815e-06,
      "loss": 0.4722,
      "step": 1624
    },
    {
      "epoch": 0.2977281055331623,
      "grad_norm": 0.38449352037816636,
      "learning_rate": 8.8579421019214e-06,
      "loss": 0.4583,
      "step": 1625
    },
    {
      "epoch": 0.29791132282887506,
      "grad_norm": 0.4091259949883011,
      "learning_rate": 8.855907073919388e-06,
      "loss": 0.5102,
      "step": 1626
    },
    {
      "epoch": 0.29809454012458775,
      "grad_norm": 0.46579655657632557,
      "learning_rate": 8.853870468634554e-06,
      "loss": 0.504,
      "step": 1627
    },
    {
      "epoch": 0.2982777574203005,
      "grad_norm": 0.34914615282378225,
      "learning_rate": 8.851832286899984e-06,
      "loss": 0.4809,
      "step": 1628
    },
    {
      "epoch": 0.2984609747160132,
      "grad_norm": 0.3465447713300964,
      "learning_rate": 8.84979252954941e-06,
      "loss": 0.4714,
      "step": 1629
    },
    {
      "epoch": 0.29864419201172593,
      "grad_norm": 0.36719763001696804,
      "learning_rate": 8.847751197417208e-06,
      "loss": 0.4856,
      "step": 1630
    },
    {
      "epoch": 0.2988274093074386,
      "grad_norm": 0.3954216747573634,
      "learning_rate": 8.845708291338396e-06,
      "loss": 0.4802,
      "step": 1631
    },
    {
      "epoch": 0.29901062660315136,
      "grad_norm": 0.40271380964660825,
      "learning_rate": 8.84366381214864e-06,
      "loss": 0.4788,
      "step": 1632
    },
    {
      "epoch": 0.29919384389886405,
      "grad_norm": 0.3751708327909397,
      "learning_rate": 8.841617760684242e-06,
      "loss": 0.4834,
      "step": 1633
    },
    {
      "epoch": 0.29937706119457674,
      "grad_norm": 0.36638025333362195,
      "learning_rate": 8.839570137782157e-06,
      "loss": 0.4451,
      "step": 1634
    },
    {
      "epoch": 0.2995602784902895,
      "grad_norm": 0.34260231840043137,
      "learning_rate": 8.837520944279976e-06,
      "loss": 0.4816,
      "step": 1635
    },
    {
      "epoch": 0.2997434957860022,
      "grad_norm": 0.41835359853675946,
      "learning_rate": 8.835470181015935e-06,
      "loss": 0.4657,
      "step": 1636
    },
    {
      "epoch": 0.2999267130817149,
      "grad_norm": 0.3853522103777551,
      "learning_rate": 8.833417848828912e-06,
      "loss": 0.4798,
      "step": 1637
    },
    {
      "epoch": 0.3001099303774276,
      "grad_norm": 0.4311087142185147,
      "learning_rate": 8.831363948558422e-06,
      "loss": 0.5055,
      "step": 1638
    },
    {
      "epoch": 0.30029314767314036,
      "grad_norm": 0.4121988474004896,
      "learning_rate": 8.829308481044631e-06,
      "loss": 0.4946,
      "step": 1639
    },
    {
      "epoch": 0.30047636496885305,
      "grad_norm": 0.39926874503164067,
      "learning_rate": 8.82725144712834e-06,
      "loss": 0.5105,
      "step": 1640
    },
    {
      "epoch": 0.3006595822645658,
      "grad_norm": 0.42930617786556713,
      "learning_rate": 8.82519284765099e-06,
      "loss": 0.4742,
      "step": 1641
    },
    {
      "epoch": 0.3008427995602785,
      "grad_norm": 0.4756153230731036,
      "learning_rate": 8.823132683454662e-06,
      "loss": 0.4858,
      "step": 1642
    },
    {
      "epoch": 0.30102601685599123,
      "grad_norm": 0.4105739310138263,
      "learning_rate": 8.821070955382082e-06,
      "loss": 0.4748,
      "step": 1643
    },
    {
      "epoch": 0.3012092341517039,
      "grad_norm": 0.42461593671764813,
      "learning_rate": 8.819007664276614e-06,
      "loss": 0.4747,
      "step": 1644
    },
    {
      "epoch": 0.3013924514474166,
      "grad_norm": 0.42619757195470465,
      "learning_rate": 8.816942810982258e-06,
      "loss": 0.4783,
      "step": 1645
    },
    {
      "epoch": 0.30157566874312935,
      "grad_norm": 0.441815860292698,
      "learning_rate": 8.814876396343655e-06,
      "loss": 0.4822,
      "step": 1646
    },
    {
      "epoch": 0.30175888603884204,
      "grad_norm": 0.39546125127248405,
      "learning_rate": 8.812808421206083e-06,
      "loss": 0.4751,
      "step": 1647
    },
    {
      "epoch": 0.3019421033345548,
      "grad_norm": 0.4039788211552708,
      "learning_rate": 8.810738886415464e-06,
      "loss": 0.4774,
      "step": 1648
    },
    {
      "epoch": 0.3021253206302675,
      "grad_norm": 0.4195550927374702,
      "learning_rate": 8.80866779281835e-06,
      "loss": 0.5184,
      "step": 1649
    },
    {
      "epoch": 0.3023085379259802,
      "grad_norm": 0.4410446432137119,
      "learning_rate": 8.80659514126194e-06,
      "loss": 0.52,
      "step": 1650
    },
    {
      "epoch": 0.3024917552216929,
      "grad_norm": 0.3910752829108485,
      "learning_rate": 8.804520932594061e-06,
      "loss": 0.4734,
      "step": 1651
    },
    {
      "epoch": 0.30267497251740566,
      "grad_norm": 0.4084027351750214,
      "learning_rate": 8.802445167663181e-06,
      "loss": 0.4906,
      "step": 1652
    },
    {
      "epoch": 0.30285818981311835,
      "grad_norm": 0.3779109317009322,
      "learning_rate": 8.800367847318407e-06,
      "loss": 0.4661,
      "step": 1653
    },
    {
      "epoch": 0.3030414071088311,
      "grad_norm": 0.4434368130901037,
      "learning_rate": 8.798288972409477e-06,
      "loss": 0.4956,
      "step": 1654
    },
    {
      "epoch": 0.3032246244045438,
      "grad_norm": 0.40653821037943955,
      "learning_rate": 8.79620854378677e-06,
      "loss": 0.5006,
      "step": 1655
    },
    {
      "epoch": 0.30340784170025653,
      "grad_norm": 0.40448780548308255,
      "learning_rate": 8.794126562301298e-06,
      "loss": 0.5131,
      "step": 1656
    },
    {
      "epoch": 0.3035910589959692,
      "grad_norm": 0.4185848391026118,
      "learning_rate": 8.792043028804706e-06,
      "loss": 0.4937,
      "step": 1657
    },
    {
      "epoch": 0.3037742762916819,
      "grad_norm": 0.43416404958296123,
      "learning_rate": 8.78995794414928e-06,
      "loss": 0.4927,
      "step": 1658
    },
    {
      "epoch": 0.30395749358739466,
      "grad_norm": 0.3941144660162759,
      "learning_rate": 8.787871309187936e-06,
      "loss": 0.4719,
      "step": 1659
    },
    {
      "epoch": 0.30414071088310735,
      "grad_norm": 0.37126342352995245,
      "learning_rate": 8.785783124774223e-06,
      "loss": 0.4722,
      "step": 1660
    },
    {
      "epoch": 0.3043239281788201,
      "grad_norm": 0.4103240007205328,
      "learning_rate": 8.783693391762328e-06,
      "loss": 0.4809,
      "step": 1661
    },
    {
      "epoch": 0.3045071454745328,
      "grad_norm": 0.4249044003852677,
      "learning_rate": 8.781602111007066e-06,
      "loss": 0.4626,
      "step": 1662
    },
    {
      "epoch": 0.3046903627702455,
      "grad_norm": 0.41638775694944496,
      "learning_rate": 8.779509283363894e-06,
      "loss": 0.4929,
      "step": 1663
    },
    {
      "epoch": 0.3048735800659582,
      "grad_norm": 0.3861009808325714,
      "learning_rate": 8.77741490968889e-06,
      "loss": 0.4706,
      "step": 1664
    },
    {
      "epoch": 0.30505679736167096,
      "grad_norm": 0.4284459852901781,
      "learning_rate": 8.775318990838775e-06,
      "loss": 0.542,
      "step": 1665
    },
    {
      "epoch": 0.30524001465738365,
      "grad_norm": 0.39067748379098055,
      "learning_rate": 8.773221527670896e-06,
      "loss": 0.4921,
      "step": 1666
    },
    {
      "epoch": 0.3054232319530964,
      "grad_norm": 0.4636902711928648,
      "learning_rate": 8.771122521043236e-06,
      "loss": 0.4847,
      "step": 1667
    },
    {
      "epoch": 0.3056064492488091,
      "grad_norm": 0.4041218634315,
      "learning_rate": 8.769021971814401e-06,
      "loss": 0.4865,
      "step": 1668
    },
    {
      "epoch": 0.3057896665445218,
      "grad_norm": 0.39459279955438104,
      "learning_rate": 8.766919880843639e-06,
      "loss": 0.519,
      "step": 1669
    },
    {
      "epoch": 0.3059728838402345,
      "grad_norm": 0.40128357110983964,
      "learning_rate": 8.764816248990822e-06,
      "loss": 0.4841,
      "step": 1670
    },
    {
      "epoch": 0.3061561011359472,
      "grad_norm": 0.36997768478257936,
      "learning_rate": 8.762711077116453e-06,
      "loss": 0.4771,
      "step": 1671
    },
    {
      "epoch": 0.30633931843165996,
      "grad_norm": 0.3480828562287117,
      "learning_rate": 8.760604366081665e-06,
      "loss": 0.4876,
      "step": 1672
    },
    {
      "epoch": 0.30652253572737265,
      "grad_norm": 0.417116733445613,
      "learning_rate": 8.758496116748221e-06,
      "loss": 0.4763,
      "step": 1673
    },
    {
      "epoch": 0.3067057530230854,
      "grad_norm": 0.38990995104925313,
      "learning_rate": 8.756386329978518e-06,
      "loss": 0.4952,
      "step": 1674
    },
    {
      "epoch": 0.3068889703187981,
      "grad_norm": 0.4102790428532168,
      "learning_rate": 8.754275006635573e-06,
      "loss": 0.4938,
      "step": 1675
    },
    {
      "epoch": 0.3070721876145108,
      "grad_norm": 0.44424837968994635,
      "learning_rate": 8.752162147583036e-06,
      "loss": 0.4862,
      "step": 1676
    },
    {
      "epoch": 0.3072554049102235,
      "grad_norm": 0.36829717881414353,
      "learning_rate": 8.750047753685188e-06,
      "loss": 0.4714,
      "step": 1677
    },
    {
      "epoch": 0.30743862220593626,
      "grad_norm": 0.39758875548969896,
      "learning_rate": 8.747931825806933e-06,
      "loss": 0.4832,
      "step": 1678
    },
    {
      "epoch": 0.30762183950164895,
      "grad_norm": 0.41272232708939577,
      "learning_rate": 8.745814364813806e-06,
      "loss": 0.4872,
      "step": 1679
    },
    {
      "epoch": 0.3078050567973617,
      "grad_norm": 0.3854030542482913,
      "learning_rate": 8.743695371571963e-06,
      "loss": 0.484,
      "step": 1680
    },
    {
      "epoch": 0.3079882740930744,
      "grad_norm": 0.36746498837241803,
      "learning_rate": 8.741574846948198e-06,
      "loss": 0.4711,
      "step": 1681
    },
    {
      "epoch": 0.3081714913887871,
      "grad_norm": 0.411804382886457,
      "learning_rate": 8.73945279180992e-06,
      "loss": 0.4759,
      "step": 1682
    },
    {
      "epoch": 0.3083547086844998,
      "grad_norm": 0.4026474390517101,
      "learning_rate": 8.737329207025172e-06,
      "loss": 0.502,
      "step": 1683
    },
    {
      "epoch": 0.3085379259802125,
      "grad_norm": 0.3639512942893561,
      "learning_rate": 8.735204093462617e-06,
      "loss": 0.4647,
      "step": 1684
    },
    {
      "epoch": 0.30872114327592526,
      "grad_norm": 0.4601114282657689,
      "learning_rate": 8.733077451991546e-06,
      "loss": 0.4794,
      "step": 1685
    },
    {
      "epoch": 0.30890436057163795,
      "grad_norm": 0.4029114065064777,
      "learning_rate": 8.730949283481877e-06,
      "loss": 0.4581,
      "step": 1686
    },
    {
      "epoch": 0.3090875778673507,
      "grad_norm": 0.47530481298922933,
      "learning_rate": 8.72881958880415e-06,
      "loss": 0.5358,
      "step": 1687
    },
    {
      "epoch": 0.3092707951630634,
      "grad_norm": 0.46546993084658045,
      "learning_rate": 8.72668836882953e-06,
      "loss": 0.508,
      "step": 1688
    },
    {
      "epoch": 0.30945401245877613,
      "grad_norm": 0.44880821238197843,
      "learning_rate": 8.724555624429805e-06,
      "loss": 0.494,
      "step": 1689
    },
    {
      "epoch": 0.3096372297544888,
      "grad_norm": 0.39081723015666026,
      "learning_rate": 8.722421356477389e-06,
      "loss": 0.4845,
      "step": 1690
    },
    {
      "epoch": 0.30982044705020156,
      "grad_norm": 0.3529090891828588,
      "learning_rate": 8.720285565845313e-06,
      "loss": 0.4672,
      "step": 1691
    },
    {
      "epoch": 0.31000366434591425,
      "grad_norm": 0.39898106739463174,
      "learning_rate": 8.718148253407242e-06,
      "loss": 0.458,
      "step": 1692
    },
    {
      "epoch": 0.31018688164162694,
      "grad_norm": 0.3651751506557362,
      "learning_rate": 8.716009420037452e-06,
      "loss": 0.4978,
      "step": 1693
    },
    {
      "epoch": 0.3103700989373397,
      "grad_norm": 0.360403523409843,
      "learning_rate": 8.713869066610847e-06,
      "loss": 0.489,
      "step": 1694
    },
    {
      "epoch": 0.3105533162330524,
      "grad_norm": 0.37968929495733417,
      "learning_rate": 8.711727194002955e-06,
      "loss": 0.493,
      "step": 1695
    },
    {
      "epoch": 0.3107365335287651,
      "grad_norm": 0.38561595360319445,
      "learning_rate": 8.709583803089919e-06,
      "loss": 0.4864,
      "step": 1696
    },
    {
      "epoch": 0.3109197508244778,
      "grad_norm": 0.3925407466954778,
      "learning_rate": 8.707438894748508e-06,
      "loss": 0.4592,
      "step": 1697
    },
    {
      "epoch": 0.31110296812019056,
      "grad_norm": 0.38697234703046507,
      "learning_rate": 8.70529246985611e-06,
      "loss": 0.506,
      "step": 1698
    },
    {
      "epoch": 0.31128618541590325,
      "grad_norm": 0.40545775127101236,
      "learning_rate": 8.703144529290733e-06,
      "loss": 0.498,
      "step": 1699
    },
    {
      "epoch": 0.311469402711616,
      "grad_norm": 0.35555366552450657,
      "learning_rate": 8.700995073931004e-06,
      "loss": 0.4838,
      "step": 1700
    },
    {
      "epoch": 0.3116526200073287,
      "grad_norm": 0.4022620468333227,
      "learning_rate": 8.698844104656175e-06,
      "loss": 0.4859,
      "step": 1701
    },
    {
      "epoch": 0.31183583730304143,
      "grad_norm": 0.4370267955102546,
      "learning_rate": 8.696691622346109e-06,
      "loss": 0.4821,
      "step": 1702
    },
    {
      "epoch": 0.3120190545987541,
      "grad_norm": 0.39148309791555397,
      "learning_rate": 8.694537627881296e-06,
      "loss": 0.4969,
      "step": 1703
    },
    {
      "epoch": 0.31220227189446687,
      "grad_norm": 0.4149560429420508,
      "learning_rate": 8.69238212214284e-06,
      "loss": 0.4833,
      "step": 1704
    },
    {
      "epoch": 0.31238548919017955,
      "grad_norm": 0.4012554167583925,
      "learning_rate": 8.690225106012462e-06,
      "loss": 0.4845,
      "step": 1705
    },
    {
      "epoch": 0.31256870648589224,
      "grad_norm": 0.3880778144850858,
      "learning_rate": 8.688066580372506e-06,
      "loss": 0.4402,
      "step": 1706
    },
    {
      "epoch": 0.312751923781605,
      "grad_norm": 0.3709906292066814,
      "learning_rate": 8.685906546105925e-06,
      "loss": 0.461,
      "step": 1707
    },
    {
      "epoch": 0.3129351410773177,
      "grad_norm": 0.4038618996987991,
      "learning_rate": 8.6837450040963e-06,
      "loss": 0.4952,
      "step": 1708
    },
    {
      "epoch": 0.3131183583730304,
      "grad_norm": 0.4498213583992615,
      "learning_rate": 8.681581955227823e-06,
      "loss": 0.463,
      "step": 1709
    },
    {
      "epoch": 0.3133015756687431,
      "grad_norm": 0.6063342768243897,
      "learning_rate": 8.6794174003853e-06,
      "loss": 0.4692,
      "step": 1710
    },
    {
      "epoch": 0.31348479296445586,
      "grad_norm": 0.393078000699868,
      "learning_rate": 8.677251340454155e-06,
      "loss": 0.477,
      "step": 1711
    },
    {
      "epoch": 0.31366801026016855,
      "grad_norm": 0.5208615924956094,
      "learning_rate": 8.67508377632043e-06,
      "loss": 0.4686,
      "step": 1712
    },
    {
      "epoch": 0.3138512275558813,
      "grad_norm": 0.4156650220868597,
      "learning_rate": 8.672914708870782e-06,
      "loss": 0.489,
      "step": 1713
    },
    {
      "epoch": 0.314034444851594,
      "grad_norm": 0.39229916132917864,
      "learning_rate": 8.67074413899248e-06,
      "loss": 0.4854,
      "step": 1714
    },
    {
      "epoch": 0.31421766214730673,
      "grad_norm": 0.3432761699669145,
      "learning_rate": 8.668572067573409e-06,
      "loss": 0.5026,
      "step": 1715
    },
    {
      "epoch": 0.3144008794430194,
      "grad_norm": 0.4024782274517547,
      "learning_rate": 8.666398495502068e-06,
      "loss": 0.5145,
      "step": 1716
    },
    {
      "epoch": 0.3145840967387321,
      "grad_norm": 0.4193753630351778,
      "learning_rate": 8.664223423667571e-06,
      "loss": 0.5072,
      "step": 1717
    },
    {
      "epoch": 0.31476731403444486,
      "grad_norm": 0.44033356668027723,
      "learning_rate": 8.662046852959644e-06,
      "loss": 0.4962,
      "step": 1718
    },
    {
      "epoch": 0.31495053133015755,
      "grad_norm": 0.4301457201335492,
      "learning_rate": 8.65986878426863e-06,
      "loss": 0.5034,
      "step": 1719
    },
    {
      "epoch": 0.3151337486258703,
      "grad_norm": 0.42488867042789086,
      "learning_rate": 8.657689218485476e-06,
      "loss": 0.5188,
      "step": 1720
    },
    {
      "epoch": 0.315316965921583,
      "grad_norm": 0.41341522328402974,
      "learning_rate": 8.65550815650175e-06,
      "loss": 0.5216,
      "step": 1721
    },
    {
      "epoch": 0.3155001832172957,
      "grad_norm": 0.3771662909597496,
      "learning_rate": 8.65332559920963e-06,
      "loss": 0.5106,
      "step": 1722
    },
    {
      "epoch": 0.3156834005130084,
      "grad_norm": 0.39212468702748254,
      "learning_rate": 8.651141547501904e-06,
      "loss": 0.4766,
      "step": 1723
    },
    {
      "epoch": 0.31586661780872116,
      "grad_norm": 0.36654865806495635,
      "learning_rate": 8.64895600227197e-06,
      "loss": 0.4802,
      "step": 1724
    },
    {
      "epoch": 0.31604983510443385,
      "grad_norm": 0.4065034981518445,
      "learning_rate": 8.64676896441384e-06,
      "loss": 0.5288,
      "step": 1725
    },
    {
      "epoch": 0.3162330524001466,
      "grad_norm": 0.3854499856808352,
      "learning_rate": 8.644580434822136e-06,
      "loss": 0.4699,
      "step": 1726
    },
    {
      "epoch": 0.3164162696958593,
      "grad_norm": 0.4057249078954745,
      "learning_rate": 8.64239041439209e-06,
      "loss": 0.4759,
      "step": 1727
    },
    {
      "epoch": 0.316599486991572,
      "grad_norm": 0.44500981118266,
      "learning_rate": 8.640198904019544e-06,
      "loss": 0.4822,
      "step": 1728
    },
    {
      "epoch": 0.3167827042872847,
      "grad_norm": 0.3896776477436031,
      "learning_rate": 8.638005904600948e-06,
      "loss": 0.49,
      "step": 1729
    },
    {
      "epoch": 0.3169659215829974,
      "grad_norm": 0.4432593842454478,
      "learning_rate": 8.635811417033361e-06,
      "loss": 0.4952,
      "step": 1730
    },
    {
      "epoch": 0.31714913887871016,
      "grad_norm": 0.38053644866499986,
      "learning_rate": 8.633615442214452e-06,
      "loss": 0.4579,
      "step": 1731
    },
    {
      "epoch": 0.31733235617442285,
      "grad_norm": 0.36140726326704303,
      "learning_rate": 8.6314179810425e-06,
      "loss": 0.469,
      "step": 1732
    },
    {
      "epoch": 0.3175155734701356,
      "grad_norm": 0.387898862687194,
      "learning_rate": 8.62921903441639e-06,
      "loss": 0.4903,
      "step": 1733
    },
    {
      "epoch": 0.3176987907658483,
      "grad_norm": 0.4221126995607179,
      "learning_rate": 8.627018603235613e-06,
      "loss": 0.4959,
      "step": 1734
    },
    {
      "epoch": 0.317882008061561,
      "grad_norm": 0.46009818640085887,
      "learning_rate": 8.624816688400271e-06,
      "loss": 0.4563,
      "step": 1735
    },
    {
      "epoch": 0.3180652253572737,
      "grad_norm": 0.4685918929067162,
      "learning_rate": 8.62261329081107e-06,
      "loss": 0.4714,
      "step": 1736
    },
    {
      "epoch": 0.31824844265298646,
      "grad_norm": 0.4412482439531488,
      "learning_rate": 8.620408411369323e-06,
      "loss": 0.5007,
      "step": 1737
    },
    {
      "epoch": 0.31843165994869915,
      "grad_norm": 0.4547503190879881,
      "learning_rate": 8.61820205097695e-06,
      "loss": 0.4581,
      "step": 1738
    },
    {
      "epoch": 0.3186148772444119,
      "grad_norm": 0.43395651034382204,
      "learning_rate": 8.615994210536479e-06,
      "loss": 0.49,
      "step": 1739
    },
    {
      "epoch": 0.3187980945401246,
      "grad_norm": 0.4428071176266843,
      "learning_rate": 8.613784890951036e-06,
      "loss": 0.4922,
      "step": 1740
    },
    {
      "epoch": 0.3189813118358373,
      "grad_norm": 0.40849265010723296,
      "learning_rate": 8.61157409312436e-06,
      "loss": 0.4743,
      "step": 1741
    },
    {
      "epoch": 0.31916452913155,
      "grad_norm": 0.42591237999179565,
      "learning_rate": 8.609361817960794e-06,
      "loss": 0.505,
      "step": 1742
    },
    {
      "epoch": 0.3193477464272627,
      "grad_norm": 0.46495694756695405,
      "learning_rate": 8.607148066365278e-06,
      "loss": 0.5111,
      "step": 1743
    },
    {
      "epoch": 0.31953096372297546,
      "grad_norm": 0.3979181415316983,
      "learning_rate": 8.604932839243363e-06,
      "loss": 0.4911,
      "step": 1744
    },
    {
      "epoch": 0.31971418101868815,
      "grad_norm": 0.47254311835047524,
      "learning_rate": 8.602716137501201e-06,
      "loss": 0.5059,
      "step": 1745
    },
    {
      "epoch": 0.3198973983144009,
      "grad_norm": 0.4110415786461455,
      "learning_rate": 8.600497962045551e-06,
      "loss": 0.4931,
      "step": 1746
    },
    {
      "epoch": 0.3200806156101136,
      "grad_norm": 0.448385298002212,
      "learning_rate": 8.598278313783765e-06,
      "loss": 0.4816,
      "step": 1747
    },
    {
      "epoch": 0.32026383290582633,
      "grad_norm": 0.564876624397995,
      "learning_rate": 8.59605719362381e-06,
      "loss": 0.4949,
      "step": 1748
    },
    {
      "epoch": 0.320447050201539,
      "grad_norm": 0.35471940765133153,
      "learning_rate": 8.593834602474248e-06,
      "loss": 0.4794,
      "step": 1749
    },
    {
      "epoch": 0.32063026749725176,
      "grad_norm": 0.4192300945251544,
      "learning_rate": 8.59161054124424e-06,
      "loss": 0.4519,
      "step": 1750
    },
    {
      "epoch": 0.32081348479296445,
      "grad_norm": 0.5038523389603609,
      "learning_rate": 8.589385010843557e-06,
      "loss": 0.4729,
      "step": 1751
    },
    {
      "epoch": 0.32099670208867714,
      "grad_norm": 0.7356309775332599,
      "learning_rate": 8.587158012182561e-06,
      "loss": 0.5082,
      "step": 1752
    },
    {
      "epoch": 0.3211799193843899,
      "grad_norm": 0.3818652835002793,
      "learning_rate": 8.584929546172224e-06,
      "loss": 0.4756,
      "step": 1753
    },
    {
      "epoch": 0.3213631366801026,
      "grad_norm": 0.4435070016683062,
      "learning_rate": 8.582699613724111e-06,
      "loss": 0.5102,
      "step": 1754
    },
    {
      "epoch": 0.3215463539758153,
      "grad_norm": 0.5377483293815659,
      "learning_rate": 8.580468215750392e-06,
      "loss": 0.4844,
      "step": 1755
    },
    {
      "epoch": 0.321729571271528,
      "grad_norm": 0.4451665769582748,
      "learning_rate": 8.578235353163832e-06,
      "loss": 0.4617,
      "step": 1756
    },
    {
      "epoch": 0.32191278856724076,
      "grad_norm": 0.4135616911329195,
      "learning_rate": 8.576001026877802e-06,
      "loss": 0.4919,
      "step": 1757
    },
    {
      "epoch": 0.32209600586295345,
      "grad_norm": 0.4319033591486567,
      "learning_rate": 8.573765237806262e-06,
      "loss": 0.4699,
      "step": 1758
    },
    {
      "epoch": 0.3222792231586662,
      "grad_norm": 0.37755085037719216,
      "learning_rate": 8.571527986863775e-06,
      "loss": 0.4816,
      "step": 1759
    },
    {
      "epoch": 0.3224624404543789,
      "grad_norm": 0.3515458496554082,
      "learning_rate": 8.569289274965507e-06,
      "loss": 0.4742,
      "step": 1760
    },
    {
      "epoch": 0.32264565775009163,
      "grad_norm": 0.4448770787291807,
      "learning_rate": 8.567049103027215e-06,
      "loss": 0.498,
      "step": 1761
    },
    {
      "epoch": 0.3228288750458043,
      "grad_norm": 0.3941180324286139,
      "learning_rate": 8.564807471965253e-06,
      "loss": 0.5405,
      "step": 1762
    },
    {
      "epoch": 0.32301209234151707,
      "grad_norm": 0.3435676251293926,
      "learning_rate": 8.562564382696578e-06,
      "loss": 0.4743,
      "step": 1763
    },
    {
      "epoch": 0.32319530963722976,
      "grad_norm": 0.37988171856202396,
      "learning_rate": 8.560319836138737e-06,
      "loss": 0.4674,
      "step": 1764
    },
    {
      "epoch": 0.32337852693294244,
      "grad_norm": 0.3836135165007263,
      "learning_rate": 8.558073833209878e-06,
      "loss": 0.4519,
      "step": 1765
    },
    {
      "epoch": 0.3235617442286552,
      "grad_norm": 0.39708836154368815,
      "learning_rate": 8.555826374828737e-06,
      "loss": 0.4669,
      "step": 1766
    },
    {
      "epoch": 0.3237449615243679,
      "grad_norm": 0.3771156156458366,
      "learning_rate": 8.553577461914658e-06,
      "loss": 0.4518,
      "step": 1767
    },
    {
      "epoch": 0.3239281788200806,
      "grad_norm": 0.3598271555441401,
      "learning_rate": 8.55132709538757e-06,
      "loss": 0.4729,
      "step": 1768
    },
    {
      "epoch": 0.3241113961157933,
      "grad_norm": 0.3951522532510331,
      "learning_rate": 8.549075276167999e-06,
      "loss": 0.4848,
      "step": 1769
    },
    {
      "epoch": 0.32429461341150606,
      "grad_norm": 0.4147560955415563,
      "learning_rate": 8.546822005177065e-06,
      "loss": 0.5051,
      "step": 1770
    },
    {
      "epoch": 0.32447783070721875,
      "grad_norm": 0.37548763357253123,
      "learning_rate": 8.544567283336484e-06,
      "loss": 0.4887,
      "step": 1771
    },
    {
      "epoch": 0.3246610480029315,
      "grad_norm": 0.3562817695493491,
      "learning_rate": 8.542311111568564e-06,
      "loss": 0.4627,
      "step": 1772
    },
    {
      "epoch": 0.3248442652986442,
      "grad_norm": 0.3403427009030267,
      "learning_rate": 8.540053490796204e-06,
      "loss": 0.498,
      "step": 1773
    },
    {
      "epoch": 0.32502748259435693,
      "grad_norm": 0.3618093246911228,
      "learning_rate": 8.5377944219429e-06,
      "loss": 0.4711,
      "step": 1774
    },
    {
      "epoch": 0.3252106998900696,
      "grad_norm": 0.37156147331448447,
      "learning_rate": 8.535533905932739e-06,
      "loss": 0.4914,
      "step": 1775
    },
    {
      "epoch": 0.3253939171857823,
      "grad_norm": 0.4104697698807329,
      "learning_rate": 8.533271943690397e-06,
      "loss": 0.4926,
      "step": 1776
    },
    {
      "epoch": 0.32557713448149506,
      "grad_norm": 0.4221079282420862,
      "learning_rate": 8.531008536141143e-06,
      "loss": 0.494,
      "step": 1777
    },
    {
      "epoch": 0.32576035177720775,
      "grad_norm": 0.44238661768749327,
      "learning_rate": 8.528743684210842e-06,
      "loss": 0.4679,
      "step": 1778
    },
    {
      "epoch": 0.3259435690729205,
      "grad_norm": 0.37351954296984535,
      "learning_rate": 8.52647738882594e-06,
      "loss": 0.4743,
      "step": 1779
    },
    {
      "epoch": 0.3261267863686332,
      "grad_norm": 0.39302981254445146,
      "learning_rate": 8.524209650913487e-06,
      "loss": 0.4817,
      "step": 1780
    },
    {
      "epoch": 0.3263100036643459,
      "grad_norm": 0.3421628958137739,
      "learning_rate": 8.521940471401106e-06,
      "loss": 0.4663,
      "step": 1781
    },
    {
      "epoch": 0.3264932209600586,
      "grad_norm": 0.5533622907062358,
      "learning_rate": 8.519669851217028e-06,
      "loss": 0.4918,
      "step": 1782
    },
    {
      "epoch": 0.32667643825577136,
      "grad_norm": 0.3970061640019179,
      "learning_rate": 8.517397791290059e-06,
      "loss": 0.4914,
      "step": 1783
    },
    {
      "epoch": 0.32685965555148405,
      "grad_norm": 0.435520424701832,
      "learning_rate": 8.5151242925496e-06,
      "loss": 0.5093,
      "step": 1784
    },
    {
      "epoch": 0.3270428728471968,
      "grad_norm": 0.3465454680201401,
      "learning_rate": 8.512849355925641e-06,
      "loss": 0.4718,
      "step": 1785
    },
    {
      "epoch": 0.3272260901429095,
      "grad_norm": 0.4166371179539154,
      "learning_rate": 8.510572982348759e-06,
      "loss": 0.508,
      "step": 1786
    },
    {
      "epoch": 0.32740930743862223,
      "grad_norm": 0.4192663642287507,
      "learning_rate": 8.508295172750116e-06,
      "loss": 0.4802,
      "step": 1787
    },
    {
      "epoch": 0.3275925247343349,
      "grad_norm": 0.3935083715874497,
      "learning_rate": 8.506015928061468e-06,
      "loss": 0.4748,
      "step": 1788
    },
    {
      "epoch": 0.3277757420300476,
      "grad_norm": 0.4149102123371367,
      "learning_rate": 8.50373524921515e-06,
      "loss": 0.4927,
      "step": 1789
    },
    {
      "epoch": 0.32795895932576036,
      "grad_norm": 0.3867478956169408,
      "learning_rate": 8.501453137144093e-06,
      "loss": 0.5062,
      "step": 1790
    },
    {
      "epoch": 0.32814217662147305,
      "grad_norm": 0.4017651304087876,
      "learning_rate": 8.499169592781807e-06,
      "loss": 0.5199,
      "step": 1791
    },
    {
      "epoch": 0.3283253939171858,
      "grad_norm": 0.365617732104251,
      "learning_rate": 8.496884617062389e-06,
      "loss": 0.4777,
      "step": 1792
    },
    {
      "epoch": 0.3285086112128985,
      "grad_norm": 0.5935783428527378,
      "learning_rate": 8.494598210920522e-06,
      "loss": 0.5327,
      "step": 1793
    },
    {
      "epoch": 0.32869182850861123,
      "grad_norm": 0.4461319964673768,
      "learning_rate": 8.492310375291478e-06,
      "loss": 0.4783,
      "step": 1794
    },
    {
      "epoch": 0.3288750458043239,
      "grad_norm": 0.4548047555505239,
      "learning_rate": 8.490021111111108e-06,
      "loss": 0.4793,
      "step": 1795
    },
    {
      "epoch": 0.32905826310003666,
      "grad_norm": 0.3837539231745361,
      "learning_rate": 8.48773041931585e-06,
      "loss": 0.4656,
      "step": 1796
    },
    {
      "epoch": 0.32924148039574935,
      "grad_norm": 0.38081008240354797,
      "learning_rate": 8.485438300842725e-06,
      "loss": 0.4538,
      "step": 1797
    },
    {
      "epoch": 0.3294246976914621,
      "grad_norm": 0.381006774669353,
      "learning_rate": 8.483144756629342e-06,
      "loss": 0.4678,
      "step": 1798
    },
    {
      "epoch": 0.3296079149871748,
      "grad_norm": 4.393546461902215,
      "learning_rate": 8.480849787613883e-06,
      "loss": 0.48,
      "step": 1799
    },
    {
      "epoch": 0.3297911322828875,
      "grad_norm": 0.4216378380286295,
      "learning_rate": 8.478553394735126e-06,
      "loss": 0.4664,
      "step": 1800
    },
    {
      "epoch": 0.3299743495786002,
      "grad_norm": 0.40689364633375075,
      "learning_rate": 8.47625557893242e-06,
      "loss": 0.4687,
      "step": 1801
    },
    {
      "epoch": 0.3301575668743129,
      "grad_norm": 0.4232729156542768,
      "learning_rate": 8.473956341145706e-06,
      "loss": 0.4684,
      "step": 1802
    },
    {
      "epoch": 0.33034078417002566,
      "grad_norm": 0.4289741259876096,
      "learning_rate": 8.471655682315496e-06,
      "loss": 0.4716,
      "step": 1803
    },
    {
      "epoch": 0.33052400146573835,
      "grad_norm": 0.5275080199063381,
      "learning_rate": 8.469353603382892e-06,
      "loss": 0.4757,
      "step": 1804
    },
    {
      "epoch": 0.3307072187614511,
      "grad_norm": 0.43974415262075855,
      "learning_rate": 8.467050105289572e-06,
      "loss": 0.4865,
      "step": 1805
    },
    {
      "epoch": 0.3308904360571638,
      "grad_norm": 0.4814298309864084,
      "learning_rate": 8.4647451889778e-06,
      "loss": 0.4797,
      "step": 1806
    },
    {
      "epoch": 0.33107365335287653,
      "grad_norm": 0.42391918940288414,
      "learning_rate": 8.462438855390409e-06,
      "loss": 0.4823,
      "step": 1807
    },
    {
      "epoch": 0.3312568706485892,
      "grad_norm": 0.3665799179835301,
      "learning_rate": 8.460131105470829e-06,
      "loss": 0.4649,
      "step": 1808
    },
    {
      "epoch": 0.33144008794430196,
      "grad_norm": 0.4035555626403075,
      "learning_rate": 8.45782194016305e-06,
      "loss": 0.4758,
      "step": 1809
    },
    {
      "epoch": 0.33162330524001465,
      "grad_norm": 0.4425161709111113,
      "learning_rate": 8.455511360411657e-06,
      "loss": 0.4961,
      "step": 1810
    },
    {
      "epoch": 0.3318065225357274,
      "grad_norm": 0.4297733230595355,
      "learning_rate": 8.453199367161804e-06,
      "loss": 0.4801,
      "step": 1811
    },
    {
      "epoch": 0.3319897398314401,
      "grad_norm": 0.407563982418168,
      "learning_rate": 8.450885961359227e-06,
      "loss": 0.5109,
      "step": 1812
    },
    {
      "epoch": 0.3321729571271528,
      "grad_norm": 0.40167352725847427,
      "learning_rate": 8.448571143950239e-06,
      "loss": 0.5056,
      "step": 1813
    },
    {
      "epoch": 0.3323561744228655,
      "grad_norm": 0.41581106857716255,
      "learning_rate": 8.446254915881733e-06,
      "loss": 0.4432,
      "step": 1814
    },
    {
      "epoch": 0.3325393917185782,
      "grad_norm": 0.42034315457885957,
      "learning_rate": 8.443937278101171e-06,
      "loss": 0.5129,
      "step": 1815
    },
    {
      "epoch": 0.33272260901429096,
      "grad_norm": 0.49697266318929034,
      "learning_rate": 8.441618231556604e-06,
      "loss": 0.4914,
      "step": 1816
    },
    {
      "epoch": 0.33290582631000365,
      "grad_norm": 0.45473540523372535,
      "learning_rate": 8.439297777196645e-06,
      "loss": 0.5046,
      "step": 1817
    },
    {
      "epoch": 0.3330890436057164,
      "grad_norm": 0.38498739235497825,
      "learning_rate": 8.436975915970496e-06,
      "loss": 0.5125,
      "step": 1818
    },
    {
      "epoch": 0.3332722609014291,
      "grad_norm": 0.3856310516540707,
      "learning_rate": 8.434652648827925e-06,
      "loss": 0.4877,
      "step": 1819
    },
    {
      "epoch": 0.33345547819714183,
      "grad_norm": 0.3545408916699545,
      "learning_rate": 8.432327976719281e-06,
      "loss": 0.4819,
      "step": 1820
    },
    {
      "epoch": 0.3336386954928545,
      "grad_norm": 0.3816671046542913,
      "learning_rate": 8.430001900595487e-06,
      "loss": 0.5074,
      "step": 1821
    },
    {
      "epoch": 0.33382191278856727,
      "grad_norm": 0.4236478252674396,
      "learning_rate": 8.427674421408037e-06,
      "loss": 0.4746,
      "step": 1822
    },
    {
      "epoch": 0.33400513008427996,
      "grad_norm": 0.4093466909489272,
      "learning_rate": 8.425345540109e-06,
      "loss": 0.4727,
      "step": 1823
    },
    {
      "epoch": 0.33418834737999265,
      "grad_norm": 0.37909373859606427,
      "learning_rate": 8.423015257651022e-06,
      "loss": 0.482,
      "step": 1824
    },
    {
      "epoch": 0.3343715646757054,
      "grad_norm": 0.3801638934135252,
      "learning_rate": 8.420683574987319e-06,
      "loss": 0.4763,
      "step": 1825
    },
    {
      "epoch": 0.3345547819714181,
      "grad_norm": 1.0336015888999988,
      "learning_rate": 8.418350493071677e-06,
      "loss": 0.4797,
      "step": 1826
    },
    {
      "epoch": 0.3347379992671308,
      "grad_norm": 0.35984342130185926,
      "learning_rate": 8.41601601285846e-06,
      "loss": 0.4868,
      "step": 1827
    },
    {
      "epoch": 0.3349212165628435,
      "grad_norm": 0.3550613764764406,
      "learning_rate": 8.413680135302604e-06,
      "loss": 0.4706,
      "step": 1828
    },
    {
      "epoch": 0.33510443385855626,
      "grad_norm": 0.3623869235380865,
      "learning_rate": 8.411342861359612e-06,
      "loss": 0.4602,
      "step": 1829
    },
    {
      "epoch": 0.33528765115426895,
      "grad_norm": 0.4364870755091544,
      "learning_rate": 8.40900419198556e-06,
      "loss": 0.4832,
      "step": 1830
    },
    {
      "epoch": 0.3354708684499817,
      "grad_norm": 0.4636618121853265,
      "learning_rate": 8.406664128137095e-06,
      "loss": 0.453,
      "step": 1831
    },
    {
      "epoch": 0.3356540857456944,
      "grad_norm": 0.36221754354794844,
      "learning_rate": 8.404322670771436e-06,
      "loss": 0.4849,
      "step": 1832
    },
    {
      "epoch": 0.33583730304140713,
      "grad_norm": 0.39602504845526065,
      "learning_rate": 8.40197982084637e-06,
      "loss": 0.4755,
      "step": 1833
    },
    {
      "epoch": 0.3360205203371198,
      "grad_norm": 0.4091319003361619,
      "learning_rate": 8.399635579320259e-06,
      "loss": 0.5015,
      "step": 1834
    },
    {
      "epoch": 0.33620373763283257,
      "grad_norm": 0.3415400300998229,
      "learning_rate": 8.397289947152021e-06,
      "loss": 0.4645,
      "step": 1835
    },
    {
      "epoch": 0.33638695492854526,
      "grad_norm": 0.4295090419145507,
      "learning_rate": 8.394942925301155e-06,
      "loss": 0.4385,
      "step": 1836
    },
    {
      "epoch": 0.33657017222425795,
      "grad_norm": 0.3919892057064269,
      "learning_rate": 8.392594514727728e-06,
      "loss": 0.5009,
      "step": 1837
    },
    {
      "epoch": 0.3367533895199707,
      "grad_norm": 0.4276728302114804,
      "learning_rate": 8.390244716392369e-06,
      "loss": 0.5113,
      "step": 1838
    },
    {
      "epoch": 0.3369366068156834,
      "grad_norm": 0.4027722155599858,
      "learning_rate": 8.387893531256278e-06,
      "loss": 0.4825,
      "step": 1839
    },
    {
      "epoch": 0.3371198241113961,
      "grad_norm": 0.34856854492446304,
      "learning_rate": 8.385540960281223e-06,
      "loss": 0.4614,
      "step": 1840
    },
    {
      "epoch": 0.3373030414071088,
      "grad_norm": 0.33714083093594926,
      "learning_rate": 8.383187004429536e-06,
      "loss": 0.4723,
      "step": 1841
    },
    {
      "epoch": 0.33748625870282156,
      "grad_norm": 0.5015806620678309,
      "learning_rate": 8.38083166466412e-06,
      "loss": 0.4804,
      "step": 1842
    },
    {
      "epoch": 0.33766947599853425,
      "grad_norm": 0.40706034865044627,
      "learning_rate": 8.378474941948437e-06,
      "loss": 0.4814,
      "step": 1843
    },
    {
      "epoch": 0.337852693294247,
      "grad_norm": 0.42150894844205045,
      "learning_rate": 8.376116837246525e-06,
      "loss": 0.4959,
      "step": 1844
    },
    {
      "epoch": 0.3380359105899597,
      "grad_norm": 0.37939627732061587,
      "learning_rate": 8.373757351522976e-06,
      "loss": 0.4737,
      "step": 1845
    },
    {
      "epoch": 0.33821912788567243,
      "grad_norm": 0.37334004265146,
      "learning_rate": 8.371396485742956e-06,
      "loss": 0.4583,
      "step": 1846
    },
    {
      "epoch": 0.3384023451813851,
      "grad_norm": 0.5502578818261286,
      "learning_rate": 8.36903424087219e-06,
      "loss": 0.5031,
      "step": 1847
    },
    {
      "epoch": 0.3385855624770978,
      "grad_norm": 0.4305389526404514,
      "learning_rate": 8.366670617876969e-06,
      "loss": 0.5081,
      "step": 1848
    },
    {
      "epoch": 0.33876877977281056,
      "grad_norm": 0.373003871725479,
      "learning_rate": 8.36430561772415e-06,
      "loss": 0.4674,
      "step": 1849
    },
    {
      "epoch": 0.33895199706852325,
      "grad_norm": 0.36910312348131236,
      "learning_rate": 8.361939241381148e-06,
      "loss": 0.4824,
      "step": 1850
    },
    {
      "epoch": 0.339135214364236,
      "grad_norm": 0.38233912239924234,
      "learning_rate": 8.359571489815946e-06,
      "loss": 0.5155,
      "step": 1851
    },
    {
      "epoch": 0.3393184316599487,
      "grad_norm": 0.42080088842006386,
      "learning_rate": 8.357202363997085e-06,
      "loss": 0.4932,
      "step": 1852
    },
    {
      "epoch": 0.33950164895566143,
      "grad_norm": 0.40024242741960253,
      "learning_rate": 8.354831864893675e-06,
      "loss": 0.4889,
      "step": 1853
    },
    {
      "epoch": 0.3396848662513741,
      "grad_norm": 0.3818263254638861,
      "learning_rate": 8.352459993475379e-06,
      "loss": 0.4489,
      "step": 1854
    },
    {
      "epoch": 0.33986808354708686,
      "grad_norm": 0.45691270540100465,
      "learning_rate": 8.35008675071243e-06,
      "loss": 0.445,
      "step": 1855
    },
    {
      "epoch": 0.34005130084279955,
      "grad_norm": 0.40956822564503537,
      "learning_rate": 8.347712137575614e-06,
      "loss": 0.4875,
      "step": 1856
    },
    {
      "epoch": 0.3402345181385123,
      "grad_norm": 0.4223915335148929,
      "learning_rate": 8.34533615503628e-06,
      "loss": 0.5017,
      "step": 1857
    },
    {
      "epoch": 0.340417735434225,
      "grad_norm": 0.4339594623834613,
      "learning_rate": 8.342958804066345e-06,
      "loss": 0.5349,
      "step": 1858
    },
    {
      "epoch": 0.34060095272993773,
      "grad_norm": 0.38617828743973426,
      "learning_rate": 8.340580085638275e-06,
      "loss": 0.4858,
      "step": 1859
    },
    {
      "epoch": 0.3407841700256504,
      "grad_norm": 0.39545092131685405,
      "learning_rate": 8.3382000007251e-06,
      "loss": 0.4844,
      "step": 1860
    },
    {
      "epoch": 0.3409673873213631,
      "grad_norm": 0.4257990961795386,
      "learning_rate": 8.33581855030041e-06,
      "loss": 0.5055,
      "step": 1861
    },
    {
      "epoch": 0.34115060461707586,
      "grad_norm": 0.3528695250715933,
      "learning_rate": 8.333435735338346e-06,
      "loss": 0.4875,
      "step": 1862
    },
    {
      "epoch": 0.34133382191278855,
      "grad_norm": 0.37091916482456505,
      "learning_rate": 8.331051556813623e-06,
      "loss": 0.4984,
      "step": 1863
    },
    {
      "epoch": 0.3415170392085013,
      "grad_norm": 0.4264847608510263,
      "learning_rate": 8.328666015701496e-06,
      "loss": 0.4867,
      "step": 1864
    },
    {
      "epoch": 0.341700256504214,
      "grad_norm": 0.4099601844664771,
      "learning_rate": 8.326279112977791e-06,
      "loss": 0.4994,
      "step": 1865
    },
    {
      "epoch": 0.34188347379992673,
      "grad_norm": 0.3677590723427411,
      "learning_rate": 8.323890849618882e-06,
      "loss": 0.5027,
      "step": 1866
    },
    {
      "epoch": 0.3420666910956394,
      "grad_norm": 0.4409098617591673,
      "learning_rate": 8.321501226601702e-06,
      "loss": 0.496,
      "step": 1867
    },
    {
      "epoch": 0.34224990839135216,
      "grad_norm": 0.3926664857139486,
      "learning_rate": 8.319110244903748e-06,
      "loss": 0.5018,
      "step": 1868
    },
    {
      "epoch": 0.34243312568706485,
      "grad_norm": 0.3981457421214149,
      "learning_rate": 8.316717905503058e-06,
      "loss": 0.4803,
      "step": 1869
    },
    {
      "epoch": 0.3426163429827776,
      "grad_norm": 0.4111803238988,
      "learning_rate": 8.314324209378237e-06,
      "loss": 0.4944,
      "step": 1870
    },
    {
      "epoch": 0.3427995602784903,
      "grad_norm": 0.3837210327181565,
      "learning_rate": 8.31192915750844e-06,
      "loss": 0.4637,
      "step": 1871
    },
    {
      "epoch": 0.342982777574203,
      "grad_norm": 0.36141808942109716,
      "learning_rate": 8.309532750873381e-06,
      "loss": 0.5022,
      "step": 1872
    },
    {
      "epoch": 0.3431659948699157,
      "grad_norm": 0.4135486922923667,
      "learning_rate": 8.30713499045332e-06,
      "loss": 0.5429,
      "step": 1873
    },
    {
      "epoch": 0.3433492121656284,
      "grad_norm": 0.4100838578777171,
      "learning_rate": 8.304735877229082e-06,
      "loss": 0.4814,
      "step": 1874
    },
    {
      "epoch": 0.34353242946134116,
      "grad_norm": 0.4419756386117236,
      "learning_rate": 8.302335412182034e-06,
      "loss": 0.506,
      "step": 1875
    },
    {
      "epoch": 0.34371564675705385,
      "grad_norm": 0.4023978864041945,
      "learning_rate": 8.299933596294104e-06,
      "loss": 0.4835,
      "step": 1876
    },
    {
      "epoch": 0.3438988640527666,
      "grad_norm": 0.37938282086115893,
      "learning_rate": 8.297530430547767e-06,
      "loss": 0.4802,
      "step": 1877
    },
    {
      "epoch": 0.3440820813484793,
      "grad_norm": 0.44808143362476516,
      "learning_rate": 8.295125915926057e-06,
      "loss": 0.4948,
      "step": 1878
    },
    {
      "epoch": 0.34426529864419203,
      "grad_norm": 0.38559125969803254,
      "learning_rate": 8.292720053412553e-06,
      "loss": 0.4685,
      "step": 1879
    },
    {
      "epoch": 0.3444485159399047,
      "grad_norm": 0.33369724182793525,
      "learning_rate": 8.290312843991388e-06,
      "loss": 0.4395,
      "step": 1880
    },
    {
      "epoch": 0.34463173323561747,
      "grad_norm": 0.36560725000329003,
      "learning_rate": 8.287904288647246e-06,
      "loss": 0.4769,
      "step": 1881
    },
    {
      "epoch": 0.34481495053133016,
      "grad_norm": 0.40109807099240397,
      "learning_rate": 8.285494388365364e-06,
      "loss": 0.4896,
      "step": 1882
    },
    {
      "epoch": 0.34499816782704285,
      "grad_norm": 0.3758614423812384,
      "learning_rate": 8.283083144131523e-06,
      "loss": 0.4591,
      "step": 1883
    },
    {
      "epoch": 0.3451813851227556,
      "grad_norm": 0.4045825714686613,
      "learning_rate": 8.28067055693206e-06,
      "loss": 0.4983,
      "step": 1884
    },
    {
      "epoch": 0.3453646024184683,
      "grad_norm": 0.5653539162553293,
      "learning_rate": 8.278256627753857e-06,
      "loss": 0.4912,
      "step": 1885
    },
    {
      "epoch": 0.345547819714181,
      "grad_norm": 0.4120278659351058,
      "learning_rate": 8.27584135758435e-06,
      "loss": 0.5053,
      "step": 1886
    },
    {
      "epoch": 0.3457310370098937,
      "grad_norm": 0.4087683124654251,
      "learning_rate": 8.273424747411519e-06,
      "loss": 0.4768,
      "step": 1887
    },
    {
      "epoch": 0.34591425430560646,
      "grad_norm": 0.3868920894610502,
      "learning_rate": 8.27100679822389e-06,
      "loss": 0.4872,
      "step": 1888
    },
    {
      "epoch": 0.34609747160131915,
      "grad_norm": 0.3672508442805955,
      "learning_rate": 8.268587511010546e-06,
      "loss": 0.4492,
      "step": 1889
    },
    {
      "epoch": 0.3462806888970319,
      "grad_norm": 0.3226405339400022,
      "learning_rate": 8.266166886761106e-06,
      "loss": 0.447,
      "step": 1890
    },
    {
      "epoch": 0.3464639061927446,
      "grad_norm": 0.3896492518387063,
      "learning_rate": 8.263744926465744e-06,
      "loss": 0.4952,
      "step": 1891
    },
    {
      "epoch": 0.34664712348845733,
      "grad_norm": 0.40806210827621486,
      "learning_rate": 8.26132163111518e-06,
      "loss": 0.4942,
      "step": 1892
    },
    {
      "epoch": 0.34683034078417,
      "grad_norm": 0.5064133110397161,
      "learning_rate": 8.258897001700673e-06,
      "loss": 0.4914,
      "step": 1893
    },
    {
      "epoch": 0.34701355807988277,
      "grad_norm": 0.37350719921589426,
      "learning_rate": 8.256471039214036e-06,
      "loss": 0.4667,
      "step": 1894
    },
    {
      "epoch": 0.34719677537559546,
      "grad_norm": 0.4472694649954096,
      "learning_rate": 8.254043744647625e-06,
      "loss": 0.4768,
      "step": 1895
    },
    {
      "epoch": 0.34737999267130815,
      "grad_norm": 0.5451471608365284,
      "learning_rate": 8.251615118994338e-06,
      "loss": 0.4833,
      "step": 1896
    },
    {
      "epoch": 0.3475632099670209,
      "grad_norm": 0.43194887420538414,
      "learning_rate": 8.249185163247621e-06,
      "loss": 0.5041,
      "step": 1897
    },
    {
      "epoch": 0.3477464272627336,
      "grad_norm": 0.4440434179645274,
      "learning_rate": 8.24675387840146e-06,
      "loss": 0.4928,
      "step": 1898
    },
    {
      "epoch": 0.3479296445584463,
      "grad_norm": 0.4470574728369111,
      "learning_rate": 8.24432126545039e-06,
      "loss": 0.4721,
      "step": 1899
    },
    {
      "epoch": 0.348112861854159,
      "grad_norm": 0.37811511446638624,
      "learning_rate": 8.241887325389486e-06,
      "loss": 0.4916,
      "step": 1900
    },
    {
      "epoch": 0.34829607914987176,
      "grad_norm": 0.401475995772846,
      "learning_rate": 8.239452059214367e-06,
      "loss": 0.4922,
      "step": 1901
    },
    {
      "epoch": 0.34847929644558445,
      "grad_norm": 0.36588179778579716,
      "learning_rate": 8.23701546792119e-06,
      "loss": 0.4769,
      "step": 1902
    },
    {
      "epoch": 0.3486625137412972,
      "grad_norm": 0.37419447204674516,
      "learning_rate": 8.234577552506662e-06,
      "loss": 0.4683,
      "step": 1903
    },
    {
      "epoch": 0.3488457310370099,
      "grad_norm": 0.44910824354183104,
      "learning_rate": 8.232138313968025e-06,
      "loss": 0.5002,
      "step": 1904
    },
    {
      "epoch": 0.34902894833272263,
      "grad_norm": 0.37853030952448913,
      "learning_rate": 8.229697753303067e-06,
      "loss": 0.499,
      "step": 1905
    },
    {
      "epoch": 0.3492121656284353,
      "grad_norm": 0.3787302843131875,
      "learning_rate": 8.227255871510111e-06,
      "loss": 0.4652,
      "step": 1906
    },
    {
      "epoch": 0.349395382924148,
      "grad_norm": 0.42294805152134374,
      "learning_rate": 8.224812669588028e-06,
      "loss": 0.4761,
      "step": 1907
    },
    {
      "epoch": 0.34957860021986076,
      "grad_norm": 0.4251808716753822,
      "learning_rate": 8.222368148536223e-06,
      "loss": 0.4781,
      "step": 1908
    },
    {
      "epoch": 0.34976181751557345,
      "grad_norm": 0.41741877899455326,
      "learning_rate": 8.219922309354643e-06,
      "loss": 0.4979,
      "step": 1909
    },
    {
      "epoch": 0.3499450348112862,
      "grad_norm": 0.4528858990840802,
      "learning_rate": 8.217475153043772e-06,
      "loss": 0.4841,
      "step": 1910
    },
    {
      "epoch": 0.3501282521069989,
      "grad_norm": 0.37317689057150794,
      "learning_rate": 8.215026680604637e-06,
      "loss": 0.4713,
      "step": 1911
    },
    {
      "epoch": 0.35031146940271163,
      "grad_norm": 0.3667470219941718,
      "learning_rate": 8.212576893038799e-06,
      "loss": 0.4689,
      "step": 1912
    },
    {
      "epoch": 0.3504946866984243,
      "grad_norm": 0.3979696962375165,
      "learning_rate": 8.21012579134836e-06,
      "loss": 0.4538,
      "step": 1913
    },
    {
      "epoch": 0.35067790399413706,
      "grad_norm": 0.43331562093452664,
      "learning_rate": 8.20767337653596e-06,
      "loss": 0.4878,
      "step": 1914
    },
    {
      "epoch": 0.35086112128984975,
      "grad_norm": 0.36256762359906813,
      "learning_rate": 8.20521964960477e-06,
      "loss": 0.4462,
      "step": 1915
    },
    {
      "epoch": 0.3510443385855625,
      "grad_norm": 0.43213117928406414,
      "learning_rate": 8.202764611558507e-06,
      "loss": 0.5066,
      "step": 1916
    },
    {
      "epoch": 0.3512275558812752,
      "grad_norm": 0.4293633236485711,
      "learning_rate": 8.200308263401417e-06,
      "loss": 0.5351,
      "step": 1917
    },
    {
      "epoch": 0.35141077317698793,
      "grad_norm": 0.5287407111719371,
      "learning_rate": 8.197850606138286e-06,
      "loss": 0.4705,
      "step": 1918
    },
    {
      "epoch": 0.3515939904727006,
      "grad_norm": 0.48855534444525384,
      "learning_rate": 8.195391640774433e-06,
      "loss": 0.4852,
      "step": 1919
    },
    {
      "epoch": 0.3517772077684133,
      "grad_norm": 0.4148812235933253,
      "learning_rate": 8.192931368315715e-06,
      "loss": 0.4785,
      "step": 1920
    },
    {
      "epoch": 0.35196042506412606,
      "grad_norm": 0.44919257408205365,
      "learning_rate": 8.190469789768517e-06,
      "loss": 0.4851,
      "step": 1921
    },
    {
      "epoch": 0.35214364235983875,
      "grad_norm": 0.4359193627784823,
      "learning_rate": 8.188006906139767e-06,
      "loss": 0.5077,
      "step": 1922
    },
    {
      "epoch": 0.3523268596555515,
      "grad_norm": 0.43124736358934584,
      "learning_rate": 8.185542718436923e-06,
      "loss": 0.4705,
      "step": 1923
    },
    {
      "epoch": 0.3525100769512642,
      "grad_norm": 0.4270332132061218,
      "learning_rate": 8.183077227667975e-06,
      "loss": 0.5061,
      "step": 1924
    },
    {
      "epoch": 0.35269329424697693,
      "grad_norm": 0.3709113632371592,
      "learning_rate": 8.180610434841448e-06,
      "loss": 0.4926,
      "step": 1925
    },
    {
      "epoch": 0.3528765115426896,
      "grad_norm": 0.3686143335119551,
      "learning_rate": 8.1781423409664e-06,
      "loss": 0.4736,
      "step": 1926
    },
    {
      "epoch": 0.35305972883840236,
      "grad_norm": 0.4768757941328196,
      "learning_rate": 8.175672947052416e-06,
      "loss": 0.4899,
      "step": 1927
    },
    {
      "epoch": 0.35324294613411505,
      "grad_norm": 0.37435018310100715,
      "learning_rate": 8.173202254109622e-06,
      "loss": 0.5019,
      "step": 1928
    },
    {
      "epoch": 0.3534261634298278,
      "grad_norm": 0.5886108613911327,
      "learning_rate": 8.170730263148668e-06,
      "loss": 0.5208,
      "step": 1929
    },
    {
      "epoch": 0.3536093807255405,
      "grad_norm": 0.42394082862501326,
      "learning_rate": 8.168256975180737e-06,
      "loss": 0.5124,
      "step": 1930
    },
    {
      "epoch": 0.3537925980212532,
      "grad_norm": 0.39473180614386977,
      "learning_rate": 8.165782391217543e-06,
      "loss": 0.4863,
      "step": 1931
    },
    {
      "epoch": 0.3539758153169659,
      "grad_norm": 0.4022544573376633,
      "learning_rate": 8.163306512271334e-06,
      "loss": 0.4989,
      "step": 1932
    },
    {
      "epoch": 0.3541590326126786,
      "grad_norm": 0.4154530765976519,
      "learning_rate": 8.160829339354876e-06,
      "loss": 0.4661,
      "step": 1933
    },
    {
      "epoch": 0.35434224990839136,
      "grad_norm": 0.3921468409429114,
      "learning_rate": 8.158350873481478e-06,
      "loss": 0.4738,
      "step": 1934
    },
    {
      "epoch": 0.35452546720410405,
      "grad_norm": 0.3954474064023121,
      "learning_rate": 8.155871115664968e-06,
      "loss": 0.51,
      "step": 1935
    },
    {
      "epoch": 0.3547086844998168,
      "grad_norm": 0.3882950367284415,
      "learning_rate": 8.15339006691971e-06,
      "loss": 0.4642,
      "step": 1936
    },
    {
      "epoch": 0.3548919017955295,
      "grad_norm": 0.37897867702653376,
      "learning_rate": 8.150907728260592e-06,
      "loss": 0.5044,
      "step": 1937
    },
    {
      "epoch": 0.35507511909124223,
      "grad_norm": 0.3859422166696926,
      "learning_rate": 8.14842410070303e-06,
      "loss": 0.4551,
      "step": 1938
    },
    {
      "epoch": 0.3552583363869549,
      "grad_norm": 0.38875341973643246,
      "learning_rate": 8.145939185262963e-06,
      "loss": 0.4944,
      "step": 1939
    },
    {
      "epoch": 0.35544155368266767,
      "grad_norm": 0.3983931627212232,
      "learning_rate": 8.143452982956866e-06,
      "loss": 0.5008,
      "step": 1940
    },
    {
      "epoch": 0.35562477097838036,
      "grad_norm": 0.39775757772326403,
      "learning_rate": 8.140965494801733e-06,
      "loss": 0.5263,
      "step": 1941
    },
    {
      "epoch": 0.3558079882740931,
      "grad_norm": 0.3944293856829923,
      "learning_rate": 8.13847672181509e-06,
      "loss": 0.4771,
      "step": 1942
    },
    {
      "epoch": 0.3559912055698058,
      "grad_norm": 0.3817860113481927,
      "learning_rate": 8.13598666501498e-06,
      "loss": 0.4666,
      "step": 1943
    },
    {
      "epoch": 0.3561744228655185,
      "grad_norm": 0.42632726063844545,
      "learning_rate": 8.133495325419983e-06,
      "loss": 0.4663,
      "step": 1944
    },
    {
      "epoch": 0.3563576401612312,
      "grad_norm": 0.3572805692583185,
      "learning_rate": 8.131002704049189e-06,
      "loss": 0.4708,
      "step": 1945
    },
    {
      "epoch": 0.3565408574569439,
      "grad_norm": 0.404852300953083,
      "learning_rate": 8.128508801922226e-06,
      "loss": 0.5325,
      "step": 1946
    },
    {
      "epoch": 0.35672407475265666,
      "grad_norm": 0.35876468020600716,
      "learning_rate": 8.126013620059236e-06,
      "loss": 0.4949,
      "step": 1947
    },
    {
      "epoch": 0.35690729204836935,
      "grad_norm": 0.38545171520037624,
      "learning_rate": 8.123517159480894e-06,
      "loss": 0.4764,
      "step": 1948
    },
    {
      "epoch": 0.3570905093440821,
      "grad_norm": 0.40541828483545733,
      "learning_rate": 8.12101942120839e-06,
      "loss": 0.4807,
      "step": 1949
    },
    {
      "epoch": 0.3572737266397948,
      "grad_norm": 0.4243415026003622,
      "learning_rate": 8.118520406263437e-06,
      "loss": 0.5003,
      "step": 1950
    },
    {
      "epoch": 0.35745694393550753,
      "grad_norm": 0.4384025995443247,
      "learning_rate": 8.116020115668278e-06,
      "loss": 0.4916,
      "step": 1951
    },
    {
      "epoch": 0.3576401612312202,
      "grad_norm": 0.356464489561591,
      "learning_rate": 8.113518550445667e-06,
      "loss": 0.5068,
      "step": 1952
    },
    {
      "epoch": 0.35782337852693297,
      "grad_norm": 0.36237464089967664,
      "learning_rate": 8.111015711618888e-06,
      "loss": 0.4691,
      "step": 1953
    },
    {
      "epoch": 0.35800659582264566,
      "grad_norm": 0.41004625226837194,
      "learning_rate": 8.108511600211741e-06,
      "loss": 0.495,
      "step": 1954
    },
    {
      "epoch": 0.35818981311835835,
      "grad_norm": 0.37519930557205516,
      "learning_rate": 8.106006217248552e-06,
      "loss": 0.527,
      "step": 1955
    },
    {
      "epoch": 0.3583730304140711,
      "grad_norm": 0.3930139446184139,
      "learning_rate": 8.103499563754159e-06,
      "loss": 0.49,
      "step": 1956
    },
    {
      "epoch": 0.3585562477097838,
      "grad_norm": 0.4049543770945572,
      "learning_rate": 8.100991640753926e-06,
      "loss": 0.4918,
      "step": 1957
    },
    {
      "epoch": 0.3587394650054965,
      "grad_norm": 0.41598194124283755,
      "learning_rate": 8.098482449273737e-06,
      "loss": 0.4583,
      "step": 1958
    },
    {
      "epoch": 0.3589226823012092,
      "grad_norm": 0.3497094599476565,
      "learning_rate": 8.095971990339987e-06,
      "loss": 0.441,
      "step": 1959
    },
    {
      "epoch": 0.35910589959692196,
      "grad_norm": 0.857453529704147,
      "learning_rate": 8.0934602649796e-06,
      "loss": 0.4862,
      "step": 1960
    },
    {
      "epoch": 0.35928911689263465,
      "grad_norm": 0.3948051526194389,
      "learning_rate": 8.090947274220011e-06,
      "loss": 0.4696,
      "step": 1961
    },
    {
      "epoch": 0.3594723341883474,
      "grad_norm": 0.4025724340675242,
      "learning_rate": 8.088433019089174e-06,
      "loss": 0.4784,
      "step": 1962
    },
    {
      "epoch": 0.3596555514840601,
      "grad_norm": 0.4250158054819026,
      "learning_rate": 8.08591750061556e-06,
      "loss": 0.4887,
      "step": 1963
    },
    {
      "epoch": 0.35983876877977283,
      "grad_norm": 0.3987052277731631,
      "learning_rate": 8.083400719828161e-06,
      "loss": 0.486,
      "step": 1964
    },
    {
      "epoch": 0.3600219860754855,
      "grad_norm": 0.3818650890686896,
      "learning_rate": 8.080882677756479e-06,
      "loss": 0.4961,
      "step": 1965
    },
    {
      "epoch": 0.36020520337119827,
      "grad_norm": 0.37338678994677815,
      "learning_rate": 8.078363375430534e-06,
      "loss": 0.4849,
      "step": 1966
    },
    {
      "epoch": 0.36038842066691096,
      "grad_norm": 0.4033555520259992,
      "learning_rate": 8.075842813880865e-06,
      "loss": 0.5092,
      "step": 1967
    },
    {
      "epoch": 0.36057163796262365,
      "grad_norm": 0.3904145734640018,
      "learning_rate": 8.073320994138522e-06,
      "loss": 0.498,
      "step": 1968
    },
    {
      "epoch": 0.3607548552583364,
      "grad_norm": 0.41968588248870525,
      "learning_rate": 8.070797917235071e-06,
      "loss": 0.4592,
      "step": 1969
    },
    {
      "epoch": 0.3609380725540491,
      "grad_norm": 0.40225333028901955,
      "learning_rate": 8.068273584202593e-06,
      "loss": 0.498,
      "step": 1970
    },
    {
      "epoch": 0.36112128984976183,
      "grad_norm": 0.4779749898506442,
      "learning_rate": 8.065747996073681e-06,
      "loss": 0.4852,
      "step": 1971
    },
    {
      "epoch": 0.3613045071454745,
      "grad_norm": 0.3801653362164248,
      "learning_rate": 8.063221153881443e-06,
      "loss": 0.4821,
      "step": 1972
    },
    {
      "epoch": 0.36148772444118726,
      "grad_norm": 0.4360824877290448,
      "learning_rate": 8.0606930586595e-06,
      "loss": 0.4867,
      "step": 1973
    },
    {
      "epoch": 0.36167094173689995,
      "grad_norm": 0.4253700547037495,
      "learning_rate": 8.058163711441986e-06,
      "loss": 0.4829,
      "step": 1974
    },
    {
      "epoch": 0.3618541590326127,
      "grad_norm": 0.4341340818854911,
      "learning_rate": 8.055633113263543e-06,
      "loss": 0.5169,
      "step": 1975
    },
    {
      "epoch": 0.3620373763283254,
      "grad_norm": 0.4424513726038396,
      "learning_rate": 8.053101265159331e-06,
      "loss": 0.5005,
      "step": 1976
    },
    {
      "epoch": 0.36222059362403813,
      "grad_norm": 0.40080376851886934,
      "learning_rate": 8.050568168165018e-06,
      "loss": 0.4831,
      "step": 1977
    },
    {
      "epoch": 0.3624038109197508,
      "grad_norm": 0.4092773451489212,
      "learning_rate": 8.048033823316784e-06,
      "loss": 0.4886,
      "step": 1978
    },
    {
      "epoch": 0.3625870282154635,
      "grad_norm": 0.5750732156961504,
      "learning_rate": 8.045498231651314e-06,
      "loss": 0.4924,
      "step": 1979
    },
    {
      "epoch": 0.36277024551117626,
      "grad_norm": 0.4000642911770352,
      "learning_rate": 8.042961394205812e-06,
      "loss": 0.4856,
      "step": 1980
    },
    {
      "epoch": 0.36295346280688895,
      "grad_norm": 0.38938145758582615,
      "learning_rate": 8.040423312017986e-06,
      "loss": 0.4778,
      "step": 1981
    },
    {
      "epoch": 0.3631366801026017,
      "grad_norm": 0.3643427586018773,
      "learning_rate": 8.037883986126054e-06,
      "loss": 0.4909,
      "step": 1982
    },
    {
      "epoch": 0.3633198973983144,
      "grad_norm": 0.3939262969339654,
      "learning_rate": 8.035343417568742e-06,
      "loss": 0.4714,
      "step": 1983
    },
    {
      "epoch": 0.36350311469402713,
      "grad_norm": 0.4016181460823361,
      "learning_rate": 8.032801607385288e-06,
      "loss": 0.4931,
      "step": 1984
    },
    {
      "epoch": 0.3636863319897398,
      "grad_norm": 0.44751708009914176,
      "learning_rate": 8.030258556615433e-06,
      "loss": 0.4894,
      "step": 1985
    },
    {
      "epoch": 0.36386954928545256,
      "grad_norm": 0.34958387993124196,
      "learning_rate": 8.02771426629943e-06,
      "loss": 0.4598,
      "step": 1986
    },
    {
      "epoch": 0.36405276658116525,
      "grad_norm": 0.348786463445316,
      "learning_rate": 8.025168737478034e-06,
      "loss": 0.447,
      "step": 1987
    },
    {
      "epoch": 0.364235983876878,
      "grad_norm": 0.3854079222539858,
      "learning_rate": 8.022621971192513e-06,
      "loss": 0.4812,
      "step": 1988
    },
    {
      "epoch": 0.3644192011725907,
      "grad_norm": 0.38734200128527324,
      "learning_rate": 8.020073968484632e-06,
      "loss": 0.4862,
      "step": 1989
    },
    {
      "epoch": 0.36460241846830344,
      "grad_norm": 0.411711055657578,
      "learning_rate": 8.017524730396673e-06,
      "loss": 0.4907,
      "step": 1990
    },
    {
      "epoch": 0.3647856357640161,
      "grad_norm": 0.440618505246582,
      "learning_rate": 8.014974257971415e-06,
      "loss": 0.4588,
      "step": 1991
    },
    {
      "epoch": 0.3649688530597288,
      "grad_norm": 0.4841735582737877,
      "learning_rate": 8.012422552252148e-06,
      "loss": 0.4988,
      "step": 1992
    },
    {
      "epoch": 0.36515207035544156,
      "grad_norm": 0.35566001438725936,
      "learning_rate": 8.009869614282657e-06,
      "loss": 0.5083,
      "step": 1993
    },
    {
      "epoch": 0.36533528765115425,
      "grad_norm": 0.3607042141519043,
      "learning_rate": 8.007315445107242e-06,
      "loss": 0.4634,
      "step": 1994
    },
    {
      "epoch": 0.365518504946867,
      "grad_norm": 0.3841642715938066,
      "learning_rate": 8.004760045770702e-06,
      "loss": 0.4972,
      "step": 1995
    },
    {
      "epoch": 0.3657017222425797,
      "grad_norm": 0.39468083856708197,
      "learning_rate": 8.002203417318335e-06,
      "loss": 0.4779,
      "step": 1996
    },
    {
      "epoch": 0.36588493953829243,
      "grad_norm": 0.419151699921075,
      "learning_rate": 7.999645560795947e-06,
      "loss": 0.5039,
      "step": 1997
    },
    {
      "epoch": 0.3660681568340051,
      "grad_norm": 0.4148076872613475,
      "learning_rate": 7.99708647724985e-06,
      "loss": 0.4969,
      "step": 1998
    },
    {
      "epoch": 0.36625137412971787,
      "grad_norm": 0.37720877965942756,
      "learning_rate": 7.994526167726847e-06,
      "loss": 0.4657,
      "step": 1999
    },
    {
      "epoch": 0.36643459142543056,
      "grad_norm": 0.3456057298421402,
      "learning_rate": 7.991964633274255e-06,
      "loss": 0.5015,
      "step": 2000
    },
    {
      "epoch": 0.3666178087211433,
      "grad_norm": 0.44797110483125663,
      "learning_rate": 7.989401874939877e-06,
      "loss": 0.5106,
      "step": 2001
    },
    {
      "epoch": 0.366801026016856,
      "grad_norm": 0.4272501663842639,
      "learning_rate": 7.986837893772031e-06,
      "loss": 0.4783,
      "step": 2002
    },
    {
      "epoch": 0.3669842433125687,
      "grad_norm": 0.5436758459964995,
      "learning_rate": 7.98427269081953e-06,
      "loss": 0.535,
      "step": 2003
    },
    {
      "epoch": 0.3671674606082814,
      "grad_norm": 0.4193212630668118,
      "learning_rate": 7.981706267131684e-06,
      "loss": 0.4893,
      "step": 2004
    },
    {
      "epoch": 0.3673506779039941,
      "grad_norm": 0.42948677992300865,
      "learning_rate": 7.979138623758305e-06,
      "loss": 0.4925,
      "step": 2005
    },
    {
      "epoch": 0.36753389519970686,
      "grad_norm": 0.38906501628138734,
      "learning_rate": 7.976569761749704e-06,
      "loss": 0.4864,
      "step": 2006
    },
    {
      "epoch": 0.36771711249541955,
      "grad_norm": 0.3905681742731238,
      "learning_rate": 7.973999682156689e-06,
      "loss": 0.4814,
      "step": 2007
    },
    {
      "epoch": 0.3679003297911323,
      "grad_norm": 0.384284775034963,
      "learning_rate": 7.97142838603057e-06,
      "loss": 0.4903,
      "step": 2008
    },
    {
      "epoch": 0.368083547086845,
      "grad_norm": 0.42047182046573356,
      "learning_rate": 7.968855874423146e-06,
      "loss": 0.4874,
      "step": 2009
    },
    {
      "epoch": 0.36826676438255773,
      "grad_norm": 0.45925338817929307,
      "learning_rate": 7.966282148386726e-06,
      "loss": 0.4921,
      "step": 2010
    },
    {
      "epoch": 0.3684499816782704,
      "grad_norm": 0.4327334130084159,
      "learning_rate": 7.963707208974103e-06,
      "loss": 0.4939,
      "step": 2011
    },
    {
      "epoch": 0.36863319897398317,
      "grad_norm": 0.3885802329431291,
      "learning_rate": 7.961131057238576e-06,
      "loss": 0.4747,
      "step": 2012
    },
    {
      "epoch": 0.36881641626969586,
      "grad_norm": 0.421099560605058,
      "learning_rate": 7.958553694233933e-06,
      "loss": 0.4765,
      "step": 2013
    },
    {
      "epoch": 0.36899963356540855,
      "grad_norm": 0.388202635805495,
      "learning_rate": 7.955975121014462e-06,
      "loss": 0.4649,
      "step": 2014
    },
    {
      "epoch": 0.3691828508611213,
      "grad_norm": 0.3501587036877818,
      "learning_rate": 7.953395338634943e-06,
      "loss": 0.4592,
      "step": 2015
    },
    {
      "epoch": 0.369366068156834,
      "grad_norm": 0.3889685256407414,
      "learning_rate": 7.950814348150655e-06,
      "loss": 0.4884,
      "step": 2016
    },
    {
      "epoch": 0.3695492854525467,
      "grad_norm": 0.3726532989515501,
      "learning_rate": 7.948232150617365e-06,
      "loss": 0.4809,
      "step": 2017
    },
    {
      "epoch": 0.3697325027482594,
      "grad_norm": 0.4258326153743124,
      "learning_rate": 7.945648747091339e-06,
      "loss": 0.5255,
      "step": 2018
    },
    {
      "epoch": 0.36991572004397216,
      "grad_norm": 0.422873775241114,
      "learning_rate": 7.943064138629332e-06,
      "loss": 0.4835,
      "step": 2019
    },
    {
      "epoch": 0.37009893733968485,
      "grad_norm": 0.3854940689794936,
      "learning_rate": 7.940478326288597e-06,
      "loss": 0.5199,
      "step": 2020
    },
    {
      "epoch": 0.3702821546353976,
      "grad_norm": 0.4090502879792355,
      "learning_rate": 7.937891311126875e-06,
      "loss": 0.4968,
      "step": 2021
    },
    {
      "epoch": 0.3704653719311103,
      "grad_norm": 0.5672840308934909,
      "learning_rate": 7.935303094202402e-06,
      "loss": 0.5074,
      "step": 2022
    },
    {
      "epoch": 0.37064858922682303,
      "grad_norm": 0.43313528860057604,
      "learning_rate": 7.932713676573902e-06,
      "loss": 0.5185,
      "step": 2023
    },
    {
      "epoch": 0.3708318065225357,
      "grad_norm": 0.3999275079366991,
      "learning_rate": 7.930123059300595e-06,
      "loss": 0.4662,
      "step": 2024
    },
    {
      "epoch": 0.37101502381824847,
      "grad_norm": 0.4016179992674339,
      "learning_rate": 7.927531243442188e-06,
      "loss": 0.484,
      "step": 2025
    },
    {
      "epoch": 0.37119824111396116,
      "grad_norm": 0.4280944544354096,
      "learning_rate": 7.924938230058878e-06,
      "loss": 0.4851,
      "step": 2026
    },
    {
      "epoch": 0.37138145840967385,
      "grad_norm": 0.43747500513006565,
      "learning_rate": 7.922344020211357e-06,
      "loss": 0.4981,
      "step": 2027
    },
    {
      "epoch": 0.3715646757053866,
      "grad_norm": 0.36930540160986264,
      "learning_rate": 7.919748614960798e-06,
      "loss": 0.4593,
      "step": 2028
    },
    {
      "epoch": 0.3717478930010993,
      "grad_norm": 0.37696526354057724,
      "learning_rate": 7.917152015368872e-06,
      "loss": 0.4713,
      "step": 2029
    },
    {
      "epoch": 0.37193111029681203,
      "grad_norm": 0.3512686254761771,
      "learning_rate": 7.914554222497732e-06,
      "loss": 0.4803,
      "step": 2030
    },
    {
      "epoch": 0.3721143275925247,
      "grad_norm": 0.3999987608614825,
      "learning_rate": 7.91195523741002e-06,
      "loss": 0.4616,
      "step": 2031
    },
    {
      "epoch": 0.37229754488823746,
      "grad_norm": 0.3724358403073566,
      "learning_rate": 7.90935506116887e-06,
      "loss": 0.4765,
      "step": 2032
    },
    {
      "epoch": 0.37248076218395015,
      "grad_norm": 0.5231754999712253,
      "learning_rate": 7.906753694837898e-06,
      "loss": 0.4577,
      "step": 2033
    },
    {
      "epoch": 0.3726639794796629,
      "grad_norm": 0.41538678668159756,
      "learning_rate": 7.904151139481213e-06,
      "loss": 0.4695,
      "step": 2034
    },
    {
      "epoch": 0.3728471967753756,
      "grad_norm": 0.3669187862199872,
      "learning_rate": 7.9015473961634e-06,
      "loss": 0.4457,
      "step": 2035
    },
    {
      "epoch": 0.37303041407108833,
      "grad_norm": 0.39716872566616657,
      "learning_rate": 7.898942465949543e-06,
      "loss": 0.4769,
      "step": 2036
    },
    {
      "epoch": 0.373213631366801,
      "grad_norm": 0.39707124935919325,
      "learning_rate": 7.8963363499052e-06,
      "loss": 0.5038,
      "step": 2037
    },
    {
      "epoch": 0.3733968486625137,
      "grad_norm": 0.5407284529620036,
      "learning_rate": 7.893729049096423e-06,
      "loss": 0.4883,
      "step": 2038
    },
    {
      "epoch": 0.37358006595822646,
      "grad_norm": 0.4434140600327088,
      "learning_rate": 7.891120564589741e-06,
      "loss": 0.4797,
      "step": 2039
    },
    {
      "epoch": 0.37376328325393915,
      "grad_norm": 0.3669111491685124,
      "learning_rate": 7.888510897452173e-06,
      "loss": 0.4542,
      "step": 2040
    },
    {
      "epoch": 0.3739465005496519,
      "grad_norm": 0.39292395564183696,
      "learning_rate": 7.885900048751219e-06,
      "loss": 0.4843,
      "step": 2041
    },
    {
      "epoch": 0.3741297178453646,
      "grad_norm": 0.42693187771524804,
      "learning_rate": 7.883288019554864e-06,
      "loss": 0.5163,
      "step": 2042
    },
    {
      "epoch": 0.37431293514107733,
      "grad_norm": 0.4166082295492774,
      "learning_rate": 7.880674810931572e-06,
      "loss": 0.5167,
      "step": 2043
    },
    {
      "epoch": 0.37449615243679,
      "grad_norm": 0.388587145431864,
      "learning_rate": 7.878060423950296e-06,
      "loss": 0.4696,
      "step": 2044
    },
    {
      "epoch": 0.37467936973250277,
      "grad_norm": 0.3907542736094849,
      "learning_rate": 7.875444859680463e-06,
      "loss": 0.5188,
      "step": 2045
    },
    {
      "epoch": 0.37486258702821545,
      "grad_norm": 0.35105779035513274,
      "learning_rate": 7.872828119191991e-06,
      "loss": 0.4819,
      "step": 2046
    },
    {
      "epoch": 0.3750458043239282,
      "grad_norm": 0.387372551594969,
      "learning_rate": 7.87021020355527e-06,
      "loss": 0.4888,
      "step": 2047
    },
    {
      "epoch": 0.3752290216196409,
      "grad_norm": 0.3925107894377394,
      "learning_rate": 7.867591113841177e-06,
      "loss": 0.4784,
      "step": 2048
    },
    {
      "epoch": 0.37541223891535364,
      "grad_norm": 0.3765661581212424,
      "learning_rate": 7.864970851121065e-06,
      "loss": 0.4718,
      "step": 2049
    },
    {
      "epoch": 0.3755954562110663,
      "grad_norm": 0.3358655051277223,
      "learning_rate": 7.86234941646677e-06,
      "loss": 0.4422,
      "step": 2050
    },
    {
      "epoch": 0.375778673506779,
      "grad_norm": 0.40689174811822976,
      "learning_rate": 7.859726810950606e-06,
      "loss": 0.5066,
      "step": 2051
    },
    {
      "epoch": 0.37596189080249176,
      "grad_norm": 0.3400880833533205,
      "learning_rate": 7.857103035645365e-06,
      "loss": 0.4768,
      "step": 2052
    },
    {
      "epoch": 0.37614510809820445,
      "grad_norm": 0.4277337291100283,
      "learning_rate": 7.854478091624322e-06,
      "loss": 0.5055,
      "step": 2053
    },
    {
      "epoch": 0.3763283253939172,
      "grad_norm": 0.40260423661772543,
      "learning_rate": 7.851851979961222e-06,
      "loss": 0.4816,
      "step": 2054
    },
    {
      "epoch": 0.3765115426896299,
      "grad_norm": 0.37218413297346103,
      "learning_rate": 7.849224701730296e-06,
      "loss": 0.4606,
      "step": 2055
    },
    {
      "epoch": 0.37669475998534263,
      "grad_norm": 0.41491062083730507,
      "learning_rate": 7.846596258006249e-06,
      "loss": 0.4602,
      "step": 2056
    },
    {
      "epoch": 0.3768779772810553,
      "grad_norm": 0.3960576653962031,
      "learning_rate": 7.843966649864258e-06,
      "loss": 0.4771,
      "step": 2057
    },
    {
      "epoch": 0.37706119457676807,
      "grad_norm": 0.44222626036262375,
      "learning_rate": 7.841335878379985e-06,
      "loss": 0.4898,
      "step": 2058
    },
    {
      "epoch": 0.37724441187248076,
      "grad_norm": 0.4342374882463006,
      "learning_rate": 7.83870394462956e-06,
      "loss": 0.4766,
      "step": 2059
    },
    {
      "epoch": 0.3774276291681935,
      "grad_norm": 0.47449752687835595,
      "learning_rate": 7.836070849689597e-06,
      "loss": 0.5311,
      "step": 2060
    },
    {
      "epoch": 0.3776108464639062,
      "grad_norm": 0.36364778037510276,
      "learning_rate": 7.833436594637172e-06,
      "loss": 0.5042,
      "step": 2061
    },
    {
      "epoch": 0.3777940637596189,
      "grad_norm": 0.41142606251077274,
      "learning_rate": 7.83080118054985e-06,
      "loss": 0.5032,
      "step": 2062
    },
    {
      "epoch": 0.3779772810553316,
      "grad_norm": 0.37574847969260744,
      "learning_rate": 7.828164608505661e-06,
      "loss": 0.509,
      "step": 2063
    },
    {
      "epoch": 0.3781604983510443,
      "grad_norm": 0.37268467475303474,
      "learning_rate": 7.825526879583115e-06,
      "loss": 0.5024,
      "step": 2064
    },
    {
      "epoch": 0.37834371564675706,
      "grad_norm": 0.37860686677862815,
      "learning_rate": 7.822887994861183e-06,
      "loss": 0.4625,
      "step": 2065
    },
    {
      "epoch": 0.37852693294246975,
      "grad_norm": 0.38924369717801605,
      "learning_rate": 7.820247955419326e-06,
      "loss": 0.4725,
      "step": 2066
    },
    {
      "epoch": 0.3787101502381825,
      "grad_norm": 0.3934868236020354,
      "learning_rate": 7.817606762337465e-06,
      "loss": 0.4573,
      "step": 2067
    },
    {
      "epoch": 0.3788933675338952,
      "grad_norm": 0.40539217938905403,
      "learning_rate": 7.814964416695995e-06,
      "loss": 0.4652,
      "step": 2068
    },
    {
      "epoch": 0.37907658482960793,
      "grad_norm": 0.34378698165362287,
      "learning_rate": 7.812320919575786e-06,
      "loss": 0.4559,
      "step": 2069
    },
    {
      "epoch": 0.3792598021253206,
      "grad_norm": 0.44129404302636444,
      "learning_rate": 7.809676272058177e-06,
      "loss": 0.4913,
      "step": 2070
    },
    {
      "epoch": 0.37944301942103337,
      "grad_norm": 0.43087188582145197,
      "learning_rate": 7.807030475224974e-06,
      "loss": 0.5004,
      "step": 2071
    },
    {
      "epoch": 0.37962623671674606,
      "grad_norm": 0.47291970091792523,
      "learning_rate": 7.804383530158463e-06,
      "loss": 0.4864,
      "step": 2072
    },
    {
      "epoch": 0.3798094540124588,
      "grad_norm": 0.4283612152851097,
      "learning_rate": 7.80173543794139e-06,
      "loss": 0.4998,
      "step": 2073
    },
    {
      "epoch": 0.3799926713081715,
      "grad_norm": 0.37778750598499644,
      "learning_rate": 7.799086199656973e-06,
      "loss": 0.4804,
      "step": 2074
    },
    {
      "epoch": 0.3801758886038842,
      "grad_norm": 0.3943558730390511,
      "learning_rate": 7.796435816388899e-06,
      "loss": 0.4801,
      "step": 2075
    },
    {
      "epoch": 0.3803591058995969,
      "grad_norm": 0.3489087190074218,
      "learning_rate": 7.793784289221327e-06,
      "loss": 0.4739,
      "step": 2076
    },
    {
      "epoch": 0.3805423231953096,
      "grad_norm": 0.46217929374869915,
      "learning_rate": 7.791131619238876e-06,
      "loss": 0.4969,
      "step": 2077
    },
    {
      "epoch": 0.38072554049102236,
      "grad_norm": 0.41121895668172287,
      "learning_rate": 7.788477807526642e-06,
      "loss": 0.5032,
      "step": 2078
    },
    {
      "epoch": 0.38090875778673505,
      "grad_norm": 0.47930768983705513,
      "learning_rate": 7.78582285517018e-06,
      "loss": 0.4639,
      "step": 2079
    },
    {
      "epoch": 0.3810919750824478,
      "grad_norm": 0.47120906791011313,
      "learning_rate": 7.783166763255516e-06,
      "loss": 0.5224,
      "step": 2080
    },
    {
      "epoch": 0.3812751923781605,
      "grad_norm": 0.4205960711178245,
      "learning_rate": 7.780509532869141e-06,
      "loss": 0.4979,
      "step": 2081
    },
    {
      "epoch": 0.38145840967387323,
      "grad_norm": 0.3887963496226228,
      "learning_rate": 7.777851165098012e-06,
      "loss": 0.4834,
      "step": 2082
    },
    {
      "epoch": 0.3816416269695859,
      "grad_norm": 0.4018128309846247,
      "learning_rate": 7.77519166102955e-06,
      "loss": 0.506,
      "step": 2083
    },
    {
      "epoch": 0.38182484426529867,
      "grad_norm": 0.3794711195512327,
      "learning_rate": 7.772531021751642e-06,
      "loss": 0.4766,
      "step": 2084
    },
    {
      "epoch": 0.38200806156101136,
      "grad_norm": 0.4002770093735582,
      "learning_rate": 7.769869248352639e-06,
      "loss": 0.4521,
      "step": 2085
    },
    {
      "epoch": 0.38219127885672405,
      "grad_norm": 0.40267292791276327,
      "learning_rate": 7.767206341921355e-06,
      "loss": 0.5018,
      "step": 2086
    },
    {
      "epoch": 0.3823744961524368,
      "grad_norm": 0.383846702167805,
      "learning_rate": 7.764542303547072e-06,
      "loss": 0.477,
      "step": 2087
    },
    {
      "epoch": 0.3825577134481495,
      "grad_norm": 0.389093812397585,
      "learning_rate": 7.761877134319527e-06,
      "loss": 0.5249,
      "step": 2088
    },
    {
      "epoch": 0.38274093074386223,
      "grad_norm": 0.3517488994665113,
      "learning_rate": 7.759210835328928e-06,
      "loss": 0.4485,
      "step": 2089
    },
    {
      "epoch": 0.3829241480395749,
      "grad_norm": 0.4275804985293704,
      "learning_rate": 7.756543407665938e-06,
      "loss": 0.4793,
      "step": 2090
    },
    {
      "epoch": 0.38310736533528766,
      "grad_norm": 0.3767475363274418,
      "learning_rate": 7.753874852421685e-06,
      "loss": 0.4789,
      "step": 2091
    },
    {
      "epoch": 0.38329058263100035,
      "grad_norm": 0.38527193603900556,
      "learning_rate": 7.751205170687762e-06,
      "loss": 0.4594,
      "step": 2092
    },
    {
      "epoch": 0.3834737999267131,
      "grad_norm": 0.33802023090956396,
      "learning_rate": 7.748534363556218e-06,
      "loss": 0.4583,
      "step": 2093
    },
    {
      "epoch": 0.3836570172224258,
      "grad_norm": 0.3895945308329752,
      "learning_rate": 7.745862432119558e-06,
      "loss": 0.4686,
      "step": 2094
    },
    {
      "epoch": 0.38384023451813853,
      "grad_norm": 0.39516215803159543,
      "learning_rate": 7.743189377470757e-06,
      "loss": 0.4742,
      "step": 2095
    },
    {
      "epoch": 0.3840234518138512,
      "grad_norm": 0.39723290350325086,
      "learning_rate": 7.740515200703243e-06,
      "loss": 0.4882,
      "step": 2096
    },
    {
      "epoch": 0.38420666910956397,
      "grad_norm": 0.37756507867324496,
      "learning_rate": 7.737839902910907e-06,
      "loss": 0.4697,
      "step": 2097
    },
    {
      "epoch": 0.38438988640527666,
      "grad_norm": 0.3879992387325463,
      "learning_rate": 7.735163485188094e-06,
      "loss": 0.4744,
      "step": 2098
    },
    {
      "epoch": 0.38457310370098935,
      "grad_norm": 0.45772551256710314,
      "learning_rate": 7.73248594862961e-06,
      "loss": 0.4686,
      "step": 2099
    },
    {
      "epoch": 0.3847563209967021,
      "grad_norm": 0.3717857609113189,
      "learning_rate": 7.729807294330718e-06,
      "loss": 0.4891,
      "step": 2100
    },
    {
      "epoch": 0.3849395382924148,
      "grad_norm": 0.5207031925479648,
      "learning_rate": 7.727127523387137e-06,
      "loss": 0.5163,
      "step": 2101
    },
    {
      "epoch": 0.38512275558812753,
      "grad_norm": 0.38532398981684535,
      "learning_rate": 7.724446636895046e-06,
      "loss": 0.4912,
      "step": 2102
    },
    {
      "epoch": 0.3853059728838402,
      "grad_norm": 0.3872603076306824,
      "learning_rate": 7.721764635951077e-06,
      "loss": 0.4683,
      "step": 2103
    },
    {
      "epoch": 0.38548919017955297,
      "grad_norm": 0.3744508595734281,
      "learning_rate": 7.71908152165232e-06,
      "loss": 0.463,
      "step": 2104
    },
    {
      "epoch": 0.38567240747526566,
      "grad_norm": 0.37074138714238275,
      "learning_rate": 7.71639729509632e-06,
      "loss": 0.455,
      "step": 2105
    },
    {
      "epoch": 0.3858556247709784,
      "grad_norm": 6.78934868665371,
      "learning_rate": 7.713711957381075e-06,
      "loss": 0.4645,
      "step": 2106
    },
    {
      "epoch": 0.3860388420666911,
      "grad_norm": 0.3486518549122761,
      "learning_rate": 7.711025509605041e-06,
      "loss": 0.4554,
      "step": 2107
    },
    {
      "epoch": 0.38622205936240384,
      "grad_norm": 0.39662412739089803,
      "learning_rate": 7.708337952867124e-06,
      "loss": 0.4766,
      "step": 2108
    },
    {
      "epoch": 0.3864052766581165,
      "grad_norm": 0.39678336687354887,
      "learning_rate": 7.705649288266688e-06,
      "loss": 0.4809,
      "step": 2109
    },
    {
      "epoch": 0.3865884939538292,
      "grad_norm": 0.41426444886861935,
      "learning_rate": 7.702959516903545e-06,
      "loss": 0.4412,
      "step": 2110
    },
    {
      "epoch": 0.38677171124954196,
      "grad_norm": 0.4254268214393484,
      "learning_rate": 7.700268639877967e-06,
      "loss": 0.5163,
      "step": 2111
    },
    {
      "epoch": 0.38695492854525465,
      "grad_norm": 0.3850160297329316,
      "learning_rate": 7.69757665829067e-06,
      "loss": 0.4522,
      "step": 2112
    },
    {
      "epoch": 0.3871381458409674,
      "grad_norm": 0.40665372424080226,
      "learning_rate": 7.69488357324283e-06,
      "loss": 0.4778,
      "step": 2113
    },
    {
      "epoch": 0.3873213631366801,
      "grad_norm": 0.3734000274211507,
      "learning_rate": 7.692189385836066e-06,
      "loss": 0.504,
      "step": 2114
    },
    {
      "epoch": 0.38750458043239283,
      "grad_norm": 0.38369481344162354,
      "learning_rate": 7.689494097172457e-06,
      "loss": 0.4819,
      "step": 2115
    },
    {
      "epoch": 0.3876877977281055,
      "grad_norm": 0.39840029988152165,
      "learning_rate": 7.68679770835452e-06,
      "loss": 0.4762,
      "step": 2116
    },
    {
      "epoch": 0.38787101502381827,
      "grad_norm": 0.4950377112241031,
      "learning_rate": 7.684100220485239e-06,
      "loss": 0.4542,
      "step": 2117
    },
    {
      "epoch": 0.38805423231953096,
      "grad_norm": 0.41270189068249064,
      "learning_rate": 7.681401634668032e-06,
      "loss": 0.5096,
      "step": 2118
    },
    {
      "epoch": 0.3882374496152437,
      "grad_norm": 0.4081024716177487,
      "learning_rate": 7.678701952006773e-06,
      "loss": 0.4965,
      "step": 2119
    },
    {
      "epoch": 0.3884206669109564,
      "grad_norm": 0.36403093696511857,
      "learning_rate": 7.676001173605784e-06,
      "loss": 0.4849,
      "step": 2120
    },
    {
      "epoch": 0.38860388420666914,
      "grad_norm": 0.4211817424530919,
      "learning_rate": 7.673299300569838e-06,
      "loss": 0.4765,
      "step": 2121
    },
    {
      "epoch": 0.3887871015023818,
      "grad_norm": 0.35600532346699054,
      "learning_rate": 7.670596334004152e-06,
      "loss": 0.4456,
      "step": 2122
    },
    {
      "epoch": 0.3889703187980945,
      "grad_norm": 0.38487262294629787,
      "learning_rate": 7.66789227501439e-06,
      "loss": 0.4717,
      "step": 2123
    },
    {
      "epoch": 0.38915353609380726,
      "grad_norm": 0.42008503947816606,
      "learning_rate": 7.665187124706664e-06,
      "loss": 0.4904,
      "step": 2124
    },
    {
      "epoch": 0.38933675338951995,
      "grad_norm": 0.3883906836870506,
      "learning_rate": 7.662480884187533e-06,
      "loss": 0.5033,
      "step": 2125
    },
    {
      "epoch": 0.3895199706852327,
      "grad_norm": 0.34677206427001805,
      "learning_rate": 7.659773554564e-06,
      "loss": 0.4211,
      "step": 2126
    },
    {
      "epoch": 0.3897031879809454,
      "grad_norm": 0.3886521107281691,
      "learning_rate": 7.65706513694352e-06,
      "loss": 0.4657,
      "step": 2127
    },
    {
      "epoch": 0.38988640527665813,
      "grad_norm": 0.3956908204358445,
      "learning_rate": 7.654355632433983e-06,
      "loss": 0.4798,
      "step": 2128
    },
    {
      "epoch": 0.3900696225723708,
      "grad_norm": 0.39174045933217894,
      "learning_rate": 7.651645042143732e-06,
      "loss": 0.4719,
      "step": 2129
    },
    {
      "epoch": 0.39025283986808357,
      "grad_norm": 0.3893797813627037,
      "learning_rate": 7.64893336718155e-06,
      "loss": 0.4792,
      "step": 2130
    },
    {
      "epoch": 0.39043605716379626,
      "grad_norm": 0.4020267142996408,
      "learning_rate": 7.646220608656662e-06,
      "loss": 0.4919,
      "step": 2131
    },
    {
      "epoch": 0.390619274459509,
      "grad_norm": 0.4355175322607962,
      "learning_rate": 7.643506767678744e-06,
      "loss": 0.491,
      "step": 2132
    },
    {
      "epoch": 0.3908024917552217,
      "grad_norm": 0.3594415535306099,
      "learning_rate": 7.640791845357902e-06,
      "loss": 0.4689,
      "step": 2133
    },
    {
      "epoch": 0.3909857090509344,
      "grad_norm": 0.3629079494776069,
      "learning_rate": 7.6380758428047e-06,
      "loss": 0.483,
      "step": 2134
    },
    {
      "epoch": 0.39116892634664713,
      "grad_norm": 0.40466076269530643,
      "learning_rate": 7.635358761130132e-06,
      "loss": 0.4684,
      "step": 2135
    },
    {
      "epoch": 0.3913521436423598,
      "grad_norm": 0.3673513096544063,
      "learning_rate": 7.632640601445636e-06,
      "loss": 0.4457,
      "step": 2136
    },
    {
      "epoch": 0.39153536093807256,
      "grad_norm": 0.4115880305227066,
      "learning_rate": 7.629921364863093e-06,
      "loss": 0.4416,
      "step": 2137
    },
    {
      "epoch": 0.39171857823378525,
      "grad_norm": 0.40835494877531947,
      "learning_rate": 7.627201052494826e-06,
      "loss": 0.509,
      "step": 2138
    },
    {
      "epoch": 0.391901795529498,
      "grad_norm": 0.390879632879768,
      "learning_rate": 7.624479665453593e-06,
      "loss": 0.5069,
      "step": 2139
    },
    {
      "epoch": 0.3920850128252107,
      "grad_norm": 0.3926518851167653,
      "learning_rate": 7.6217572048525935e-06,
      "loss": 0.4801,
      "step": 2140
    },
    {
      "epoch": 0.39226823012092343,
      "grad_norm": 0.3605648124653004,
      "learning_rate": 7.619033671805472e-06,
      "loss": 0.4694,
      "step": 2141
    },
    {
      "epoch": 0.3924514474166361,
      "grad_norm": 0.40842922029409745,
      "learning_rate": 7.616309067426299e-06,
      "loss": 0.4857,
      "step": 2142
    },
    {
      "epoch": 0.39263466471234887,
      "grad_norm": 0.369533925890746,
      "learning_rate": 7.6135833928296e-06,
      "loss": 0.4918,
      "step": 2143
    },
    {
      "epoch": 0.39281788200806156,
      "grad_norm": 0.3825237185857143,
      "learning_rate": 7.61085664913032e-06,
      "loss": 0.4534,
      "step": 2144
    },
    {
      "epoch": 0.3930010993037743,
      "grad_norm": 0.38017004429876705,
      "learning_rate": 7.608128837443859e-06,
      "loss": 0.4842,
      "step": 2145
    },
    {
      "epoch": 0.393184316599487,
      "grad_norm": 0.3449268373210601,
      "learning_rate": 7.605399958886038e-06,
      "loss": 0.4686,
      "step": 2146
    },
    {
      "epoch": 0.3933675338951997,
      "grad_norm": 0.40247350440016877,
      "learning_rate": 7.602670014573128e-06,
      "loss": 0.51,
      "step": 2147
    },
    {
      "epoch": 0.39355075119091243,
      "grad_norm": 0.40267803112415795,
      "learning_rate": 7.599939005621824e-06,
      "loss": 0.483,
      "step": 2148
    },
    {
      "epoch": 0.3937339684866251,
      "grad_norm": 0.37001298207862,
      "learning_rate": 7.597206933149268e-06,
      "loss": 0.4733,
      "step": 2149
    },
    {
      "epoch": 0.39391718578233786,
      "grad_norm": 0.38585830693759504,
      "learning_rate": 7.594473798273027e-06,
      "loss": 0.5061,
      "step": 2150
    },
    {
      "epoch": 0.39410040307805055,
      "grad_norm": 0.4018233458442901,
      "learning_rate": 7.591739602111108e-06,
      "loss": 0.4896,
      "step": 2151
    },
    {
      "epoch": 0.3942836203737633,
      "grad_norm": 0.3792984268443907,
      "learning_rate": 7.589004345781951e-06,
      "loss": 0.5053,
      "step": 2152
    },
    {
      "epoch": 0.394466837669476,
      "grad_norm": 0.36337707550131254,
      "learning_rate": 7.5862680304044286e-06,
      "loss": 0.4865,
      "step": 2153
    },
    {
      "epoch": 0.39465005496518873,
      "grad_norm": 0.41298620701906524,
      "learning_rate": 7.583530657097851e-06,
      "loss": 0.4727,
      "step": 2154
    },
    {
      "epoch": 0.3948332722609014,
      "grad_norm": 0.37563122770443724,
      "learning_rate": 7.580792226981954e-06,
      "loss": 0.4821,
      "step": 2155
    },
    {
      "epoch": 0.39501648955661417,
      "grad_norm": 0.37054526425400464,
      "learning_rate": 7.578052741176914e-06,
      "loss": 0.4653,
      "step": 2156
    },
    {
      "epoch": 0.39519970685232686,
      "grad_norm": 0.4039521209284209,
      "learning_rate": 7.575312200803329e-06,
      "loss": 0.4726,
      "step": 2157
    },
    {
      "epoch": 0.39538292414803955,
      "grad_norm": 0.4394954934863309,
      "learning_rate": 7.572570606982239e-06,
      "loss": 0.4933,
      "step": 2158
    },
    {
      "epoch": 0.3955661414437523,
      "grad_norm": 0.38465023174159757,
      "learning_rate": 7.5698279608351064e-06,
      "loss": 0.4888,
      "step": 2159
    },
    {
      "epoch": 0.395749358739465,
      "grad_norm": 0.3560885282118001,
      "learning_rate": 7.5670842634838304e-06,
      "loss": 0.5009,
      "step": 2160
    },
    {
      "epoch": 0.39593257603517773,
      "grad_norm": 0.3589853290162964,
      "learning_rate": 7.564339516050736e-06,
      "loss": 0.5129,
      "step": 2161
    },
    {
      "epoch": 0.3961157933308904,
      "grad_norm": 0.35558865750409446,
      "learning_rate": 7.5615937196585795e-06,
      "loss": 0.4494,
      "step": 2162
    },
    {
      "epoch": 0.39629901062660317,
      "grad_norm": 0.37425144469863364,
      "learning_rate": 7.558846875430548e-06,
      "loss": 0.4783,
      "step": 2163
    },
    {
      "epoch": 0.39648222792231586,
      "grad_norm": 0.5576051549727741,
      "learning_rate": 7.556098984490252e-06,
      "loss": 0.4901,
      "step": 2164
    },
    {
      "epoch": 0.3966654452180286,
      "grad_norm": 0.3923037940354051,
      "learning_rate": 7.553350047961736e-06,
      "loss": 0.4707,
      "step": 2165
    },
    {
      "epoch": 0.3968486625137413,
      "grad_norm": 0.3967667690205941,
      "learning_rate": 7.550600066969467e-06,
      "loss": 0.4612,
      "step": 2166
    },
    {
      "epoch": 0.39703187980945404,
      "grad_norm": 0.4126790308950325,
      "learning_rate": 7.547849042638346e-06,
      "loss": 0.4755,
      "step": 2167
    },
    {
      "epoch": 0.3972150971051667,
      "grad_norm": 0.32410941657150816,
      "learning_rate": 7.545096976093691e-06,
      "loss": 0.4431,
      "step": 2168
    },
    {
      "epoch": 0.3973983144008794,
      "grad_norm": 0.35328756787903626,
      "learning_rate": 7.542343868461257e-06,
      "loss": 0.461,
      "step": 2169
    },
    {
      "epoch": 0.39758153169659216,
      "grad_norm": 0.40535237947349906,
      "learning_rate": 7.5395897208672175e-06,
      "loss": 0.4395,
      "step": 2170
    },
    {
      "epoch": 0.39776474899230485,
      "grad_norm": 0.3895685994822475,
      "learning_rate": 7.536834534438174e-06,
      "loss": 0.4647,
      "step": 2171
    },
    {
      "epoch": 0.3979479662880176,
      "grad_norm": 0.4200201633472651,
      "learning_rate": 7.5340783103011514e-06,
      "loss": 0.5078,
      "step": 2172
    },
    {
      "epoch": 0.3981311835837303,
      "grad_norm": 0.4220605089377968,
      "learning_rate": 7.531321049583604e-06,
      "loss": 0.5153,
      "step": 2173
    },
    {
      "epoch": 0.39831440087944303,
      "grad_norm": 0.46540844259324055,
      "learning_rate": 7.528562753413403e-06,
      "loss": 0.4587,
      "step": 2174
    },
    {
      "epoch": 0.3984976181751557,
      "grad_norm": 0.38752820563099566,
      "learning_rate": 7.525803422918849e-06,
      "loss": 0.5002,
      "step": 2175
    },
    {
      "epoch": 0.39868083547086847,
      "grad_norm": 0.4048295498281393,
      "learning_rate": 7.523043059228663e-06,
      "loss": 0.4754,
      "step": 2176
    },
    {
      "epoch": 0.39886405276658116,
      "grad_norm": 0.39440387714054603,
      "learning_rate": 7.520281663471987e-06,
      "loss": 0.4617,
      "step": 2177
    },
    {
      "epoch": 0.3990472700622939,
      "grad_norm": 0.3735891747445075,
      "learning_rate": 7.517519236778388e-06,
      "loss": 0.4791,
      "step": 2178
    },
    {
      "epoch": 0.3992304873580066,
      "grad_norm": 0.37520297038166667,
      "learning_rate": 7.514755780277854e-06,
      "loss": 0.4665,
      "step": 2179
    },
    {
      "epoch": 0.39941370465371934,
      "grad_norm": 0.39124000876509607,
      "learning_rate": 7.511991295100793e-06,
      "loss": 0.487,
      "step": 2180
    },
    {
      "epoch": 0.399596921949432,
      "grad_norm": 0.37390493837079697,
      "learning_rate": 7.509225782378039e-06,
      "loss": 0.4857,
      "step": 2181
    },
    {
      "epoch": 0.3997801392451447,
      "grad_norm": 0.4449963874189541,
      "learning_rate": 7.506459243240838e-06,
      "loss": 0.4337,
      "step": 2182
    },
    {
      "epoch": 0.39996335654085746,
      "grad_norm": 0.3574874059229643,
      "learning_rate": 7.503691678820862e-06,
      "loss": 0.486,
      "step": 2183
    },
    {
      "epoch": 0.40014657383657015,
      "grad_norm": 0.4093212385745805,
      "learning_rate": 7.500923090250199e-06,
      "loss": 0.4724,
      "step": 2184
    },
    {
      "epoch": 0.4003297911322829,
      "grad_norm": 0.37204853752647493,
      "learning_rate": 7.49815347866136e-06,
      "loss": 0.4763,
      "step": 2185
    },
    {
      "epoch": 0.4005130084279956,
      "grad_norm": 0.3977741195665693,
      "learning_rate": 7.495382845187269e-06,
      "loss": 0.4948,
      "step": 2186
    },
    {
      "epoch": 0.40069622572370833,
      "grad_norm": 0.4355144605708253,
      "learning_rate": 7.492611190961272e-06,
      "loss": 0.5168,
      "step": 2187
    },
    {
      "epoch": 0.400879443019421,
      "grad_norm": 0.38786474481273503,
      "learning_rate": 7.4898385171171325e-06,
      "loss": 0.4885,
      "step": 2188
    },
    {
      "epoch": 0.40106266031513377,
      "grad_norm": 0.39820590534589656,
      "learning_rate": 7.487064824789029e-06,
      "loss": 0.4931,
      "step": 2189
    },
    {
      "epoch": 0.40124587761084646,
      "grad_norm": 0.4369066265711082,
      "learning_rate": 7.484290115111556e-06,
      "loss": 0.5038,
      "step": 2190
    },
    {
      "epoch": 0.4014290949065592,
      "grad_norm": 0.3707270116501878,
      "learning_rate": 7.48151438921973e-06,
      "loss": 0.5141,
      "step": 2191
    },
    {
      "epoch": 0.4016123122022719,
      "grad_norm": 0.412393618517063,
      "learning_rate": 7.478737648248976e-06,
      "loss": 0.4083,
      "step": 2192
    },
    {
      "epoch": 0.4017955294979846,
      "grad_norm": 0.3454576812197135,
      "learning_rate": 7.475959893335137e-06,
      "loss": 0.4898,
      "step": 2193
    },
    {
      "epoch": 0.40197874679369733,
      "grad_norm": 0.36298388895956907,
      "learning_rate": 7.4731811256144715e-06,
      "loss": 0.477,
      "step": 2194
    },
    {
      "epoch": 0.40216196408941,
      "grad_norm": 0.42911123820279806,
      "learning_rate": 7.470401346223653e-06,
      "loss": 0.4856,
      "step": 2195
    },
    {
      "epoch": 0.40234518138512276,
      "grad_norm": 0.337394372757646,
      "learning_rate": 7.467620556299765e-06,
      "loss": 0.4874,
      "step": 2196
    },
    {
      "epoch": 0.40252839868083545,
      "grad_norm": 0.403125636190336,
      "learning_rate": 7.464838756980311e-06,
      "loss": 0.4818,
      "step": 2197
    },
    {
      "epoch": 0.4027116159765482,
      "grad_norm": 0.42854909357038723,
      "learning_rate": 7.462055949403197e-06,
      "loss": 0.4707,
      "step": 2198
    },
    {
      "epoch": 0.4028948332722609,
      "grad_norm": 0.3976349637207099,
      "learning_rate": 7.459272134706756e-06,
      "loss": 0.4872,
      "step": 2199
    },
    {
      "epoch": 0.40307805056797363,
      "grad_norm": 0.39149725720719286,
      "learning_rate": 7.4564873140297165e-06,
      "loss": 0.4547,
      "step": 2200
    },
    {
      "epoch": 0.4032612678636863,
      "grad_norm": 0.40865931439064734,
      "learning_rate": 7.4537014885112324e-06,
      "loss": 0.4935,
      "step": 2201
    },
    {
      "epoch": 0.40344448515939907,
      "grad_norm": 0.4015472011822115,
      "learning_rate": 7.450914659290861e-06,
      "loss": 0.4799,
      "step": 2202
    },
    {
      "epoch": 0.40362770245511176,
      "grad_norm": 0.4091493415252484,
      "learning_rate": 7.448126827508573e-06,
      "loss": 0.5062,
      "step": 2203
    },
    {
      "epoch": 0.4038109197508245,
      "grad_norm": 0.9070067666667128,
      "learning_rate": 7.4453379943047464e-06,
      "loss": 0.472,
      "step": 2204
    },
    {
      "epoch": 0.4039941370465372,
      "grad_norm": 0.4073603354252967,
      "learning_rate": 7.442548160820173e-06,
      "loss": 0.4688,
      "step": 2205
    },
    {
      "epoch": 0.4041773543422499,
      "grad_norm": 0.40144644953179104,
      "learning_rate": 7.43975732819605e-06,
      "loss": 0.4832,
      "step": 2206
    },
    {
      "epoch": 0.40436057163796263,
      "grad_norm": 0.4170873209324686,
      "learning_rate": 7.436965497573986e-06,
      "loss": 0.4828,
      "step": 2207
    },
    {
      "epoch": 0.4045437889336753,
      "grad_norm": 0.40847429220932524,
      "learning_rate": 7.434172670095996e-06,
      "loss": 0.5074,
      "step": 2208
    },
    {
      "epoch": 0.40472700622938806,
      "grad_norm": 0.40814229613422337,
      "learning_rate": 7.431378846904504e-06,
      "loss": 0.4771,
      "step": 2209
    },
    {
      "epoch": 0.40491022352510075,
      "grad_norm": 0.3679576716810249,
      "learning_rate": 7.42858402914234e-06,
      "loss": 0.4333,
      "step": 2210
    },
    {
      "epoch": 0.4050934408208135,
      "grad_norm": 0.37846692009685645,
      "learning_rate": 7.425788217952744e-06,
      "loss": 0.4749,
      "step": 2211
    },
    {
      "epoch": 0.4052766581165262,
      "grad_norm": 0.3837302497036784,
      "learning_rate": 7.422991414479357e-06,
      "loss": 0.5077,
      "step": 2212
    },
    {
      "epoch": 0.40545987541223893,
      "grad_norm": 0.3780801221538502,
      "learning_rate": 7.42019361986623e-06,
      "loss": 0.4957,
      "step": 2213
    },
    {
      "epoch": 0.4056430927079516,
      "grad_norm": 0.40118620548139255,
      "learning_rate": 7.4173948352578185e-06,
      "loss": 0.4906,
      "step": 2214
    },
    {
      "epoch": 0.40582631000366437,
      "grad_norm": 0.39428856095280773,
      "learning_rate": 7.414595061798982e-06,
      "loss": 0.4848,
      "step": 2215
    },
    {
      "epoch": 0.40600952729937706,
      "grad_norm": 0.38252867751426445,
      "learning_rate": 7.411794300634987e-06,
      "loss": 0.4712,
      "step": 2216
    },
    {
      "epoch": 0.40619274459508975,
      "grad_norm": 0.36880701937182847,
      "learning_rate": 7.408992552911501e-06,
      "loss": 0.4655,
      "step": 2217
    },
    {
      "epoch": 0.4063759618908025,
      "grad_norm": 0.3940805182917263,
      "learning_rate": 7.406189819774597e-06,
      "loss": 0.4833,
      "step": 2218
    },
    {
      "epoch": 0.4065591791865152,
      "grad_norm": 0.4354726470234921,
      "learning_rate": 7.403386102370751e-06,
      "loss": 0.4963,
      "step": 2219
    },
    {
      "epoch": 0.40674239648222793,
      "grad_norm": 0.35800143118316946,
      "learning_rate": 7.400581401846838e-06,
      "loss": 0.4886,
      "step": 2220
    },
    {
      "epoch": 0.4069256137779406,
      "grad_norm": 0.38756053513470157,
      "learning_rate": 7.397775719350142e-06,
      "loss": 0.4883,
      "step": 2221
    },
    {
      "epoch": 0.40710883107365337,
      "grad_norm": 0.3978384125978718,
      "learning_rate": 7.394969056028342e-06,
      "loss": 0.5035,
      "step": 2222
    },
    {
      "epoch": 0.40729204836936606,
      "grad_norm": 0.4098220600424564,
      "learning_rate": 7.392161413029524e-06,
      "loss": 0.5013,
      "step": 2223
    },
    {
      "epoch": 0.4074752656650788,
      "grad_norm": 0.3913210982172656,
      "learning_rate": 7.389352791502169e-06,
      "loss": 0.5028,
      "step": 2224
    },
    {
      "epoch": 0.4076584829607915,
      "grad_norm": 0.4018866869596013,
      "learning_rate": 7.386543192595164e-06,
      "loss": 0.4944,
      "step": 2225
    },
    {
      "epoch": 0.40784170025650424,
      "grad_norm": 0.44556717505388216,
      "learning_rate": 7.3837326174577885e-06,
      "loss": 0.5003,
      "step": 2226
    },
    {
      "epoch": 0.4080249175522169,
      "grad_norm": 0.39726874380074945,
      "learning_rate": 7.380921067239732e-06,
      "loss": 0.4853,
      "step": 2227
    },
    {
      "epoch": 0.40820813484792967,
      "grad_norm": 0.3604307128401756,
      "learning_rate": 7.378108543091071e-06,
      "loss": 0.5015,
      "step": 2228
    },
    {
      "epoch": 0.40839135214364236,
      "grad_norm": 0.3745391205200884,
      "learning_rate": 7.375295046162289e-06,
      "loss": 0.503,
      "step": 2229
    },
    {
      "epoch": 0.40857456943935505,
      "grad_norm": 0.5671616342121636,
      "learning_rate": 7.372480577604265e-06,
      "loss": 0.4645,
      "step": 2230
    },
    {
      "epoch": 0.4087577867350678,
      "grad_norm": 0.4233519035995331,
      "learning_rate": 7.369665138568273e-06,
      "loss": 0.4917,
      "step": 2231
    },
    {
      "epoch": 0.4089410040307805,
      "grad_norm": 0.4160654952014177,
      "learning_rate": 7.3668487302059864e-06,
      "loss": 0.4968,
      "step": 2232
    },
    {
      "epoch": 0.40912422132649323,
      "grad_norm": 0.39647388057983846,
      "learning_rate": 7.364031353669474e-06,
      "loss": 0.4905,
      "step": 2233
    },
    {
      "epoch": 0.4093074386222059,
      "grad_norm": 0.35780078289468054,
      "learning_rate": 7.361213010111203e-06,
      "loss": 0.4691,
      "step": 2234
    },
    {
      "epoch": 0.40949065591791867,
      "grad_norm": 0.3810189187242057,
      "learning_rate": 7.3583937006840335e-06,
      "loss": 0.478,
      "step": 2235
    },
    {
      "epoch": 0.40967387321363136,
      "grad_norm": 0.3638125779573905,
      "learning_rate": 7.355573426541221e-06,
      "loss": 0.4403,
      "step": 2236
    },
    {
      "epoch": 0.4098570905093441,
      "grad_norm": 0.3879941333719194,
      "learning_rate": 7.352752188836417e-06,
      "loss": 0.48,
      "step": 2237
    },
    {
      "epoch": 0.4100403078050568,
      "grad_norm": 0.35223422724381886,
      "learning_rate": 7.349929988723667e-06,
      "loss": 0.4382,
      "step": 2238
    },
    {
      "epoch": 0.41022352510076954,
      "grad_norm": 0.43035086728389904,
      "learning_rate": 7.347106827357408e-06,
      "loss": 0.5003,
      "step": 2239
    },
    {
      "epoch": 0.4104067423964822,
      "grad_norm": 0.3697650980170332,
      "learning_rate": 7.344282705892472e-06,
      "loss": 0.4812,
      "step": 2240
    },
    {
      "epoch": 0.4105899596921949,
      "grad_norm": 0.3688535347430096,
      "learning_rate": 7.341457625484084e-06,
      "loss": 0.4755,
      "step": 2241
    },
    {
      "epoch": 0.41077317698790766,
      "grad_norm": 0.37729895938975644,
      "learning_rate": 7.3386315872878614e-06,
      "loss": 0.4508,
      "step": 2242
    },
    {
      "epoch": 0.41095639428362035,
      "grad_norm": 0.36893825292436533,
      "learning_rate": 7.335804592459811e-06,
      "loss": 0.4581,
      "step": 2243
    },
    {
      "epoch": 0.4111396115793331,
      "grad_norm": 0.36619333950680655,
      "learning_rate": 7.332976642156334e-06,
      "loss": 0.493,
      "step": 2244
    },
    {
      "epoch": 0.4113228288750458,
      "grad_norm": 0.3837821710857386,
      "learning_rate": 7.330147737534221e-06,
      "loss": 0.4666,
      "step": 2245
    },
    {
      "epoch": 0.41150604617075853,
      "grad_norm": 1.2145896374263545,
      "learning_rate": 7.327317879750653e-06,
      "loss": 0.4731,
      "step": 2246
    },
    {
      "epoch": 0.4116892634664712,
      "grad_norm": 0.38417244763549135,
      "learning_rate": 7.324487069963201e-06,
      "loss": 0.4802,
      "step": 2247
    },
    {
      "epoch": 0.41187248076218397,
      "grad_norm": 0.36398444912010497,
      "learning_rate": 7.321655309329823e-06,
      "loss": 0.4899,
      "step": 2248
    },
    {
      "epoch": 0.41205569805789666,
      "grad_norm": 0.3577648813102727,
      "learning_rate": 7.318822599008872e-06,
      "loss": 0.503,
      "step": 2249
    },
    {
      "epoch": 0.4122389153536094,
      "grad_norm": 0.38814144311402826,
      "learning_rate": 7.315988940159085e-06,
      "loss": 0.4619,
      "step": 2250
    },
    {
      "epoch": 0.4124221326493221,
      "grad_norm": 0.37076356579116254,
      "learning_rate": 7.313154333939587e-06,
      "loss": 0.494,
      "step": 2251
    },
    {
      "epoch": 0.41260534994503484,
      "grad_norm": 0.35795968217997975,
      "learning_rate": 7.31031878150989e-06,
      "loss": 0.4542,
      "step": 2252
    },
    {
      "epoch": 0.41278856724074753,
      "grad_norm": 0.34611454726130503,
      "learning_rate": 7.307482284029897e-06,
      "loss": 0.4896,
      "step": 2253
    },
    {
      "epoch": 0.4129717845364602,
      "grad_norm": 0.4006663715053596,
      "learning_rate": 7.304644842659894e-06,
      "loss": 0.4808,
      "step": 2254
    },
    {
      "epoch": 0.41315500183217296,
      "grad_norm": 0.6073873668548115,
      "learning_rate": 7.301806458560553e-06,
      "loss": 0.4588,
      "step": 2255
    },
    {
      "epoch": 0.41333821912788565,
      "grad_norm": 0.38804921937120407,
      "learning_rate": 7.298967132892934e-06,
      "loss": 0.483,
      "step": 2256
    },
    {
      "epoch": 0.4135214364235984,
      "grad_norm": 0.414915648982362,
      "learning_rate": 7.2961268668184805e-06,
      "loss": 0.4633,
      "step": 2257
    },
    {
      "epoch": 0.4137046537193111,
      "grad_norm": 0.4036416573411531,
      "learning_rate": 7.293285661499021e-06,
      "loss": 0.489,
      "step": 2258
    },
    {
      "epoch": 0.41388787101502383,
      "grad_norm": 0.3856693171158019,
      "learning_rate": 7.2904435180967695e-06,
      "loss": 0.4943,
      "step": 2259
    },
    {
      "epoch": 0.4140710883107365,
      "grad_norm": 0.37781814896390287,
      "learning_rate": 7.2876004377743195e-06,
      "loss": 0.4711,
      "step": 2260
    },
    {
      "epoch": 0.41425430560644927,
      "grad_norm": 0.42598022297248983,
      "learning_rate": 7.284756421694653e-06,
      "loss": 0.4635,
      "step": 2261
    },
    {
      "epoch": 0.41443752290216196,
      "grad_norm": 0.3843619562770163,
      "learning_rate": 7.281911471021132e-06,
      "loss": 0.4613,
      "step": 2262
    },
    {
      "epoch": 0.4146207401978747,
      "grad_norm": 0.3719571330491704,
      "learning_rate": 7.279065586917501e-06,
      "loss": 0.4831,
      "step": 2263
    },
    {
      "epoch": 0.4148039574935874,
      "grad_norm": 0.36099595629868814,
      "learning_rate": 7.276218770547887e-06,
      "loss": 0.4745,
      "step": 2264
    },
    {
      "epoch": 0.4149871747893001,
      "grad_norm": 0.3710349117267771,
      "learning_rate": 7.273371023076798e-06,
      "loss": 0.4522,
      "step": 2265
    },
    {
      "epoch": 0.41517039208501283,
      "grad_norm": 0.3955654732668277,
      "learning_rate": 7.270522345669123e-06,
      "loss": 0.4777,
      "step": 2266
    },
    {
      "epoch": 0.4153536093807255,
      "grad_norm": 0.3497920558334845,
      "learning_rate": 7.26767273949013e-06,
      "loss": 0.4808,
      "step": 2267
    },
    {
      "epoch": 0.41553682667643826,
      "grad_norm": 0.3768858557614057,
      "learning_rate": 7.26482220570547e-06,
      "loss": 0.4813,
      "step": 2268
    },
    {
      "epoch": 0.41572004397215095,
      "grad_norm": 0.3846462900161903,
      "learning_rate": 7.261970745481171e-06,
      "loss": 0.5131,
      "step": 2269
    },
    {
      "epoch": 0.4159032612678637,
      "grad_norm": 0.33914797999173163,
      "learning_rate": 7.25911835998364e-06,
      "loss": 0.4859,
      "step": 2270
    },
    {
      "epoch": 0.4160864785635764,
      "grad_norm": 0.40245926200014415,
      "learning_rate": 7.256265050379665e-06,
      "loss": 0.441,
      "step": 2271
    },
    {
      "epoch": 0.41626969585928913,
      "grad_norm": 0.4076739044981689,
      "learning_rate": 7.253410817836405e-06,
      "loss": 0.508,
      "step": 2272
    },
    {
      "epoch": 0.4164529131550018,
      "grad_norm": 0.3549816696082439,
      "learning_rate": 7.250555663521408e-06,
      "loss": 0.4419,
      "step": 2273
    },
    {
      "epoch": 0.41663613045071457,
      "grad_norm": 0.42523114420007596,
      "learning_rate": 7.247699588602588e-06,
      "loss": 0.4637,
      "step": 2274
    },
    {
      "epoch": 0.41681934774642726,
      "grad_norm": 0.43818992996209233,
      "learning_rate": 7.244842594248244e-06,
      "loss": 0.4551,
      "step": 2275
    },
    {
      "epoch": 0.41700256504214,
      "grad_norm": 0.39560111046216095,
      "learning_rate": 7.2419846816270425e-06,
      "loss": 0.4361,
      "step": 2276
    },
    {
      "epoch": 0.4171857823378527,
      "grad_norm": 0.38787100181152556,
      "learning_rate": 7.239125851908035e-06,
      "loss": 0.4737,
      "step": 2277
    },
    {
      "epoch": 0.4173689996335654,
      "grad_norm": 0.3557365091431396,
      "learning_rate": 7.236266106260641e-06,
      "loss": 0.4992,
      "step": 2278
    },
    {
      "epoch": 0.41755221692927813,
      "grad_norm": 0.4203070336395134,
      "learning_rate": 7.23340544585466e-06,
      "loss": 0.4909,
      "step": 2279
    },
    {
      "epoch": 0.4177354342249908,
      "grad_norm": 0.4108396938981641,
      "learning_rate": 7.2305438718602594e-06,
      "loss": 0.4695,
      "step": 2280
    },
    {
      "epoch": 0.41791865152070357,
      "grad_norm": 0.4620346664763805,
      "learning_rate": 7.227681385447988e-06,
      "loss": 0.4918,
      "step": 2281
    },
    {
      "epoch": 0.41810186881641626,
      "grad_norm": 0.41033815242464133,
      "learning_rate": 7.22481798778876e-06,
      "loss": 0.4571,
      "step": 2282
    },
    {
      "epoch": 0.418285086112129,
      "grad_norm": 0.40104297809788464,
      "learning_rate": 7.221953680053867e-06,
      "loss": 0.4381,
      "step": 2283
    },
    {
      "epoch": 0.4184683034078417,
      "grad_norm": 0.40968469354164905,
      "learning_rate": 7.219088463414972e-06,
      "loss": 0.4844,
      "step": 2284
    },
    {
      "epoch": 0.41865152070355444,
      "grad_norm": 0.39955381671097556,
      "learning_rate": 7.216222339044111e-06,
      "loss": 0.4835,
      "step": 2285
    },
    {
      "epoch": 0.4188347379992671,
      "grad_norm": 0.5918823635482916,
      "learning_rate": 7.213355308113688e-06,
      "loss": 0.481,
      "step": 2286
    },
    {
      "epoch": 0.41901795529497987,
      "grad_norm": 0.4438898450190298,
      "learning_rate": 7.210487371796482e-06,
      "loss": 0.5296,
      "step": 2287
    },
    {
      "epoch": 0.41920117259069256,
      "grad_norm": 0.42513041758375775,
      "learning_rate": 7.207618531265639e-06,
      "loss": 0.4787,
      "step": 2288
    },
    {
      "epoch": 0.41938438988640525,
      "grad_norm": 0.4344461669669104,
      "learning_rate": 7.204748787694676e-06,
      "loss": 0.5039,
      "step": 2289
    },
    {
      "epoch": 0.419567607182118,
      "grad_norm": 0.362299437631823,
      "learning_rate": 7.201878142257481e-06,
      "loss": 0.4858,
      "step": 2290
    },
    {
      "epoch": 0.4197508244778307,
      "grad_norm": 0.38326936079136137,
      "learning_rate": 7.1990065961283075e-06,
      "loss": 0.4999,
      "step": 2291
    },
    {
      "epoch": 0.41993404177354343,
      "grad_norm": 0.37084577713617844,
      "learning_rate": 7.19613415048178e-06,
      "loss": 0.4744,
      "step": 2292
    },
    {
      "epoch": 0.4201172590692561,
      "grad_norm": 0.3857222120456293,
      "learning_rate": 7.19326080649289e-06,
      "loss": 0.4567,
      "step": 2293
    },
    {
      "epoch": 0.42030047636496887,
      "grad_norm": 0.41124445894901135,
      "learning_rate": 7.190386565336997e-06,
      "loss": 0.445,
      "step": 2294
    },
    {
      "epoch": 0.42048369366068156,
      "grad_norm": 0.3888927715893213,
      "learning_rate": 7.187511428189828e-06,
      "loss": 0.4659,
      "step": 2295
    },
    {
      "epoch": 0.4206669109563943,
      "grad_norm": 0.40097744869064067,
      "learning_rate": 7.184635396227475e-06,
      "loss": 0.4925,
      "step": 2296
    },
    {
      "epoch": 0.420850128252107,
      "grad_norm": 0.34895768769998925,
      "learning_rate": 7.181758470626398e-06,
      "loss": 0.4621,
      "step": 2297
    },
    {
      "epoch": 0.42103334554781974,
      "grad_norm": 0.42929749713876525,
      "learning_rate": 7.178880652563418e-06,
      "loss": 0.4495,
      "step": 2298
    },
    {
      "epoch": 0.4212165628435324,
      "grad_norm": 0.4370392489135322,
      "learning_rate": 7.1760019432157295e-06,
      "loss": 0.5151,
      "step": 2299
    },
    {
      "epoch": 0.4213997801392451,
      "grad_norm": 0.4050632338683901,
      "learning_rate": 7.173122343760881e-06,
      "loss": 0.4686,
      "step": 2300
    },
    {
      "epoch": 0.42158299743495786,
      "grad_norm": 0.39620071670775564,
      "learning_rate": 7.170241855376795e-06,
      "loss": 0.4549,
      "step": 2301
    },
    {
      "epoch": 0.42176621473067055,
      "grad_norm": 0.376717314708779,
      "learning_rate": 7.16736047924175e-06,
      "loss": 0.4609,
      "step": 2302
    },
    {
      "epoch": 0.4219494320263833,
      "grad_norm": 0.39539845287388553,
      "learning_rate": 7.164478216534394e-06,
      "loss": 0.4487,
      "step": 2303
    },
    {
      "epoch": 0.422132649322096,
      "grad_norm": 0.3977551665287066,
      "learning_rate": 7.161595068433732e-06,
      "loss": 0.4967,
      "step": 2304
    },
    {
      "epoch": 0.42231586661780873,
      "grad_norm": 0.4238609498668758,
      "learning_rate": 7.158711036119136e-06,
      "loss": 0.4842,
      "step": 2305
    },
    {
      "epoch": 0.4224990839135214,
      "grad_norm": 0.3816935398139279,
      "learning_rate": 7.155826120770334e-06,
      "loss": 0.4945,
      "step": 2306
    },
    {
      "epoch": 0.42268230120923417,
      "grad_norm": 0.40787570736995066,
      "learning_rate": 7.1529403235674236e-06,
      "loss": 0.4384,
      "step": 2307
    },
    {
      "epoch": 0.42286551850494686,
      "grad_norm": 0.39353745511283,
      "learning_rate": 7.150053645690852e-06,
      "loss": 0.4675,
      "step": 2308
    },
    {
      "epoch": 0.4230487358006596,
      "grad_norm": 0.37196245750947515,
      "learning_rate": 7.147166088321438e-06,
      "loss": 0.4757,
      "step": 2309
    },
    {
      "epoch": 0.4232319530963723,
      "grad_norm": 0.35562310599814084,
      "learning_rate": 7.144277652640351e-06,
      "loss": 0.4746,
      "step": 2310
    },
    {
      "epoch": 0.42341517039208504,
      "grad_norm": 0.4033914255134625,
      "learning_rate": 7.141388339829128e-06,
      "loss": 0.4582,
      "step": 2311
    },
    {
      "epoch": 0.42359838768779773,
      "grad_norm": 0.39959402533230987,
      "learning_rate": 7.138498151069656e-06,
      "loss": 0.4529,
      "step": 2312
    },
    {
      "epoch": 0.4237816049835104,
      "grad_norm": 0.4330351824355995,
      "learning_rate": 7.135607087544187e-06,
      "loss": 0.511,
      "step": 2313
    },
    {
      "epoch": 0.42396482227922316,
      "grad_norm": 0.37271850156382125,
      "learning_rate": 7.132715150435328e-06,
      "loss": 0.4896,
      "step": 2314
    },
    {
      "epoch": 0.42414803957493585,
      "grad_norm": 0.3317719970934139,
      "learning_rate": 7.129822340926045e-06,
      "loss": 0.4821,
      "step": 2315
    },
    {
      "epoch": 0.4243312568706486,
      "grad_norm": 0.33830240266972705,
      "learning_rate": 7.126928660199658e-06,
      "loss": 0.4634,
      "step": 2316
    },
    {
      "epoch": 0.4245144741663613,
      "grad_norm": 0.399219687554885,
      "learning_rate": 7.1240341094398454e-06,
      "loss": 0.4598,
      "step": 2317
    },
    {
      "epoch": 0.42469769146207403,
      "grad_norm": 0.5150508709340539,
      "learning_rate": 7.121138689830643e-06,
      "loss": 0.4851,
      "step": 2318
    },
    {
      "epoch": 0.4248809087577867,
      "grad_norm": 0.3970274185491194,
      "learning_rate": 7.118242402556439e-06,
      "loss": 0.447,
      "step": 2319
    },
    {
      "epoch": 0.42506412605349947,
      "grad_norm": 0.3946847066468069,
      "learning_rate": 7.115345248801978e-06,
      "loss": 0.499,
      "step": 2320
    },
    {
      "epoch": 0.42524734334921216,
      "grad_norm": 0.4466655731547931,
      "learning_rate": 7.112447229752358e-06,
      "loss": 0.514,
      "step": 2321
    },
    {
      "epoch": 0.4254305606449249,
      "grad_norm": 0.43460768309632875,
      "learning_rate": 7.1095483465930324e-06,
      "loss": 0.4769,
      "step": 2322
    },
    {
      "epoch": 0.4256137779406376,
      "grad_norm": 0.3941251324343338,
      "learning_rate": 7.106648600509809e-06,
      "loss": 0.463,
      "step": 2323
    },
    {
      "epoch": 0.4257969952363503,
      "grad_norm": 0.35038780729862357,
      "learning_rate": 7.1037479926888435e-06,
      "loss": 0.4433,
      "step": 2324
    },
    {
      "epoch": 0.42598021253206303,
      "grad_norm": 0.3908500139385616,
      "learning_rate": 7.100846524316651e-06,
      "loss": 0.4712,
      "step": 2325
    },
    {
      "epoch": 0.4261634298277757,
      "grad_norm": 0.3846701226032806,
      "learning_rate": 7.0979441965800914e-06,
      "loss": 0.4534,
      "step": 2326
    },
    {
      "epoch": 0.42634664712348846,
      "grad_norm": 0.34990602751139527,
      "learning_rate": 7.095041010666385e-06,
      "loss": 0.4621,
      "step": 2327
    },
    {
      "epoch": 0.42652986441920115,
      "grad_norm": 0.37881854495740264,
      "learning_rate": 7.092136967763092e-06,
      "loss": 0.4724,
      "step": 2328
    },
    {
      "epoch": 0.4267130817149139,
      "grad_norm": 0.43968136919390277,
      "learning_rate": 7.089232069058136e-06,
      "loss": 0.5014,
      "step": 2329
    },
    {
      "epoch": 0.4268962990106266,
      "grad_norm": 0.37304517337745097,
      "learning_rate": 7.086326315739779e-06,
      "loss": 0.4529,
      "step": 2330
    },
    {
      "epoch": 0.42707951630633934,
      "grad_norm": 0.40182316420986464,
      "learning_rate": 7.083419708996641e-06,
      "loss": 0.4991,
      "step": 2331
    },
    {
      "epoch": 0.427262733602052,
      "grad_norm": 0.37377079348812675,
      "learning_rate": 7.080512250017682e-06,
      "loss": 0.4797,
      "step": 2332
    },
    {
      "epoch": 0.42744595089776477,
      "grad_norm": 0.372732844224778,
      "learning_rate": 7.0776039399922235e-06,
      "loss": 0.5096,
      "step": 2333
    },
    {
      "epoch": 0.42762916819347746,
      "grad_norm": 0.4343243599651058,
      "learning_rate": 7.074694780109923e-06,
      "loss": 0.4912,
      "step": 2334
    },
    {
      "epoch": 0.4278123854891902,
      "grad_norm": 0.4198262565591371,
      "learning_rate": 7.07178477156079e-06,
      "loss": 0.488,
      "step": 2335
    },
    {
      "epoch": 0.4279956027849029,
      "grad_norm": 0.41905722971607356,
      "learning_rate": 7.068873915535186e-06,
      "loss": 0.5009,
      "step": 2336
    },
    {
      "epoch": 0.4281788200806156,
      "grad_norm": 0.4198816783375255,
      "learning_rate": 7.0659622132238105e-06,
      "loss": 0.5005,
      "step": 2337
    },
    {
      "epoch": 0.42836203737632833,
      "grad_norm": 0.3985114381144264,
      "learning_rate": 7.063049665817715e-06,
      "loss": 0.4938,
      "step": 2338
    },
    {
      "epoch": 0.428545254672041,
      "grad_norm": 0.3846276120934009,
      "learning_rate": 7.060136274508296e-06,
      "loss": 0.4399,
      "step": 2339
    },
    {
      "epoch": 0.42872847196775377,
      "grad_norm": 0.35050377226240487,
      "learning_rate": 7.057222040487292e-06,
      "loss": 0.4731,
      "step": 2340
    },
    {
      "epoch": 0.42891168926346646,
      "grad_norm": 0.3758851287952108,
      "learning_rate": 7.054306964946793e-06,
      "loss": 0.4955,
      "step": 2341
    },
    {
      "epoch": 0.4290949065591792,
      "grad_norm": 0.41910557353111433,
      "learning_rate": 7.051391049079225e-06,
      "loss": 0.4535,
      "step": 2342
    },
    {
      "epoch": 0.4292781238548919,
      "grad_norm": 0.34980515305649706,
      "learning_rate": 7.048474294077362e-06,
      "loss": 0.475,
      "step": 2343
    },
    {
      "epoch": 0.42946134115060464,
      "grad_norm": 0.46683734709027264,
      "learning_rate": 7.045556701134322e-06,
      "loss": 0.5025,
      "step": 2344
    },
    {
      "epoch": 0.4296445584463173,
      "grad_norm": 0.39201870728174676,
      "learning_rate": 7.042638271443564e-06,
      "loss": 0.4706,
      "step": 2345
    },
    {
      "epoch": 0.42982777574203007,
      "grad_norm": 0.4294298317206374,
      "learning_rate": 7.039719006198889e-06,
      "loss": 0.508,
      "step": 2346
    },
    {
      "epoch": 0.43001099303774276,
      "grad_norm": 0.4378542511044781,
      "learning_rate": 7.036798906594442e-06,
      "loss": 0.5178,
      "step": 2347
    },
    {
      "epoch": 0.43019421033345545,
      "grad_norm": 0.38517984572050734,
      "learning_rate": 7.033877973824708e-06,
      "loss": 0.4893,
      "step": 2348
    },
    {
      "epoch": 0.4303774276291682,
      "grad_norm": 0.38827074079168944,
      "learning_rate": 7.030956209084512e-06,
      "loss": 0.4446,
      "step": 2349
    },
    {
      "epoch": 0.4305606449248809,
      "grad_norm": 0.7716576786129257,
      "learning_rate": 7.02803361356902e-06,
      "loss": 0.488,
      "step": 2350
    },
    {
      "epoch": 0.43074386222059363,
      "grad_norm": 0.440955197231558,
      "learning_rate": 7.02511018847374e-06,
      "loss": 0.5003,
      "step": 2351
    },
    {
      "epoch": 0.4309270795163063,
      "grad_norm": 0.4300046727583612,
      "learning_rate": 7.022185934994512e-06,
      "loss": 0.4669,
      "step": 2352
    },
    {
      "epoch": 0.43111029681201907,
      "grad_norm": 0.37622768004399426,
      "learning_rate": 7.019260854327527e-06,
      "loss": 0.4614,
      "step": 2353
    },
    {
      "epoch": 0.43129351410773176,
      "grad_norm": 0.41243518545225494,
      "learning_rate": 7.016334947669301e-06,
      "loss": 0.4778,
      "step": 2354
    },
    {
      "epoch": 0.4314767314034445,
      "grad_norm": 0.38779305226028166,
      "learning_rate": 7.0134082162167e-06,
      "loss": 0.4373,
      "step": 2355
    },
    {
      "epoch": 0.4316599486991572,
      "grad_norm": 0.414920440559208,
      "learning_rate": 7.010480661166916e-06,
      "loss": 0.472,
      "step": 2356
    },
    {
      "epoch": 0.43184316599486994,
      "grad_norm": 0.44396932472750594,
      "learning_rate": 7.0075522837174905e-06,
      "loss": 0.4997,
      "step": 2357
    },
    {
      "epoch": 0.4320263832905826,
      "grad_norm": 0.37434944716162305,
      "learning_rate": 7.0046230850662875e-06,
      "loss": 0.4431,
      "step": 2358
    },
    {
      "epoch": 0.4322096005862954,
      "grad_norm": 0.3896111851669577,
      "learning_rate": 7.00169306641152e-06,
      "loss": 0.5243,
      "step": 2359
    },
    {
      "epoch": 0.43239281788200806,
      "grad_norm": 0.48856853232800274,
      "learning_rate": 6.9987622289517275e-06,
      "loss": 0.4943,
      "step": 2360
    },
    {
      "epoch": 0.43257603517772075,
      "grad_norm": 0.4283382340422475,
      "learning_rate": 6.995830573885787e-06,
      "loss": 0.4708,
      "step": 2361
    },
    {
      "epoch": 0.4327592524734335,
      "grad_norm": 0.38077833149258267,
      "learning_rate": 6.99289810241291e-06,
      "loss": 0.463,
      "step": 2362
    },
    {
      "epoch": 0.4329424697691462,
      "grad_norm": 0.39433666825831887,
      "learning_rate": 6.989964815732643e-06,
      "loss": 0.4608,
      "step": 2363
    },
    {
      "epoch": 0.43312568706485893,
      "grad_norm": 0.39945011068065406,
      "learning_rate": 6.9870307150448655e-06,
      "loss": 0.4544,
      "step": 2364
    },
    {
      "epoch": 0.4333089043605716,
      "grad_norm": 0.3819624777398398,
      "learning_rate": 6.98409580154979e-06,
      "loss": 0.4914,
      "step": 2365
    },
    {
      "epoch": 0.43349212165628437,
      "grad_norm": 0.3729087458748407,
      "learning_rate": 6.98116007644796e-06,
      "loss": 0.4751,
      "step": 2366
    },
    {
      "epoch": 0.43367533895199706,
      "grad_norm": 0.3793765431857637,
      "learning_rate": 6.978223540940253e-06,
      "loss": 0.4368,
      "step": 2367
    },
    {
      "epoch": 0.4338585562477098,
      "grad_norm": 0.33810640239705714,
      "learning_rate": 6.9752861962278775e-06,
      "loss": 0.472,
      "step": 2368
    },
    {
      "epoch": 0.4340417735434225,
      "grad_norm": 0.43051317835138775,
      "learning_rate": 6.97234804351237e-06,
      "loss": 0.4945,
      "step": 2369
    },
    {
      "epoch": 0.43422499083913524,
      "grad_norm": 0.3961468902292914,
      "learning_rate": 6.969409083995604e-06,
      "loss": 0.5028,
      "step": 2370
    },
    {
      "epoch": 0.43440820813484793,
      "grad_norm": 0.36626866660201934,
      "learning_rate": 6.9664693188797776e-06,
      "loss": 0.468,
      "step": 2371
    },
    {
      "epoch": 0.4345914254305606,
      "grad_norm": 0.3840127265100837,
      "learning_rate": 6.963528749367419e-06,
      "loss": 0.4791,
      "step": 2372
    },
    {
      "epoch": 0.43477464272627336,
      "grad_norm": 0.4233350086872284,
      "learning_rate": 6.960587376661388e-06,
      "loss": 0.4973,
      "step": 2373
    },
    {
      "epoch": 0.43495786002198605,
      "grad_norm": 0.39660597892499455,
      "learning_rate": 6.957645201964869e-06,
      "loss": 0.5158,
      "step": 2374
    },
    {
      "epoch": 0.4351410773176988,
      "grad_norm": 0.4125283665972468,
      "learning_rate": 6.95470222648138e-06,
      "loss": 0.4674,
      "step": 2375
    },
    {
      "epoch": 0.4353242946134115,
      "grad_norm": 0.3510950157002611,
      "learning_rate": 6.951758451414763e-06,
      "loss": 0.4642,
      "step": 2376
    },
    {
      "epoch": 0.43550751190912423,
      "grad_norm": 0.4182866500256308,
      "learning_rate": 6.948813877969186e-06,
      "loss": 0.4471,
      "step": 2377
    },
    {
      "epoch": 0.4356907292048369,
      "grad_norm": 0.3981987861546714,
      "learning_rate": 6.945868507349145e-06,
      "loss": 0.4634,
      "step": 2378
    },
    {
      "epoch": 0.43587394650054967,
      "grad_norm": 0.3873084451270221,
      "learning_rate": 6.942922340759465e-06,
      "loss": 0.4658,
      "step": 2379
    },
    {
      "epoch": 0.43605716379626236,
      "grad_norm": 0.4252831559416119,
      "learning_rate": 6.9399753794052885e-06,
      "loss": 0.4913,
      "step": 2380
    },
    {
      "epoch": 0.4362403810919751,
      "grad_norm": 0.40795500548552754,
      "learning_rate": 6.937027624492096e-06,
      "loss": 0.495,
      "step": 2381
    },
    {
      "epoch": 0.4364235983876878,
      "grad_norm": 0.3925888436033216,
      "learning_rate": 6.934079077225677e-06,
      "loss": 0.4763,
      "step": 2382
    },
    {
      "epoch": 0.43660681568340054,
      "grad_norm": 0.39941871004367224,
      "learning_rate": 6.931129738812159e-06,
      "loss": 0.4787,
      "step": 2383
    },
    {
      "epoch": 0.43679003297911323,
      "grad_norm": 0.3996234463219394,
      "learning_rate": 6.9281796104579835e-06,
      "loss": 0.4753,
      "step": 2384
    },
    {
      "epoch": 0.4369732502748259,
      "grad_norm": 0.3922661120163237,
      "learning_rate": 6.925228693369923e-06,
      "loss": 0.4771,
      "step": 2385
    },
    {
      "epoch": 0.43715646757053866,
      "grad_norm": 0.404326588298471,
      "learning_rate": 6.9222769887550635e-06,
      "loss": 0.4699,
      "step": 2386
    },
    {
      "epoch": 0.43733968486625135,
      "grad_norm": 0.3655927936043432,
      "learning_rate": 6.9193244978208226e-06,
      "loss": 0.4693,
      "step": 2387
    },
    {
      "epoch": 0.4375229021619641,
      "grad_norm": 0.3988742818248961,
      "learning_rate": 6.916371221774933e-06,
      "loss": 0.4987,
      "step": 2388
    },
    {
      "epoch": 0.4377061194576768,
      "grad_norm": 0.3693227091150787,
      "learning_rate": 6.913417161825449e-06,
      "loss": 0.4807,
      "step": 2389
    },
    {
      "epoch": 0.43788933675338954,
      "grad_norm": 0.3743760464575296,
      "learning_rate": 6.9104623191807504e-06,
      "loss": 0.455,
      "step": 2390
    },
    {
      "epoch": 0.4380725540491022,
      "grad_norm": 0.4005752769269041,
      "learning_rate": 6.907506695049534e-06,
      "loss": 0.4968,
      "step": 2391
    },
    {
      "epoch": 0.43825577134481497,
      "grad_norm": 0.40888615444760756,
      "learning_rate": 6.904550290640815e-06,
      "loss": 0.4893,
      "step": 2392
    },
    {
      "epoch": 0.43843898864052766,
      "grad_norm": 0.7348387573263818,
      "learning_rate": 6.901593107163926e-06,
      "loss": 0.4669,
      "step": 2393
    },
    {
      "epoch": 0.4386222059362404,
      "grad_norm": 0.39657513243027714,
      "learning_rate": 6.898635145828528e-06,
      "loss": 0.4635,
      "step": 2394
    },
    {
      "epoch": 0.4388054232319531,
      "grad_norm": 0.43761475845246406,
      "learning_rate": 6.895676407844587e-06,
      "loss": 0.4616,
      "step": 2395
    },
    {
      "epoch": 0.4389886405276658,
      "grad_norm": 0.41601703075771596,
      "learning_rate": 6.8927168944224e-06,
      "loss": 0.4825,
      "step": 2396
    },
    {
      "epoch": 0.43917185782337853,
      "grad_norm": 0.420359912271575,
      "learning_rate": 6.889756606772566e-06,
      "loss": 0.4992,
      "step": 2397
    },
    {
      "epoch": 0.4393550751190912,
      "grad_norm": 0.33481929474990846,
      "learning_rate": 6.886795546106018e-06,
      "loss": 0.4711,
      "step": 2398
    },
    {
      "epoch": 0.43953829241480397,
      "grad_norm": 0.38476666672073384,
      "learning_rate": 6.883833713633988e-06,
      "loss": 0.4819,
      "step": 2399
    },
    {
      "epoch": 0.43972150971051666,
      "grad_norm": 0.3827469135624022,
      "learning_rate": 6.880871110568039e-06,
      "loss": 0.4773,
      "step": 2400
    },
    {
      "epoch": 0.4399047270062294,
      "grad_norm": 0.36455987354043057,
      "learning_rate": 6.877907738120038e-06,
      "loss": 0.4485,
      "step": 2401
    },
    {
      "epoch": 0.4400879443019421,
      "grad_norm": 0.40927725664501297,
      "learning_rate": 6.8749435975021725e-06,
      "loss": 0.4673,
      "step": 2402
    },
    {
      "epoch": 0.44027116159765484,
      "grad_norm": 0.3635877075757829,
      "learning_rate": 6.8719786899269426e-06,
      "loss": 0.4514,
      "step": 2403
    },
    {
      "epoch": 0.4404543788933675,
      "grad_norm": 0.3775825683457327,
      "learning_rate": 6.869013016607161e-06,
      "loss": 0.4672,
      "step": 2404
    },
    {
      "epoch": 0.44063759618908027,
      "grad_norm": 0.41615535751605043,
      "learning_rate": 6.866046578755957e-06,
      "loss": 0.5103,
      "step": 2405
    },
    {
      "epoch": 0.44082081348479296,
      "grad_norm": 0.37936631222961226,
      "learning_rate": 6.86307937758677e-06,
      "loss": 0.5207,
      "step": 2406
    },
    {
      "epoch": 0.4410040307805057,
      "grad_norm": 0.4482772891450156,
      "learning_rate": 6.8601114143133495e-06,
      "loss": 0.4744,
      "step": 2407
    },
    {
      "epoch": 0.4411872480762184,
      "grad_norm": 0.43659529780579315,
      "learning_rate": 6.857142690149763e-06,
      "loss": 0.4547,
      "step": 2408
    },
    {
      "epoch": 0.4413704653719311,
      "grad_norm": 0.3999276749098566,
      "learning_rate": 6.854173206310384e-06,
      "loss": 0.4556,
      "step": 2409
    },
    {
      "epoch": 0.44155368266764383,
      "grad_norm": 0.3656325688650321,
      "learning_rate": 6.8512029640098975e-06,
      "loss": 0.4776,
      "step": 2410
    },
    {
      "epoch": 0.4417368999633565,
      "grad_norm": 0.3997280896111769,
      "learning_rate": 6.848231964463301e-06,
      "loss": 0.5314,
      "step": 2411
    },
    {
      "epoch": 0.44192011725906927,
      "grad_norm": 0.404062762092106,
      "learning_rate": 6.8452602088859e-06,
      "loss": 0.5038,
      "step": 2412
    },
    {
      "epoch": 0.44210333455478196,
      "grad_norm": 0.3896279134336174,
      "learning_rate": 6.842287698493311e-06,
      "loss": 0.5022,
      "step": 2413
    },
    {
      "epoch": 0.4422865518504947,
      "grad_norm": 0.4009423784359649,
      "learning_rate": 6.839314434501454e-06,
      "loss": 0.4735,
      "step": 2414
    },
    {
      "epoch": 0.4424697691462074,
      "grad_norm": 0.34610422596550333,
      "learning_rate": 6.8363404181265645e-06,
      "loss": 0.4381,
      "step": 2415
    },
    {
      "epoch": 0.44265298644192014,
      "grad_norm": 0.3859453907975738,
      "learning_rate": 6.833365650585182e-06,
      "loss": 0.4704,
      "step": 2416
    },
    {
      "epoch": 0.4428362037376328,
      "grad_norm": 0.41704048460990845,
      "learning_rate": 6.830390133094153e-06,
      "loss": 0.5059,
      "step": 2417
    },
    {
      "epoch": 0.4430194210333456,
      "grad_norm": 0.37249261818803026,
      "learning_rate": 6.8274138668706315e-06,
      "loss": 0.4698,
      "step": 2418
    },
    {
      "epoch": 0.44320263832905826,
      "grad_norm": 0.35619151499682244,
      "learning_rate": 6.8244368531320795e-06,
      "loss": 0.48,
      "step": 2419
    },
    {
      "epoch": 0.44338585562477095,
      "grad_norm": 0.3485686263911084,
      "learning_rate": 6.821459093096261e-06,
      "loss": 0.4666,
      "step": 2420
    },
    {
      "epoch": 0.4435690729204837,
      "grad_norm": 0.41358337388795335,
      "learning_rate": 6.818480587981245e-06,
      "loss": 0.4306,
      "step": 2421
    },
    {
      "epoch": 0.4437522902161964,
      "grad_norm": 0.47634180403797133,
      "learning_rate": 6.815501339005415e-06,
      "loss": 0.4952,
      "step": 2422
    },
    {
      "epoch": 0.44393550751190913,
      "grad_norm": 0.4176110671648082,
      "learning_rate": 6.812521347387443e-06,
      "loss": 0.4968,
      "step": 2423
    },
    {
      "epoch": 0.4441187248076218,
      "grad_norm": 0.47871777541154165,
      "learning_rate": 6.8095406143463195e-06,
      "loss": 0.4857,
      "step": 2424
    },
    {
      "epoch": 0.44430194210333457,
      "grad_norm": 0.3775258231394918,
      "learning_rate": 6.806559141101326e-06,
      "loss": 0.4664,
      "step": 2425
    },
    {
      "epoch": 0.44448515939904726,
      "grad_norm": 0.38874193711392035,
      "learning_rate": 6.80357692887206e-06,
      "loss": 0.4461,
      "step": 2426
    },
    {
      "epoch": 0.44466837669476,
      "grad_norm": 0.3850454530745506,
      "learning_rate": 6.800593978878407e-06,
      "loss": 0.4615,
      "step": 2427
    },
    {
      "epoch": 0.4448515939904727,
      "grad_norm": 0.37462058976986146,
      "learning_rate": 6.797610292340566e-06,
      "loss": 0.4811,
      "step": 2428
    },
    {
      "epoch": 0.44503481128618544,
      "grad_norm": 0.3961801018185967,
      "learning_rate": 6.79462587047903e-06,
      "loss": 0.4867,
      "step": 2429
    },
    {
      "epoch": 0.44521802858189813,
      "grad_norm": 0.39615959643714926,
      "learning_rate": 6.791640714514598e-06,
      "loss": 0.5156,
      "step": 2430
    },
    {
      "epoch": 0.4454012458776109,
      "grad_norm": 0.38164096282868487,
      "learning_rate": 6.788654825668364e-06,
      "loss": 0.4656,
      "step": 2431
    },
    {
      "epoch": 0.44558446317332356,
      "grad_norm": 0.402858239640485,
      "learning_rate": 6.785668205161724e-06,
      "loss": 0.4768,
      "step": 2432
    },
    {
      "epoch": 0.44576768046903625,
      "grad_norm": 0.40282157120383244,
      "learning_rate": 6.782680854216377e-06,
      "loss": 0.4768,
      "step": 2433
    },
    {
      "epoch": 0.445950897764749,
      "grad_norm": 0.40626512419257327,
      "learning_rate": 6.779692774054314e-06,
      "loss": 0.498,
      "step": 2434
    },
    {
      "epoch": 0.4461341150604617,
      "grad_norm": 0.36389289871667907,
      "learning_rate": 6.776703965897831e-06,
      "loss": 0.4616,
      "step": 2435
    },
    {
      "epoch": 0.44631733235617443,
      "grad_norm": 0.4096643653171753,
      "learning_rate": 6.773714430969516e-06,
      "loss": 0.4809,
      "step": 2436
    },
    {
      "epoch": 0.4465005496518871,
      "grad_norm": 0.3824306753102932,
      "learning_rate": 6.770724170492258e-06,
      "loss": 0.4629,
      "step": 2437
    },
    {
      "epoch": 0.44668376694759987,
      "grad_norm": 0.4436204478768461,
      "learning_rate": 6.767733185689242e-06,
      "loss": 0.4931,
      "step": 2438
    },
    {
      "epoch": 0.44686698424331256,
      "grad_norm": 0.44700888421170765,
      "learning_rate": 6.764741477783948e-06,
      "loss": 0.4804,
      "step": 2439
    },
    {
      "epoch": 0.4470502015390253,
      "grad_norm": 0.3952398209671749,
      "learning_rate": 6.761749048000155e-06,
      "loss": 0.4834,
      "step": 2440
    },
    {
      "epoch": 0.447233418834738,
      "grad_norm": 0.37493057776442534,
      "learning_rate": 6.758755897561932e-06,
      "loss": 0.4957,
      "step": 2441
    },
    {
      "epoch": 0.44741663613045074,
      "grad_norm": 0.5006060287012225,
      "learning_rate": 6.7557620276936465e-06,
      "loss": 0.5233,
      "step": 2442
    },
    {
      "epoch": 0.44759985342616343,
      "grad_norm": 0.4134212031355089,
      "learning_rate": 6.752767439619961e-06,
      "loss": 0.4584,
      "step": 2443
    },
    {
      "epoch": 0.4477830707218761,
      "grad_norm": 0.3999250364659294,
      "learning_rate": 6.749772134565831e-06,
      "loss": 0.4946,
      "step": 2444
    },
    {
      "epoch": 0.44796628801758887,
      "grad_norm": 0.3737698467337494,
      "learning_rate": 6.746776113756503e-06,
      "loss": 0.4788,
      "step": 2445
    },
    {
      "epoch": 0.44814950531330155,
      "grad_norm": 0.4223216096535037,
      "learning_rate": 6.743779378417519e-06,
      "loss": 0.4876,
      "step": 2446
    },
    {
      "epoch": 0.4483327226090143,
      "grad_norm": 0.431613620476394,
      "learning_rate": 6.74078192977471e-06,
      "loss": 0.4873,
      "step": 2447
    },
    {
      "epoch": 0.448515939904727,
      "grad_norm": 0.38431685544468647,
      "learning_rate": 6.737783769054205e-06,
      "loss": 0.4825,
      "step": 2448
    },
    {
      "epoch": 0.44869915720043974,
      "grad_norm": 0.3911098376394661,
      "learning_rate": 6.734784897482416e-06,
      "loss": 0.4725,
      "step": 2449
    },
    {
      "epoch": 0.4488823744961524,
      "grad_norm": 0.3915504629811401,
      "learning_rate": 6.731785316286055e-06,
      "loss": 0.4983,
      "step": 2450
    },
    {
      "epoch": 0.44906559179186517,
      "grad_norm": 0.4148113185798,
      "learning_rate": 6.728785026692113e-06,
      "loss": 0.4817,
      "step": 2451
    },
    {
      "epoch": 0.44924880908757786,
      "grad_norm": 0.624108531595354,
      "learning_rate": 6.725784029927884e-06,
      "loss": 0.4835,
      "step": 2452
    },
    {
      "epoch": 0.4494320263832906,
      "grad_norm": 0.4069043276199038,
      "learning_rate": 6.722782327220939e-06,
      "loss": 0.487,
      "step": 2453
    },
    {
      "epoch": 0.4496152436790033,
      "grad_norm": 0.40931666347912105,
      "learning_rate": 6.719779919799148e-06,
      "loss": 0.4585,
      "step": 2454
    },
    {
      "epoch": 0.449798460974716,
      "grad_norm": 0.4057761872265912,
      "learning_rate": 6.716776808890659e-06,
      "loss": 0.468,
      "step": 2455
    },
    {
      "epoch": 0.44998167827042873,
      "grad_norm": 0.4042031306804991,
      "learning_rate": 6.713772995723919e-06,
      "loss": 0.4949,
      "step": 2456
    },
    {
      "epoch": 0.4501648955661414,
      "grad_norm": 0.38813893626821355,
      "learning_rate": 6.710768481527652e-06,
      "loss": 0.4987,
      "step": 2457
    },
    {
      "epoch": 0.45034811286185417,
      "grad_norm": 0.3590174575597566,
      "learning_rate": 6.707763267530875e-06,
      "loss": 0.475,
      "step": 2458
    },
    {
      "epoch": 0.45053133015756686,
      "grad_norm": 0.4198445880391634,
      "learning_rate": 6.704757354962888e-06,
      "loss": 0.49,
      "step": 2459
    },
    {
      "epoch": 0.4507145474532796,
      "grad_norm": 0.43834942507027247,
      "learning_rate": 6.701750745053281e-06,
      "loss": 0.4558,
      "step": 2460
    },
    {
      "epoch": 0.4508977647489923,
      "grad_norm": 0.38619095225610495,
      "learning_rate": 6.698743439031926e-06,
      "loss": 0.4656,
      "step": 2461
    },
    {
      "epoch": 0.45108098204470504,
      "grad_norm": 0.40078588702517964,
      "learning_rate": 6.695735438128979e-06,
      "loss": 0.463,
      "step": 2462
    },
    {
      "epoch": 0.4512641993404177,
      "grad_norm": 0.3609087881626896,
      "learning_rate": 6.6927267435748826e-06,
      "loss": 0.4986,
      "step": 2463
    },
    {
      "epoch": 0.45144741663613047,
      "grad_norm": 0.4351226156707901,
      "learning_rate": 6.6897173566003595e-06,
      "loss": 0.4983,
      "step": 2464
    },
    {
      "epoch": 0.45163063393184316,
      "grad_norm": 0.37576273348695177,
      "learning_rate": 6.686707278436422e-06,
      "loss": 0.492,
      "step": 2465
    },
    {
      "epoch": 0.4518138512275559,
      "grad_norm": 0.44002135284894817,
      "learning_rate": 6.683696510314358e-06,
      "loss": 0.4524,
      "step": 2466
    },
    {
      "epoch": 0.4519970685232686,
      "grad_norm": 0.39162403492310033,
      "learning_rate": 6.680685053465743e-06,
      "loss": 0.4884,
      "step": 2467
    },
    {
      "epoch": 0.4521802858189813,
      "grad_norm": 0.44367901990535713,
      "learning_rate": 6.677672909122432e-06,
      "loss": 0.5004,
      "step": 2468
    },
    {
      "epoch": 0.45236350311469403,
      "grad_norm": 0.37838149865303566,
      "learning_rate": 6.6746600785165605e-06,
      "loss": 0.4672,
      "step": 2469
    },
    {
      "epoch": 0.4525467204104067,
      "grad_norm": 0.398874364176312,
      "learning_rate": 6.671646562880547e-06,
      "loss": 0.4942,
      "step": 2470
    },
    {
      "epoch": 0.45272993770611947,
      "grad_norm": 0.38110520416545984,
      "learning_rate": 6.6686323634470875e-06,
      "loss": 0.4677,
      "step": 2471
    },
    {
      "epoch": 0.45291315500183216,
      "grad_norm": 0.41232886013451225,
      "learning_rate": 6.66561748144916e-06,
      "loss": 0.4956,
      "step": 2472
    },
    {
      "epoch": 0.4530963722975449,
      "grad_norm": 0.354539591646497,
      "learning_rate": 6.662601918120019e-06,
      "loss": 0.4488,
      "step": 2473
    },
    {
      "epoch": 0.4532795895932576,
      "grad_norm": 0.35518785769248845,
      "learning_rate": 6.659585674693203e-06,
      "loss": 0.4467,
      "step": 2474
    },
    {
      "epoch": 0.45346280688897034,
      "grad_norm": 0.4420732987691351,
      "learning_rate": 6.656568752402521e-06,
      "loss": 0.4995,
      "step": 2475
    },
    {
      "epoch": 0.453646024184683,
      "grad_norm": 0.34062803748892734,
      "learning_rate": 6.6535511524820684e-06,
      "loss": 0.4956,
      "step": 2476
    },
    {
      "epoch": 0.4538292414803958,
      "grad_norm": 0.3672786509720195,
      "learning_rate": 6.650532876166208e-06,
      "loss": 0.4948,
      "step": 2477
    },
    {
      "epoch": 0.45401245877610846,
      "grad_norm": 0.45120405587126444,
      "learning_rate": 6.64751392468959e-06,
      "loss": 0.4688,
      "step": 2478
    },
    {
      "epoch": 0.45419567607182115,
      "grad_norm": 0.3661120556835148,
      "learning_rate": 6.64449429928713e-06,
      "loss": 0.4725,
      "step": 2479
    },
    {
      "epoch": 0.4543788933675339,
      "grad_norm": 0.5179467767248828,
      "learning_rate": 6.64147400119403e-06,
      "loss": 0.4738,
      "step": 2480
    },
    {
      "epoch": 0.4545621106632466,
      "grad_norm": 0.36739695479670653,
      "learning_rate": 6.6384530316457555e-06,
      "loss": 0.4652,
      "step": 2481
    },
    {
      "epoch": 0.45474532795895933,
      "grad_norm": 0.36407763117656494,
      "learning_rate": 6.63543139187806e-06,
      "loss": 0.464,
      "step": 2482
    },
    {
      "epoch": 0.454928545254672,
      "grad_norm": 0.5281645622956309,
      "learning_rate": 6.632409083126959e-06,
      "loss": 0.4929,
      "step": 2483
    },
    {
      "epoch": 0.45511176255038477,
      "grad_norm": 0.3628507640542516,
      "learning_rate": 6.629386106628746e-06,
      "loss": 0.4623,
      "step": 2484
    },
    {
      "epoch": 0.45529497984609746,
      "grad_norm": 0.3751108165654219,
      "learning_rate": 6.626362463619993e-06,
      "loss": 0.4918,
      "step": 2485
    },
    {
      "epoch": 0.4554781971418102,
      "grad_norm": 0.37070836465790696,
      "learning_rate": 6.623338155337538e-06,
      "loss": 0.4798,
      "step": 2486
    },
    {
      "epoch": 0.4556614144375229,
      "grad_norm": 0.38911661141673254,
      "learning_rate": 6.620313183018491e-06,
      "loss": 0.458,
      "step": 2487
    },
    {
      "epoch": 0.45584463173323564,
      "grad_norm": 0.4162114279088436,
      "learning_rate": 6.6172875479002385e-06,
      "loss": 0.5018,
      "step": 2488
    },
    {
      "epoch": 0.45602784902894833,
      "grad_norm": 0.36400542608541064,
      "learning_rate": 6.614261251220434e-06,
      "loss": 0.48,
      "step": 2489
    },
    {
      "epoch": 0.4562110663246611,
      "grad_norm": 0.41647564044810204,
      "learning_rate": 6.6112342942170035e-06,
      "loss": 0.4899,
      "step": 2490
    },
    {
      "epoch": 0.45639428362037376,
      "grad_norm": 0.3628507499775755,
      "learning_rate": 6.608206678128143e-06,
      "loss": 0.4594,
      "step": 2491
    },
    {
      "epoch": 0.45657750091608645,
      "grad_norm": 0.38712578647221024,
      "learning_rate": 6.605178404192317e-06,
      "loss": 0.4879,
      "step": 2492
    },
    {
      "epoch": 0.4567607182117992,
      "grad_norm": 0.37518676056759626,
      "learning_rate": 6.602149473648261e-06,
      "loss": 0.479,
      "step": 2493
    },
    {
      "epoch": 0.4569439355075119,
      "grad_norm": 0.480134849540764,
      "learning_rate": 6.599119887734976e-06,
      "loss": 0.5144,
      "step": 2494
    },
    {
      "epoch": 0.45712715280322463,
      "grad_norm": 0.3942091182072091,
      "learning_rate": 6.596089647691735e-06,
      "loss": 0.4587,
      "step": 2495
    },
    {
      "epoch": 0.4573103700989373,
      "grad_norm": 0.361810255366327,
      "learning_rate": 6.593058754758075e-06,
      "loss": 0.4577,
      "step": 2496
    },
    {
      "epoch": 0.45749358739465007,
      "grad_norm": 0.39602059798478256,
      "learning_rate": 6.590027210173802e-06,
      "loss": 0.4993,
      "step": 2497
    },
    {
      "epoch": 0.45767680469036276,
      "grad_norm": 0.34772691807907075,
      "learning_rate": 6.58699501517899e-06,
      "loss": 0.4591,
      "step": 2498
    },
    {
      "epoch": 0.4578600219860755,
      "grad_norm": 0.40415781626108666,
      "learning_rate": 6.583962171013974e-06,
      "loss": 0.4695,
      "step": 2499
    },
    {
      "epoch": 0.4580432392817882,
      "grad_norm": 0.3521153681401539,
      "learning_rate": 6.58092867891936e-06,
      "loss": 0.4527,
      "step": 2500
    },
    {
      "epoch": 0.45822645657750094,
      "grad_norm": 0.35566184115624544,
      "learning_rate": 6.577894540136015e-06,
      "loss": 0.4541,
      "step": 2501
    },
    {
      "epoch": 0.45840967387321363,
      "grad_norm": 0.4110067670808069,
      "learning_rate": 6.574859755905076e-06,
      "loss": 0.4934,
      "step": 2502
    },
    {
      "epoch": 0.4585928911689263,
      "grad_norm": 0.36639060831174014,
      "learning_rate": 6.571824327467938e-06,
      "loss": 0.4998,
      "step": 2503
    },
    {
      "epoch": 0.45877610846463907,
      "grad_norm": 0.37909030226200563,
      "learning_rate": 6.568788256066262e-06,
      "loss": 0.5128,
      "step": 2504
    },
    {
      "epoch": 0.45895932576035176,
      "grad_norm": 0.3904517350360066,
      "learning_rate": 6.56575154294197e-06,
      "loss": 0.4934,
      "step": 2505
    },
    {
      "epoch": 0.4591425430560645,
      "grad_norm": 0.38239361159761764,
      "learning_rate": 6.562714189337253e-06,
      "loss": 0.4737,
      "step": 2506
    },
    {
      "epoch": 0.4593257603517772,
      "grad_norm": 0.36309795150733687,
      "learning_rate": 6.559676196494555e-06,
      "loss": 0.4673,
      "step": 2507
    },
    {
      "epoch": 0.45950897764748994,
      "grad_norm": 0.40413199928868393,
      "learning_rate": 6.556637565656589e-06,
      "loss": 0.5066,
      "step": 2508
    },
    {
      "epoch": 0.4596921949432026,
      "grad_norm": 0.4284520932886585,
      "learning_rate": 6.553598298066325e-06,
      "loss": 0.4768,
      "step": 2509
    },
    {
      "epoch": 0.45987541223891537,
      "grad_norm": 0.39173052675534187,
      "learning_rate": 6.550558394966994e-06,
      "loss": 0.492,
      "step": 2510
    },
    {
      "epoch": 0.46005862953462806,
      "grad_norm": 0.38296744058544785,
      "learning_rate": 6.547517857602086e-06,
      "loss": 0.4647,
      "step": 2511
    },
    {
      "epoch": 0.4602418468303408,
      "grad_norm": 0.37207617566583406,
      "learning_rate": 6.544476687215354e-06,
      "loss": 0.4941,
      "step": 2512
    },
    {
      "epoch": 0.4604250641260535,
      "grad_norm": 0.3941001722011083,
      "learning_rate": 6.541434885050807e-06,
      "loss": 0.4959,
      "step": 2513
    },
    {
      "epoch": 0.46060828142176624,
      "grad_norm": 0.37798568910896285,
      "learning_rate": 6.538392452352713e-06,
      "loss": 0.4903,
      "step": 2514
    },
    {
      "epoch": 0.46079149871747893,
      "grad_norm": 0.3493915523131383,
      "learning_rate": 6.535349390365597e-06,
      "loss": 0.4699,
      "step": 2515
    },
    {
      "epoch": 0.4609747160131916,
      "grad_norm": 0.427403925768062,
      "learning_rate": 6.532305700334245e-06,
      "loss": 0.5078,
      "step": 2516
    },
    {
      "epoch": 0.46115793330890437,
      "grad_norm": 0.3298808391165227,
      "learning_rate": 6.529261383503695e-06,
      "loss": 0.4363,
      "step": 2517
    },
    {
      "epoch": 0.46134115060461706,
      "grad_norm": 0.40879910077462445,
      "learning_rate": 6.526216441119244e-06,
      "loss": 0.5028,
      "step": 2518
    },
    {
      "epoch": 0.4615243679003298,
      "grad_norm": 0.3882155693456558,
      "learning_rate": 6.523170874426445e-06,
      "loss": 0.4744,
      "step": 2519
    },
    {
      "epoch": 0.4617075851960425,
      "grad_norm": 0.5524216348949658,
      "learning_rate": 6.520124684671107e-06,
      "loss": 0.4689,
      "step": 2520
    },
    {
      "epoch": 0.46189080249175524,
      "grad_norm": 0.3857013987127986,
      "learning_rate": 6.517077873099294e-06,
      "loss": 0.4799,
      "step": 2521
    },
    {
      "epoch": 0.4620740197874679,
      "grad_norm": 0.469996829805299,
      "learning_rate": 6.514030440957319e-06,
      "loss": 0.4902,
      "step": 2522
    },
    {
      "epoch": 0.46225723708318067,
      "grad_norm": 0.37990408912020956,
      "learning_rate": 6.510982389491756e-06,
      "loss": 0.4738,
      "step": 2523
    },
    {
      "epoch": 0.46244045437889336,
      "grad_norm": 0.43046593737024863,
      "learning_rate": 6.507933719949431e-06,
      "loss": 0.4866,
      "step": 2524
    },
    {
      "epoch": 0.4626236716746061,
      "grad_norm": 0.7389353329433919,
      "learning_rate": 6.504884433577417e-06,
      "loss": 0.4587,
      "step": 2525
    },
    {
      "epoch": 0.4628068889703188,
      "grad_norm": 0.3943412617039225,
      "learning_rate": 6.501834531623048e-06,
      "loss": 0.4794,
      "step": 2526
    },
    {
      "epoch": 0.4629901062660315,
      "grad_norm": 0.38460652703629394,
      "learning_rate": 6.498784015333901e-06,
      "loss": 0.4749,
      "step": 2527
    },
    {
      "epoch": 0.46317332356174423,
      "grad_norm": 0.4128915556666103,
      "learning_rate": 6.495732885957813e-06,
      "loss": 0.4791,
      "step": 2528
    },
    {
      "epoch": 0.4633565408574569,
      "grad_norm": 0.6143189144340108,
      "learning_rate": 6.492681144742864e-06,
      "loss": 0.5017,
      "step": 2529
    },
    {
      "epoch": 0.46353975815316967,
      "grad_norm": 0.38407626173050746,
      "learning_rate": 6.489628792937391e-06,
      "loss": 0.4744,
      "step": 2530
    },
    {
      "epoch": 0.46372297544888236,
      "grad_norm": 0.38311124912656713,
      "learning_rate": 6.486575831789974e-06,
      "loss": 0.4989,
      "step": 2531
    },
    {
      "epoch": 0.4639061927445951,
      "grad_norm": 0.3679740166911545,
      "learning_rate": 6.483522262549449e-06,
      "loss": 0.4721,
      "step": 2532
    },
    {
      "epoch": 0.4640894100403078,
      "grad_norm": 0.35940980908602577,
      "learning_rate": 6.480468086464895e-06,
      "loss": 0.4714,
      "step": 2533
    },
    {
      "epoch": 0.46427262733602054,
      "grad_norm": 0.36944546662854455,
      "learning_rate": 6.477413304785645e-06,
      "loss": 0.4458,
      "step": 2534
    },
    {
      "epoch": 0.46445584463173323,
      "grad_norm": 0.4140734491534397,
      "learning_rate": 6.474357918761271e-06,
      "loss": 0.521,
      "step": 2535
    },
    {
      "epoch": 0.464639061927446,
      "grad_norm": 0.38409259151293335,
      "learning_rate": 6.471301929641604e-06,
      "loss": 0.4746,
      "step": 2536
    },
    {
      "epoch": 0.46482227922315866,
      "grad_norm": 0.3759175972151893,
      "learning_rate": 6.468245338676711e-06,
      "loss": 0.4806,
      "step": 2537
    },
    {
      "epoch": 0.4650054965188714,
      "grad_norm": 0.7549471142146603,
      "learning_rate": 6.465188147116911e-06,
      "loss": 0.5046,
      "step": 2538
    },
    {
      "epoch": 0.4651887138145841,
      "grad_norm": 0.44343946401890544,
      "learning_rate": 6.462130356212768e-06,
      "loss": 0.4855,
      "step": 2539
    },
    {
      "epoch": 0.4653719311102968,
      "grad_norm": 0.38619943327242534,
      "learning_rate": 6.459071967215089e-06,
      "loss": 0.4798,
      "step": 2540
    },
    {
      "epoch": 0.46555514840600953,
      "grad_norm": 0.4210369327718628,
      "learning_rate": 6.456012981374928e-06,
      "loss": 0.4811,
      "step": 2541
    },
    {
      "epoch": 0.4657383657017222,
      "grad_norm": 0.42104823228565075,
      "learning_rate": 6.452953399943582e-06,
      "loss": 0.4998,
      "step": 2542
    },
    {
      "epoch": 0.46592158299743497,
      "grad_norm": 0.3906699369342368,
      "learning_rate": 6.449893224172593e-06,
      "loss": 0.4725,
      "step": 2543
    },
    {
      "epoch": 0.46610480029314766,
      "grad_norm": 0.3725120338780339,
      "learning_rate": 6.446832455313743e-06,
      "loss": 0.4725,
      "step": 2544
    },
    {
      "epoch": 0.4662880175888604,
      "grad_norm": 0.44445192312634757,
      "learning_rate": 6.44377109461906e-06,
      "loss": 0.4641,
      "step": 2545
    },
    {
      "epoch": 0.4664712348845731,
      "grad_norm": 0.3544016724918463,
      "learning_rate": 6.440709143340811e-06,
      "loss": 0.4927,
      "step": 2546
    },
    {
      "epoch": 0.46665445218028584,
      "grad_norm": 0.4513705244339124,
      "learning_rate": 6.437646602731509e-06,
      "loss": 0.5023,
      "step": 2547
    },
    {
      "epoch": 0.46683766947599853,
      "grad_norm": 0.3792756413426005,
      "learning_rate": 6.434583474043902e-06,
      "loss": 0.4856,
      "step": 2548
    },
    {
      "epoch": 0.4670208867717113,
      "grad_norm": 0.42224727608203083,
      "learning_rate": 6.431519758530984e-06,
      "loss": 0.4611,
      "step": 2549
    },
    {
      "epoch": 0.46720410406742396,
      "grad_norm": 0.39968269155459885,
      "learning_rate": 6.428455457445987e-06,
      "loss": 0.483,
      "step": 2550
    },
    {
      "epoch": 0.46738732136313665,
      "grad_norm": 0.38028019402749325,
      "learning_rate": 6.425390572042382e-06,
      "loss": 0.4877,
      "step": 2551
    },
    {
      "epoch": 0.4675705386588494,
      "grad_norm": 0.3666037694550172,
      "learning_rate": 6.42232510357388e-06,
      "loss": 0.5099,
      "step": 2552
    },
    {
      "epoch": 0.4677537559545621,
      "grad_norm": 0.3968544348003642,
      "learning_rate": 6.419259053294428e-06,
      "loss": 0.4257,
      "step": 2553
    },
    {
      "epoch": 0.46793697325027483,
      "grad_norm": 0.37481778140226907,
      "learning_rate": 6.416192422458216e-06,
      "loss": 0.4892,
      "step": 2554
    },
    {
      "epoch": 0.4681201905459875,
      "grad_norm": 0.5218930688702873,
      "learning_rate": 6.413125212319664e-06,
      "loss": 0.4724,
      "step": 2555
    },
    {
      "epoch": 0.46830340784170027,
      "grad_norm": 0.4386511012649629,
      "learning_rate": 6.41005742413344e-06,
      "loss": 0.4693,
      "step": 2556
    },
    {
      "epoch": 0.46848662513741296,
      "grad_norm": 0.3759734757268749,
      "learning_rate": 6.406989059154436e-06,
      "loss": 0.4812,
      "step": 2557
    },
    {
      "epoch": 0.4686698424331257,
      "grad_norm": 0.3741153619238794,
      "learning_rate": 6.403920118637789e-06,
      "loss": 0.4907,
      "step": 2558
    },
    {
      "epoch": 0.4688530597288384,
      "grad_norm": 0.3870167404852689,
      "learning_rate": 6.4008506038388655e-06,
      "loss": 0.4815,
      "step": 2559
    },
    {
      "epoch": 0.46903627702455114,
      "grad_norm": 0.42182053160245986,
      "learning_rate": 6.397780516013273e-06,
      "loss": 0.4932,
      "step": 2560
    },
    {
      "epoch": 0.46921949432026383,
      "grad_norm": 0.3886751339233232,
      "learning_rate": 6.394709856416849e-06,
      "loss": 0.4735,
      "step": 2561
    },
    {
      "epoch": 0.4694027116159766,
      "grad_norm": 0.33091152434712795,
      "learning_rate": 6.391638626305663e-06,
      "loss": 0.4748,
      "step": 2562
    },
    {
      "epoch": 0.46958592891168927,
      "grad_norm": 0.3823377500939304,
      "learning_rate": 6.388566826936025e-06,
      "loss": 0.5109,
      "step": 2563
    },
    {
      "epoch": 0.46976914620740196,
      "grad_norm": 0.41067411364371265,
      "learning_rate": 6.385494459564472e-06,
      "loss": 0.4773,
      "step": 2564
    },
    {
      "epoch": 0.4699523635031147,
      "grad_norm": 0.42999298876833103,
      "learning_rate": 6.382421525447774e-06,
      "loss": 0.4823,
      "step": 2565
    },
    {
      "epoch": 0.4701355807988274,
      "grad_norm": 0.4090212556220414,
      "learning_rate": 6.379348025842935e-06,
      "loss": 0.5059,
      "step": 2566
    },
    {
      "epoch": 0.47031879809454014,
      "grad_norm": 0.3764731972964885,
      "learning_rate": 6.376273962007189e-06,
      "loss": 0.4707,
      "step": 2567
    },
    {
      "epoch": 0.4705020153902528,
      "grad_norm": 0.345697680634986,
      "learning_rate": 6.373199335198002e-06,
      "loss": 0.4496,
      "step": 2568
    },
    {
      "epoch": 0.47068523268596557,
      "grad_norm": 0.3547159369482873,
      "learning_rate": 6.370124146673067e-06,
      "loss": 0.4747,
      "step": 2569
    },
    {
      "epoch": 0.47086844998167826,
      "grad_norm": 0.43160519732649605,
      "learning_rate": 6.367048397690309e-06,
      "loss": 0.4858,
      "step": 2570
    },
    {
      "epoch": 0.471051667277391,
      "grad_norm": 0.39733398439483103,
      "learning_rate": 6.363972089507886e-06,
      "loss": 0.5075,
      "step": 2571
    },
    {
      "epoch": 0.4712348845731037,
      "grad_norm": 0.3916262221059681,
      "learning_rate": 6.360895223384177e-06,
      "loss": 0.4828,
      "step": 2572
    },
    {
      "epoch": 0.47141810186881644,
      "grad_norm": 0.40461249382290765,
      "learning_rate": 6.357817800577795e-06,
      "loss": 0.467,
      "step": 2573
    },
    {
      "epoch": 0.47160131916452913,
      "grad_norm": 0.3973961980925733,
      "learning_rate": 6.3547398223475784e-06,
      "loss": 0.4836,
      "step": 2574
    },
    {
      "epoch": 0.4717845364602418,
      "grad_norm": 0.35401313268032314,
      "learning_rate": 6.3516612899525955e-06,
      "loss": 0.4402,
      "step": 2575
    },
    {
      "epoch": 0.47196775375595457,
      "grad_norm": 0.40391831341777373,
      "learning_rate": 6.3485822046521365e-06,
      "loss": 0.4662,
      "step": 2576
    },
    {
      "epoch": 0.47215097105166726,
      "grad_norm": 0.4313861610200162,
      "learning_rate": 6.34550256770572e-06,
      "loss": 0.4655,
      "step": 2577
    },
    {
      "epoch": 0.47233418834738,
      "grad_norm": 0.3928530117989006,
      "learning_rate": 6.342422380373094e-06,
      "loss": 0.4761,
      "step": 2578
    },
    {
      "epoch": 0.4725174056430927,
      "grad_norm": 0.35869713797775465,
      "learning_rate": 6.3393416439142255e-06,
      "loss": 0.4857,
      "step": 2579
    },
    {
      "epoch": 0.47270062293880544,
      "grad_norm": 0.4264670441646961,
      "learning_rate": 6.33626035958931e-06,
      "loss": 0.481,
      "step": 2580
    },
    {
      "epoch": 0.4728838402345181,
      "grad_norm": 0.38614293779297487,
      "learning_rate": 6.333178528658765e-06,
      "loss": 0.5089,
      "step": 2581
    },
    {
      "epoch": 0.47306705753023087,
      "grad_norm": 0.3738289668758061,
      "learning_rate": 6.330096152383235e-06,
      "loss": 0.4339,
      "step": 2582
    },
    {
      "epoch": 0.47325027482594356,
      "grad_norm": 0.39459933436257694,
      "learning_rate": 6.3270132320235825e-06,
      "loss": 0.4517,
      "step": 2583
    },
    {
      "epoch": 0.4734334921216563,
      "grad_norm": 0.38726088667071384,
      "learning_rate": 6.323929768840897e-06,
      "loss": 0.4851,
      "step": 2584
    },
    {
      "epoch": 0.473616709417369,
      "grad_norm": 0.3749470969003082,
      "learning_rate": 6.320845764096488e-06,
      "loss": 0.493,
      "step": 2585
    },
    {
      "epoch": 0.4737999267130817,
      "grad_norm": 0.3995794128262505,
      "learning_rate": 6.3177612190518875e-06,
      "loss": 0.5007,
      "step": 2586
    },
    {
      "epoch": 0.47398314400879443,
      "grad_norm": 0.4112252636217348,
      "learning_rate": 6.314676134968845e-06,
      "loss": 0.4999,
      "step": 2587
    },
    {
      "epoch": 0.4741663613045071,
      "grad_norm": 0.38940508373613664,
      "learning_rate": 6.311590513109338e-06,
      "loss": 0.5096,
      "step": 2588
    },
    {
      "epoch": 0.47434957860021987,
      "grad_norm": 0.39420357023862646,
      "learning_rate": 6.308504354735555e-06,
      "loss": 0.4763,
      "step": 2589
    },
    {
      "epoch": 0.47453279589593256,
      "grad_norm": 0.3580291110881397,
      "learning_rate": 6.305417661109911e-06,
      "loss": 0.4649,
      "step": 2590
    },
    {
      "epoch": 0.4747160131916453,
      "grad_norm": 0.36588057715753436,
      "learning_rate": 6.302330433495036e-06,
      "loss": 0.4479,
      "step": 2591
    },
    {
      "epoch": 0.474899230487358,
      "grad_norm": 0.3756890469287734,
      "learning_rate": 6.29924267315378e-06,
      "loss": 0.4677,
      "step": 2592
    },
    {
      "epoch": 0.47508244778307074,
      "grad_norm": 0.4291184184547413,
      "learning_rate": 6.296154381349211e-06,
      "loss": 0.4974,
      "step": 2593
    },
    {
      "epoch": 0.47526566507878343,
      "grad_norm": 0.3790045341481231,
      "learning_rate": 6.2930655593446146e-06,
      "loss": 0.4858,
      "step": 2594
    },
    {
      "epoch": 0.4754488823744962,
      "grad_norm": 0.4056703217830834,
      "learning_rate": 6.28997620840349e-06,
      "loss": 0.4791,
      "step": 2595
    },
    {
      "epoch": 0.47563209967020886,
      "grad_norm": 0.41119889493820067,
      "learning_rate": 6.286886329789559e-06,
      "loss": 0.4626,
      "step": 2596
    },
    {
      "epoch": 0.4758153169659216,
      "grad_norm": 0.33100862594769004,
      "learning_rate": 6.283795924766754e-06,
      "loss": 0.4558,
      "step": 2597
    },
    {
      "epoch": 0.4759985342616343,
      "grad_norm": 0.34082284456459994,
      "learning_rate": 6.280704994599222e-06,
      "loss": 0.4519,
      "step": 2598
    },
    {
      "epoch": 0.476181751557347,
      "grad_norm": 0.376348452651224,
      "learning_rate": 6.2776135405513314e-06,
      "loss": 0.4844,
      "step": 2599
    },
    {
      "epoch": 0.47636496885305973,
      "grad_norm": 0.531461160305974,
      "learning_rate": 6.2745215638876586e-06,
      "loss": 0.4813,
      "step": 2600
    },
    {
      "epoch": 0.4765481861487724,
      "grad_norm": 0.37430964762455465,
      "learning_rate": 6.271429065872998e-06,
      "loss": 0.5149,
      "step": 2601
    },
    {
      "epoch": 0.47673140344448517,
      "grad_norm": 0.5186163001556444,
      "learning_rate": 6.268336047772352e-06,
      "loss": 0.4933,
      "step": 2602
    },
    {
      "epoch": 0.47691462074019786,
      "grad_norm": 0.3802160340640398,
      "learning_rate": 6.26524251085094e-06,
      "loss": 0.5113,
      "step": 2603
    },
    {
      "epoch": 0.4770978380359106,
      "grad_norm": 0.4356133163853863,
      "learning_rate": 6.262148456374196e-06,
      "loss": 0.5008,
      "step": 2604
    },
    {
      "epoch": 0.4772810553316233,
      "grad_norm": 0.3703370173501804,
      "learning_rate": 6.259053885607756e-06,
      "loss": 0.4745,
      "step": 2605
    },
    {
      "epoch": 0.47746427262733604,
      "grad_norm": 0.3781590454920534,
      "learning_rate": 6.255958799817478e-06,
      "loss": 0.4526,
      "step": 2606
    },
    {
      "epoch": 0.47764748992304873,
      "grad_norm": 0.3289646822012959,
      "learning_rate": 6.2528632002694245e-06,
      "loss": 0.4869,
      "step": 2607
    },
    {
      "epoch": 0.4778307072187615,
      "grad_norm": 0.43497538600625046,
      "learning_rate": 6.249767088229871e-06,
      "loss": 0.5055,
      "step": 2608
    },
    {
      "epoch": 0.47801392451447416,
      "grad_norm": 0.43505507795166526,
      "learning_rate": 6.2466704649653e-06,
      "loss": 0.4736,
      "step": 2609
    },
    {
      "epoch": 0.47819714181018685,
      "grad_norm": 0.4045106146055078,
      "learning_rate": 6.2435733317424055e-06,
      "loss": 0.4801,
      "step": 2610
    },
    {
      "epoch": 0.4783803591058996,
      "grad_norm": 0.3638264847166178,
      "learning_rate": 6.240475689828087e-06,
      "loss": 0.5099,
      "step": 2611
    },
    {
      "epoch": 0.4785635764016123,
      "grad_norm": 0.42192732346793493,
      "learning_rate": 6.23737754048946e-06,
      "loss": 0.5108,
      "step": 2612
    },
    {
      "epoch": 0.47874679369732503,
      "grad_norm": 0.4849536725194334,
      "learning_rate": 6.234278884993834e-06,
      "loss": 0.493,
      "step": 2613
    },
    {
      "epoch": 0.4789300109930377,
      "grad_norm": 0.377217363879068,
      "learning_rate": 6.231179724608739e-06,
      "loss": 0.4802,
      "step": 2614
    },
    {
      "epoch": 0.47911322828875047,
      "grad_norm": 0.3929022282057568,
      "learning_rate": 6.228080060601904e-06,
      "loss": 0.4894,
      "step": 2615
    },
    {
      "epoch": 0.47929644558446316,
      "grad_norm": 0.3568711088138425,
      "learning_rate": 6.224979894241265e-06,
      "loss": 0.4601,
      "step": 2616
    },
    {
      "epoch": 0.4794796628801759,
      "grad_norm": 0.3452250600579113,
      "learning_rate": 6.221879226794967e-06,
      "loss": 0.461,
      "step": 2617
    },
    {
      "epoch": 0.4796628801758886,
      "grad_norm": 0.36690268084008215,
      "learning_rate": 6.218778059531354e-06,
      "loss": 0.4868,
      "step": 2618
    },
    {
      "epoch": 0.47984609747160134,
      "grad_norm": 0.4173051314210318,
      "learning_rate": 6.21567639371898e-06,
      "loss": 0.5254,
      "step": 2619
    },
    {
      "epoch": 0.48002931476731403,
      "grad_norm": 0.4507443076619217,
      "learning_rate": 6.2125742306266e-06,
      "loss": 0.4984,
      "step": 2620
    },
    {
      "epoch": 0.4802125320630268,
      "grad_norm": 0.38436958659890863,
      "learning_rate": 6.209471571523173e-06,
      "loss": 0.4511,
      "step": 2621
    },
    {
      "epoch": 0.48039574935873947,
      "grad_norm": 0.440982519444724,
      "learning_rate": 6.206368417677862e-06,
      "loss": 0.4786,
      "step": 2622
    },
    {
      "epoch": 0.48057896665445216,
      "grad_norm": 0.35547041740574964,
      "learning_rate": 6.203264770360032e-06,
      "loss": 0.4666,
      "step": 2623
    },
    {
      "epoch": 0.4807621839501649,
      "grad_norm": 0.37249142511781896,
      "learning_rate": 6.200160630839246e-06,
      "loss": 0.491,
      "step": 2624
    },
    {
      "epoch": 0.4809454012458776,
      "grad_norm": 0.4584014148979973,
      "learning_rate": 6.197056000385275e-06,
      "loss": 0.5109,
      "step": 2625
    },
    {
      "epoch": 0.48112861854159034,
      "grad_norm": 0.38097731903257886,
      "learning_rate": 6.193950880268085e-06,
      "loss": 0.4847,
      "step": 2626
    },
    {
      "epoch": 0.481311835837303,
      "grad_norm": 0.33710104804065255,
      "learning_rate": 6.190845271757846e-06,
      "loss": 0.4636,
      "step": 2627
    },
    {
      "epoch": 0.48149505313301577,
      "grad_norm": 0.38832073039942233,
      "learning_rate": 6.187739176124927e-06,
      "loss": 0.4819,
      "step": 2628
    },
    {
      "epoch": 0.48167827042872846,
      "grad_norm": 0.35354719449279465,
      "learning_rate": 6.184632594639895e-06,
      "loss": 0.4758,
      "step": 2629
    },
    {
      "epoch": 0.4818614877244412,
      "grad_norm": 0.3480101599009128,
      "learning_rate": 6.181525528573518e-06,
      "loss": 0.4995,
      "step": 2630
    },
    {
      "epoch": 0.4820447050201539,
      "grad_norm": 0.380444579223931,
      "learning_rate": 6.1784179791967565e-06,
      "loss": 0.465,
      "step": 2631
    },
    {
      "epoch": 0.48222792231586664,
      "grad_norm": 0.42875717985837525,
      "learning_rate": 6.175309947780779e-06,
      "loss": 0.5161,
      "step": 2632
    },
    {
      "epoch": 0.48241113961157933,
      "grad_norm": 0.3486687159796772,
      "learning_rate": 6.172201435596938e-06,
      "loss": 0.4595,
      "step": 2633
    },
    {
      "epoch": 0.482594356907292,
      "grad_norm": 0.35070994769653885,
      "learning_rate": 6.169092443916798e-06,
      "loss": 0.4725,
      "step": 2634
    },
    {
      "epoch": 0.48277757420300477,
      "grad_norm": 0.47826461162392464,
      "learning_rate": 6.165982974012104e-06,
      "loss": 0.4922,
      "step": 2635
    },
    {
      "epoch": 0.48296079149871746,
      "grad_norm": 0.4097799093815455,
      "learning_rate": 6.16287302715481e-06,
      "loss": 0.4435,
      "step": 2636
    },
    {
      "epoch": 0.4831440087944302,
      "grad_norm": 0.49409501240471265,
      "learning_rate": 6.159762604617054e-06,
      "loss": 0.4511,
      "step": 2637
    },
    {
      "epoch": 0.4833272260901429,
      "grad_norm": 0.32922185698090817,
      "learning_rate": 6.156651707671179e-06,
      "loss": 0.4431,
      "step": 2638
    },
    {
      "epoch": 0.48351044338585564,
      "grad_norm": 0.43589998693776294,
      "learning_rate": 6.15354033758971e-06,
      "loss": 0.4913,
      "step": 2639
    },
    {
      "epoch": 0.4836936606815683,
      "grad_norm": 0.46935630185597366,
      "learning_rate": 6.15042849564538e-06,
      "loss": 0.4438,
      "step": 2640
    },
    {
      "epoch": 0.4838768779772811,
      "grad_norm": 0.35187408753902083,
      "learning_rate": 6.147316183111101e-06,
      "loss": 0.4757,
      "step": 2641
    },
    {
      "epoch": 0.48406009527299376,
      "grad_norm": 0.3551224007772423,
      "learning_rate": 6.144203401259987e-06,
      "loss": 0.4857,
      "step": 2642
    },
    {
      "epoch": 0.4842433125687065,
      "grad_norm": 0.4067611468464816,
      "learning_rate": 6.141090151365341e-06,
      "loss": 0.4594,
      "step": 2643
    },
    {
      "epoch": 0.4844265298644192,
      "grad_norm": 0.38220030063601856,
      "learning_rate": 6.137976434700656e-06,
      "loss": 0.464,
      "step": 2644
    },
    {
      "epoch": 0.48460974716013194,
      "grad_norm": 0.39667408717834457,
      "learning_rate": 6.134862252539617e-06,
      "loss": 0.4776,
      "step": 2645
    },
    {
      "epoch": 0.48479296445584463,
      "grad_norm": 0.3980341085738827,
      "learning_rate": 6.131747606156101e-06,
      "loss": 0.495,
      "step": 2646
    },
    {
      "epoch": 0.4849761817515573,
      "grad_norm": 0.3527503512146692,
      "learning_rate": 6.128632496824173e-06,
      "loss": 0.4817,
      "step": 2647
    },
    {
      "epoch": 0.48515939904727007,
      "grad_norm": 0.5523393433703138,
      "learning_rate": 6.125516925818087e-06,
      "loss": 0.4776,
      "step": 2648
    },
    {
      "epoch": 0.48534261634298276,
      "grad_norm": 0.45560350902981445,
      "learning_rate": 6.122400894412288e-06,
      "loss": 0.5108,
      "step": 2649
    },
    {
      "epoch": 0.4855258336386955,
      "grad_norm": 0.3883613637399946,
      "learning_rate": 6.119284403881407e-06,
      "loss": 0.505,
      "step": 2650
    },
    {
      "epoch": 0.4857090509344082,
      "grad_norm": 0.43054839957129043,
      "learning_rate": 6.116167455500265e-06,
      "loss": 0.4613,
      "step": 2651
    },
    {
      "epoch": 0.48589226823012094,
      "grad_norm": 0.44699283379261234,
      "learning_rate": 6.113050050543869e-06,
      "loss": 0.5095,
      "step": 2652
    },
    {
      "epoch": 0.48607548552583363,
      "grad_norm": 0.4253525400492399,
      "learning_rate": 6.109932190287411e-06,
      "loss": 0.4355,
      "step": 2653
    },
    {
      "epoch": 0.4862587028215464,
      "grad_norm": 0.3789592185972384,
      "learning_rate": 6.106813876006274e-06,
      "loss": 0.5028,
      "step": 2654
    },
    {
      "epoch": 0.48644192011725906,
      "grad_norm": 0.593473175364269,
      "learning_rate": 6.103695108976022e-06,
      "loss": 0.4746,
      "step": 2655
    },
    {
      "epoch": 0.4866251374129718,
      "grad_norm": 0.3722676120625255,
      "learning_rate": 6.1005758904724065e-06,
      "loss": 0.4417,
      "step": 2656
    },
    {
      "epoch": 0.4868083547086845,
      "grad_norm": 0.4217594770549542,
      "learning_rate": 6.097456221771364e-06,
      "loss": 0.4748,
      "step": 2657
    },
    {
      "epoch": 0.4869915720043972,
      "grad_norm": 0.3941559337345006,
      "learning_rate": 6.094336104149014e-06,
      "loss": 0.4832,
      "step": 2658
    },
    {
      "epoch": 0.48717478930010993,
      "grad_norm": 0.3517468727202208,
      "learning_rate": 6.0912155388816584e-06,
      "loss": 0.4724,
      "step": 2659
    },
    {
      "epoch": 0.4873580065958226,
      "grad_norm": 0.432479131802833,
      "learning_rate": 6.088094527245788e-06,
      "loss": 0.4693,
      "step": 2660
    },
    {
      "epoch": 0.48754122389153537,
      "grad_norm": 0.3642359211792819,
      "learning_rate": 6.084973070518067e-06,
      "loss": 0.4601,
      "step": 2661
    },
    {
      "epoch": 0.48772444118724806,
      "grad_norm": 0.376126812545194,
      "learning_rate": 6.081851169975351e-06,
      "loss": 0.4758,
      "step": 2662
    },
    {
      "epoch": 0.4879076584829608,
      "grad_norm": 0.41480118650940473,
      "learning_rate": 6.0787288268946685e-06,
      "loss": 0.4562,
      "step": 2663
    },
    {
      "epoch": 0.4880908757786735,
      "grad_norm": 0.3677659442377228,
      "learning_rate": 6.075606042553239e-06,
      "loss": 0.4693,
      "step": 2664
    },
    {
      "epoch": 0.48827409307438624,
      "grad_norm": 0.3983674103639988,
      "learning_rate": 6.072482818228452e-06,
      "loss": 0.4792,
      "step": 2665
    },
    {
      "epoch": 0.48845731037009893,
      "grad_norm": 0.3768784933428776,
      "learning_rate": 6.069359155197885e-06,
      "loss": 0.478,
      "step": 2666
    },
    {
      "epoch": 0.4886405276658117,
      "grad_norm": 0.3817763408127909,
      "learning_rate": 6.066235054739289e-06,
      "loss": 0.4798,
      "step": 2667
    },
    {
      "epoch": 0.48882374496152436,
      "grad_norm": 0.4596770357312781,
      "learning_rate": 6.0631105181306e-06,
      "loss": 0.4813,
      "step": 2668
    },
    {
      "epoch": 0.4890069622572371,
      "grad_norm": 0.39989028831569035,
      "learning_rate": 6.059985546649926e-06,
      "loss": 0.474,
      "step": 2669
    },
    {
      "epoch": 0.4891901795529498,
      "grad_norm": 0.38400457775519437,
      "learning_rate": 6.056860141575558e-06,
      "loss": 0.4357,
      "step": 2670
    },
    {
      "epoch": 0.4893733968486625,
      "grad_norm": 0.3559471525714825,
      "learning_rate": 6.053734304185962e-06,
      "loss": 0.4912,
      "step": 2671
    },
    {
      "epoch": 0.48955661414437524,
      "grad_norm": 0.3817984688569835,
      "learning_rate": 6.050608035759781e-06,
      "loss": 0.4769,
      "step": 2672
    },
    {
      "epoch": 0.4897398314400879,
      "grad_norm": 0.39341219022919127,
      "learning_rate": 6.047481337575835e-06,
      "loss": 0.4528,
      "step": 2673
    },
    {
      "epoch": 0.48992304873580067,
      "grad_norm": 0.40031286428345547,
      "learning_rate": 6.044354210913119e-06,
      "loss": 0.446,
      "step": 2674
    },
    {
      "epoch": 0.49010626603151336,
      "grad_norm": 0.4805269758521716,
      "learning_rate": 6.041226657050804e-06,
      "loss": 0.483,
      "step": 2675
    },
    {
      "epoch": 0.4902894833272261,
      "grad_norm": 0.35241515587778094,
      "learning_rate": 6.038098677268236e-06,
      "loss": 0.4826,
      "step": 2676
    },
    {
      "epoch": 0.4904727006229388,
      "grad_norm": 0.40902285639832336,
      "learning_rate": 6.0349702728449336e-06,
      "loss": 0.4825,
      "step": 2677
    },
    {
      "epoch": 0.49065591791865154,
      "grad_norm": 0.3855180959903487,
      "learning_rate": 6.031841445060589e-06,
      "loss": 0.4796,
      "step": 2678
    },
    {
      "epoch": 0.49083913521436423,
      "grad_norm": 0.41876945969464213,
      "learning_rate": 6.028712195195071e-06,
      "loss": 0.4484,
      "step": 2679
    },
    {
      "epoch": 0.491022352510077,
      "grad_norm": 0.34618598423601504,
      "learning_rate": 6.025582524528418e-06,
      "loss": 0.44,
      "step": 2680
    },
    {
      "epoch": 0.49120556980578967,
      "grad_norm": 0.3917064661677189,
      "learning_rate": 6.022452434340842e-06,
      "loss": 0.4867,
      "step": 2681
    },
    {
      "epoch": 0.49138878710150236,
      "grad_norm": 0.3901163153298345,
      "learning_rate": 6.0193219259127245e-06,
      "loss": 0.484,
      "step": 2682
    },
    {
      "epoch": 0.4915720043972151,
      "grad_norm": 0.4074770547401102,
      "learning_rate": 6.01619100052462e-06,
      "loss": 0.4887,
      "step": 2683
    },
    {
      "epoch": 0.4917552216929278,
      "grad_norm": 0.35725319337842953,
      "learning_rate": 6.013059659457253e-06,
      "loss": 0.4302,
      "step": 2684
    },
    {
      "epoch": 0.49193843898864054,
      "grad_norm": 0.40406672516136255,
      "learning_rate": 6.009927903991518e-06,
      "loss": 0.5049,
      "step": 2685
    },
    {
      "epoch": 0.4921216562843532,
      "grad_norm": 0.3765894390477666,
      "learning_rate": 6.00679573540848e-06,
      "loss": 0.484,
      "step": 2686
    },
    {
      "epoch": 0.49230487358006597,
      "grad_norm": 0.3327835502977535,
      "learning_rate": 6.00366315498937e-06,
      "loss": 0.4628,
      "step": 2687
    },
    {
      "epoch": 0.49248809087577866,
      "grad_norm": 0.4431385688448901,
      "learning_rate": 6.000530164015592e-06,
      "loss": 0.5068,
      "step": 2688
    },
    {
      "epoch": 0.4926713081714914,
      "grad_norm": 0.38114263629098655,
      "learning_rate": 5.9973967637687135e-06,
      "loss": 0.4672,
      "step": 2689
    },
    {
      "epoch": 0.4928545254672041,
      "grad_norm": 0.43292994075216573,
      "learning_rate": 5.994262955530475e-06,
      "loss": 0.4972,
      "step": 2690
    },
    {
      "epoch": 0.49303774276291684,
      "grad_norm": 0.3818174127734471,
      "learning_rate": 5.991128740582774e-06,
      "loss": 0.4694,
      "step": 2691
    },
    {
      "epoch": 0.49322096005862953,
      "grad_norm": 0.41472996823846253,
      "learning_rate": 5.9879941202076865e-06,
      "loss": 0.456,
      "step": 2692
    },
    {
      "epoch": 0.4934041773543423,
      "grad_norm": 0.32357571760477655,
      "learning_rate": 5.984859095687444e-06,
      "loss": 0.4484,
      "step": 2693
    },
    {
      "epoch": 0.49358739465005497,
      "grad_norm": 0.4180795286451674,
      "learning_rate": 5.981723668304453e-06,
      "loss": 0.462,
      "step": 2694
    },
    {
      "epoch": 0.49377061194576766,
      "grad_norm": 0.3312791966667695,
      "learning_rate": 5.978587839341274e-06,
      "loss": 0.482,
      "step": 2695
    },
    {
      "epoch": 0.4939538292414804,
      "grad_norm": 0.4174870043559363,
      "learning_rate": 5.975451610080643e-06,
      "loss": 0.4796,
      "step": 2696
    },
    {
      "epoch": 0.4941370465371931,
      "grad_norm": 0.405864500614883,
      "learning_rate": 5.972314981805448e-06,
      "loss": 0.4962,
      "step": 2697
    },
    {
      "epoch": 0.49432026383290584,
      "grad_norm": 0.3787964556422184,
      "learning_rate": 5.969177955798751e-06,
      "loss": 0.5045,
      "step": 2698
    },
    {
      "epoch": 0.4945034811286185,
      "grad_norm": 0.374387983539771,
      "learning_rate": 5.966040533343772e-06,
      "loss": 0.4357,
      "step": 2699
    },
    {
      "epoch": 0.4946866984243313,
      "grad_norm": 0.42310189437618834,
      "learning_rate": 5.9629027157238895e-06,
      "loss": 0.4531,
      "step": 2700
    },
    {
      "epoch": 0.49486991572004396,
      "grad_norm": 0.39268642068645015,
      "learning_rate": 5.959764504222651e-06,
      "loss": 0.484,
      "step": 2701
    },
    {
      "epoch": 0.4950531330157567,
      "grad_norm": 0.3940895472838365,
      "learning_rate": 5.956625900123758e-06,
      "loss": 0.4855,
      "step": 2702
    },
    {
      "epoch": 0.4952363503114694,
      "grad_norm": 0.3342437830142438,
      "learning_rate": 5.953486904711081e-06,
      "loss": 0.4803,
      "step": 2703
    },
    {
      "epoch": 0.49541956760718214,
      "grad_norm": 0.4299079154017634,
      "learning_rate": 5.950347519268641e-06,
      "loss": 0.4817,
      "step": 2704
    },
    {
      "epoch": 0.49560278490289483,
      "grad_norm": 0.42871763235680505,
      "learning_rate": 5.9472077450806266e-06,
      "loss": 0.514,
      "step": 2705
    },
    {
      "epoch": 0.4957860021986075,
      "grad_norm": 0.38952290407151696,
      "learning_rate": 5.944067583431378e-06,
      "loss": 0.4924,
      "step": 2706
    },
    {
      "epoch": 0.49596921949432027,
      "grad_norm": 0.3444838737772104,
      "learning_rate": 5.9409270356054025e-06,
      "loss": 0.4594,
      "step": 2707
    },
    {
      "epoch": 0.49615243679003296,
      "grad_norm": 0.36870720783408434,
      "learning_rate": 5.937786102887356e-06,
      "loss": 0.4656,
      "step": 2708
    },
    {
      "epoch": 0.4963356540857457,
      "grad_norm": 0.3875788613728403,
      "learning_rate": 5.934644786562063e-06,
      "loss": 0.494,
      "step": 2709
    },
    {
      "epoch": 0.4965188713814584,
      "grad_norm": 0.4067947100771364,
      "learning_rate": 5.931503087914492e-06,
      "loss": 0.5116,
      "step": 2710
    },
    {
      "epoch": 0.49670208867717114,
      "grad_norm": 0.4164396398124012,
      "learning_rate": 5.928361008229777e-06,
      "loss": 0.4681,
      "step": 2711
    },
    {
      "epoch": 0.49688530597288383,
      "grad_norm": 0.348557867806117,
      "learning_rate": 5.925218548793206e-06,
      "loss": 0.4647,
      "step": 2712
    },
    {
      "epoch": 0.4970685232685966,
      "grad_norm": 0.32609070782662797,
      "learning_rate": 5.922075710890221e-06,
      "loss": 0.4728,
      "step": 2713
    },
    {
      "epoch": 0.49725174056430926,
      "grad_norm": 0.43929032188456524,
      "learning_rate": 5.9189324958064194e-06,
      "loss": 0.5011,
      "step": 2714
    },
    {
      "epoch": 0.497434957860022,
      "grad_norm": 0.3701748243514993,
      "learning_rate": 5.915788904827553e-06,
      "loss": 0.4458,
      "step": 2715
    },
    {
      "epoch": 0.4976181751557347,
      "grad_norm": 0.3577823672245004,
      "learning_rate": 5.912644939239527e-06,
      "loss": 0.4772,
      "step": 2716
    },
    {
      "epoch": 0.49780139245144744,
      "grad_norm": 0.35640413685913674,
      "learning_rate": 5.9095006003284e-06,
      "loss": 0.4668,
      "step": 2717
    },
    {
      "epoch": 0.49798460974716013,
      "grad_norm": 0.3678128609463679,
      "learning_rate": 5.906355889380384e-06,
      "loss": 0.466,
      "step": 2718
    },
    {
      "epoch": 0.4981678270428728,
      "grad_norm": 0.37342052972273326,
      "learning_rate": 5.9032108076818425e-06,
      "loss": 0.4489,
      "step": 2719
    },
    {
      "epoch": 0.49835104433858557,
      "grad_norm": 0.37004531482695346,
      "learning_rate": 5.900065356519291e-06,
      "loss": 0.4589,
      "step": 2720
    },
    {
      "epoch": 0.49853426163429826,
      "grad_norm": 0.40637846150182877,
      "learning_rate": 5.896919537179395e-06,
      "loss": 0.4614,
      "step": 2721
    },
    {
      "epoch": 0.498717478930011,
      "grad_norm": 0.4255331589630329,
      "learning_rate": 5.893773350948974e-06,
      "loss": 0.4797,
      "step": 2722
    },
    {
      "epoch": 0.4989006962257237,
      "grad_norm": 0.36989682428254933,
      "learning_rate": 5.890626799114991e-06,
      "loss": 0.4785,
      "step": 2723
    },
    {
      "epoch": 0.49908391352143644,
      "grad_norm": 0.37360175533264606,
      "learning_rate": 5.887479882964565e-06,
      "loss": 0.5131,
      "step": 2724
    },
    {
      "epoch": 0.49926713081714913,
      "grad_norm": 0.44374802226129506,
      "learning_rate": 5.884332603784961e-06,
      "loss": 0.5174,
      "step": 2725
    },
    {
      "epoch": 0.4994503481128619,
      "grad_norm": 0.3596798859511765,
      "learning_rate": 5.881184962863595e-06,
      "loss": 0.5339,
      "step": 2726
    },
    {
      "epoch": 0.49963356540857456,
      "grad_norm": 0.3848471416284064,
      "learning_rate": 5.878036961488028e-06,
      "loss": 0.4748,
      "step": 2727
    },
    {
      "epoch": 0.4998167827042873,
      "grad_norm": 0.3393343027009829,
      "learning_rate": 5.8748886009459685e-06,
      "loss": 0.4824,
      "step": 2728
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3855331962057024,
      "learning_rate": 5.8717398825252744e-06,
      "loss": 0.519,
      "step": 2729
    },
    {
      "epoch": 0.5001832172957127,
      "grad_norm": 0.37456539622575846,
      "learning_rate": 5.868590807513947e-06,
      "loss": 0.4553,
      "step": 2730
    },
    {
      "epoch": 0.5003664345914254,
      "grad_norm": 0.37935813236647553,
      "learning_rate": 5.865441377200137e-06,
      "loss": 0.4766,
      "step": 2731
    },
    {
      "epoch": 0.5005496518871382,
      "grad_norm": 0.4449058873445844,
      "learning_rate": 5.862291592872135e-06,
      "loss": 0.5073,
      "step": 2732
    },
    {
      "epoch": 0.5007328691828509,
      "grad_norm": 0.4083669791420912,
      "learning_rate": 5.859141455818387e-06,
      "loss": 0.4685,
      "step": 2733
    },
    {
      "epoch": 0.5009160864785636,
      "grad_norm": 0.39542564333243985,
      "learning_rate": 5.855990967327468e-06,
      "loss": 0.48,
      "step": 2734
    },
    {
      "epoch": 0.5010993037742763,
      "grad_norm": 0.3647775918005535,
      "learning_rate": 5.852840128688112e-06,
      "loss": 0.4814,
      "step": 2735
    },
    {
      "epoch": 0.501282521069989,
      "grad_norm": 0.3621924996992885,
      "learning_rate": 5.849688941189184e-06,
      "loss": 0.4884,
      "step": 2736
    },
    {
      "epoch": 0.5014657383657017,
      "grad_norm": 0.43759234375668876,
      "learning_rate": 5.846537406119699e-06,
      "loss": 0.4929,
      "step": 2737
    },
    {
      "epoch": 0.5016489556614144,
      "grad_norm": 0.3793853555550419,
      "learning_rate": 5.8433855247688106e-06,
      "loss": 0.4841,
      "step": 2738
    },
    {
      "epoch": 0.5018321729571271,
      "grad_norm": 0.37854631411105866,
      "learning_rate": 5.840233298425818e-06,
      "loss": 0.4875,
      "step": 2739
    },
    {
      "epoch": 0.5020153902528399,
      "grad_norm": 0.3674096820378392,
      "learning_rate": 5.837080728380157e-06,
      "loss": 0.4662,
      "step": 2740
    },
    {
      "epoch": 0.5021986075485526,
      "grad_norm": 0.387465729509014,
      "learning_rate": 5.8339278159214075e-06,
      "loss": 0.4774,
      "step": 2741
    },
    {
      "epoch": 0.5023818248442653,
      "grad_norm": 0.36939648216432863,
      "learning_rate": 5.830774562339287e-06,
      "loss": 0.4896,
      "step": 2742
    },
    {
      "epoch": 0.502565042139978,
      "grad_norm": 0.38599335557911074,
      "learning_rate": 5.827620968923653e-06,
      "loss": 0.4846,
      "step": 2743
    },
    {
      "epoch": 0.5027482594356907,
      "grad_norm": 0.34835327441068153,
      "learning_rate": 5.824467036964504e-06,
      "loss": 0.496,
      "step": 2744
    },
    {
      "epoch": 0.5029314767314035,
      "grad_norm": 0.3975274865194216,
      "learning_rate": 5.821312767751975e-06,
      "loss": 0.4867,
      "step": 2745
    },
    {
      "epoch": 0.5031146940271162,
      "grad_norm": 0.3780583868796423,
      "learning_rate": 5.818158162576339e-06,
      "loss": 0.4785,
      "step": 2746
    },
    {
      "epoch": 0.5032979113228289,
      "grad_norm": 0.3249091810860243,
      "learning_rate": 5.815003222728007e-06,
      "loss": 0.4668,
      "step": 2747
    },
    {
      "epoch": 0.5034811286185416,
      "grad_norm": 0.37469778914009816,
      "learning_rate": 5.811847949497529e-06,
      "loss": 0.4511,
      "step": 2748
    },
    {
      "epoch": 0.5036643459142544,
      "grad_norm": 0.4129177088016805,
      "learning_rate": 5.808692344175585e-06,
      "loss": 0.4563,
      "step": 2749
    },
    {
      "epoch": 0.503847563209967,
      "grad_norm": 0.3925198855785553,
      "learning_rate": 5.805536408052998e-06,
      "loss": 0.4727,
      "step": 2750
    },
    {
      "epoch": 0.5040307805056797,
      "grad_norm": 0.38023027041798463,
      "learning_rate": 5.802380142420723e-06,
      "loss": 0.5039,
      "step": 2751
    },
    {
      "epoch": 0.5042139978013924,
      "grad_norm": 0.40626816211410266,
      "learning_rate": 5.799223548569849e-06,
      "loss": 0.4854,
      "step": 2752
    },
    {
      "epoch": 0.5043972150971051,
      "grad_norm": 0.4288318784024032,
      "learning_rate": 5.796066627791602e-06,
      "loss": 0.4691,
      "step": 2753
    },
    {
      "epoch": 0.5045804323928179,
      "grad_norm": 0.4088544079991914,
      "learning_rate": 5.792909381377339e-06,
      "loss": 0.5136,
      "step": 2754
    },
    {
      "epoch": 0.5047636496885306,
      "grad_norm": 0.4262461935824578,
      "learning_rate": 5.789751810618551e-06,
      "loss": 0.4631,
      "step": 2755
    },
    {
      "epoch": 0.5049468669842433,
      "grad_norm": 0.36202131336232085,
      "learning_rate": 5.786593916806862e-06,
      "loss": 0.447,
      "step": 2756
    },
    {
      "epoch": 0.505130084279956,
      "grad_norm": 0.4396611051494124,
      "learning_rate": 5.78343570123403e-06,
      "loss": 0.4834,
      "step": 2757
    },
    {
      "epoch": 0.5053133015756688,
      "grad_norm": 0.37939224767002205,
      "learning_rate": 5.780277165191941e-06,
      "loss": 0.4639,
      "step": 2758
    },
    {
      "epoch": 0.5054965188713815,
      "grad_norm": 1.1177794213599237,
      "learning_rate": 5.7771183099726144e-06,
      "loss": 0.4833,
      "step": 2759
    },
    {
      "epoch": 0.5056797361670942,
      "grad_norm": 0.40826440312948875,
      "learning_rate": 5.773959136868199e-06,
      "loss": 0.4681,
      "step": 2760
    },
    {
      "epoch": 0.5058629534628069,
      "grad_norm": 0.39682165370729394,
      "learning_rate": 5.770799647170976e-06,
      "loss": 0.4572,
      "step": 2761
    },
    {
      "epoch": 0.5060461707585197,
      "grad_norm": 0.3856723957716629,
      "learning_rate": 5.767639842173351e-06,
      "loss": 0.4424,
      "step": 2762
    },
    {
      "epoch": 0.5062293880542323,
      "grad_norm": 0.35149307259572515,
      "learning_rate": 5.764479723167867e-06,
      "loss": 0.484,
      "step": 2763
    },
    {
      "epoch": 0.506412605349945,
      "grad_norm": 0.36966173779312345,
      "learning_rate": 5.761319291447186e-06,
      "loss": 0.513,
      "step": 2764
    },
    {
      "epoch": 0.5065958226456577,
      "grad_norm": 0.3622945326783817,
      "learning_rate": 5.758158548304104e-06,
      "loss": 0.4545,
      "step": 2765
    },
    {
      "epoch": 0.5067790399413704,
      "grad_norm": 0.3789511857632013,
      "learning_rate": 5.7549974950315425e-06,
      "loss": 0.4433,
      "step": 2766
    },
    {
      "epoch": 0.5069622572370832,
      "grad_norm": 0.3961364474839944,
      "learning_rate": 5.751836132922549e-06,
      "loss": 0.4668,
      "step": 2767
    },
    {
      "epoch": 0.5071454745327959,
      "grad_norm": 0.3620008337212967,
      "learning_rate": 5.748674463270301e-06,
      "loss": 0.4244,
      "step": 2768
    },
    {
      "epoch": 0.5073286918285086,
      "grad_norm": 0.36550069181670775,
      "learning_rate": 5.7455124873680955e-06,
      "loss": 0.4714,
      "step": 2769
    },
    {
      "epoch": 0.5075119091242213,
      "grad_norm": 0.3960451745822164,
      "learning_rate": 5.742350206509362e-06,
      "loss": 0.4792,
      "step": 2770
    },
    {
      "epoch": 0.5076951264199341,
      "grad_norm": 0.3990763480918848,
      "learning_rate": 5.739187621987649e-06,
      "loss": 0.4758,
      "step": 2771
    },
    {
      "epoch": 0.5078783437156468,
      "grad_norm": 0.38440435932890443,
      "learning_rate": 5.7360247350966315e-06,
      "loss": 0.4831,
      "step": 2772
    },
    {
      "epoch": 0.5080615610113595,
      "grad_norm": 0.36287352658219973,
      "learning_rate": 5.7328615471301095e-06,
      "loss": 0.4541,
      "step": 2773
    },
    {
      "epoch": 0.5082447783070722,
      "grad_norm": 0.44219907061604324,
      "learning_rate": 5.729698059382004e-06,
      "loss": 0.4813,
      "step": 2774
    },
    {
      "epoch": 0.508427995602785,
      "grad_norm": 0.3698989955692163,
      "learning_rate": 5.726534273146359e-06,
      "loss": 0.4965,
      "step": 2775
    },
    {
      "epoch": 0.5086112128984976,
      "grad_norm": 0.3712565895036428,
      "learning_rate": 5.723370189717341e-06,
      "loss": 0.4601,
      "step": 2776
    },
    {
      "epoch": 0.5087944301942103,
      "grad_norm": 0.3870945674162369,
      "learning_rate": 5.720205810389239e-06,
      "loss": 0.4529,
      "step": 2777
    },
    {
      "epoch": 0.508977647489923,
      "grad_norm": 0.40711078350416036,
      "learning_rate": 5.717041136456462e-06,
      "loss": 0.4861,
      "step": 2778
    },
    {
      "epoch": 0.5091608647856357,
      "grad_norm": 0.44393662476336315,
      "learning_rate": 5.713876169213538e-06,
      "loss": 0.4799,
      "step": 2779
    },
    {
      "epoch": 0.5093440820813485,
      "grad_norm": 0.3649087342670491,
      "learning_rate": 5.710710909955118e-06,
      "loss": 0.4638,
      "step": 2780
    },
    {
      "epoch": 0.5095272993770612,
      "grad_norm": 0.44305408078324465,
      "learning_rate": 5.70754535997597e-06,
      "loss": 0.4905,
      "step": 2781
    },
    {
      "epoch": 0.5097105166727739,
      "grad_norm": 0.44710511602061487,
      "learning_rate": 5.704379520570982e-06,
      "loss": 0.4656,
      "step": 2782
    },
    {
      "epoch": 0.5098937339684866,
      "grad_norm": 0.3768898212593808,
      "learning_rate": 5.701213393035163e-06,
      "loss": 0.483,
      "step": 2783
    },
    {
      "epoch": 0.5100769512641994,
      "grad_norm": 0.3956197731638185,
      "learning_rate": 5.698046978663633e-06,
      "loss": 0.5064,
      "step": 2784
    },
    {
      "epoch": 0.5102601685599121,
      "grad_norm": 0.38359602066204457,
      "learning_rate": 5.694880278751638e-06,
      "loss": 0.4723,
      "step": 2785
    },
    {
      "epoch": 0.5104433858556248,
      "grad_norm": 0.36821179651875974,
      "learning_rate": 5.691713294594531e-06,
      "loss": 0.4531,
      "step": 2786
    },
    {
      "epoch": 0.5106266031513375,
      "grad_norm": 0.33986653473636935,
      "learning_rate": 5.688546027487793e-06,
      "loss": 0.4965,
      "step": 2787
    },
    {
      "epoch": 0.5108098204470503,
      "grad_norm": 0.3829022120852112,
      "learning_rate": 5.685378478727007e-06,
      "loss": 0.4797,
      "step": 2788
    },
    {
      "epoch": 0.510993037742763,
      "grad_norm": 0.3251353454694897,
      "learning_rate": 5.682210649607886e-06,
      "loss": 0.479,
      "step": 2789
    },
    {
      "epoch": 0.5111762550384756,
      "grad_norm": 0.3903981320240099,
      "learning_rate": 5.679042541426245e-06,
      "loss": 0.4591,
      "step": 2790
    },
    {
      "epoch": 0.5113594723341883,
      "grad_norm": 0.38367188390506624,
      "learning_rate": 5.67587415547802e-06,
      "loss": 0.5027,
      "step": 2791
    },
    {
      "epoch": 0.511542689629901,
      "grad_norm": 0.43830841848822,
      "learning_rate": 5.67270549305926e-06,
      "loss": 0.5046,
      "step": 2792
    },
    {
      "epoch": 0.5117259069256138,
      "grad_norm": 0.3309237014818497,
      "learning_rate": 5.669536555466125e-06,
      "loss": 0.482,
      "step": 2793
    },
    {
      "epoch": 0.5119091242213265,
      "grad_norm": 0.35608783511110903,
      "learning_rate": 5.66636734399489e-06,
      "loss": 0.4805,
      "step": 2794
    },
    {
      "epoch": 0.5120923415170392,
      "grad_norm": 0.381478963173924,
      "learning_rate": 5.663197859941938e-06,
      "loss": 0.4544,
      "step": 2795
    },
    {
      "epoch": 0.5122755588127519,
      "grad_norm": 0.39595976553551976,
      "learning_rate": 5.660028104603769e-06,
      "loss": 0.4743,
      "step": 2796
    },
    {
      "epoch": 0.5124587761084647,
      "grad_norm": 0.40867905676443567,
      "learning_rate": 5.656858079276989e-06,
      "loss": 0.5073,
      "step": 2797
    },
    {
      "epoch": 0.5126419934041774,
      "grad_norm": 0.3527369861682892,
      "learning_rate": 5.653687785258319e-06,
      "loss": 0.4539,
      "step": 2798
    },
    {
      "epoch": 0.5128252106998901,
      "grad_norm": 0.38219313964397705,
      "learning_rate": 5.650517223844585e-06,
      "loss": 0.4541,
      "step": 2799
    },
    {
      "epoch": 0.5130084279956028,
      "grad_norm": 0.38386615301297883,
      "learning_rate": 5.647346396332726e-06,
      "loss": 0.4874,
      "step": 2800
    },
    {
      "epoch": 0.5131916452913154,
      "grad_norm": 0.3726417029798126,
      "learning_rate": 5.644175304019789e-06,
      "loss": 0.4785,
      "step": 2801
    },
    {
      "epoch": 0.5133748625870282,
      "grad_norm": 0.3628897592027456,
      "learning_rate": 5.641003948202929e-06,
      "loss": 0.4773,
      "step": 2802
    },
    {
      "epoch": 0.5135580798827409,
      "grad_norm": 0.3335307671309961,
      "learning_rate": 5.637832330179409e-06,
      "loss": 0.4529,
      "step": 2803
    },
    {
      "epoch": 0.5137412971784536,
      "grad_norm": 0.44601247780937237,
      "learning_rate": 5.6346604512465995e-06,
      "loss": 0.4816,
      "step": 2804
    },
    {
      "epoch": 0.5139245144741663,
      "grad_norm": 0.34863991785960624,
      "learning_rate": 5.631488312701977e-06,
      "loss": 0.4951,
      "step": 2805
    },
    {
      "epoch": 0.5141077317698791,
      "grad_norm": 0.3820766793490931,
      "learning_rate": 5.628315915843122e-06,
      "loss": 0.4467,
      "step": 2806
    },
    {
      "epoch": 0.5142909490655918,
      "grad_norm": 0.35635264125047506,
      "learning_rate": 5.625143261967728e-06,
      "loss": 0.4566,
      "step": 2807
    },
    {
      "epoch": 0.5144741663613045,
      "grad_norm": 0.4711996641872704,
      "learning_rate": 5.6219703523735845e-06,
      "loss": 0.4713,
      "step": 2808
    },
    {
      "epoch": 0.5146573836570172,
      "grad_norm": 0.41042137308045834,
      "learning_rate": 5.618797188358594e-06,
      "loss": 0.491,
      "step": 2809
    },
    {
      "epoch": 0.51484060095273,
      "grad_norm": 0.41018240050619975,
      "learning_rate": 5.615623771220754e-06,
      "loss": 0.4512,
      "step": 2810
    },
    {
      "epoch": 0.5150238182484427,
      "grad_norm": 0.4072188457659445,
      "learning_rate": 5.612450102258175e-06,
      "loss": 0.458,
      "step": 2811
    },
    {
      "epoch": 0.5152070355441554,
      "grad_norm": 0.3717199084066965,
      "learning_rate": 5.6092761827690644e-06,
      "loss": 0.4542,
      "step": 2812
    },
    {
      "epoch": 0.5153902528398681,
      "grad_norm": 0.4112503419617134,
      "learning_rate": 5.6061020140517345e-06,
      "loss": 0.4796,
      "step": 2813
    },
    {
      "epoch": 0.5155734701355807,
      "grad_norm": 0.34348081168540084,
      "learning_rate": 5.602927597404596e-06,
      "loss": 0.4676,
      "step": 2814
    },
    {
      "epoch": 0.5157566874312935,
      "grad_norm": 0.4147336886926842,
      "learning_rate": 5.599752934126168e-06,
      "loss": 0.4841,
      "step": 2815
    },
    {
      "epoch": 0.5159399047270062,
      "grad_norm": 0.3847769496581143,
      "learning_rate": 5.596578025515064e-06,
      "loss": 0.4909,
      "step": 2816
    },
    {
      "epoch": 0.5161231220227189,
      "grad_norm": 0.38263632939989156,
      "learning_rate": 5.593402872869999e-06,
      "loss": 0.4978,
      "step": 2817
    },
    {
      "epoch": 0.5163063393184316,
      "grad_norm": 0.3675389064146458,
      "learning_rate": 5.590227477489792e-06,
      "loss": 0.4819,
      "step": 2818
    },
    {
      "epoch": 0.5164895566141444,
      "grad_norm": 0.36445274827340074,
      "learning_rate": 5.587051840673356e-06,
      "loss": 0.4664,
      "step": 2819
    },
    {
      "epoch": 0.5166727739098571,
      "grad_norm": 0.35215155428207906,
      "learning_rate": 5.583875963719704e-06,
      "loss": 0.4566,
      "step": 2820
    },
    {
      "epoch": 0.5168559912055698,
      "grad_norm": 0.3655726933533943,
      "learning_rate": 5.5806998479279515e-06,
      "loss": 0.4371,
      "step": 2821
    },
    {
      "epoch": 0.5170392085012825,
      "grad_norm": 0.34665549819074337,
      "learning_rate": 5.577523494597307e-06,
      "loss": 0.4625,
      "step": 2822
    },
    {
      "epoch": 0.5172224257969953,
      "grad_norm": 0.397657981358375,
      "learning_rate": 5.574346905027076e-06,
      "loss": 0.5019,
      "step": 2823
    },
    {
      "epoch": 0.517405643092708,
      "grad_norm": 0.3741013564162191,
      "learning_rate": 5.5711700805166655e-06,
      "loss": 0.488,
      "step": 2824
    },
    {
      "epoch": 0.5175888603884207,
      "grad_norm": 0.34813475856931037,
      "learning_rate": 5.567993022365572e-06,
      "loss": 0.4628,
      "step": 2825
    },
    {
      "epoch": 0.5177720776841334,
      "grad_norm": 0.3581306069169864,
      "learning_rate": 5.564815731873394e-06,
      "loss": 0.4716,
      "step": 2826
    },
    {
      "epoch": 0.517955294979846,
      "grad_norm": 0.3521139375610018,
      "learning_rate": 5.56163821033982e-06,
      "loss": 0.4514,
      "step": 2827
    },
    {
      "epoch": 0.5181385122755588,
      "grad_norm": 0.4246593635230546,
      "learning_rate": 5.5584604590646354e-06,
      "loss": 0.4728,
      "step": 2828
    },
    {
      "epoch": 0.5183217295712715,
      "grad_norm": 0.5188493778299671,
      "learning_rate": 5.55528247934772e-06,
      "loss": 0.5149,
      "step": 2829
    },
    {
      "epoch": 0.5185049468669842,
      "grad_norm": 0.4619175556512451,
      "learning_rate": 5.552104272489045e-06,
      "loss": 0.4794,
      "step": 2830
    },
    {
      "epoch": 0.5186881641626969,
      "grad_norm": 0.3772249039736225,
      "learning_rate": 5.5489258397886755e-06,
      "loss": 0.4896,
      "step": 2831
    },
    {
      "epoch": 0.5188713814584097,
      "grad_norm": 0.356953463396354,
      "learning_rate": 5.545747182546771e-06,
      "loss": 0.476,
      "step": 2832
    },
    {
      "epoch": 0.5190545987541224,
      "grad_norm": 0.4327529150590389,
      "learning_rate": 5.5425683020635805e-06,
      "loss": 0.4616,
      "step": 2833
    },
    {
      "epoch": 0.5192378160498351,
      "grad_norm": 0.34952783052364766,
      "learning_rate": 5.539389199639442e-06,
      "loss": 0.4503,
      "step": 2834
    },
    {
      "epoch": 0.5194210333455478,
      "grad_norm": 0.429602823175531,
      "learning_rate": 5.536209876574793e-06,
      "loss": 0.4762,
      "step": 2835
    },
    {
      "epoch": 0.5196042506412606,
      "grad_norm": 0.34183231295304567,
      "learning_rate": 5.533030334170149e-06,
      "loss": 0.4573,
      "step": 2836
    },
    {
      "epoch": 0.5197874679369733,
      "grad_norm": 0.3486485931520749,
      "learning_rate": 5.529850573726125e-06,
      "loss": 0.4627,
      "step": 2837
    },
    {
      "epoch": 0.519970685232686,
      "grad_norm": 0.3806206915460022,
      "learning_rate": 5.526670596543422e-06,
      "loss": 0.4701,
      "step": 2838
    },
    {
      "epoch": 0.5201539025283987,
      "grad_norm": 0.31792940125070873,
      "learning_rate": 5.52349040392283e-06,
      "loss": 0.4374,
      "step": 2839
    },
    {
      "epoch": 0.5203371198241113,
      "grad_norm": 0.4371454649249866,
      "learning_rate": 5.520309997165223e-06,
      "loss": 0.4929,
      "step": 2840
    },
    {
      "epoch": 0.5205203371198242,
      "grad_norm": 0.371616242783777,
      "learning_rate": 5.5171293775715704e-06,
      "loss": 0.5076,
      "step": 2841
    },
    {
      "epoch": 0.5207035544155368,
      "grad_norm": 0.5396610760886152,
      "learning_rate": 5.513948546442923e-06,
      "loss": 0.4951,
      "step": 2842
    },
    {
      "epoch": 0.5208867717112495,
      "grad_norm": 0.4120896853660915,
      "learning_rate": 5.510767505080419e-06,
      "loss": 0.4747,
      "step": 2843
    },
    {
      "epoch": 0.5210699890069622,
      "grad_norm": 0.37452071665561426,
      "learning_rate": 5.507586254785283e-06,
      "loss": 0.4866,
      "step": 2844
    },
    {
      "epoch": 0.521253206302675,
      "grad_norm": 0.37912360014591456,
      "learning_rate": 5.504404796858826e-06,
      "loss": 0.4611,
      "step": 2845
    },
    {
      "epoch": 0.5214364235983877,
      "grad_norm": 0.3682103820427267,
      "learning_rate": 5.501223132602443e-06,
      "loss": 0.4855,
      "step": 2846
    },
    {
      "epoch": 0.5216196408941004,
      "grad_norm": 0.361832494682015,
      "learning_rate": 5.498041263317614e-06,
      "loss": 0.4657,
      "step": 2847
    },
    {
      "epoch": 0.5218028581898131,
      "grad_norm": 0.3838512388460457,
      "learning_rate": 5.494859190305903e-06,
      "loss": 0.4858,
      "step": 2848
    },
    {
      "epoch": 0.5219860754855258,
      "grad_norm": 0.41392426005477884,
      "learning_rate": 5.491676914868954e-06,
      "loss": 0.4775,
      "step": 2849
    },
    {
      "epoch": 0.5221692927812386,
      "grad_norm": 0.34136945446695127,
      "learning_rate": 5.488494438308499e-06,
      "loss": 0.4683,
      "step": 2850
    },
    {
      "epoch": 0.5223525100769513,
      "grad_norm": 0.3724337718499766,
      "learning_rate": 5.4853117619263496e-06,
      "loss": 0.481,
      "step": 2851
    },
    {
      "epoch": 0.522535727372664,
      "grad_norm": 0.36631446381516874,
      "learning_rate": 5.4821288870243995e-06,
      "loss": 0.4359,
      "step": 2852
    },
    {
      "epoch": 0.5227189446683767,
      "grad_norm": 0.3860339163956676,
      "learning_rate": 5.478945814904624e-06,
      "loss": 0.4422,
      "step": 2853
    },
    {
      "epoch": 0.5229021619640895,
      "grad_norm": 0.41470723211174776,
      "learning_rate": 5.475762546869076e-06,
      "loss": 0.4804,
      "step": 2854
    },
    {
      "epoch": 0.5230853792598021,
      "grad_norm": 0.35952376817351184,
      "learning_rate": 5.472579084219893e-06,
      "loss": 0.4843,
      "step": 2855
    },
    {
      "epoch": 0.5232685965555148,
      "grad_norm": 0.4284055124573125,
      "learning_rate": 5.469395428259291e-06,
      "loss": 0.4669,
      "step": 2856
    },
    {
      "epoch": 0.5234518138512275,
      "grad_norm": 0.3950368583083783,
      "learning_rate": 5.466211580289563e-06,
      "loss": 0.4801,
      "step": 2857
    },
    {
      "epoch": 0.5236350311469403,
      "grad_norm": 0.37109516802841763,
      "learning_rate": 5.463027541613083e-06,
      "loss": 0.477,
      "step": 2858
    },
    {
      "epoch": 0.523818248442653,
      "grad_norm": 0.3304081968687978,
      "learning_rate": 5.4598433135323015e-06,
      "loss": 0.4698,
      "step": 2859
    },
    {
      "epoch": 0.5240014657383657,
      "grad_norm": 0.3974618643677324,
      "learning_rate": 5.456658897349745e-06,
      "loss": 0.4936,
      "step": 2860
    },
    {
      "epoch": 0.5241846830340784,
      "grad_norm": 0.3676858892604378,
      "learning_rate": 5.453474294368022e-06,
      "loss": 0.4753,
      "step": 2861
    },
    {
      "epoch": 0.5243679003297911,
      "grad_norm": 0.4001836412967568,
      "learning_rate": 5.450289505889811e-06,
      "loss": 0.454,
      "step": 2862
    },
    {
      "epoch": 0.5245511176255039,
      "grad_norm": 0.3948440862595113,
      "learning_rate": 5.447104533217873e-06,
      "loss": 0.4673,
      "step": 2863
    },
    {
      "epoch": 0.5247343349212166,
      "grad_norm": 0.3621669622882833,
      "learning_rate": 5.443919377655036e-06,
      "loss": 0.5125,
      "step": 2864
    },
    {
      "epoch": 0.5249175522169293,
      "grad_norm": 0.4124120444352978,
      "learning_rate": 5.440734040504214e-06,
      "loss": 0.4939,
      "step": 2865
    },
    {
      "epoch": 0.525100769512642,
      "grad_norm": 0.35808462501030025,
      "learning_rate": 5.437548523068382e-06,
      "loss": 0.4932,
      "step": 2866
    },
    {
      "epoch": 0.5252839868083548,
      "grad_norm": 0.39518159152536025,
      "learning_rate": 5.434362826650603e-06,
      "loss": 0.5003,
      "step": 2867
    },
    {
      "epoch": 0.5254672041040674,
      "grad_norm": 0.35555153905366266,
      "learning_rate": 5.431176952554001e-06,
      "loss": 0.4908,
      "step": 2868
    },
    {
      "epoch": 0.5256504213997801,
      "grad_norm": 0.3618384123537011,
      "learning_rate": 5.42799090208178e-06,
      "loss": 0.4279,
      "step": 2869
    },
    {
      "epoch": 0.5258336386954928,
      "grad_norm": 0.3527157657304505,
      "learning_rate": 5.424804676537212e-06,
      "loss": 0.4921,
      "step": 2870
    },
    {
      "epoch": 0.5260168559912056,
      "grad_norm": 0.4360747680680866,
      "learning_rate": 5.421618277223644e-06,
      "loss": 0.4681,
      "step": 2871
    },
    {
      "epoch": 0.5262000732869183,
      "grad_norm": 0.3979795855422701,
      "learning_rate": 5.418431705444491e-06,
      "loss": 0.4913,
      "step": 2872
    },
    {
      "epoch": 0.526383290582631,
      "grad_norm": 0.39940943008161817,
      "learning_rate": 5.415244962503242e-06,
      "loss": 0.4915,
      "step": 2873
    },
    {
      "epoch": 0.5265665078783437,
      "grad_norm": 0.35211949742430754,
      "learning_rate": 5.412058049703452e-06,
      "loss": 0.4936,
      "step": 2874
    },
    {
      "epoch": 0.5267497251740564,
      "grad_norm": 0.35634358762706225,
      "learning_rate": 5.4088709683487494e-06,
      "loss": 0.464,
      "step": 2875
    },
    {
      "epoch": 0.5269329424697692,
      "grad_norm": 0.36997575334712507,
      "learning_rate": 5.405683719742829e-06,
      "loss": 0.4703,
      "step": 2876
    },
    {
      "epoch": 0.5271161597654819,
      "grad_norm": 0.4157476241421092,
      "learning_rate": 5.402496305189453e-06,
      "loss": 0.504,
      "step": 2877
    },
    {
      "epoch": 0.5272993770611946,
      "grad_norm": 0.38685559414741966,
      "learning_rate": 5.399308725992456e-06,
      "loss": 0.4814,
      "step": 2878
    },
    {
      "epoch": 0.5274825943569073,
      "grad_norm": 0.3483494243303595,
      "learning_rate": 5.396120983455736e-06,
      "loss": 0.481,
      "step": 2879
    },
    {
      "epoch": 0.52766581165262,
      "grad_norm": 0.36555168940379923,
      "learning_rate": 5.3929330788832576e-06,
      "loss": 0.4729,
      "step": 2880
    },
    {
      "epoch": 0.5278490289483327,
      "grad_norm": 0.34899931353718594,
      "learning_rate": 5.389745013579055e-06,
      "loss": 0.4532,
      "step": 2881
    },
    {
      "epoch": 0.5280322462440454,
      "grad_norm": 0.3639764900880931,
      "learning_rate": 5.386556788847226e-06,
      "loss": 0.4692,
      "step": 2882
    },
    {
      "epoch": 0.5282154635397581,
      "grad_norm": 0.4661304297937794,
      "learning_rate": 5.383368405991932e-06,
      "loss": 0.5113,
      "step": 2883
    },
    {
      "epoch": 0.5283986808354708,
      "grad_norm": 0.3601443720964451,
      "learning_rate": 5.380179866317403e-06,
      "loss": 0.4799,
      "step": 2884
    },
    {
      "epoch": 0.5285818981311836,
      "grad_norm": 0.46626517384955435,
      "learning_rate": 5.376991171127931e-06,
      "loss": 0.469,
      "step": 2885
    },
    {
      "epoch": 0.5287651154268963,
      "grad_norm": 0.37278046156442574,
      "learning_rate": 5.373802321727868e-06,
      "loss": 0.4873,
      "step": 2886
    },
    {
      "epoch": 0.528948332722609,
      "grad_norm": 0.34859282489803667,
      "learning_rate": 5.370613319421638e-06,
      "loss": 0.4849,
      "step": 2887
    },
    {
      "epoch": 0.5291315500183217,
      "grad_norm": 0.3517860655690429,
      "learning_rate": 5.367424165513719e-06,
      "loss": 0.4681,
      "step": 2888
    },
    {
      "epoch": 0.5293147673140345,
      "grad_norm": 0.3795011301502316,
      "learning_rate": 5.364234861308655e-06,
      "loss": 0.4647,
      "step": 2889
    },
    {
      "epoch": 0.5294979846097472,
      "grad_norm": 0.3422447727216203,
      "learning_rate": 5.36104540811105e-06,
      "loss": 0.4555,
      "step": 2890
    },
    {
      "epoch": 0.5296812019054599,
      "grad_norm": 0.40073589742835186,
      "learning_rate": 5.357855807225573e-06,
      "loss": 0.4857,
      "step": 2891
    },
    {
      "epoch": 0.5298644192011726,
      "grad_norm": 0.7193860431185534,
      "learning_rate": 5.354666059956944e-06,
      "loss": 0.4445,
      "step": 2892
    },
    {
      "epoch": 0.5300476364968854,
      "grad_norm": 0.4186517280793463,
      "learning_rate": 5.351476167609956e-06,
      "loss": 0.482,
      "step": 2893
    },
    {
      "epoch": 0.530230853792598,
      "grad_norm": 0.39548554303715294,
      "learning_rate": 5.3482861314894485e-06,
      "loss": 0.5013,
      "step": 2894
    },
    {
      "epoch": 0.5304140710883107,
      "grad_norm": 0.35594961523045976,
      "learning_rate": 5.3450959529003295e-06,
      "loss": 0.4769,
      "step": 2895
    },
    {
      "epoch": 0.5305972883840234,
      "grad_norm": 0.37538162589557583,
      "learning_rate": 5.341905633147561e-06,
      "loss": 0.5052,
      "step": 2896
    },
    {
      "epoch": 0.5307805056797361,
      "grad_norm": 0.4247691508030218,
      "learning_rate": 5.33871517353616e-06,
      "loss": 0.5116,
      "step": 2897
    },
    {
      "epoch": 0.5309637229754489,
      "grad_norm": 0.4114926709621181,
      "learning_rate": 5.335524575371207e-06,
      "loss": 0.4968,
      "step": 2898
    },
    {
      "epoch": 0.5311469402711616,
      "grad_norm": 0.3974125326221091,
      "learning_rate": 5.332333839957835e-06,
      "loss": 0.4903,
      "step": 2899
    },
    {
      "epoch": 0.5313301575668743,
      "grad_norm": 0.45799400702984955,
      "learning_rate": 5.329142968601235e-06,
      "loss": 0.5141,
      "step": 2900
    },
    {
      "epoch": 0.531513374862587,
      "grad_norm": 0.3449525725893118,
      "learning_rate": 5.325951962606652e-06,
      "loss": 0.4758,
      "step": 2901
    },
    {
      "epoch": 0.5316965921582998,
      "grad_norm": 0.3804584433180558,
      "learning_rate": 5.322760823279387e-06,
      "loss": 0.4512,
      "step": 2902
    },
    {
      "epoch": 0.5318798094540125,
      "grad_norm": 0.4494280023735995,
      "learning_rate": 5.319569551924796e-06,
      "loss": 0.5056,
      "step": 2903
    },
    {
      "epoch": 0.5320630267497252,
      "grad_norm": 0.3955072889662097,
      "learning_rate": 5.316378149848288e-06,
      "loss": 0.4927,
      "step": 2904
    },
    {
      "epoch": 0.5322462440454379,
      "grad_norm": 0.42919220375892686,
      "learning_rate": 5.313186618355325e-06,
      "loss": 0.4916,
      "step": 2905
    },
    {
      "epoch": 0.5324294613411507,
      "grad_norm": 0.40505314747590065,
      "learning_rate": 5.309994958751425e-06,
      "loss": 0.4908,
      "step": 2906
    },
    {
      "epoch": 0.5326126786368633,
      "grad_norm": 0.4456449571578341,
      "learning_rate": 5.3068031723421545e-06,
      "loss": 0.5081,
      "step": 2907
    },
    {
      "epoch": 0.532795895932576,
      "grad_norm": 0.3721241522017317,
      "learning_rate": 5.303611260433134e-06,
      "loss": 0.4749,
      "step": 2908
    },
    {
      "epoch": 0.5329791132282887,
      "grad_norm": 0.38250684425244236,
      "learning_rate": 5.300419224330035e-06,
      "loss": 0.4485,
      "step": 2909
    },
    {
      "epoch": 0.5331623305240014,
      "grad_norm": 0.4066445854359944,
      "learning_rate": 5.2972270653385795e-06,
      "loss": 0.4784,
      "step": 2910
    },
    {
      "epoch": 0.5333455478197142,
      "grad_norm": 0.3851717388861089,
      "learning_rate": 5.2940347847645425e-06,
      "loss": 0.4653,
      "step": 2911
    },
    {
      "epoch": 0.5335287651154269,
      "grad_norm": 0.3847978382682243,
      "learning_rate": 5.290842383913741e-06,
      "loss": 0.4976,
      "step": 2912
    },
    {
      "epoch": 0.5337119824111396,
      "grad_norm": 0.4099519165225841,
      "learning_rate": 5.287649864092053e-06,
      "loss": 0.4694,
      "step": 2913
    },
    {
      "epoch": 0.5338951997068523,
      "grad_norm": 0.3608571281303376,
      "learning_rate": 5.284457226605392e-06,
      "loss": 0.4994,
      "step": 2914
    },
    {
      "epoch": 0.5340784170025651,
      "grad_norm": 0.38645401938215057,
      "learning_rate": 5.281264472759731e-06,
      "loss": 0.4578,
      "step": 2915
    },
    {
      "epoch": 0.5342616342982778,
      "grad_norm": 0.3587512691919146,
      "learning_rate": 5.2780716038610835e-06,
      "loss": 0.4677,
      "step": 2916
    },
    {
      "epoch": 0.5344448515939905,
      "grad_norm": 0.3915772277479349,
      "learning_rate": 5.274878621215516e-06,
      "loss": 0.4621,
      "step": 2917
    },
    {
      "epoch": 0.5346280688897032,
      "grad_norm": 0.3489866287293818,
      "learning_rate": 5.271685526129131e-06,
      "loss": 0.4849,
      "step": 2918
    },
    {
      "epoch": 0.534811286185416,
      "grad_norm": 0.34140728871959686,
      "learning_rate": 5.2684923199080916e-06,
      "loss": 0.489,
      "step": 2919
    },
    {
      "epoch": 0.5349945034811286,
      "grad_norm": 0.38452077235446463,
      "learning_rate": 5.265299003858594e-06,
      "loss": 0.4698,
      "step": 2920
    },
    {
      "epoch": 0.5351777207768413,
      "grad_norm": 0.36188439432129715,
      "learning_rate": 5.262105579286886e-06,
      "loss": 0.467,
      "step": 2921
    },
    {
      "epoch": 0.535360938072554,
      "grad_norm": 0.40136003826650657,
      "learning_rate": 5.258912047499257e-06,
      "loss": 0.4897,
      "step": 2922
    },
    {
      "epoch": 0.5355441553682667,
      "grad_norm": 0.38301156903817407,
      "learning_rate": 5.255718409802041e-06,
      "loss": 0.4846,
      "step": 2923
    },
    {
      "epoch": 0.5357273726639795,
      "grad_norm": 0.4062414309735644,
      "learning_rate": 5.252524667501615e-06,
      "loss": 0.424,
      "step": 2924
    },
    {
      "epoch": 0.5359105899596922,
      "grad_norm": 0.5669309183397974,
      "learning_rate": 5.2493308219044006e-06,
      "loss": 0.5234,
      "step": 2925
    },
    {
      "epoch": 0.5360938072554049,
      "grad_norm": 0.35353928602965695,
      "learning_rate": 5.246136874316859e-06,
      "loss": 0.4733,
      "step": 2926
    },
    {
      "epoch": 0.5362770245511176,
      "grad_norm": 0.3714597276288667,
      "learning_rate": 5.242942826045496e-06,
      "loss": 0.4764,
      "step": 2927
    },
    {
      "epoch": 0.5364602418468304,
      "grad_norm": 0.37661479847969237,
      "learning_rate": 5.239748678396854e-06,
      "loss": 0.4537,
      "step": 2928
    },
    {
      "epoch": 0.5366434591425431,
      "grad_norm": 0.36875780969579863,
      "learning_rate": 5.236554432677523e-06,
      "loss": 0.4502,
      "step": 2929
    },
    {
      "epoch": 0.5368266764382558,
      "grad_norm": 0.37308350275176266,
      "learning_rate": 5.233360090194125e-06,
      "loss": 0.4513,
      "step": 2930
    },
    {
      "epoch": 0.5370098937339685,
      "grad_norm": 0.3949888510977111,
      "learning_rate": 5.230165652253329e-06,
      "loss": 0.4719,
      "step": 2931
    },
    {
      "epoch": 0.5371931110296811,
      "grad_norm": 0.4017042328027038,
      "learning_rate": 5.226971120161838e-06,
      "loss": 0.4628,
      "step": 2932
    },
    {
      "epoch": 0.537376328325394,
      "grad_norm": 0.3509668407036333,
      "learning_rate": 5.223776495226395e-06,
      "loss": 0.4847,
      "step": 2933
    },
    {
      "epoch": 0.5375595456211066,
      "grad_norm": 0.4245190133910541,
      "learning_rate": 5.2205817787537825e-06,
      "loss": 0.465,
      "step": 2934
    },
    {
      "epoch": 0.5377427629168193,
      "grad_norm": 0.3579730150567853,
      "learning_rate": 5.2173869720508186e-06,
      "loss": 0.4795,
      "step": 2935
    },
    {
      "epoch": 0.537925980212532,
      "grad_norm": 0.37265014399835306,
      "learning_rate": 5.214192076424358e-06,
      "loss": 0.4672,
      "step": 2936
    },
    {
      "epoch": 0.5381091975082448,
      "grad_norm": 0.4179269118836094,
      "learning_rate": 5.210997093181296e-06,
      "loss": 0.5018,
      "step": 2937
    },
    {
      "epoch": 0.5382924148039575,
      "grad_norm": 0.3254090650905135,
      "learning_rate": 5.207802023628554e-06,
      "loss": 0.5234,
      "step": 2938
    },
    {
      "epoch": 0.5384756320996702,
      "grad_norm": 0.38656661518569324,
      "learning_rate": 5.2046068690731035e-06,
      "loss": 0.4514,
      "step": 2939
    },
    {
      "epoch": 0.5386588493953829,
      "grad_norm": 0.392235416857842,
      "learning_rate": 5.2014116308219344e-06,
      "loss": 0.467,
      "step": 2940
    },
    {
      "epoch": 0.5388420666910957,
      "grad_norm": 0.3783619599342323,
      "learning_rate": 5.198216310182085e-06,
      "loss": 0.4837,
      "step": 2941
    },
    {
      "epoch": 0.5390252839868084,
      "grad_norm": 0.38311083355310077,
      "learning_rate": 5.195020908460615e-06,
      "loss": 0.4569,
      "step": 2942
    },
    {
      "epoch": 0.5392085012825211,
      "grad_norm": 0.36048480834825547,
      "learning_rate": 5.1918254269646305e-06,
      "loss": 0.4693,
      "step": 2943
    },
    {
      "epoch": 0.5393917185782338,
      "grad_norm": 0.5096803473624115,
      "learning_rate": 5.188629867001257e-06,
      "loss": 0.4906,
      "step": 2944
    },
    {
      "epoch": 0.5395749358739464,
      "grad_norm": 0.39305512464764275,
      "learning_rate": 5.185434229877662e-06,
      "loss": 0.4496,
      "step": 2945
    },
    {
      "epoch": 0.5397581531696592,
      "grad_norm": 0.38441166520861675,
      "learning_rate": 5.182238516901039e-06,
      "loss": 0.4853,
      "step": 2946
    },
    {
      "epoch": 0.5399413704653719,
      "grad_norm": 0.3647631577483791,
      "learning_rate": 5.179042729378616e-06,
      "loss": 0.4796,
      "step": 2947
    },
    {
      "epoch": 0.5401245877610846,
      "grad_norm": 0.33704086659708365,
      "learning_rate": 5.175846868617648e-06,
      "loss": 0.4328,
      "step": 2948
    },
    {
      "epoch": 0.5403078050567973,
      "grad_norm": 0.4172774407255861,
      "learning_rate": 5.172650935925422e-06,
      "loss": 0.468,
      "step": 2949
    },
    {
      "epoch": 0.5404910223525101,
      "grad_norm": 0.39166173820838274,
      "learning_rate": 5.1694549326092545e-06,
      "loss": 0.4781,
      "step": 2950
    },
    {
      "epoch": 0.5406742396482228,
      "grad_norm": 0.35023848048516243,
      "learning_rate": 5.166258859976491e-06,
      "loss": 0.4696,
      "step": 2951
    },
    {
      "epoch": 0.5408574569439355,
      "grad_norm": 0.40463812223445605,
      "learning_rate": 5.163062719334504e-06,
      "loss": 0.4519,
      "step": 2952
    },
    {
      "epoch": 0.5410406742396482,
      "grad_norm": 0.3295763274091267,
      "learning_rate": 5.159866511990696e-06,
      "loss": 0.4404,
      "step": 2953
    },
    {
      "epoch": 0.541223891535361,
      "grad_norm": 0.4006302305354375,
      "learning_rate": 5.156670239252495e-06,
      "loss": 0.4981,
      "step": 2954
    },
    {
      "epoch": 0.5414071088310737,
      "grad_norm": 0.3278656070953833,
      "learning_rate": 5.153473902427355e-06,
      "loss": 0.4338,
      "step": 2955
    },
    {
      "epoch": 0.5415903261267864,
      "grad_norm": 0.3802064956693402,
      "learning_rate": 5.15027750282276e-06,
      "loss": 0.4707,
      "step": 2956
    },
    {
      "epoch": 0.5417735434224991,
      "grad_norm": 0.36364509241673776,
      "learning_rate": 5.147081041746214e-06,
      "loss": 0.4571,
      "step": 2957
    },
    {
      "epoch": 0.5419567607182117,
      "grad_norm": 0.4222701241101004,
      "learning_rate": 5.143884520505253e-06,
      "loss": 0.4912,
      "step": 2958
    },
    {
      "epoch": 0.5421399780139246,
      "grad_norm": 0.3690593576892358,
      "learning_rate": 5.140687940407432e-06,
      "loss": 0.4641,
      "step": 2959
    },
    {
      "epoch": 0.5423231953096372,
      "grad_norm": 0.3642258437028377,
      "learning_rate": 5.137491302760331e-06,
      "loss": 0.5207,
      "step": 2960
    },
    {
      "epoch": 0.5425064126053499,
      "grad_norm": 0.36258777119524377,
      "learning_rate": 5.134294608871557e-06,
      "loss": 0.4745,
      "step": 2961
    },
    {
      "epoch": 0.5426896299010626,
      "grad_norm": 0.3592437874632688,
      "learning_rate": 5.131097860048736e-06,
      "loss": 0.457,
      "step": 2962
    },
    {
      "epoch": 0.5428728471967754,
      "grad_norm": 0.34657579706751257,
      "learning_rate": 5.127901057599517e-06,
      "loss": 0.4811,
      "step": 2963
    },
    {
      "epoch": 0.5430560644924881,
      "grad_norm": 0.38986574250324335,
      "learning_rate": 5.124704202831574e-06,
      "loss": 0.4761,
      "step": 2964
    },
    {
      "epoch": 0.5432392817882008,
      "grad_norm": 0.354631208567437,
      "learning_rate": 5.1215072970526004e-06,
      "loss": 0.4727,
      "step": 2965
    },
    {
      "epoch": 0.5434224990839135,
      "grad_norm": 0.39620267097722783,
      "learning_rate": 5.118310341570308e-06,
      "loss": 0.461,
      "step": 2966
    },
    {
      "epoch": 0.5436057163796263,
      "grad_norm": 0.3809700887755271,
      "learning_rate": 5.115113337692434e-06,
      "loss": 0.4501,
      "step": 2967
    },
    {
      "epoch": 0.543788933675339,
      "grad_norm": 0.6226141609011149,
      "learning_rate": 5.1119162867267315e-06,
      "loss": 0.4683,
      "step": 2968
    },
    {
      "epoch": 0.5439721509710517,
      "grad_norm": 0.34478781370360134,
      "learning_rate": 5.108719189980975e-06,
      "loss": 0.4703,
      "step": 2969
    },
    {
      "epoch": 0.5441553682667644,
      "grad_norm": 0.4188173225476515,
      "learning_rate": 5.105522048762954e-06,
      "loss": 0.4885,
      "step": 2970
    },
    {
      "epoch": 0.544338585562477,
      "grad_norm": 0.5429472014892446,
      "learning_rate": 5.1023248643804845e-06,
      "loss": 0.4716,
      "step": 2971
    },
    {
      "epoch": 0.5445218028581899,
      "grad_norm": 0.37228534397712537,
      "learning_rate": 5.099127638141389e-06,
      "loss": 0.4393,
      "step": 2972
    },
    {
      "epoch": 0.5447050201539025,
      "grad_norm": 0.3745435037338173,
      "learning_rate": 5.095930371353517e-06,
      "loss": 0.4993,
      "step": 2973
    },
    {
      "epoch": 0.5448882374496152,
      "grad_norm": 0.41412810270459044,
      "learning_rate": 5.092733065324727e-06,
      "loss": 0.4732,
      "step": 2974
    },
    {
      "epoch": 0.5450714547453279,
      "grad_norm": 0.39667040566940515,
      "learning_rate": 5.089535721362901e-06,
      "loss": 0.5159,
      "step": 2975
    },
    {
      "epoch": 0.5452546720410407,
      "grad_norm": 0.3506641882154736,
      "learning_rate": 5.086338340775928e-06,
      "loss": 0.4786,
      "step": 2976
    },
    {
      "epoch": 0.5454378893367534,
      "grad_norm": 0.37045713084352444,
      "learning_rate": 5.083140924871719e-06,
      "loss": 0.4947,
      "step": 2977
    },
    {
      "epoch": 0.5456211066324661,
      "grad_norm": 0.36590535185443057,
      "learning_rate": 5.079943474958197e-06,
      "loss": 0.4867,
      "step": 2978
    },
    {
      "epoch": 0.5458043239281788,
      "grad_norm": 0.3809584128397892,
      "learning_rate": 5.076745992343297e-06,
      "loss": 0.4843,
      "step": 2979
    },
    {
      "epoch": 0.5459875412238915,
      "grad_norm": 0.41125163480054133,
      "learning_rate": 5.073548478334972e-06,
      "loss": 0.4905,
      "step": 2980
    },
    {
      "epoch": 0.5461707585196043,
      "grad_norm": 0.41888585924992366,
      "learning_rate": 5.070350934241182e-06,
      "loss": 0.5035,
      "step": 2981
    },
    {
      "epoch": 0.546353975815317,
      "grad_norm": 0.3726285728522986,
      "learning_rate": 5.067153361369905e-06,
      "loss": 0.486,
      "step": 2982
    },
    {
      "epoch": 0.5465371931110297,
      "grad_norm": 0.36792399066944415,
      "learning_rate": 5.063955761029128e-06,
      "loss": 0.4925,
      "step": 2983
    },
    {
      "epoch": 0.5467204104067424,
      "grad_norm": 0.3977818481259419,
      "learning_rate": 5.060758134526847e-06,
      "loss": 0.4521,
      "step": 2984
    },
    {
      "epoch": 0.5469036277024552,
      "grad_norm": 0.36585915155651066,
      "learning_rate": 5.057560483171072e-06,
      "loss": 0.4848,
      "step": 2985
    },
    {
      "epoch": 0.5470868449981678,
      "grad_norm": 0.3345347835265389,
      "learning_rate": 5.054362808269824e-06,
      "loss": 0.4383,
      "step": 2986
    },
    {
      "epoch": 0.5472700622938805,
      "grad_norm": 0.4530801780101565,
      "learning_rate": 5.0511651111311285e-06,
      "loss": 0.4737,
      "step": 2987
    },
    {
      "epoch": 0.5474532795895932,
      "grad_norm": 0.3731202638551678,
      "learning_rate": 5.047967393063027e-06,
      "loss": 0.4965,
      "step": 2988
    },
    {
      "epoch": 0.547636496885306,
      "grad_norm": 0.3400953185078803,
      "learning_rate": 5.044769655373564e-06,
      "loss": 0.4701,
      "step": 2989
    },
    {
      "epoch": 0.5478197141810187,
      "grad_norm": 0.36743728384406593,
      "learning_rate": 5.041571899370794e-06,
      "loss": 0.4787,
      "step": 2990
    },
    {
      "epoch": 0.5480029314767314,
      "grad_norm": 0.4103703822856523,
      "learning_rate": 5.03837412636278e-06,
      "loss": 0.457,
      "step": 2991
    },
    {
      "epoch": 0.5481861487724441,
      "grad_norm": 0.3710505913853357,
      "learning_rate": 5.03517633765759e-06,
      "loss": 0.5121,
      "step": 2992
    },
    {
      "epoch": 0.5483693660681568,
      "grad_norm": 0.35290976311155,
      "learning_rate": 5.031978534563301e-06,
      "loss": 0.4958,
      "step": 2993
    },
    {
      "epoch": 0.5485525833638696,
      "grad_norm": 0.40567005135937617,
      "learning_rate": 5.028780718387991e-06,
      "loss": 0.4982,
      "step": 2994
    },
    {
      "epoch": 0.5487358006595823,
      "grad_norm": 0.39949656554763924,
      "learning_rate": 5.025582890439752e-06,
      "loss": 0.4538,
      "step": 2995
    },
    {
      "epoch": 0.548919017955295,
      "grad_norm": 0.35941919521494875,
      "learning_rate": 5.022385052026668e-06,
      "loss": 0.4728,
      "step": 2996
    },
    {
      "epoch": 0.5491022352510077,
      "grad_norm": 0.38895581209117513,
      "learning_rate": 5.019187204456842e-06,
      "loss": 0.4882,
      "step": 2997
    },
    {
      "epoch": 0.5492854525467205,
      "grad_norm": 0.36464831757502797,
      "learning_rate": 5.015989349038369e-06,
      "loss": 0.4603,
      "step": 2998
    },
    {
      "epoch": 0.5494686698424331,
      "grad_norm": 0.4077652274710313,
      "learning_rate": 5.012791487079355e-06,
      "loss": 0.5101,
      "step": 2999
    },
    {
      "epoch": 0.5496518871381458,
      "grad_norm": 0.36034817480747944,
      "learning_rate": 5.0095936198879e-06,
      "loss": 0.4624,
      "step": 3000
    },
    {
      "epoch": 0.5498351044338585,
      "grad_norm": 0.4285338207306717,
      "learning_rate": 5.006395748772119e-06,
      "loss": 0.5193,
      "step": 3001
    },
    {
      "epoch": 0.5500183217295713,
      "grad_norm": 0.3746957176964203,
      "learning_rate": 5.003197875040115e-06,
      "loss": 0.4696,
      "step": 3002
    },
    {
      "epoch": 0.550201539025284,
      "grad_norm": 0.45507949686267096,
      "learning_rate": 5e-06,
      "loss": 0.4921,
      "step": 3003
    },
    {
      "epoch": 0.5503847563209967,
      "grad_norm": 0.3609229066338744,
      "learning_rate": 4.996802124959886e-06,
      "loss": 0.5219,
      "step": 3004
    },
    {
      "epoch": 0.5505679736167094,
      "grad_norm": 0.44642590441418006,
      "learning_rate": 4.993604251227883e-06,
      "loss": 0.4661,
      "step": 3005
    },
    {
      "epoch": 0.5507511909124221,
      "grad_norm": 0.38751554388621373,
      "learning_rate": 4.990406380112101e-06,
      "loss": 0.4934,
      "step": 3006
    },
    {
      "epoch": 0.5509344082081349,
      "grad_norm": 0.44084090414468313,
      "learning_rate": 4.987208512920647e-06,
      "loss": 0.4609,
      "step": 3007
    },
    {
      "epoch": 0.5511176255038476,
      "grad_norm": 0.3826735702459895,
      "learning_rate": 4.984010650961632e-06,
      "loss": 0.4668,
      "step": 3008
    },
    {
      "epoch": 0.5513008427995603,
      "grad_norm": 0.39052208118436643,
      "learning_rate": 4.9808127955431605e-06,
      "loss": 0.4765,
      "step": 3009
    },
    {
      "epoch": 0.551484060095273,
      "grad_norm": 0.3538214074954766,
      "learning_rate": 4.977614947973333e-06,
      "loss": 0.4278,
      "step": 3010
    },
    {
      "epoch": 0.5516672773909858,
      "grad_norm": 0.3525653240434517,
      "learning_rate": 4.97441710956025e-06,
      "loss": 0.4528,
      "step": 3011
    },
    {
      "epoch": 0.5518504946866984,
      "grad_norm": 0.41849241943747617,
      "learning_rate": 4.971219281612009e-06,
      "loss": 0.5089,
      "step": 3012
    },
    {
      "epoch": 0.5520337119824111,
      "grad_norm": 0.36896131804116705,
      "learning_rate": 4.968021465436701e-06,
      "loss": 0.4628,
      "step": 3013
    },
    {
      "epoch": 0.5522169292781238,
      "grad_norm": 1.8962860706469424,
      "learning_rate": 4.964823662342411e-06,
      "loss": 0.4411,
      "step": 3014
    },
    {
      "epoch": 0.5524001465738366,
      "grad_norm": 0.39520310244465107,
      "learning_rate": 4.9616258736372206e-06,
      "loss": 0.4573,
      "step": 3015
    },
    {
      "epoch": 0.5525833638695493,
      "grad_norm": 0.3884957729352293,
      "learning_rate": 4.958428100629206e-06,
      "loss": 0.4787,
      "step": 3016
    },
    {
      "epoch": 0.552766581165262,
      "grad_norm": 0.3739154780713499,
      "learning_rate": 4.955230344626438e-06,
      "loss": 0.4529,
      "step": 3017
    },
    {
      "epoch": 0.5529497984609747,
      "grad_norm": 0.4645397422934775,
      "learning_rate": 4.952032606936974e-06,
      "loss": 0.5004,
      "step": 3018
    },
    {
      "epoch": 0.5531330157566874,
      "grad_norm": 0.376257628657457,
      "learning_rate": 4.948834888868872e-06,
      "loss": 0.4695,
      "step": 3019
    },
    {
      "epoch": 0.5533162330524002,
      "grad_norm": 0.7509468817825836,
      "learning_rate": 4.945637191730177e-06,
      "loss": 0.461,
      "step": 3020
    },
    {
      "epoch": 0.5534994503481129,
      "grad_norm": 0.33093606690741983,
      "learning_rate": 4.942439516828929e-06,
      "loss": 0.461,
      "step": 3021
    },
    {
      "epoch": 0.5536826676438256,
      "grad_norm": 0.342594923652272,
      "learning_rate": 4.939241865473154e-06,
      "loss": 0.483,
      "step": 3022
    },
    {
      "epoch": 0.5538658849395383,
      "grad_norm": 0.42461934574028787,
      "learning_rate": 4.936044238970874e-06,
      "loss": 0.5221,
      "step": 3023
    },
    {
      "epoch": 0.5540491022352511,
      "grad_norm": 0.3843975972052995,
      "learning_rate": 4.932846638630095e-06,
      "loss": 0.4718,
      "step": 3024
    },
    {
      "epoch": 0.5542323195309637,
      "grad_norm": 0.35214701703123336,
      "learning_rate": 4.929649065758819e-06,
      "loss": 0.4936,
      "step": 3025
    },
    {
      "epoch": 0.5544155368266764,
      "grad_norm": 0.39385494079941263,
      "learning_rate": 4.926451521665029e-06,
      "loss": 0.4569,
      "step": 3026
    },
    {
      "epoch": 0.5545987541223891,
      "grad_norm": 0.3471261653623269,
      "learning_rate": 4.9232540076567034e-06,
      "loss": 0.4598,
      "step": 3027
    },
    {
      "epoch": 0.5547819714181018,
      "grad_norm": 0.4254387065784489,
      "learning_rate": 4.920056525041805e-06,
      "loss": 0.4598,
      "step": 3028
    },
    {
      "epoch": 0.5549651887138146,
      "grad_norm": 0.3477326042007442,
      "learning_rate": 4.916859075128283e-06,
      "loss": 0.4737,
      "step": 3029
    },
    {
      "epoch": 0.5551484060095273,
      "grad_norm": 0.3583300309759384,
      "learning_rate": 4.913661659224074e-06,
      "loss": 0.4692,
      "step": 3030
    },
    {
      "epoch": 0.55533162330524,
      "grad_norm": 0.34071521398866017,
      "learning_rate": 4.910464278637101e-06,
      "loss": 0.4583,
      "step": 3031
    },
    {
      "epoch": 0.5555148406009527,
      "grad_norm": 0.3491675887668868,
      "learning_rate": 4.9072669346752734e-06,
      "loss": 0.4597,
      "step": 3032
    },
    {
      "epoch": 0.5556980578966655,
      "grad_norm": 0.38898178790274124,
      "learning_rate": 4.904069628646486e-06,
      "loss": 0.4659,
      "step": 3033
    },
    {
      "epoch": 0.5558812751923782,
      "grad_norm": 0.4310466722487581,
      "learning_rate": 4.900872361858613e-06,
      "loss": 0.4926,
      "step": 3034
    },
    {
      "epoch": 0.5560644924880909,
      "grad_norm": 0.38569440984474046,
      "learning_rate": 4.897675135619517e-06,
      "loss": 0.4975,
      "step": 3035
    },
    {
      "epoch": 0.5562477097838036,
      "grad_norm": 0.4430394243979431,
      "learning_rate": 4.894477951237045e-06,
      "loss": 0.4876,
      "step": 3036
    },
    {
      "epoch": 0.5564309270795164,
      "grad_norm": 0.40782021540263214,
      "learning_rate": 4.8912808100190275e-06,
      "loss": 0.4353,
      "step": 3037
    },
    {
      "epoch": 0.556614144375229,
      "grad_norm": 0.3706579167777146,
      "learning_rate": 4.88808371327327e-06,
      "loss": 0.452,
      "step": 3038
    },
    {
      "epoch": 0.5567973616709417,
      "grad_norm": 0.3342714030205408,
      "learning_rate": 4.884886662307567e-06,
      "loss": 0.4424,
      "step": 3039
    },
    {
      "epoch": 0.5569805789666544,
      "grad_norm": 0.3400620563273464,
      "learning_rate": 4.881689658429693e-06,
      "loss": 0.474,
      "step": 3040
    },
    {
      "epoch": 0.5571637962623671,
      "grad_norm": 0.37477780306979874,
      "learning_rate": 4.878492702947401e-06,
      "loss": 0.4719,
      "step": 3041
    },
    {
      "epoch": 0.5573470135580799,
      "grad_norm": 0.4023244017066431,
      "learning_rate": 4.875295797168427e-06,
      "loss": 0.4657,
      "step": 3042
    },
    {
      "epoch": 0.5575302308537926,
      "grad_norm": 0.35993096960545706,
      "learning_rate": 4.872098942400484e-06,
      "loss": 0.4881,
      "step": 3043
    },
    {
      "epoch": 0.5577134481495053,
      "grad_norm": 0.3408372914295605,
      "learning_rate": 4.868902139951265e-06,
      "loss": 0.4587,
      "step": 3044
    },
    {
      "epoch": 0.557896665445218,
      "grad_norm": 0.41192915257702006,
      "learning_rate": 4.8657053911284445e-06,
      "loss": 0.4591,
      "step": 3045
    },
    {
      "epoch": 0.5580798827409308,
      "grad_norm": 0.3584497304578561,
      "learning_rate": 4.86250869723967e-06,
      "loss": 0.4182,
      "step": 3046
    },
    {
      "epoch": 0.5582631000366435,
      "grad_norm": 0.3607355707176063,
      "learning_rate": 4.859312059592569e-06,
      "loss": 0.4549,
      "step": 3047
    },
    {
      "epoch": 0.5584463173323562,
      "grad_norm": 0.37328529033014385,
      "learning_rate": 4.856115479494747e-06,
      "loss": 0.4732,
      "step": 3048
    },
    {
      "epoch": 0.5586295346280689,
      "grad_norm": 0.32431243654751757,
      "learning_rate": 4.852918958253787e-06,
      "loss": 0.4659,
      "step": 3049
    },
    {
      "epoch": 0.5588127519237817,
      "grad_norm": 0.3971694740019051,
      "learning_rate": 4.849722497177242e-06,
      "loss": 0.4874,
      "step": 3050
    },
    {
      "epoch": 0.5589959692194943,
      "grad_norm": 0.42362917357060553,
      "learning_rate": 4.846526097572646e-06,
      "loss": 0.459,
      "step": 3051
    },
    {
      "epoch": 0.559179186515207,
      "grad_norm": 0.42189231248016035,
      "learning_rate": 4.843329760747505e-06,
      "loss": 0.5082,
      "step": 3052
    },
    {
      "epoch": 0.5593624038109197,
      "grad_norm": 0.3346084353694287,
      "learning_rate": 4.840133488009306e-06,
      "loss": 0.464,
      "step": 3053
    },
    {
      "epoch": 0.5595456211066324,
      "grad_norm": 0.4003637317955546,
      "learning_rate": 4.836937280665497e-06,
      "loss": 0.4593,
      "step": 3054
    },
    {
      "epoch": 0.5597288384023452,
      "grad_norm": 0.4006410735017939,
      "learning_rate": 4.83374114002351e-06,
      "loss": 0.4703,
      "step": 3055
    },
    {
      "epoch": 0.5599120556980579,
      "grad_norm": 0.38582218290002546,
      "learning_rate": 4.830545067390746e-06,
      "loss": 0.4931,
      "step": 3056
    },
    {
      "epoch": 0.5600952729937706,
      "grad_norm": 0.39858644345264665,
      "learning_rate": 4.827349064074581e-06,
      "loss": 0.4778,
      "step": 3057
    },
    {
      "epoch": 0.5602784902894833,
      "grad_norm": 0.36011543461086254,
      "learning_rate": 4.824153131382354e-06,
      "loss": 0.4631,
      "step": 3058
    },
    {
      "epoch": 0.5604617075851961,
      "grad_norm": 0.35477133777824665,
      "learning_rate": 4.820957270621385e-06,
      "loss": 0.4634,
      "step": 3059
    },
    {
      "epoch": 0.5606449248809088,
      "grad_norm": 0.39235049222066515,
      "learning_rate": 4.817761483098961e-06,
      "loss": 0.4834,
      "step": 3060
    },
    {
      "epoch": 0.5608281421766215,
      "grad_norm": 0.356708467469616,
      "learning_rate": 4.81456577012234e-06,
      "loss": 0.4614,
      "step": 3061
    },
    {
      "epoch": 0.5610113594723342,
      "grad_norm": 0.4023601789791014,
      "learning_rate": 4.811370132998744e-06,
      "loss": 0.423,
      "step": 3062
    },
    {
      "epoch": 0.5611945767680468,
      "grad_norm": 0.3694080756344917,
      "learning_rate": 4.80817457303537e-06,
      "loss": 0.4902,
      "step": 3063
    },
    {
      "epoch": 0.5613777940637596,
      "grad_norm": 0.4075503536678815,
      "learning_rate": 4.804979091539385e-06,
      "loss": 0.5068,
      "step": 3064
    },
    {
      "epoch": 0.5615610113594723,
      "grad_norm": 0.3611503385733387,
      "learning_rate": 4.801783689817918e-06,
      "loss": 0.459,
      "step": 3065
    },
    {
      "epoch": 0.561744228655185,
      "grad_norm": 0.3695413269567028,
      "learning_rate": 4.798588369178067e-06,
      "loss": 0.4502,
      "step": 3066
    },
    {
      "epoch": 0.5619274459508977,
      "grad_norm": 0.39836545763359166,
      "learning_rate": 4.795393130926899e-06,
      "loss": 0.4969,
      "step": 3067
    },
    {
      "epoch": 0.5621106632466105,
      "grad_norm": 0.3365585814117656,
      "learning_rate": 4.792197976371446e-06,
      "loss": 0.4583,
      "step": 3068
    },
    {
      "epoch": 0.5622938805423232,
      "grad_norm": 0.38906298512693704,
      "learning_rate": 4.789002906818707e-06,
      "loss": 0.4495,
      "step": 3069
    },
    {
      "epoch": 0.5624770978380359,
      "grad_norm": 0.4059950331091548,
      "learning_rate": 4.785807923575644e-06,
      "loss": 0.4706,
      "step": 3070
    },
    {
      "epoch": 0.5626603151337486,
      "grad_norm": 0.38072106279290563,
      "learning_rate": 4.782613027949183e-06,
      "loss": 0.4687,
      "step": 3071
    },
    {
      "epoch": 0.5628435324294614,
      "grad_norm": 0.38457397221908995,
      "learning_rate": 4.779418221246218e-06,
      "loss": 0.4894,
      "step": 3072
    },
    {
      "epoch": 0.5630267497251741,
      "grad_norm": 0.3213042113105466,
      "learning_rate": 4.776223504773607e-06,
      "loss": 0.4704,
      "step": 3073
    },
    {
      "epoch": 0.5632099670208868,
      "grad_norm": 0.4086690149764143,
      "learning_rate": 4.773028879838164e-06,
      "loss": 0.5033,
      "step": 3074
    },
    {
      "epoch": 0.5633931843165995,
      "grad_norm": 0.41229899652618895,
      "learning_rate": 4.769834347746672e-06,
      "loss": 0.4562,
      "step": 3075
    },
    {
      "epoch": 0.5635764016123122,
      "grad_norm": 0.48704419040281205,
      "learning_rate": 4.766639909805875e-06,
      "loss": 0.4967,
      "step": 3076
    },
    {
      "epoch": 0.563759618908025,
      "grad_norm": 0.4505129252023178,
      "learning_rate": 4.76344556732248e-06,
      "loss": 0.477,
      "step": 3077
    },
    {
      "epoch": 0.5639428362037376,
      "grad_norm": 0.41675282994752194,
      "learning_rate": 4.760251321603147e-06,
      "loss": 0.4933,
      "step": 3078
    },
    {
      "epoch": 0.5641260534994503,
      "grad_norm": 0.37915614418127414,
      "learning_rate": 4.7570571739545055e-06,
      "loss": 0.4833,
      "step": 3079
    },
    {
      "epoch": 0.564309270795163,
      "grad_norm": 0.3816164215347716,
      "learning_rate": 4.753863125683142e-06,
      "loss": 0.4498,
      "step": 3080
    },
    {
      "epoch": 0.5644924880908758,
      "grad_norm": 0.3516334999800291,
      "learning_rate": 4.750669178095602e-06,
      "loss": 0.4746,
      "step": 3081
    },
    {
      "epoch": 0.5646757053865885,
      "grad_norm": 0.40711908363080224,
      "learning_rate": 4.7474753324983855e-06,
      "loss": 0.5001,
      "step": 3082
    },
    {
      "epoch": 0.5648589226823012,
      "grad_norm": 0.405519832056979,
      "learning_rate": 4.744281590197961e-06,
      "loss": 0.499,
      "step": 3083
    },
    {
      "epoch": 0.5650421399780139,
      "grad_norm": 0.3955182456556916,
      "learning_rate": 4.7410879525007444e-06,
      "loss": 0.5042,
      "step": 3084
    },
    {
      "epoch": 0.5652253572737267,
      "grad_norm": 0.39023164331760823,
      "learning_rate": 4.737894420713116e-06,
      "loss": 0.4842,
      "step": 3085
    },
    {
      "epoch": 0.5654085745694394,
      "grad_norm": 0.3611894731220293,
      "learning_rate": 4.734700996141408e-06,
      "loss": 0.4638,
      "step": 3086
    },
    {
      "epoch": 0.5655917918651521,
      "grad_norm": 0.3663949637677696,
      "learning_rate": 4.731507680091909e-06,
      "loss": 0.482,
      "step": 3087
    },
    {
      "epoch": 0.5657750091608648,
      "grad_norm": 0.39243254907649366,
      "learning_rate": 4.728314473870869e-06,
      "loss": 0.4755,
      "step": 3088
    },
    {
      "epoch": 0.5659582264565775,
      "grad_norm": 0.37931351609842306,
      "learning_rate": 4.725121378784487e-06,
      "loss": 0.499,
      "step": 3089
    },
    {
      "epoch": 0.5661414437522903,
      "grad_norm": 0.3679955276603955,
      "learning_rate": 4.721928396138918e-06,
      "loss": 0.4679,
      "step": 3090
    },
    {
      "epoch": 0.5663246610480029,
      "grad_norm": 0.37286524070443805,
      "learning_rate": 4.71873552724027e-06,
      "loss": 0.4934,
      "step": 3091
    },
    {
      "epoch": 0.5665078783437156,
      "grad_norm": 0.3581401060788165,
      "learning_rate": 4.715542773394609e-06,
      "loss": 0.4639,
      "step": 3092
    },
    {
      "epoch": 0.5666910956394283,
      "grad_norm": 0.4944839522717179,
      "learning_rate": 4.712350135907951e-06,
      "loss": 0.4555,
      "step": 3093
    },
    {
      "epoch": 0.5668743129351411,
      "grad_norm": 0.3773580461873827,
      "learning_rate": 4.70915761608626e-06,
      "loss": 0.4723,
      "step": 3094
    },
    {
      "epoch": 0.5670575302308538,
      "grad_norm": 0.3883641380661997,
      "learning_rate": 4.70596521523546e-06,
      "loss": 0.5029,
      "step": 3095
    },
    {
      "epoch": 0.5672407475265665,
      "grad_norm": 0.34701280633245957,
      "learning_rate": 4.702772934661421e-06,
      "loss": 0.4789,
      "step": 3096
    },
    {
      "epoch": 0.5674239648222792,
      "grad_norm": 0.39863313930275435,
      "learning_rate": 4.699580775669967e-06,
      "loss": 0.4558,
      "step": 3097
    },
    {
      "epoch": 0.567607182117992,
      "grad_norm": 0.37465241701443214,
      "learning_rate": 4.696388739566868e-06,
      "loss": 0.4598,
      "step": 3098
    },
    {
      "epoch": 0.5677903994137047,
      "grad_norm": 0.3729442445536715,
      "learning_rate": 4.693196827657848e-06,
      "loss": 0.4561,
      "step": 3099
    },
    {
      "epoch": 0.5679736167094174,
      "grad_norm": 0.38556828564813417,
      "learning_rate": 4.690005041248576e-06,
      "loss": 0.4638,
      "step": 3100
    },
    {
      "epoch": 0.5681568340051301,
      "grad_norm": 0.3305296393303103,
      "learning_rate": 4.686813381644676e-06,
      "loss": 0.4615,
      "step": 3101
    },
    {
      "epoch": 0.5683400513008428,
      "grad_norm": 0.35015841336773623,
      "learning_rate": 4.6836218501517135e-06,
      "loss": 0.4601,
      "step": 3102
    },
    {
      "epoch": 0.5685232685965556,
      "grad_norm": 0.36657344001092046,
      "learning_rate": 4.680430448075205e-06,
      "loss": 0.4714,
      "step": 3103
    },
    {
      "epoch": 0.5687064858922682,
      "grad_norm": 0.3680000579785531,
      "learning_rate": 4.677239176720613e-06,
      "loss": 0.486,
      "step": 3104
    },
    {
      "epoch": 0.5688897031879809,
      "grad_norm": 0.42383810586471016,
      "learning_rate": 4.67404803739335e-06,
      "loss": 0.46,
      "step": 3105
    },
    {
      "epoch": 0.5690729204836936,
      "grad_norm": 0.3819192317502884,
      "learning_rate": 4.670857031398766e-06,
      "loss": 0.4799,
      "step": 3106
    },
    {
      "epoch": 0.5692561377794064,
      "grad_norm": 0.35409508939859935,
      "learning_rate": 4.667666160042166e-06,
      "loss": 0.4557,
      "step": 3107
    },
    {
      "epoch": 0.5694393550751191,
      "grad_norm": 0.3768258549206939,
      "learning_rate": 4.664475424628795e-06,
      "loss": 0.4655,
      "step": 3108
    },
    {
      "epoch": 0.5696225723708318,
      "grad_norm": 0.3356425680201244,
      "learning_rate": 4.661284826463842e-06,
      "loss": 0.4493,
      "step": 3109
    },
    {
      "epoch": 0.5698057896665445,
      "grad_norm": 0.37127689112134266,
      "learning_rate": 4.658094366852442e-06,
      "loss": 0.4647,
      "step": 3110
    },
    {
      "epoch": 0.5699890069622572,
      "grad_norm": 1.59864474967665,
      "learning_rate": 4.654904047099671e-06,
      "loss": 0.4753,
      "step": 3111
    },
    {
      "epoch": 0.57017222425797,
      "grad_norm": 0.4002133341134483,
      "learning_rate": 4.651713868510552e-06,
      "loss": 0.4942,
      "step": 3112
    },
    {
      "epoch": 0.5703554415536827,
      "grad_norm": 0.40377734407222904,
      "learning_rate": 4.6485238323900465e-06,
      "loss": 0.4899,
      "step": 3113
    },
    {
      "epoch": 0.5705386588493954,
      "grad_norm": 0.38467837522690307,
      "learning_rate": 4.645333940043057e-06,
      "loss": 0.4914,
      "step": 3114
    },
    {
      "epoch": 0.570721876145108,
      "grad_norm": 0.3269570834287816,
      "learning_rate": 4.642144192774429e-06,
      "loss": 0.4614,
      "step": 3115
    },
    {
      "epoch": 0.5709050934408209,
      "grad_norm": 0.38229824539147894,
      "learning_rate": 4.63895459188895e-06,
      "loss": 0.4886,
      "step": 3116
    },
    {
      "epoch": 0.5710883107365335,
      "grad_norm": 0.4094637725031508,
      "learning_rate": 4.6357651386913476e-06,
      "loss": 0.4809,
      "step": 3117
    },
    {
      "epoch": 0.5712715280322462,
      "grad_norm": 0.5056478139206053,
      "learning_rate": 4.632575834486283e-06,
      "loss": 0.4804,
      "step": 3118
    },
    {
      "epoch": 0.5714547453279589,
      "grad_norm": 0.4139762052558197,
      "learning_rate": 4.629386680578363e-06,
      "loss": 0.4667,
      "step": 3119
    },
    {
      "epoch": 0.5716379626236717,
      "grad_norm": 0.3681026176222857,
      "learning_rate": 4.6261976782721315e-06,
      "loss": 0.4678,
      "step": 3120
    },
    {
      "epoch": 0.5718211799193844,
      "grad_norm": 0.35368475179304354,
      "learning_rate": 4.623008828872071e-06,
      "loss": 0.4907,
      "step": 3121
    },
    {
      "epoch": 0.5720043972150971,
      "grad_norm": 0.374693398306428,
      "learning_rate": 4.619820133682599e-06,
      "loss": 0.4761,
      "step": 3122
    },
    {
      "epoch": 0.5721876145108098,
      "grad_norm": 0.3901247116349376,
      "learning_rate": 4.616631594008069e-06,
      "loss": 0.4752,
      "step": 3123
    },
    {
      "epoch": 0.5723708318065225,
      "grad_norm": 0.39016782297099584,
      "learning_rate": 4.613443211152775e-06,
      "loss": 0.4938,
      "step": 3124
    },
    {
      "epoch": 0.5725540491022353,
      "grad_norm": 0.3617749323847835,
      "learning_rate": 4.610254986420946e-06,
      "loss": 0.4956,
      "step": 3125
    },
    {
      "epoch": 0.572737266397948,
      "grad_norm": 0.36235207867255703,
      "learning_rate": 4.607066921116743e-06,
      "loss": 0.4813,
      "step": 3126
    },
    {
      "epoch": 0.5729204836936607,
      "grad_norm": 0.3563629407497168,
      "learning_rate": 4.603879016544266e-06,
      "loss": 0.436,
      "step": 3127
    },
    {
      "epoch": 0.5731037009893734,
      "grad_norm": 0.36620277042657723,
      "learning_rate": 4.600691274007545e-06,
      "loss": 0.4284,
      "step": 3128
    },
    {
      "epoch": 0.5732869182850862,
      "grad_norm": 0.34641262438650583,
      "learning_rate": 4.597503694810549e-06,
      "loss": 0.4402,
      "step": 3129
    },
    {
      "epoch": 0.5734701355807988,
      "grad_norm": 0.340387712659804,
      "learning_rate": 4.594316280257173e-06,
      "loss": 0.4905,
      "step": 3130
    },
    {
      "epoch": 0.5736533528765115,
      "grad_norm": 0.3879953214677975,
      "learning_rate": 4.591129031651252e-06,
      "loss": 0.4867,
      "step": 3131
    },
    {
      "epoch": 0.5738365701722242,
      "grad_norm": 0.3526720990486133,
      "learning_rate": 4.587941950296548e-06,
      "loss": 0.4814,
      "step": 3132
    },
    {
      "epoch": 0.574019787467937,
      "grad_norm": 0.34906848400450996,
      "learning_rate": 4.58475503749676e-06,
      "loss": 0.4799,
      "step": 3133
    },
    {
      "epoch": 0.5742030047636497,
      "grad_norm": 0.42232801199190145,
      "learning_rate": 4.5815682945555095e-06,
      "loss": 0.4846,
      "step": 3134
    },
    {
      "epoch": 0.5743862220593624,
      "grad_norm": 0.39307394232320786,
      "learning_rate": 4.578381722776357e-06,
      "loss": 0.4744,
      "step": 3135
    },
    {
      "epoch": 0.5745694393550751,
      "grad_norm": 0.4383560910040067,
      "learning_rate": 4.575195323462789e-06,
      "loss": 0.4229,
      "step": 3136
    },
    {
      "epoch": 0.5747526566507878,
      "grad_norm": 0.3790862915479159,
      "learning_rate": 4.5720090979182226e-06,
      "loss": 0.4922,
      "step": 3137
    },
    {
      "epoch": 0.5749358739465006,
      "grad_norm": 0.35851805823478117,
      "learning_rate": 4.568823047446e-06,
      "loss": 0.4419,
      "step": 3138
    },
    {
      "epoch": 0.5751190912422133,
      "grad_norm": 0.37553059637594327,
      "learning_rate": 4.5656371733493986e-06,
      "loss": 0.4955,
      "step": 3139
    },
    {
      "epoch": 0.575302308537926,
      "grad_norm": 0.34239091839678776,
      "learning_rate": 4.562451476931617e-06,
      "loss": 0.4562,
      "step": 3140
    },
    {
      "epoch": 0.5754855258336387,
      "grad_norm": 0.36853187637460383,
      "learning_rate": 4.559265959495789e-06,
      "loss": 0.4559,
      "step": 3141
    },
    {
      "epoch": 0.5756687431293515,
      "grad_norm": 0.4055837207551395,
      "learning_rate": 4.556080622344966e-06,
      "loss": 0.4585,
      "step": 3142
    },
    {
      "epoch": 0.5758519604250641,
      "grad_norm": 0.4035077472358186,
      "learning_rate": 4.552895466782129e-06,
      "loss": 0.4837,
      "step": 3143
    },
    {
      "epoch": 0.5760351777207768,
      "grad_norm": 0.37763399504887496,
      "learning_rate": 4.54971049411019e-06,
      "loss": 0.4858,
      "step": 3144
    },
    {
      "epoch": 0.5762183950164895,
      "grad_norm": 0.3272918408288259,
      "learning_rate": 4.54652570563198e-06,
      "loss": 0.4534,
      "step": 3145
    },
    {
      "epoch": 0.5764016123122023,
      "grad_norm": 0.44100852938903623,
      "learning_rate": 4.543341102650256e-06,
      "loss": 0.4901,
      "step": 3146
    },
    {
      "epoch": 0.576584829607915,
      "grad_norm": 0.3546997965576367,
      "learning_rate": 4.540156686467699e-06,
      "loss": 0.4522,
      "step": 3147
    },
    {
      "epoch": 0.5767680469036277,
      "grad_norm": 0.34375602357895785,
      "learning_rate": 4.536972458386918e-06,
      "loss": 0.4508,
      "step": 3148
    },
    {
      "epoch": 0.5769512641993404,
      "grad_norm": 0.4279960918981899,
      "learning_rate": 4.533788419710438e-06,
      "loss": 0.449,
      "step": 3149
    },
    {
      "epoch": 0.5771344814950531,
      "grad_norm": 0.385757250522885,
      "learning_rate": 4.53060457174071e-06,
      "loss": 0.4925,
      "step": 3150
    },
    {
      "epoch": 0.5773176987907659,
      "grad_norm": 0.4627447133110814,
      "learning_rate": 4.527420915780108e-06,
      "loss": 0.5147,
      "step": 3151
    },
    {
      "epoch": 0.5775009160864786,
      "grad_norm": 0.43834441097181,
      "learning_rate": 4.524237453130925e-06,
      "loss": 0.52,
      "step": 3152
    },
    {
      "epoch": 0.5776841333821913,
      "grad_norm": 0.35016800344720833,
      "learning_rate": 4.521054185095378e-06,
      "loss": 0.4821,
      "step": 3153
    },
    {
      "epoch": 0.577867350677904,
      "grad_norm": 0.3673462093000476,
      "learning_rate": 4.517871112975601e-06,
      "loss": 0.4728,
      "step": 3154
    },
    {
      "epoch": 0.5780505679736168,
      "grad_norm": 0.35645458481596165,
      "learning_rate": 4.514688238073651e-06,
      "loss": 0.4947,
      "step": 3155
    },
    {
      "epoch": 0.5782337852693294,
      "grad_norm": 0.3780429945224492,
      "learning_rate": 4.511505561691501e-06,
      "loss": 0.4832,
      "step": 3156
    },
    {
      "epoch": 0.5784170025650421,
      "grad_norm": 0.43738027163322923,
      "learning_rate": 4.508323085131048e-06,
      "loss": 0.4838,
      "step": 3157
    },
    {
      "epoch": 0.5786002198607548,
      "grad_norm": 0.4203463374367096,
      "learning_rate": 4.505140809694099e-06,
      "loss": 0.4678,
      "step": 3158
    },
    {
      "epoch": 0.5787834371564675,
      "grad_norm": 0.4052582569339036,
      "learning_rate": 4.501958736682387e-06,
      "loss": 0.4832,
      "step": 3159
    },
    {
      "epoch": 0.5789666544521803,
      "grad_norm": 0.3556187768954678,
      "learning_rate": 4.4987768673975575e-06,
      "loss": 0.4518,
      "step": 3160
    },
    {
      "epoch": 0.579149871747893,
      "grad_norm": 0.4128521200164016,
      "learning_rate": 4.495595203141176e-06,
      "loss": 0.4688,
      "step": 3161
    },
    {
      "epoch": 0.5793330890436057,
      "grad_norm": 0.3750611186666859,
      "learning_rate": 4.492413745214718e-06,
      "loss": 0.4813,
      "step": 3162
    },
    {
      "epoch": 0.5795163063393184,
      "grad_norm": 0.37611356381414457,
      "learning_rate": 4.489232494919583e-06,
      "loss": 0.4637,
      "step": 3163
    },
    {
      "epoch": 0.5796995236350312,
      "grad_norm": 0.5804757739317091,
      "learning_rate": 4.4860514535570784e-06,
      "loss": 0.4905,
      "step": 3164
    },
    {
      "epoch": 0.5798827409307439,
      "grad_norm": 0.3724995632377092,
      "learning_rate": 4.482870622428432e-06,
      "loss": 0.4708,
      "step": 3165
    },
    {
      "epoch": 0.5800659582264566,
      "grad_norm": 0.39702225281046527,
      "learning_rate": 4.479690002834779e-06,
      "loss": 0.4897,
      "step": 3166
    },
    {
      "epoch": 0.5802491755221693,
      "grad_norm": 0.35264468266197835,
      "learning_rate": 4.476509596077172e-06,
      "loss": 0.4919,
      "step": 3167
    },
    {
      "epoch": 0.5804323928178821,
      "grad_norm": 0.3884263103910947,
      "learning_rate": 4.473329403456579e-06,
      "loss": 0.4753,
      "step": 3168
    },
    {
      "epoch": 0.5806156101135947,
      "grad_norm": 0.3601987136244253,
      "learning_rate": 4.470149426273876e-06,
      "loss": 0.4827,
      "step": 3169
    },
    {
      "epoch": 0.5807988274093074,
      "grad_norm": 0.3880912808253205,
      "learning_rate": 4.4669696658298536e-06,
      "loss": 0.4848,
      "step": 3170
    },
    {
      "epoch": 0.5809820447050201,
      "grad_norm": 0.42927775971470394,
      "learning_rate": 4.463790123425209e-06,
      "loss": 0.5008,
      "step": 3171
    },
    {
      "epoch": 0.5811652620007328,
      "grad_norm": 0.3563899760173673,
      "learning_rate": 4.460610800360558e-06,
      "loss": 0.4656,
      "step": 3172
    },
    {
      "epoch": 0.5813484792964456,
      "grad_norm": 0.36070762128328254,
      "learning_rate": 4.457431697936422e-06,
      "loss": 0.4563,
      "step": 3173
    },
    {
      "epoch": 0.5815316965921583,
      "grad_norm": 0.69688988972388,
      "learning_rate": 4.4542528174532305e-06,
      "loss": 0.4418,
      "step": 3174
    },
    {
      "epoch": 0.581714913887871,
      "grad_norm": 0.38109816794128887,
      "learning_rate": 4.451074160211325e-06,
      "loss": 0.4682,
      "step": 3175
    },
    {
      "epoch": 0.5818981311835837,
      "grad_norm": 0.36905169783384256,
      "learning_rate": 4.447895727510956e-06,
      "loss": 0.4606,
      "step": 3176
    },
    {
      "epoch": 0.5820813484792965,
      "grad_norm": 0.3503813337020013,
      "learning_rate": 4.444717520652282e-06,
      "loss": 0.4421,
      "step": 3177
    },
    {
      "epoch": 0.5822645657750092,
      "grad_norm": 0.39072420310402833,
      "learning_rate": 4.441539540935365e-06,
      "loss": 0.4609,
      "step": 3178
    },
    {
      "epoch": 0.5824477830707219,
      "grad_norm": 0.39662369870131087,
      "learning_rate": 4.438361789660182e-06,
      "loss": 0.4848,
      "step": 3179
    },
    {
      "epoch": 0.5826310003664346,
      "grad_norm": 0.3734550437349449,
      "learning_rate": 4.4351842681266064e-06,
      "loss": 0.4693,
      "step": 3180
    },
    {
      "epoch": 0.5828142176621474,
      "grad_norm": 0.4148265013660583,
      "learning_rate": 4.43200697763443e-06,
      "loss": 0.4934,
      "step": 3181
    },
    {
      "epoch": 0.58299743495786,
      "grad_norm": 0.3820577449886745,
      "learning_rate": 4.428829919483336e-06,
      "loss": 0.4876,
      "step": 3182
    },
    {
      "epoch": 0.5831806522535727,
      "grad_norm": 0.34649138055012,
      "learning_rate": 4.425653094972925e-06,
      "loss": 0.4801,
      "step": 3183
    },
    {
      "epoch": 0.5833638695492854,
      "grad_norm": 0.3329444173954086,
      "learning_rate": 4.422476505402694e-06,
      "loss": 0.442,
      "step": 3184
    },
    {
      "epoch": 0.5835470868449981,
      "grad_norm": 0.3583613198396569,
      "learning_rate": 4.419300152072051e-06,
      "loss": 0.5012,
      "step": 3185
    },
    {
      "epoch": 0.5837303041407109,
      "grad_norm": 0.34491323872204827,
      "learning_rate": 4.416124036280297e-06,
      "loss": 0.4802,
      "step": 3186
    },
    {
      "epoch": 0.5839135214364236,
      "grad_norm": 0.39803368312194737,
      "learning_rate": 4.412948159326647e-06,
      "loss": 0.4946,
      "step": 3187
    },
    {
      "epoch": 0.5840967387321363,
      "grad_norm": 0.3295580108587731,
      "learning_rate": 4.40977252251021e-06,
      "loss": 0.4429,
      "step": 3188
    },
    {
      "epoch": 0.584279956027849,
      "grad_norm": 0.3863844668783294,
      "learning_rate": 4.406597127130003e-06,
      "loss": 0.4297,
      "step": 3189
    },
    {
      "epoch": 0.5844631733235618,
      "grad_norm": 0.3861977656105318,
      "learning_rate": 4.403421974484938e-06,
      "loss": 0.4649,
      "step": 3190
    },
    {
      "epoch": 0.5846463906192745,
      "grad_norm": 0.37991096428514454,
      "learning_rate": 4.400247065873834e-06,
      "loss": 0.4732,
      "step": 3191
    },
    {
      "epoch": 0.5848296079149872,
      "grad_norm": 0.390441967147969,
      "learning_rate": 4.397072402595404e-06,
      "loss": 0.5095,
      "step": 3192
    },
    {
      "epoch": 0.5850128252106999,
      "grad_norm": 0.3482150955028248,
      "learning_rate": 4.393897985948268e-06,
      "loss": 0.4474,
      "step": 3193
    },
    {
      "epoch": 0.5851960425064126,
      "grad_norm": 0.3730706636252824,
      "learning_rate": 4.390723817230937e-06,
      "loss": 0.4788,
      "step": 3194
    },
    {
      "epoch": 0.5853792598021254,
      "grad_norm": 0.4268108094738352,
      "learning_rate": 4.3875498977418255e-06,
      "loss": 0.457,
      "step": 3195
    },
    {
      "epoch": 0.585562477097838,
      "grad_norm": 0.3801499865703363,
      "learning_rate": 4.384376228779246e-06,
      "loss": 0.4651,
      "step": 3196
    },
    {
      "epoch": 0.5857456943935507,
      "grad_norm": 0.3965825730216222,
      "learning_rate": 4.381202811641409e-06,
      "loss": 0.4732,
      "step": 3197
    },
    {
      "epoch": 0.5859289116892634,
      "grad_norm": 0.6549080598602415,
      "learning_rate": 4.378029647626416e-06,
      "loss": 0.4493,
      "step": 3198
    },
    {
      "epoch": 0.5861121289849762,
      "grad_norm": 0.4075193306605999,
      "learning_rate": 4.3748567380322735e-06,
      "loss": 0.5111,
      "step": 3199
    },
    {
      "epoch": 0.5862953462806889,
      "grad_norm": 0.3909668781020062,
      "learning_rate": 4.371684084156878e-06,
      "loss": 0.4661,
      "step": 3200
    },
    {
      "epoch": 0.5864785635764016,
      "grad_norm": 0.37701594797423776,
      "learning_rate": 4.3685116872980255e-06,
      "loss": 0.4639,
      "step": 3201
    },
    {
      "epoch": 0.5866617808721143,
      "grad_norm": 0.34604006575622553,
      "learning_rate": 4.365339548753402e-06,
      "loss": 0.4785,
      "step": 3202
    },
    {
      "epoch": 0.5868449981678271,
      "grad_norm": 0.46183749257336376,
      "learning_rate": 4.362167669820593e-06,
      "loss": 0.4701,
      "step": 3203
    },
    {
      "epoch": 0.5870282154635398,
      "grad_norm": 0.3959468024878008,
      "learning_rate": 4.358996051797071e-06,
      "loss": 0.4902,
      "step": 3204
    },
    {
      "epoch": 0.5872114327592525,
      "grad_norm": 0.4432973129626992,
      "learning_rate": 4.355824695980212e-06,
      "loss": 0.4856,
      "step": 3205
    },
    {
      "epoch": 0.5873946500549652,
      "grad_norm": 0.4007869604471848,
      "learning_rate": 4.352653603667276e-06,
      "loss": 0.5027,
      "step": 3206
    },
    {
      "epoch": 0.5875778673506779,
      "grad_norm": 0.3560212206932624,
      "learning_rate": 4.349482776155417e-06,
      "loss": 0.4749,
      "step": 3207
    },
    {
      "epoch": 0.5877610846463907,
      "grad_norm": 0.3456678595669956,
      "learning_rate": 4.346312214741682e-06,
      "loss": 0.468,
      "step": 3208
    },
    {
      "epoch": 0.5879443019421033,
      "grad_norm": 0.399718091153767,
      "learning_rate": 4.343141920723013e-06,
      "loss": 0.4673,
      "step": 3209
    },
    {
      "epoch": 0.588127519237816,
      "grad_norm": 0.4219557594975826,
      "learning_rate": 4.339971895396233e-06,
      "loss": 0.4863,
      "step": 3210
    },
    {
      "epoch": 0.5883107365335287,
      "grad_norm": 0.3621115344008167,
      "learning_rate": 4.3368021400580635e-06,
      "loss": 0.4374,
      "step": 3211
    },
    {
      "epoch": 0.5884939538292415,
      "grad_norm": 0.3367939423815905,
      "learning_rate": 4.333632656005112e-06,
      "loss": 0.4748,
      "step": 3212
    },
    {
      "epoch": 0.5886771711249542,
      "grad_norm": 0.3944240297595139,
      "learning_rate": 4.330463444533877e-06,
      "loss": 0.5025,
      "step": 3213
    },
    {
      "epoch": 0.5888603884206669,
      "grad_norm": 0.32649317025540725,
      "learning_rate": 4.3272945069407404e-06,
      "loss": 0.4621,
      "step": 3214
    },
    {
      "epoch": 0.5890436057163796,
      "grad_norm": 0.4244592566351569,
      "learning_rate": 4.324125844521981e-06,
      "loss": 0.4751,
      "step": 3215
    },
    {
      "epoch": 0.5892268230120924,
      "grad_norm": 0.35927325305263147,
      "learning_rate": 4.320957458573756e-06,
      "loss": 0.473,
      "step": 3216
    },
    {
      "epoch": 0.5894100403078051,
      "grad_norm": 0.34115890725125336,
      "learning_rate": 4.317789350392116e-06,
      "loss": 0.4964,
      "step": 3217
    },
    {
      "epoch": 0.5895932576035178,
      "grad_norm": 0.42509519235085785,
      "learning_rate": 4.314621521272994e-06,
      "loss": 0.4895,
      "step": 3218
    },
    {
      "epoch": 0.5897764748992305,
      "grad_norm": 0.3790800280473008,
      "learning_rate": 4.311453972512209e-06,
      "loss": 0.4921,
      "step": 3219
    },
    {
      "epoch": 0.5899596921949432,
      "grad_norm": 0.3739335711998157,
      "learning_rate": 4.308286705405469e-06,
      "loss": 0.4734,
      "step": 3220
    },
    {
      "epoch": 0.590142909490656,
      "grad_norm": 0.38837408654299566,
      "learning_rate": 4.305119721248365e-06,
      "loss": 0.4731,
      "step": 3221
    },
    {
      "epoch": 0.5903261267863686,
      "grad_norm": 0.43945550067493544,
      "learning_rate": 4.301953021336369e-06,
      "loss": 0.4878,
      "step": 3222
    },
    {
      "epoch": 0.5905093440820813,
      "grad_norm": 0.36484498856247866,
      "learning_rate": 4.2987866069648384e-06,
      "loss": 0.4363,
      "step": 3223
    },
    {
      "epoch": 0.590692561377794,
      "grad_norm": 0.3724567230092767,
      "learning_rate": 4.295620479429018e-06,
      "loss": 0.4765,
      "step": 3224
    },
    {
      "epoch": 0.5908757786735068,
      "grad_norm": 0.3942857083671079,
      "learning_rate": 4.292454640024032e-06,
      "loss": 0.4802,
      "step": 3225
    },
    {
      "epoch": 0.5910589959692195,
      "grad_norm": 0.43761642400875916,
      "learning_rate": 4.289289090044885e-06,
      "loss": 0.4411,
      "step": 3226
    },
    {
      "epoch": 0.5912422132649322,
      "grad_norm": 0.38579320660059957,
      "learning_rate": 4.286123830786463e-06,
      "loss": 0.4848,
      "step": 3227
    },
    {
      "epoch": 0.5914254305606449,
      "grad_norm": 0.3754217946546912,
      "learning_rate": 4.282958863543539e-06,
      "loss": 0.4689,
      "step": 3228
    },
    {
      "epoch": 0.5916086478563577,
      "grad_norm": 0.3935079146365459,
      "learning_rate": 4.2797941896107625e-06,
      "loss": 0.4926,
      "step": 3229
    },
    {
      "epoch": 0.5917918651520704,
      "grad_norm": 0.3997898856736963,
      "learning_rate": 4.27662981028266e-06,
      "loss": 0.4964,
      "step": 3230
    },
    {
      "epoch": 0.5919750824477831,
      "grad_norm": 0.46428919487523207,
      "learning_rate": 4.2734657268536426e-06,
      "loss": 0.4874,
      "step": 3231
    },
    {
      "epoch": 0.5921582997434958,
      "grad_norm": 0.44062197093175026,
      "learning_rate": 4.270301940617996e-06,
      "loss": 0.4787,
      "step": 3232
    },
    {
      "epoch": 0.5923415170392085,
      "grad_norm": 0.3352016063868999,
      "learning_rate": 4.267138452869891e-06,
      "loss": 0.4439,
      "step": 3233
    },
    {
      "epoch": 0.5925247343349213,
      "grad_norm": 0.3675365473394679,
      "learning_rate": 4.263975264903369e-06,
      "loss": 0.4903,
      "step": 3234
    },
    {
      "epoch": 0.592707951630634,
      "grad_norm": 0.3903938615069962,
      "learning_rate": 4.260812378012353e-06,
      "loss": 0.4834,
      "step": 3235
    },
    {
      "epoch": 0.5928911689263466,
      "grad_norm": 0.3949595588434657,
      "learning_rate": 4.257649793490639e-06,
      "loss": 0.4782,
      "step": 3236
    },
    {
      "epoch": 0.5930743862220593,
      "grad_norm": 0.36096674207763313,
      "learning_rate": 4.254487512631907e-06,
      "loss": 0.4713,
      "step": 3237
    },
    {
      "epoch": 0.5932576035177721,
      "grad_norm": 0.40382524565681127,
      "learning_rate": 4.251325536729702e-06,
      "loss": 0.4791,
      "step": 3238
    },
    {
      "epoch": 0.5934408208134848,
      "grad_norm": 0.3664711478737434,
      "learning_rate": 4.2481638670774524e-06,
      "loss": 0.426,
      "step": 3239
    },
    {
      "epoch": 0.5936240381091975,
      "grad_norm": 0.3573410696419821,
      "learning_rate": 4.245002504968459e-06,
      "loss": 0.4755,
      "step": 3240
    },
    {
      "epoch": 0.5938072554049102,
      "grad_norm": 0.36845317959067464,
      "learning_rate": 4.241841451695898e-06,
      "loss": 0.4373,
      "step": 3241
    },
    {
      "epoch": 0.5939904727006229,
      "grad_norm": 0.3388176413214471,
      "learning_rate": 4.238680708552816e-06,
      "loss": 0.4336,
      "step": 3242
    },
    {
      "epoch": 0.5941736899963357,
      "grad_norm": 0.3750781122068856,
      "learning_rate": 4.235520276832134e-06,
      "loss": 0.501,
      "step": 3243
    },
    {
      "epoch": 0.5943569072920484,
      "grad_norm": 0.36440141301179285,
      "learning_rate": 4.232360157826649e-06,
      "loss": 0.4535,
      "step": 3244
    },
    {
      "epoch": 0.5945401245877611,
      "grad_norm": 0.34522673261995696,
      "learning_rate": 4.2292003528290256e-06,
      "loss": 0.4814,
      "step": 3245
    },
    {
      "epoch": 0.5947233418834738,
      "grad_norm": 0.3644210121918719,
      "learning_rate": 4.226040863131802e-06,
      "loss": 0.4478,
      "step": 3246
    },
    {
      "epoch": 0.5949065591791866,
      "grad_norm": 0.36097756739126274,
      "learning_rate": 4.222881690027386e-06,
      "loss": 0.4604,
      "step": 3247
    },
    {
      "epoch": 0.5950897764748992,
      "grad_norm": 0.3786748369783585,
      "learning_rate": 4.21972283480806e-06,
      "loss": 0.4844,
      "step": 3248
    },
    {
      "epoch": 0.5952729937706119,
      "grad_norm": 0.4120827104886208,
      "learning_rate": 4.216564298765971e-06,
      "loss": 0.4528,
      "step": 3249
    },
    {
      "epoch": 0.5954562110663246,
      "grad_norm": 0.3845984302303326,
      "learning_rate": 4.213406083193139e-06,
      "loss": 0.4891,
      "step": 3250
    },
    {
      "epoch": 0.5956394283620374,
      "grad_norm": 0.42362371162602624,
      "learning_rate": 4.2102481893814504e-06,
      "loss": 0.4698,
      "step": 3251
    },
    {
      "epoch": 0.5958226456577501,
      "grad_norm": 0.41905297506549305,
      "learning_rate": 4.207090618622662e-06,
      "loss": 0.4853,
      "step": 3252
    },
    {
      "epoch": 0.5960058629534628,
      "grad_norm": 0.41851853864283367,
      "learning_rate": 4.203933372208401e-06,
      "loss": 0.4692,
      "step": 3253
    },
    {
      "epoch": 0.5961890802491755,
      "grad_norm": 0.3627530325514232,
      "learning_rate": 4.200776451430153e-06,
      "loss": 0.4286,
      "step": 3254
    },
    {
      "epoch": 0.5963722975448882,
      "grad_norm": 0.3498692983463641,
      "learning_rate": 4.197619857579279e-06,
      "loss": 0.4762,
      "step": 3255
    },
    {
      "epoch": 0.596555514840601,
      "grad_norm": 0.4361187165313998,
      "learning_rate": 4.194463591947002e-06,
      "loss": 0.463,
      "step": 3256
    },
    {
      "epoch": 0.5967387321363137,
      "grad_norm": 0.3865616410975838,
      "learning_rate": 4.191307655824417e-06,
      "loss": 0.4798,
      "step": 3257
    },
    {
      "epoch": 0.5969219494320264,
      "grad_norm": 0.4312205474860647,
      "learning_rate": 4.188152050502473e-06,
      "loss": 0.5005,
      "step": 3258
    },
    {
      "epoch": 0.5971051667277391,
      "grad_norm": 0.34766602024367504,
      "learning_rate": 4.1849967772719935e-06,
      "loss": 0.4566,
      "step": 3259
    },
    {
      "epoch": 0.5972883840234519,
      "grad_norm": 0.3656894129494746,
      "learning_rate": 4.181841837423662e-06,
      "loss": 0.4902,
      "step": 3260
    },
    {
      "epoch": 0.5974716013191645,
      "grad_norm": 0.3553982114963205,
      "learning_rate": 4.178687232248028e-06,
      "loss": 0.4594,
      "step": 3261
    },
    {
      "epoch": 0.5976548186148772,
      "grad_norm": 0.3904959414801244,
      "learning_rate": 4.175532963035497e-06,
      "loss": 0.4693,
      "step": 3262
    },
    {
      "epoch": 0.5978380359105899,
      "grad_norm": 0.4745543850446089,
      "learning_rate": 4.172379031076348e-06,
      "loss": 0.5156,
      "step": 3263
    },
    {
      "epoch": 0.5980212532063027,
      "grad_norm": 0.41061453961539274,
      "learning_rate": 4.169225437660714e-06,
      "loss": 0.4697,
      "step": 3264
    },
    {
      "epoch": 0.5982044705020154,
      "grad_norm": 0.42817726133500134,
      "learning_rate": 4.166072184078596e-06,
      "loss": 0.4891,
      "step": 3265
    },
    {
      "epoch": 0.5983876877977281,
      "grad_norm": 0.46522544817243594,
      "learning_rate": 4.162919271619844e-06,
      "loss": 0.4789,
      "step": 3266
    },
    {
      "epoch": 0.5985709050934408,
      "grad_norm": 0.41534295805740984,
      "learning_rate": 4.159766701574184e-06,
      "loss": 0.4716,
      "step": 3267
    },
    {
      "epoch": 0.5987541223891535,
      "grad_norm": 0.38879974059023537,
      "learning_rate": 4.15661447523119e-06,
      "loss": 0.4699,
      "step": 3268
    },
    {
      "epoch": 0.5989373396848663,
      "grad_norm": 0.3593410567415435,
      "learning_rate": 4.153462593880304e-06,
      "loss": 0.4626,
      "step": 3269
    },
    {
      "epoch": 0.599120556980579,
      "grad_norm": 0.3460898119869833,
      "learning_rate": 4.150311058810817e-06,
      "loss": 0.4704,
      "step": 3270
    },
    {
      "epoch": 0.5993037742762917,
      "grad_norm": 0.3615767581361931,
      "learning_rate": 4.14715987131189e-06,
      "loss": 0.4841,
      "step": 3271
    },
    {
      "epoch": 0.5994869915720044,
      "grad_norm": 0.40285229112057547,
      "learning_rate": 4.144009032672532e-06,
      "loss": 0.4661,
      "step": 3272
    },
    {
      "epoch": 0.5996702088677172,
      "grad_norm": 0.4005746642403547,
      "learning_rate": 4.140858544181615e-06,
      "loss": 0.4451,
      "step": 3273
    },
    {
      "epoch": 0.5998534261634298,
      "grad_norm": 0.4072178303184198,
      "learning_rate": 4.1377084071278654e-06,
      "loss": 0.4874,
      "step": 3274
    },
    {
      "epoch": 0.6000366434591425,
      "grad_norm": 0.3833025575736666,
      "learning_rate": 4.1345586227998645e-06,
      "loss": 0.4792,
      "step": 3275
    },
    {
      "epoch": 0.6002198607548552,
      "grad_norm": 0.4233411723435603,
      "learning_rate": 4.131409192486054e-06,
      "loss": 0.4841,
      "step": 3276
    },
    {
      "epoch": 0.600403078050568,
      "grad_norm": 0.3286893361028882,
      "learning_rate": 4.128260117474728e-06,
      "loss": 0.4204,
      "step": 3277
    },
    {
      "epoch": 0.6005862953462807,
      "grad_norm": 0.36508385202796356,
      "learning_rate": 4.125111399054034e-06,
      "loss": 0.4561,
      "step": 3278
    },
    {
      "epoch": 0.6007695126419934,
      "grad_norm": 0.38432905027467973,
      "learning_rate": 4.121963038511973e-06,
      "loss": 0.4933,
      "step": 3279
    },
    {
      "epoch": 0.6009527299377061,
      "grad_norm": 0.5728067186258301,
      "learning_rate": 4.118815037136405e-06,
      "loss": 0.4873,
      "step": 3280
    },
    {
      "epoch": 0.6011359472334188,
      "grad_norm": 0.32439808513378116,
      "learning_rate": 4.11566739621504e-06,
      "loss": 0.4304,
      "step": 3281
    },
    {
      "epoch": 0.6013191645291316,
      "grad_norm": 0.35074318590462544,
      "learning_rate": 4.1125201170354365e-06,
      "loss": 0.4776,
      "step": 3282
    },
    {
      "epoch": 0.6015023818248443,
      "grad_norm": 0.39504665360850666,
      "learning_rate": 4.109373200885011e-06,
      "loss": 0.4981,
      "step": 3283
    },
    {
      "epoch": 0.601685599120557,
      "grad_norm": 0.3523157202895909,
      "learning_rate": 4.106226649051027e-06,
      "loss": 0.4675,
      "step": 3284
    },
    {
      "epoch": 0.6018688164162697,
      "grad_norm": 0.38688955767161504,
      "learning_rate": 4.103080462820606e-06,
      "loss": 0.4469,
      "step": 3285
    },
    {
      "epoch": 0.6020520337119825,
      "grad_norm": 0.4037212619297821,
      "learning_rate": 4.09993464348071e-06,
      "loss": 0.4966,
      "step": 3286
    },
    {
      "epoch": 0.6022352510076951,
      "grad_norm": 0.338664130586936,
      "learning_rate": 4.096789192318158e-06,
      "loss": 0.4566,
      "step": 3287
    },
    {
      "epoch": 0.6024184683034078,
      "grad_norm": 0.3730377521839032,
      "learning_rate": 4.093644110619616e-06,
      "loss": 0.4673,
      "step": 3288
    },
    {
      "epoch": 0.6026016855991205,
      "grad_norm": 0.4410154194921889,
      "learning_rate": 4.0904993996716015e-06,
      "loss": 0.497,
      "step": 3289
    },
    {
      "epoch": 0.6027849028948332,
      "grad_norm": 0.3474152298406819,
      "learning_rate": 4.087355060760475e-06,
      "loss": 0.4842,
      "step": 3290
    },
    {
      "epoch": 0.602968120190546,
      "grad_norm": 0.39338377028821103,
      "learning_rate": 4.084211095172448e-06,
      "loss": 0.5153,
      "step": 3291
    },
    {
      "epoch": 0.6031513374862587,
      "grad_norm": 0.46388513687309446,
      "learning_rate": 4.081067504193582e-06,
      "loss": 0.4754,
      "step": 3292
    },
    {
      "epoch": 0.6033345547819714,
      "grad_norm": 0.35439786091759473,
      "learning_rate": 4.077924289109781e-06,
      "loss": 0.4641,
      "step": 3293
    },
    {
      "epoch": 0.6035177720776841,
      "grad_norm": 0.3400717901610813,
      "learning_rate": 4.074781451206795e-06,
      "loss": 0.4907,
      "step": 3294
    },
    {
      "epoch": 0.6037009893733969,
      "grad_norm": 0.5968859035737533,
      "learning_rate": 4.071638991770225e-06,
      "loss": 0.4534,
      "step": 3295
    },
    {
      "epoch": 0.6038842066691096,
      "grad_norm": 0.35300902391021466,
      "learning_rate": 4.0684969120855096e-06,
      "loss": 0.4794,
      "step": 3296
    },
    {
      "epoch": 0.6040674239648223,
      "grad_norm": 0.3663899793384046,
      "learning_rate": 4.065355213437941e-06,
      "loss": 0.4655,
      "step": 3297
    },
    {
      "epoch": 0.604250641260535,
      "grad_norm": 0.3731638746108795,
      "learning_rate": 4.062213897112645e-06,
      "loss": 0.4995,
      "step": 3298
    },
    {
      "epoch": 0.6044338585562478,
      "grad_norm": 0.34089212198020424,
      "learning_rate": 4.059072964394599e-06,
      "loss": 0.4546,
      "step": 3299
    },
    {
      "epoch": 0.6046170758519605,
      "grad_norm": 0.3386444315353538,
      "learning_rate": 4.055932416568623e-06,
      "loss": 0.4741,
      "step": 3300
    },
    {
      "epoch": 0.6048002931476731,
      "grad_norm": 0.3362900873564531,
      "learning_rate": 4.052792254919377e-06,
      "loss": 0.4516,
      "step": 3301
    },
    {
      "epoch": 0.6049835104433858,
      "grad_norm": 0.534322389460024,
      "learning_rate": 4.049652480731361e-06,
      "loss": 0.4785,
      "step": 3302
    },
    {
      "epoch": 0.6051667277390985,
      "grad_norm": 0.3718626080518362,
      "learning_rate": 4.0465130952889194e-06,
      "loss": 0.5092,
      "step": 3303
    },
    {
      "epoch": 0.6053499450348113,
      "grad_norm": 0.3859006167009798,
      "learning_rate": 4.0433740998762415e-06,
      "loss": 0.4857,
      "step": 3304
    },
    {
      "epoch": 0.605533162330524,
      "grad_norm": 0.39066559203718143,
      "learning_rate": 4.040235495777351e-06,
      "loss": 0.4314,
      "step": 3305
    },
    {
      "epoch": 0.6057163796262367,
      "grad_norm": 0.37644682265086415,
      "learning_rate": 4.037097284276112e-06,
      "loss": 0.4751,
      "step": 3306
    },
    {
      "epoch": 0.6058995969219494,
      "grad_norm": 0.43903459855723626,
      "learning_rate": 4.0339594666562294e-06,
      "loss": 0.4582,
      "step": 3307
    },
    {
      "epoch": 0.6060828142176622,
      "grad_norm": 0.3699736577445379,
      "learning_rate": 4.0308220442012495e-06,
      "loss": 0.4609,
      "step": 3308
    },
    {
      "epoch": 0.6062660315133749,
      "grad_norm": 0.42756536851629257,
      "learning_rate": 4.0276850181945525e-06,
      "loss": 0.4882,
      "step": 3309
    },
    {
      "epoch": 0.6064492488090876,
      "grad_norm": 0.4080749512763187,
      "learning_rate": 4.02454838991936e-06,
      "loss": 0.4791,
      "step": 3310
    },
    {
      "epoch": 0.6066324661048003,
      "grad_norm": 0.5944905217342814,
      "learning_rate": 4.021412160658727e-06,
      "loss": 0.4764,
      "step": 3311
    },
    {
      "epoch": 0.6068156834005131,
      "grad_norm": 0.369199522390826,
      "learning_rate": 4.0182763316955495e-06,
      "loss": 0.4896,
      "step": 3312
    },
    {
      "epoch": 0.6069989006962258,
      "grad_norm": 0.3896741072997416,
      "learning_rate": 4.015140904312557e-06,
      "loss": 0.4494,
      "step": 3313
    },
    {
      "epoch": 0.6071821179919384,
      "grad_norm": 0.34065968494020876,
      "learning_rate": 4.012005879792315e-06,
      "loss": 0.4866,
      "step": 3314
    },
    {
      "epoch": 0.6073653352876511,
      "grad_norm": 0.3589086007656234,
      "learning_rate": 4.008871259417227e-06,
      "loss": 0.4754,
      "step": 3315
    },
    {
      "epoch": 0.6075485525833638,
      "grad_norm": 0.3734726010751245,
      "learning_rate": 4.005737044469528e-06,
      "loss": 0.4853,
      "step": 3316
    },
    {
      "epoch": 0.6077317698790766,
      "grad_norm": 0.36392838196244376,
      "learning_rate": 4.002603236231288e-06,
      "loss": 0.4625,
      "step": 3317
    },
    {
      "epoch": 0.6079149871747893,
      "grad_norm": 0.4033765708212323,
      "learning_rate": 3.9994698359844085e-06,
      "loss": 0.4829,
      "step": 3318
    },
    {
      "epoch": 0.608098204470502,
      "grad_norm": 0.35439050998367794,
      "learning_rate": 3.99633684501063e-06,
      "loss": 0.4326,
      "step": 3319
    },
    {
      "epoch": 0.6082814217662147,
      "grad_norm": 0.3439026295030526,
      "learning_rate": 3.9932042645915224e-06,
      "loss": 0.4982,
      "step": 3320
    },
    {
      "epoch": 0.6084646390619275,
      "grad_norm": 0.3323169715795941,
      "learning_rate": 3.990072096008484e-06,
      "loss": 0.4636,
      "step": 3321
    },
    {
      "epoch": 0.6086478563576402,
      "grad_norm": 0.3723440488888345,
      "learning_rate": 3.9869403405427475e-06,
      "loss": 0.4815,
      "step": 3322
    },
    {
      "epoch": 0.6088310736533529,
      "grad_norm": 0.35460440636858903,
      "learning_rate": 3.983808999475381e-06,
      "loss": 0.436,
      "step": 3323
    },
    {
      "epoch": 0.6090142909490656,
      "grad_norm": 0.4121519641073631,
      "learning_rate": 3.980678074087277e-06,
      "loss": 0.5019,
      "step": 3324
    },
    {
      "epoch": 0.6091975082447783,
      "grad_norm": 0.38659222731348764,
      "learning_rate": 3.9775475656591594e-06,
      "loss": 0.4659,
      "step": 3325
    },
    {
      "epoch": 0.609380725540491,
      "grad_norm": 0.3603288477385579,
      "learning_rate": 3.974417475471583e-06,
      "loss": 0.485,
      "step": 3326
    },
    {
      "epoch": 0.6095639428362037,
      "grad_norm": 0.46183540556732916,
      "learning_rate": 3.9712878048049284e-06,
      "loss": 0.5004,
      "step": 3327
    },
    {
      "epoch": 0.6097471601319164,
      "grad_norm": 0.3612919378513964,
      "learning_rate": 3.968158554939412e-06,
      "loss": 0.5009,
      "step": 3328
    },
    {
      "epoch": 0.6099303774276291,
      "grad_norm": 0.3910922714795563,
      "learning_rate": 3.965029727155069e-06,
      "loss": 0.4867,
      "step": 3329
    },
    {
      "epoch": 0.6101135947233419,
      "grad_norm": 0.39633836659584154,
      "learning_rate": 3.961901322731766e-06,
      "loss": 0.449,
      "step": 3330
    },
    {
      "epoch": 0.6102968120190546,
      "grad_norm": 0.38115961908245777,
      "learning_rate": 3.958773342949196e-06,
      "loss": 0.4747,
      "step": 3331
    },
    {
      "epoch": 0.6104800293147673,
      "grad_norm": 0.33284427746348605,
      "learning_rate": 3.955645789086883e-06,
      "loss": 0.4575,
      "step": 3332
    },
    {
      "epoch": 0.61066324661048,
      "grad_norm": 0.3821677020949391,
      "learning_rate": 3.952518662424167e-06,
      "loss": 0.4858,
      "step": 3333
    },
    {
      "epoch": 0.6108464639061928,
      "grad_norm": 0.4009014380114965,
      "learning_rate": 3.949391964240221e-06,
      "loss": 0.4318,
      "step": 3334
    },
    {
      "epoch": 0.6110296812019055,
      "grad_norm": 0.44000938090181235,
      "learning_rate": 3.94626569581404e-06,
      "loss": 0.4779,
      "step": 3335
    },
    {
      "epoch": 0.6112128984976182,
      "grad_norm": 0.40730570469567723,
      "learning_rate": 3.943139858424445e-06,
      "loss": 0.4716,
      "step": 3336
    },
    {
      "epoch": 0.6113961157933309,
      "grad_norm": 0.33655966447673424,
      "learning_rate": 3.940014453350076e-06,
      "loss": 0.4832,
      "step": 3337
    },
    {
      "epoch": 0.6115793330890436,
      "grad_norm": 0.360061717888351,
      "learning_rate": 3.936889481869403e-06,
      "loss": 0.4521,
      "step": 3338
    },
    {
      "epoch": 0.6117625503847564,
      "grad_norm": 0.3121566288995717,
      "learning_rate": 3.933764945260712e-06,
      "loss": 0.4611,
      "step": 3339
    },
    {
      "epoch": 0.611945767680469,
      "grad_norm": 0.3655686160599967,
      "learning_rate": 3.930640844802119e-06,
      "loss": 0.4792,
      "step": 3340
    },
    {
      "epoch": 0.6121289849761817,
      "grad_norm": 0.3184169765542266,
      "learning_rate": 3.92751718177155e-06,
      "loss": 0.4598,
      "step": 3341
    },
    {
      "epoch": 0.6123122022718944,
      "grad_norm": 0.3448183481186073,
      "learning_rate": 3.9243939574467625e-06,
      "loss": 0.4856,
      "step": 3342
    },
    {
      "epoch": 0.6124954195676072,
      "grad_norm": 0.349808866231569,
      "learning_rate": 3.9212711731053315e-06,
      "loss": 0.448,
      "step": 3343
    },
    {
      "epoch": 0.6126786368633199,
      "grad_norm": 0.3475677996342215,
      "learning_rate": 3.918148830024651e-06,
      "loss": 0.4667,
      "step": 3344
    },
    {
      "epoch": 0.6128618541590326,
      "grad_norm": 0.3944639731431349,
      "learning_rate": 3.915026929481935e-06,
      "loss": 0.486,
      "step": 3345
    },
    {
      "epoch": 0.6130450714547453,
      "grad_norm": 0.43288681581663946,
      "learning_rate": 3.9119054727542135e-06,
      "loss": 0.5017,
      "step": 3346
    },
    {
      "epoch": 0.6132282887504581,
      "grad_norm": 0.3580534881016692,
      "learning_rate": 3.9087844611183415e-06,
      "loss": 0.4845,
      "step": 3347
    },
    {
      "epoch": 0.6134115060461708,
      "grad_norm": 0.3705288832890555,
      "learning_rate": 3.905663895850988e-06,
      "loss": 0.4829,
      "step": 3348
    },
    {
      "epoch": 0.6135947233418835,
      "grad_norm": 0.3711417703037963,
      "learning_rate": 3.902543778228638e-06,
      "loss": 0.4583,
      "step": 3349
    },
    {
      "epoch": 0.6137779406375962,
      "grad_norm": 0.4010220854159373,
      "learning_rate": 3.899424109527594e-06,
      "loss": 0.4446,
      "step": 3350
    },
    {
      "epoch": 0.6139611579333089,
      "grad_norm": 0.3700588095233422,
      "learning_rate": 3.896304891023979e-06,
      "loss": 0.4749,
      "step": 3351
    },
    {
      "epoch": 0.6141443752290217,
      "grad_norm": 0.3863735168982707,
      "learning_rate": 3.893186123993727e-06,
      "loss": 0.4801,
      "step": 3352
    },
    {
      "epoch": 0.6143275925247343,
      "grad_norm": 0.37734735039970213,
      "learning_rate": 3.89006780971259e-06,
      "loss": 0.4697,
      "step": 3353
    },
    {
      "epoch": 0.614510809820447,
      "grad_norm": 0.43614331655717437,
      "learning_rate": 3.886949949456133e-06,
      "loss": 0.4826,
      "step": 3354
    },
    {
      "epoch": 0.6146940271161597,
      "grad_norm": 0.41416844558813,
      "learning_rate": 3.883832544499735e-06,
      "loss": 0.4814,
      "step": 3355
    },
    {
      "epoch": 0.6148772444118725,
      "grad_norm": 0.3840583437325919,
      "learning_rate": 3.880715596118596e-06,
      "loss": 0.4861,
      "step": 3356
    },
    {
      "epoch": 0.6150604617075852,
      "grad_norm": 1.5827048716139795,
      "learning_rate": 3.877599105587714e-06,
      "loss": 0.461,
      "step": 3357
    },
    {
      "epoch": 0.6152436790032979,
      "grad_norm": 0.33728519698992276,
      "learning_rate": 3.874483074181915e-06,
      "loss": 0.4361,
      "step": 3358
    },
    {
      "epoch": 0.6154268962990106,
      "grad_norm": 0.3892940741219592,
      "learning_rate": 3.871367503175828e-06,
      "loss": 0.4823,
      "step": 3359
    },
    {
      "epoch": 0.6156101135947234,
      "grad_norm": 0.3671721163790301,
      "learning_rate": 3.868252393843902e-06,
      "loss": 0.4699,
      "step": 3360
    },
    {
      "epoch": 0.6157933308904361,
      "grad_norm": 0.3861159968344066,
      "learning_rate": 3.865137747460385e-06,
      "loss": 0.4588,
      "step": 3361
    },
    {
      "epoch": 0.6159765481861488,
      "grad_norm": 0.38191850453923193,
      "learning_rate": 3.862023565299346e-06,
      "loss": 0.4608,
      "step": 3362
    },
    {
      "epoch": 0.6161597654818615,
      "grad_norm": 0.33682639019253413,
      "learning_rate": 3.858909848634661e-06,
      "loss": 0.464,
      "step": 3363
    },
    {
      "epoch": 0.6163429827775742,
      "grad_norm": 0.37092191775209565,
      "learning_rate": 3.8557965987400156e-06,
      "loss": 0.4619,
      "step": 3364
    },
    {
      "epoch": 0.616526200073287,
      "grad_norm": 0.3878901717403647,
      "learning_rate": 3.8526838168889e-06,
      "loss": 0.4748,
      "step": 3365
    },
    {
      "epoch": 0.6167094173689996,
      "grad_norm": 0.39928952055424216,
      "learning_rate": 3.8495715043546225e-06,
      "loss": 0.4841,
      "step": 3366
    },
    {
      "epoch": 0.6168926346647123,
      "grad_norm": 0.36984083415160346,
      "learning_rate": 3.84645966241029e-06,
      "loss": 0.4509,
      "step": 3367
    },
    {
      "epoch": 0.617075851960425,
      "grad_norm": 0.43143681897166014,
      "learning_rate": 3.8433482923288245e-06,
      "loss": 0.4926,
      "step": 3368
    },
    {
      "epoch": 0.6172590692561378,
      "grad_norm": 0.39736331745243536,
      "learning_rate": 3.840237395382947e-06,
      "loss": 0.4296,
      "step": 3369
    },
    {
      "epoch": 0.6174422865518505,
      "grad_norm": 0.3346071880701682,
      "learning_rate": 3.837126972845192e-06,
      "loss": 0.4655,
      "step": 3370
    },
    {
      "epoch": 0.6176255038475632,
      "grad_norm": 0.3678217591892569,
      "learning_rate": 3.8340170259878965e-06,
      "loss": 0.4825,
      "step": 3371
    },
    {
      "epoch": 0.6178087211432759,
      "grad_norm": 0.40832968867190783,
      "learning_rate": 3.830907556083204e-06,
      "loss": 0.4596,
      "step": 3372
    },
    {
      "epoch": 0.6179919384389886,
      "grad_norm": 0.39028994718588056,
      "learning_rate": 3.827798564403063e-06,
      "loss": 0.4926,
      "step": 3373
    },
    {
      "epoch": 0.6181751557347014,
      "grad_norm": 0.3727381875263331,
      "learning_rate": 3.824690052219223e-06,
      "loss": 0.4498,
      "step": 3374
    },
    {
      "epoch": 0.6183583730304141,
      "grad_norm": 0.3770967571827475,
      "learning_rate": 3.821582020803244e-06,
      "loss": 0.4816,
      "step": 3375
    },
    {
      "epoch": 0.6185415903261268,
      "grad_norm": 0.3677418395766839,
      "learning_rate": 3.818474471426485e-06,
      "loss": 0.457,
      "step": 3376
    },
    {
      "epoch": 0.6187248076218395,
      "grad_norm": 0.4393531482364124,
      "learning_rate": 3.815367405360106e-06,
      "loss": 0.4665,
      "step": 3377
    },
    {
      "epoch": 0.6189080249175523,
      "grad_norm": 0.3994840010566743,
      "learning_rate": 3.8122608238750746e-06,
      "loss": 0.5108,
      "step": 3378
    },
    {
      "epoch": 0.619091242213265,
      "grad_norm": 0.3902946208866115,
      "learning_rate": 3.8091547282421544e-06,
      "loss": 0.4729,
      "step": 3379
    },
    {
      "epoch": 0.6192744595089776,
      "grad_norm": 0.36047052014306097,
      "learning_rate": 3.8060491197319166e-06,
      "loss": 0.4782,
      "step": 3380
    },
    {
      "epoch": 0.6194576768046903,
      "grad_norm": 0.3227185779888876,
      "learning_rate": 3.802943999614727e-06,
      "loss": 0.4816,
      "step": 3381
    },
    {
      "epoch": 0.6196408941004031,
      "grad_norm": 0.38515368184924453,
      "learning_rate": 3.799839369160756e-06,
      "loss": 0.4968,
      "step": 3382
    },
    {
      "epoch": 0.6198241113961158,
      "grad_norm": 0.40691464191289234,
      "learning_rate": 3.7967352296399696e-06,
      "loss": 0.4949,
      "step": 3383
    },
    {
      "epoch": 0.6200073286918285,
      "grad_norm": 0.4483467977975031,
      "learning_rate": 3.79363158232214e-06,
      "loss": 0.4637,
      "step": 3384
    },
    {
      "epoch": 0.6201905459875412,
      "grad_norm": 0.7314258477496398,
      "learning_rate": 3.790528428476828e-06,
      "loss": 0.4954,
      "step": 3385
    },
    {
      "epoch": 0.6203737632832539,
      "grad_norm": 0.36327185678620344,
      "learning_rate": 3.787425769373401e-06,
      "loss": 0.4792,
      "step": 3386
    },
    {
      "epoch": 0.6205569805789667,
      "grad_norm": 0.41644011702240735,
      "learning_rate": 3.7843236062810216e-06,
      "loss": 0.4883,
      "step": 3387
    },
    {
      "epoch": 0.6207401978746794,
      "grad_norm": 0.3412670428933387,
      "learning_rate": 3.7812219404686484e-06,
      "loss": 0.4575,
      "step": 3388
    },
    {
      "epoch": 0.6209234151703921,
      "grad_norm": 0.4512406484756083,
      "learning_rate": 3.778120773205035e-06,
      "loss": 0.4885,
      "step": 3389
    },
    {
      "epoch": 0.6211066324661048,
      "grad_norm": 0.33786157328867994,
      "learning_rate": 3.775020105758736e-06,
      "loss": 0.4402,
      "step": 3390
    },
    {
      "epoch": 0.6212898497618176,
      "grad_norm": 0.4166062568929626,
      "learning_rate": 3.7719199393980977e-06,
      "loss": 0.4514,
      "step": 3391
    },
    {
      "epoch": 0.6214730670575302,
      "grad_norm": 0.41355321725132443,
      "learning_rate": 3.7688202753912634e-06,
      "loss": 0.4686,
      "step": 3392
    },
    {
      "epoch": 0.6216562843532429,
      "grad_norm": 0.4047176800778511,
      "learning_rate": 3.765721115006168e-06,
      "loss": 0.4715,
      "step": 3393
    },
    {
      "epoch": 0.6218395016489556,
      "grad_norm": 0.3799684823135988,
      "learning_rate": 3.762622459510542e-06,
      "loss": 0.4783,
      "step": 3394
    },
    {
      "epoch": 0.6220227189446684,
      "grad_norm": 0.4117099383017388,
      "learning_rate": 3.7595243101719126e-06,
      "loss": 0.4791,
      "step": 3395
    },
    {
      "epoch": 0.6222059362403811,
      "grad_norm": 0.32305546509666183,
      "learning_rate": 3.7564266682575966e-06,
      "loss": 0.4508,
      "step": 3396
    },
    {
      "epoch": 0.6223891535360938,
      "grad_norm": 0.3747661592878273,
      "learning_rate": 3.753329535034702e-06,
      "loss": 0.4921,
      "step": 3397
    },
    {
      "epoch": 0.6225723708318065,
      "grad_norm": 0.47414657007429,
      "learning_rate": 3.7502329117701297e-06,
      "loss": 0.4543,
      "step": 3398
    },
    {
      "epoch": 0.6227555881275192,
      "grad_norm": 0.4200518871306099,
      "learning_rate": 3.7471367997305764e-06,
      "loss": 0.4675,
      "step": 3399
    },
    {
      "epoch": 0.622938805423232,
      "grad_norm": 0.39776912270226433,
      "learning_rate": 3.7440412001825238e-06,
      "loss": 0.4877,
      "step": 3400
    },
    {
      "epoch": 0.6231220227189447,
      "grad_norm": 0.33669101746510566,
      "learning_rate": 3.7409461143922455e-06,
      "loss": 0.4581,
      "step": 3401
    },
    {
      "epoch": 0.6233052400146574,
      "grad_norm": 0.33992019895266523,
      "learning_rate": 3.7378515436258056e-06,
      "loss": 0.4611,
      "step": 3402
    },
    {
      "epoch": 0.6234884573103701,
      "grad_norm": 0.34526963310385533,
      "learning_rate": 3.7347574891490597e-06,
      "loss": 0.4606,
      "step": 3403
    },
    {
      "epoch": 0.6236716746060829,
      "grad_norm": 0.4031944830734456,
      "learning_rate": 3.7316639522276493e-06,
      "loss": 0.4615,
      "step": 3404
    },
    {
      "epoch": 0.6238548919017955,
      "grad_norm": 0.37649232647240166,
      "learning_rate": 3.7285709341270037e-06,
      "loss": 0.4798,
      "step": 3405
    },
    {
      "epoch": 0.6240381091975082,
      "grad_norm": 0.3303406481230134,
      "learning_rate": 3.725478436112342e-06,
      "loss": 0.4649,
      "step": 3406
    },
    {
      "epoch": 0.6242213264932209,
      "grad_norm": 0.36610882261819505,
      "learning_rate": 3.722386459448668e-06,
      "loss": 0.456,
      "step": 3407
    },
    {
      "epoch": 0.6244045437889337,
      "grad_norm": 0.33772515081786897,
      "learning_rate": 3.719295005400779e-06,
      "loss": 0.4896,
      "step": 3408
    },
    {
      "epoch": 0.6245877610846464,
      "grad_norm": 0.3848976211487813,
      "learning_rate": 3.7162040752332485e-06,
      "loss": 0.4702,
      "step": 3409
    },
    {
      "epoch": 0.6247709783803591,
      "grad_norm": 0.46617888665168655,
      "learning_rate": 3.713113670210443e-06,
      "loss": 0.4844,
      "step": 3410
    },
    {
      "epoch": 0.6249541956760718,
      "grad_norm": 0.38255069185326285,
      "learning_rate": 3.71002379159651e-06,
      "loss": 0.4859,
      "step": 3411
    },
    {
      "epoch": 0.6251374129717845,
      "grad_norm": 0.3539583241238941,
      "learning_rate": 3.706934440655389e-06,
      "loss": 0.4622,
      "step": 3412
    },
    {
      "epoch": 0.6253206302674973,
      "grad_norm": 0.4089075771262958,
      "learning_rate": 3.70384561865079e-06,
      "loss": 0.4575,
      "step": 3413
    },
    {
      "epoch": 0.62550384756321,
      "grad_norm": 0.3862421415619821,
      "learning_rate": 3.700757326846221e-06,
      "loss": 0.4833,
      "step": 3414
    },
    {
      "epoch": 0.6256870648589227,
      "grad_norm": 0.3643763570223953,
      "learning_rate": 3.6976695665049656e-06,
      "loss": 0.4723,
      "step": 3415
    },
    {
      "epoch": 0.6258702821546354,
      "grad_norm": 0.3530022854685333,
      "learning_rate": 3.6945823388900913e-06,
      "loss": 0.4733,
      "step": 3416
    },
    {
      "epoch": 0.6260534994503482,
      "grad_norm": 0.33522794524320454,
      "learning_rate": 3.691495645264446e-06,
      "loss": 0.4475,
      "step": 3417
    },
    {
      "epoch": 0.6262367167460609,
      "grad_norm": 0.33496744151540203,
      "learning_rate": 3.688409486890664e-06,
      "loss": 0.4587,
      "step": 3418
    },
    {
      "epoch": 0.6264199340417735,
      "grad_norm": 0.40647539022082196,
      "learning_rate": 3.6853238650311553e-06,
      "loss": 0.4946,
      "step": 3419
    },
    {
      "epoch": 0.6266031513374862,
      "grad_norm": 0.39420793377221275,
      "learning_rate": 3.6822387809481155e-06,
      "loss": 0.4438,
      "step": 3420
    },
    {
      "epoch": 0.6267863686331989,
      "grad_norm": 0.4087705564514289,
      "learning_rate": 3.679154235903514e-06,
      "loss": 0.4783,
      "step": 3421
    },
    {
      "epoch": 0.6269695859289117,
      "grad_norm": 0.3849230704723878,
      "learning_rate": 3.6760702311591032e-06,
      "loss": 0.4666,
      "step": 3422
    },
    {
      "epoch": 0.6271528032246244,
      "grad_norm": 0.3743776466128573,
      "learning_rate": 3.6729867679764183e-06,
      "loss": 0.4568,
      "step": 3423
    },
    {
      "epoch": 0.6273360205203371,
      "grad_norm": 0.3626507057042326,
      "learning_rate": 3.669903847616767e-06,
      "loss": 0.477,
      "step": 3424
    },
    {
      "epoch": 0.6275192378160498,
      "grad_norm": 0.3768683693381953,
      "learning_rate": 3.6668214713412364e-06,
      "loss": 0.4752,
      "step": 3425
    },
    {
      "epoch": 0.6277024551117626,
      "grad_norm": 0.372956492863803,
      "learning_rate": 3.6637396404106907e-06,
      "loss": 0.471,
      "step": 3426
    },
    {
      "epoch": 0.6278856724074753,
      "grad_norm": 0.3623634477467274,
      "learning_rate": 3.6606583560857757e-06,
      "loss": 0.4691,
      "step": 3427
    },
    {
      "epoch": 0.628068889703188,
      "grad_norm": 0.3654773740807239,
      "learning_rate": 3.6575776196269075e-06,
      "loss": 0.4589,
      "step": 3428
    },
    {
      "epoch": 0.6282521069989007,
      "grad_norm": 0.3599616685715066,
      "learning_rate": 3.654497432294281e-06,
      "loss": 0.5018,
      "step": 3429
    },
    {
      "epoch": 0.6284353242946135,
      "grad_norm": 0.3706421176656778,
      "learning_rate": 3.6514177953478656e-06,
      "loss": 0.4775,
      "step": 3430
    },
    {
      "epoch": 0.6286185415903262,
      "grad_norm": 0.35829124434103354,
      "learning_rate": 3.6483387100474054e-06,
      "loss": 0.4721,
      "step": 3431
    },
    {
      "epoch": 0.6288017588860388,
      "grad_norm": 0.39984663977682633,
      "learning_rate": 3.645260177652422e-06,
      "loss": 0.4807,
      "step": 3432
    },
    {
      "epoch": 0.6289849761817515,
      "grad_norm": 0.35025444185117444,
      "learning_rate": 3.642182199422206e-06,
      "loss": 0.4951,
      "step": 3433
    },
    {
      "epoch": 0.6291681934774642,
      "grad_norm": 0.36671047481915986,
      "learning_rate": 3.6391047766158243e-06,
      "loss": 0.4839,
      "step": 3434
    },
    {
      "epoch": 0.629351410773177,
      "grad_norm": 0.5064340298169169,
      "learning_rate": 3.636027910492115e-06,
      "loss": 0.471,
      "step": 3435
    },
    {
      "epoch": 0.6295346280688897,
      "grad_norm": 0.3346809459394731,
      "learning_rate": 3.632951602309693e-06,
      "loss": 0.4585,
      "step": 3436
    },
    {
      "epoch": 0.6297178453646024,
      "grad_norm": 0.3666266324043109,
      "learning_rate": 3.629875853326935e-06,
      "loss": 0.4685,
      "step": 3437
    },
    {
      "epoch": 0.6299010626603151,
      "grad_norm": 0.42734384578850443,
      "learning_rate": 3.6268006648020005e-06,
      "loss": 0.4706,
      "step": 3438
    },
    {
      "epoch": 0.6300842799560279,
      "grad_norm": 0.36277576315958787,
      "learning_rate": 3.623726037992811e-06,
      "loss": 0.494,
      "step": 3439
    },
    {
      "epoch": 0.6302674972517406,
      "grad_norm": 0.3638105357596318,
      "learning_rate": 3.6206519741570674e-06,
      "loss": 0.4579,
      "step": 3440
    },
    {
      "epoch": 0.6304507145474533,
      "grad_norm": 0.36202131112274694,
      "learning_rate": 3.6175784745522273e-06,
      "loss": 0.4369,
      "step": 3441
    },
    {
      "epoch": 0.630633931843166,
      "grad_norm": 0.4353293472651712,
      "learning_rate": 3.61450554043553e-06,
      "loss": 0.4778,
      "step": 3442
    },
    {
      "epoch": 0.6308171491388788,
      "grad_norm": 0.34366143901775337,
      "learning_rate": 3.611433173063976e-06,
      "loss": 0.4438,
      "step": 3443
    },
    {
      "epoch": 0.6310003664345915,
      "grad_norm": 0.3758857101998102,
      "learning_rate": 3.608361373694339e-06,
      "loss": 0.4522,
      "step": 3444
    },
    {
      "epoch": 0.6311835837303041,
      "grad_norm": 0.3524910596291595,
      "learning_rate": 3.6052901435831533e-06,
      "loss": 0.46,
      "step": 3445
    },
    {
      "epoch": 0.6313668010260168,
      "grad_norm": 0.3326251240922405,
      "learning_rate": 3.6022194839867282e-06,
      "loss": 0.4423,
      "step": 3446
    },
    {
      "epoch": 0.6315500183217295,
      "grad_norm": 0.4166545903844291,
      "learning_rate": 3.5991493961611353e-06,
      "loss": 0.4939,
      "step": 3447
    },
    {
      "epoch": 0.6317332356174423,
      "grad_norm": 0.3961400544630863,
      "learning_rate": 3.5960798813622137e-06,
      "loss": 0.4324,
      "step": 3448
    },
    {
      "epoch": 0.631916452913155,
      "grad_norm": 0.3674974134485457,
      "learning_rate": 3.593010940845566e-06,
      "loss": 0.4556,
      "step": 3449
    },
    {
      "epoch": 0.6320996702088677,
      "grad_norm": 0.3890522202378581,
      "learning_rate": 3.589942575866562e-06,
      "loss": 0.4673,
      "step": 3450
    },
    {
      "epoch": 0.6322828875045804,
      "grad_norm": 0.3756290012411645,
      "learning_rate": 3.5868747876803356e-06,
      "loss": 0.4464,
      "step": 3451
    },
    {
      "epoch": 0.6324661048002932,
      "grad_norm": 0.4087829017495404,
      "learning_rate": 3.583807577541787e-06,
      "loss": 0.4888,
      "step": 3452
    },
    {
      "epoch": 0.6326493220960059,
      "grad_norm": 2.482123269569229,
      "learning_rate": 3.5807409467055737e-06,
      "loss": 0.4595,
      "step": 3453
    },
    {
      "epoch": 0.6328325393917186,
      "grad_norm": 0.5554873483062074,
      "learning_rate": 3.577674896426121e-06,
      "loss": 0.4768,
      "step": 3454
    },
    {
      "epoch": 0.6330157566874313,
      "grad_norm": 0.44365336073816447,
      "learning_rate": 3.5746094279576182e-06,
      "loss": 0.4748,
      "step": 3455
    },
    {
      "epoch": 0.633198973983144,
      "grad_norm": 0.4146770903766801,
      "learning_rate": 3.571544542554014e-06,
      "loss": 0.4485,
      "step": 3456
    },
    {
      "epoch": 0.6333821912788568,
      "grad_norm": 0.3745085045702995,
      "learning_rate": 3.5684802414690174e-06,
      "loss": 0.4661,
      "step": 3457
    },
    {
      "epoch": 0.6335654085745694,
      "grad_norm": 0.3783881705015424,
      "learning_rate": 3.565416525956099e-06,
      "loss": 0.4588,
      "step": 3458
    },
    {
      "epoch": 0.6337486258702821,
      "grad_norm": 0.3468524594706612,
      "learning_rate": 3.562353397268492e-06,
      "loss": 0.4306,
      "step": 3459
    },
    {
      "epoch": 0.6339318431659948,
      "grad_norm": 0.34250416542600726,
      "learning_rate": 3.55929085665919e-06,
      "loss": 0.4957,
      "step": 3460
    },
    {
      "epoch": 0.6341150604617076,
      "grad_norm": 0.38691657059403695,
      "learning_rate": 3.5562289053809417e-06,
      "loss": 0.4711,
      "step": 3461
    },
    {
      "epoch": 0.6342982777574203,
      "grad_norm": 0.40934344680238033,
      "learning_rate": 3.5531675446862586e-06,
      "loss": 0.4638,
      "step": 3462
    },
    {
      "epoch": 0.634481495053133,
      "grad_norm": 0.3906074957726188,
      "learning_rate": 3.550106775827408e-06,
      "loss": 0.4534,
      "step": 3463
    },
    {
      "epoch": 0.6346647123488457,
      "grad_norm": 0.40424103444392073,
      "learning_rate": 3.5470466000564197e-06,
      "loss": 0.457,
      "step": 3464
    },
    {
      "epoch": 0.6348479296445585,
      "grad_norm": 0.37135572208067924,
      "learning_rate": 3.543987018625073e-06,
      "loss": 0.4849,
      "step": 3465
    },
    {
      "epoch": 0.6350311469402712,
      "grad_norm": 0.34952897683939,
      "learning_rate": 3.5409280327849123e-06,
      "loss": 0.469,
      "step": 3466
    },
    {
      "epoch": 0.6352143642359839,
      "grad_norm": 0.3613897105517585,
      "learning_rate": 3.5378696437872334e-06,
      "loss": 0.4524,
      "step": 3467
    },
    {
      "epoch": 0.6353975815316966,
      "grad_norm": 0.3527825682366731,
      "learning_rate": 3.534811852883091e-06,
      "loss": 0.4426,
      "step": 3468
    },
    {
      "epoch": 0.6355807988274093,
      "grad_norm": 0.413745130417646,
      "learning_rate": 3.5317546613232904e-06,
      "loss": 0.4892,
      "step": 3469
    },
    {
      "epoch": 0.635764016123122,
      "grad_norm": 0.36217762970317147,
      "learning_rate": 3.528698070358398e-06,
      "loss": 0.4385,
      "step": 3470
    },
    {
      "epoch": 0.6359472334188347,
      "grad_norm": 0.3873199425818144,
      "learning_rate": 3.5256420812387293e-06,
      "loss": 0.487,
      "step": 3471
    },
    {
      "epoch": 0.6361304507145474,
      "grad_norm": 0.36887459986925014,
      "learning_rate": 3.5225866952143583e-06,
      "loss": 0.4839,
      "step": 3472
    },
    {
      "epoch": 0.6363136680102601,
      "grad_norm": 0.3762685573891245,
      "learning_rate": 3.519531913535107e-06,
      "loss": 0.4847,
      "step": 3473
    },
    {
      "epoch": 0.6364968853059729,
      "grad_norm": 0.3876597950648676,
      "learning_rate": 3.5164777374505522e-06,
      "loss": 0.4654,
      "step": 3474
    },
    {
      "epoch": 0.6366801026016856,
      "grad_norm": 0.389499620690064,
      "learning_rate": 3.5134241682100266e-06,
      "loss": 0.4755,
      "step": 3475
    },
    {
      "epoch": 0.6368633198973983,
      "grad_norm": 0.38419318511889156,
      "learning_rate": 3.5103712070626116e-06,
      "loss": 0.4173,
      "step": 3476
    },
    {
      "epoch": 0.637046537193111,
      "grad_norm": 0.37344769813877693,
      "learning_rate": 3.507318855257137e-06,
      "loss": 0.457,
      "step": 3477
    },
    {
      "epoch": 0.6372297544888238,
      "grad_norm": 0.35605422789815827,
      "learning_rate": 3.504267114042188e-06,
      "loss": 0.4651,
      "step": 3478
    },
    {
      "epoch": 0.6374129717845365,
      "grad_norm": 0.35216333564639746,
      "learning_rate": 3.5012159846660987e-06,
      "loss": 0.4735,
      "step": 3479
    },
    {
      "epoch": 0.6375961890802492,
      "grad_norm": 0.3684926279502396,
      "learning_rate": 3.4981654683769537e-06,
      "loss": 0.491,
      "step": 3480
    },
    {
      "epoch": 0.6377794063759619,
      "grad_norm": 0.6416320155444767,
      "learning_rate": 3.4951155664225845e-06,
      "loss": 0.5109,
      "step": 3481
    },
    {
      "epoch": 0.6379626236716746,
      "grad_norm": 0.3311283706147146,
      "learning_rate": 3.4920662800505713e-06,
      "loss": 0.4951,
      "step": 3482
    },
    {
      "epoch": 0.6381458409673874,
      "grad_norm": 0.38636678573281646,
      "learning_rate": 3.4890176105082436e-06,
      "loss": 0.4392,
      "step": 3483
    },
    {
      "epoch": 0.6383290582631,
      "grad_norm": 0.4163698242292531,
      "learning_rate": 3.4859695590426824e-06,
      "loss": 0.4961,
      "step": 3484
    },
    {
      "epoch": 0.6385122755588127,
      "grad_norm": 0.4359808520953443,
      "learning_rate": 3.482922126900708e-06,
      "loss": 0.4831,
      "step": 3485
    },
    {
      "epoch": 0.6386954928545254,
      "grad_norm": 0.34637257759709444,
      "learning_rate": 3.4798753153288934e-06,
      "loss": 0.4699,
      "step": 3486
    },
    {
      "epoch": 0.6388787101502382,
      "grad_norm": 0.37900559292552355,
      "learning_rate": 3.4768291255735544e-06,
      "loss": 0.4636,
      "step": 3487
    },
    {
      "epoch": 0.6390619274459509,
      "grad_norm": 0.3538772725438127,
      "learning_rate": 3.4737835588807584e-06,
      "loss": 0.4595,
      "step": 3488
    },
    {
      "epoch": 0.6392451447416636,
      "grad_norm": 0.43757235936032834,
      "learning_rate": 3.470738616496307e-06,
      "loss": 0.4783,
      "step": 3489
    },
    {
      "epoch": 0.6394283620373763,
      "grad_norm": 0.40956563573499927,
      "learning_rate": 3.467694299665757e-06,
      "loss": 0.5142,
      "step": 3490
    },
    {
      "epoch": 0.6396115793330891,
      "grad_norm": 0.37251978174694766,
      "learning_rate": 3.464650609634403e-06,
      "loss": 0.4931,
      "step": 3491
    },
    {
      "epoch": 0.6397947966288018,
      "grad_norm": 0.35548169209825403,
      "learning_rate": 3.46160754764729e-06,
      "loss": 0.4645,
      "step": 3492
    },
    {
      "epoch": 0.6399780139245145,
      "grad_norm": 0.31268147037920563,
      "learning_rate": 3.4585651149491937e-06,
      "loss": 0.4639,
      "step": 3493
    },
    {
      "epoch": 0.6401612312202272,
      "grad_norm": 0.37157686849902105,
      "learning_rate": 3.4555233127846465e-06,
      "loss": 0.4857,
      "step": 3494
    },
    {
      "epoch": 0.6403444485159399,
      "grad_norm": 0.3590054816908552,
      "learning_rate": 3.452482142397915e-06,
      "loss": 0.4513,
      "step": 3495
    },
    {
      "epoch": 0.6405276658116527,
      "grad_norm": 0.3797523101447906,
      "learning_rate": 3.449441605033009e-06,
      "loss": 0.4321,
      "step": 3496
    },
    {
      "epoch": 0.6407108831073653,
      "grad_norm": 0.3783050064767098,
      "learning_rate": 3.446401701933676e-06,
      "loss": 0.4593,
      "step": 3497
    },
    {
      "epoch": 0.640894100403078,
      "grad_norm": 0.3115627069008165,
      "learning_rate": 3.4433624343434115e-06,
      "loss": 0.4241,
      "step": 3498
    },
    {
      "epoch": 0.6410773176987907,
      "grad_norm": 0.3799429242374115,
      "learning_rate": 3.4403238035054453e-06,
      "loss": 0.4559,
      "step": 3499
    },
    {
      "epoch": 0.6412605349945035,
      "grad_norm": 0.4240815344192379,
      "learning_rate": 3.437285810662749e-06,
      "loss": 0.4516,
      "step": 3500
    },
    {
      "epoch": 0.6414437522902162,
      "grad_norm": 0.3711412884805633,
      "learning_rate": 3.4342484570580315e-06,
      "loss": 0.4429,
      "step": 3501
    },
    {
      "epoch": 0.6416269695859289,
      "grad_norm": 0.4056211302748523,
      "learning_rate": 3.43121174393374e-06,
      "loss": 0.5073,
      "step": 3502
    },
    {
      "epoch": 0.6418101868816416,
      "grad_norm": 0.43407514191028274,
      "learning_rate": 3.4281756725320636e-06,
      "loss": 0.4398,
      "step": 3503
    },
    {
      "epoch": 0.6419934041773543,
      "grad_norm": 0.4211158133777933,
      "learning_rate": 3.4251402440949256e-06,
      "loss": 0.5037,
      "step": 3504
    },
    {
      "epoch": 0.6421766214730671,
      "grad_norm": 0.445147601987858,
      "learning_rate": 3.4221054598639857e-06,
      "loss": 0.4782,
      "step": 3505
    },
    {
      "epoch": 0.6423598387687798,
      "grad_norm": 0.35797330776687786,
      "learning_rate": 3.4190713210806414e-06,
      "loss": 0.4571,
      "step": 3506
    },
    {
      "epoch": 0.6425430560644925,
      "grad_norm": 0.37382480133879875,
      "learning_rate": 3.4160378289860272e-06,
      "loss": 0.4766,
      "step": 3507
    },
    {
      "epoch": 0.6427262733602052,
      "grad_norm": 0.3989667379416838,
      "learning_rate": 3.4130049848210134e-06,
      "loss": 0.4831,
      "step": 3508
    },
    {
      "epoch": 0.642909490655918,
      "grad_norm": 0.3166260953679194,
      "learning_rate": 3.4099727898262004e-06,
      "loss": 0.4699,
      "step": 3509
    },
    {
      "epoch": 0.6430927079516306,
      "grad_norm": 0.3385192585501824,
      "learning_rate": 3.406941245241927e-06,
      "loss": 0.4507,
      "step": 3510
    },
    {
      "epoch": 0.6432759252473433,
      "grad_norm": 0.36839975936953884,
      "learning_rate": 3.403910352308266e-06,
      "loss": 0.4557,
      "step": 3511
    },
    {
      "epoch": 0.643459142543056,
      "grad_norm": 0.3911811814121315,
      "learning_rate": 3.400880112265026e-06,
      "loss": 0.4842,
      "step": 3512
    },
    {
      "epoch": 0.6436423598387688,
      "grad_norm": 0.41615345423216277,
      "learning_rate": 3.397850526351741e-06,
      "loss": 0.4493,
      "step": 3513
    },
    {
      "epoch": 0.6438255771344815,
      "grad_norm": 0.3840788849888087,
      "learning_rate": 3.3948215958076842e-06,
      "loss": 0.4376,
      "step": 3514
    },
    {
      "epoch": 0.6440087944301942,
      "grad_norm": 0.4041537256726371,
      "learning_rate": 3.391793321871857e-06,
      "loss": 0.4532,
      "step": 3515
    },
    {
      "epoch": 0.6441920117259069,
      "grad_norm": 0.3970830239384753,
      "learning_rate": 3.388765705782998e-06,
      "loss": 0.46,
      "step": 3516
    },
    {
      "epoch": 0.6443752290216196,
      "grad_norm": 0.385585925897048,
      "learning_rate": 3.3857387487795668e-06,
      "loss": 0.5081,
      "step": 3517
    },
    {
      "epoch": 0.6445584463173324,
      "grad_norm": 0.3328117538262262,
      "learning_rate": 3.3827124520997628e-06,
      "loss": 0.4829,
      "step": 3518
    },
    {
      "epoch": 0.6447416636130451,
      "grad_norm": 0.36362937914832516,
      "learning_rate": 3.37968681698151e-06,
      "loss": 0.4792,
      "step": 3519
    },
    {
      "epoch": 0.6449248809087578,
      "grad_norm": 0.4213735741090599,
      "learning_rate": 3.3766618446624656e-06,
      "loss": 0.4976,
      "step": 3520
    },
    {
      "epoch": 0.6451080982044705,
      "grad_norm": 0.3881846699021779,
      "learning_rate": 3.3736375363800078e-06,
      "loss": 0.5278,
      "step": 3521
    },
    {
      "epoch": 0.6452913155001833,
      "grad_norm": 0.32839914542503323,
      "learning_rate": 3.3706138933712544e-06,
      "loss": 0.4845,
      "step": 3522
    },
    {
      "epoch": 0.645474532795896,
      "grad_norm": 0.36179370255331816,
      "learning_rate": 3.3675909168730435e-06,
      "loss": 0.4542,
      "step": 3523
    },
    {
      "epoch": 0.6456577500916086,
      "grad_norm": 0.3944701031233938,
      "learning_rate": 3.364568608121943e-06,
      "loss": 0.4604,
      "step": 3524
    },
    {
      "epoch": 0.6458409673873213,
      "grad_norm": 0.35637552896164815,
      "learning_rate": 3.3615469683542457e-06,
      "loss": 0.4697,
      "step": 3525
    },
    {
      "epoch": 0.6460241846830341,
      "grad_norm": 0.47042065723709525,
      "learning_rate": 3.358525998805972e-06,
      "loss": 0.4716,
      "step": 3526
    },
    {
      "epoch": 0.6462074019787468,
      "grad_norm": 0.40080911870245983,
      "learning_rate": 3.3555057007128704e-06,
      "loss": 0.461,
      "step": 3527
    },
    {
      "epoch": 0.6463906192744595,
      "grad_norm": 0.41348480024307604,
      "learning_rate": 3.3524860753104127e-06,
      "loss": 0.4869,
      "step": 3528
    },
    {
      "epoch": 0.6465738365701722,
      "grad_norm": 0.32649611909430737,
      "learning_rate": 3.3494671238337935e-06,
      "loss": 0.4712,
      "step": 3529
    },
    {
      "epoch": 0.6467570538658849,
      "grad_norm": 0.38662764850068554,
      "learning_rate": 3.346448847517933e-06,
      "loss": 0.4644,
      "step": 3530
    },
    {
      "epoch": 0.6469402711615977,
      "grad_norm": 0.39143276965356133,
      "learning_rate": 3.343431247597479e-06,
      "loss": 0.4836,
      "step": 3531
    },
    {
      "epoch": 0.6471234884573104,
      "grad_norm": 0.3509381014530727,
      "learning_rate": 3.3404143253067987e-06,
      "loss": 0.4735,
      "step": 3532
    },
    {
      "epoch": 0.6473067057530231,
      "grad_norm": 0.3796827025033695,
      "learning_rate": 3.3373980818799823e-06,
      "loss": 0.4604,
      "step": 3533
    },
    {
      "epoch": 0.6474899230487358,
      "grad_norm": 0.3940374501209101,
      "learning_rate": 3.334382518550841e-06,
      "loss": 0.4571,
      "step": 3534
    },
    {
      "epoch": 0.6476731403444486,
      "grad_norm": 0.29899833922492824,
      "learning_rate": 3.3313676365529134e-06,
      "loss": 0.4666,
      "step": 3535
    },
    {
      "epoch": 0.6478563576401613,
      "grad_norm": 0.3973588990281339,
      "learning_rate": 3.3283534371194547e-06,
      "loss": 0.5021,
      "step": 3536
    },
    {
      "epoch": 0.6480395749358739,
      "grad_norm": 0.39772748029318056,
      "learning_rate": 3.3253399214834407e-06,
      "loss": 0.4636,
      "step": 3537
    },
    {
      "epoch": 0.6482227922315866,
      "grad_norm": 0.41868905268098267,
      "learning_rate": 3.3223270908775695e-06,
      "loss": 0.5021,
      "step": 3538
    },
    {
      "epoch": 0.6484060095272994,
      "grad_norm": 0.4279368003691416,
      "learning_rate": 3.319314946534258e-06,
      "loss": 0.4957,
      "step": 3539
    },
    {
      "epoch": 0.6485892268230121,
      "grad_norm": 0.36477344049855465,
      "learning_rate": 3.3163034896856437e-06,
      "loss": 0.4229,
      "step": 3540
    },
    {
      "epoch": 0.6487724441187248,
      "grad_norm": 0.36051725460825584,
      "learning_rate": 3.31329272156358e-06,
      "loss": 0.4534,
      "step": 3541
    },
    {
      "epoch": 0.6489556614144375,
      "grad_norm": 0.6014115157122704,
      "learning_rate": 3.3102826433996417e-06,
      "loss": 0.4708,
      "step": 3542
    },
    {
      "epoch": 0.6491388787101502,
      "grad_norm": 0.39799589744473024,
      "learning_rate": 3.3072732564251187e-06,
      "loss": 0.463,
      "step": 3543
    },
    {
      "epoch": 0.649322096005863,
      "grad_norm": 0.38344865304165143,
      "learning_rate": 3.3042645618710234e-06,
      "loss": 0.4727,
      "step": 3544
    },
    {
      "epoch": 0.6495053133015757,
      "grad_norm": 0.34199663089769966,
      "learning_rate": 3.3012565609680752e-06,
      "loss": 0.4553,
      "step": 3545
    },
    {
      "epoch": 0.6496885305972884,
      "grad_norm": 0.35105709232651594,
      "learning_rate": 3.298249254946719e-06,
      "loss": 0.4515,
      "step": 3546
    },
    {
      "epoch": 0.6498717478930011,
      "grad_norm": 0.3734304022681076,
      "learning_rate": 3.295242645037112e-06,
      "loss": 0.4682,
      "step": 3547
    },
    {
      "epoch": 0.6500549651887139,
      "grad_norm": 0.3771927191390024,
      "learning_rate": 3.2922367324691286e-06,
      "loss": 0.4694,
      "step": 3548
    },
    {
      "epoch": 0.6502381824844266,
      "grad_norm": 0.4397759262392246,
      "learning_rate": 3.28923151847235e-06,
      "loss": 0.4586,
      "step": 3549
    },
    {
      "epoch": 0.6504213997801392,
      "grad_norm": 0.3811390491048839,
      "learning_rate": 3.286227004276083e-06,
      "loss": 0.5015,
      "step": 3550
    },
    {
      "epoch": 0.6506046170758519,
      "grad_norm": 0.4652989704884051,
      "learning_rate": 3.2832231911093415e-06,
      "loss": 0.4867,
      "step": 3551
    },
    {
      "epoch": 0.6507878343715646,
      "grad_norm": 0.39484311913877573,
      "learning_rate": 3.2802200802008548e-06,
      "loss": 0.467,
      "step": 3552
    },
    {
      "epoch": 0.6509710516672774,
      "grad_norm": 0.5584032248553762,
      "learning_rate": 3.2772176727790622e-06,
      "loss": 0.4942,
      "step": 3553
    },
    {
      "epoch": 0.6511542689629901,
      "grad_norm": 0.38048902784266914,
      "learning_rate": 3.2742159700721173e-06,
      "loss": 0.4543,
      "step": 3554
    },
    {
      "epoch": 0.6513374862587028,
      "grad_norm": 0.37238737216175505,
      "learning_rate": 3.271214973307887e-06,
      "loss": 0.4878,
      "step": 3555
    },
    {
      "epoch": 0.6515207035544155,
      "grad_norm": 0.4323784650767414,
      "learning_rate": 3.268214683713948e-06,
      "loss": 0.4637,
      "step": 3556
    },
    {
      "epoch": 0.6517039208501283,
      "grad_norm": 0.3696334672896221,
      "learning_rate": 3.265215102517585e-06,
      "loss": 0.4797,
      "step": 3557
    },
    {
      "epoch": 0.651887138145841,
      "grad_norm": 0.9014011930146032,
      "learning_rate": 3.2622162309457962e-06,
      "loss": 0.4865,
      "step": 3558
    },
    {
      "epoch": 0.6520703554415537,
      "grad_norm": 0.34395774534535334,
      "learning_rate": 3.2592180702252898e-06,
      "loss": 0.4843,
      "step": 3559
    },
    {
      "epoch": 0.6522535727372664,
      "grad_norm": 0.42243003944197993,
      "learning_rate": 3.2562206215824834e-06,
      "loss": 0.4988,
      "step": 3560
    },
    {
      "epoch": 0.6524367900329792,
      "grad_norm": 0.37577464688011614,
      "learning_rate": 3.2532238862434983e-06,
      "loss": 0.4577,
      "step": 3561
    },
    {
      "epoch": 0.6526200073286919,
      "grad_norm": 0.39477280886735666,
      "learning_rate": 3.25022786543417e-06,
      "loss": 0.4949,
      "step": 3562
    },
    {
      "epoch": 0.6528032246244045,
      "grad_norm": 0.4098335180603605,
      "learning_rate": 3.2472325603800382e-06,
      "loss": 0.4532,
      "step": 3563
    },
    {
      "epoch": 0.6529864419201172,
      "grad_norm": 0.43194634826511535,
      "learning_rate": 3.2442379723063543e-06,
      "loss": 0.4885,
      "step": 3564
    },
    {
      "epoch": 0.6531696592158299,
      "grad_norm": 0.40157330821237697,
      "learning_rate": 3.2412441024380703e-06,
      "loss": 0.4859,
      "step": 3565
    },
    {
      "epoch": 0.6533528765115427,
      "grad_norm": 0.3402369096953985,
      "learning_rate": 3.2382509519998475e-06,
      "loss": 0.4821,
      "step": 3566
    },
    {
      "epoch": 0.6535360938072554,
      "grad_norm": 0.4132618314549237,
      "learning_rate": 3.235258522216052e-06,
      "loss": 0.4822,
      "step": 3567
    },
    {
      "epoch": 0.6537193111029681,
      "grad_norm": 0.3375238402367875,
      "learning_rate": 3.2322668143107604e-06,
      "loss": 0.468,
      "step": 3568
    },
    {
      "epoch": 0.6539025283986808,
      "grad_norm": 0.3787445578705219,
      "learning_rate": 3.229275829507743e-06,
      "loss": 0.4399,
      "step": 3569
    },
    {
      "epoch": 0.6540857456943936,
      "grad_norm": 0.39596344732551964,
      "learning_rate": 3.2262855690304855e-06,
      "loss": 0.4981,
      "step": 3570
    },
    {
      "epoch": 0.6542689629901063,
      "grad_norm": 0.3513250357882315,
      "learning_rate": 3.2232960341021703e-06,
      "loss": 0.4817,
      "step": 3571
    },
    {
      "epoch": 0.654452180285819,
      "grad_norm": 0.35567303592424276,
      "learning_rate": 3.220307225945688e-06,
      "loss": 0.4722,
      "step": 3572
    },
    {
      "epoch": 0.6546353975815317,
      "grad_norm": 0.3809360317701113,
      "learning_rate": 3.217319145783625e-06,
      "loss": 0.4885,
      "step": 3573
    },
    {
      "epoch": 0.6548186148772445,
      "grad_norm": 0.36407113344124864,
      "learning_rate": 3.214331794838277e-06,
      "loss": 0.4599,
      "step": 3574
    },
    {
      "epoch": 0.6550018321729572,
      "grad_norm": 0.3845152790203452,
      "learning_rate": 3.211345174331638e-06,
      "loss": 0.4819,
      "step": 3575
    },
    {
      "epoch": 0.6551850494686698,
      "grad_norm": 0.3768758953198083,
      "learning_rate": 3.208359285485405e-06,
      "loss": 0.468,
      "step": 3576
    },
    {
      "epoch": 0.6553682667643825,
      "grad_norm": 0.426156243855698,
      "learning_rate": 3.2053741295209705e-06,
      "loss": 0.4783,
      "step": 3577
    },
    {
      "epoch": 0.6555514840600952,
      "grad_norm": 0.37819437925881616,
      "learning_rate": 3.202389707659435e-06,
      "loss": 0.4613,
      "step": 3578
    },
    {
      "epoch": 0.655734701355808,
      "grad_norm": 0.36748352745726787,
      "learning_rate": 3.1994060211215936e-06,
      "loss": 0.514,
      "step": 3579
    },
    {
      "epoch": 0.6559179186515207,
      "grad_norm": 0.3376691005467414,
      "learning_rate": 3.196423071127943e-06,
      "loss": 0.4438,
      "step": 3580
    },
    {
      "epoch": 0.6561011359472334,
      "grad_norm": 0.34985685550276574,
      "learning_rate": 3.1934408588986753e-06,
      "loss": 0.4761,
      "step": 3581
    },
    {
      "epoch": 0.6562843532429461,
      "grad_norm": 0.37620198908100855,
      "learning_rate": 3.1904593856536826e-06,
      "loss": 0.5157,
      "step": 3582
    },
    {
      "epoch": 0.6564675705386589,
      "grad_norm": 0.3612050772053323,
      "learning_rate": 3.1874786526125577e-06,
      "loss": 0.443,
      "step": 3583
    },
    {
      "epoch": 0.6566507878343716,
      "grad_norm": 0.3536814264575201,
      "learning_rate": 3.184498660994588e-06,
      "loss": 0.474,
      "step": 3584
    },
    {
      "epoch": 0.6568340051300843,
      "grad_norm": 0.3534674258185699,
      "learning_rate": 3.1815194120187555e-06,
      "loss": 0.4692,
      "step": 3585
    },
    {
      "epoch": 0.657017222425797,
      "grad_norm": 0.3834255763758721,
      "learning_rate": 3.178540906903741e-06,
      "loss": 0.4943,
      "step": 3586
    },
    {
      "epoch": 0.6572004397215098,
      "grad_norm": 0.34331721059853854,
      "learning_rate": 3.1755631468679217e-06,
      "loss": 0.4762,
      "step": 3587
    },
    {
      "epoch": 0.6573836570172225,
      "grad_norm": 0.3450853014221691,
      "learning_rate": 3.1725861331293694e-06,
      "loss": 0.466,
      "step": 3588
    },
    {
      "epoch": 0.6575668743129351,
      "grad_norm": 0.3894544344884122,
      "learning_rate": 3.1696098669058485e-06,
      "loss": 0.464,
      "step": 3589
    },
    {
      "epoch": 0.6577500916086478,
      "grad_norm": 0.3259721919096669,
      "learning_rate": 3.1666343494148194e-06,
      "loss": 0.4508,
      "step": 3590
    },
    {
      "epoch": 0.6579333089043605,
      "grad_norm": 0.3847875875663655,
      "learning_rate": 3.1636595818734355e-06,
      "loss": 0.4736,
      "step": 3591
    },
    {
      "epoch": 0.6581165262000733,
      "grad_norm": 0.38253641283684975,
      "learning_rate": 3.1606855654985476e-06,
      "loss": 0.4685,
      "step": 3592
    },
    {
      "epoch": 0.658299743495786,
      "grad_norm": 0.3618932918467087,
      "learning_rate": 3.157712301506691e-06,
      "loss": 0.455,
      "step": 3593
    },
    {
      "epoch": 0.6584829607914987,
      "grad_norm": 0.5449064334380102,
      "learning_rate": 3.154739791114101e-06,
      "loss": 0.442,
      "step": 3594
    },
    {
      "epoch": 0.6586661780872114,
      "grad_norm": 0.4202501964497236,
      "learning_rate": 3.1517680355366985e-06,
      "loss": 0.4935,
      "step": 3595
    },
    {
      "epoch": 0.6588493953829242,
      "grad_norm": 0.40316494653137924,
      "learning_rate": 3.148797035990104e-06,
      "loss": 0.4941,
      "step": 3596
    },
    {
      "epoch": 0.6590326126786369,
      "grad_norm": 0.5119153385303149,
      "learning_rate": 3.145826793689618e-06,
      "loss": 0.4902,
      "step": 3597
    },
    {
      "epoch": 0.6592158299743496,
      "grad_norm": 0.3826750892441696,
      "learning_rate": 3.1428573098502377e-06,
      "loss": 0.4889,
      "step": 3598
    },
    {
      "epoch": 0.6593990472700623,
      "grad_norm": 0.3621392721647233,
      "learning_rate": 3.1398885856866513e-06,
      "loss": 0.4624,
      "step": 3599
    },
    {
      "epoch": 0.659582264565775,
      "grad_norm": 0.3584064568844213,
      "learning_rate": 3.136920622413233e-06,
      "loss": 0.4653,
      "step": 3600
    },
    {
      "epoch": 0.6597654818614878,
      "grad_norm": 0.34566302254778253,
      "learning_rate": 3.133953421244044e-06,
      "loss": 0.4615,
      "step": 3601
    },
    {
      "epoch": 0.6599486991572004,
      "grad_norm": 0.3874955808407621,
      "learning_rate": 3.1309869833928396e-06,
      "loss": 0.4437,
      "step": 3602
    },
    {
      "epoch": 0.6601319164529131,
      "grad_norm": 0.3285780187411082,
      "learning_rate": 3.1280213100730595e-06,
      "loss": 0.4648,
      "step": 3603
    },
    {
      "epoch": 0.6603151337486258,
      "grad_norm": 0.36359675720348555,
      "learning_rate": 3.1250564024978305e-06,
      "loss": 0.476,
      "step": 3604
    },
    {
      "epoch": 0.6604983510443386,
      "grad_norm": 0.3660376161139192,
      "learning_rate": 3.1220922618799642e-06,
      "loss": 0.4756,
      "step": 3605
    },
    {
      "epoch": 0.6606815683400513,
      "grad_norm": 0.3400712340983726,
      "learning_rate": 3.1191288894319627e-06,
      "loss": 0.4626,
      "step": 3606
    },
    {
      "epoch": 0.660864785635764,
      "grad_norm": 0.34660446398528555,
      "learning_rate": 3.1161662863660125e-06,
      "loss": 0.4726,
      "step": 3607
    },
    {
      "epoch": 0.6610480029314767,
      "grad_norm": 0.37898360099511585,
      "learning_rate": 3.1132044538939853e-06,
      "loss": 0.4672,
      "step": 3608
    },
    {
      "epoch": 0.6612312202271895,
      "grad_norm": 0.3646086298484684,
      "learning_rate": 3.110243393227435e-06,
      "loss": 0.4916,
      "step": 3609
    },
    {
      "epoch": 0.6614144375229022,
      "grad_norm": 0.3545221361886584,
      "learning_rate": 3.1072831055776023e-06,
      "loss": 0.4918,
      "step": 3610
    },
    {
      "epoch": 0.6615976548186149,
      "grad_norm": 0.36314042011581393,
      "learning_rate": 3.104323592155413e-06,
      "loss": 0.4873,
      "step": 3611
    },
    {
      "epoch": 0.6617808721143276,
      "grad_norm": 0.45630613531265113,
      "learning_rate": 3.101364854171474e-06,
      "loss": 0.4661,
      "step": 3612
    },
    {
      "epoch": 0.6619640894100403,
      "grad_norm": 0.4331128688633357,
      "learning_rate": 3.0984068928360743e-06,
      "loss": 0.503,
      "step": 3613
    },
    {
      "epoch": 0.6621473067057531,
      "grad_norm": 0.3680508671750564,
      "learning_rate": 3.0954497093591863e-06,
      "loss": 0.5063,
      "step": 3614
    },
    {
      "epoch": 0.6623305240014657,
      "grad_norm": 0.37461728331324273,
      "learning_rate": 3.092493304950467e-06,
      "loss": 0.4862,
      "step": 3615
    },
    {
      "epoch": 0.6625137412971784,
      "grad_norm": 0.34622368931668424,
      "learning_rate": 3.08953768081925e-06,
      "loss": 0.4514,
      "step": 3616
    },
    {
      "epoch": 0.6626969585928911,
      "grad_norm": 0.33003040953059065,
      "learning_rate": 3.0865828381745515e-06,
      "loss": 0.4526,
      "step": 3617
    },
    {
      "epoch": 0.6628801758886039,
      "grad_norm": 0.3571333496770718,
      "learning_rate": 3.0836287782250694e-06,
      "loss": 0.4724,
      "step": 3618
    },
    {
      "epoch": 0.6630633931843166,
      "grad_norm": 0.35595962314960083,
      "learning_rate": 3.08067550217918e-06,
      "loss": 0.4927,
      "step": 3619
    },
    {
      "epoch": 0.6632466104800293,
      "grad_norm": 0.8339189103706414,
      "learning_rate": 3.0777230112449386e-06,
      "loss": 0.46,
      "step": 3620
    },
    {
      "epoch": 0.663429827775742,
      "grad_norm": 0.3911907340807536,
      "learning_rate": 3.0747713066300787e-06,
      "loss": 0.5123,
      "step": 3621
    },
    {
      "epoch": 0.6636130450714548,
      "grad_norm": 0.363609262010565,
      "learning_rate": 3.0718203895420174e-06,
      "loss": 0.4621,
      "step": 3622
    },
    {
      "epoch": 0.6637962623671675,
      "grad_norm": 0.4074492458258354,
      "learning_rate": 3.0688702611878435e-06,
      "loss": 0.485,
      "step": 3623
    },
    {
      "epoch": 0.6639794796628802,
      "grad_norm": 0.3599190298437237,
      "learning_rate": 3.065920922774325e-06,
      "loss": 0.4848,
      "step": 3624
    },
    {
      "epoch": 0.6641626969585929,
      "grad_norm": 0.39162387951002525,
      "learning_rate": 3.0629723755079068e-06,
      "loss": 0.4716,
      "step": 3625
    },
    {
      "epoch": 0.6643459142543056,
      "grad_norm": 0.3656180402897322,
      "learning_rate": 3.0600246205947114e-06,
      "loss": 0.4713,
      "step": 3626
    },
    {
      "epoch": 0.6645291315500184,
      "grad_norm": 0.3532619420241813,
      "learning_rate": 3.057077659240538e-06,
      "loss": 0.4234,
      "step": 3627
    },
    {
      "epoch": 0.664712348845731,
      "grad_norm": 0.3875129074414418,
      "learning_rate": 3.054131492650857e-06,
      "loss": 0.4493,
      "step": 3628
    },
    {
      "epoch": 0.6648955661414437,
      "grad_norm": 0.3676652495284407,
      "learning_rate": 3.0511861220308154e-06,
      "loss": 0.4803,
      "step": 3629
    },
    {
      "epoch": 0.6650787834371564,
      "grad_norm": 0.3513796811625531,
      "learning_rate": 3.0482415485852378e-06,
      "loss": 0.4512,
      "step": 3630
    },
    {
      "epoch": 0.6652620007328692,
      "grad_norm": 0.3685400399517221,
      "learning_rate": 3.045297773518621e-06,
      "loss": 0.4687,
      "step": 3631
    },
    {
      "epoch": 0.6654452180285819,
      "grad_norm": 0.43403002079658626,
      "learning_rate": 3.042354798035132e-06,
      "loss": 0.5103,
      "step": 3632
    },
    {
      "epoch": 0.6656284353242946,
      "grad_norm": 0.5647428782333035,
      "learning_rate": 3.0394126233386144e-06,
      "loss": 0.4606,
      "step": 3633
    },
    {
      "epoch": 0.6658116526200073,
      "grad_norm": 0.40573467926341555,
      "learning_rate": 3.036471250632582e-06,
      "loss": 0.4462,
      "step": 3634
    },
    {
      "epoch": 0.66599486991572,
      "grad_norm": 0.3498915474683279,
      "learning_rate": 3.033530681120225e-06,
      "loss": 0.4577,
      "step": 3635
    },
    {
      "epoch": 0.6661780872114328,
      "grad_norm": 0.34578109111582106,
      "learning_rate": 3.0305909160043977e-06,
      "loss": 0.5043,
      "step": 3636
    },
    {
      "epoch": 0.6663613045071455,
      "grad_norm": 0.4737791807620961,
      "learning_rate": 3.0276519564876306e-06,
      "loss": 0.4952,
      "step": 3637
    },
    {
      "epoch": 0.6665445218028582,
      "grad_norm": 0.36977981521129966,
      "learning_rate": 3.0247138037721237e-06,
      "loss": 0.4898,
      "step": 3638
    },
    {
      "epoch": 0.6667277390985709,
      "grad_norm": 0.4075260326550853,
      "learning_rate": 3.02177645905975e-06,
      "loss": 0.4761,
      "step": 3639
    },
    {
      "epoch": 0.6669109563942837,
      "grad_norm": 0.37687815737249974,
      "learning_rate": 3.0188399235520417e-06,
      "loss": 0.4657,
      "step": 3640
    },
    {
      "epoch": 0.6670941736899964,
      "grad_norm": 0.3391944824739916,
      "learning_rate": 3.015904198450211e-06,
      "loss": 0.4485,
      "step": 3641
    },
    {
      "epoch": 0.667277390985709,
      "grad_norm": 0.4597155324203258,
      "learning_rate": 3.0129692849551357e-06,
      "loss": 0.4781,
      "step": 3642
    },
    {
      "epoch": 0.6674606082814217,
      "grad_norm": 0.3718169427643658,
      "learning_rate": 3.0100351842673593e-06,
      "loss": 0.4723,
      "step": 3643
    },
    {
      "epoch": 0.6676438255771345,
      "grad_norm": 0.3531768798909512,
      "learning_rate": 3.0071018975870912e-06,
      "loss": 0.4831,
      "step": 3644
    },
    {
      "epoch": 0.6678270428728472,
      "grad_norm": 0.32295965024049833,
      "learning_rate": 3.004169426114215e-06,
      "loss": 0.4594,
      "step": 3645
    },
    {
      "epoch": 0.6680102601685599,
      "grad_norm": 0.3654691371662637,
      "learning_rate": 3.001237771048274e-06,
      "loss": 0.4764,
      "step": 3646
    },
    {
      "epoch": 0.6681934774642726,
      "grad_norm": 0.33702086546319027,
      "learning_rate": 2.998306933588482e-06,
      "loss": 0.4785,
      "step": 3647
    },
    {
      "epoch": 0.6683766947599853,
      "grad_norm": 0.3736833496299851,
      "learning_rate": 2.9953769149337133e-06,
      "loss": 0.479,
      "step": 3648
    },
    {
      "epoch": 0.6685599120556981,
      "grad_norm": 0.3687097220827378,
      "learning_rate": 2.992447716282511e-06,
      "loss": 0.4644,
      "step": 3649
    },
    {
      "epoch": 0.6687431293514108,
      "grad_norm": 0.33093257795201414,
      "learning_rate": 2.9895193388330836e-06,
      "loss": 0.4468,
      "step": 3650
    },
    {
      "epoch": 0.6689263466471235,
      "grad_norm": 0.40345814477015735,
      "learning_rate": 2.9865917837833025e-06,
      "loss": 0.4575,
      "step": 3651
    },
    {
      "epoch": 0.6691095639428362,
      "grad_norm": 0.36138483287970047,
      "learning_rate": 2.983665052330701e-06,
      "loss": 0.4673,
      "step": 3652
    },
    {
      "epoch": 0.669292781238549,
      "grad_norm": 0.44660071361125864,
      "learning_rate": 2.980739145672475e-06,
      "loss": 0.4613,
      "step": 3653
    },
    {
      "epoch": 0.6694759985342617,
      "grad_norm": 0.339100916728272,
      "learning_rate": 2.9778140650054885e-06,
      "loss": 0.4939,
      "step": 3654
    },
    {
      "epoch": 0.6696592158299743,
      "grad_norm": 0.34620832486159653,
      "learning_rate": 2.974889811526263e-06,
      "loss": 0.4815,
      "step": 3655
    },
    {
      "epoch": 0.669842433125687,
      "grad_norm": 0.3515974116024798,
      "learning_rate": 2.9719663864309817e-06,
      "loss": 0.4378,
      "step": 3656
    },
    {
      "epoch": 0.6700256504213998,
      "grad_norm": 0.35908021152128194,
      "learning_rate": 2.9690437909154903e-06,
      "loss": 0.462,
      "step": 3657
    },
    {
      "epoch": 0.6702088677171125,
      "grad_norm": 0.3792522193832267,
      "learning_rate": 2.9661220261752925e-06,
      "loss": 0.4762,
      "step": 3658
    },
    {
      "epoch": 0.6703920850128252,
      "grad_norm": 0.3364184351070449,
      "learning_rate": 2.963201093405559e-06,
      "loss": 0.4518,
      "step": 3659
    },
    {
      "epoch": 0.6705753023085379,
      "grad_norm": 0.33853165503611987,
      "learning_rate": 2.960280993801112e-06,
      "loss": 0.4649,
      "step": 3660
    },
    {
      "epoch": 0.6707585196042506,
      "grad_norm": 0.371620313504904,
      "learning_rate": 2.9573617285564383e-06,
      "loss": 0.463,
      "step": 3661
    },
    {
      "epoch": 0.6709417368999634,
      "grad_norm": 0.4183671449577938,
      "learning_rate": 2.954443298865679e-06,
      "loss": 0.4994,
      "step": 3662
    },
    {
      "epoch": 0.6711249541956761,
      "grad_norm": 0.38398923054172057,
      "learning_rate": 2.951525705922641e-06,
      "loss": 0.4639,
      "step": 3663
    },
    {
      "epoch": 0.6713081714913888,
      "grad_norm": 0.39645566544686267,
      "learning_rate": 2.948608950920777e-06,
      "loss": 0.4586,
      "step": 3664
    },
    {
      "epoch": 0.6714913887871015,
      "grad_norm": 0.3525598524858501,
      "learning_rate": 2.9456930350532088e-06,
      "loss": 0.4712,
      "step": 3665
    },
    {
      "epoch": 0.6716746060828143,
      "grad_norm": 0.38408556771090857,
      "learning_rate": 2.942777959512707e-06,
      "loss": 0.4474,
      "step": 3666
    },
    {
      "epoch": 0.671857823378527,
      "grad_norm": 0.3644771139644592,
      "learning_rate": 2.939863725491706e-06,
      "loss": 0.4599,
      "step": 3667
    },
    {
      "epoch": 0.6720410406742396,
      "grad_norm": 0.3574783291828957,
      "learning_rate": 2.936950334182286e-06,
      "loss": 0.4299,
      "step": 3668
    },
    {
      "epoch": 0.6722242579699523,
      "grad_norm": 0.4124065852299994,
      "learning_rate": 2.9340377867761916e-06,
      "loss": 0.4988,
      "step": 3669
    },
    {
      "epoch": 0.6724074752656651,
      "grad_norm": 0.3450490351178046,
      "learning_rate": 2.931126084464816e-06,
      "loss": 0.4901,
      "step": 3670
    },
    {
      "epoch": 0.6725906925613778,
      "grad_norm": 0.389168918652041,
      "learning_rate": 2.928215228439212e-06,
      "loss": 0.4839,
      "step": 3671
    },
    {
      "epoch": 0.6727739098570905,
      "grad_norm": 0.34540055292142574,
      "learning_rate": 2.925305219890079e-06,
      "loss": 0.4911,
      "step": 3672
    },
    {
      "epoch": 0.6729571271528032,
      "grad_norm": 0.347865224841731,
      "learning_rate": 2.922396060007778e-06,
      "loss": 0.4912,
      "step": 3673
    },
    {
      "epoch": 0.6731403444485159,
      "grad_norm": 0.3529199593714104,
      "learning_rate": 2.919487749982318e-06,
      "loss": 0.4597,
      "step": 3674
    },
    {
      "epoch": 0.6733235617442287,
      "grad_norm": 0.3755895003197089,
      "learning_rate": 2.916580291003361e-06,
      "loss": 0.4754,
      "step": 3675
    },
    {
      "epoch": 0.6735067790399414,
      "grad_norm": 0.33162124683853705,
      "learning_rate": 2.913673684260222e-06,
      "loss": 0.4756,
      "step": 3676
    },
    {
      "epoch": 0.6736899963356541,
      "grad_norm": 0.3771007338972965,
      "learning_rate": 2.9107679309418647e-06,
      "loss": 0.5052,
      "step": 3677
    },
    {
      "epoch": 0.6738732136313668,
      "grad_norm": 0.40152873637637315,
      "learning_rate": 2.907863032236906e-06,
      "loss": 0.4571,
      "step": 3678
    },
    {
      "epoch": 0.6740564309270796,
      "grad_norm": 0.41354164522253456,
      "learning_rate": 2.9049589893336182e-06,
      "loss": 0.4691,
      "step": 3679
    },
    {
      "epoch": 0.6742396482227923,
      "grad_norm": 0.33833040573853235,
      "learning_rate": 2.90205580341991e-06,
      "loss": 0.4323,
      "step": 3680
    },
    {
      "epoch": 0.6744228655185049,
      "grad_norm": 0.39257173234965403,
      "learning_rate": 2.8991534756833506e-06,
      "loss": 0.4609,
      "step": 3681
    },
    {
      "epoch": 0.6746060828142176,
      "grad_norm": 0.3657002644165077,
      "learning_rate": 2.8962520073111578e-06,
      "loss": 0.4892,
      "step": 3682
    },
    {
      "epoch": 0.6747893001099303,
      "grad_norm": 0.3365704088860072,
      "learning_rate": 2.893351399490194e-06,
      "loss": 0.4731,
      "step": 3683
    },
    {
      "epoch": 0.6749725174056431,
      "grad_norm": 0.5207839612722297,
      "learning_rate": 2.8904516534069684e-06,
      "loss": 0.4979,
      "step": 3684
    },
    {
      "epoch": 0.6751557347013558,
      "grad_norm": 0.33086446522652063,
      "learning_rate": 2.887552770247642e-06,
      "loss": 0.4648,
      "step": 3685
    },
    {
      "epoch": 0.6753389519970685,
      "grad_norm": 0.407449131563358,
      "learning_rate": 2.884654751198023e-06,
      "loss": 0.457,
      "step": 3686
    },
    {
      "epoch": 0.6755221692927812,
      "grad_norm": 0.3582272557832074,
      "learning_rate": 2.881757597443563e-06,
      "loss": 0.4702,
      "step": 3687
    },
    {
      "epoch": 0.675705386588494,
      "grad_norm": 0.3395069200116549,
      "learning_rate": 2.8788613101693576e-06,
      "loss": 0.4667,
      "step": 3688
    },
    {
      "epoch": 0.6758886038842067,
      "grad_norm": 0.3947311899924817,
      "learning_rate": 2.875965890560154e-06,
      "loss": 0.4486,
      "step": 3689
    },
    {
      "epoch": 0.6760718211799194,
      "grad_norm": 0.3357945071534466,
      "learning_rate": 2.8730713398003436e-06,
      "loss": 0.4754,
      "step": 3690
    },
    {
      "epoch": 0.6762550384756321,
      "grad_norm": 0.3943563960508351,
      "learning_rate": 2.870177659073958e-06,
      "loss": 0.4562,
      "step": 3691
    },
    {
      "epoch": 0.6764382557713449,
      "grad_norm": 0.3381366644305319,
      "learning_rate": 2.8672848495646733e-06,
      "loss": 0.4694,
      "step": 3692
    },
    {
      "epoch": 0.6766214730670576,
      "grad_norm": 0.3769860154406749,
      "learning_rate": 2.8643929124558136e-06,
      "loss": 0.4874,
      "step": 3693
    },
    {
      "epoch": 0.6768046903627702,
      "grad_norm": 0.37938707892452844,
      "learning_rate": 2.861501848930346e-06,
      "loss": 0.4888,
      "step": 3694
    },
    {
      "epoch": 0.6769879076584829,
      "grad_norm": 0.34441409337604084,
      "learning_rate": 2.8586116601708753e-06,
      "loss": 0.4564,
      "step": 3695
    },
    {
      "epoch": 0.6771711249541956,
      "grad_norm": 0.40988765730588894,
      "learning_rate": 2.8557223473596497e-06,
      "loss": 0.4521,
      "step": 3696
    },
    {
      "epoch": 0.6773543422499084,
      "grad_norm": 0.38066253375011677,
      "learning_rate": 2.852833911678565e-06,
      "loss": 0.4517,
      "step": 3697
    },
    {
      "epoch": 0.6775375595456211,
      "grad_norm": 0.40114839316292034,
      "learning_rate": 2.8499463543091486e-06,
      "loss": 0.4581,
      "step": 3698
    },
    {
      "epoch": 0.6777207768413338,
      "grad_norm": 0.38710086636626223,
      "learning_rate": 2.84705967643258e-06,
      "loss": 0.4542,
      "step": 3699
    },
    {
      "epoch": 0.6779039941370465,
      "grad_norm": 0.3908802584749809,
      "learning_rate": 2.8441738792296662e-06,
      "loss": 0.4883,
      "step": 3700
    },
    {
      "epoch": 0.6780872114327593,
      "grad_norm": 0.40525376258769763,
      "learning_rate": 2.841288963880866e-06,
      "loss": 0.4786,
      "step": 3701
    },
    {
      "epoch": 0.678270428728472,
      "grad_norm": 0.3457724875646536,
      "learning_rate": 2.8384049315662686e-06,
      "loss": 0.4356,
      "step": 3702
    },
    {
      "epoch": 0.6784536460241847,
      "grad_norm": 0.39545041641540507,
      "learning_rate": 2.835521783465608e-06,
      "loss": 0.4523,
      "step": 3703
    },
    {
      "epoch": 0.6786368633198974,
      "grad_norm": 0.3612810290783695,
      "learning_rate": 2.8326395207582503e-06,
      "loss": 0.4796,
      "step": 3704
    },
    {
      "epoch": 0.6788200806156102,
      "grad_norm": 0.3627612940464092,
      "learning_rate": 2.829758144623207e-06,
      "loss": 0.4951,
      "step": 3705
    },
    {
      "epoch": 0.6790032979113229,
      "grad_norm": 0.3582928178771917,
      "learning_rate": 2.8268776562391198e-06,
      "loss": 0.4595,
      "step": 3706
    },
    {
      "epoch": 0.6791865152070355,
      "grad_norm": 0.36759753727104305,
      "learning_rate": 2.8239980567842734e-06,
      "loss": 0.4818,
      "step": 3707
    },
    {
      "epoch": 0.6793697325027482,
      "grad_norm": 0.33183408875574777,
      "learning_rate": 2.8211193474365823e-06,
      "loss": 0.445,
      "step": 3708
    },
    {
      "epoch": 0.6795529497984609,
      "grad_norm": 0.4106995263611198,
      "learning_rate": 2.8182415293736044e-06,
      "loss": 0.4981,
      "step": 3709
    },
    {
      "epoch": 0.6797361670941737,
      "grad_norm": 0.3588796895617637,
      "learning_rate": 2.815364603772525e-06,
      "loss": 0.4693,
      "step": 3710
    },
    {
      "epoch": 0.6799193843898864,
      "grad_norm": 0.41041493230920484,
      "learning_rate": 2.8124885718101734e-06,
      "loss": 0.4419,
      "step": 3711
    },
    {
      "epoch": 0.6801026016855991,
      "grad_norm": 0.4129861730231944,
      "learning_rate": 2.809613434663003e-06,
      "loss": 0.4933,
      "step": 3712
    },
    {
      "epoch": 0.6802858189813118,
      "grad_norm": 0.38588408487572534,
      "learning_rate": 2.8067391935071114e-06,
      "loss": 0.4365,
      "step": 3713
    },
    {
      "epoch": 0.6804690362770246,
      "grad_norm": 0.3245481196880622,
      "learning_rate": 2.8038658495182207e-06,
      "loss": 0.4395,
      "step": 3714
    },
    {
      "epoch": 0.6806522535727373,
      "grad_norm": 0.48103086858705363,
      "learning_rate": 2.800993403871694e-06,
      "loss": 0.4991,
      "step": 3715
    },
    {
      "epoch": 0.68083547086845,
      "grad_norm": 0.3509720891321349,
      "learning_rate": 2.7981218577425217e-06,
      "loss": 0.4581,
      "step": 3716
    },
    {
      "epoch": 0.6810186881641627,
      "grad_norm": 0.3824163074894137,
      "learning_rate": 2.7952512123053242e-06,
      "loss": 0.4539,
      "step": 3717
    },
    {
      "epoch": 0.6812019054598755,
      "grad_norm": 0.386373829468268,
      "learning_rate": 2.792381468734361e-06,
      "loss": 0.4916,
      "step": 3718
    },
    {
      "epoch": 0.6813851227555882,
      "grad_norm": 0.3768184046543257,
      "learning_rate": 2.789512628203519e-06,
      "loss": 0.4613,
      "step": 3719
    },
    {
      "epoch": 0.6815683400513008,
      "grad_norm": 0.3513501402047029,
      "learning_rate": 2.786644691886314e-06,
      "loss": 0.4742,
      "step": 3720
    },
    {
      "epoch": 0.6817515573470135,
      "grad_norm": 0.3930467936870125,
      "learning_rate": 2.783777660955891e-06,
      "loss": 0.4657,
      "step": 3721
    },
    {
      "epoch": 0.6819347746427262,
      "grad_norm": 0.3687945503617596,
      "learning_rate": 2.780911536585028e-06,
      "loss": 0.4815,
      "step": 3722
    },
    {
      "epoch": 0.682117991938439,
      "grad_norm": 0.3511399629548886,
      "learning_rate": 2.778046319946135e-06,
      "loss": 0.48,
      "step": 3723
    },
    {
      "epoch": 0.6823012092341517,
      "grad_norm": 0.3439979153751878,
      "learning_rate": 2.775182012211243e-06,
      "loss": 0.4782,
      "step": 3724
    },
    {
      "epoch": 0.6824844265298644,
      "grad_norm": 0.3918711967380485,
      "learning_rate": 2.7723186145520136e-06,
      "loss": 0.4706,
      "step": 3725
    },
    {
      "epoch": 0.6826676438255771,
      "grad_norm": 0.36481251620257066,
      "learning_rate": 2.7694561281397397e-06,
      "loss": 0.4701,
      "step": 3726
    },
    {
      "epoch": 0.6828508611212899,
      "grad_norm": 0.38947454107410345,
      "learning_rate": 2.766594554145341e-06,
      "loss": 0.4718,
      "step": 3727
    },
    {
      "epoch": 0.6830340784170026,
      "grad_norm": 0.38005459572371675,
      "learning_rate": 2.7637338937393597e-06,
      "loss": 0.4998,
      "step": 3728
    },
    {
      "epoch": 0.6832172957127153,
      "grad_norm": 0.3621566179234073,
      "learning_rate": 2.7608741480919653e-06,
      "loss": 0.4797,
      "step": 3729
    },
    {
      "epoch": 0.683400513008428,
      "grad_norm": 0.3852371442483278,
      "learning_rate": 2.758015318372957e-06,
      "loss": 0.486,
      "step": 3730
    },
    {
      "epoch": 0.6835837303041407,
      "grad_norm": 0.3684511691733946,
      "learning_rate": 2.75515740575176e-06,
      "loss": 0.4433,
      "step": 3731
    },
    {
      "epoch": 0.6837669475998535,
      "grad_norm": 0.3738788714019796,
      "learning_rate": 2.7523004113974137e-06,
      "loss": 0.4782,
      "step": 3732
    },
    {
      "epoch": 0.6839501648955661,
      "grad_norm": 0.42108472604876307,
      "learning_rate": 2.7494443364785933e-06,
      "loss": 0.4445,
      "step": 3733
    },
    {
      "epoch": 0.6841333821912788,
      "grad_norm": 0.36823381624177864,
      "learning_rate": 2.746589182163596e-06,
      "loss": 0.4633,
      "step": 3734
    },
    {
      "epoch": 0.6843165994869915,
      "grad_norm": 0.38881244485791505,
      "learning_rate": 2.743734949620339e-06,
      "loss": 0.4717,
      "step": 3735
    },
    {
      "epoch": 0.6844998167827043,
      "grad_norm": 0.34549070190842535,
      "learning_rate": 2.740881640016361e-06,
      "loss": 0.47,
      "step": 3736
    },
    {
      "epoch": 0.684683034078417,
      "grad_norm": 0.37799017457465145,
      "learning_rate": 2.738029254518829e-06,
      "loss": 0.4643,
      "step": 3737
    },
    {
      "epoch": 0.6848662513741297,
      "grad_norm": 0.3235008582173912,
      "learning_rate": 2.7351777942945314e-06,
      "loss": 0.4551,
      "step": 3738
    },
    {
      "epoch": 0.6850494686698424,
      "grad_norm": 0.3691861359328076,
      "learning_rate": 2.7323272605098718e-06,
      "loss": 0.4611,
      "step": 3739
    },
    {
      "epoch": 0.6852326859655552,
      "grad_norm": 0.43348896919126706,
      "learning_rate": 2.729477654330879e-06,
      "loss": 0.4797,
      "step": 3740
    },
    {
      "epoch": 0.6854159032612679,
      "grad_norm": 0.3751836062806745,
      "learning_rate": 2.7266289769232023e-06,
      "loss": 0.4739,
      "step": 3741
    },
    {
      "epoch": 0.6855991205569806,
      "grad_norm": 0.41362711288421566,
      "learning_rate": 2.7237812294521136e-06,
      "loss": 0.4953,
      "step": 3742
    },
    {
      "epoch": 0.6857823378526933,
      "grad_norm": 0.35358888372179276,
      "learning_rate": 2.720934413082501e-06,
      "loss": 0.4697,
      "step": 3743
    },
    {
      "epoch": 0.685965555148406,
      "grad_norm": 0.3855820303997612,
      "learning_rate": 2.7180885289788696e-06,
      "loss": 0.4702,
      "step": 3744
    },
    {
      "epoch": 0.6861487724441188,
      "grad_norm": 0.41264098981364733,
      "learning_rate": 2.7152435783053475e-06,
      "loss": 0.4986,
      "step": 3745
    },
    {
      "epoch": 0.6863319897398314,
      "grad_norm": 0.36966626544271464,
      "learning_rate": 2.7123995622256817e-06,
      "loss": 0.4846,
      "step": 3746
    },
    {
      "epoch": 0.6865152070355441,
      "grad_norm": 0.3626496310332301,
      "learning_rate": 2.709556481903234e-06,
      "loss": 0.4632,
      "step": 3747
    },
    {
      "epoch": 0.6866984243312568,
      "grad_norm": 0.5099125627909202,
      "learning_rate": 2.7067143385009797e-06,
      "loss": 0.4309,
      "step": 3748
    },
    {
      "epoch": 0.6868816416269696,
      "grad_norm": 0.3604408210608384,
      "learning_rate": 2.7038731331815195e-06,
      "loss": 0.4366,
      "step": 3749
    },
    {
      "epoch": 0.6870648589226823,
      "grad_norm": 0.3383589578234134,
      "learning_rate": 2.7010328671070675e-06,
      "loss": 0.4685,
      "step": 3750
    },
    {
      "epoch": 0.687248076218395,
      "grad_norm": 0.45657444748105225,
      "learning_rate": 2.6981935414394488e-06,
      "loss": 0.4782,
      "step": 3751
    },
    {
      "epoch": 0.6874312935141077,
      "grad_norm": 0.4231260291934653,
      "learning_rate": 2.695355157340107e-06,
      "loss": 0.4836,
      "step": 3752
    },
    {
      "epoch": 0.6876145108098205,
      "grad_norm": 0.3805981738702678,
      "learning_rate": 2.6925177159701048e-06,
      "loss": 0.5006,
      "step": 3753
    },
    {
      "epoch": 0.6877977281055332,
      "grad_norm": 0.3425881387463667,
      "learning_rate": 2.689681218490111e-06,
      "loss": 0.464,
      "step": 3754
    },
    {
      "epoch": 0.6879809454012459,
      "grad_norm": 0.36228947299472514,
      "learning_rate": 2.686845666060416e-06,
      "loss": 0.468,
      "step": 3755
    },
    {
      "epoch": 0.6881641626969586,
      "grad_norm": 0.36398270949547584,
      "learning_rate": 2.6840110598409166e-06,
      "loss": 0.4876,
      "step": 3756
    },
    {
      "epoch": 0.6883473799926713,
      "grad_norm": 0.33359919715688446,
      "learning_rate": 2.6811774009911294e-06,
      "loss": 0.464,
      "step": 3757
    },
    {
      "epoch": 0.6885305972883841,
      "grad_norm": 0.341221437474584,
      "learning_rate": 2.678344690670177e-06,
      "loss": 0.4572,
      "step": 3758
    },
    {
      "epoch": 0.6887138145840968,
      "grad_norm": 0.358835455718573,
      "learning_rate": 2.675512930036802e-06,
      "loss": 0.4506,
      "step": 3759
    },
    {
      "epoch": 0.6888970318798094,
      "grad_norm": 0.3887364444258361,
      "learning_rate": 2.672682120249348e-06,
      "loss": 0.488,
      "step": 3760
    },
    {
      "epoch": 0.6890802491755221,
      "grad_norm": 0.3845058420994467,
      "learning_rate": 2.6698522624657808e-06,
      "loss": 0.4554,
      "step": 3761
    },
    {
      "epoch": 0.6892634664712349,
      "grad_norm": 0.3642399414292326,
      "learning_rate": 2.667023357843667e-06,
      "loss": 0.5043,
      "step": 3762
    },
    {
      "epoch": 0.6894466837669476,
      "grad_norm": 0.3442406303936571,
      "learning_rate": 2.6641954075401904e-06,
      "loss": 0.4561,
      "step": 3763
    },
    {
      "epoch": 0.6896299010626603,
      "grad_norm": 0.35755575299036146,
      "learning_rate": 2.66136841271214e-06,
      "loss": 0.4505,
      "step": 3764
    },
    {
      "epoch": 0.689813118358373,
      "grad_norm": 0.38052624726055784,
      "learning_rate": 2.6585423745159174e-06,
      "loss": 0.4853,
      "step": 3765
    },
    {
      "epoch": 0.6899963356540857,
      "grad_norm": 0.3363549507928974,
      "learning_rate": 2.6557172941075284e-06,
      "loss": 0.4729,
      "step": 3766
    },
    {
      "epoch": 0.6901795529497985,
      "grad_norm": 0.3635065429068533,
      "learning_rate": 2.6528931726425938e-06,
      "loss": 0.4558,
      "step": 3767
    },
    {
      "epoch": 0.6903627702455112,
      "grad_norm": 0.38251880298721247,
      "learning_rate": 2.6500700112763356e-06,
      "loss": 0.4843,
      "step": 3768
    },
    {
      "epoch": 0.6905459875412239,
      "grad_norm": 0.3699868166960581,
      "learning_rate": 2.6472478111635834e-06,
      "loss": 0.4911,
      "step": 3769
    },
    {
      "epoch": 0.6907292048369366,
      "grad_norm": 0.40083726336614606,
      "learning_rate": 2.6444265734587786e-06,
      "loss": 0.4778,
      "step": 3770
    },
    {
      "epoch": 0.6909124221326494,
      "grad_norm": 0.38075230204167265,
      "learning_rate": 2.6416062993159673e-06,
      "loss": 0.498,
      "step": 3771
    },
    {
      "epoch": 0.691095639428362,
      "grad_norm": 0.4906523195937728,
      "learning_rate": 2.6387869898887986e-06,
      "loss": 0.4889,
      "step": 3772
    },
    {
      "epoch": 0.6912788567240747,
      "grad_norm": 0.3831131731787244,
      "learning_rate": 2.635968646330527e-06,
      "loss": 0.4708,
      "step": 3773
    },
    {
      "epoch": 0.6914620740197874,
      "grad_norm": 0.3515802384587336,
      "learning_rate": 2.6331512697940144e-06,
      "loss": 0.4758,
      "step": 3774
    },
    {
      "epoch": 0.6916452913155002,
      "grad_norm": 0.37697764812496154,
      "learning_rate": 2.6303348614317286e-06,
      "loss": 0.4801,
      "step": 3775
    },
    {
      "epoch": 0.6918285086112129,
      "grad_norm": 0.3209903659735475,
      "learning_rate": 2.6275194223957374e-06,
      "loss": 0.4479,
      "step": 3776
    },
    {
      "epoch": 0.6920117259069256,
      "grad_norm": 0.34859891071978905,
      "learning_rate": 2.624704953837711e-06,
      "loss": 0.4883,
      "step": 3777
    },
    {
      "epoch": 0.6921949432026383,
      "grad_norm": 0.3597534669019847,
      "learning_rate": 2.621891456908929e-06,
      "loss": 0.4772,
      "step": 3778
    },
    {
      "epoch": 0.692378160498351,
      "grad_norm": 0.34414379091468106,
      "learning_rate": 2.6190789327602695e-06,
      "loss": 0.459,
      "step": 3779
    },
    {
      "epoch": 0.6925613777940638,
      "grad_norm": 0.358605655316751,
      "learning_rate": 2.6162673825422124e-06,
      "loss": 0.4358,
      "step": 3780
    },
    {
      "epoch": 0.6927445950897765,
      "grad_norm": 0.3564847100502352,
      "learning_rate": 2.6134568074048383e-06,
      "loss": 0.501,
      "step": 3781
    },
    {
      "epoch": 0.6929278123854892,
      "grad_norm": 0.4221096845433095,
      "learning_rate": 2.6106472084978307e-06,
      "loss": 0.4552,
      "step": 3782
    },
    {
      "epoch": 0.6931110296812019,
      "grad_norm": 0.3834129742156116,
      "learning_rate": 2.6078385869704794e-06,
      "loss": 0.4841,
      "step": 3783
    },
    {
      "epoch": 0.6932942469769147,
      "grad_norm": 0.37876116224077055,
      "learning_rate": 2.605030943971659e-06,
      "loss": 0.4225,
      "step": 3784
    },
    {
      "epoch": 0.6934774642726274,
      "grad_norm": 0.33034529194712653,
      "learning_rate": 2.602224280649859e-06,
      "loss": 0.4916,
      "step": 3785
    },
    {
      "epoch": 0.69366068156834,
      "grad_norm": 0.3356487090419772,
      "learning_rate": 2.5994185981531617e-06,
      "loss": 0.4113,
      "step": 3786
    },
    {
      "epoch": 0.6938438988640527,
      "grad_norm": 0.37330363401017225,
      "learning_rate": 2.5966138976292525e-06,
      "loss": 0.4901,
      "step": 3787
    },
    {
      "epoch": 0.6940271161597655,
      "grad_norm": 0.3688010851609858,
      "learning_rate": 2.5938101802254045e-06,
      "loss": 0.482,
      "step": 3788
    },
    {
      "epoch": 0.6942103334554782,
      "grad_norm": 0.44309397358359714,
      "learning_rate": 2.5910074470884996e-06,
      "loss": 0.4799,
      "step": 3789
    },
    {
      "epoch": 0.6943935507511909,
      "grad_norm": 0.3807439690701102,
      "learning_rate": 2.588205699365014e-06,
      "loss": 0.4579,
      "step": 3790
    },
    {
      "epoch": 0.6945767680469036,
      "grad_norm": 0.3394042004438676,
      "learning_rate": 2.5854049382010193e-06,
      "loss": 0.4626,
      "step": 3791
    },
    {
      "epoch": 0.6947599853426163,
      "grad_norm": 0.3866460838493798,
      "learning_rate": 2.582605164742183e-06,
      "loss": 0.5061,
      "step": 3792
    },
    {
      "epoch": 0.6949432026383291,
      "grad_norm": 0.6739869457451736,
      "learning_rate": 2.5798063801337703e-06,
      "loss": 0.4739,
      "step": 3793
    },
    {
      "epoch": 0.6951264199340418,
      "grad_norm": 0.3374424755782798,
      "learning_rate": 2.5770085855206447e-06,
      "loss": 0.4435,
      "step": 3794
    },
    {
      "epoch": 0.6953096372297545,
      "grad_norm": 0.35344268960593894,
      "learning_rate": 2.5742117820472585e-06,
      "loss": 0.4457,
      "step": 3795
    },
    {
      "epoch": 0.6954928545254672,
      "grad_norm": 0.3539278780158419,
      "learning_rate": 2.5714159708576604e-06,
      "loss": 0.4662,
      "step": 3796
    },
    {
      "epoch": 0.69567607182118,
      "grad_norm": 0.4654889373205005,
      "learning_rate": 2.5686211530954956e-06,
      "loss": 0.4475,
      "step": 3797
    },
    {
      "epoch": 0.6958592891168927,
      "grad_norm": 0.3483866384191484,
      "learning_rate": 2.565827329904005e-06,
      "loss": 0.4583,
      "step": 3798
    },
    {
      "epoch": 0.6960425064126053,
      "grad_norm": 0.35564238697040806,
      "learning_rate": 2.5630345024260164e-06,
      "loss": 0.4744,
      "step": 3799
    },
    {
      "epoch": 0.696225723708318,
      "grad_norm": 0.33379335510919744,
      "learning_rate": 2.5602426718039507e-06,
      "loss": 0.4663,
      "step": 3800
    },
    {
      "epoch": 0.6964089410040308,
      "grad_norm": 0.3879006848124751,
      "learning_rate": 2.5574518391798276e-06,
      "loss": 0.4432,
      "step": 3801
    },
    {
      "epoch": 0.6965921582997435,
      "grad_norm": 0.3745353259464326,
      "learning_rate": 2.554662005695255e-06,
      "loss": 0.482,
      "step": 3802
    },
    {
      "epoch": 0.6967753755954562,
      "grad_norm": 0.4214484952398853,
      "learning_rate": 2.5518731724914296e-06,
      "loss": 0.4729,
      "step": 3803
    },
    {
      "epoch": 0.6969585928911689,
      "grad_norm": 0.3504880714869815,
      "learning_rate": 2.54908534070914e-06,
      "loss": 0.4443,
      "step": 3804
    },
    {
      "epoch": 0.6971418101868816,
      "grad_norm": 0.38355719727950427,
      "learning_rate": 2.5462985114887696e-06,
      "loss": 0.4446,
      "step": 3805
    },
    {
      "epoch": 0.6973250274825944,
      "grad_norm": 0.36437676145395215,
      "learning_rate": 2.543512685970284e-06,
      "loss": 0.4833,
      "step": 3806
    },
    {
      "epoch": 0.6975082447783071,
      "grad_norm": 0.3447362656869495,
      "learning_rate": 2.5407278652932473e-06,
      "loss": 0.4767,
      "step": 3807
    },
    {
      "epoch": 0.6976914620740198,
      "grad_norm": 0.37408240841902085,
      "learning_rate": 2.5379440505968027e-06,
      "loss": 0.4451,
      "step": 3808
    },
    {
      "epoch": 0.6978746793697325,
      "grad_norm": 0.35645270482914476,
      "learning_rate": 2.5351612430196914e-06,
      "loss": 0.4529,
      "step": 3809
    },
    {
      "epoch": 0.6980578966654453,
      "grad_norm": 0.3853121816910978,
      "learning_rate": 2.532379443700235e-06,
      "loss": 0.4579,
      "step": 3810
    },
    {
      "epoch": 0.698241113961158,
      "grad_norm": 0.3649173678181005,
      "learning_rate": 2.529598653776349e-06,
      "loss": 0.4744,
      "step": 3811
    },
    {
      "epoch": 0.6984243312568706,
      "grad_norm": 0.32668542453414895,
      "learning_rate": 2.526818874385529e-06,
      "loss": 0.4328,
      "step": 3812
    },
    {
      "epoch": 0.6986075485525833,
      "grad_norm": 0.4036555858766503,
      "learning_rate": 2.5240401066648644e-06,
      "loss": 0.4854,
      "step": 3813
    },
    {
      "epoch": 0.698790765848296,
      "grad_norm": 0.4019267619776793,
      "learning_rate": 2.521262351751025e-06,
      "loss": 0.507,
      "step": 3814
    },
    {
      "epoch": 0.6989739831440088,
      "grad_norm": 0.4947615656802971,
      "learning_rate": 2.5184856107802713e-06,
      "loss": 0.4668,
      "step": 3815
    },
    {
      "epoch": 0.6991572004397215,
      "grad_norm": 0.34782180039973204,
      "learning_rate": 2.5157098848884433e-06,
      "loss": 0.4816,
      "step": 3816
    },
    {
      "epoch": 0.6993404177354342,
      "grad_norm": 0.3682041973133259,
      "learning_rate": 2.5129351752109725e-06,
      "loss": 0.465,
      "step": 3817
    },
    {
      "epoch": 0.6995236350311469,
      "grad_norm": 0.37345579131040246,
      "learning_rate": 2.510161482882868e-06,
      "loss": 0.4619,
      "step": 3818
    },
    {
      "epoch": 0.6997068523268597,
      "grad_norm": 0.3981491412912823,
      "learning_rate": 2.5073888090387288e-06,
      "loss": 0.4577,
      "step": 3819
    },
    {
      "epoch": 0.6998900696225724,
      "grad_norm": 0.3557242369312865,
      "learning_rate": 2.5046171548127335e-06,
      "loss": 0.4378,
      "step": 3820
    },
    {
      "epoch": 0.7000732869182851,
      "grad_norm": 0.3475467955199327,
      "learning_rate": 2.5018465213386417e-06,
      "loss": 0.4575,
      "step": 3821
    },
    {
      "epoch": 0.7002565042139978,
      "grad_norm": 0.3799250774146336,
      "learning_rate": 2.4990769097498007e-06,
      "loss": 0.4332,
      "step": 3822
    },
    {
      "epoch": 0.7004397215097106,
      "grad_norm": 0.40500568866145925,
      "learning_rate": 2.4963083211791396e-06,
      "loss": 0.4982,
      "step": 3823
    },
    {
      "epoch": 0.7006229388054233,
      "grad_norm": 0.3269978508130673,
      "learning_rate": 2.4935407567591643e-06,
      "loss": 0.472,
      "step": 3824
    },
    {
      "epoch": 0.700806156101136,
      "grad_norm": 0.3433257970162682,
      "learning_rate": 2.4907742176219622e-06,
      "loss": 0.488,
      "step": 3825
    },
    {
      "epoch": 0.7009893733968486,
      "grad_norm": 0.35699368870853326,
      "learning_rate": 2.4880087048992063e-06,
      "loss": 0.4821,
      "step": 3826
    },
    {
      "epoch": 0.7011725906925613,
      "grad_norm": 0.37284267851339215,
      "learning_rate": 2.485244219722148e-06,
      "loss": 0.4866,
      "step": 3827
    },
    {
      "epoch": 0.7013558079882741,
      "grad_norm": 0.4047583327732591,
      "learning_rate": 2.4824807632216153e-06,
      "loss": 0.4638,
      "step": 3828
    },
    {
      "epoch": 0.7015390252839868,
      "grad_norm": 0.35020387747221843,
      "learning_rate": 2.479718336528015e-06,
      "loss": 0.4749,
      "step": 3829
    },
    {
      "epoch": 0.7017222425796995,
      "grad_norm": 0.3834433962201249,
      "learning_rate": 2.4769569407713385e-06,
      "loss": 0.4548,
      "step": 3830
    },
    {
      "epoch": 0.7019054598754122,
      "grad_norm": 0.37922987865888286,
      "learning_rate": 2.4741965770811514e-06,
      "loss": 0.4706,
      "step": 3831
    },
    {
      "epoch": 0.702088677171125,
      "grad_norm": 0.4097363306160758,
      "learning_rate": 2.4714372465865982e-06,
      "loss": 0.4939,
      "step": 3832
    },
    {
      "epoch": 0.7022718944668377,
      "grad_norm": 0.38096405632188923,
      "learning_rate": 2.4686789504163966e-06,
      "loss": 0.4794,
      "step": 3833
    },
    {
      "epoch": 0.7024551117625504,
      "grad_norm": 0.37478178387756106,
      "learning_rate": 2.4659216896988477e-06,
      "loss": 0.4999,
      "step": 3834
    },
    {
      "epoch": 0.7026383290582631,
      "grad_norm": 0.45520764703702454,
      "learning_rate": 2.4631654655618293e-06,
      "loss": 0.461,
      "step": 3835
    },
    {
      "epoch": 0.7028215463539759,
      "grad_norm": 0.3558083039435706,
      "learning_rate": 2.4604102791327846e-06,
      "loss": 0.4619,
      "step": 3836
    },
    {
      "epoch": 0.7030047636496886,
      "grad_norm": 0.38001496752817143,
      "learning_rate": 2.457656131538744e-06,
      "loss": 0.4674,
      "step": 3837
    },
    {
      "epoch": 0.7031879809454012,
      "grad_norm": 0.3188394848956792,
      "learning_rate": 2.4549030239063084e-06,
      "loss": 0.43,
      "step": 3838
    },
    {
      "epoch": 0.7033711982411139,
      "grad_norm": 0.3351553365562699,
      "learning_rate": 2.4521509573616575e-06,
      "loss": 0.4696,
      "step": 3839
    },
    {
      "epoch": 0.7035544155368266,
      "grad_norm": 0.4095489677061301,
      "learning_rate": 2.449399933030534e-06,
      "loss": 0.5064,
      "step": 3840
    },
    {
      "epoch": 0.7037376328325394,
      "grad_norm": 0.3989519333618829,
      "learning_rate": 2.446649952038265e-06,
      "loss": 0.4568,
      "step": 3841
    },
    {
      "epoch": 0.7039208501282521,
      "grad_norm": 0.42013601901862657,
      "learning_rate": 2.443901015509749e-06,
      "loss": 0.4832,
      "step": 3842
    },
    {
      "epoch": 0.7041040674239648,
      "grad_norm": 0.33201803636696386,
      "learning_rate": 2.4411531245694546e-06,
      "loss": 0.4842,
      "step": 3843
    },
    {
      "epoch": 0.7042872847196775,
      "grad_norm": 0.46701253249732194,
      "learning_rate": 2.438406280341421e-06,
      "loss": 0.4547,
      "step": 3844
    },
    {
      "epoch": 0.7044705020153903,
      "grad_norm": 0.37847070682160494,
      "learning_rate": 2.435660483949264e-06,
      "loss": 0.4373,
      "step": 3845
    },
    {
      "epoch": 0.704653719311103,
      "grad_norm": 0.41504348463682667,
      "learning_rate": 2.432915736516171e-06,
      "loss": 0.5079,
      "step": 3846
    },
    {
      "epoch": 0.7048369366068157,
      "grad_norm": 0.37695025503483887,
      "learning_rate": 2.4301720391648957e-06,
      "loss": 0.4595,
      "step": 3847
    },
    {
      "epoch": 0.7050201539025284,
      "grad_norm": 0.35055356188077097,
      "learning_rate": 2.4274293930177628e-06,
      "loss": 0.4764,
      "step": 3848
    },
    {
      "epoch": 0.7052033711982412,
      "grad_norm": 0.39196353523551825,
      "learning_rate": 2.424687799196671e-06,
      "loss": 0.4873,
      "step": 3849
    },
    {
      "epoch": 0.7053865884939539,
      "grad_norm": 0.41730549722802246,
      "learning_rate": 2.421947258823088e-06,
      "loss": 0.5018,
      "step": 3850
    },
    {
      "epoch": 0.7055698057896665,
      "grad_norm": 0.3641735944661569,
      "learning_rate": 2.4192077730180475e-06,
      "loss": 0.4793,
      "step": 3851
    },
    {
      "epoch": 0.7057530230853792,
      "grad_norm": 0.4115128953736341,
      "learning_rate": 2.4164693429021503e-06,
      "loss": 0.4487,
      "step": 3852
    },
    {
      "epoch": 0.7059362403810919,
      "grad_norm": 0.38180106974255745,
      "learning_rate": 2.4137319695955706e-06,
      "loss": 0.4819,
      "step": 3853
    },
    {
      "epoch": 0.7061194576768047,
      "grad_norm": 0.3762680149784185,
      "learning_rate": 2.410995654218051e-06,
      "loss": 0.4769,
      "step": 3854
    },
    {
      "epoch": 0.7063026749725174,
      "grad_norm": 0.39658884341466655,
      "learning_rate": 2.4082603978888947e-06,
      "loss": 0.4741,
      "step": 3855
    },
    {
      "epoch": 0.7064858922682301,
      "grad_norm": 0.35179562448237883,
      "learning_rate": 2.4055262017269747e-06,
      "loss": 0.4545,
      "step": 3856
    },
    {
      "epoch": 0.7066691095639428,
      "grad_norm": 0.3695261181306668,
      "learning_rate": 2.402793066850734e-06,
      "loss": 0.4898,
      "step": 3857
    },
    {
      "epoch": 0.7068523268596556,
      "grad_norm": 0.39564675640388264,
      "learning_rate": 2.400060994378176e-06,
      "loss": 0.4805,
      "step": 3858
    },
    {
      "epoch": 0.7070355441553683,
      "grad_norm": 0.38729094782316986,
      "learning_rate": 2.3973299854268743e-06,
      "loss": 0.4858,
      "step": 3859
    },
    {
      "epoch": 0.707218761451081,
      "grad_norm": 0.37195210119847283,
      "learning_rate": 2.394600041113962e-06,
      "loss": 0.457,
      "step": 3860
    },
    {
      "epoch": 0.7074019787467937,
      "grad_norm": 0.42760347455983244,
      "learning_rate": 2.391871162556143e-06,
      "loss": 0.4667,
      "step": 3861
    },
    {
      "epoch": 0.7075851960425064,
      "grad_norm": 0.36001218627908826,
      "learning_rate": 2.3891433508696793e-06,
      "loss": 0.4844,
      "step": 3862
    },
    {
      "epoch": 0.7077684133382192,
      "grad_norm": 0.3914735651944279,
      "learning_rate": 2.3864166071704026e-06,
      "loss": 0.4889,
      "step": 3863
    },
    {
      "epoch": 0.7079516306339318,
      "grad_norm": 0.3298837059612055,
      "learning_rate": 2.3836909325737e-06,
      "loss": 0.4754,
      "step": 3864
    },
    {
      "epoch": 0.7081348479296445,
      "grad_norm": 0.37885170331444445,
      "learning_rate": 2.3809663281945304e-06,
      "loss": 0.4619,
      "step": 3865
    },
    {
      "epoch": 0.7083180652253572,
      "grad_norm": 0.3471909899932877,
      "learning_rate": 2.3782427951474065e-06,
      "loss": 0.4672,
      "step": 3866
    },
    {
      "epoch": 0.70850128252107,
      "grad_norm": 0.39582817919789814,
      "learning_rate": 2.3755203345464093e-06,
      "loss": 0.4973,
      "step": 3867
    },
    {
      "epoch": 0.7086844998167827,
      "grad_norm": 0.5171192742768901,
      "learning_rate": 2.3727989475051756e-06,
      "loss": 0.514,
      "step": 3868
    },
    {
      "epoch": 0.7088677171124954,
      "grad_norm": 0.3914387974525994,
      "learning_rate": 2.370078635136908e-06,
      "loss": 0.4796,
      "step": 3869
    },
    {
      "epoch": 0.7090509344082081,
      "grad_norm": 0.35608752364478324,
      "learning_rate": 2.3673593985543647e-06,
      "loss": 0.4813,
      "step": 3870
    },
    {
      "epoch": 0.7092341517039209,
      "grad_norm": 0.3407567232006967,
      "learning_rate": 2.3646412388698703e-06,
      "loss": 0.4411,
      "step": 3871
    },
    {
      "epoch": 0.7094173689996336,
      "grad_norm": 0.4030342455048933,
      "learning_rate": 2.361924157195302e-06,
      "loss": 0.4286,
      "step": 3872
    },
    {
      "epoch": 0.7096005862953463,
      "grad_norm": 0.3344753724022738,
      "learning_rate": 2.359208154642098e-06,
      "loss": 0.4764,
      "step": 3873
    },
    {
      "epoch": 0.709783803591059,
      "grad_norm": 0.3877832467293633,
      "learning_rate": 2.3564932323212574e-06,
      "loss": 0.5046,
      "step": 3874
    },
    {
      "epoch": 0.7099670208867717,
      "grad_norm": 0.4056288760749119,
      "learning_rate": 2.3537793913433386e-06,
      "loss": 0.4777,
      "step": 3875
    },
    {
      "epoch": 0.7101502381824845,
      "grad_norm": 1.5040346864031384,
      "learning_rate": 2.3510666328184527e-06,
      "loss": 0.4798,
      "step": 3876
    },
    {
      "epoch": 0.7103334554781972,
      "grad_norm": 0.3310106746801017,
      "learning_rate": 2.3483549578562692e-06,
      "loss": 0.4546,
      "step": 3877
    },
    {
      "epoch": 0.7105166727739098,
      "grad_norm": 0.39204472145138664,
      "learning_rate": 2.3456443675660168e-06,
      "loss": 0.4709,
      "step": 3878
    },
    {
      "epoch": 0.7106998900696225,
      "grad_norm": 0.41356445706117884,
      "learning_rate": 2.3429348630564814e-06,
      "loss": 0.4584,
      "step": 3879
    },
    {
      "epoch": 0.7108831073653353,
      "grad_norm": 0.35419883069363933,
      "learning_rate": 2.3402264454360015e-06,
      "loss": 0.4787,
      "step": 3880
    },
    {
      "epoch": 0.711066324661048,
      "grad_norm": 0.37747083194603237,
      "learning_rate": 2.3375191158124694e-06,
      "loss": 0.4558,
      "step": 3881
    },
    {
      "epoch": 0.7112495419567607,
      "grad_norm": 0.36158993228830477,
      "learning_rate": 2.3348128752933375e-06,
      "loss": 0.4704,
      "step": 3882
    },
    {
      "epoch": 0.7114327592524734,
      "grad_norm": 0.44466267951102173,
      "learning_rate": 2.3321077249856123e-06,
      "loss": 0.4891,
      "step": 3883
    },
    {
      "epoch": 0.7116159765481862,
      "grad_norm": 0.3908470845675225,
      "learning_rate": 2.329403665995851e-06,
      "loss": 0.4809,
      "step": 3884
    },
    {
      "epoch": 0.7117991938438989,
      "grad_norm": 0.34947637497569195,
      "learning_rate": 2.326700699430162e-06,
      "loss": 0.4677,
      "step": 3885
    },
    {
      "epoch": 0.7119824111396116,
      "grad_norm": 0.4034660171845511,
      "learning_rate": 2.323998826394215e-06,
      "loss": 0.4954,
      "step": 3886
    },
    {
      "epoch": 0.7121656284353243,
      "grad_norm": 0.3902853494836444,
      "learning_rate": 2.3212980479932278e-06,
      "loss": 0.4708,
      "step": 3887
    },
    {
      "epoch": 0.712348845731037,
      "grad_norm": 0.3826243485087709,
      "learning_rate": 2.3185983653319704e-06,
      "loss": 0.4577,
      "step": 3888
    },
    {
      "epoch": 0.7125320630267498,
      "grad_norm": 0.34221063508214916,
      "learning_rate": 2.315899779514762e-06,
      "loss": 0.4828,
      "step": 3889
    },
    {
      "epoch": 0.7127152803224625,
      "grad_norm": 0.31606410866518403,
      "learning_rate": 2.313202291645478e-06,
      "loss": 0.4421,
      "step": 3890
    },
    {
      "epoch": 0.7128984976181751,
      "grad_norm": 0.39675831775841675,
      "learning_rate": 2.3105059028275467e-06,
      "loss": 0.4761,
      "step": 3891
    },
    {
      "epoch": 0.7130817149138878,
      "grad_norm": 0.41928597858495215,
      "learning_rate": 2.3078106141639347e-06,
      "loss": 0.4918,
      "step": 3892
    },
    {
      "epoch": 0.7132649322096006,
      "grad_norm": 0.35834153154382087,
      "learning_rate": 2.30511642675717e-06,
      "loss": 0.4284,
      "step": 3893
    },
    {
      "epoch": 0.7134481495053133,
      "grad_norm": 0.37770177714774683,
      "learning_rate": 2.30242334170933e-06,
      "loss": 0.4528,
      "step": 3894
    },
    {
      "epoch": 0.713631366801026,
      "grad_norm": 0.3701259832997652,
      "learning_rate": 2.2997313601220354e-06,
      "loss": 0.4799,
      "step": 3895
    },
    {
      "epoch": 0.7138145840967387,
      "grad_norm": 0.4149159194213658,
      "learning_rate": 2.297040483096456e-06,
      "loss": 0.5102,
      "step": 3896
    },
    {
      "epoch": 0.7139978013924514,
      "grad_norm": 0.41350958709860136,
      "learning_rate": 2.2943507117333137e-06,
      "loss": 0.4682,
      "step": 3897
    },
    {
      "epoch": 0.7141810186881642,
      "grad_norm": 0.41705694501658497,
      "learning_rate": 2.2916620471328784e-06,
      "loss": 0.4695,
      "step": 3898
    },
    {
      "epoch": 0.7143642359838769,
      "grad_norm": 0.40508098818541893,
      "learning_rate": 2.288974490394962e-06,
      "loss": 0.4575,
      "step": 3899
    },
    {
      "epoch": 0.7145474532795896,
      "grad_norm": 0.3959996212933778,
      "learning_rate": 2.2862880426189266e-06,
      "loss": 0.4515,
      "step": 3900
    },
    {
      "epoch": 0.7147306705753023,
      "grad_norm": 0.3670118613753447,
      "learning_rate": 2.283602704903681e-06,
      "loss": 0.4549,
      "step": 3901
    },
    {
      "epoch": 0.7149138878710151,
      "grad_norm": 0.3518895294151359,
      "learning_rate": 2.280918478347681e-06,
      "loss": 0.4291,
      "step": 3902
    },
    {
      "epoch": 0.7150971051667278,
      "grad_norm": 0.3296707504158102,
      "learning_rate": 2.2782353640489246e-06,
      "loss": 0.4803,
      "step": 3903
    },
    {
      "epoch": 0.7152803224624404,
      "grad_norm": 0.38278413538931505,
      "learning_rate": 2.275553363104955e-06,
      "loss": 0.4306,
      "step": 3904
    },
    {
      "epoch": 0.7154635397581531,
      "grad_norm": 0.4072668034438296,
      "learning_rate": 2.272872476612863e-06,
      "loss": 0.4642,
      "step": 3905
    },
    {
      "epoch": 0.7156467570538659,
      "grad_norm": 0.3502020381492555,
      "learning_rate": 2.2701927056692835e-06,
      "loss": 0.4896,
      "step": 3906
    },
    {
      "epoch": 0.7158299743495786,
      "grad_norm": 0.3691555729533692,
      "learning_rate": 2.2675140513703924e-06,
      "loss": 0.4672,
      "step": 3907
    },
    {
      "epoch": 0.7160131916452913,
      "grad_norm": 0.35830120196254023,
      "learning_rate": 2.2648365148119073e-06,
      "loss": 0.4606,
      "step": 3908
    },
    {
      "epoch": 0.716196408941004,
      "grad_norm": 0.34986818855700375,
      "learning_rate": 2.2621600970890944e-06,
      "loss": 0.455,
      "step": 3909
    },
    {
      "epoch": 0.7163796262367167,
      "grad_norm": 0.3870870347746835,
      "learning_rate": 2.2594847992967573e-06,
      "loss": 0.4714,
      "step": 3910
    },
    {
      "epoch": 0.7165628435324295,
      "grad_norm": 0.37249300671972857,
      "learning_rate": 2.2568106225292447e-06,
      "loss": 0.4847,
      "step": 3911
    },
    {
      "epoch": 0.7167460608281422,
      "grad_norm": 0.43939952436081475,
      "learning_rate": 2.2541375678804435e-06,
      "loss": 0.5097,
      "step": 3912
    },
    {
      "epoch": 0.7169292781238549,
      "grad_norm": 0.405532505727656,
      "learning_rate": 2.251465636443786e-06,
      "loss": 0.4772,
      "step": 3913
    },
    {
      "epoch": 0.7171124954195676,
      "grad_norm": 0.3868217983838645,
      "learning_rate": 2.2487948293122385e-06,
      "loss": 0.4776,
      "step": 3914
    },
    {
      "epoch": 0.7172957127152804,
      "grad_norm": 0.34727108875203117,
      "learning_rate": 2.246125147578316e-06,
      "loss": 0.4826,
      "step": 3915
    },
    {
      "epoch": 0.717478930010993,
      "grad_norm": 0.35607943451775403,
      "learning_rate": 2.2434565923340633e-06,
      "loss": 0.4539,
      "step": 3916
    },
    {
      "epoch": 0.7176621473067057,
      "grad_norm": 0.3600291279263338,
      "learning_rate": 2.2407891646710744e-06,
      "loss": 0.4679,
      "step": 3917
    },
    {
      "epoch": 0.7178453646024184,
      "grad_norm": 0.3628355380823112,
      "learning_rate": 2.2381228656804737e-06,
      "loss": 0.4526,
      "step": 3918
    },
    {
      "epoch": 0.7180285818981312,
      "grad_norm": 0.36213995409506666,
      "learning_rate": 2.235457696452931e-06,
      "loss": 0.4904,
      "step": 3919
    },
    {
      "epoch": 0.7182117991938439,
      "grad_norm": 0.3831546832431041,
      "learning_rate": 2.2327936580786454e-06,
      "loss": 0.4443,
      "step": 3920
    },
    {
      "epoch": 0.7183950164895566,
      "grad_norm": 0.42205583866499036,
      "learning_rate": 2.230130751647363e-06,
      "loss": 0.4698,
      "step": 3921
    },
    {
      "epoch": 0.7185782337852693,
      "grad_norm": 0.37799608449143307,
      "learning_rate": 2.2274689782483587e-06,
      "loss": 0.4333,
      "step": 3922
    },
    {
      "epoch": 0.718761451080982,
      "grad_norm": 0.3731146777944977,
      "learning_rate": 2.224808338970452e-06,
      "loss": 0.4437,
      "step": 3923
    },
    {
      "epoch": 0.7189446683766948,
      "grad_norm": 0.3745077798290519,
      "learning_rate": 2.2221488349019903e-06,
      "loss": 0.4889,
      "step": 3924
    },
    {
      "epoch": 0.7191278856724075,
      "grad_norm": 0.38593867796467957,
      "learning_rate": 2.2194904671308597e-06,
      "loss": 0.4837,
      "step": 3925
    },
    {
      "epoch": 0.7193111029681202,
      "grad_norm": 0.3733427492850883,
      "learning_rate": 2.2168332367444856e-06,
      "loss": 0.4671,
      "step": 3926
    },
    {
      "epoch": 0.7194943202638329,
      "grad_norm": 0.42288412356060506,
      "learning_rate": 2.2141771448298204e-06,
      "loss": 0.4987,
      "step": 3927
    },
    {
      "epoch": 0.7196775375595457,
      "grad_norm": 0.40370031860317235,
      "learning_rate": 2.2115221924733597e-06,
      "loss": 0.4487,
      "step": 3928
    },
    {
      "epoch": 0.7198607548552584,
      "grad_norm": 0.34387620450670553,
      "learning_rate": 2.2088683807611245e-06,
      "loss": 0.4551,
      "step": 3929
    },
    {
      "epoch": 0.720043972150971,
      "grad_norm": 0.3357205462234579,
      "learning_rate": 2.2062157107786755e-06,
      "loss": 0.4798,
      "step": 3930
    },
    {
      "epoch": 0.7202271894466837,
      "grad_norm": 0.36225562703789105,
      "learning_rate": 2.2035641836111014e-06,
      "loss": 0.4302,
      "step": 3931
    },
    {
      "epoch": 0.7204104067423965,
      "grad_norm": 0.34692152266678516,
      "learning_rate": 2.2009138003430293e-06,
      "loss": 0.4343,
      "step": 3932
    },
    {
      "epoch": 0.7205936240381092,
      "grad_norm": 0.47525673930571805,
      "learning_rate": 2.1982645620586115e-06,
      "loss": 0.4581,
      "step": 3933
    },
    {
      "epoch": 0.7207768413338219,
      "grad_norm": 0.41490121146448244,
      "learning_rate": 2.1956164698415384e-06,
      "loss": 0.4804,
      "step": 3934
    },
    {
      "epoch": 0.7209600586295346,
      "grad_norm": 0.3726254826073696,
      "learning_rate": 2.192969524775025e-06,
      "loss": 0.4929,
      "step": 3935
    },
    {
      "epoch": 0.7211432759252473,
      "grad_norm": 0.39510906163396003,
      "learning_rate": 2.1903237279418255e-06,
      "loss": 0.4716,
      "step": 3936
    },
    {
      "epoch": 0.7213264932209601,
      "grad_norm": 0.34147798613218494,
      "learning_rate": 2.187679080424215e-06,
      "loss": 0.4785,
      "step": 3937
    },
    {
      "epoch": 0.7215097105166728,
      "grad_norm": 0.386384897070331,
      "learning_rate": 2.1850355833040067e-06,
      "loss": 0.4303,
      "step": 3938
    },
    {
      "epoch": 0.7216929278123855,
      "grad_norm": 0.355376967657911,
      "learning_rate": 2.182393237662536e-06,
      "loss": 0.4635,
      "step": 3939
    },
    {
      "epoch": 0.7218761451080982,
      "grad_norm": 0.36273164237101024,
      "learning_rate": 2.1797520445806754e-06,
      "loss": 0.4877,
      "step": 3940
    },
    {
      "epoch": 0.722059362403811,
      "grad_norm": 0.38291884206668514,
      "learning_rate": 2.177112005138816e-06,
      "loss": 0.47,
      "step": 3941
    },
    {
      "epoch": 0.7222425796995237,
      "grad_norm": 0.3746789118909081,
      "learning_rate": 2.174473120416887e-06,
      "loss": 0.463,
      "step": 3942
    },
    {
      "epoch": 0.7224257969952363,
      "grad_norm": 0.35439101753244096,
      "learning_rate": 2.1718353914943397e-06,
      "loss": 0.4834,
      "step": 3943
    },
    {
      "epoch": 0.722609014290949,
      "grad_norm": 0.33280492693648706,
      "learning_rate": 2.1691988194501506e-06,
      "loss": 0.464,
      "step": 3944
    },
    {
      "epoch": 0.7227922315866617,
      "grad_norm": 0.41110827295372265,
      "learning_rate": 2.1665634053628277e-06,
      "loss": 0.5061,
      "step": 3945
    },
    {
      "epoch": 0.7229754488823745,
      "grad_norm": 0.380399201123713,
      "learning_rate": 2.163929150310405e-06,
      "loss": 0.4375,
      "step": 3946
    },
    {
      "epoch": 0.7231586661780872,
      "grad_norm": 0.41231434008927476,
      "learning_rate": 2.161296055370441e-06,
      "loss": 0.4764,
      "step": 3947
    },
    {
      "epoch": 0.7233418834737999,
      "grad_norm": 0.3968883603719042,
      "learning_rate": 2.158664121620016e-06,
      "loss": 0.4774,
      "step": 3948
    },
    {
      "epoch": 0.7235251007695126,
      "grad_norm": 0.41344274482635385,
      "learning_rate": 2.1560333501357415e-06,
      "loss": 0.4684,
      "step": 3949
    },
    {
      "epoch": 0.7237083180652254,
      "grad_norm": 0.35912097103796253,
      "learning_rate": 2.1534037419937525e-06,
      "loss": 0.4966,
      "step": 3950
    },
    {
      "epoch": 0.7238915353609381,
      "grad_norm": 0.45882156092291665,
      "learning_rate": 2.150775298269705e-06,
      "loss": 0.4807,
      "step": 3951
    },
    {
      "epoch": 0.7240747526566508,
      "grad_norm": 0.37565207755020413,
      "learning_rate": 2.1481480200387784e-06,
      "loss": 0.4872,
      "step": 3952
    },
    {
      "epoch": 0.7242579699523635,
      "grad_norm": 0.41009415053450377,
      "learning_rate": 2.1455219083756785e-06,
      "loss": 0.4462,
      "step": 3953
    },
    {
      "epoch": 0.7244411872480763,
      "grad_norm": 0.39760682647944046,
      "learning_rate": 2.1428969643546356e-06,
      "loss": 0.4739,
      "step": 3954
    },
    {
      "epoch": 0.724624404543789,
      "grad_norm": 0.45134579183184625,
      "learning_rate": 2.140273189049396e-06,
      "loss": 0.4791,
      "step": 3955
    },
    {
      "epoch": 0.7248076218395016,
      "grad_norm": 0.3471197425655035,
      "learning_rate": 2.1376505835332313e-06,
      "loss": 0.4814,
      "step": 3956
    },
    {
      "epoch": 0.7249908391352143,
      "grad_norm": 0.34004276621453156,
      "learning_rate": 2.1350291488789353e-06,
      "loss": 0.4583,
      "step": 3957
    },
    {
      "epoch": 0.725174056430927,
      "grad_norm": 0.3674316268274796,
      "learning_rate": 2.1324088861588267e-06,
      "loss": 0.4679,
      "step": 3958
    },
    {
      "epoch": 0.7253572737266398,
      "grad_norm": 0.37639881921654234,
      "learning_rate": 2.129789796444732e-06,
      "loss": 0.4925,
      "step": 3959
    },
    {
      "epoch": 0.7255404910223525,
      "grad_norm": 0.4024732893000549,
      "learning_rate": 2.12717188080801e-06,
      "loss": 0.4396,
      "step": 3960
    },
    {
      "epoch": 0.7257237083180652,
      "grad_norm": 0.36148082213298177,
      "learning_rate": 2.124555140319538e-06,
      "loss": 0.4581,
      "step": 3961
    },
    {
      "epoch": 0.7259069256137779,
      "grad_norm": 0.4094140684804306,
      "learning_rate": 2.1219395760497077e-06,
      "loss": 0.4671,
      "step": 3962
    },
    {
      "epoch": 0.7260901429094907,
      "grad_norm": 0.3663010278600634,
      "learning_rate": 2.1193251890684297e-06,
      "loss": 0.4639,
      "step": 3963
    },
    {
      "epoch": 0.7262733602052034,
      "grad_norm": 0.4369992565379576,
      "learning_rate": 2.1167119804451377e-06,
      "loss": 0.4617,
      "step": 3964
    },
    {
      "epoch": 0.7264565775009161,
      "grad_norm": 0.3460240340869184,
      "learning_rate": 2.1140999512487826e-06,
      "loss": 0.4494,
      "step": 3965
    },
    {
      "epoch": 0.7266397947966288,
      "grad_norm": 0.38418566572409013,
      "learning_rate": 2.1114891025478297e-06,
      "loss": 0.4776,
      "step": 3966
    },
    {
      "epoch": 0.7268230120923416,
      "grad_norm": 0.41207635226932526,
      "learning_rate": 2.108879435410261e-06,
      "loss": 0.4894,
      "step": 3967
    },
    {
      "epoch": 0.7270062293880543,
      "grad_norm": 0.3583196609746141,
      "learning_rate": 2.1062709509035783e-06,
      "loss": 0.4804,
      "step": 3968
    },
    {
      "epoch": 0.727189446683767,
      "grad_norm": 0.3456199452833048,
      "learning_rate": 2.103663650094801e-06,
      "loss": 0.4973,
      "step": 3969
    },
    {
      "epoch": 0.7273726639794796,
      "grad_norm": 0.34378933684805224,
      "learning_rate": 2.1010575340504594e-06,
      "loss": 0.449,
      "step": 3970
    },
    {
      "epoch": 0.7275558812751923,
      "grad_norm": 0.35498055821095786,
      "learning_rate": 2.0984526038366005e-06,
      "loss": 0.4579,
      "step": 3971
    },
    {
      "epoch": 0.7277390985709051,
      "grad_norm": 0.41880826479222205,
      "learning_rate": 2.0958488605187883e-06,
      "loss": 0.47,
      "step": 3972
    },
    {
      "epoch": 0.7279223158666178,
      "grad_norm": 0.3578587549836757,
      "learning_rate": 2.093246305162102e-06,
      "loss": 0.4772,
      "step": 3973
    },
    {
      "epoch": 0.7281055331623305,
      "grad_norm": 0.34757539141396526,
      "learning_rate": 2.0906449388311317e-06,
      "loss": 0.4786,
      "step": 3974
    },
    {
      "epoch": 0.7282887504580432,
      "grad_norm": 0.3797612718167418,
      "learning_rate": 2.0880447625899806e-06,
      "loss": 0.4954,
      "step": 3975
    },
    {
      "epoch": 0.728471967753756,
      "grad_norm": 0.38903246942370673,
      "learning_rate": 2.0854457775022693e-06,
      "loss": 0.4714,
      "step": 3976
    },
    {
      "epoch": 0.7286551850494687,
      "grad_norm": 0.34078803659969625,
      "learning_rate": 2.0828479846311295e-06,
      "loss": 0.4769,
      "step": 3977
    },
    {
      "epoch": 0.7288384023451814,
      "grad_norm": 0.39415553649838064,
      "learning_rate": 2.0802513850392036e-06,
      "loss": 0.4742,
      "step": 3978
    },
    {
      "epoch": 0.7290216196408941,
      "grad_norm": 0.3358841455697702,
      "learning_rate": 2.0776559797886445e-06,
      "loss": 0.4613,
      "step": 3979
    },
    {
      "epoch": 0.7292048369366069,
      "grad_norm": 0.8250284818178605,
      "learning_rate": 2.075061769941123e-06,
      "loss": 0.5048,
      "step": 3980
    },
    {
      "epoch": 0.7293880542323196,
      "grad_norm": 0.5376183820817682,
      "learning_rate": 2.0724687565578134e-06,
      "loss": 0.4823,
      "step": 3981
    },
    {
      "epoch": 0.7295712715280323,
      "grad_norm": 0.3611278436452834,
      "learning_rate": 2.0698769406994066e-06,
      "loss": 0.4729,
      "step": 3982
    },
    {
      "epoch": 0.7297544888237449,
      "grad_norm": 0.34343766283787625,
      "learning_rate": 2.067286323426098e-06,
      "loss": 0.4447,
      "step": 3983
    },
    {
      "epoch": 0.7299377061194576,
      "grad_norm": 0.3645991950693383,
      "learning_rate": 2.0646969057976e-06,
      "loss": 0.4459,
      "step": 3984
    },
    {
      "epoch": 0.7301209234151704,
      "grad_norm": 0.3656627102370819,
      "learning_rate": 2.0621086888731257e-06,
      "loss": 0.4533,
      "step": 3985
    },
    {
      "epoch": 0.7303041407108831,
      "grad_norm": 0.3694791196027567,
      "learning_rate": 2.059521673711405e-06,
      "loss": 0.4487,
      "step": 3986
    },
    {
      "epoch": 0.7304873580065958,
      "grad_norm": 0.3764444533298445,
      "learning_rate": 2.0569358613706685e-06,
      "loss": 0.4924,
      "step": 3987
    },
    {
      "epoch": 0.7306705753023085,
      "grad_norm": 0.32858535408254086,
      "learning_rate": 2.0543512529086634e-06,
      "loss": 0.4445,
      "step": 3988
    },
    {
      "epoch": 0.7308537925980213,
      "grad_norm": 0.37648795100517984,
      "learning_rate": 2.051767849382636e-06,
      "loss": 0.484,
      "step": 3989
    },
    {
      "epoch": 0.731037009893734,
      "grad_norm": 0.3688899941410821,
      "learning_rate": 2.049185651849347e-06,
      "loss": 0.4874,
      "step": 3990
    },
    {
      "epoch": 0.7312202271894467,
      "grad_norm": 0.3244483523144509,
      "learning_rate": 2.046604661365057e-06,
      "loss": 0.4444,
      "step": 3991
    },
    {
      "epoch": 0.7314034444851594,
      "grad_norm": 0.3541469099575952,
      "learning_rate": 2.04402487898554e-06,
      "loss": 0.519,
      "step": 3992
    },
    {
      "epoch": 0.7315866617808721,
      "grad_norm": 0.42664644819369096,
      "learning_rate": 2.041446305766068e-06,
      "loss": 0.4557,
      "step": 3993
    },
    {
      "epoch": 0.7317698790765849,
      "grad_norm": 0.4203285626240392,
      "learning_rate": 2.038868942761426e-06,
      "loss": 0.4995,
      "step": 3994
    },
    {
      "epoch": 0.7319530963722976,
      "grad_norm": 0.3509889902121387,
      "learning_rate": 2.036292791025899e-06,
      "loss": 0.4839,
      "step": 3995
    },
    {
      "epoch": 0.7321363136680102,
      "grad_norm": 0.3364279899808081,
      "learning_rate": 2.033717851613276e-06,
      "loss": 0.4748,
      "step": 3996
    },
    {
      "epoch": 0.7323195309637229,
      "grad_norm": 0.3893694640258706,
      "learning_rate": 2.0311441255768538e-06,
      "loss": 0.4594,
      "step": 3997
    },
    {
      "epoch": 0.7325027482594357,
      "grad_norm": 0.36140113659251494,
      "learning_rate": 2.028571613969433e-06,
      "loss": 0.4472,
      "step": 3998
    },
    {
      "epoch": 0.7326859655551484,
      "grad_norm": 0.3595150609390052,
      "learning_rate": 2.0260003178433136e-06,
      "loss": 0.4729,
      "step": 3999
    },
    {
      "epoch": 0.7328691828508611,
      "grad_norm": 0.3657197643744775,
      "learning_rate": 2.023430238250298e-06,
      "loss": 0.4748,
      "step": 4000
    },
    {
      "epoch": 0.7330524001465738,
      "grad_norm": 0.3505033676142658,
      "learning_rate": 2.0208613762416963e-06,
      "loss": 0.4462,
      "step": 4001
    },
    {
      "epoch": 0.7332356174422866,
      "grad_norm": 0.5841692514255732,
      "learning_rate": 2.0182937328683175e-06,
      "loss": 0.4952,
      "step": 4002
    },
    {
      "epoch": 0.7334188347379993,
      "grad_norm": 0.4021075121985259,
      "learning_rate": 2.0157273091804725e-06,
      "loss": 0.489,
      "step": 4003
    },
    {
      "epoch": 0.733602052033712,
      "grad_norm": 0.35490571696421497,
      "learning_rate": 2.01316210622797e-06,
      "loss": 0.4254,
      "step": 4004
    },
    {
      "epoch": 0.7337852693294247,
      "grad_norm": 0.3665236313827954,
      "learning_rate": 2.010598125060124e-06,
      "loss": 0.4885,
      "step": 4005
    },
    {
      "epoch": 0.7339684866251374,
      "grad_norm": 0.38965802996637944,
      "learning_rate": 2.008035366725748e-06,
      "loss": 0.4498,
      "step": 4006
    },
    {
      "epoch": 0.7341517039208502,
      "grad_norm": 0.42966416457191475,
      "learning_rate": 2.0054738322731538e-06,
      "loss": 0.4795,
      "step": 4007
    },
    {
      "epoch": 0.7343349212165629,
      "grad_norm": 0.33424248444325466,
      "learning_rate": 2.0029135227501506e-06,
      "loss": 0.4442,
      "step": 4008
    },
    {
      "epoch": 0.7345181385122755,
      "grad_norm": 0.3621404545566873,
      "learning_rate": 2.0003544392040515e-06,
      "loss": 0.4796,
      "step": 4009
    },
    {
      "epoch": 0.7347013558079882,
      "grad_norm": 0.41861203487654636,
      "learning_rate": 1.9977965826816682e-06,
      "loss": 0.4507,
      "step": 4010
    },
    {
      "epoch": 0.734884573103701,
      "grad_norm": 0.3598241247193229,
      "learning_rate": 1.995239954229301e-06,
      "loss": 0.5101,
      "step": 4011
    },
    {
      "epoch": 0.7350677903994137,
      "grad_norm": 0.39240903487141304,
      "learning_rate": 1.992684554892758e-06,
      "loss": 0.4836,
      "step": 4012
    },
    {
      "epoch": 0.7352510076951264,
      "grad_norm": 0.35814741948156764,
      "learning_rate": 1.9901303857173427e-06,
      "loss": 0.4518,
      "step": 4013
    },
    {
      "epoch": 0.7354342249908391,
      "grad_norm": 0.40446364976945115,
      "learning_rate": 1.9875774477478554e-06,
      "loss": 0.4993,
      "step": 4014
    },
    {
      "epoch": 0.7356174422865519,
      "grad_norm": 0.3411751401932077,
      "learning_rate": 1.9850257420285853e-06,
      "loss": 0.4608,
      "step": 4015
    },
    {
      "epoch": 0.7358006595822646,
      "grad_norm": 0.37456578839867344,
      "learning_rate": 1.9824752696033272e-06,
      "loss": 0.4845,
      "step": 4016
    },
    {
      "epoch": 0.7359838768779773,
      "grad_norm": 0.40766576507833674,
      "learning_rate": 1.979926031515369e-06,
      "loss": 0.4681,
      "step": 4017
    },
    {
      "epoch": 0.73616709417369,
      "grad_norm": 0.3767413594158177,
      "learning_rate": 1.9773780288074907e-06,
      "loss": 0.468,
      "step": 4018
    },
    {
      "epoch": 0.7363503114694027,
      "grad_norm": 0.35839677107164547,
      "learning_rate": 1.9748312625219674e-06,
      "loss": 0.4823,
      "step": 4019
    },
    {
      "epoch": 0.7365335287651155,
      "grad_norm": 0.3882541817695617,
      "learning_rate": 1.972285733700571e-06,
      "loss": 0.492,
      "step": 4020
    },
    {
      "epoch": 0.7367167460608282,
      "grad_norm": 0.3794713824787052,
      "learning_rate": 1.969741443384568e-06,
      "loss": 0.4566,
      "step": 4021
    },
    {
      "epoch": 0.7368999633565408,
      "grad_norm": 0.36678362989099145,
      "learning_rate": 1.9671983926147143e-06,
      "loss": 0.4528,
      "step": 4022
    },
    {
      "epoch": 0.7370831806522535,
      "grad_norm": 0.3978770489237176,
      "learning_rate": 1.964656582431259e-06,
      "loss": 0.4845,
      "step": 4023
    },
    {
      "epoch": 0.7372663979479663,
      "grad_norm": 0.3452119681101174,
      "learning_rate": 1.962116013873947e-06,
      "loss": 0.4587,
      "step": 4024
    },
    {
      "epoch": 0.737449615243679,
      "grad_norm": 0.3648561806801237,
      "learning_rate": 1.959576687982016e-06,
      "loss": 0.4646,
      "step": 4025
    },
    {
      "epoch": 0.7376328325393917,
      "grad_norm": 0.3969117613318373,
      "learning_rate": 1.95703860579419e-06,
      "loss": 0.4687,
      "step": 4026
    },
    {
      "epoch": 0.7378160498351044,
      "grad_norm": 0.4850066093035532,
      "learning_rate": 1.954501768348687e-06,
      "loss": 0.4819,
      "step": 4027
    },
    {
      "epoch": 0.7379992671308171,
      "grad_norm": 0.39266238773846035,
      "learning_rate": 1.9519661766832174e-06,
      "loss": 0.4641,
      "step": 4028
    },
    {
      "epoch": 0.7381824844265299,
      "grad_norm": 0.31646845520624245,
      "learning_rate": 1.9494318318349825e-06,
      "loss": 0.4385,
      "step": 4029
    },
    {
      "epoch": 0.7383657017222426,
      "grad_norm": 0.35566510994887,
      "learning_rate": 1.9468987348406703e-06,
      "loss": 0.474,
      "step": 4030
    },
    {
      "epoch": 0.7385489190179553,
      "grad_norm": 0.3872354487936671,
      "learning_rate": 1.944366886736458e-06,
      "loss": 0.4657,
      "step": 4031
    },
    {
      "epoch": 0.738732136313668,
      "grad_norm": 0.3804177713529073,
      "learning_rate": 1.9418362885580174e-06,
      "loss": 0.4618,
      "step": 4032
    },
    {
      "epoch": 0.7389153536093808,
      "grad_norm": 0.35257179808793176,
      "learning_rate": 1.939306941340501e-06,
      "loss": 0.4571,
      "step": 4033
    },
    {
      "epoch": 0.7390985709050935,
      "grad_norm": 0.38170426112860006,
      "learning_rate": 1.9367788461185596e-06,
      "loss": 0.4784,
      "step": 4034
    },
    {
      "epoch": 0.7392817882008061,
      "grad_norm": 0.34927534676270283,
      "learning_rate": 1.9342520039263206e-06,
      "loss": 0.4731,
      "step": 4035
    },
    {
      "epoch": 0.7394650054965188,
      "grad_norm": 0.39851619679887534,
      "learning_rate": 1.93172641579741e-06,
      "loss": 0.488,
      "step": 4036
    },
    {
      "epoch": 0.7396482227922316,
      "grad_norm": 0.3241777037878778,
      "learning_rate": 1.9292020827649303e-06,
      "loss": 0.4538,
      "step": 4037
    },
    {
      "epoch": 0.7398314400879443,
      "grad_norm": 0.9937331158551702,
      "learning_rate": 1.9266790058614805e-06,
      "loss": 0.4691,
      "step": 4038
    },
    {
      "epoch": 0.740014657383657,
      "grad_norm": 0.33552160080546933,
      "learning_rate": 1.924157186119136e-06,
      "loss": 0.4594,
      "step": 4039
    },
    {
      "epoch": 0.7401978746793697,
      "grad_norm": 0.32776676443434455,
      "learning_rate": 1.9216366245694673e-06,
      "loss": 0.4456,
      "step": 4040
    },
    {
      "epoch": 0.7403810919750824,
      "grad_norm": 0.36270164983310027,
      "learning_rate": 1.9191173222435223e-06,
      "loss": 0.4541,
      "step": 4041
    },
    {
      "epoch": 0.7405643092707952,
      "grad_norm": 0.34997719170583524,
      "learning_rate": 1.916599280171841e-06,
      "loss": 0.4682,
      "step": 4042
    },
    {
      "epoch": 0.7407475265665079,
      "grad_norm": 0.34361373471099194,
      "learning_rate": 1.9140824993844396e-06,
      "loss": 0.4686,
      "step": 4043
    },
    {
      "epoch": 0.7409307438622206,
      "grad_norm": 0.39433678985217036,
      "learning_rate": 1.9115669809108278e-06,
      "loss": 0.4672,
      "step": 4044
    },
    {
      "epoch": 0.7411139611579333,
      "grad_norm": 0.4019491878484139,
      "learning_rate": 1.9090527257799903e-06,
      "loss": 0.4964,
      "step": 4045
    },
    {
      "epoch": 0.7412971784536461,
      "grad_norm": 0.39612212196419777,
      "learning_rate": 1.9065397350204013e-06,
      "loss": 0.4277,
      "step": 4046
    },
    {
      "epoch": 0.7414803957493588,
      "grad_norm": 0.6062012031418743,
      "learning_rate": 1.9040280096600144e-06,
      "loss": 0.4383,
      "step": 4047
    },
    {
      "epoch": 0.7416636130450714,
      "grad_norm": 0.43624618906610063,
      "learning_rate": 1.9015175507262656e-06,
      "loss": 0.4849,
      "step": 4048
    },
    {
      "epoch": 0.7418468303407841,
      "grad_norm": 0.35337558329567226,
      "learning_rate": 1.899008359246074e-06,
      "loss": 0.4386,
      "step": 4049
    },
    {
      "epoch": 0.7420300476364969,
      "grad_norm": 0.44416886111322623,
      "learning_rate": 1.8965004362458423e-06,
      "loss": 0.4181,
      "step": 4050
    },
    {
      "epoch": 0.7422132649322096,
      "grad_norm": 0.4095745408930984,
      "learning_rate": 1.8939937827514509e-06,
      "loss": 0.4758,
      "step": 4051
    },
    {
      "epoch": 0.7423964822279223,
      "grad_norm": 0.36684395263301556,
      "learning_rate": 1.8914883997882594e-06,
      "loss": 0.4812,
      "step": 4052
    },
    {
      "epoch": 0.742579699523635,
      "grad_norm": 0.3521988380162774,
      "learning_rate": 1.8889842883811127e-06,
      "loss": 0.4476,
      "step": 4053
    },
    {
      "epoch": 0.7427629168193477,
      "grad_norm": 0.37018266065758226,
      "learning_rate": 1.8864814495543344e-06,
      "loss": 0.4638,
      "step": 4054
    },
    {
      "epoch": 0.7429461341150605,
      "grad_norm": 0.34315046413477657,
      "learning_rate": 1.8839798843317247e-06,
      "loss": 0.4521,
      "step": 4055
    },
    {
      "epoch": 0.7431293514107732,
      "grad_norm": 0.48373817790218515,
      "learning_rate": 1.8814795937365632e-06,
      "loss": 0.4851,
      "step": 4056
    },
    {
      "epoch": 0.7433125687064859,
      "grad_norm": 0.4796010085771966,
      "learning_rate": 1.8789805787916105e-06,
      "loss": 0.4599,
      "step": 4057
    },
    {
      "epoch": 0.7434957860021986,
      "grad_norm": 0.351900140603146,
      "learning_rate": 1.8764828405191066e-06,
      "loss": 0.459,
      "step": 4058
    },
    {
      "epoch": 0.7436790032979114,
      "grad_norm": 0.365491528800529,
      "learning_rate": 1.8739863799407644e-06,
      "loss": 0.4868,
      "step": 4059
    },
    {
      "epoch": 0.7438622205936241,
      "grad_norm": 0.38751813349730896,
      "learning_rate": 1.8714911980777757e-06,
      "loss": 0.4315,
      "step": 4060
    },
    {
      "epoch": 0.7440454378893367,
      "grad_norm": 0.3580242193371107,
      "learning_rate": 1.8689972959508113e-06,
      "loss": 0.4805,
      "step": 4061
    },
    {
      "epoch": 0.7442286551850494,
      "grad_norm": 0.4509351696375182,
      "learning_rate": 1.866504674580021e-06,
      "loss": 0.4709,
      "step": 4062
    },
    {
      "epoch": 0.7444118724807622,
      "grad_norm": 0.3674083726141402,
      "learning_rate": 1.8640133349850203e-06,
      "loss": 0.4782,
      "step": 4063
    },
    {
      "epoch": 0.7445950897764749,
      "grad_norm": 0.40375539880733496,
      "learning_rate": 1.8615232781849107e-06,
      "loss": 0.4537,
      "step": 4064
    },
    {
      "epoch": 0.7447783070721876,
      "grad_norm": 0.34494006412033174,
      "learning_rate": 1.8590345051982657e-06,
      "loss": 0.4352,
      "step": 4065
    },
    {
      "epoch": 0.7449615243679003,
      "grad_norm": 0.36816174185686534,
      "learning_rate": 1.8565470170431365e-06,
      "loss": 0.4585,
      "step": 4066
    },
    {
      "epoch": 0.745144741663613,
      "grad_norm": 0.36293283553495814,
      "learning_rate": 1.8540608147370386e-06,
      "loss": 0.4874,
      "step": 4067
    },
    {
      "epoch": 0.7453279589593258,
      "grad_norm": 0.3619828856712631,
      "learning_rate": 1.8515758992969724e-06,
      "loss": 0.483,
      "step": 4068
    },
    {
      "epoch": 0.7455111762550385,
      "grad_norm": 0.4092780416874802,
      "learning_rate": 1.8490922717394094e-06,
      "loss": 0.4872,
      "step": 4069
    },
    {
      "epoch": 0.7456943935507512,
      "grad_norm": 0.3413826003401774,
      "learning_rate": 1.846609933080291e-06,
      "loss": 0.4741,
      "step": 4070
    },
    {
      "epoch": 0.7458776108464639,
      "grad_norm": 0.43626629769081204,
      "learning_rate": 1.8441288843350325e-06,
      "loss": 0.4793,
      "step": 4071
    },
    {
      "epoch": 0.7460608281421767,
      "grad_norm": 0.44933278447276864,
      "learning_rate": 1.8416491265185233e-06,
      "loss": 0.447,
      "step": 4072
    },
    {
      "epoch": 0.7462440454378894,
      "grad_norm": 0.4298809770026864,
      "learning_rate": 1.839170660645126e-06,
      "loss": 0.3847,
      "step": 4073
    },
    {
      "epoch": 0.746427262733602,
      "grad_norm": 0.3917091027821756,
      "learning_rate": 1.8366934877286702e-06,
      "loss": 0.4648,
      "step": 4074
    },
    {
      "epoch": 0.7466104800293147,
      "grad_norm": 0.3388982273699895,
      "learning_rate": 1.8342176087824576e-06,
      "loss": 0.448,
      "step": 4075
    },
    {
      "epoch": 0.7467936973250274,
      "grad_norm": 0.4978974652300739,
      "learning_rate": 1.8317430248192636e-06,
      "loss": 0.4953,
      "step": 4076
    },
    {
      "epoch": 0.7469769146207402,
      "grad_norm": 0.3324605261370153,
      "learning_rate": 1.8292697368513335e-06,
      "loss": 0.48,
      "step": 4077
    },
    {
      "epoch": 0.7471601319164529,
      "grad_norm": 0.3205253612405013,
      "learning_rate": 1.82679774589038e-06,
      "loss": 0.4819,
      "step": 4078
    },
    {
      "epoch": 0.7473433492121656,
      "grad_norm": 0.5099369257618026,
      "learning_rate": 1.8243270529475848e-06,
      "loss": 0.481,
      "step": 4079
    },
    {
      "epoch": 0.7475265665078783,
      "grad_norm": 0.3736030875841353,
      "learning_rate": 1.8218576590336017e-06,
      "loss": 0.4668,
      "step": 4080
    },
    {
      "epoch": 0.7477097838035911,
      "grad_norm": 0.39388685721322414,
      "learning_rate": 1.819389565158553e-06,
      "loss": 0.456,
      "step": 4081
    },
    {
      "epoch": 0.7478930010993038,
      "grad_norm": 0.3735944138776285,
      "learning_rate": 1.8169227723320265e-06,
      "loss": 0.4298,
      "step": 4082
    },
    {
      "epoch": 0.7480762183950165,
      "grad_norm": 0.3767625966098096,
      "learning_rate": 1.814457281563078e-06,
      "loss": 0.4767,
      "step": 4083
    },
    {
      "epoch": 0.7482594356907292,
      "grad_norm": 0.3857979642189771,
      "learning_rate": 1.8119930938602342e-06,
      "loss": 0.4628,
      "step": 4084
    },
    {
      "epoch": 0.748442652986442,
      "grad_norm": 0.34594760810350345,
      "learning_rate": 1.8095302102314843e-06,
      "loss": 0.4662,
      "step": 4085
    },
    {
      "epoch": 0.7486258702821547,
      "grad_norm": 0.39093168935002987,
      "learning_rate": 1.8070686316842883e-06,
      "loss": 0.4419,
      "step": 4086
    },
    {
      "epoch": 0.7488090875778673,
      "grad_norm": 0.3289049801215156,
      "learning_rate": 1.8046083592255676e-06,
      "loss": 0.4332,
      "step": 4087
    },
    {
      "epoch": 0.74899230487358,
      "grad_norm": 0.41846397995876716,
      "learning_rate": 1.8021493938617152e-06,
      "loss": 0.4947,
      "step": 4088
    },
    {
      "epoch": 0.7491755221692927,
      "grad_norm": 0.37197853344196835,
      "learning_rate": 1.7996917365985827e-06,
      "loss": 0.4386,
      "step": 4089
    },
    {
      "epoch": 0.7493587394650055,
      "grad_norm": 0.3746935512002778,
      "learning_rate": 1.7972353884414945e-06,
      "loss": 0.4684,
      "step": 4090
    },
    {
      "epoch": 0.7495419567607182,
      "grad_norm": 0.3976089073534478,
      "learning_rate": 1.7947803503952298e-06,
      "loss": 0.4731,
      "step": 4091
    },
    {
      "epoch": 0.7497251740564309,
      "grad_norm": 0.3779397969449795,
      "learning_rate": 1.7923266234640424e-06,
      "loss": 0.4855,
      "step": 4092
    },
    {
      "epoch": 0.7499083913521436,
      "grad_norm": 0.40852890198802416,
      "learning_rate": 1.7898742086516403e-06,
      "loss": 0.4458,
      "step": 4093
    },
    {
      "epoch": 0.7500916086478564,
      "grad_norm": 0.3648978647311167,
      "learning_rate": 1.7874231069612024e-06,
      "loss": 0.4566,
      "step": 4094
    },
    {
      "epoch": 0.7502748259435691,
      "grad_norm": 0.5140950428078369,
      "learning_rate": 1.7849733193953644e-06,
      "loss": 0.4224,
      "step": 4095
    },
    {
      "epoch": 0.7504580432392818,
      "grad_norm": 0.35408155389517404,
      "learning_rate": 1.7825248469562301e-06,
      "loss": 0.4585,
      "step": 4096
    },
    {
      "epoch": 0.7506412605349945,
      "grad_norm": 0.35397433582325016,
      "learning_rate": 1.7800776906453587e-06,
      "loss": 0.4519,
      "step": 4097
    },
    {
      "epoch": 0.7508244778307073,
      "grad_norm": 0.3558271730882,
      "learning_rate": 1.777631851463779e-06,
      "loss": 0.4792,
      "step": 4098
    },
    {
      "epoch": 0.75100769512642,
      "grad_norm": 0.48459300225858803,
      "learning_rate": 1.7751873304119743e-06,
      "loss": 0.4756,
      "step": 4099
    },
    {
      "epoch": 0.7511909124221327,
      "grad_norm": 0.47309599249739553,
      "learning_rate": 1.77274412848989e-06,
      "loss": 0.4762,
      "step": 4100
    },
    {
      "epoch": 0.7513741297178453,
      "grad_norm": 0.402871823866162,
      "learning_rate": 1.7703022466969344e-06,
      "loss": 0.4702,
      "step": 4101
    },
    {
      "epoch": 0.751557347013558,
      "grad_norm": 0.3469509938178955,
      "learning_rate": 1.767861686031976e-06,
      "loss": 0.4578,
      "step": 4102
    },
    {
      "epoch": 0.7517405643092708,
      "grad_norm": 0.42604410490007893,
      "learning_rate": 1.7654224474933402e-06,
      "loss": 0.4669,
      "step": 4103
    },
    {
      "epoch": 0.7519237816049835,
      "grad_norm": 0.4221122705392122,
      "learning_rate": 1.7629845320788108e-06,
      "loss": 0.4669,
      "step": 4104
    },
    {
      "epoch": 0.7521069989006962,
      "grad_norm": 0.34060667846008097,
      "learning_rate": 1.7605479407856336e-06,
      "loss": 0.4598,
      "step": 4105
    },
    {
      "epoch": 0.7522902161964089,
      "grad_norm": 0.3594956302533286,
      "learning_rate": 1.7581126746105138e-06,
      "loss": 0.4643,
      "step": 4106
    },
    {
      "epoch": 0.7524734334921217,
      "grad_norm": 0.3418664593987484,
      "learning_rate": 1.7556787345496102e-06,
      "loss": 0.4796,
      "step": 4107
    },
    {
      "epoch": 0.7526566507878344,
      "grad_norm": 0.3578518020006305,
      "learning_rate": 1.7532461215985396e-06,
      "loss": 0.4615,
      "step": 4108
    },
    {
      "epoch": 0.7528398680835471,
      "grad_norm": 0.3703679763002126,
      "learning_rate": 1.7508148367523792e-06,
      "loss": 0.4872,
      "step": 4109
    },
    {
      "epoch": 0.7530230853792598,
      "grad_norm": 0.34518380968447654,
      "learning_rate": 1.7483848810056626e-06,
      "loss": 0.4249,
      "step": 4110
    },
    {
      "epoch": 0.7532063026749726,
      "grad_norm": 0.40315432836820303,
      "learning_rate": 1.7459562553523768e-06,
      "loss": 0.4928,
      "step": 4111
    },
    {
      "epoch": 0.7533895199706853,
      "grad_norm": 0.3328304893922875,
      "learning_rate": 1.7435289607859646e-06,
      "loss": 0.4698,
      "step": 4112
    },
    {
      "epoch": 0.753572737266398,
      "grad_norm": 0.36319375008876503,
      "learning_rate": 1.741102998299327e-06,
      "loss": 0.4621,
      "step": 4113
    },
    {
      "epoch": 0.7537559545621106,
      "grad_norm": 0.4311280052755772,
      "learning_rate": 1.7386783688848225e-06,
      "loss": 0.4603,
      "step": 4114
    },
    {
      "epoch": 0.7539391718578233,
      "grad_norm": 0.3375728277767886,
      "learning_rate": 1.7362550735342575e-06,
      "loss": 0.4525,
      "step": 4115
    },
    {
      "epoch": 0.7541223891535361,
      "grad_norm": 0.35346560552592615,
      "learning_rate": 1.7338331132388952e-06,
      "loss": 0.4704,
      "step": 4116
    },
    {
      "epoch": 0.7543056064492488,
      "grad_norm": 0.32490533390383314,
      "learning_rate": 1.7314124889894552e-06,
      "loss": 0.464,
      "step": 4117
    },
    {
      "epoch": 0.7544888237449615,
      "grad_norm": 0.4028596236830994,
      "learning_rate": 1.7289932017761118e-06,
      "loss": 0.4471,
      "step": 4118
    },
    {
      "epoch": 0.7546720410406742,
      "grad_norm": 0.34021366956503474,
      "learning_rate": 1.7265752525884833e-06,
      "loss": 0.4539,
      "step": 4119
    },
    {
      "epoch": 0.754855258336387,
      "grad_norm": 0.33789436101613624,
      "learning_rate": 1.7241586424156497e-06,
      "loss": 0.4686,
      "step": 4120
    },
    {
      "epoch": 0.7550384756320997,
      "grad_norm": 0.3523250942278014,
      "learning_rate": 1.7217433722461429e-06,
      "loss": 0.4613,
      "step": 4121
    },
    {
      "epoch": 0.7552216929278124,
      "grad_norm": 0.33966744608529686,
      "learning_rate": 1.719329443067942e-06,
      "loss": 0.4957,
      "step": 4122
    },
    {
      "epoch": 0.7554049102235251,
      "grad_norm": 0.3774558497554812,
      "learning_rate": 1.7169168558684784e-06,
      "loss": 0.4939,
      "step": 4123
    },
    {
      "epoch": 0.7555881275192378,
      "grad_norm": 0.397659556575842,
      "learning_rate": 1.714505611634637e-06,
      "loss": 0.4634,
      "step": 4124
    },
    {
      "epoch": 0.7557713448149506,
      "grad_norm": 0.3849861681355583,
      "learning_rate": 1.7120957113527548e-06,
      "loss": 0.4554,
      "step": 4125
    },
    {
      "epoch": 0.7559545621106633,
      "grad_norm": 0.4422282038794372,
      "learning_rate": 1.7096871560086149e-06,
      "loss": 0.4658,
      "step": 4126
    },
    {
      "epoch": 0.7561377794063759,
      "grad_norm": 0.3782777153652058,
      "learning_rate": 1.707279946587449e-06,
      "loss": 0.4397,
      "step": 4127
    },
    {
      "epoch": 0.7563209967020886,
      "grad_norm": 0.35840358360089986,
      "learning_rate": 1.7048740840739436e-06,
      "loss": 0.4651,
      "step": 4128
    },
    {
      "epoch": 0.7565042139978014,
      "grad_norm": 0.3580145314485348,
      "learning_rate": 1.7024695694522337e-06,
      "loss": 0.4868,
      "step": 4129
    },
    {
      "epoch": 0.7566874312935141,
      "grad_norm": 0.4588081825112617,
      "learning_rate": 1.7000664037058989e-06,
      "loss": 0.4688,
      "step": 4130
    },
    {
      "epoch": 0.7568706485892268,
      "grad_norm": 0.3925924294224504,
      "learning_rate": 1.6976645878179677e-06,
      "loss": 0.4774,
      "step": 4131
    },
    {
      "epoch": 0.7570538658849395,
      "grad_norm": 0.3264787491206452,
      "learning_rate": 1.6952641227709188e-06,
      "loss": 0.4689,
      "step": 4132
    },
    {
      "epoch": 0.7572370831806523,
      "grad_norm": 0.34950702301533965,
      "learning_rate": 1.6928650095466803e-06,
      "loss": 0.4713,
      "step": 4133
    },
    {
      "epoch": 0.757420300476365,
      "grad_norm": 0.38322660772581035,
      "learning_rate": 1.6904672491266217e-06,
      "loss": 0.4922,
      "step": 4134
    },
    {
      "epoch": 0.7576035177720777,
      "grad_norm": 0.36738334003208656,
      "learning_rate": 1.6880708424915604e-06,
      "loss": 0.4862,
      "step": 4135
    },
    {
      "epoch": 0.7577867350677904,
      "grad_norm": 0.40877370078560427,
      "learning_rate": 1.6856757906217652e-06,
      "loss": 0.4977,
      "step": 4136
    },
    {
      "epoch": 0.7579699523635031,
      "grad_norm": 0.33709017913109657,
      "learning_rate": 1.6832820944969435e-06,
      "loss": 0.4987,
      "step": 4137
    },
    {
      "epoch": 0.7581531696592159,
      "grad_norm": 0.36675015101417785,
      "learning_rate": 1.680889755096255e-06,
      "loss": 0.4654,
      "step": 4138
    },
    {
      "epoch": 0.7583363869549286,
      "grad_norm": 0.39254403639733965,
      "learning_rate": 1.6784987733982978e-06,
      "loss": 0.471,
      "step": 4139
    },
    {
      "epoch": 0.7585196042506412,
      "grad_norm": 0.3722507602228711,
      "learning_rate": 1.6761091503811204e-06,
      "loss": 0.4886,
      "step": 4140
    },
    {
      "epoch": 0.7587028215463539,
      "grad_norm": 0.5932535007558865,
      "learning_rate": 1.6737208870222105e-06,
      "loss": 0.4683,
      "step": 4141
    },
    {
      "epoch": 0.7588860388420667,
      "grad_norm": 0.3839548933850747,
      "learning_rate": 1.6713339842985048e-06,
      "loss": 0.4956,
      "step": 4142
    },
    {
      "epoch": 0.7590692561377794,
      "grad_norm": 0.46206809633520224,
      "learning_rate": 1.6689484431863785e-06,
      "loss": 0.4615,
      "step": 4143
    },
    {
      "epoch": 0.7592524734334921,
      "grad_norm": 0.45184103157453875,
      "learning_rate": 1.6665642646616543e-06,
      "loss": 0.5115,
      "step": 4144
    },
    {
      "epoch": 0.7594356907292048,
      "grad_norm": 0.35105233040858413,
      "learning_rate": 1.6641814496995923e-06,
      "loss": 0.4552,
      "step": 4145
    },
    {
      "epoch": 0.7596189080249176,
      "grad_norm": 0.4067670583647117,
      "learning_rate": 1.6617999992749018e-06,
      "loss": 0.423,
      "step": 4146
    },
    {
      "epoch": 0.7598021253206303,
      "grad_norm": 0.3320446448998926,
      "learning_rate": 1.6594199143617252e-06,
      "loss": 0.4698,
      "step": 4147
    },
    {
      "epoch": 0.759985342616343,
      "grad_norm": 0.3456835617701573,
      "learning_rate": 1.6570411959336558e-06,
      "loss": 0.4348,
      "step": 4148
    },
    {
      "epoch": 0.7601685599120557,
      "grad_norm": 0.35509330605599865,
      "learning_rate": 1.6546638449637187e-06,
      "loss": 0.4897,
      "step": 4149
    },
    {
      "epoch": 0.7603517772077684,
      "grad_norm": 0.39661692300679996,
      "learning_rate": 1.6522878624243881e-06,
      "loss": 0.4486,
      "step": 4150
    },
    {
      "epoch": 0.7605349945034812,
      "grad_norm": 0.3464123244994105,
      "learning_rate": 1.6499132492875712e-06,
      "loss": 0.453,
      "step": 4151
    },
    {
      "epoch": 0.7607182117991939,
      "grad_norm": 0.3539553427373948,
      "learning_rate": 1.6475400065246217e-06,
      "loss": 0.4907,
      "step": 4152
    },
    {
      "epoch": 0.7609014290949065,
      "grad_norm": 0.3533453346303954,
      "learning_rate": 1.6451681351063258e-06,
      "loss": 0.4509,
      "step": 4153
    },
    {
      "epoch": 0.7610846463906192,
      "grad_norm": 0.40404966516344104,
      "learning_rate": 1.6427976360029151e-06,
      "loss": 0.4804,
      "step": 4154
    },
    {
      "epoch": 0.761267863686332,
      "grad_norm": 0.3750616991341421,
      "learning_rate": 1.6404285101840567e-06,
      "loss": 0.4466,
      "step": 4155
    },
    {
      "epoch": 0.7614510809820447,
      "grad_norm": 0.4456100894903707,
      "learning_rate": 1.6380607586188528e-06,
      "loss": 0.4605,
      "step": 4156
    },
    {
      "epoch": 0.7616342982777574,
      "grad_norm": 0.4352429161943705,
      "learning_rate": 1.635694382275851e-06,
      "loss": 0.4791,
      "step": 4157
    },
    {
      "epoch": 0.7618175155734701,
      "grad_norm": 0.36615705419495553,
      "learning_rate": 1.633329382123031e-06,
      "loss": 0.4606,
      "step": 4158
    },
    {
      "epoch": 0.7620007328691829,
      "grad_norm": 0.3801812307833013,
      "learning_rate": 1.6309657591278117e-06,
      "loss": 0.4785,
      "step": 4159
    },
    {
      "epoch": 0.7621839501648956,
      "grad_norm": 0.38130134781278163,
      "learning_rate": 1.628603514257045e-06,
      "loss": 0.446,
      "step": 4160
    },
    {
      "epoch": 0.7623671674606083,
      "grad_norm": 0.37170322054903127,
      "learning_rate": 1.6262426484770239e-06,
      "loss": 0.4857,
      "step": 4161
    },
    {
      "epoch": 0.762550384756321,
      "grad_norm": 0.38757657832913417,
      "learning_rate": 1.6238831627534768e-06,
      "loss": 0.4301,
      "step": 4162
    },
    {
      "epoch": 0.7627336020520337,
      "grad_norm": 0.3353446683382116,
      "learning_rate": 1.621525058051564e-06,
      "loss": 0.4387,
      "step": 4163
    },
    {
      "epoch": 0.7629168193477465,
      "grad_norm": 0.36850221103539726,
      "learning_rate": 1.6191683353358823e-06,
      "loss": 0.4746,
      "step": 4164
    },
    {
      "epoch": 0.7631000366434592,
      "grad_norm": 0.34589362198209417,
      "learning_rate": 1.6168129955704641e-06,
      "loss": 0.4619,
      "step": 4165
    },
    {
      "epoch": 0.7632832539391718,
      "grad_norm": 0.36619617381064873,
      "learning_rate": 1.614459039718778e-06,
      "loss": 0.4985,
      "step": 4166
    },
    {
      "epoch": 0.7634664712348845,
      "grad_norm": 0.34564674778188265,
      "learning_rate": 1.6121064687437239e-06,
      "loss": 0.4494,
      "step": 4167
    },
    {
      "epoch": 0.7636496885305973,
      "grad_norm": 0.3641431122407145,
      "learning_rate": 1.609755283607632e-06,
      "loss": 0.4913,
      "step": 4168
    },
    {
      "epoch": 0.76383290582631,
      "grad_norm": 0.3858309338681685,
      "learning_rate": 1.6074054852722721e-06,
      "loss": 0.4599,
      "step": 4169
    },
    {
      "epoch": 0.7640161231220227,
      "grad_norm": 0.4003061856987761,
      "learning_rate": 1.6050570746988469e-06,
      "loss": 0.4348,
      "step": 4170
    },
    {
      "epoch": 0.7641993404177354,
      "grad_norm": 0.33650621796585883,
      "learning_rate": 1.6027100528479816e-06,
      "loss": 0.4761,
      "step": 4171
    },
    {
      "epoch": 0.7643825577134481,
      "grad_norm": 0.3269855918796489,
      "learning_rate": 1.6003644206797436e-06,
      "loss": 0.4811,
      "step": 4172
    },
    {
      "epoch": 0.7645657750091609,
      "grad_norm": 0.3529860976319853,
      "learning_rate": 1.5980201791536298e-06,
      "loss": 0.4661,
      "step": 4173
    },
    {
      "epoch": 0.7647489923048736,
      "grad_norm": 0.3644002955222909,
      "learning_rate": 1.5956773292285655e-06,
      "loss": 0.4748,
      "step": 4174
    },
    {
      "epoch": 0.7649322096005863,
      "grad_norm": 0.314339830950356,
      "learning_rate": 1.593335871862906e-06,
      "loss": 0.4082,
      "step": 4175
    },
    {
      "epoch": 0.765115426896299,
      "grad_norm": 0.41446388760044756,
      "learning_rate": 1.590995808014441e-06,
      "loss": 0.4712,
      "step": 4176
    },
    {
      "epoch": 0.7652986441920118,
      "grad_norm": 0.3812122482641003,
      "learning_rate": 1.5886571386403898e-06,
      "loss": 0.5068,
      "step": 4177
    },
    {
      "epoch": 0.7654818614877245,
      "grad_norm": 0.3543458154295496,
      "learning_rate": 1.5863198646973976e-06,
      "loss": 0.4696,
      "step": 4178
    },
    {
      "epoch": 0.7656650787834371,
      "grad_norm": 0.40835369049952497,
      "learning_rate": 1.5839839871415403e-06,
      "loss": 0.4509,
      "step": 4179
    },
    {
      "epoch": 0.7658482960791498,
      "grad_norm": 0.385025035615343,
      "learning_rate": 1.5816495069283234e-06,
      "loss": 0.4814,
      "step": 4180
    },
    {
      "epoch": 0.7660315133748626,
      "grad_norm": 0.3514251086381649,
      "learning_rate": 1.5793164250126835e-06,
      "loss": 0.4617,
      "step": 4181
    },
    {
      "epoch": 0.7662147306705753,
      "grad_norm": 0.4013212525588526,
      "learning_rate": 1.5769847423489797e-06,
      "loss": 0.5075,
      "step": 4182
    },
    {
      "epoch": 0.766397947966288,
      "grad_norm": 0.32102329335479796,
      "learning_rate": 1.5746544598910007e-06,
      "loss": 0.4834,
      "step": 4183
    },
    {
      "epoch": 0.7665811652620007,
      "grad_norm": 0.35662707150689005,
      "learning_rate": 1.5723255785919634e-06,
      "loss": 0.4789,
      "step": 4184
    },
    {
      "epoch": 0.7667643825577134,
      "grad_norm": 0.33365195770538464,
      "learning_rate": 1.569998099404514e-06,
      "loss": 0.4808,
      "step": 4185
    },
    {
      "epoch": 0.7669475998534262,
      "grad_norm": 0.3442342328140645,
      "learning_rate": 1.5676720232807202e-06,
      "loss": 0.4782,
      "step": 4186
    },
    {
      "epoch": 0.7671308171491389,
      "grad_norm": 0.454415288803408,
      "learning_rate": 1.5653473511720762e-06,
      "loss": 0.4583,
      "step": 4187
    },
    {
      "epoch": 0.7673140344448516,
      "grad_norm": 0.30923761265789995,
      "learning_rate": 1.5630240840295058e-06,
      "loss": 0.4145,
      "step": 4188
    },
    {
      "epoch": 0.7674972517405643,
      "grad_norm": 0.4047111527877341,
      "learning_rate": 1.560702222803357e-06,
      "loss": 0.4656,
      "step": 4189
    },
    {
      "epoch": 0.7676804690362771,
      "grad_norm": 0.3903732999900964,
      "learning_rate": 1.5583817684433998e-06,
      "loss": 0.4426,
      "step": 4190
    },
    {
      "epoch": 0.7678636863319898,
      "grad_norm": 0.35865130783591553,
      "learning_rate": 1.5560627218988294e-06,
      "loss": 0.4828,
      "step": 4191
    },
    {
      "epoch": 0.7680469036277024,
      "grad_norm": 0.33980355275347973,
      "learning_rate": 1.5537450841182694e-06,
      "loss": 0.4604,
      "step": 4192
    },
    {
      "epoch": 0.7682301209234151,
      "grad_norm": 0.4319578260358002,
      "learning_rate": 1.5514288560497608e-06,
      "loss": 0.4803,
      "step": 4193
    },
    {
      "epoch": 0.7684133382191279,
      "grad_norm": 0.39328076739054296,
      "learning_rate": 1.5491140386407739e-06,
      "loss": 0.5101,
      "step": 4194
    },
    {
      "epoch": 0.7685965555148406,
      "grad_norm": 0.3735467963804508,
      "learning_rate": 1.5468006328381968e-06,
      "loss": 0.4466,
      "step": 4195
    },
    {
      "epoch": 0.7687797728105533,
      "grad_norm": 0.3733647141412181,
      "learning_rate": 1.5444886395883446e-06,
      "loss": 0.5102,
      "step": 4196
    },
    {
      "epoch": 0.768962990106266,
      "grad_norm": 0.442033262728887,
      "learning_rate": 1.5421780598369507e-06,
      "loss": 0.505,
      "step": 4197
    },
    {
      "epoch": 0.7691462074019787,
      "grad_norm": 0.3592033145540987,
      "learning_rate": 1.539868894529174e-06,
      "loss": 0.4549,
      "step": 4198
    },
    {
      "epoch": 0.7693294246976915,
      "grad_norm": 0.5395142317646816,
      "learning_rate": 1.5375611446095905e-06,
      "loss": 0.4287,
      "step": 4199
    },
    {
      "epoch": 0.7695126419934042,
      "grad_norm": 0.3626109983260122,
      "learning_rate": 1.5352548110222033e-06,
      "loss": 0.4512,
      "step": 4200
    },
    {
      "epoch": 0.7696958592891169,
      "grad_norm": 0.3737644873913779,
      "learning_rate": 1.5329498947104287e-06,
      "loss": 0.4359,
      "step": 4201
    },
    {
      "epoch": 0.7698790765848296,
      "grad_norm": 0.36092771862388157,
      "learning_rate": 1.5306463966171103e-06,
      "loss": 0.4575,
      "step": 4202
    },
    {
      "epoch": 0.7700622938805424,
      "grad_norm": 0.3311537515837117,
      "learning_rate": 1.5283443176845053e-06,
      "loss": 0.4253,
      "step": 4203
    },
    {
      "epoch": 0.7702455111762551,
      "grad_norm": 0.4015094204372302,
      "learning_rate": 1.5260436588542965e-06,
      "loss": 0.4626,
      "step": 4204
    },
    {
      "epoch": 0.7704287284719677,
      "grad_norm": 0.42399651635104585,
      "learning_rate": 1.5237444210675795e-06,
      "loss": 0.4721,
      "step": 4205
    },
    {
      "epoch": 0.7706119457676804,
      "grad_norm": 0.3769294067423412,
      "learning_rate": 1.5214466052648758e-06,
      "loss": 0.4454,
      "step": 4206
    },
    {
      "epoch": 0.7707951630633931,
      "grad_norm": 0.40721140381541165,
      "learning_rate": 1.5191502123861185e-06,
      "loss": 0.4635,
      "step": 4207
    },
    {
      "epoch": 0.7709783803591059,
      "grad_norm": 0.37894938125189215,
      "learning_rate": 1.5168552433706608e-06,
      "loss": 0.4532,
      "step": 4208
    },
    {
      "epoch": 0.7711615976548186,
      "grad_norm": 0.3583657848512605,
      "learning_rate": 1.5145616991572747e-06,
      "loss": 0.4371,
      "step": 4209
    },
    {
      "epoch": 0.7713448149505313,
      "grad_norm": 0.3661693636774428,
      "learning_rate": 1.5122695806841514e-06,
      "loss": 0.4598,
      "step": 4210
    },
    {
      "epoch": 0.771528032246244,
      "grad_norm": 0.3872875724422321,
      "learning_rate": 1.509978888888894e-06,
      "loss": 0.4822,
      "step": 4211
    },
    {
      "epoch": 0.7717112495419568,
      "grad_norm": 0.38763223126774926,
      "learning_rate": 1.5076896247085226e-06,
      "loss": 0.4907,
      "step": 4212
    },
    {
      "epoch": 0.7718944668376695,
      "grad_norm": 0.35769111954228433,
      "learning_rate": 1.505401789079477e-06,
      "loss": 0.4743,
      "step": 4213
    },
    {
      "epoch": 0.7720776841333822,
      "grad_norm": 0.368590737774548,
      "learning_rate": 1.503115382937612e-06,
      "loss": 0.4714,
      "step": 4214
    },
    {
      "epoch": 0.7722609014290949,
      "grad_norm": 0.4025154190887305,
      "learning_rate": 1.500830407218195e-06,
      "loss": 0.4548,
      "step": 4215
    },
    {
      "epoch": 0.7724441187248077,
      "grad_norm": 0.4242777210067457,
      "learning_rate": 1.4985468628559074e-06,
      "loss": 0.4974,
      "step": 4216
    },
    {
      "epoch": 0.7726273360205204,
      "grad_norm": 0.31382590051865583,
      "learning_rate": 1.4962647507848489e-06,
      "loss": 0.4106,
      "step": 4217
    },
    {
      "epoch": 0.772810553316233,
      "grad_norm": 0.3475998819815029,
      "learning_rate": 1.493984071938534e-06,
      "loss": 0.468,
      "step": 4218
    },
    {
      "epoch": 0.7729937706119457,
      "grad_norm": 0.34653937296882287,
      "learning_rate": 1.4917048272498862e-06,
      "loss": 0.4448,
      "step": 4219
    },
    {
      "epoch": 0.7731769879076584,
      "grad_norm": 0.37297449403274,
      "learning_rate": 1.4894270176512431e-06,
      "loss": 0.42,
      "step": 4220
    },
    {
      "epoch": 0.7733602052033712,
      "grad_norm": 0.3991617672322749,
      "learning_rate": 1.4871506440743594e-06,
      "loss": 0.4385,
      "step": 4221
    },
    {
      "epoch": 0.7735434224990839,
      "grad_norm": 0.3824646545144206,
      "learning_rate": 1.4848757074504022e-06,
      "loss": 0.4696,
      "step": 4222
    },
    {
      "epoch": 0.7737266397947966,
      "grad_norm": 0.31946947825954536,
      "learning_rate": 1.482602208709943e-06,
      "loss": 0.4291,
      "step": 4223
    },
    {
      "epoch": 0.7739098570905093,
      "grad_norm": 0.32384181752907243,
      "learning_rate": 1.4803301487829724e-06,
      "loss": 0.4732,
      "step": 4224
    },
    {
      "epoch": 0.7740930743862221,
      "grad_norm": 0.3413473241442703,
      "learning_rate": 1.4780595285988926e-06,
      "loss": 0.45,
      "step": 4225
    },
    {
      "epoch": 0.7742762916819348,
      "grad_norm": 0.3926313230738948,
      "learning_rate": 1.4757903490865161e-06,
      "loss": 0.4797,
      "step": 4226
    },
    {
      "epoch": 0.7744595089776475,
      "grad_norm": 0.4057802372281518,
      "learning_rate": 1.4735226111740603e-06,
      "loss": 0.4713,
      "step": 4227
    },
    {
      "epoch": 0.7746427262733602,
      "grad_norm": 0.3452989925591827,
      "learning_rate": 1.471256315789159e-06,
      "loss": 0.4456,
      "step": 4228
    },
    {
      "epoch": 0.774825943569073,
      "grad_norm": 0.3587563978512209,
      "learning_rate": 1.4689914638588576e-06,
      "loss": 0.4718,
      "step": 4229
    },
    {
      "epoch": 0.7750091608647857,
      "grad_norm": 0.36869921606926875,
      "learning_rate": 1.466728056309606e-06,
      "loss": 0.4826,
      "step": 4230
    },
    {
      "epoch": 0.7751923781604984,
      "grad_norm": 0.46525249605615593,
      "learning_rate": 1.4644660940672628e-06,
      "loss": 0.4451,
      "step": 4231
    },
    {
      "epoch": 0.775375595456211,
      "grad_norm": 0.3790786257091947,
      "learning_rate": 1.4622055780570998e-06,
      "loss": 0.4966,
      "step": 4232
    },
    {
      "epoch": 0.7755588127519237,
      "grad_norm": 0.40297734518599043,
      "learning_rate": 1.4599465092037972e-06,
      "loss": 0.4553,
      "step": 4233
    },
    {
      "epoch": 0.7757420300476365,
      "grad_norm": 0.32038981146950085,
      "learning_rate": 1.457688888431439e-06,
      "loss": 0.4586,
      "step": 4234
    },
    {
      "epoch": 0.7759252473433492,
      "grad_norm": 0.3411044943658708,
      "learning_rate": 1.4554327166635173e-06,
      "loss": 0.4438,
      "step": 4235
    },
    {
      "epoch": 0.7761084646390619,
      "grad_norm": 0.3810814204685612,
      "learning_rate": 1.4531779948229352e-06,
      "loss": 0.5268,
      "step": 4236
    },
    {
      "epoch": 0.7762916819347746,
      "grad_norm": 0.3846917874458302,
      "learning_rate": 1.450924723832004e-06,
      "loss": 0.4913,
      "step": 4237
    },
    {
      "epoch": 0.7764748992304874,
      "grad_norm": 0.34488136187377955,
      "learning_rate": 1.448672904612432e-06,
      "loss": 0.4635,
      "step": 4238
    },
    {
      "epoch": 0.7766581165262001,
      "grad_norm": 0.34879248585022016,
      "learning_rate": 1.4464225380853424e-06,
      "loss": 0.4917,
      "step": 4239
    },
    {
      "epoch": 0.7768413338219128,
      "grad_norm": 0.3512419617121299,
      "learning_rate": 1.4441736251712618e-06,
      "loss": 0.4873,
      "step": 4240
    },
    {
      "epoch": 0.7770245511176255,
      "grad_norm": 0.3614433426020675,
      "learning_rate": 1.4419261667901263e-06,
      "loss": 0.4771,
      "step": 4241
    },
    {
      "epoch": 0.7772077684133383,
      "grad_norm": 0.3484288404288865,
      "learning_rate": 1.4396801638612651e-06,
      "loss": 0.467,
      "step": 4242
    },
    {
      "epoch": 0.777390985709051,
      "grad_norm": 0.36531882658799253,
      "learning_rate": 1.4374356173034232e-06,
      "loss": 0.4651,
      "step": 4243
    },
    {
      "epoch": 0.7775742030047637,
      "grad_norm": 0.36660115110869784,
      "learning_rate": 1.4351925280347483e-06,
      "loss": 0.4382,
      "step": 4244
    },
    {
      "epoch": 0.7777574203004763,
      "grad_norm": 0.373638355172436,
      "learning_rate": 1.432950896972788e-06,
      "loss": 0.4687,
      "step": 4245
    },
    {
      "epoch": 0.777940637596189,
      "grad_norm": 0.3842026017085754,
      "learning_rate": 1.4307107250344943e-06,
      "loss": 0.4786,
      "step": 4246
    },
    {
      "epoch": 0.7781238548919018,
      "grad_norm": 0.39885735283836576,
      "learning_rate": 1.4284720131362251e-06,
      "loss": 0.4565,
      "step": 4247
    },
    {
      "epoch": 0.7783070721876145,
      "grad_norm": 0.32413558436040535,
      "learning_rate": 1.4262347621937407e-06,
      "loss": 0.4188,
      "step": 4248
    },
    {
      "epoch": 0.7784902894833272,
      "grad_norm": 0.3199825820361419,
      "learning_rate": 1.4239989731222008e-06,
      "loss": 0.4753,
      "step": 4249
    },
    {
      "epoch": 0.7786735067790399,
      "grad_norm": 0.3866048150203384,
      "learning_rate": 1.4217646468361678e-06,
      "loss": 0.4719,
      "step": 4250
    },
    {
      "epoch": 0.7788567240747527,
      "grad_norm": 0.33398457863101333,
      "learning_rate": 1.4195317842496081e-06,
      "loss": 0.4501,
      "step": 4251
    },
    {
      "epoch": 0.7790399413704654,
      "grad_norm": 0.37438075278743793,
      "learning_rate": 1.41730038627589e-06,
      "loss": 0.486,
      "step": 4252
    },
    {
      "epoch": 0.7792231586661781,
      "grad_norm": 0.3491717754374234,
      "learning_rate": 1.4150704538277787e-06,
      "loss": 0.4569,
      "step": 4253
    },
    {
      "epoch": 0.7794063759618908,
      "grad_norm": 0.2925615976398129,
      "learning_rate": 1.4128419878174404e-06,
      "loss": 0.4572,
      "step": 4254
    },
    {
      "epoch": 0.7795895932576035,
      "grad_norm": 0.36550934487284253,
      "learning_rate": 1.4106149891564446e-06,
      "loss": 0.4496,
      "step": 4255
    },
    {
      "epoch": 0.7797728105533163,
      "grad_norm": 0.33090577008304595,
      "learning_rate": 1.4083894587557611e-06,
      "loss": 0.478,
      "step": 4256
    },
    {
      "epoch": 0.779956027849029,
      "grad_norm": 0.39536060323763084,
      "learning_rate": 1.4061653975257543e-06,
      "loss": 0.4555,
      "step": 4257
    },
    {
      "epoch": 0.7801392451447416,
      "grad_norm": 0.33484107350738446,
      "learning_rate": 1.40394280637619e-06,
      "loss": 0.487,
      "step": 4258
    },
    {
      "epoch": 0.7803224624404543,
      "grad_norm": 0.3963614209290271,
      "learning_rate": 1.4017216862162358e-06,
      "loss": 0.4752,
      "step": 4259
    },
    {
      "epoch": 0.7805056797361671,
      "grad_norm": 0.3819513315128331,
      "learning_rate": 1.3995020379544511e-06,
      "loss": 0.4418,
      "step": 4260
    },
    {
      "epoch": 0.7806888970318798,
      "grad_norm": 0.3818285149584103,
      "learning_rate": 1.3972838624988e-06,
      "loss": 0.4868,
      "step": 4261
    },
    {
      "epoch": 0.7808721143275925,
      "grad_norm": 0.3597367747320405,
      "learning_rate": 1.3950671607566379e-06,
      "loss": 0.4256,
      "step": 4262
    },
    {
      "epoch": 0.7810553316233052,
      "grad_norm": 0.3730154734054765,
      "learning_rate": 1.3928519336347246e-06,
      "loss": 0.436,
      "step": 4263
    },
    {
      "epoch": 0.781238548919018,
      "grad_norm": 0.3646722112923301,
      "learning_rate": 1.3906381820392078e-06,
      "loss": 0.4764,
      "step": 4264
    },
    {
      "epoch": 0.7814217662147307,
      "grad_norm": 0.32776218110740013,
      "learning_rate": 1.3884259068756405e-06,
      "loss": 0.4931,
      "step": 4265
    },
    {
      "epoch": 0.7816049835104434,
      "grad_norm": 0.36847017159944145,
      "learning_rate": 1.386215109048965e-06,
      "loss": 0.4492,
      "step": 4266
    },
    {
      "epoch": 0.7817882008061561,
      "grad_norm": 0.3715592107491827,
      "learning_rate": 1.3840057894635239e-06,
      "loss": 0.4985,
      "step": 4267
    },
    {
      "epoch": 0.7819714181018688,
      "grad_norm": 0.36107516640793513,
      "learning_rate": 1.3817979490230504e-06,
      "loss": 0.4565,
      "step": 4268
    },
    {
      "epoch": 0.7821546353975816,
      "grad_norm": 0.41991905805528,
      "learning_rate": 1.3795915886306788e-06,
      "loss": 0.4747,
      "step": 4269
    },
    {
      "epoch": 0.7823378526932943,
      "grad_norm": 0.43970955495464925,
      "learning_rate": 1.3773867091889314e-06,
      "loss": 0.4588,
      "step": 4270
    },
    {
      "epoch": 0.782521069989007,
      "grad_norm": 0.3788182062414767,
      "learning_rate": 1.375183311599731e-06,
      "loss": 0.4669,
      "step": 4271
    },
    {
      "epoch": 0.7827042872847196,
      "grad_norm": 0.37028250258956347,
      "learning_rate": 1.3729813967643874e-06,
      "loss": 0.4784,
      "step": 4272
    },
    {
      "epoch": 0.7828875045804324,
      "grad_norm": 0.3867900156936939,
      "learning_rate": 1.3707809655836118e-06,
      "loss": 0.4897,
      "step": 4273
    },
    {
      "epoch": 0.7830707218761451,
      "grad_norm": 0.38057234870413315,
      "learning_rate": 1.3685820189575016e-06,
      "loss": 0.4581,
      "step": 4274
    },
    {
      "epoch": 0.7832539391718578,
      "grad_norm": 0.39588496774229404,
      "learning_rate": 1.3663845577855489e-06,
      "loss": 0.485,
      "step": 4275
    },
    {
      "epoch": 0.7834371564675705,
      "grad_norm": 0.399184532051107,
      "learning_rate": 1.3641885829666402e-06,
      "loss": 0.509,
      "step": 4276
    },
    {
      "epoch": 0.7836203737632833,
      "grad_norm": 0.3306604176396543,
      "learning_rate": 1.361994095399054e-06,
      "loss": 0.4773,
      "step": 4277
    },
    {
      "epoch": 0.783803591058996,
      "grad_norm": 0.4116985333231267,
      "learning_rate": 1.3598010959804581e-06,
      "loss": 0.4967,
      "step": 4278
    },
    {
      "epoch": 0.7839868083547087,
      "grad_norm": 0.38816292483749887,
      "learning_rate": 1.3576095856079103e-06,
      "loss": 0.5005,
      "step": 4279
    },
    {
      "epoch": 0.7841700256504214,
      "grad_norm": 0.37339570240461945,
      "learning_rate": 1.3554195651778635e-06,
      "loss": 0.4727,
      "step": 4280
    },
    {
      "epoch": 0.7843532429461341,
      "grad_norm": 0.4139138005983736,
      "learning_rate": 1.353231035586161e-06,
      "loss": 0.4577,
      "step": 4281
    },
    {
      "epoch": 0.7845364602418469,
      "grad_norm": 0.380168189362039,
      "learning_rate": 1.3510439977280321e-06,
      "loss": 0.4941,
      "step": 4282
    },
    {
      "epoch": 0.7847196775375596,
      "grad_norm": 0.35535538182553233,
      "learning_rate": 1.348858452498098e-06,
      "loss": 0.4814,
      "step": 4283
    },
    {
      "epoch": 0.7849028948332722,
      "grad_norm": 1.687367525349789,
      "learning_rate": 1.3466744007903703e-06,
      "loss": 0.4494,
      "step": 4284
    },
    {
      "epoch": 0.7850861121289849,
      "grad_norm": 0.3616108945114174,
      "learning_rate": 1.3444918434982508e-06,
      "loss": 0.463,
      "step": 4285
    },
    {
      "epoch": 0.7852693294246977,
      "grad_norm": 0.3273505313207282,
      "learning_rate": 1.3423107815145258e-06,
      "loss": 0.4695,
      "step": 4286
    },
    {
      "epoch": 0.7854525467204104,
      "grad_norm": 0.37043645219640614,
      "learning_rate": 1.3401312157313718e-06,
      "loss": 0.4673,
      "step": 4287
    },
    {
      "epoch": 0.7856357640161231,
      "grad_norm": 0.42054382225617815,
      "learning_rate": 1.337953147040355e-06,
      "loss": 0.4816,
      "step": 4288
    },
    {
      "epoch": 0.7858189813118358,
      "grad_norm": 0.3725066069026344,
      "learning_rate": 1.3357765763324292e-06,
      "loss": 0.4588,
      "step": 4289
    },
    {
      "epoch": 0.7860021986075486,
      "grad_norm": 0.44984578148010945,
      "learning_rate": 1.3336015044979334e-06,
      "loss": 0.4619,
      "step": 4290
    },
    {
      "epoch": 0.7861854159032613,
      "grad_norm": 0.3251094395904671,
      "learning_rate": 1.3314279324265922e-06,
      "loss": 0.467,
      "step": 4291
    },
    {
      "epoch": 0.786368633198974,
      "grad_norm": 0.3785278657991632,
      "learning_rate": 1.3292558610075202e-06,
      "loss": 0.4533,
      "step": 4292
    },
    {
      "epoch": 0.7865518504946867,
      "grad_norm": 0.33247256342503656,
      "learning_rate": 1.3270852911292205e-06,
      "loss": 0.4425,
      "step": 4293
    },
    {
      "epoch": 0.7867350677903994,
      "grad_norm": 0.3402317258710267,
      "learning_rate": 1.324916223679571e-06,
      "loss": 0.4593,
      "step": 4294
    },
    {
      "epoch": 0.7869182850861122,
      "grad_norm": 0.41370625054005633,
      "learning_rate": 1.322748659545846e-06,
      "loss": 0.4747,
      "step": 4295
    },
    {
      "epoch": 0.7871015023818249,
      "grad_norm": 0.32955713174828827,
      "learning_rate": 1.3205825996147032e-06,
      "loss": 0.4594,
      "step": 4296
    },
    {
      "epoch": 0.7872847196775375,
      "grad_norm": 0.3691023172258719,
      "learning_rate": 1.31841804477218e-06,
      "loss": 0.4353,
      "step": 4297
    },
    {
      "epoch": 0.7874679369732502,
      "grad_norm": 0.44060467171937595,
      "learning_rate": 1.3162549959037008e-06,
      "loss": 0.4525,
      "step": 4298
    },
    {
      "epoch": 0.787651154268963,
      "grad_norm": 0.4016940695728928,
      "learning_rate": 1.3140934538940754e-06,
      "loss": 0.476,
      "step": 4299
    },
    {
      "epoch": 0.7878343715646757,
      "grad_norm": 0.3665046025808825,
      "learning_rate": 1.3119334196274973e-06,
      "loss": 0.4811,
      "step": 4300
    },
    {
      "epoch": 0.7880175888603884,
      "grad_norm": 0.8868487082909676,
      "learning_rate": 1.3097748939875405e-06,
      "loss": 0.4712,
      "step": 4301
    },
    {
      "epoch": 0.7882008061561011,
      "grad_norm": 0.36745576578124317,
      "learning_rate": 1.307617877857162e-06,
      "loss": 0.4754,
      "step": 4302
    },
    {
      "epoch": 0.7883840234518138,
      "grad_norm": 0.3730248217971587,
      "learning_rate": 1.3054623721187044e-06,
      "loss": 0.4307,
      "step": 4303
    },
    {
      "epoch": 0.7885672407475266,
      "grad_norm": 0.42274610605900004,
      "learning_rate": 1.3033083776538913e-06,
      "loss": 0.4425,
      "step": 4304
    },
    {
      "epoch": 0.7887504580432393,
      "grad_norm": 0.3655393687186923,
      "learning_rate": 1.3011558953438275e-06,
      "loss": 0.4522,
      "step": 4305
    },
    {
      "epoch": 0.788933675338952,
      "grad_norm": 0.37414296465784624,
      "learning_rate": 1.2990049260689968e-06,
      "loss": 0.4443,
      "step": 4306
    },
    {
      "epoch": 0.7891168926346647,
      "grad_norm": 0.3417181289402449,
      "learning_rate": 1.2968554707092684e-06,
      "loss": 0.454,
      "step": 4307
    },
    {
      "epoch": 0.7893001099303775,
      "grad_norm": 0.5079584196429107,
      "learning_rate": 1.2947075301438917e-06,
      "loss": 0.4828,
      "step": 4308
    },
    {
      "epoch": 0.7894833272260902,
      "grad_norm": 0.3318668850813015,
      "learning_rate": 1.2925611052514936e-06,
      "loss": 0.4544,
      "step": 4309
    },
    {
      "epoch": 0.7896665445218028,
      "grad_norm": 0.4344267616965659,
      "learning_rate": 1.2904161969100821e-06,
      "loss": 0.4715,
      "step": 4310
    },
    {
      "epoch": 0.7898497618175155,
      "grad_norm": 0.3687021074624977,
      "learning_rate": 1.2882728059970467e-06,
      "loss": 0.4606,
      "step": 4311
    },
    {
      "epoch": 0.7900329791132283,
      "grad_norm": 0.4643355087722742,
      "learning_rate": 1.2861309333891531e-06,
      "loss": 0.4799,
      "step": 4312
    },
    {
      "epoch": 0.790216196408941,
      "grad_norm": 0.37056139711117714,
      "learning_rate": 1.2839905799625502e-06,
      "loss": 0.4973,
      "step": 4313
    },
    {
      "epoch": 0.7903994137046537,
      "grad_norm": 0.3223767446325161,
      "learning_rate": 1.2818517465927598e-06,
      "loss": 0.4344,
      "step": 4314
    },
    {
      "epoch": 0.7905826310003664,
      "grad_norm": 0.4233916390777898,
      "learning_rate": 1.2797144341546886e-06,
      "loss": 0.462,
      "step": 4315
    },
    {
      "epoch": 0.7907658482960791,
      "grad_norm": 0.36142948649438467,
      "learning_rate": 1.2775786435226134e-06,
      "loss": 0.42,
      "step": 4316
    },
    {
      "epoch": 0.7909490655917919,
      "grad_norm": 0.36382775202555373,
      "learning_rate": 1.2754443755701968e-06,
      "loss": 0.4645,
      "step": 4317
    },
    {
      "epoch": 0.7911322828875046,
      "grad_norm": 0.3608224174816189,
      "learning_rate": 1.2733116311704708e-06,
      "loss": 0.4939,
      "step": 4318
    },
    {
      "epoch": 0.7913155001832173,
      "grad_norm": 0.35092615184678505,
      "learning_rate": 1.271180411195851e-06,
      "loss": 0.4863,
      "step": 4319
    },
    {
      "epoch": 0.79149871747893,
      "grad_norm": 0.34005370769868437,
      "learning_rate": 1.269050716518123e-06,
      "loss": 0.4446,
      "step": 4320
    },
    {
      "epoch": 0.7916819347746428,
      "grad_norm": 0.38812334405000143,
      "learning_rate": 1.2669225480084552e-06,
      "loss": 0.4712,
      "step": 4321
    },
    {
      "epoch": 0.7918651520703555,
      "grad_norm": 0.43360901277203484,
      "learning_rate": 1.264795906537385e-06,
      "loss": 0.4871,
      "step": 4322
    },
    {
      "epoch": 0.7920483693660682,
      "grad_norm": 0.4188394515602809,
      "learning_rate": 1.262670792974831e-06,
      "loss": 0.4442,
      "step": 4323
    },
    {
      "epoch": 0.7922315866617808,
      "grad_norm": 0.34094786611303396,
      "learning_rate": 1.260547208190081e-06,
      "loss": 0.4715,
      "step": 4324
    },
    {
      "epoch": 0.7924148039574936,
      "grad_norm": 0.34629672440714093,
      "learning_rate": 1.2584251530518043e-06,
      "loss": 0.4594,
      "step": 4325
    },
    {
      "epoch": 0.7925980212532063,
      "grad_norm": 0.3521557556579978,
      "learning_rate": 1.2563046284280377e-06,
      "loss": 0.4993,
      "step": 4326
    },
    {
      "epoch": 0.792781238548919,
      "grad_norm": 0.4782575659235454,
      "learning_rate": 1.2541856351861976e-06,
      "loss": 0.4679,
      "step": 4327
    },
    {
      "epoch": 0.7929644558446317,
      "grad_norm": 0.3343947162744187,
      "learning_rate": 1.2520681741930678e-06,
      "loss": 0.4495,
      "step": 4328
    },
    {
      "epoch": 0.7931476731403444,
      "grad_norm": 0.40705124339909976,
      "learning_rate": 1.2499522463148134e-06,
      "loss": 0.4408,
      "step": 4329
    },
    {
      "epoch": 0.7933308904360572,
      "grad_norm": 0.3728257661218358,
      "learning_rate": 1.2478378524169653e-06,
      "loss": 0.4461,
      "step": 4330
    },
    {
      "epoch": 0.7935141077317699,
      "grad_norm": 0.38649163744573345,
      "learning_rate": 1.2457249933644289e-06,
      "loss": 0.4601,
      "step": 4331
    },
    {
      "epoch": 0.7936973250274826,
      "grad_norm": 0.3646925001518044,
      "learning_rate": 1.243613670021483e-06,
      "loss": 0.461,
      "step": 4332
    },
    {
      "epoch": 0.7938805423231953,
      "grad_norm": 0.3830273257319351,
      "learning_rate": 1.241503883251779e-06,
      "loss": 0.4755,
      "step": 4333
    },
    {
      "epoch": 0.7940637596189081,
      "grad_norm": 0.39895799208872956,
      "learning_rate": 1.2393956339183378e-06,
      "loss": 0.4621,
      "step": 4334
    },
    {
      "epoch": 0.7942469769146208,
      "grad_norm": 0.36110765523086696,
      "learning_rate": 1.2372889228835494e-06,
      "loss": 0.4538,
      "step": 4335
    },
    {
      "epoch": 0.7944301942103335,
      "grad_norm": 0.3710208588554927,
      "learning_rate": 1.2351837510091792e-06,
      "loss": 0.4653,
      "step": 4336
    },
    {
      "epoch": 0.7946134115060461,
      "grad_norm": 0.3544845317172887,
      "learning_rate": 1.2330801191563617e-06,
      "loss": 0.4794,
      "step": 4337
    },
    {
      "epoch": 0.7947966288017588,
      "grad_norm": 0.510757540441394,
      "learning_rate": 1.2309780281856005e-06,
      "loss": 0.4627,
      "step": 4338
    },
    {
      "epoch": 0.7949798460974716,
      "grad_norm": 0.430705271678027,
      "learning_rate": 1.2288774789567659e-06,
      "loss": 0.4503,
      "step": 4339
    },
    {
      "epoch": 0.7951630633931843,
      "grad_norm": 0.3551683574176806,
      "learning_rate": 1.226778472329103e-06,
      "loss": 0.4605,
      "step": 4340
    },
    {
      "epoch": 0.795346280688897,
      "grad_norm": 0.33622015949413203,
      "learning_rate": 1.2246810091612255e-06,
      "loss": 0.4531,
      "step": 4341
    },
    {
      "epoch": 0.7955294979846097,
      "grad_norm": 0.3230378019256525,
      "learning_rate": 1.2225850903111115e-06,
      "loss": 0.4492,
      "step": 4342
    },
    {
      "epoch": 0.7957127152803225,
      "grad_norm": 0.3902465336192029,
      "learning_rate": 1.220490716636108e-06,
      "loss": 0.4669,
      "step": 4343
    },
    {
      "epoch": 0.7958959325760352,
      "grad_norm": 0.401011733885209,
      "learning_rate": 1.2183978889929338e-06,
      "loss": 0.4729,
      "step": 4344
    },
    {
      "epoch": 0.7960791498717479,
      "grad_norm": 0.3633379973811808,
      "learning_rate": 1.216306608237675e-06,
      "loss": 0.4775,
      "step": 4345
    },
    {
      "epoch": 0.7962623671674606,
      "grad_norm": 0.34420397215542725,
      "learning_rate": 1.2142168752257788e-06,
      "loss": 0.4539,
      "step": 4346
    },
    {
      "epoch": 0.7964455844631734,
      "grad_norm": 0.3637954212352133,
      "learning_rate": 1.212128690812065e-06,
      "loss": 0.4478,
      "step": 4347
    },
    {
      "epoch": 0.7966288017588861,
      "grad_norm": 0.36818404312358316,
      "learning_rate": 1.210042055850721e-06,
      "loss": 0.4554,
      "step": 4348
    },
    {
      "epoch": 0.7968120190545988,
      "grad_norm": 0.3693162755249909,
      "learning_rate": 1.2079569711952949e-06,
      "loss": 0.4309,
      "step": 4349
    },
    {
      "epoch": 0.7969952363503114,
      "grad_norm": 0.36625951590115813,
      "learning_rate": 1.2058734376987036e-06,
      "loss": 0.4371,
      "step": 4350
    },
    {
      "epoch": 0.7971784536460241,
      "grad_norm": 0.3712938003355549,
      "learning_rate": 1.2037914562132303e-06,
      "loss": 0.4913,
      "step": 4351
    },
    {
      "epoch": 0.7973616709417369,
      "grad_norm": 0.3596821413630336,
      "learning_rate": 1.2017110275905242e-06,
      "loss": 0.4726,
      "step": 4352
    },
    {
      "epoch": 0.7975448882374496,
      "grad_norm": 0.4450409267238231,
      "learning_rate": 1.1996321526815952e-06,
      "loss": 0.4767,
      "step": 4353
    },
    {
      "epoch": 0.7977281055331623,
      "grad_norm": 0.34879634269104026,
      "learning_rate": 1.1975548323368201e-06,
      "loss": 0.4872,
      "step": 4354
    },
    {
      "epoch": 0.797911322828875,
      "grad_norm": 0.3711969884064517,
      "learning_rate": 1.1954790674059401e-06,
      "loss": 0.4876,
      "step": 4355
    },
    {
      "epoch": 0.7980945401245878,
      "grad_norm": 0.3814608762106385,
      "learning_rate": 1.1934048587380614e-06,
      "loss": 0.4751,
      "step": 4356
    },
    {
      "epoch": 0.7982777574203005,
      "grad_norm": 0.36503469451782006,
      "learning_rate": 1.1913322071816508e-06,
      "loss": 0.4403,
      "step": 4357
    },
    {
      "epoch": 0.7984609747160132,
      "grad_norm": 0.40272608111184344,
      "learning_rate": 1.1892611135845377e-06,
      "loss": 0.4938,
      "step": 4358
    },
    {
      "epoch": 0.7986441920117259,
      "grad_norm": 0.4756493978315566,
      "learning_rate": 1.1871915787939176e-06,
      "loss": 0.4554,
      "step": 4359
    },
    {
      "epoch": 0.7988274093074387,
      "grad_norm": 0.4464658741669984,
      "learning_rate": 1.1851236036563475e-06,
      "loss": 0.483,
      "step": 4360
    },
    {
      "epoch": 0.7990106266031514,
      "grad_norm": 0.38328718284689556,
      "learning_rate": 1.1830571890177445e-06,
      "loss": 0.5021,
      "step": 4361
    },
    {
      "epoch": 0.799193843898864,
      "grad_norm": 0.37065782957864374,
      "learning_rate": 1.1809923357233865e-06,
      "loss": 0.4665,
      "step": 4362
    },
    {
      "epoch": 0.7993770611945767,
      "grad_norm": 0.3841809804800641,
      "learning_rate": 1.1789290446179168e-06,
      "loss": 0.4807,
      "step": 4363
    },
    {
      "epoch": 0.7995602784902894,
      "grad_norm": 0.3806962844430292,
      "learning_rate": 1.1768673165453388e-06,
      "loss": 0.4773,
      "step": 4364
    },
    {
      "epoch": 0.7997434957860022,
      "grad_norm": 0.4281880314321846,
      "learning_rate": 1.1748071523490128e-06,
      "loss": 0.4803,
      "step": 4365
    },
    {
      "epoch": 0.7999267130817149,
      "grad_norm": 0.34405712330235033,
      "learning_rate": 1.1727485528716614e-06,
      "loss": 0.481,
      "step": 4366
    },
    {
      "epoch": 0.8001099303774276,
      "grad_norm": 0.3941810159437789,
      "learning_rate": 1.1706915189553697e-06,
      "loss": 0.4362,
      "step": 4367
    },
    {
      "epoch": 0.8002931476731403,
      "grad_norm": 0.4665845163260568,
      "learning_rate": 1.1686360514415785e-06,
      "loss": 0.4885,
      "step": 4368
    },
    {
      "epoch": 0.8004763649688531,
      "grad_norm": 0.32379661690882694,
      "learning_rate": 1.1665821511710906e-06,
      "loss": 0.4326,
      "step": 4369
    },
    {
      "epoch": 0.8006595822645658,
      "grad_norm": 0.3880909485352397,
      "learning_rate": 1.164529818984066e-06,
      "loss": 0.4491,
      "step": 4370
    },
    {
      "epoch": 0.8008427995602785,
      "grad_norm": 0.40272810037657775,
      "learning_rate": 1.1624790557200255e-06,
      "loss": 0.5119,
      "step": 4371
    },
    {
      "epoch": 0.8010260168559912,
      "grad_norm": 0.3793125409371189,
      "learning_rate": 1.1604298622178434e-06,
      "loss": 0.4753,
      "step": 4372
    },
    {
      "epoch": 0.801209234151704,
      "grad_norm": 0.4062136455850809,
      "learning_rate": 1.158382239315759e-06,
      "loss": 0.4569,
      "step": 4373
    },
    {
      "epoch": 0.8013924514474167,
      "grad_norm": 0.3795142877597605,
      "learning_rate": 1.1563361878513623e-06,
      "loss": 0.4316,
      "step": 4374
    },
    {
      "epoch": 0.8015756687431294,
      "grad_norm": 0.40072224290143865,
      "learning_rate": 1.154291708661605e-06,
      "loss": 0.4813,
      "step": 4375
    },
    {
      "epoch": 0.801758886038842,
      "grad_norm": 0.366659585611398,
      "learning_rate": 1.1522488025827927e-06,
      "loss": 0.4479,
      "step": 4376
    },
    {
      "epoch": 0.8019421033345547,
      "grad_norm": 0.3367499766091904,
      "learning_rate": 1.150207470450591e-06,
      "loss": 0.4414,
      "step": 4377
    },
    {
      "epoch": 0.8021253206302675,
      "grad_norm": 0.666426226371213,
      "learning_rate": 1.1481677131000168e-06,
      "loss": 0.4763,
      "step": 4378
    },
    {
      "epoch": 0.8023085379259802,
      "grad_norm": 0.3820411181072656,
      "learning_rate": 1.1461295313654486e-06,
      "loss": 0.4435,
      "step": 4379
    },
    {
      "epoch": 0.8024917552216929,
      "grad_norm": 0.39359593527223125,
      "learning_rate": 1.1440929260806138e-06,
      "loss": 0.4692,
      "step": 4380
    },
    {
      "epoch": 0.8026749725174056,
      "grad_norm": 0.36105377660188126,
      "learning_rate": 1.1420578980786017e-06,
      "loss": 0.4911,
      "step": 4381
    },
    {
      "epoch": 0.8028581898131184,
      "grad_norm": 0.39957962024831023,
      "learning_rate": 1.1400244481918522e-06,
      "loss": 0.4635,
      "step": 4382
    },
    {
      "epoch": 0.8030414071088311,
      "grad_norm": 0.35380277463987786,
      "learning_rate": 1.1379925772521588e-06,
      "loss": 0.4914,
      "step": 4383
    },
    {
      "epoch": 0.8032246244045438,
      "grad_norm": 0.5062571261684051,
      "learning_rate": 1.1359622860906728e-06,
      "loss": 0.4401,
      "step": 4384
    },
    {
      "epoch": 0.8034078417002565,
      "grad_norm": 0.42014717561460646,
      "learning_rate": 1.1339335755378977e-06,
      "loss": 0.4812,
      "step": 4385
    },
    {
      "epoch": 0.8035910589959692,
      "grad_norm": 0.3300525420829916,
      "learning_rate": 1.1319064464236905e-06,
      "loss": 0.45,
      "step": 4386
    },
    {
      "epoch": 0.803774276291682,
      "grad_norm": 0.3662942909996141,
      "learning_rate": 1.129880899577258e-06,
      "loss": 0.4606,
      "step": 4387
    },
    {
      "epoch": 0.8039574935873947,
      "grad_norm": 0.35610961461431373,
      "learning_rate": 1.1278569358271658e-06,
      "loss": 0.4412,
      "step": 4388
    },
    {
      "epoch": 0.8041407108831073,
      "grad_norm": 0.3493862728552464,
      "learning_rate": 1.1258345560013284e-06,
      "loss": 0.466,
      "step": 4389
    },
    {
      "epoch": 0.80432392817882,
      "grad_norm": 0.36281108434312453,
      "learning_rate": 1.1238137609270133e-06,
      "loss": 0.472,
      "step": 4390
    },
    {
      "epoch": 0.8045071454745328,
      "grad_norm": 0.3449032370268849,
      "learning_rate": 1.1217945514308366e-06,
      "loss": 0.436,
      "step": 4391
    },
    {
      "epoch": 0.8046903627702455,
      "grad_norm": 0.5043542193677666,
      "learning_rate": 1.1197769283387704e-06,
      "loss": 0.4626,
      "step": 4392
    },
    {
      "epoch": 0.8048735800659582,
      "grad_norm": 0.3217464944762706,
      "learning_rate": 1.1177608924761375e-06,
      "loss": 0.4531,
      "step": 4393
    },
    {
      "epoch": 0.8050567973616709,
      "grad_norm": 0.3811625731036834,
      "learning_rate": 1.1157464446676086e-06,
      "loss": 0.4852,
      "step": 4394
    },
    {
      "epoch": 0.8052400146573837,
      "grad_norm": 0.4047205089953529,
      "learning_rate": 1.1137335857372045e-06,
      "loss": 0.4609,
      "step": 4395
    },
    {
      "epoch": 0.8054232319530964,
      "grad_norm": 0.42685010940805795,
      "learning_rate": 1.1117223165082985e-06,
      "loss": 0.4462,
      "step": 4396
    },
    {
      "epoch": 0.8056064492488091,
      "grad_norm": 0.33879794317670375,
      "learning_rate": 1.1097126378036171e-06,
      "loss": 0.4355,
      "step": 4397
    },
    {
      "epoch": 0.8057896665445218,
      "grad_norm": 0.34659367032239924,
      "learning_rate": 1.1077045504452249e-06,
      "loss": 0.4718,
      "step": 4398
    },
    {
      "epoch": 0.8059728838402345,
      "grad_norm": 0.37306376584072337,
      "learning_rate": 1.1056980552545466e-06,
      "loss": 0.453,
      "step": 4399
    },
    {
      "epoch": 0.8061561011359473,
      "grad_norm": 0.391379392652362,
      "learning_rate": 1.1036931530523504e-06,
      "loss": 0.5196,
      "step": 4400
    },
    {
      "epoch": 0.80633931843166,
      "grad_norm": 0.3156649695122798,
      "learning_rate": 1.1016898446587576e-06,
      "loss": 0.4317,
      "step": 4401
    },
    {
      "epoch": 0.8065225357273726,
      "grad_norm": 0.3452125669221769,
      "learning_rate": 1.0996881308932278e-06,
      "loss": 0.4837,
      "step": 4402
    },
    {
      "epoch": 0.8067057530230853,
      "grad_norm": 0.41606500874857577,
      "learning_rate": 1.097688012574578e-06,
      "loss": 0.4683,
      "step": 4403
    },
    {
      "epoch": 0.8068889703187981,
      "grad_norm": 0.3910554743052055,
      "learning_rate": 1.0956894905209697e-06,
      "loss": 0.4776,
      "step": 4404
    },
    {
      "epoch": 0.8070721876145108,
      "grad_norm": 0.3463825987056052,
      "learning_rate": 1.0936925655499097e-06,
      "loss": 0.4431,
      "step": 4405
    },
    {
      "epoch": 0.8072554049102235,
      "grad_norm": 0.48967145753575547,
      "learning_rate": 1.091697238478252e-06,
      "loss": 0.4691,
      "step": 4406
    },
    {
      "epoch": 0.8074386222059362,
      "grad_norm": 0.35388487088191084,
      "learning_rate": 1.0897035101221976e-06,
      "loss": 0.4703,
      "step": 4407
    },
    {
      "epoch": 0.807621839501649,
      "grad_norm": 0.38250770882105284,
      "learning_rate": 1.0877113812972955e-06,
      "loss": 0.4773,
      "step": 4408
    },
    {
      "epoch": 0.8078050567973617,
      "grad_norm": 0.3728025054746775,
      "learning_rate": 1.0857208528184376e-06,
      "loss": 0.488,
      "step": 4409
    },
    {
      "epoch": 0.8079882740930744,
      "grad_norm": 0.375253461538163,
      "learning_rate": 1.0837319254998595e-06,
      "loss": 0.4845,
      "step": 4410
    },
    {
      "epoch": 0.8081714913887871,
      "grad_norm": 0.3905933282011512,
      "learning_rate": 1.0817446001551467e-06,
      "loss": 0.4657,
      "step": 4411
    },
    {
      "epoch": 0.8083547086844998,
      "grad_norm": 0.36763332160464973,
      "learning_rate": 1.079758877597228e-06,
      "loss": 0.4852,
      "step": 4412
    },
    {
      "epoch": 0.8085379259802126,
      "grad_norm": 0.351866760115047,
      "learning_rate": 1.0777747586383736e-06,
      "loss": 0.4795,
      "step": 4413
    },
    {
      "epoch": 0.8087211432759253,
      "grad_norm": 0.5675280442034399,
      "learning_rate": 1.0757922440901997e-06,
      "loss": 0.4791,
      "step": 4414
    },
    {
      "epoch": 0.808904360571638,
      "grad_norm": 0.3754197011748734,
      "learning_rate": 1.0738113347636663e-06,
      "loss": 0.4852,
      "step": 4415
    },
    {
      "epoch": 0.8090875778673506,
      "grad_norm": 0.30723623558454144,
      "learning_rate": 1.071832031469079e-06,
      "loss": 0.461,
      "step": 4416
    },
    {
      "epoch": 0.8092707951630634,
      "grad_norm": 0.3488234134989342,
      "learning_rate": 1.0698543350160817e-06,
      "loss": 0.4665,
      "step": 4417
    },
    {
      "epoch": 0.8094540124587761,
      "grad_norm": 0.3401454346374473,
      "learning_rate": 1.0678782462136633e-06,
      "loss": 0.4104,
      "step": 4418
    },
    {
      "epoch": 0.8096372297544888,
      "grad_norm": 0.3866140445566972,
      "learning_rate": 1.0659037658701576e-06,
      "loss": 0.4837,
      "step": 4419
    },
    {
      "epoch": 0.8098204470502015,
      "grad_norm": 0.3322659761645293,
      "learning_rate": 1.0639308947932353e-06,
      "loss": 0.4314,
      "step": 4420
    },
    {
      "epoch": 0.8100036643459143,
      "grad_norm": 0.3558313119140645,
      "learning_rate": 1.061959633789914e-06,
      "loss": 0.461,
      "step": 4421
    },
    {
      "epoch": 0.810186881641627,
      "grad_norm": 0.3330464951183908,
      "learning_rate": 1.0599899836665478e-06,
      "loss": 0.4575,
      "step": 4422
    },
    {
      "epoch": 0.8103700989373397,
      "grad_norm": 0.42928773831421463,
      "learning_rate": 1.0580219452288371e-06,
      "loss": 0.4769,
      "step": 4423
    },
    {
      "epoch": 0.8105533162330524,
      "grad_norm": 0.32977757779393846,
      "learning_rate": 1.0560555192818179e-06,
      "loss": 0.4988,
      "step": 4424
    },
    {
      "epoch": 0.8107365335287651,
      "grad_norm": 0.3582487689445677,
      "learning_rate": 1.0540907066298706e-06,
      "loss": 0.4771,
      "step": 4425
    },
    {
      "epoch": 0.8109197508244779,
      "grad_norm": 0.40665178748695113,
      "learning_rate": 1.052127508076713e-06,
      "loss": 0.4136,
      "step": 4426
    },
    {
      "epoch": 0.8111029681201906,
      "grad_norm": 0.3885616522577978,
      "learning_rate": 1.0501659244254053e-06,
      "loss": 0.4503,
      "step": 4427
    },
    {
      "epoch": 0.8112861854159032,
      "grad_norm": 0.3743728300256291,
      "learning_rate": 1.0482059564783432e-06,
      "loss": 0.4797,
      "step": 4428
    },
    {
      "epoch": 0.8114694027116159,
      "grad_norm": 0.39798624771474667,
      "learning_rate": 1.046247605037266e-06,
      "loss": 0.4783,
      "step": 4429
    },
    {
      "epoch": 0.8116526200073287,
      "grad_norm": 0.4399111193212314,
      "learning_rate": 1.0442908709032474e-06,
      "loss": 0.4621,
      "step": 4430
    },
    {
      "epoch": 0.8118358373030414,
      "grad_norm": 0.36391524408557696,
      "learning_rate": 1.0423357548767044e-06,
      "loss": 0.4689,
      "step": 4431
    },
    {
      "epoch": 0.8120190545987541,
      "grad_norm": 0.3521884153330929,
      "learning_rate": 1.0403822577573863e-06,
      "loss": 0.4381,
      "step": 4432
    },
    {
      "epoch": 0.8122022718944668,
      "grad_norm": 0.36384756956744413,
      "learning_rate": 1.0384303803443862e-06,
      "loss": 0.4742,
      "step": 4433
    },
    {
      "epoch": 0.8123854891901795,
      "grad_norm": 0.36914020353091515,
      "learning_rate": 1.0364801234361304e-06,
      "loss": 0.5122,
      "step": 4434
    },
    {
      "epoch": 0.8125687064858923,
      "grad_norm": 0.36959898699837357,
      "learning_rate": 1.0345314878303826e-06,
      "loss": 0.4588,
      "step": 4435
    },
    {
      "epoch": 0.812751923781605,
      "grad_norm": 0.3582657175686495,
      "learning_rate": 1.0325844743242447e-06,
      "loss": 0.4863,
      "step": 4436
    },
    {
      "epoch": 0.8129351410773177,
      "grad_norm": 0.3302257889303132,
      "learning_rate": 1.0306390837141571e-06,
      "loss": 0.4773,
      "step": 4437
    },
    {
      "epoch": 0.8131183583730304,
      "grad_norm": 0.334571725214738,
      "learning_rate": 1.0286953167958924e-06,
      "loss": 0.4558,
      "step": 4438
    },
    {
      "epoch": 0.8133015756687432,
      "grad_norm": 0.3469409174438552,
      "learning_rate": 1.0267531743645588e-06,
      "loss": 0.4703,
      "step": 4439
    },
    {
      "epoch": 0.8134847929644559,
      "grad_norm": 0.32931549191190873,
      "learning_rate": 1.0248126572146034e-06,
      "loss": 0.4472,
      "step": 4440
    },
    {
      "epoch": 0.8136680102601686,
      "grad_norm": 0.4480920133629509,
      "learning_rate": 1.022873766139808e-06,
      "loss": 0.4988,
      "step": 4441
    },
    {
      "epoch": 0.8138512275558812,
      "grad_norm": 0.3817080914390894,
      "learning_rate": 1.0209365019332874e-06,
      "loss": 0.4824,
      "step": 4442
    },
    {
      "epoch": 0.814034444851594,
      "grad_norm": 0.37044396015598,
      "learning_rate": 1.019000865387489e-06,
      "loss": 0.4895,
      "step": 4443
    },
    {
      "epoch": 0.8142176621473067,
      "grad_norm": 0.4093703441079783,
      "learning_rate": 1.0170668572941994e-06,
      "loss": 0.4423,
      "step": 4444
    },
    {
      "epoch": 0.8144008794430194,
      "grad_norm": 0.3848055668142181,
      "learning_rate": 1.0151344784445377e-06,
      "loss": 0.4673,
      "step": 4445
    },
    {
      "epoch": 0.8145840967387321,
      "grad_norm": 0.3849793780680973,
      "learning_rate": 1.0132037296289543e-06,
      "loss": 0.4373,
      "step": 4446
    },
    {
      "epoch": 0.8147673140344448,
      "grad_norm": 0.45161902879935206,
      "learning_rate": 1.0112746116372325e-06,
      "loss": 0.4859,
      "step": 4447
    },
    {
      "epoch": 0.8149505313301576,
      "grad_norm": 0.417825453068041,
      "learning_rate": 1.0093471252584913e-06,
      "loss": 0.4605,
      "step": 4448
    },
    {
      "epoch": 0.8151337486258703,
      "grad_norm": 0.3711653049927354,
      "learning_rate": 1.0074212712811837e-06,
      "loss": 0.4823,
      "step": 4449
    },
    {
      "epoch": 0.815316965921583,
      "grad_norm": 0.38442640351733903,
      "learning_rate": 1.0054970504930871e-06,
      "loss": 0.4853,
      "step": 4450
    },
    {
      "epoch": 0.8155001832172957,
      "grad_norm": 0.3751117008126234,
      "learning_rate": 1.0035744636813188e-06,
      "loss": 0.4409,
      "step": 4451
    },
    {
      "epoch": 0.8156834005130085,
      "grad_norm": 0.3518804625006102,
      "learning_rate": 1.0016535116323244e-06,
      "loss": 0.4352,
      "step": 4452
    },
    {
      "epoch": 0.8158666178087212,
      "grad_norm": 0.35352305826439295,
      "learning_rate": 9.997341951318845e-07,
      "loss": 0.4716,
      "step": 4453
    },
    {
      "epoch": 0.8160498351044339,
      "grad_norm": 0.33286345392841504,
      "learning_rate": 9.97816514965102e-07,
      "loss": 0.4819,
      "step": 4454
    },
    {
      "epoch": 0.8162330524001465,
      "grad_norm": 0.3351324583095673,
      "learning_rate": 9.959004719164183e-07,
      "loss": 0.4325,
      "step": 4455
    },
    {
      "epoch": 0.8164162696958593,
      "grad_norm": 0.36938213527741026,
      "learning_rate": 9.939860667696044e-07,
      "loss": 0.4501,
      "step": 4456
    },
    {
      "epoch": 0.816599486991572,
      "grad_norm": 0.35056915856927895,
      "learning_rate": 9.920733003077581e-07,
      "loss": 0.4652,
      "step": 4457
    },
    {
      "epoch": 0.8167827042872847,
      "grad_norm": 0.3323779365144009,
      "learning_rate": 9.901621733133077e-07,
      "loss": 0.4811,
      "step": 4458
    },
    {
      "epoch": 0.8169659215829974,
      "grad_norm": 0.3646028401284863,
      "learning_rate": 9.882526865680125e-07,
      "loss": 0.4938,
      "step": 4459
    },
    {
      "epoch": 0.8171491388787101,
      "grad_norm": 0.4385436430907302,
      "learning_rate": 9.863448408529607e-07,
      "loss": 0.4743,
      "step": 4460
    },
    {
      "epoch": 0.8173323561744229,
      "grad_norm": 0.41099955048823666,
      "learning_rate": 9.84438636948568e-07,
      "loss": 0.4752,
      "step": 4461
    },
    {
      "epoch": 0.8175155734701356,
      "grad_norm": 0.43989353460252445,
      "learning_rate": 9.82534075634578e-07,
      "loss": 0.4928,
      "step": 4462
    },
    {
      "epoch": 0.8176987907658483,
      "grad_norm": 0.3118585525166271,
      "learning_rate": 9.806311576900634e-07,
      "loss": 0.4488,
      "step": 4463
    },
    {
      "epoch": 0.817882008061561,
      "grad_norm": 0.3648061199592301,
      "learning_rate": 9.787298838934268e-07,
      "loss": 0.4478,
      "step": 4464
    },
    {
      "epoch": 0.8180652253572738,
      "grad_norm": 0.35776395194326077,
      "learning_rate": 9.768302550223946e-07,
      "loss": 0.4529,
      "step": 4465
    },
    {
      "epoch": 0.8182484426529865,
      "grad_norm": 0.38026279339849606,
      "learning_rate": 9.74932271854021e-07,
      "loss": 0.496,
      "step": 4466
    },
    {
      "epoch": 0.8184316599486992,
      "grad_norm": 0.4189226914369542,
      "learning_rate": 9.730359351646885e-07,
      "loss": 0.4488,
      "step": 4467
    },
    {
      "epoch": 0.8186148772444118,
      "grad_norm": 0.36426634253454604,
      "learning_rate": 9.711412457301067e-07,
      "loss": 0.473,
      "step": 4468
    },
    {
      "epoch": 0.8187980945401245,
      "grad_norm": 0.3545936825028976,
      "learning_rate": 9.692482043253093e-07,
      "loss": 0.4704,
      "step": 4469
    },
    {
      "epoch": 0.8189813118358373,
      "grad_norm": 0.37455159789300885,
      "learning_rate": 9.673568117246547e-07,
      "loss": 0.4326,
      "step": 4470
    },
    {
      "epoch": 0.81916452913155,
      "grad_norm": 0.39841516260954707,
      "learning_rate": 9.654670687018325e-07,
      "loss": 0.4638,
      "step": 4471
    },
    {
      "epoch": 0.8193477464272627,
      "grad_norm": 0.3735166775800908,
      "learning_rate": 9.635789760298502e-07,
      "loss": 0.4438,
      "step": 4472
    },
    {
      "epoch": 0.8195309637229754,
      "grad_norm": 0.48541384381778846,
      "learning_rate": 9.616925344810474e-07,
      "loss": 0.4749,
      "step": 4473
    },
    {
      "epoch": 0.8197141810186882,
      "grad_norm": 0.3317020963961296,
      "learning_rate": 9.598077448270815e-07,
      "loss": 0.4487,
      "step": 4474
    },
    {
      "epoch": 0.8198973983144009,
      "grad_norm": 0.35687935050035474,
      "learning_rate": 9.579246078389404e-07,
      "loss": 0.4818,
      "step": 4475
    },
    {
      "epoch": 0.8200806156101136,
      "grad_norm": 0.3715318685578431,
      "learning_rate": 9.5604312428693e-07,
      "loss": 0.4616,
      "step": 4476
    },
    {
      "epoch": 0.8202638329058263,
      "grad_norm": 0.43281036847700827,
      "learning_rate": 9.54163294940686e-07,
      "loss": 0.4631,
      "step": 4477
    },
    {
      "epoch": 0.8204470502015391,
      "grad_norm": 0.43091325828842253,
      "learning_rate": 9.522851205691613e-07,
      "loss": 0.4656,
      "step": 4478
    },
    {
      "epoch": 0.8206302674972518,
      "grad_norm": 0.3432212999111417,
      "learning_rate": 9.504086019406372e-07,
      "loss": 0.4569,
      "step": 4479
    },
    {
      "epoch": 0.8208134847929645,
      "grad_norm": 0.35137409679079856,
      "learning_rate": 9.48533739822714e-07,
      "loss": 0.413,
      "step": 4480
    },
    {
      "epoch": 0.8209967020886771,
      "grad_norm": 0.3571516582130752,
      "learning_rate": 9.466605349823171e-07,
      "loss": 0.4852,
      "step": 4481
    },
    {
      "epoch": 0.8211799193843898,
      "grad_norm": 0.4093744350311809,
      "learning_rate": 9.447889881856903e-07,
      "loss": 0.4609,
      "step": 4482
    },
    {
      "epoch": 0.8213631366801026,
      "grad_norm": 0.43496638081906147,
      "learning_rate": 9.42919100198404e-07,
      "loss": 0.4511,
      "step": 4483
    },
    {
      "epoch": 0.8215463539758153,
      "grad_norm": 0.3635962455991155,
      "learning_rate": 9.410508717853456e-07,
      "loss": 0.4513,
      "step": 4484
    },
    {
      "epoch": 0.821729571271528,
      "grad_norm": 0.3775517329332157,
      "learning_rate": 9.391843037107273e-07,
      "loss": 0.4879,
      "step": 4485
    },
    {
      "epoch": 0.8219127885672407,
      "grad_norm": 0.3730331453968138,
      "learning_rate": 9.373193967380795e-07,
      "loss": 0.4761,
      "step": 4486
    },
    {
      "epoch": 0.8220960058629535,
      "grad_norm": 0.41143431557152677,
      "learning_rate": 9.354561516302529e-07,
      "loss": 0.4894,
      "step": 4487
    },
    {
      "epoch": 0.8222792231586662,
      "grad_norm": 0.3764448817274266,
      "learning_rate": 9.335945691494208e-07,
      "loss": 0.4609,
      "step": 4488
    },
    {
      "epoch": 0.8224624404543789,
      "grad_norm": 0.4240698309497419,
      "learning_rate": 9.317346500570756e-07,
      "loss": 0.453,
      "step": 4489
    },
    {
      "epoch": 0.8226456577500916,
      "grad_norm": 0.3625116175891358,
      "learning_rate": 9.298763951140289e-07,
      "loss": 0.4856,
      "step": 4490
    },
    {
      "epoch": 0.8228288750458044,
      "grad_norm": 0.3821827959286687,
      "learning_rate": 9.28019805080409e-07,
      "loss": 0.4754,
      "step": 4491
    },
    {
      "epoch": 0.8230120923415171,
      "grad_norm": 0.3591236541472167,
      "learning_rate": 9.261648807156676e-07,
      "loss": 0.4822,
      "step": 4492
    },
    {
      "epoch": 0.8231953096372298,
      "grad_norm": 0.49996044918520816,
      "learning_rate": 9.243116227785736e-07,
      "loss": 0.4548,
      "step": 4493
    },
    {
      "epoch": 0.8233785269329424,
      "grad_norm": 0.33266958827477816,
      "learning_rate": 9.224600320272137e-07,
      "loss": 0.4442,
      "step": 4494
    },
    {
      "epoch": 0.8235617442286551,
      "grad_norm": 0.3953298488403479,
      "learning_rate": 9.206101092189901e-07,
      "loss": 0.4776,
      "step": 4495
    },
    {
      "epoch": 0.8237449615243679,
      "grad_norm": 0.38455646293128437,
      "learning_rate": 9.18761855110627e-07,
      "loss": 0.4832,
      "step": 4496
    },
    {
      "epoch": 0.8239281788200806,
      "grad_norm": 0.3886959733118104,
      "learning_rate": 9.169152704581657e-07,
      "loss": 0.4787,
      "step": 4497
    },
    {
      "epoch": 0.8241113961157933,
      "grad_norm": 0.34746571008482313,
      "learning_rate": 9.150703560169616e-07,
      "loss": 0.457,
      "step": 4498
    },
    {
      "epoch": 0.824294613411506,
      "grad_norm": 0.3696277530932602,
      "learning_rate": 9.132271125416875e-07,
      "loss": 0.4945,
      "step": 4499
    },
    {
      "epoch": 0.8244778307072188,
      "grad_norm": 0.40609660061425584,
      "learning_rate": 9.113855407863343e-07,
      "loss": 0.4925,
      "step": 4500
    },
    {
      "epoch": 0.8246610480029315,
      "grad_norm": 0.36927918768875456,
      "learning_rate": 9.095456415042103e-07,
      "loss": 0.4543,
      "step": 4501
    },
    {
      "epoch": 0.8248442652986442,
      "grad_norm": 0.3198398572576675,
      "learning_rate": 9.077074154479366e-07,
      "loss": 0.4603,
      "step": 4502
    },
    {
      "epoch": 0.8250274825943569,
      "grad_norm": 0.4192273429523626,
      "learning_rate": 9.05870863369449e-07,
      "loss": 0.4554,
      "step": 4503
    },
    {
      "epoch": 0.8252106998900697,
      "grad_norm": 0.3732913276398482,
      "learning_rate": 9.040359860200026e-07,
      "loss": 0.491,
      "step": 4504
    },
    {
      "epoch": 0.8253939171857824,
      "grad_norm": 0.33394412586942546,
      "learning_rate": 9.022027841501679e-07,
      "loss": 0.4603,
      "step": 4505
    },
    {
      "epoch": 0.8255771344814951,
      "grad_norm": 0.31145562770619056,
      "learning_rate": 9.003712585098217e-07,
      "loss": 0.4424,
      "step": 4506
    },
    {
      "epoch": 0.8257603517772077,
      "grad_norm": 0.3616345159244858,
      "learning_rate": 8.985414098481643e-07,
      "loss": 0.4727,
      "step": 4507
    },
    {
      "epoch": 0.8259435690729204,
      "grad_norm": 0.39150282387562557,
      "learning_rate": 8.967132389137079e-07,
      "loss": 0.5034,
      "step": 4508
    },
    {
      "epoch": 0.8261267863686332,
      "grad_norm": 0.39868311148958474,
      "learning_rate": 8.948867464542754e-07,
      "loss": 0.4795,
      "step": 4509
    },
    {
      "epoch": 0.8263100036643459,
      "grad_norm": 0.3562244393654728,
      "learning_rate": 8.930619332170038e-07,
      "loss": 0.4456,
      "step": 4510
    },
    {
      "epoch": 0.8264932209600586,
      "grad_norm": 0.3264601268533289,
      "learning_rate": 8.912387999483463e-07,
      "loss": 0.4307,
      "step": 4511
    },
    {
      "epoch": 0.8266764382557713,
      "grad_norm": 0.4693347130690825,
      "learning_rate": 8.894173473940676e-07,
      "loss": 0.4578,
      "step": 4512
    },
    {
      "epoch": 0.8268596555514841,
      "grad_norm": 0.4032452932999747,
      "learning_rate": 8.875975762992428e-07,
      "loss": 0.456,
      "step": 4513
    },
    {
      "epoch": 0.8270428728471968,
      "grad_norm": 0.3560971563578487,
      "learning_rate": 8.857794874082598e-07,
      "loss": 0.4762,
      "step": 4514
    },
    {
      "epoch": 0.8272260901429095,
      "grad_norm": 0.37176617363152936,
      "learning_rate": 8.839630814648204e-07,
      "loss": 0.4354,
      "step": 4515
    },
    {
      "epoch": 0.8274093074386222,
      "grad_norm": 0.3730906962033253,
      "learning_rate": 8.821483592119379e-07,
      "loss": 0.4811,
      "step": 4516
    },
    {
      "epoch": 0.8275925247343349,
      "grad_norm": 0.3808298852463878,
      "learning_rate": 8.803353213919341e-07,
      "loss": 0.4803,
      "step": 4517
    },
    {
      "epoch": 0.8277757420300477,
      "grad_norm": 0.36005801175121405,
      "learning_rate": 8.785239687464431e-07,
      "loss": 0.485,
      "step": 4518
    },
    {
      "epoch": 0.8279589593257604,
      "grad_norm": 0.36393977014250445,
      "learning_rate": 8.767143020164104e-07,
      "loss": 0.4864,
      "step": 4519
    },
    {
      "epoch": 0.828142176621473,
      "grad_norm": 0.3760418887156118,
      "learning_rate": 8.749063219420928e-07,
      "loss": 0.4389,
      "step": 4520
    },
    {
      "epoch": 0.8283253939171857,
      "grad_norm": 0.33289552891952595,
      "learning_rate": 8.731000292630548e-07,
      "loss": 0.4529,
      "step": 4521
    },
    {
      "epoch": 0.8285086112128985,
      "grad_norm": 0.3514387850350512,
      "learning_rate": 8.712954247181704e-07,
      "loss": 0.4899,
      "step": 4522
    },
    {
      "epoch": 0.8286918285086112,
      "grad_norm": 0.3880882911687274,
      "learning_rate": 8.694925090456268e-07,
      "loss": 0.4583,
      "step": 4523
    },
    {
      "epoch": 0.8288750458043239,
      "grad_norm": 0.3930160698314478,
      "learning_rate": 8.67691282982916e-07,
      "loss": 0.4321,
      "step": 4524
    },
    {
      "epoch": 0.8290582631000366,
      "grad_norm": 0.364602747991511,
      "learning_rate": 8.658917472668421e-07,
      "loss": 0.4724,
      "step": 4525
    },
    {
      "epoch": 0.8292414803957494,
      "grad_norm": 0.36882224030459226,
      "learning_rate": 8.640939026335144e-07,
      "loss": 0.4855,
      "step": 4526
    },
    {
      "epoch": 0.8294246976914621,
      "grad_norm": 0.3236084948360584,
      "learning_rate": 8.622977498183555e-07,
      "loss": 0.4674,
      "step": 4527
    },
    {
      "epoch": 0.8296079149871748,
      "grad_norm": 0.3756416592206287,
      "learning_rate": 8.605032895560894e-07,
      "loss": 0.4703,
      "step": 4528
    },
    {
      "epoch": 0.8297911322828875,
      "grad_norm": 0.35000816914720373,
      "learning_rate": 8.587105225807546e-07,
      "loss": 0.4661,
      "step": 4529
    },
    {
      "epoch": 0.8299743495786002,
      "grad_norm": 0.37679187067257325,
      "learning_rate": 8.569194496256905e-07,
      "loss": 0.481,
      "step": 4530
    },
    {
      "epoch": 0.830157566874313,
      "grad_norm": 0.3590180280771207,
      "learning_rate": 8.551300714235494e-07,
      "loss": 0.4742,
      "step": 4531
    },
    {
      "epoch": 0.8303407841700257,
      "grad_norm": 0.3595502464365226,
      "learning_rate": 8.533423887062858e-07,
      "loss": 0.4822,
      "step": 4532
    },
    {
      "epoch": 0.8305240014657383,
      "grad_norm": 0.39993908061073036,
      "learning_rate": 8.515564022051636e-07,
      "loss": 0.4947,
      "step": 4533
    },
    {
      "epoch": 0.830707218761451,
      "grad_norm": 0.3616132991433677,
      "learning_rate": 8.497721126507502e-07,
      "loss": 0.4789,
      "step": 4534
    },
    {
      "epoch": 0.8308904360571638,
      "grad_norm": 0.3765828950687697,
      "learning_rate": 8.479895207729227e-07,
      "loss": 0.4765,
      "step": 4535
    },
    {
      "epoch": 0.8310736533528765,
      "grad_norm": 0.36266920101078504,
      "learning_rate": 8.462086273008585e-07,
      "loss": 0.4773,
      "step": 4536
    },
    {
      "epoch": 0.8312568706485892,
      "grad_norm": 0.3457741644742753,
      "learning_rate": 8.444294329630464e-07,
      "loss": 0.4504,
      "step": 4537
    },
    {
      "epoch": 0.8314400879443019,
      "grad_norm": 4.365216891837018,
      "learning_rate": 8.426519384872733e-07,
      "loss": 0.4294,
      "step": 4538
    },
    {
      "epoch": 0.8316233052400147,
      "grad_norm": 0.3824653477334578,
      "learning_rate": 8.408761446006381e-07,
      "loss": 0.4627,
      "step": 4539
    },
    {
      "epoch": 0.8318065225357274,
      "grad_norm": 0.34948308071354306,
      "learning_rate": 8.391020520295384e-07,
      "loss": 0.4661,
      "step": 4540
    },
    {
      "epoch": 0.8319897398314401,
      "grad_norm": 0.34127634807978796,
      "learning_rate": 8.373296614996773e-07,
      "loss": 0.4382,
      "step": 4541
    },
    {
      "epoch": 0.8321729571271528,
      "grad_norm": 0.3451205951701214,
      "learning_rate": 8.355589737360636e-07,
      "loss": 0.4543,
      "step": 4542
    },
    {
      "epoch": 0.8323561744228655,
      "grad_norm": 0.3638514465050463,
      "learning_rate": 8.337899894630064e-07,
      "loss": 0.4736,
      "step": 4543
    },
    {
      "epoch": 0.8325393917185783,
      "grad_norm": 0.40569003841764567,
      "learning_rate": 8.320227094041222e-07,
      "loss": 0.4962,
      "step": 4544
    },
    {
      "epoch": 0.832722609014291,
      "grad_norm": 0.4019440010035879,
      "learning_rate": 8.302571342823251e-07,
      "loss": 0.4465,
      "step": 4545
    },
    {
      "epoch": 0.8329058263100036,
      "grad_norm": 0.36318742919496133,
      "learning_rate": 8.284932648198374e-07,
      "loss": 0.482,
      "step": 4546
    },
    {
      "epoch": 0.8330890436057163,
      "grad_norm": 0.3341546485213257,
      "learning_rate": 8.267311017381779e-07,
      "loss": 0.4519,
      "step": 4547
    },
    {
      "epoch": 0.8332722609014291,
      "grad_norm": 0.3690645647843955,
      "learning_rate": 8.249706457581741e-07,
      "loss": 0.4529,
      "step": 4548
    },
    {
      "epoch": 0.8334554781971418,
      "grad_norm": 0.3965501911600018,
      "learning_rate": 8.232118975999476e-07,
      "loss": 0.4442,
      "step": 4549
    },
    {
      "epoch": 0.8336386954928545,
      "grad_norm": 0.4539094325456942,
      "learning_rate": 8.214548579829285e-07,
      "loss": 0.4607,
      "step": 4550
    },
    {
      "epoch": 0.8338219127885672,
      "grad_norm": 0.3614299321405626,
      "learning_rate": 8.196995276258424e-07,
      "loss": 0.4841,
      "step": 4551
    },
    {
      "epoch": 0.83400513008428,
      "grad_norm": 0.3650558358082691,
      "learning_rate": 8.1794590724672e-07,
      "loss": 0.4491,
      "step": 4552
    },
    {
      "epoch": 0.8341883473799927,
      "grad_norm": 0.37021208019651697,
      "learning_rate": 8.161939975628891e-07,
      "loss": 0.4621,
      "step": 4553
    },
    {
      "epoch": 0.8343715646757054,
      "grad_norm": 0.3187081455195085,
      "learning_rate": 8.14443799290981e-07,
      "loss": 0.4505,
      "step": 4554
    },
    {
      "epoch": 0.8345547819714181,
      "grad_norm": 0.34998813799408895,
      "learning_rate": 8.126953131469229e-07,
      "loss": 0.4604,
      "step": 4555
    },
    {
      "epoch": 0.8347379992671308,
      "grad_norm": 0.35863274556981756,
      "learning_rate": 8.109485398459466e-07,
      "loss": 0.4683,
      "step": 4556
    },
    {
      "epoch": 0.8349212165628436,
      "grad_norm": 0.3872812157147719,
      "learning_rate": 8.092034801025789e-07,
      "loss": 0.4677,
      "step": 4557
    },
    {
      "epoch": 0.8351044338585563,
      "grad_norm": 0.3537014025205882,
      "learning_rate": 8.074601346306465e-07,
      "loss": 0.4403,
      "step": 4558
    },
    {
      "epoch": 0.835287651154269,
      "grad_norm": 0.3257981845848479,
      "learning_rate": 8.057185041432775e-07,
      "loss": 0.4784,
      "step": 4559
    },
    {
      "epoch": 0.8354708684499816,
      "grad_norm": 0.34120774188761716,
      "learning_rate": 8.039785893528973e-07,
      "loss": 0.4537,
      "step": 4560
    },
    {
      "epoch": 0.8356540857456944,
      "grad_norm": 0.38295155691945104,
      "learning_rate": 8.022403909712272e-07,
      "loss": 0.4642,
      "step": 4561
    },
    {
      "epoch": 0.8358373030414071,
      "grad_norm": 0.37025660534210014,
      "learning_rate": 8.005039097092876e-07,
      "loss": 0.4711,
      "step": 4562
    },
    {
      "epoch": 0.8360205203371198,
      "grad_norm": 0.38506132031294427,
      "learning_rate": 7.987691462773983e-07,
      "loss": 0.4603,
      "step": 4563
    },
    {
      "epoch": 0.8362037376328325,
      "grad_norm": 0.3906299247233729,
      "learning_rate": 7.970361013851758e-07,
      "loss": 0.4569,
      "step": 4564
    },
    {
      "epoch": 0.8363869549285452,
      "grad_norm": 0.37287175398490147,
      "learning_rate": 7.953047757415322e-07,
      "loss": 0.5081,
      "step": 4565
    },
    {
      "epoch": 0.836570172224258,
      "grad_norm": 0.3954122070934997,
      "learning_rate": 7.935751700546751e-07,
      "loss": 0.4915,
      "step": 4566
    },
    {
      "epoch": 0.8367533895199707,
      "grad_norm": 0.33981736742323343,
      "learning_rate": 7.918472850321124e-07,
      "loss": 0.444,
      "step": 4567
    },
    {
      "epoch": 0.8369366068156834,
      "grad_norm": 0.4118368681892205,
      "learning_rate": 7.901211213806475e-07,
      "loss": 0.4653,
      "step": 4568
    },
    {
      "epoch": 0.8371198241113961,
      "grad_norm": 0.362321331702295,
      "learning_rate": 7.883966798063764e-07,
      "loss": 0.5057,
      "step": 4569
    },
    {
      "epoch": 0.8373030414071089,
      "grad_norm": 0.40249917563877835,
      "learning_rate": 7.866739610146923e-07,
      "loss": 0.4566,
      "step": 4570
    },
    {
      "epoch": 0.8374862587028216,
      "grad_norm": 0.33727746860853636,
      "learning_rate": 7.84952965710285e-07,
      "loss": 0.4452,
      "step": 4571
    },
    {
      "epoch": 0.8376694759985343,
      "grad_norm": 0.34323136464763987,
      "learning_rate": 7.832336945971402e-07,
      "loss": 0.4733,
      "step": 4572
    },
    {
      "epoch": 0.8378526932942469,
      "grad_norm": 0.31278841887861725,
      "learning_rate": 7.815161483785328e-07,
      "loss": 0.4385,
      "step": 4573
    },
    {
      "epoch": 0.8380359105899597,
      "grad_norm": 0.34935283325144817,
      "learning_rate": 7.79800327757037e-07,
      "loss": 0.476,
      "step": 4574
    },
    {
      "epoch": 0.8382191278856724,
      "grad_norm": 0.35699351656051326,
      "learning_rate": 7.780862334345218e-07,
      "loss": 0.4683,
      "step": 4575
    },
    {
      "epoch": 0.8384023451813851,
      "grad_norm": 0.35724251812079494,
      "learning_rate": 7.763738661121467e-07,
      "loss": 0.4616,
      "step": 4576
    },
    {
      "epoch": 0.8385855624770978,
      "grad_norm": 0.6989739009443403,
      "learning_rate": 7.746632264903652e-07,
      "loss": 0.4465,
      "step": 4577
    },
    {
      "epoch": 0.8387687797728105,
      "grad_norm": 0.36127231861511705,
      "learning_rate": 7.729543152689262e-07,
      "loss": 0.477,
      "step": 4578
    },
    {
      "epoch": 0.8389519970685233,
      "grad_norm": 0.3761840834901936,
      "learning_rate": 7.712471331468718e-07,
      "loss": 0.4401,
      "step": 4579
    },
    {
      "epoch": 0.839135214364236,
      "grad_norm": 0.3168256929816936,
      "learning_rate": 7.695416808225342e-07,
      "loss": 0.4645,
      "step": 4580
    },
    {
      "epoch": 0.8393184316599487,
      "grad_norm": 0.3781685502784412,
      "learning_rate": 7.678379589935381e-07,
      "loss": 0.467,
      "step": 4581
    },
    {
      "epoch": 0.8395016489556614,
      "grad_norm": 0.38774315231911183,
      "learning_rate": 7.661359683568032e-07,
      "loss": 0.4744,
      "step": 4582
    },
    {
      "epoch": 0.8396848662513742,
      "grad_norm": 0.3757045095906377,
      "learning_rate": 7.644357096085398e-07,
      "loss": 0.4523,
      "step": 4583
    },
    {
      "epoch": 0.8398680835470869,
      "grad_norm": 0.3467435366761741,
      "learning_rate": 7.627371834442481e-07,
      "loss": 0.4668,
      "step": 4584
    },
    {
      "epoch": 0.8400513008427996,
      "grad_norm": 0.3448221469385914,
      "learning_rate": 7.610403905587205e-07,
      "loss": 0.4542,
      "step": 4585
    },
    {
      "epoch": 0.8402345181385122,
      "grad_norm": 0.3808606706880448,
      "learning_rate": 7.593453316460408e-07,
      "loss": 0.4499,
      "step": 4586
    },
    {
      "epoch": 0.840417735434225,
      "grad_norm": 0.3216050914197737,
      "learning_rate": 7.576520073995858e-07,
      "loss": 0.4237,
      "step": 4587
    },
    {
      "epoch": 0.8406009527299377,
      "grad_norm": 0.36041465524446253,
      "learning_rate": 7.559604185120184e-07,
      "loss": 0.4637,
      "step": 4588
    },
    {
      "epoch": 0.8407841700256504,
      "grad_norm": 0.38480181308486905,
      "learning_rate": 7.542705656752924e-07,
      "loss": 0.432,
      "step": 4589
    },
    {
      "epoch": 0.8409673873213631,
      "grad_norm": 0.3697932660124222,
      "learning_rate": 7.525824495806539e-07,
      "loss": 0.4634,
      "step": 4590
    },
    {
      "epoch": 0.8411506046170758,
      "grad_norm": 0.35969965173141866,
      "learning_rate": 7.508960709186386e-07,
      "loss": 0.4463,
      "step": 4591
    },
    {
      "epoch": 0.8413338219127886,
      "grad_norm": 0.38970691229065313,
      "learning_rate": 7.492114303790693e-07,
      "loss": 0.4727,
      "step": 4592
    },
    {
      "epoch": 0.8415170392085013,
      "grad_norm": 0.40204280376514445,
      "learning_rate": 7.475285286510569e-07,
      "loss": 0.4842,
      "step": 4593
    },
    {
      "epoch": 0.841700256504214,
      "grad_norm": 0.39678581293302634,
      "learning_rate": 7.458473664230054e-07,
      "loss": 0.5168,
      "step": 4594
    },
    {
      "epoch": 0.8418834737999267,
      "grad_norm": 0.41301539955038935,
      "learning_rate": 7.441679443826022e-07,
      "loss": 0.4753,
      "step": 4595
    },
    {
      "epoch": 0.8420666910956395,
      "grad_norm": 0.3277047194415458,
      "learning_rate": 7.424902632168285e-07,
      "loss": 0.4779,
      "step": 4596
    },
    {
      "epoch": 0.8422499083913522,
      "grad_norm": 0.36117154118790784,
      "learning_rate": 7.408143236119469e-07,
      "loss": 0.4528,
      "step": 4597
    },
    {
      "epoch": 0.8424331256870649,
      "grad_norm": 0.36900471245720073,
      "learning_rate": 7.391401262535141e-07,
      "loss": 0.4835,
      "step": 4598
    },
    {
      "epoch": 0.8426163429827775,
      "grad_norm": 0.33552736713541453,
      "learning_rate": 7.37467671826368e-07,
      "loss": 0.496,
      "step": 4599
    },
    {
      "epoch": 0.8427995602784902,
      "grad_norm": 0.40437208542001996,
      "learning_rate": 7.357969610146387e-07,
      "loss": 0.4269,
      "step": 4600
    },
    {
      "epoch": 0.842982777574203,
      "grad_norm": 0.3520114205169631,
      "learning_rate": 7.341279945017393e-07,
      "loss": 0.4534,
      "step": 4601
    },
    {
      "epoch": 0.8431659948699157,
      "grad_norm": 0.37756325907570126,
      "learning_rate": 7.324607729703731e-07,
      "loss": 0.4719,
      "step": 4602
    },
    {
      "epoch": 0.8433492121656284,
      "grad_norm": 0.41618750381433833,
      "learning_rate": 7.307952971025245e-07,
      "loss": 0.4486,
      "step": 4603
    },
    {
      "epoch": 0.8435324294613411,
      "grad_norm": 0.372896456871397,
      "learning_rate": 7.291315675794703e-07,
      "loss": 0.4437,
      "step": 4604
    },
    {
      "epoch": 0.8437156467570539,
      "grad_norm": 0.35730637379891195,
      "learning_rate": 7.274695850817654e-07,
      "loss": 0.455,
      "step": 4605
    },
    {
      "epoch": 0.8438988640527666,
      "grad_norm": 0.3864061068477958,
      "learning_rate": 7.258093502892577e-07,
      "loss": 0.4579,
      "step": 4606
    },
    {
      "epoch": 0.8440820813484793,
      "grad_norm": 0.36397130054529137,
      "learning_rate": 7.241508638810741e-07,
      "loss": 0.4661,
      "step": 4607
    },
    {
      "epoch": 0.844265298644192,
      "grad_norm": 0.39478183132434946,
      "learning_rate": 7.224941265356311e-07,
      "loss": 0.4572,
      "step": 4608
    },
    {
      "epoch": 0.8444485159399048,
      "grad_norm": 0.35238010256874025,
      "learning_rate": 7.208391389306257e-07,
      "loss": 0.4665,
      "step": 4609
    },
    {
      "epoch": 0.8446317332356175,
      "grad_norm": 0.39054270140359354,
      "learning_rate": 7.191859017430403e-07,
      "loss": 0.4688,
      "step": 4610
    },
    {
      "epoch": 0.8448149505313302,
      "grad_norm": 0.3722872319474878,
      "learning_rate": 7.175344156491432e-07,
      "loss": 0.4762,
      "step": 4611
    },
    {
      "epoch": 0.8449981678270428,
      "grad_norm": 0.39812658488136404,
      "learning_rate": 7.158846813244857e-07,
      "loss": 0.4306,
      "step": 4612
    },
    {
      "epoch": 0.8451813851227555,
      "grad_norm": 0.3235410643580283,
      "learning_rate": 7.14236699443901e-07,
      "loss": 0.4748,
      "step": 4613
    },
    {
      "epoch": 0.8453646024184683,
      "grad_norm": 0.3645862100537474,
      "learning_rate": 7.125904706815051e-07,
      "loss": 0.4708,
      "step": 4614
    },
    {
      "epoch": 0.845547819714181,
      "grad_norm": 0.41444318001972247,
      "learning_rate": 7.109459957106995e-07,
      "loss": 0.45,
      "step": 4615
    },
    {
      "epoch": 0.8457310370098937,
      "grad_norm": 0.33835473447341924,
      "learning_rate": 7.093032752041678e-07,
      "loss": 0.4642,
      "step": 4616
    },
    {
      "epoch": 0.8459142543056064,
      "grad_norm": 0.37409991259381564,
      "learning_rate": 7.076623098338742e-07,
      "loss": 0.4533,
      "step": 4617
    },
    {
      "epoch": 0.8460974716013192,
      "grad_norm": 0.35507840202053215,
      "learning_rate": 7.060231002710643e-07,
      "loss": 0.4641,
      "step": 4618
    },
    {
      "epoch": 0.8462806888970319,
      "grad_norm": 0.37641675654011486,
      "learning_rate": 7.043856471862692e-07,
      "loss": 0.4574,
      "step": 4619
    },
    {
      "epoch": 0.8464639061927446,
      "grad_norm": 0.38077617847905443,
      "learning_rate": 7.027499512492985e-07,
      "loss": 0.4936,
      "step": 4620
    },
    {
      "epoch": 0.8466471234884573,
      "grad_norm": 0.38213562762661146,
      "learning_rate": 7.01116013129245e-07,
      "loss": 0.4767,
      "step": 4621
    },
    {
      "epoch": 0.8468303407841701,
      "grad_norm": 0.44818862839111945,
      "learning_rate": 6.994838334944781e-07,
      "loss": 0.471,
      "step": 4622
    },
    {
      "epoch": 0.8470135580798828,
      "grad_norm": 0.40287277556776896,
      "learning_rate": 6.97853413012653e-07,
      "loss": 0.5018,
      "step": 4623
    },
    {
      "epoch": 0.8471967753755955,
      "grad_norm": 0.3475657194452658,
      "learning_rate": 6.96224752350706e-07,
      "loss": 0.4854,
      "step": 4624
    },
    {
      "epoch": 0.8473799926713081,
      "grad_norm": 0.49153236671871353,
      "learning_rate": 6.945978521748458e-07,
      "loss": 0.4745,
      "step": 4625
    },
    {
      "epoch": 0.8475632099670208,
      "grad_norm": 0.3627963856399352,
      "learning_rate": 6.929727131505687e-07,
      "loss": 0.4666,
      "step": 4626
    },
    {
      "epoch": 0.8477464272627336,
      "grad_norm": 0.37178156831060366,
      "learning_rate": 6.913493359426476e-07,
      "loss": 0.4569,
      "step": 4627
    },
    {
      "epoch": 0.8479296445584463,
      "grad_norm": 0.3935110501040928,
      "learning_rate": 6.897277212151376e-07,
      "loss": 0.4559,
      "step": 4628
    },
    {
      "epoch": 0.848112861854159,
      "grad_norm": 0.37119806150514023,
      "learning_rate": 6.881078696313658e-07,
      "loss": 0.4737,
      "step": 4629
    },
    {
      "epoch": 0.8482960791498717,
      "grad_norm": 0.36940982032393316,
      "learning_rate": 6.864897818539445e-07,
      "loss": 0.4726,
      "step": 4630
    },
    {
      "epoch": 0.8484792964455845,
      "grad_norm": 0.4236420908531626,
      "learning_rate": 6.848734585447641e-07,
      "loss": 0.4897,
      "step": 4631
    },
    {
      "epoch": 0.8486625137412972,
      "grad_norm": 0.4137058543064466,
      "learning_rate": 6.832589003649909e-07,
      "loss": 0.4858,
      "step": 4632
    },
    {
      "epoch": 0.8488457310370099,
      "grad_norm": 0.35295538051409014,
      "learning_rate": 6.816461079750675e-07,
      "loss": 0.4847,
      "step": 4633
    },
    {
      "epoch": 0.8490289483327226,
      "grad_norm": 0.3680249235559555,
      "learning_rate": 6.800350820347196e-07,
      "loss": 0.4559,
      "step": 4634
    },
    {
      "epoch": 0.8492121656284354,
      "grad_norm": 0.35440622742913136,
      "learning_rate": 6.784258232029473e-07,
      "loss": 0.4633,
      "step": 4635
    },
    {
      "epoch": 0.8493953829241481,
      "grad_norm": 0.35474342649832563,
      "learning_rate": 6.768183321380267e-07,
      "loss": 0.4842,
      "step": 4636
    },
    {
      "epoch": 0.8495786002198608,
      "grad_norm": 0.3447445863478664,
      "learning_rate": 6.75212609497512e-07,
      "loss": 0.4537,
      "step": 4637
    },
    {
      "epoch": 0.8497618175155734,
      "grad_norm": 0.39696044908830347,
      "learning_rate": 6.736086559382343e-07,
      "loss": 0.4833,
      "step": 4638
    },
    {
      "epoch": 0.8499450348112861,
      "grad_norm": 0.40950492515990067,
      "learning_rate": 6.720064721163022e-07,
      "loss": 0.4451,
      "step": 4639
    },
    {
      "epoch": 0.8501282521069989,
      "grad_norm": 0.3716416588918617,
      "learning_rate": 6.704060586870981e-07,
      "loss": 0.4945,
      "step": 4640
    },
    {
      "epoch": 0.8503114694027116,
      "grad_norm": 0.3539582725690085,
      "learning_rate": 6.688074163052793e-07,
      "loss": 0.4801,
      "step": 4641
    },
    {
      "epoch": 0.8504946866984243,
      "grad_norm": 0.35801593050898506,
      "learning_rate": 6.672105456247824e-07,
      "loss": 0.4274,
      "step": 4642
    },
    {
      "epoch": 0.850677903994137,
      "grad_norm": 0.3769100024892945,
      "learning_rate": 6.656154472988174e-07,
      "loss": 0.4546,
      "step": 4643
    },
    {
      "epoch": 0.8508611212898498,
      "grad_norm": 0.3347319601400921,
      "learning_rate": 6.640221219798692e-07,
      "loss": 0.4661,
      "step": 4644
    },
    {
      "epoch": 0.8510443385855625,
      "grad_norm": 0.35012115439903235,
      "learning_rate": 6.624305703196959e-07,
      "loss": 0.462,
      "step": 4645
    },
    {
      "epoch": 0.8512275558812752,
      "grad_norm": 0.6464519568025817,
      "learning_rate": 6.608407929693333e-07,
      "loss": 0.4871,
      "step": 4646
    },
    {
      "epoch": 0.8514107731769879,
      "grad_norm": 0.3239331939209271,
      "learning_rate": 6.592527905790885e-07,
      "loss": 0.4801,
      "step": 4647
    },
    {
      "epoch": 0.8515939904727006,
      "grad_norm": 0.35402847628223827,
      "learning_rate": 6.576665637985452e-07,
      "loss": 0.4689,
      "step": 4648
    },
    {
      "epoch": 0.8517772077684134,
      "grad_norm": 0.36588071309071396,
      "learning_rate": 6.560821132765577e-07,
      "loss": 0.4798,
      "step": 4649
    },
    {
      "epoch": 0.8519604250641261,
      "grad_norm": 0.36842514750128835,
      "learning_rate": 6.544994396612569e-07,
      "loss": 0.481,
      "step": 4650
    },
    {
      "epoch": 0.8521436423598387,
      "grad_norm": 0.5433760869689138,
      "learning_rate": 6.529185436000435e-07,
      "loss": 0.4491,
      "step": 4651
    },
    {
      "epoch": 0.8523268596555514,
      "grad_norm": 0.36308528984837474,
      "learning_rate": 6.51339425739595e-07,
      "loss": 0.5027,
      "step": 4652
    },
    {
      "epoch": 0.8525100769512642,
      "grad_norm": 0.43046695940095536,
      "learning_rate": 6.497620867258575e-07,
      "loss": 0.4979,
      "step": 4653
    },
    {
      "epoch": 0.8526932942469769,
      "grad_norm": 0.36860487992630503,
      "learning_rate": 6.481865272040532e-07,
      "loss": 0.4715,
      "step": 4654
    },
    {
      "epoch": 0.8528765115426896,
      "grad_norm": 0.36651683339123137,
      "learning_rate": 6.466127478186729e-07,
      "loss": 0.4731,
      "step": 4655
    },
    {
      "epoch": 0.8530597288384023,
      "grad_norm": 0.3609707087616487,
      "learning_rate": 6.450407492134825e-07,
      "loss": 0.4746,
      "step": 4656
    },
    {
      "epoch": 0.8532429461341151,
      "grad_norm": 0.3596774652911952,
      "learning_rate": 6.434705320315155e-07,
      "loss": 0.4583,
      "step": 4657
    },
    {
      "epoch": 0.8534261634298278,
      "grad_norm": 0.380847382228284,
      "learning_rate": 6.419020969150819e-07,
      "loss": 0.4691,
      "step": 4658
    },
    {
      "epoch": 0.8536093807255405,
      "grad_norm": 0.33756954312322307,
      "learning_rate": 6.403354445057569e-07,
      "loss": 0.4692,
      "step": 4659
    },
    {
      "epoch": 0.8537925980212532,
      "grad_norm": 0.3519944492706372,
      "learning_rate": 6.387705754443918e-07,
      "loss": 0.4476,
      "step": 4660
    },
    {
      "epoch": 0.8539758153169659,
      "grad_norm": 0.35212978264435935,
      "learning_rate": 6.372074903711056e-07,
      "loss": 0.4932,
      "step": 4661
    },
    {
      "epoch": 0.8541590326126787,
      "grad_norm": 0.3419603578191104,
      "learning_rate": 6.356461899252863e-07,
      "loss": 0.441,
      "step": 4662
    },
    {
      "epoch": 0.8543422499083914,
      "grad_norm": 0.36161456417265275,
      "learning_rate": 6.340866747455949e-07,
      "loss": 0.4429,
      "step": 4663
    },
    {
      "epoch": 0.854525467204104,
      "grad_norm": 0.3254519388964185,
      "learning_rate": 6.325289454699612e-07,
      "loss": 0.4607,
      "step": 4664
    },
    {
      "epoch": 0.8547086844998167,
      "grad_norm": 0.3828469440501933,
      "learning_rate": 6.309730027355842e-07,
      "loss": 0.4534,
      "step": 4665
    },
    {
      "epoch": 0.8548919017955295,
      "grad_norm": 0.4481534406657637,
      "learning_rate": 6.294188471789297e-07,
      "loss": 0.4883,
      "step": 4666
    },
    {
      "epoch": 0.8550751190912422,
      "grad_norm": 0.40650799766285306,
      "learning_rate": 6.278664794357369e-07,
      "loss": 0.5197,
      "step": 4667
    },
    {
      "epoch": 0.8552583363869549,
      "grad_norm": 0.3557778886699918,
      "learning_rate": 6.263159001410118e-07,
      "loss": 0.4468,
      "step": 4668
    },
    {
      "epoch": 0.8554415536826676,
      "grad_norm": 0.3155663993825966,
      "learning_rate": 6.247671099290281e-07,
      "loss": 0.4315,
      "step": 4669
    },
    {
      "epoch": 0.8556247709783804,
      "grad_norm": 0.4241376334024175,
      "learning_rate": 6.232201094333262e-07,
      "loss": 0.4659,
      "step": 4670
    },
    {
      "epoch": 0.8558079882740931,
      "grad_norm": 0.39926460741940456,
      "learning_rate": 6.216748992867178e-07,
      "loss": 0.4646,
      "step": 4671
    },
    {
      "epoch": 0.8559912055698058,
      "grad_norm": 0.37448213112394435,
      "learning_rate": 6.201314801212822e-07,
      "loss": 0.4629,
      "step": 4672
    },
    {
      "epoch": 0.8561744228655185,
      "grad_norm": 0.32841351785338857,
      "learning_rate": 6.185898525683625e-07,
      "loss": 0.4651,
      "step": 4673
    },
    {
      "epoch": 0.8563576401612312,
      "grad_norm": 0.35687683363139366,
      "learning_rate": 6.170500172585708e-07,
      "loss": 0.473,
      "step": 4674
    },
    {
      "epoch": 0.856540857456944,
      "grad_norm": 0.5940246428460522,
      "learning_rate": 6.155119748217874e-07,
      "loss": 0.4631,
      "step": 4675
    },
    {
      "epoch": 0.8567240747526567,
      "grad_norm": 0.36018176214900893,
      "learning_rate": 6.139757258871604e-07,
      "loss": 0.5154,
      "step": 4676
    },
    {
      "epoch": 0.8569072920483694,
      "grad_norm": 0.4687679294939073,
      "learning_rate": 6.124412710830968e-07,
      "loss": 0.4594,
      "step": 4677
    },
    {
      "epoch": 0.857090509344082,
      "grad_norm": 0.35388482226740736,
      "learning_rate": 6.109086110372781e-07,
      "loss": 0.4517,
      "step": 4678
    },
    {
      "epoch": 0.8572737266397948,
      "grad_norm": 0.36328352595149627,
      "learning_rate": 6.093777463766481e-07,
      "loss": 0.4633,
      "step": 4679
    },
    {
      "epoch": 0.8574569439355075,
      "grad_norm": 0.3614749246413115,
      "learning_rate": 6.078486777274184e-07,
      "loss": 0.4672,
      "step": 4680
    },
    {
      "epoch": 0.8576401612312202,
      "grad_norm": 0.35822452744121946,
      "learning_rate": 6.063214057150602e-07,
      "loss": 0.4466,
      "step": 4681
    },
    {
      "epoch": 0.8578233785269329,
      "grad_norm": 0.443689158246001,
      "learning_rate": 6.047959309643153e-07,
      "loss": 0.4841,
      "step": 4682
    },
    {
      "epoch": 0.8580065958226457,
      "grad_norm": 0.3664501289628841,
      "learning_rate": 6.032722540991897e-07,
      "loss": 0.4413,
      "step": 4683
    },
    {
      "epoch": 0.8581898131183584,
      "grad_norm": 0.37392123974160224,
      "learning_rate": 6.017503757429527e-07,
      "loss": 0.498,
      "step": 4684
    },
    {
      "epoch": 0.8583730304140711,
      "grad_norm": 0.3442340298384154,
      "learning_rate": 6.002302965181362e-07,
      "loss": 0.4873,
      "step": 4685
    },
    {
      "epoch": 0.8585562477097838,
      "grad_norm": 0.38482719467034343,
      "learning_rate": 5.9871201704654e-07,
      "loss": 0.4601,
      "step": 4686
    },
    {
      "epoch": 0.8587394650054965,
      "grad_norm": 0.38816231667636386,
      "learning_rate": 5.971955379492256e-07,
      "loss": 0.4804,
      "step": 4687
    },
    {
      "epoch": 0.8589226823012093,
      "grad_norm": 0.42786975057807836,
      "learning_rate": 5.95680859846518e-07,
      "loss": 0.4349,
      "step": 4688
    },
    {
      "epoch": 0.859105899596922,
      "grad_norm": 0.34136049119828255,
      "learning_rate": 5.941679833580044e-07,
      "loss": 0.4437,
      "step": 4689
    },
    {
      "epoch": 0.8592891168926347,
      "grad_norm": 0.3978177457577374,
      "learning_rate": 5.92656909102538e-07,
      "loss": 0.4866,
      "step": 4690
    },
    {
      "epoch": 0.8594723341883473,
      "grad_norm": 0.3329572161638651,
      "learning_rate": 5.911476376982333e-07,
      "loss": 0.4767,
      "step": 4691
    },
    {
      "epoch": 0.8596555514840601,
      "grad_norm": 0.3429759165018252,
      "learning_rate": 5.896401697624665e-07,
      "loss": 0.49,
      "step": 4692
    },
    {
      "epoch": 0.8598387687797728,
      "grad_norm": 0.356355519401416,
      "learning_rate": 5.881345059118759e-07,
      "loss": 0.4549,
      "step": 4693
    },
    {
      "epoch": 0.8600219860754855,
      "grad_norm": 0.4113799697444653,
      "learning_rate": 5.866306467623633e-07,
      "loss": 0.484,
      "step": 4694
    },
    {
      "epoch": 0.8602052033711982,
      "grad_norm": 0.4101610555768186,
      "learning_rate": 5.851285929290934e-07,
      "loss": 0.4533,
      "step": 4695
    },
    {
      "epoch": 0.8603884206669109,
      "grad_norm": 0.3338706073643328,
      "learning_rate": 5.83628345026489e-07,
      "loss": 0.4376,
      "step": 4696
    },
    {
      "epoch": 0.8605716379626237,
      "grad_norm": 0.3934260519301321,
      "learning_rate": 5.821299036682354e-07,
      "loss": 0.4617,
      "step": 4697
    },
    {
      "epoch": 0.8607548552583364,
      "grad_norm": 0.44033773382119257,
      "learning_rate": 5.806332694672806e-07,
      "loss": 0.476,
      "step": 4698
    },
    {
      "epoch": 0.8609380725540491,
      "grad_norm": 0.5362324156637753,
      "learning_rate": 5.79138443035831e-07,
      "loss": 0.4608,
      "step": 4699
    },
    {
      "epoch": 0.8611212898497618,
      "grad_norm": 0.3689328897257396,
      "learning_rate": 5.776454249853558e-07,
      "loss": 0.4467,
      "step": 4700
    },
    {
      "epoch": 0.8613045071454746,
      "grad_norm": 0.36106098966365785,
      "learning_rate": 5.761542159265821e-07,
      "loss": 0.4736,
      "step": 4701
    },
    {
      "epoch": 0.8614877244411873,
      "grad_norm": 0.30462929642826386,
      "learning_rate": 5.746648164695001e-07,
      "loss": 0.4491,
      "step": 4702
    },
    {
      "epoch": 0.8616709417369,
      "grad_norm": 0.3660624254995241,
      "learning_rate": 5.731772272233554e-07,
      "loss": 0.462,
      "step": 4703
    },
    {
      "epoch": 0.8618541590326126,
      "grad_norm": 0.3916188199259428,
      "learning_rate": 5.71691448796658e-07,
      "loss": 0.5185,
      "step": 4704
    },
    {
      "epoch": 0.8620373763283254,
      "grad_norm": 0.42360402026125726,
      "learning_rate": 5.702074817971731e-07,
      "loss": 0.4757,
      "step": 4705
    },
    {
      "epoch": 0.8622205936240381,
      "grad_norm": 0.30443437754622965,
      "learning_rate": 5.687253268319287e-07,
      "loss": 0.4759,
      "step": 4706
    },
    {
      "epoch": 0.8624038109197508,
      "grad_norm": 0.3762594663400903,
      "learning_rate": 5.67244984507207e-07,
      "loss": 0.4832,
      "step": 4707
    },
    {
      "epoch": 0.8625870282154635,
      "grad_norm": 0.3828874654360133,
      "learning_rate": 5.657664554285536e-07,
      "loss": 0.4486,
      "step": 4708
    },
    {
      "epoch": 0.8627702455111762,
      "grad_norm": 0.32478632825544107,
      "learning_rate": 5.642897402007674e-07,
      "loss": 0.483,
      "step": 4709
    },
    {
      "epoch": 0.862953462806889,
      "grad_norm": 0.37189531684212246,
      "learning_rate": 5.62814839427911e-07,
      "loss": 0.4484,
      "step": 4710
    },
    {
      "epoch": 0.8631366801026017,
      "grad_norm": 0.38212786115010916,
      "learning_rate": 5.613417537132992e-07,
      "loss": 0.4665,
      "step": 4711
    },
    {
      "epoch": 0.8633198973983144,
      "grad_norm": 0.39179768082163485,
      "learning_rate": 5.598704836595093e-07,
      "loss": 0.4744,
      "step": 4712
    },
    {
      "epoch": 0.8635031146940271,
      "grad_norm": 0.35748445849400146,
      "learning_rate": 5.584010298683718e-07,
      "loss": 0.4703,
      "step": 4713
    },
    {
      "epoch": 0.8636863319897399,
      "grad_norm": 0.3360163273163187,
      "learning_rate": 5.569333929409749e-07,
      "loss": 0.4756,
      "step": 4714
    },
    {
      "epoch": 0.8638695492854526,
      "grad_norm": 0.3447769988570555,
      "learning_rate": 5.554675734776666e-07,
      "loss": 0.4874,
      "step": 4715
    },
    {
      "epoch": 0.8640527665811653,
      "grad_norm": 0.3571674314958612,
      "learning_rate": 5.540035720780496e-07,
      "loss": 0.4896,
      "step": 4716
    },
    {
      "epoch": 0.864235983876878,
      "grad_norm": 0.3806123348007476,
      "learning_rate": 5.52541389340982e-07,
      "loss": 0.4954,
      "step": 4717
    },
    {
      "epoch": 0.8644192011725907,
      "grad_norm": 0.4451181887254169,
      "learning_rate": 5.510810258645783e-07,
      "loss": 0.4895,
      "step": 4718
    },
    {
      "epoch": 0.8646024184683034,
      "grad_norm": 0.35671002251334094,
      "learning_rate": 5.496224822462093e-07,
      "loss": 0.4778,
      "step": 4719
    },
    {
      "epoch": 0.8647856357640161,
      "grad_norm": 0.3258167210449754,
      "learning_rate": 5.481657590825029e-07,
      "loss": 0.4835,
      "step": 4720
    },
    {
      "epoch": 0.8649688530597288,
      "grad_norm": 0.38838912919272484,
      "learning_rate": 5.467108569693403e-07,
      "loss": 0.4835,
      "step": 4721
    },
    {
      "epoch": 0.8651520703554415,
      "grad_norm": 0.3790292808401653,
      "learning_rate": 5.452577765018563e-07,
      "loss": 0.4752,
      "step": 4722
    },
    {
      "epoch": 0.8653352876511543,
      "grad_norm": 0.4244261923396075,
      "learning_rate": 5.43806518274444e-07,
      "loss": 0.4674,
      "step": 4723
    },
    {
      "epoch": 0.865518504946867,
      "grad_norm": 0.34567247706024967,
      "learning_rate": 5.423570828807512e-07,
      "loss": 0.4708,
      "step": 4724
    },
    {
      "epoch": 0.8657017222425797,
      "grad_norm": 0.34885877088811224,
      "learning_rate": 5.409094709136764e-07,
      "loss": 0.4722,
      "step": 4725
    },
    {
      "epoch": 0.8658849395382924,
      "grad_norm": 0.4690849601959767,
      "learning_rate": 5.394636829653738e-07,
      "loss": 0.4706,
      "step": 4726
    },
    {
      "epoch": 0.8660681568340052,
      "grad_norm": 0.32339419909309275,
      "learning_rate": 5.380197196272529e-07,
      "loss": 0.4419,
      "step": 4727
    },
    {
      "epoch": 0.8662513741297179,
      "grad_norm": 0.3435968523036632,
      "learning_rate": 5.365775814899771e-07,
      "loss": 0.4658,
      "step": 4728
    },
    {
      "epoch": 0.8664345914254306,
      "grad_norm": 0.41714361742399847,
      "learning_rate": 5.351372691434603e-07,
      "loss": 0.4458,
      "step": 4729
    },
    {
      "epoch": 0.8666178087211432,
      "grad_norm": 0.3380184941975371,
      "learning_rate": 5.336987831768714e-07,
      "loss": 0.4659,
      "step": 4730
    },
    {
      "epoch": 0.866801026016856,
      "grad_norm": 0.36595369071152395,
      "learning_rate": 5.322621241786325e-07,
      "loss": 0.4874,
      "step": 4731
    },
    {
      "epoch": 0.8669842433125687,
      "grad_norm": 0.32017617118250824,
      "learning_rate": 5.308272927364194e-07,
      "loss": 0.4417,
      "step": 4732
    },
    {
      "epoch": 0.8671674606082814,
      "grad_norm": 0.3844876584806139,
      "learning_rate": 5.293942894371556e-07,
      "loss": 0.4617,
      "step": 4733
    },
    {
      "epoch": 0.8673506779039941,
      "grad_norm": 0.34264875726785166,
      "learning_rate": 5.279631148670216e-07,
      "loss": 0.4975,
      "step": 4734
    },
    {
      "epoch": 0.8675338951997068,
      "grad_norm": 0.3903946140831761,
      "learning_rate": 5.265337696114497e-07,
      "loss": 0.474,
      "step": 4735
    },
    {
      "epoch": 0.8677171124954196,
      "grad_norm": 0.39605878595595756,
      "learning_rate": 5.251062542551211e-07,
      "loss": 0.4196,
      "step": 4736
    },
    {
      "epoch": 0.8679003297911323,
      "grad_norm": 0.4472024751314984,
      "learning_rate": 5.236805693819685e-07,
      "loss": 0.4737,
      "step": 4737
    },
    {
      "epoch": 0.868083547086845,
      "grad_norm": 0.3467748168624409,
      "learning_rate": 5.222567155751796e-07,
      "loss": 0.4479,
      "step": 4738
    },
    {
      "epoch": 0.8682667643825577,
      "grad_norm": 0.37063105808747765,
      "learning_rate": 5.208346934171898e-07,
      "loss": 0.4581,
      "step": 4739
    },
    {
      "epoch": 0.8684499816782705,
      "grad_norm": 0.36670100634199615,
      "learning_rate": 5.194145034896863e-07,
      "loss": 0.4874,
      "step": 4740
    },
    {
      "epoch": 0.8686331989739832,
      "grad_norm": 0.3823601114766665,
      "learning_rate": 5.179961463736055e-07,
      "loss": 0.4679,
      "step": 4741
    },
    {
      "epoch": 0.8688164162696959,
      "grad_norm": 0.3734179838391516,
      "learning_rate": 5.165796226491359e-07,
      "loss": 0.4739,
      "step": 4742
    },
    {
      "epoch": 0.8689996335654085,
      "grad_norm": 0.35927806436645127,
      "learning_rate": 5.15164932895717e-07,
      "loss": 0.4582,
      "step": 4743
    },
    {
      "epoch": 0.8691828508611212,
      "grad_norm": 0.45571157098485937,
      "learning_rate": 5.137520776920346e-07,
      "loss": 0.44,
      "step": 4744
    },
    {
      "epoch": 0.869366068156834,
      "grad_norm": 0.34616664862473023,
      "learning_rate": 5.123410576160254e-07,
      "loss": 0.4436,
      "step": 4745
    },
    {
      "epoch": 0.8695492854525467,
      "grad_norm": 0.33715339955423174,
      "learning_rate": 5.109318732448771e-07,
      "loss": 0.4434,
      "step": 4746
    },
    {
      "epoch": 0.8697325027482594,
      "grad_norm": 0.3659002972241651,
      "learning_rate": 5.095245251550257e-07,
      "loss": 0.4789,
      "step": 4747
    },
    {
      "epoch": 0.8699157200439721,
      "grad_norm": 0.3378834071104717,
      "learning_rate": 5.081190139221553e-07,
      "loss": 0.4584,
      "step": 4748
    },
    {
      "epoch": 0.8700989373396849,
      "grad_norm": 0.35105083206336474,
      "learning_rate": 5.067153401211982e-07,
      "loss": 0.4694,
      "step": 4749
    },
    {
      "epoch": 0.8702821546353976,
      "grad_norm": 0.32889579815820624,
      "learning_rate": 5.053135043263375e-07,
      "loss": 0.4152,
      "step": 4750
    },
    {
      "epoch": 0.8704653719311103,
      "grad_norm": 0.35785872889020776,
      "learning_rate": 5.039135071110007e-07,
      "loss": 0.446,
      "step": 4751
    },
    {
      "epoch": 0.870648589226823,
      "grad_norm": 0.35561119928811563,
      "learning_rate": 5.025153490478679e-07,
      "loss": 0.4857,
      "step": 4752
    },
    {
      "epoch": 0.8708318065225358,
      "grad_norm": 0.38463153410624384,
      "learning_rate": 5.011190307088626e-07,
      "loss": 0.4954,
      "step": 4753
    },
    {
      "epoch": 0.8710150238182485,
      "grad_norm": 0.4290747855238213,
      "learning_rate": 4.997245526651584e-07,
      "loss": 0.4842,
      "step": 4754
    },
    {
      "epoch": 0.8711982411139612,
      "grad_norm": 0.35862541092456407,
      "learning_rate": 4.983319154871741e-07,
      "loss": 0.455,
      "step": 4755
    },
    {
      "epoch": 0.8713814584096738,
      "grad_norm": 0.3739303551648784,
      "learning_rate": 4.969411197445784e-07,
      "loss": 0.4578,
      "step": 4756
    },
    {
      "epoch": 0.8715646757053865,
      "grad_norm": 0.39272725857499513,
      "learning_rate": 4.955521660062828e-07,
      "loss": 0.4506,
      "step": 4757
    },
    {
      "epoch": 0.8717478930010993,
      "grad_norm": 0.404472418608521,
      "learning_rate": 4.941650548404497e-07,
      "loss": 0.4591,
      "step": 4758
    },
    {
      "epoch": 0.871931110296812,
      "grad_norm": 0.3499079695554252,
      "learning_rate": 4.927797868144835e-07,
      "loss": 0.4778,
      "step": 4759
    },
    {
      "epoch": 0.8721143275925247,
      "grad_norm": 0.3880106466488939,
      "learning_rate": 4.913963624950391e-07,
      "loss": 0.4835,
      "step": 4760
    },
    {
      "epoch": 0.8722975448882374,
      "grad_norm": 0.3475585090670171,
      "learning_rate": 4.900147824480123e-07,
      "loss": 0.45,
      "step": 4761
    },
    {
      "epoch": 0.8724807621839502,
      "grad_norm": 0.32425385031972004,
      "learning_rate": 4.886350472385487e-07,
      "loss": 0.4272,
      "step": 4762
    },
    {
      "epoch": 0.8726639794796629,
      "grad_norm": 0.37037229617563727,
      "learning_rate": 4.87257157431037e-07,
      "loss": 0.4744,
      "step": 4763
    },
    {
      "epoch": 0.8728471967753756,
      "grad_norm": 0.3395073814887526,
      "learning_rate": 4.858811135891117e-07,
      "loss": 0.4647,
      "step": 4764
    },
    {
      "epoch": 0.8730304140710883,
      "grad_norm": 0.41192305317438427,
      "learning_rate": 4.845069162756521e-07,
      "loss": 0.4559,
      "step": 4765
    },
    {
      "epoch": 0.8732136313668011,
      "grad_norm": 0.4352162602022674,
      "learning_rate": 4.831345660527825e-07,
      "loss": 0.4538,
      "step": 4766
    },
    {
      "epoch": 0.8733968486625138,
      "grad_norm": 0.341815126962705,
      "learning_rate": 4.817640634818704e-07,
      "loss": 0.4688,
      "step": 4767
    },
    {
      "epoch": 0.8735800659582265,
      "grad_norm": 0.3299801608239833,
      "learning_rate": 4.803954091235297e-07,
      "loss": 0.4627,
      "step": 4768
    },
    {
      "epoch": 0.8737632832539391,
      "grad_norm": 0.3298055837117004,
      "learning_rate": 4.790286035376168e-07,
      "loss": 0.4226,
      "step": 4769
    },
    {
      "epoch": 0.8739465005496518,
      "grad_norm": 0.3727028786005208,
      "learning_rate": 4.776636472832302e-07,
      "loss": 0.4532,
      "step": 4770
    },
    {
      "epoch": 0.8741297178453646,
      "grad_norm": 0.30744926824515184,
      "learning_rate": 4.763005409187155e-07,
      "loss": 0.4518,
      "step": 4771
    },
    {
      "epoch": 0.8743129351410773,
      "grad_norm": 0.39273173872581413,
      "learning_rate": 4.7493928500165986e-07,
      "loss": 0.4477,
      "step": 4772
    },
    {
      "epoch": 0.87449615243679,
      "grad_norm": 0.376326794866468,
      "learning_rate": 4.7357988008889354e-07,
      "loss": 0.4551,
      "step": 4773
    },
    {
      "epoch": 0.8746793697325027,
      "grad_norm": 0.37425009838690476,
      "learning_rate": 4.7222232673648837e-07,
      "loss": 0.4453,
      "step": 4774
    },
    {
      "epoch": 0.8748625870282155,
      "grad_norm": 0.3727087090108478,
      "learning_rate": 4.7086662549976015e-07,
      "loss": 0.4289,
      "step": 4775
    },
    {
      "epoch": 0.8750458043239282,
      "grad_norm": 0.4208165594640674,
      "learning_rate": 4.6951277693326914e-07,
      "loss": 0.4643,
      "step": 4776
    },
    {
      "epoch": 0.8752290216196409,
      "grad_norm": 0.3442024412651745,
      "learning_rate": 4.68160781590814e-07,
      "loss": 0.4607,
      "step": 4777
    },
    {
      "epoch": 0.8754122389153536,
      "grad_norm": 0.3596386760063062,
      "learning_rate": 4.6681064002543574e-07,
      "loss": 0.4778,
      "step": 4778
    },
    {
      "epoch": 0.8755954562110663,
      "grad_norm": 0.31720810896246016,
      "learning_rate": 4.654623527894192e-07,
      "loss": 0.4657,
      "step": 4779
    },
    {
      "epoch": 0.8757786735067791,
      "grad_norm": 0.4030061297949739,
      "learning_rate": 4.6411592043429044e-07,
      "loss": 0.4663,
      "step": 4780
    },
    {
      "epoch": 0.8759618908024918,
      "grad_norm": 0.3769604502722791,
      "learning_rate": 4.6277134351081556e-07,
      "loss": 0.4516,
      "step": 4781
    },
    {
      "epoch": 0.8761451080982045,
      "grad_norm": 0.3700845331491086,
      "learning_rate": 4.614286225690012e-07,
      "loss": 0.4583,
      "step": 4782
    },
    {
      "epoch": 0.8763283253939171,
      "grad_norm": 0.39098536642671033,
      "learning_rate": 4.600877581580959e-07,
      "loss": 0.4757,
      "step": 4783
    },
    {
      "epoch": 0.8765115426896299,
      "grad_norm": 0.41127924005263067,
      "learning_rate": 4.587487508265914e-07,
      "loss": 0.486,
      "step": 4784
    },
    {
      "epoch": 0.8766947599853426,
      "grad_norm": 0.38323923045026226,
      "learning_rate": 4.5741160112221293e-07,
      "loss": 0.4605,
      "step": 4785
    },
    {
      "epoch": 0.8768779772810553,
      "grad_norm": 0.3616073664821172,
      "learning_rate": 4.560763095919313e-07,
      "loss": 0.4524,
      "step": 4786
    },
    {
      "epoch": 0.877061194576768,
      "grad_norm": 0.34056012201594105,
      "learning_rate": 4.5474287678195785e-07,
      "loss": 0.4148,
      "step": 4787
    },
    {
      "epoch": 0.8772444118724808,
      "grad_norm": 0.4365847584117727,
      "learning_rate": 4.5341130323773906e-07,
      "loss": 0.4771,
      "step": 4788
    },
    {
      "epoch": 0.8774276291681935,
      "grad_norm": 0.34944361429647225,
      "learning_rate": 4.5208158950396375e-07,
      "loss": 0.4624,
      "step": 4789
    },
    {
      "epoch": 0.8776108464639062,
      "grad_norm": 0.3317899355072112,
      "learning_rate": 4.507537361245606e-07,
      "loss": 0.4715,
      "step": 4790
    },
    {
      "epoch": 0.8777940637596189,
      "grad_norm": 0.3358288851963391,
      "learning_rate": 4.4942774364269635e-07,
      "loss": 0.4442,
      "step": 4791
    },
    {
      "epoch": 0.8779772810553316,
      "grad_norm": 0.40184100533564304,
      "learning_rate": 4.4810361260077593e-07,
      "loss": 0.4594,
      "step": 4792
    },
    {
      "epoch": 0.8781604983510444,
      "grad_norm": 0.4193781627758221,
      "learning_rate": 4.467813435404428e-07,
      "loss": 0.4505,
      "step": 4793
    },
    {
      "epoch": 0.8783437156467571,
      "grad_norm": 0.3483074915921811,
      "learning_rate": 4.454609370025798e-07,
      "loss": 0.487,
      "step": 4794
    },
    {
      "epoch": 0.8785269329424698,
      "grad_norm": 0.36982252646055697,
      "learning_rate": 4.441423935273087e-07,
      "loss": 0.4916,
      "step": 4795
    },
    {
      "epoch": 0.8787101502381824,
      "grad_norm": 0.3448570936730333,
      "learning_rate": 4.4282571365398706e-07,
      "loss": 0.4776,
      "step": 4796
    },
    {
      "epoch": 0.8788933675338952,
      "grad_norm": 0.3860983784082014,
      "learning_rate": 4.415108979212096e-07,
      "loss": 0.4641,
      "step": 4797
    },
    {
      "epoch": 0.8790765848296079,
      "grad_norm": 0.36867590724818655,
      "learning_rate": 4.4019794686681106e-07,
      "loss": 0.5113,
      "step": 4798
    },
    {
      "epoch": 0.8792598021253206,
      "grad_norm": 0.34675623543418466,
      "learning_rate": 4.388868610278635e-07,
      "loss": 0.4239,
      "step": 4799
    },
    {
      "epoch": 0.8794430194210333,
      "grad_norm": 0.4152580056946591,
      "learning_rate": 4.3757764094067344e-07,
      "loss": 0.4611,
      "step": 4800
    },
    {
      "epoch": 0.8796262367167461,
      "grad_norm": 0.3946927256297955,
      "learning_rate": 4.362702871407848e-07,
      "loss": 0.5147,
      "step": 4801
    },
    {
      "epoch": 0.8798094540124588,
      "grad_norm": 0.3343148710014495,
      "learning_rate": 4.349648001629797e-07,
      "loss": 0.4637,
      "step": 4802
    },
    {
      "epoch": 0.8799926713081715,
      "grad_norm": 0.3418012239660755,
      "learning_rate": 4.336611805412766e-07,
      "loss": 0.4822,
      "step": 4803
    },
    {
      "epoch": 0.8801758886038842,
      "grad_norm": 0.34128843322141145,
      "learning_rate": 4.3235942880892835e-07,
      "loss": 0.4362,
      "step": 4804
    },
    {
      "epoch": 0.8803591058995969,
      "grad_norm": 0.3672763225631914,
      "learning_rate": 4.31059545498424e-07,
      "loss": 0.4584,
      "step": 4805
    },
    {
      "epoch": 0.8805423231953097,
      "grad_norm": 0.37966058347067694,
      "learning_rate": 4.2976153114148987e-07,
      "loss": 0.4717,
      "step": 4806
    },
    {
      "epoch": 0.8807255404910224,
      "grad_norm": 0.35942734596263926,
      "learning_rate": 4.2846538626908576e-07,
      "loss": 0.4757,
      "step": 4807
    },
    {
      "epoch": 0.880908757786735,
      "grad_norm": 0.3336729142478857,
      "learning_rate": 4.271711114114091e-07,
      "loss": 0.4689,
      "step": 4808
    },
    {
      "epoch": 0.8810919750824477,
      "grad_norm": 0.36969627499792773,
      "learning_rate": 4.258787070978898e-07,
      "loss": 0.4403,
      "step": 4809
    },
    {
      "epoch": 0.8812751923781605,
      "grad_norm": 0.34600574780847104,
      "learning_rate": 4.2458817385719555e-07,
      "loss": 0.418,
      "step": 4810
    },
    {
      "epoch": 0.8814584096738732,
      "grad_norm": 0.3660457660928218,
      "learning_rate": 4.232995122172245e-07,
      "loss": 0.4557,
      "step": 4811
    },
    {
      "epoch": 0.8816416269695859,
      "grad_norm": 0.32264603544309023,
      "learning_rate": 4.2201272270511515e-07,
      "loss": 0.4592,
      "step": 4812
    },
    {
      "epoch": 0.8818248442652986,
      "grad_norm": 0.3404768602369994,
      "learning_rate": 4.207278058472336e-07,
      "loss": 0.4343,
      "step": 4813
    },
    {
      "epoch": 0.8820080615610114,
      "grad_norm": 0.35760723524834126,
      "learning_rate": 4.1944476216918495e-07,
      "loss": 0.4982,
      "step": 4814
    },
    {
      "epoch": 0.8821912788567241,
      "grad_norm": 0.32694545635571576,
      "learning_rate": 4.1816359219580494e-07,
      "loss": 0.4745,
      "step": 4815
    },
    {
      "epoch": 0.8823744961524368,
      "grad_norm": 0.3903420507202521,
      "learning_rate": 4.16884296451166e-07,
      "loss": 0.4427,
      "step": 4816
    },
    {
      "epoch": 0.8825577134481495,
      "grad_norm": 0.34731884542459673,
      "learning_rate": 4.156068754585696e-07,
      "loss": 0.4534,
      "step": 4817
    },
    {
      "epoch": 0.8827409307438622,
      "grad_norm": 0.39836088103002565,
      "learning_rate": 4.143313297405549e-07,
      "loss": 0.4526,
      "step": 4818
    },
    {
      "epoch": 0.882924148039575,
      "grad_norm": 0.47161866526153085,
      "learning_rate": 4.130576598188907e-07,
      "loss": 0.4695,
      "step": 4819
    },
    {
      "epoch": 0.8831073653352877,
      "grad_norm": 0.38945841046337376,
      "learning_rate": 4.117858662145802e-07,
      "loss": 0.4636,
      "step": 4820
    },
    {
      "epoch": 0.8832905826310004,
      "grad_norm": 0.37045955392899627,
      "learning_rate": 4.105159494478583e-07,
      "loss": 0.4804,
      "step": 4821
    },
    {
      "epoch": 0.883473799926713,
      "grad_norm": 0.34619149838705326,
      "learning_rate": 4.092479100381913e-07,
      "loss": 0.4839,
      "step": 4822
    },
    {
      "epoch": 0.8836570172224258,
      "grad_norm": 0.32676624083960315,
      "learning_rate": 4.0798174850427976e-07,
      "loss": 0.443,
      "step": 4823
    },
    {
      "epoch": 0.8838402345181385,
      "grad_norm": 0.3862498656274975,
      "learning_rate": 4.0671746536405544e-07,
      "loss": 0.4735,
      "step": 4824
    },
    {
      "epoch": 0.8840234518138512,
      "grad_norm": 0.30920901806133055,
      "learning_rate": 4.054550611346808e-07,
      "loss": 0.4607,
      "step": 4825
    },
    {
      "epoch": 0.8842066691095639,
      "grad_norm": 0.41394152746300106,
      "learning_rate": 4.041945363325489e-07,
      "loss": 0.4585,
      "step": 4826
    },
    {
      "epoch": 0.8843898864052766,
      "grad_norm": 0.3205896143381676,
      "learning_rate": 4.029358914732862e-07,
      "loss": 0.4576,
      "step": 4827
    },
    {
      "epoch": 0.8845731037009894,
      "grad_norm": 0.37803624220470905,
      "learning_rate": 4.0167912707175014e-07,
      "loss": 0.475,
      "step": 4828
    },
    {
      "epoch": 0.8847563209967021,
      "grad_norm": 0.35494836287627074,
      "learning_rate": 4.004242436420269e-07,
      "loss": 0.4249,
      "step": 4829
    },
    {
      "epoch": 0.8849395382924148,
      "grad_norm": 0.34571671298659484,
      "learning_rate": 3.991712416974347e-07,
      "loss": 0.4918,
      "step": 4830
    },
    {
      "epoch": 0.8851227555881275,
      "grad_norm": 0.342585336743226,
      "learning_rate": 3.9792012175052076e-07,
      "loss": 0.4745,
      "step": 4831
    },
    {
      "epoch": 0.8853059728838403,
      "grad_norm": 0.4208362433264992,
      "learning_rate": 3.9667088431306623e-07,
      "loss": 0.4976,
      "step": 4832
    },
    {
      "epoch": 0.885489190179553,
      "grad_norm": 0.3408535994427791,
      "learning_rate": 3.9542352989607734e-07,
      "loss": 0.4664,
      "step": 4833
    },
    {
      "epoch": 0.8856724074752657,
      "grad_norm": 0.3637487104821648,
      "learning_rate": 3.9417805900979154e-07,
      "loss": 0.4873,
      "step": 4834
    },
    {
      "epoch": 0.8858556247709783,
      "grad_norm": 0.3172577709939467,
      "learning_rate": 3.929344721636774e-07,
      "loss": 0.4319,
      "step": 4835
    },
    {
      "epoch": 0.8860388420666911,
      "grad_norm": 0.35731796191973786,
      "learning_rate": 3.916927698664341e-07,
      "loss": 0.4579,
      "step": 4836
    },
    {
      "epoch": 0.8862220593624038,
      "grad_norm": 0.31638865716709486,
      "learning_rate": 3.904529526259837e-07,
      "loss": 0.4413,
      "step": 4837
    },
    {
      "epoch": 0.8864052766581165,
      "grad_norm": 0.3752269942491934,
      "learning_rate": 3.8921502094948325e-07,
      "loss": 0.4428,
      "step": 4838
    },
    {
      "epoch": 0.8865884939538292,
      "grad_norm": 0.388634970734894,
      "learning_rate": 3.8797897534331553e-07,
      "loss": 0.4989,
      "step": 4839
    },
    {
      "epoch": 0.8867717112495419,
      "grad_norm": 0.35430989732140517,
      "learning_rate": 3.86744816313096e-07,
      "loss": 0.4841,
      "step": 4840
    },
    {
      "epoch": 0.8869549285452547,
      "grad_norm": 0.4037787319233198,
      "learning_rate": 3.855125443636598e-07,
      "loss": 0.4591,
      "step": 4841
    },
    {
      "epoch": 0.8871381458409674,
      "grad_norm": 0.34530954560023164,
      "learning_rate": 3.842821599990787e-07,
      "loss": 0.4478,
      "step": 4842
    },
    {
      "epoch": 0.8873213631366801,
      "grad_norm": 0.3822611567187025,
      "learning_rate": 3.830536637226495e-07,
      "loss": 0.4913,
      "step": 4843
    },
    {
      "epoch": 0.8875045804323928,
      "grad_norm": 0.3790966864214009,
      "learning_rate": 3.818270560368953e-07,
      "loss": 0.4503,
      "step": 4844
    },
    {
      "epoch": 0.8876877977281056,
      "grad_norm": 0.3609214112353151,
      "learning_rate": 3.8060233744356634e-07,
      "loss": 0.4526,
      "step": 4845
    },
    {
      "epoch": 0.8878710150238183,
      "grad_norm": 0.38962620466211084,
      "learning_rate": 3.79379508443643e-07,
      "loss": 0.5017,
      "step": 4846
    },
    {
      "epoch": 0.888054232319531,
      "grad_norm": 0.3236292022047194,
      "learning_rate": 3.7815856953733133e-07,
      "loss": 0.4847,
      "step": 4847
    },
    {
      "epoch": 0.8882374496152436,
      "grad_norm": 0.3454054346717301,
      "learning_rate": 3.76939521224064e-07,
      "loss": 0.4729,
      "step": 4848
    },
    {
      "epoch": 0.8884206669109564,
      "grad_norm": 0.39094294746186065,
      "learning_rate": 3.757223640024982e-07,
      "loss": 0.4545,
      "step": 4849
    },
    {
      "epoch": 0.8886038842066691,
      "grad_norm": 0.37443688886913046,
      "learning_rate": 3.745070983705218e-07,
      "loss": 0.4944,
      "step": 4850
    },
    {
      "epoch": 0.8887871015023818,
      "grad_norm": 0.37988411345917805,
      "learning_rate": 3.732937248252472e-07,
      "loss": 0.4511,
      "step": 4851
    },
    {
      "epoch": 0.8889703187980945,
      "grad_norm": 0.36261796976127203,
      "learning_rate": 3.720822438630106e-07,
      "loss": 0.4533,
      "step": 4852
    },
    {
      "epoch": 0.8891535360938072,
      "grad_norm": 0.42303113105179446,
      "learning_rate": 3.7087265597937627e-07,
      "loss": 0.4978,
      "step": 4853
    },
    {
      "epoch": 0.88933675338952,
      "grad_norm": 0.3741272328204488,
      "learning_rate": 3.696649616691339e-07,
      "loss": 0.4654,
      "step": 4854
    },
    {
      "epoch": 0.8895199706852327,
      "grad_norm": 0.4172627358691279,
      "learning_rate": 3.684591614263e-07,
      "loss": 0.472,
      "step": 4855
    },
    {
      "epoch": 0.8897031879809454,
      "grad_norm": 0.42319286052058397,
      "learning_rate": 3.6725525574411226e-07,
      "loss": 0.4687,
      "step": 4856
    },
    {
      "epoch": 0.8898864052766581,
      "grad_norm": 0.4723309908271977,
      "learning_rate": 3.6605324511503617e-07,
      "loss": 0.4969,
      "step": 4857
    },
    {
      "epoch": 0.8900696225723709,
      "grad_norm": 0.3752229256717594,
      "learning_rate": 3.648531300307634e-07,
      "loss": 0.4568,
      "step": 4858
    },
    {
      "epoch": 0.8902528398680836,
      "grad_norm": 0.38091634747093434,
      "learning_rate": 3.6365491098220683e-07,
      "loss": 0.4716,
      "step": 4859
    },
    {
      "epoch": 0.8904360571637963,
      "grad_norm": 0.36029154867058755,
      "learning_rate": 3.6245858845950557e-07,
      "loss": 0.4827,
      "step": 4860
    },
    {
      "epoch": 0.890619274459509,
      "grad_norm": 0.37161029931977824,
      "learning_rate": 3.612641629520236e-07,
      "loss": 0.4775,
      "step": 4861
    },
    {
      "epoch": 0.8908024917552217,
      "grad_norm": 0.33321589030345006,
      "learning_rate": 3.6007163494834795e-07,
      "loss": 0.4689,
      "step": 4862
    },
    {
      "epoch": 0.8909857090509344,
      "grad_norm": 0.348867845087718,
      "learning_rate": 3.588810049362895e-07,
      "loss": 0.4192,
      "step": 4863
    },
    {
      "epoch": 0.8911689263466471,
      "grad_norm": 0.3555745602487136,
      "learning_rate": 3.57692273402882e-07,
      "loss": 0.4967,
      "step": 4864
    },
    {
      "epoch": 0.8913521436423598,
      "grad_norm": 0.34640124866589594,
      "learning_rate": 3.5650544083438435e-07,
      "loss": 0.495,
      "step": 4865
    },
    {
      "epoch": 0.8915353609380725,
      "grad_norm": 0.33479455916636325,
      "learning_rate": 3.5532050771627856e-07,
      "loss": 0.4517,
      "step": 4866
    },
    {
      "epoch": 0.8917185782337853,
      "grad_norm": 0.3609802730979179,
      "learning_rate": 3.5413747453326766e-07,
      "loss": 0.4567,
      "step": 4867
    },
    {
      "epoch": 0.891901795529498,
      "grad_norm": 0.37200960905168673,
      "learning_rate": 3.5295634176927884e-07,
      "loss": 0.4518,
      "step": 4868
    },
    {
      "epoch": 0.8920850128252107,
      "grad_norm": 0.40911098686063996,
      "learning_rate": 3.5177710990746185e-07,
      "loss": 0.4813,
      "step": 4869
    },
    {
      "epoch": 0.8922682301209234,
      "grad_norm": 0.3475862174413965,
      "learning_rate": 3.505997794301902e-07,
      "loss": 0.4568,
      "step": 4870
    },
    {
      "epoch": 0.8924514474166362,
      "grad_norm": 0.3211170793371448,
      "learning_rate": 3.49424350819057e-07,
      "loss": 0.4648,
      "step": 4871
    },
    {
      "epoch": 0.8926346647123489,
      "grad_norm": 0.3820057704565937,
      "learning_rate": 3.4825082455487766e-07,
      "loss": 0.4445,
      "step": 4872
    },
    {
      "epoch": 0.8928178820080616,
      "grad_norm": 0.34484017095374153,
      "learning_rate": 3.4707920111769324e-07,
      "loss": 0.4573,
      "step": 4873
    },
    {
      "epoch": 0.8930010993037742,
      "grad_norm": 0.49589294733887046,
      "learning_rate": 3.4590948098676027e-07,
      "loss": 0.4609,
      "step": 4874
    },
    {
      "epoch": 0.8931843165994869,
      "grad_norm": 0.3318680679469057,
      "learning_rate": 3.4474166464056327e-07,
      "loss": 0.4461,
      "step": 4875
    },
    {
      "epoch": 0.8933675338951997,
      "grad_norm": 0.4345104517070929,
      "learning_rate": 3.435757525568023e-07,
      "loss": 0.4741,
      "step": 4876
    },
    {
      "epoch": 0.8935507511909124,
      "grad_norm": 0.37560256167506345,
      "learning_rate": 3.4241174521240207e-07,
      "loss": 0.4817,
      "step": 4877
    },
    {
      "epoch": 0.8937339684866251,
      "grad_norm": 0.3429361436041367,
      "learning_rate": 3.412496430835066e-07,
      "loss": 0.4628,
      "step": 4878
    },
    {
      "epoch": 0.8939171857823378,
      "grad_norm": 0.35920723682658684,
      "learning_rate": 3.400894466454824e-07,
      "loss": 0.4946,
      "step": 4879
    },
    {
      "epoch": 0.8941004030780506,
      "grad_norm": 0.34913783744258275,
      "learning_rate": 3.389311563729131e-07,
      "loss": 0.4584,
      "step": 4880
    },
    {
      "epoch": 0.8942836203737633,
      "grad_norm": 0.3607379716234879,
      "learning_rate": 3.377747727396058e-07,
      "loss": 0.4581,
      "step": 4881
    },
    {
      "epoch": 0.894466837669476,
      "grad_norm": 0.3249396315401186,
      "learning_rate": 3.366202962185855e-07,
      "loss": 0.4227,
      "step": 4882
    },
    {
      "epoch": 0.8946500549651887,
      "grad_norm": 0.9585570157817012,
      "learning_rate": 3.3546772728209944e-07,
      "loss": 0.4702,
      "step": 4883
    },
    {
      "epoch": 0.8948332722609015,
      "grad_norm": 0.33438126766914245,
      "learning_rate": 3.34317066401611e-07,
      "loss": 0.461,
      "step": 4884
    },
    {
      "epoch": 0.8950164895566142,
      "grad_norm": 0.3824373992314347,
      "learning_rate": 3.331683140478076e-07,
      "loss": 0.4824,
      "step": 4885
    },
    {
      "epoch": 0.8951997068523269,
      "grad_norm": 0.40915051499084326,
      "learning_rate": 3.3202147069059164e-07,
      "loss": 0.4949,
      "step": 4886
    },
    {
      "epoch": 0.8953829241480395,
      "grad_norm": 0.41656330798473534,
      "learning_rate": 3.308765367990879e-07,
      "loss": 0.4726,
      "step": 4887
    },
    {
      "epoch": 0.8955661414437522,
      "grad_norm": 0.34810133904135593,
      "learning_rate": 3.2973351284163847e-07,
      "loss": 0.4557,
      "step": 4888
    },
    {
      "epoch": 0.895749358739465,
      "grad_norm": 0.36877548663436777,
      "learning_rate": 3.2859239928580313e-07,
      "loss": 0.4991,
      "step": 4889
    },
    {
      "epoch": 0.8959325760351777,
      "grad_norm": 0.37909584725872897,
      "learning_rate": 3.274531965983624e-07,
      "loss": 0.4862,
      "step": 4890
    },
    {
      "epoch": 0.8961157933308904,
      "grad_norm": 0.37925915099093715,
      "learning_rate": 3.2631590524531466e-07,
      "loss": 0.4633,
      "step": 4891
    },
    {
      "epoch": 0.8962990106266031,
      "grad_norm": 0.35308293184942124,
      "learning_rate": 3.251805256918761e-07,
      "loss": 0.4647,
      "step": 4892
    },
    {
      "epoch": 0.8964822279223159,
      "grad_norm": 0.36542400624489646,
      "learning_rate": 3.2404705840247963e-07,
      "loss": 0.4623,
      "step": 4893
    },
    {
      "epoch": 0.8966654452180286,
      "grad_norm": 0.4378360510171086,
      "learning_rate": 3.229155038407772e-07,
      "loss": 0.4748,
      "step": 4894
    },
    {
      "epoch": 0.8968486625137413,
      "grad_norm": 0.3346352173394287,
      "learning_rate": 3.2178586246964017e-07,
      "loss": 0.4801,
      "step": 4895
    },
    {
      "epoch": 0.897031879809454,
      "grad_norm": 0.351346282405727,
      "learning_rate": 3.206581347511539e-07,
      "loss": 0.5004,
      "step": 4896
    },
    {
      "epoch": 0.8972150971051668,
      "grad_norm": 0.45421522016972793,
      "learning_rate": 3.1953232114662226e-07,
      "loss": 0.4802,
      "step": 4897
    },
    {
      "epoch": 0.8973983144008795,
      "grad_norm": 0.34716498956767444,
      "learning_rate": 3.184084221165662e-07,
      "loss": 0.4529,
      "step": 4898
    },
    {
      "epoch": 0.8975815316965922,
      "grad_norm": 0.4260128703732617,
      "learning_rate": 3.172864381207252e-07,
      "loss": 0.4593,
      "step": 4899
    },
    {
      "epoch": 0.8977647489923049,
      "grad_norm": 0.2939127973558809,
      "learning_rate": 3.161663696180528e-07,
      "loss": 0.4332,
      "step": 4900
    },
    {
      "epoch": 0.8979479662880175,
      "grad_norm": 0.35356862311039927,
      "learning_rate": 3.150482170667191e-07,
      "loss": 0.4814,
      "step": 4901
    },
    {
      "epoch": 0.8981311835837303,
      "grad_norm": 0.38680759640757195,
      "learning_rate": 3.1393198092411203e-07,
      "loss": 0.4607,
      "step": 4902
    },
    {
      "epoch": 0.898314400879443,
      "grad_norm": 0.3868502737073052,
      "learning_rate": 3.128176616468359e-07,
      "loss": 0.4681,
      "step": 4903
    },
    {
      "epoch": 0.8984976181751557,
      "grad_norm": 0.4067157939025431,
      "learning_rate": 3.1170525969070887e-07,
      "loss": 0.4874,
      "step": 4904
    },
    {
      "epoch": 0.8986808354708684,
      "grad_norm": 0.38211113949419306,
      "learning_rate": 3.105947755107658e-07,
      "loss": 0.4815,
      "step": 4905
    },
    {
      "epoch": 0.8988640527665812,
      "grad_norm": 0.35304839855864534,
      "learning_rate": 3.0948620956125776e-07,
      "loss": 0.4927,
      "step": 4906
    },
    {
      "epoch": 0.8990472700622939,
      "grad_norm": 0.341979957021192,
      "learning_rate": 3.0837956229565146e-07,
      "loss": 0.4392,
      "step": 4907
    },
    {
      "epoch": 0.8992304873580066,
      "grad_norm": 0.4065961587687938,
      "learning_rate": 3.072748341666254e-07,
      "loss": 0.4509,
      "step": 4908
    },
    {
      "epoch": 0.8994137046537193,
      "grad_norm": 0.3828604497041965,
      "learning_rate": 3.0617202562607697e-07,
      "loss": 0.413,
      "step": 4909
    },
    {
      "epoch": 0.899596921949432,
      "grad_norm": 0.34332134194985975,
      "learning_rate": 3.0507113712511747e-07,
      "loss": 0.4279,
      "step": 4910
    },
    {
      "epoch": 0.8997801392451448,
      "grad_norm": 0.36002957873086067,
      "learning_rate": 3.039721691140712e-07,
      "loss": 0.4839,
      "step": 4911
    },
    {
      "epoch": 0.8999633565408575,
      "grad_norm": 0.33542914499568,
      "learning_rate": 3.02875122042478e-07,
      "loss": 0.4206,
      "step": 4912
    },
    {
      "epoch": 0.9001465738365702,
      "grad_norm": 0.3381133626689856,
      "learning_rate": 3.017799963590917e-07,
      "loss": 0.4822,
      "step": 4913
    },
    {
      "epoch": 0.9003297911322828,
      "grad_norm": 0.5578966824983292,
      "learning_rate": 3.0068679251188116e-07,
      "loss": 0.4699,
      "step": 4914
    },
    {
      "epoch": 0.9005130084279956,
      "grad_norm": 0.35496332159524224,
      "learning_rate": 2.995955109480275e-07,
      "loss": 0.4328,
      "step": 4915
    },
    {
      "epoch": 0.9006962257237083,
      "grad_norm": 0.3339523811709404,
      "learning_rate": 2.98506152113926e-07,
      "loss": 0.4461,
      "step": 4916
    },
    {
      "epoch": 0.900879443019421,
      "grad_norm": 0.35217428631241154,
      "learning_rate": 2.9741871645518616e-07,
      "loss": 0.4356,
      "step": 4917
    },
    {
      "epoch": 0.9010626603151337,
      "grad_norm": 0.38091196373635966,
      "learning_rate": 2.963332044166306e-07,
      "loss": 0.467,
      "step": 4918
    },
    {
      "epoch": 0.9012458776108465,
      "grad_norm": 0.3272784506047193,
      "learning_rate": 2.9524961644229465e-07,
      "loss": 0.4737,
      "step": 4919
    },
    {
      "epoch": 0.9014290949065592,
      "grad_norm": 0.3403394173577311,
      "learning_rate": 2.94167952975426e-07,
      "loss": 0.4448,
      "step": 4920
    },
    {
      "epoch": 0.9016123122022719,
      "grad_norm": 0.7186807488432906,
      "learning_rate": 2.9308821445848567e-07,
      "loss": 0.4616,
      "step": 4921
    },
    {
      "epoch": 0.9017955294979846,
      "grad_norm": 0.3483530685369334,
      "learning_rate": 2.920104013331493e-07,
      "loss": 0.4645,
      "step": 4922
    },
    {
      "epoch": 0.9019787467936973,
      "grad_norm": 0.3081393762018205,
      "learning_rate": 2.909345140403019e-07,
      "loss": 0.473,
      "step": 4923
    },
    {
      "epoch": 0.9021619640894101,
      "grad_norm": 0.4025947080240943,
      "learning_rate": 2.8986055302004045e-07,
      "loss": 0.4756,
      "step": 4924
    },
    {
      "epoch": 0.9023451813851228,
      "grad_norm": 0.40263858263747304,
      "learning_rate": 2.887885187116779e-07,
      "loss": 0.4814,
      "step": 4925
    },
    {
      "epoch": 0.9025283986808355,
      "grad_norm": 0.3310030739455688,
      "learning_rate": 2.8771841155373513e-07,
      "loss": 0.474,
      "step": 4926
    },
    {
      "epoch": 0.9027116159765481,
      "grad_norm": 0.3354060061636858,
      "learning_rate": 2.866502319839465e-07,
      "loss": 0.4517,
      "step": 4927
    },
    {
      "epoch": 0.9028948332722609,
      "grad_norm": 0.372528256679799,
      "learning_rate": 2.855839804392568e-07,
      "loss": 0.5142,
      "step": 4928
    },
    {
      "epoch": 0.9030780505679736,
      "grad_norm": 0.3365831382289672,
      "learning_rate": 2.8451965735582455e-07,
      "loss": 0.4323,
      "step": 4929
    },
    {
      "epoch": 0.9032612678636863,
      "grad_norm": 0.3385594222248257,
      "learning_rate": 2.834572631690158e-07,
      "loss": 0.4777,
      "step": 4930
    },
    {
      "epoch": 0.903444485159399,
      "grad_norm": 0.32658799669276706,
      "learning_rate": 2.8239679831341126e-07,
      "loss": 0.4596,
      "step": 4931
    },
    {
      "epoch": 0.9036277024551118,
      "grad_norm": 0.36702488522666377,
      "learning_rate": 2.813382632227996e-07,
      "loss": 0.4504,
      "step": 4932
    },
    {
      "epoch": 0.9038109197508245,
      "grad_norm": 0.37208252431065797,
      "learning_rate": 2.802816583301815e-07,
      "loss": 0.4906,
      "step": 4933
    },
    {
      "epoch": 0.9039941370465372,
      "grad_norm": 0.3739481848320804,
      "learning_rate": 2.792269840677675e-07,
      "loss": 0.4695,
      "step": 4934
    },
    {
      "epoch": 0.9041773543422499,
      "grad_norm": 0.3630361210797529,
      "learning_rate": 2.781742408669791e-07,
      "loss": 0.4712,
      "step": 4935
    },
    {
      "epoch": 0.9043605716379626,
      "grad_norm": 0.3779355465449995,
      "learning_rate": 2.771234291584468e-07,
      "loss": 0.4801,
      "step": 4936
    },
    {
      "epoch": 0.9045437889336754,
      "grad_norm": 0.4409045039425335,
      "learning_rate": 2.7607454937201295e-07,
      "loss": 0.4846,
      "step": 4937
    },
    {
      "epoch": 0.9047270062293881,
      "grad_norm": 0.3971717083693932,
      "learning_rate": 2.7502760193672704e-07,
      "loss": 0.49,
      "step": 4938
    },
    {
      "epoch": 0.9049102235251008,
      "grad_norm": 0.36233330924393153,
      "learning_rate": 2.739825872808505e-07,
      "loss": 0.4922,
      "step": 4939
    },
    {
      "epoch": 0.9050934408208134,
      "grad_norm": 0.35326440600726605,
      "learning_rate": 2.729395058318518e-07,
      "loss": 0.4681,
      "step": 4940
    },
    {
      "epoch": 0.9052766581165262,
      "grad_norm": 0.3742666329408186,
      "learning_rate": 2.718983580164114e-07,
      "loss": 0.4246,
      "step": 4941
    },
    {
      "epoch": 0.9054598754122389,
      "grad_norm": 0.31951665385306743,
      "learning_rate": 2.7085914426041583e-07,
      "loss": 0.4509,
      "step": 4942
    },
    {
      "epoch": 0.9056430927079516,
      "grad_norm": 0.33975152526881497,
      "learning_rate": 2.698218649889639e-07,
      "loss": 0.4769,
      "step": 4943
    },
    {
      "epoch": 0.9058263100036643,
      "grad_norm": 0.41742124442249395,
      "learning_rate": 2.6878652062635957e-07,
      "loss": 0.5013,
      "step": 4944
    },
    {
      "epoch": 0.9060095272993771,
      "grad_norm": 0.33213220542154853,
      "learning_rate": 2.677531115961163e-07,
      "loss": 0.4374,
      "step": 4945
    },
    {
      "epoch": 0.9061927445950898,
      "grad_norm": 0.3337974421764124,
      "learning_rate": 2.667216383209581e-07,
      "loss": 0.4504,
      "step": 4946
    },
    {
      "epoch": 0.9063759618908025,
      "grad_norm": 0.3607510563290672,
      "learning_rate": 2.656921012228153e-07,
      "loss": 0.4442,
      "step": 4947
    },
    {
      "epoch": 0.9065591791865152,
      "grad_norm": 0.37281076534193025,
      "learning_rate": 2.64664500722826e-07,
      "loss": 0.4624,
      "step": 4948
    },
    {
      "epoch": 0.9067423964822279,
      "grad_norm": 0.3352794538752936,
      "learning_rate": 2.636388372413362e-07,
      "loss": 0.4724,
      "step": 4949
    },
    {
      "epoch": 0.9069256137779407,
      "grad_norm": 0.33618199210104194,
      "learning_rate": 2.626151111979003e-07,
      "loss": 0.4389,
      "step": 4950
    },
    {
      "epoch": 0.9071088310736534,
      "grad_norm": 0.3108497882664409,
      "learning_rate": 2.6159332301128104e-07,
      "loss": 0.4339,
      "step": 4951
    },
    {
      "epoch": 0.907292048369366,
      "grad_norm": 0.33961572104286003,
      "learning_rate": 2.605734730994458e-07,
      "loss": 0.444,
      "step": 4952
    },
    {
      "epoch": 0.9074752656650787,
      "grad_norm": 0.388456727312225,
      "learning_rate": 2.595555618795703e-07,
      "loss": 0.4256,
      "step": 4953
    },
    {
      "epoch": 0.9076584829607915,
      "grad_norm": 0.35528741783968276,
      "learning_rate": 2.585395897680376e-07,
      "loss": 0.4481,
      "step": 4954
    },
    {
      "epoch": 0.9078417002565042,
      "grad_norm": 0.35227484068282305,
      "learning_rate": 2.575255571804391e-07,
      "loss": 0.4624,
      "step": 4955
    },
    {
      "epoch": 0.9080249175522169,
      "grad_norm": 0.3434351345497852,
      "learning_rate": 2.5651346453157033e-07,
      "loss": 0.4679,
      "step": 4956
    },
    {
      "epoch": 0.9082081348479296,
      "grad_norm": 0.35506322987234856,
      "learning_rate": 2.5550331223543225e-07,
      "loss": 0.516,
      "step": 4957
    },
    {
      "epoch": 0.9083913521436423,
      "grad_norm": 0.3657441811308741,
      "learning_rate": 2.54495100705236e-07,
      "loss": 0.4701,
      "step": 4958
    },
    {
      "epoch": 0.9085745694393551,
      "grad_norm": 0.38263732785390736,
      "learning_rate": 2.534888303533972e-07,
      "loss": 0.5025,
      "step": 4959
    },
    {
      "epoch": 0.9087577867350678,
      "grad_norm": 0.3791519380336447,
      "learning_rate": 2.524845015915345e-07,
      "loss": 0.4607,
      "step": 4960
    },
    {
      "epoch": 0.9089410040307805,
      "grad_norm": 0.3591365364403032,
      "learning_rate": 2.514821148304769e-07,
      "loss": 0.4691,
      "step": 4961
    },
    {
      "epoch": 0.9091242213264932,
      "grad_norm": 0.3250739846769537,
      "learning_rate": 2.5048167048025654e-07,
      "loss": 0.4226,
      "step": 4962
    },
    {
      "epoch": 0.909307438622206,
      "grad_norm": 0.44294552795890796,
      "learning_rate": 2.49483168950112e-07,
      "loss": 0.468,
      "step": 4963
    },
    {
      "epoch": 0.9094906559179187,
      "grad_norm": 0.3798759612827671,
      "learning_rate": 2.4848661064848457e-07,
      "loss": 0.4775,
      "step": 4964
    },
    {
      "epoch": 0.9096738732136314,
      "grad_norm": 0.36415582806252733,
      "learning_rate": 2.4749199598302407e-07,
      "loss": 0.4615,
      "step": 4965
    },
    {
      "epoch": 0.909857090509344,
      "grad_norm": 0.33150822853754874,
      "learning_rate": 2.4649932536058407e-07,
      "loss": 0.4556,
      "step": 4966
    },
    {
      "epoch": 0.9100403078050568,
      "grad_norm": 0.3571307471461616,
      "learning_rate": 2.455085991872225e-07,
      "loss": 0.4638,
      "step": 4967
    },
    {
      "epoch": 0.9102235251007695,
      "grad_norm": 0.35370135640303424,
      "learning_rate": 2.4451981786820125e-07,
      "loss": 0.4219,
      "step": 4968
    },
    {
      "epoch": 0.9104067423964822,
      "grad_norm": 0.3500808697242027,
      "learning_rate": 2.435329818079879e-07,
      "loss": 0.4508,
      "step": 4969
    },
    {
      "epoch": 0.9105899596921949,
      "grad_norm": 0.3803030866937755,
      "learning_rate": 2.4254809141025514e-07,
      "loss": 0.4566,
      "step": 4970
    },
    {
      "epoch": 0.9107731769879076,
      "grad_norm": 0.4175219114445916,
      "learning_rate": 2.4156514707787683e-07,
      "loss": 0.4689,
      "step": 4971
    },
    {
      "epoch": 0.9109563942836204,
      "grad_norm": 0.3947862943272951,
      "learning_rate": 2.4058414921293293e-07,
      "loss": 0.4743,
      "step": 4972
    },
    {
      "epoch": 0.9111396115793331,
      "grad_norm": 0.371315623148494,
      "learning_rate": 2.39605098216707e-07,
      "loss": 0.4899,
      "step": 4973
    },
    {
      "epoch": 0.9113228288750458,
      "grad_norm": 0.3599195767751902,
      "learning_rate": 2.386279944896858e-07,
      "loss": 0.4335,
      "step": 4974
    },
    {
      "epoch": 0.9115060461707585,
      "grad_norm": 0.37787364249791316,
      "learning_rate": 2.3765283843156018e-07,
      "loss": 0.4647,
      "step": 4975
    },
    {
      "epoch": 0.9116892634664713,
      "grad_norm": 0.4434485262054723,
      "learning_rate": 2.3667963044122278e-07,
      "loss": 0.4894,
      "step": 4976
    },
    {
      "epoch": 0.911872480762184,
      "grad_norm": 0.34575147394332395,
      "learning_rate": 2.3570837091677124e-07,
      "loss": 0.4444,
      "step": 4977
    },
    {
      "epoch": 0.9120556980578967,
      "grad_norm": 0.36294758932153603,
      "learning_rate": 2.3473906025550497e-07,
      "loss": 0.483,
      "step": 4978
    },
    {
      "epoch": 0.9122389153536093,
      "grad_norm": 0.3425817566606844,
      "learning_rate": 2.3377169885392737e-07,
      "loss": 0.4282,
      "step": 4979
    },
    {
      "epoch": 0.9124221326493221,
      "grad_norm": 0.3671103730502629,
      "learning_rate": 2.3280628710774189e-07,
      "loss": 0.446,
      "step": 4980
    },
    {
      "epoch": 0.9126053499450348,
      "grad_norm": 0.7652588185039066,
      "learning_rate": 2.318428254118582e-07,
      "loss": 0.4768,
      "step": 4981
    },
    {
      "epoch": 0.9127885672407475,
      "grad_norm": 0.33741484196406774,
      "learning_rate": 2.308813141603844e-07,
      "loss": 0.4806,
      "step": 4982
    },
    {
      "epoch": 0.9129717845364602,
      "grad_norm": 0.3759089142457896,
      "learning_rate": 2.2992175374663417e-07,
      "loss": 0.4632,
      "step": 4983
    },
    {
      "epoch": 0.9131550018321729,
      "grad_norm": 0.3924723854820959,
      "learning_rate": 2.2896414456312077e-07,
      "loss": 0.4487,
      "step": 4984
    },
    {
      "epoch": 0.9133382191278857,
      "grad_norm": 0.41602868539879684,
      "learning_rate": 2.2800848700156088e-07,
      "loss": 0.4736,
      "step": 4985
    },
    {
      "epoch": 0.9135214364235984,
      "grad_norm": 0.3902806002675323,
      "learning_rate": 2.2705478145287174e-07,
      "loss": 0.5048,
      "step": 4986
    },
    {
      "epoch": 0.9137046537193111,
      "grad_norm": 0.3143375670454848,
      "learning_rate": 2.2610302830717302e-07,
      "loss": 0.4759,
      "step": 4987
    },
    {
      "epoch": 0.9138878710150238,
      "grad_norm": 0.3474712545379862,
      "learning_rate": 2.2515322795378436e-07,
      "loss": 0.4766,
      "step": 4988
    },
    {
      "epoch": 0.9140710883107366,
      "grad_norm": 1.248372328610258,
      "learning_rate": 2.2420538078122832e-07,
      "loss": 0.4781,
      "step": 4989
    },
    {
      "epoch": 0.9142543056064493,
      "grad_norm": 0.3649223569747327,
      "learning_rate": 2.2325948717722756e-07,
      "loss": 0.4791,
      "step": 4990
    },
    {
      "epoch": 0.914437522902162,
      "grad_norm": 0.3475327593359362,
      "learning_rate": 2.2231554752870588e-07,
      "loss": 0.4567,
      "step": 4991
    },
    {
      "epoch": 0.9146207401978746,
      "grad_norm": 0.37399469693739446,
      "learning_rate": 2.2137356222178664e-07,
      "loss": 0.4723,
      "step": 4992
    },
    {
      "epoch": 0.9148039574935874,
      "grad_norm": 0.3066478829926953,
      "learning_rate": 2.204335316417966e-07,
      "loss": 0.4396,
      "step": 4993
    },
    {
      "epoch": 0.9149871747893001,
      "grad_norm": 0.35458166777623096,
      "learning_rate": 2.194954561732593e-07,
      "loss": 0.4671,
      "step": 4994
    },
    {
      "epoch": 0.9151703920850128,
      "grad_norm": 0.43618141764486884,
      "learning_rate": 2.1855933619990167e-07,
      "loss": 0.4655,
      "step": 4995
    },
    {
      "epoch": 0.9153536093807255,
      "grad_norm": 0.3590879427768603,
      "learning_rate": 2.1762517210464907e-07,
      "loss": 0.4867,
      "step": 4996
    },
    {
      "epoch": 0.9155368266764382,
      "grad_norm": 0.3741014318403361,
      "learning_rate": 2.1669296426962638e-07,
      "loss": 0.472,
      "step": 4997
    },
    {
      "epoch": 0.915720043972151,
      "grad_norm": 0.3838728310327138,
      "learning_rate": 2.157627130761597e-07,
      "loss": 0.425,
      "step": 4998
    },
    {
      "epoch": 0.9159032612678637,
      "grad_norm": 0.37795448261761533,
      "learning_rate": 2.1483441890477464e-07,
      "loss": 0.499,
      "step": 4999
    },
    {
      "epoch": 0.9160864785635764,
      "grad_norm": 0.38619666356652016,
      "learning_rate": 2.139080821351952e-07,
      "loss": 0.4581,
      "step": 5000
    }
  ],
  "logging_steps": 1,
  "max_steps": 5458,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 889063246725120.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}