{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.39603960396039606,
  "eval_steps": 500,
  "global_step": 2500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0015841584158415843,
      "grad_norm": 0.06556262075901031,
      "learning_rate": 7.2e-06,
      "loss": 0.6151810169219971,
      "step": 10
    },
    {
      "epoch": 0.0031683168316831685,
      "grad_norm": 0.06630237400531769,
      "learning_rate": 1.52e-05,
      "loss": 0.5479158401489258,
      "step": 20
    },
    {
      "epoch": 0.004752475247524752,
      "grad_norm": 0.08819983899593353,
      "learning_rate": 2.32e-05,
      "loss": 0.580345344543457,
      "step": 30
    },
    {
      "epoch": 0.006336633663366337,
      "grad_norm": 0.07164224237203598,
      "learning_rate": 3.12e-05,
      "loss": 0.5383748054504395,
      "step": 40
    },
    {
      "epoch": 0.007920792079207921,
      "grad_norm": 0.08992987126111984,
      "learning_rate": 3.9200000000000004e-05,
      "loss": 0.5134584426879882,
      "step": 50
    },
    {
      "epoch": 0.009504950495049505,
      "grad_norm": 0.09747444093227386,
      "learning_rate": 4.72e-05,
      "loss": 0.52029390335083,
      "step": 60
    },
    {
      "epoch": 0.011089108910891089,
      "grad_norm": 0.11321567744016647,
      "learning_rate": 5.520000000000001e-05,
      "loss": 0.4892634391784668,
      "step": 70
    },
    {
      "epoch": 0.012673267326732674,
      "grad_norm": 0.08909470587968826,
      "learning_rate": 6.32e-05,
      "loss": 0.4739553928375244,
      "step": 80
    },
    {
      "epoch": 0.014257425742574258,
      "grad_norm": 0.12608297169208527,
      "learning_rate": 7.12e-05,
      "loss": 0.4961063385009766,
      "step": 90
    },
    {
      "epoch": 0.015841584158415842,
      "grad_norm": 0.11412779241800308,
      "learning_rate": 7.920000000000001e-05,
      "loss": 0.4843149662017822,
      "step": 100
    },
    {
      "epoch": 0.017425742574257427,
      "grad_norm": 0.12621361017227173,
      "learning_rate": 8.72e-05,
      "loss": 0.48389220237731934,
      "step": 110
    },
    {
      "epoch": 0.01900990099009901,
      "grad_norm": 0.12417051941156387,
      "learning_rate": 9.52e-05,
      "loss": 0.4838583946228027,
      "step": 120
    },
    {
      "epoch": 0.020594059405940595,
      "grad_norm": 0.14021746814250946,
      "learning_rate": 0.0001032,
      "loss": 0.45241260528564453,
      "step": 130
    },
    {
      "epoch": 0.022178217821782177,
      "grad_norm": 0.09451174736022949,
      "learning_rate": 0.00011120000000000002,
      "loss": 0.44155592918395997,
      "step": 140
    },
    {
      "epoch": 0.023762376237623763,
      "grad_norm": 0.12511184811592102,
      "learning_rate": 0.0001192,
      "loss": 0.47519407272338865,
      "step": 150
    },
    {
      "epoch": 0.025346534653465348,
      "grad_norm": 0.13305315375328064,
      "learning_rate": 0.0001272,
      "loss": 0.4809138298034668,
      "step": 160
    },
    {
      "epoch": 0.02693069306930693,
      "grad_norm": 0.11137474328279495,
      "learning_rate": 0.0001352,
      "loss": 0.4950218677520752,
      "step": 170
    },
    {
      "epoch": 0.028514851485148516,
      "grad_norm": 0.14295189082622528,
      "learning_rate": 0.0001432,
      "loss": 0.44295687675476075,
      "step": 180
    },
    {
      "epoch": 0.030099009900990098,
      "grad_norm": 0.11107228696346283,
      "learning_rate": 0.00015120000000000002,
      "loss": 0.5302713871002197,
      "step": 190
    },
    {
      "epoch": 0.031683168316831684,
      "grad_norm": 0.11264927685260773,
      "learning_rate": 0.00015920000000000002,
      "loss": 0.4833076000213623,
      "step": 200
    },
    {
      "epoch": 0.03326732673267327,
      "grad_norm": 0.1116105169057846,
      "learning_rate": 0.0001672,
      "loss": 0.47181167602539065,
      "step": 210
    },
    {
      "epoch": 0.034851485148514855,
      "grad_norm": 0.12198604643344879,
      "learning_rate": 0.0001752,
      "loss": 0.45895776748657224,
      "step": 220
    },
    {
      "epoch": 0.03643564356435643,
      "grad_norm": 0.09375844895839691,
      "learning_rate": 0.0001832,
      "loss": 0.46950302124023435,
      "step": 230
    },
    {
      "epoch": 0.03801980198019802,
      "grad_norm": 0.12337016314268112,
      "learning_rate": 0.0001912,
      "loss": 0.5031816482543945,
      "step": 240
    },
    {
      "epoch": 0.039603960396039604,
      "grad_norm": 0.1063649132847786,
      "learning_rate": 0.00019920000000000002,
      "loss": 0.4671049118041992,
      "step": 250
    },
    {
      "epoch": 0.04118811881188119,
      "grad_norm": 0.09282703697681427,
      "learning_rate": 0.00019920000000000002,
      "loss": 0.4365957260131836,
      "step": 260
    },
    {
      "epoch": 0.042772277227722776,
      "grad_norm": 0.11267738789319992,
      "learning_rate": 0.00019831111111111112,
      "loss": 0.480745267868042,
      "step": 270
    },
    {
      "epoch": 0.044356435643564354,
      "grad_norm": 0.1347280740737915,
      "learning_rate": 0.00019742222222222225,
      "loss": 0.46505031585693357,
      "step": 280
    },
    {
      "epoch": 0.04594059405940594,
      "grad_norm": 0.10801614820957184,
      "learning_rate": 0.00019653333333333336,
      "loss": 0.46571884155273435,
      "step": 290
    },
    {
      "epoch": 0.047524752475247525,
      "grad_norm": 0.12413369119167328,
      "learning_rate": 0.00019564444444444446,
      "loss": 0.4441887378692627,
      "step": 300
    },
    {
      "epoch": 0.04910891089108911,
      "grad_norm": 0.0879567414522171,
      "learning_rate": 0.00019475555555555557,
      "loss": 0.43287091255187987,
      "step": 310
    },
    {
      "epoch": 0.050693069306930696,
      "grad_norm": 0.09971684217453003,
      "learning_rate": 0.0001938666666666667,
      "loss": 0.45388994216918943,
      "step": 320
    },
    {
      "epoch": 0.052277227722772275,
      "grad_norm": 0.09890090674161911,
      "learning_rate": 0.0001929777777777778,
      "loss": 0.42935981750488283,
      "step": 330
    },
    {
      "epoch": 0.05386138613861386,
      "grad_norm": 0.09626103192567825,
      "learning_rate": 0.0001920888888888889,
      "loss": 0.4544685363769531,
      "step": 340
    },
    {
      "epoch": 0.055445544554455446,
      "grad_norm": 0.09048525989055634,
      "learning_rate": 0.0001912,
      "loss": 0.4353527069091797,
      "step": 350
    },
    {
      "epoch": 0.05702970297029703,
      "grad_norm": 0.1372356116771698,
      "learning_rate": 0.00019031111111111112,
      "loss": 0.4675909519195557,
      "step": 360
    },
    {
      "epoch": 0.05861386138613861,
      "grad_norm": 0.11068324744701385,
      "learning_rate": 0.00018942222222222222,
      "loss": 0.4603554725646973,
      "step": 370
    },
    {
      "epoch": 0.060198019801980196,
      "grad_norm": 0.10414744913578033,
      "learning_rate": 0.00018853333333333333,
      "loss": 0.45653133392333983,
      "step": 380
    },
    {
      "epoch": 0.06178217821782178,
      "grad_norm": 0.15728670358657837,
      "learning_rate": 0.00018764444444444446,
      "loss": 0.46082301139831544,
      "step": 390
    },
    {
      "epoch": 0.06336633663366337,
      "grad_norm": 0.14269177615642548,
      "learning_rate": 0.00018675555555555556,
      "loss": 0.47365808486938477,
      "step": 400
    },
    {
      "epoch": 0.06495049504950495,
      "grad_norm": 0.08951593935489655,
      "learning_rate": 0.00018586666666666667,
      "loss": 0.4434823036193848,
      "step": 410
    },
    {
      "epoch": 0.06653465346534654,
      "grad_norm": 0.1097274124622345,
      "learning_rate": 0.00018497777777777777,
      "loss": 0.4335814952850342,
      "step": 420
    },
    {
      "epoch": 0.06811881188118812,
      "grad_norm": 0.14073720574378967,
      "learning_rate": 0.00018408888888888888,
      "loss": 0.42411150932312014,
      "step": 430
    },
    {
      "epoch": 0.06970297029702971,
      "grad_norm": 0.12873341143131256,
      "learning_rate": 0.0001832,
      "loss": 0.4766682624816895,
      "step": 440
    },
    {
      "epoch": 0.07128712871287128,
      "grad_norm": 0.07945746928453445,
      "learning_rate": 0.0001823111111111111,
      "loss": 0.41811428070068357,
      "step": 450
    },
    {
      "epoch": 0.07287128712871287,
      "grad_norm": 0.13228054344654083,
      "learning_rate": 0.00018142222222222222,
      "loss": 0.466593599319458,
      "step": 460
    },
    {
      "epoch": 0.07445544554455445,
      "grad_norm": 0.12058842182159424,
      "learning_rate": 0.00018053333333333332,
      "loss": 0.4782561302185059,
      "step": 470
    },
    {
      "epoch": 0.07603960396039604,
      "grad_norm": 0.10949750244617462,
      "learning_rate": 0.00017964444444444445,
      "loss": 0.4511709213256836,
      "step": 480
    },
    {
      "epoch": 0.07762376237623762,
      "grad_norm": 0.133078470826149,
      "learning_rate": 0.00017875555555555556,
      "loss": 0.4502392292022705,
      "step": 490
    },
    {
      "epoch": 0.07920792079207921,
      "grad_norm": 0.09396151453256607,
      "learning_rate": 0.00017786666666666666,
      "loss": 0.44018964767456054,
      "step": 500
    },
    {
      "epoch": 0.0807920792079208,
      "grad_norm": 0.1271175742149353,
      "learning_rate": 0.00017697777777777777,
      "loss": 0.4549531936645508,
      "step": 510
    },
    {
      "epoch": 0.08237623762376238,
      "grad_norm": 0.13191580772399902,
      "learning_rate": 0.0001760888888888889,
      "loss": 0.4755974769592285,
      "step": 520
    },
    {
      "epoch": 0.08396039603960397,
      "grad_norm": 0.10729491710662842,
      "learning_rate": 0.0001752,
      "loss": 0.41382646560668945,
      "step": 530
    },
    {
      "epoch": 0.08554455445544555,
      "grad_norm": 0.08870874345302582,
      "learning_rate": 0.0001743111111111111,
      "loss": 0.4281641483306885,
      "step": 540
    },
    {
      "epoch": 0.08712871287128712,
      "grad_norm": 0.1239466741681099,
      "learning_rate": 0.00017342222222222224,
      "loss": 0.4584688186645508,
      "step": 550
    },
    {
      "epoch": 0.08871287128712871,
      "grad_norm": 0.11894556134939194,
      "learning_rate": 0.00017253333333333334,
      "loss": 0.46378793716430666,
      "step": 560
    },
    {
      "epoch": 0.0902970297029703,
      "grad_norm": 0.11373710632324219,
      "learning_rate": 0.00017164444444444445,
      "loss": 0.49725875854492185,
      "step": 570
    },
    {
      "epoch": 0.09188118811881188,
      "grad_norm": 0.10424434393644333,
      "learning_rate": 0.00017075555555555555,
      "loss": 0.45825581550598143,
      "step": 580
    },
    {
      "epoch": 0.09346534653465347,
      "grad_norm": 0.11420601606369019,
      "learning_rate": 0.00016986666666666668,
      "loss": 0.45974411964416506,
      "step": 590
    },
    {
      "epoch": 0.09504950495049505,
      "grad_norm": 0.08729609847068787,
      "learning_rate": 0.0001689777777777778,
      "loss": 0.41493749618530273,
      "step": 600
    },
    {
      "epoch": 0.09663366336633664,
      "grad_norm": 0.12459246814250946,
      "learning_rate": 0.0001680888888888889,
      "loss": 0.45732903480529785,
      "step": 610
    },
    {
      "epoch": 0.09821782178217822,
      "grad_norm": 0.11139161139726639,
      "learning_rate": 0.0001672,
      "loss": 0.452393913269043,
      "step": 620
    },
    {
      "epoch": 0.09980198019801981,
      "grad_norm": 0.13227005302906036,
      "learning_rate": 0.00016631111111111113,
      "loss": 0.4697711944580078,
      "step": 630
    },
    {
      "epoch": 0.10138613861386139,
      "grad_norm": 0.11359205096960068,
      "learning_rate": 0.00016542222222222223,
      "loss": 0.44234395027160645,
      "step": 640
    },
    {
      "epoch": 0.10297029702970296,
      "grad_norm": 0.10215561091899872,
      "learning_rate": 0.00016453333333333334,
      "loss": 0.4134825706481934,
      "step": 650
    },
    {
      "epoch": 0.10455445544554455,
      "grad_norm": 0.10554394870996475,
      "learning_rate": 0.00016364444444444444,
      "loss": 0.4320853233337402,
      "step": 660
    },
    {
      "epoch": 0.10613861386138614,
      "grad_norm": 0.10074356943368912,
      "learning_rate": 0.00016275555555555558,
      "loss": 0.47079954147338865,
      "step": 670
    },
    {
      "epoch": 0.10772277227722772,
      "grad_norm": 0.1219848170876503,
      "learning_rate": 0.00016186666666666668,
      "loss": 0.44622125625610354,
      "step": 680
    },
    {
      "epoch": 0.1093069306930693,
      "grad_norm": 0.10316894948482513,
      "learning_rate": 0.00016097777777777778,
      "loss": 0.4087726593017578,
      "step": 690
    },
    {
      "epoch": 0.11089108910891089,
      "grad_norm": 0.09130258858203888,
      "learning_rate": 0.0001600888888888889,
      "loss": 0.4572176933288574,
      "step": 700
    },
    {
      "epoch": 0.11247524752475248,
      "grad_norm": 0.13283619284629822,
      "learning_rate": 0.00015920000000000002,
      "loss": 0.44556303024291993,
      "step": 710
    },
    {
      "epoch": 0.11405940594059406,
      "grad_norm": 0.09566845744848251,
      "learning_rate": 0.00015831111111111113,
      "loss": 0.4299760818481445,
      "step": 720
    },
    {
      "epoch": 0.11564356435643565,
      "grad_norm": 0.09357430040836334,
      "learning_rate": 0.00015742222222222223,
      "loss": 0.4479306697845459,
      "step": 730
    },
    {
      "epoch": 0.11722772277227722,
      "grad_norm": 0.08751889318227768,
      "learning_rate": 0.00015653333333333333,
      "loss": 0.42789626121520996,
      "step": 740
    },
    {
      "epoch": 0.1188118811881188,
      "grad_norm": 0.12049714475870132,
      "learning_rate": 0.00015564444444444447,
      "loss": 0.47111997604370115,
      "step": 750
    },
    {
      "epoch": 0.12039603960396039,
      "grad_norm": 0.10753843188285828,
      "learning_rate": 0.00015475555555555557,
      "loss": 0.42185111045837403,
      "step": 760
    },
    {
      "epoch": 0.12198019801980198,
      "grad_norm": 0.1295730322599411,
      "learning_rate": 0.00015386666666666668,
      "loss": 0.4739703178405762,
      "step": 770
    },
    {
      "epoch": 0.12356435643564356,
      "grad_norm": 0.08475282788276672,
      "learning_rate": 0.00015297777777777778,
      "loss": 0.4738037586212158,
      "step": 780
    },
    {
      "epoch": 0.12514851485148515,
      "grad_norm": 0.10000675916671753,
      "learning_rate": 0.0001520888888888889,
      "loss": 0.44550237655639646,
      "step": 790
    },
    {
      "epoch": 0.12673267326732673,
      "grad_norm": 0.10124850273132324,
      "learning_rate": 0.00015120000000000002,
      "loss": 0.41213264465332033,
      "step": 800
    },
    {
      "epoch": 0.12831683168316832,
      "grad_norm": 0.09979727119207382,
      "learning_rate": 0.00015031111111111112,
      "loss": 0.4510068893432617,
      "step": 810
    },
    {
      "epoch": 0.1299009900990099,
      "grad_norm": 0.10252496600151062,
      "learning_rate": 0.00014942222222222223,
      "loss": 0.4421220302581787,
      "step": 820
    },
    {
      "epoch": 0.1314851485148515,
      "grad_norm": 0.11230350285768509,
      "learning_rate": 0.00014853333333333336,
      "loss": 0.4216045379638672,
      "step": 830
    },
    {
      "epoch": 0.13306930693069308,
      "grad_norm": 0.10745341330766678,
      "learning_rate": 0.00014764444444444446,
      "loss": 0.45771260261535646,
      "step": 840
    },
    {
      "epoch": 0.13465346534653466,
      "grad_norm": 0.10362319648265839,
      "learning_rate": 0.00014675555555555557,
      "loss": 0.456635570526123,
      "step": 850
    },
    {
      "epoch": 0.13623762376237625,
      "grad_norm": 0.10825644433498383,
      "learning_rate": 0.00014586666666666667,
      "loss": 0.4578948974609375,
      "step": 860
    },
    {
      "epoch": 0.13782178217821783,
      "grad_norm": 0.09999847412109375,
      "learning_rate": 0.0001449777777777778,
      "loss": 0.4257713794708252,
      "step": 870
    },
    {
      "epoch": 0.13940594059405942,
      "grad_norm": 0.09439483284950256,
      "learning_rate": 0.0001440888888888889,
      "loss": 0.4488701820373535,
      "step": 880
    },
    {
      "epoch": 0.14099009900990098,
      "grad_norm": 0.10177771002054214,
      "learning_rate": 0.0001432,
      "loss": 0.4768357276916504,
      "step": 890
    },
    {
      "epoch": 0.14257425742574256,
      "grad_norm": 0.09642136842012405,
      "learning_rate": 0.00014231111111111112,
      "loss": 0.4253392696380615,
      "step": 900
    },
    {
      "epoch": 0.14415841584158415,
      "grad_norm": 0.09430525451898575,
      "learning_rate": 0.00014142222222222222,
      "loss": 0.43414530754089353,
      "step": 910
    },
    {
      "epoch": 0.14574257425742573,
      "grad_norm": 0.11593130230903625,
      "learning_rate": 0.00014053333333333335,
      "loss": 0.4248401165008545,
      "step": 920
    },
    {
      "epoch": 0.14732673267326732,
      "grad_norm": 0.11584466695785522,
      "learning_rate": 0.00013964444444444446,
      "loss": 0.4541325092315674,
      "step": 930
    },
    {
      "epoch": 0.1489108910891089,
      "grad_norm": 0.09682377427816391,
      "learning_rate": 0.00013875555555555556,
      "loss": 0.44811625480651857,
      "step": 940
    },
    {
      "epoch": 0.1504950495049505,
      "grad_norm": 0.12739314138889313,
      "learning_rate": 0.00013786666666666667,
      "loss": 0.4510763168334961,
      "step": 950
    },
    {
      "epoch": 0.15207920792079208,
      "grad_norm": 0.11477553099393845,
      "learning_rate": 0.00013697777777777777,
      "loss": 0.4399250507354736,
      "step": 960
    },
    {
      "epoch": 0.15366336633663366,
      "grad_norm": 0.11998990923166275,
      "learning_rate": 0.00013608888888888887,
      "loss": 0.4643832206726074,
      "step": 970
    },
    {
      "epoch": 0.15524752475247525,
      "grad_norm": 0.12250885367393494,
      "learning_rate": 0.0001352,
      "loss": 0.4670434474945068,
      "step": 980
    },
    {
      "epoch": 0.15683168316831683,
      "grad_norm": 0.10394606739282608,
      "learning_rate": 0.0001343111111111111,
      "loss": 0.41683096885681153,
      "step": 990
    },
    {
      "epoch": 0.15841584158415842,
      "grad_norm": 0.11151418834924698,
      "learning_rate": 0.00013342222222222222,
      "loss": 0.4357429504394531,
      "step": 1000
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.1484747976064682,
      "learning_rate": 0.00013253333333333332,
      "loss": 0.4269531726837158,
      "step": 1010
    },
    {
      "epoch": 0.1615841584158416,
      "grad_norm": 0.11201906949281693,
      "learning_rate": 0.00013164444444444445,
      "loss": 0.4297961711883545,
      "step": 1020
    },
    {
      "epoch": 0.16316831683168317,
      "grad_norm": 0.11010719835758209,
      "learning_rate": 0.00013075555555555556,
      "loss": 0.41904025077819823,
      "step": 1030
    },
    {
      "epoch": 0.16475247524752476,
      "grad_norm": 0.10168910026550293,
      "learning_rate": 0.00012986666666666666,
      "loss": 0.46724610328674315,
      "step": 1040
    },
    {
      "epoch": 0.16633663366336635,
      "grad_norm": 0.11108486354351044,
      "learning_rate": 0.00012897777777777777,
      "loss": 0.41109704971313477,
      "step": 1050
    },
    {
      "epoch": 0.16792079207920793,
      "grad_norm": 0.1291012018918991,
      "learning_rate": 0.0001280888888888889,
      "loss": 0.44829635620117186,
      "step": 1060
    },
    {
      "epoch": 0.16950495049504952,
      "grad_norm": 0.11215164512395859,
      "learning_rate": 0.0001272,
      "loss": 0.4662069797515869,
      "step": 1070
    },
    {
      "epoch": 0.1710891089108911,
      "grad_norm": 0.13233599066734314,
      "learning_rate": 0.0001263111111111111,
      "loss": 0.4491884708404541,
      "step": 1080
    },
    {
      "epoch": 0.17267326732673266,
      "grad_norm": 0.08990936726331711,
      "learning_rate": 0.0001254222222222222,
      "loss": 0.431490421295166,
      "step": 1090
    },
    {
      "epoch": 0.17425742574257425,
      "grad_norm": 0.10440412163734436,
      "learning_rate": 0.00012453333333333334,
      "loss": 0.3993945598602295,
      "step": 1100
    },
    {
      "epoch": 0.17584158415841583,
      "grad_norm": 0.11035147309303284,
      "learning_rate": 0.00012364444444444445,
      "loss": 0.456577730178833,
      "step": 1110
    },
    {
      "epoch": 0.17742574257425742,
      "grad_norm": 0.11196247488260269,
      "learning_rate": 0.00012275555555555555,
      "loss": 0.4181276798248291,
      "step": 1120
    },
    {
      "epoch": 0.179009900990099,
      "grad_norm": 0.10106303542852402,
      "learning_rate": 0.00012186666666666666,
      "loss": 0.4272180080413818,
      "step": 1130
    },
    {
      "epoch": 0.1805940594059406,
      "grad_norm": 0.11019843071699142,
      "learning_rate": 0.00012097777777777779,
      "loss": 0.44555273056030276,
      "step": 1140
    },
    {
      "epoch": 0.18217821782178217,
      "grad_norm": 0.09329156577587128,
      "learning_rate": 0.00012008888888888889,
      "loss": 0.42681331634521485,
      "step": 1150
    },
    {
      "epoch": 0.18376237623762376,
      "grad_norm": 0.08857206255197525,
      "learning_rate": 0.0001192,
      "loss": 0.4692983627319336,
      "step": 1160
    },
    {
      "epoch": 0.18534653465346534,
      "grad_norm": 0.11052225530147552,
      "learning_rate": 0.0001183111111111111,
      "loss": 0.44810261726379397,
      "step": 1170
    },
    {
      "epoch": 0.18693069306930693,
      "grad_norm": 0.10589273273944855,
      "learning_rate": 0.00011742222222222223,
      "loss": 0.43929290771484375,
      "step": 1180
    },
    {
      "epoch": 0.18851485148514852,
      "grad_norm": 0.12494352459907532,
      "learning_rate": 0.00011653333333333334,
      "loss": 0.48512043952941897,
      "step": 1190
    },
    {
      "epoch": 0.1900990099009901,
      "grad_norm": 0.10260408371686935,
      "learning_rate": 0.00011564444444444444,
      "loss": 0.4629175662994385,
      "step": 1200
    },
    {
      "epoch": 0.1916831683168317,
      "grad_norm": 0.12947669625282288,
      "learning_rate": 0.00011475555555555557,
      "loss": 0.43849620819091795,
      "step": 1210
    },
    {
      "epoch": 0.19326732673267327,
      "grad_norm": 0.10582385957241058,
      "learning_rate": 0.00011386666666666668,
      "loss": 0.4508364677429199,
      "step": 1220
    },
    {
      "epoch": 0.19485148514851486,
      "grad_norm": 0.12441077828407288,
      "learning_rate": 0.00011297777777777778,
      "loss": 0.42998151779174804,
      "step": 1230
    },
    {
      "epoch": 0.19643564356435644,
      "grad_norm": 0.09037347137928009,
      "learning_rate": 0.00011208888888888889,
      "loss": 0.4441089630126953,
      "step": 1240
    },
    {
      "epoch": 0.19801980198019803,
      "grad_norm": 0.1148349717259407,
      "learning_rate": 0.00011120000000000002,
      "loss": 0.47240777015686036,
      "step": 1250
    },
    {
      "epoch": 0.19960396039603961,
      "grad_norm": 0.1014682874083519,
      "learning_rate": 0.00011031111111111112,
      "loss": 0.418576717376709,
      "step": 1260
    },
    {
      "epoch": 0.2011881188118812,
      "grad_norm": 0.11128360033035278,
      "learning_rate": 0.00010942222222222223,
      "loss": 0.43076472282409667,
      "step": 1270
    },
    {
      "epoch": 0.20277227722772279,
      "grad_norm": 0.11667651683092117,
      "learning_rate": 0.00010853333333333333,
      "loss": 0.44633755683898924,
      "step": 1280
    },
    {
      "epoch": 0.20435643564356434,
      "grad_norm": 0.1285824179649353,
      "learning_rate": 0.00010764444444444446,
      "loss": 0.4465335845947266,
      "step": 1290
    },
    {
      "epoch": 0.20594059405940593,
      "grad_norm": 0.1088799238204956,
      "learning_rate": 0.00010675555555555557,
      "loss": 0.44507641792297364,
      "step": 1300
    },
    {
      "epoch": 0.20752475247524751,
      "grad_norm": 0.12076769769191742,
      "learning_rate": 0.00010586666666666667,
      "loss": 0.42668471336364744,
      "step": 1310
    },
    {
      "epoch": 0.2091089108910891,
      "grad_norm": 0.13205377757549286,
      "learning_rate": 0.00010497777777777778,
      "loss": 0.41853861808776854,
      "step": 1320
    },
    {
      "epoch": 0.21069306930693069,
      "grad_norm": 0.11711034923791885,
      "learning_rate": 0.0001040888888888889,
      "loss": 0.4606321334838867,
      "step": 1330
    },
    {
      "epoch": 0.21227722772277227,
      "grad_norm": 0.0950397327542305,
      "learning_rate": 0.0001032,
      "loss": 0.4588432788848877,
      "step": 1340
    },
    {
      "epoch": 0.21386138613861386,
      "grad_norm": 0.09417828172445297,
      "learning_rate": 0.00010231111111111112,
      "loss": 0.45938754081726074,
      "step": 1350
    },
    {
      "epoch": 0.21544554455445544,
      "grad_norm": 0.1291818916797638,
      "learning_rate": 0.00010142222222222222,
      "loss": 0.4537965774536133,
      "step": 1360
    },
    {
      "epoch": 0.21702970297029703,
      "grad_norm": 0.11345808953046799,
      "learning_rate": 0.00010053333333333334,
      "loss": 0.4731899261474609,
      "step": 1370
    },
    {
      "epoch": 0.2186138613861386,
      "grad_norm": 0.11020190268754959,
      "learning_rate": 9.964444444444445e-05,
      "loss": 0.4215576171875,
      "step": 1380
    },
    {
      "epoch": 0.2201980198019802,
      "grad_norm": 0.10281681269407272,
      "learning_rate": 9.875555555555555e-05,
      "loss": 0.45673704147338867,
      "step": 1390
    },
    {
      "epoch": 0.22178217821782178,
      "grad_norm": 0.11533461511135101,
      "learning_rate": 9.786666666666667e-05,
      "loss": 0.43448405265808104,
      "step": 1400
    },
    {
      "epoch": 0.22336633663366337,
      "grad_norm": 0.10428951680660248,
      "learning_rate": 9.697777777777777e-05,
      "loss": 0.42266035079956055,
      "step": 1410
    },
    {
      "epoch": 0.22495049504950496,
      "grad_norm": 0.11180785298347473,
      "learning_rate": 9.608888888888889e-05,
      "loss": 0.43655991554260254,
      "step": 1420
    },
    {
      "epoch": 0.22653465346534654,
      "grad_norm": 0.14148098230361938,
      "learning_rate": 9.52e-05,
      "loss": 0.45973858833312986,
      "step": 1430
    },
    {
      "epoch": 0.22811881188118813,
      "grad_norm": 0.10056508332490921,
      "learning_rate": 9.431111111111111e-05,
      "loss": 0.4729654312133789,
      "step": 1440
    },
    {
      "epoch": 0.2297029702970297,
      "grad_norm": 0.12625491619110107,
      "learning_rate": 9.342222222222222e-05,
      "loss": 0.4501173496246338,
      "step": 1450
    },
    {
      "epoch": 0.2312871287128713,
      "grad_norm": 0.13399824500083923,
      "learning_rate": 9.253333333333334e-05,
      "loss": 0.4454296588897705,
      "step": 1460
    },
    {
      "epoch": 0.23287128712871288,
      "grad_norm": 0.10759555548429489,
      "learning_rate": 9.164444444444444e-05,
      "loss": 0.4457117557525635,
      "step": 1470
    },
    {
      "epoch": 0.23445544554455444,
      "grad_norm": 0.11816436797380447,
      "learning_rate": 9.075555555555556e-05,
      "loss": 0.43582868576049805,
      "step": 1480
    },
    {
      "epoch": 0.23603960396039603,
      "grad_norm": 0.12996898591518402,
      "learning_rate": 8.986666666666666e-05,
      "loss": 0.4595947265625,
      "step": 1490
    },
    {
      "epoch": 0.2376237623762376,
      "grad_norm": 0.12041634321212769,
      "learning_rate": 8.897777777777778e-05,
      "loss": 0.4592463493347168,
      "step": 1500
    },
    {
      "epoch": 0.2392079207920792,
      "grad_norm": 0.09746157377958298,
      "learning_rate": 8.80888888888889e-05,
      "loss": 0.4601451873779297,
      "step": 1510
    },
    {
      "epoch": 0.24079207920792078,
      "grad_norm": 0.13244478404521942,
      "learning_rate": 8.72e-05,
      "loss": 0.4243985652923584,
      "step": 1520
    },
    {
      "epoch": 0.24237623762376237,
      "grad_norm": 0.11454407870769501,
      "learning_rate": 8.631111111111112e-05,
      "loss": 0.4436774730682373,
      "step": 1530
    },
    {
      "epoch": 0.24396039603960396,
      "grad_norm": 0.10578440874814987,
      "learning_rate": 8.542222222222223e-05,
      "loss": 0.42084641456604005,
      "step": 1540
    },
    {
      "epoch": 0.24554455445544554,
      "grad_norm": 0.12399782985448837,
      "learning_rate": 8.453333333333335e-05,
      "loss": 0.4574925422668457,
      "step": 1550
    },
    {
      "epoch": 0.24712871287128713,
      "grad_norm": 0.1136360839009285,
      "learning_rate": 8.364444444444445e-05,
      "loss": 0.4346503257751465,
      "step": 1560
    },
    {
      "epoch": 0.2487128712871287,
      "grad_norm": 0.1318485289812088,
      "learning_rate": 8.275555555555557e-05,
      "loss": 0.43329200744628904,
      "step": 1570
    },
    {
      "epoch": 0.2502970297029703,
      "grad_norm": 0.11364690959453583,
      "learning_rate": 8.186666666666667e-05,
      "loss": 0.4125970840454102,
      "step": 1580
    },
    {
      "epoch": 0.2518811881188119,
      "grad_norm": 0.10456566512584686,
      "learning_rate": 8.097777777777779e-05,
      "loss": 0.4665355682373047,
      "step": 1590
    },
    {
      "epoch": 0.25346534653465347,
      "grad_norm": 0.08970664441585541,
      "learning_rate": 8.00888888888889e-05,
      "loss": 0.5053329944610596,
      "step": 1600
    },
    {
      "epoch": 0.25504950495049505,
      "grad_norm": 0.1372910887002945,
      "learning_rate": 7.920000000000001e-05,
      "loss": 0.42962069511413575,
      "step": 1610
    },
    {
      "epoch": 0.25663366336633664,
      "grad_norm": 0.12862013280391693,
      "learning_rate": 7.831111111111112e-05,
      "loss": 0.4417405128479004,
      "step": 1620
    },
    {
      "epoch": 0.2582178217821782,
      "grad_norm": 0.1060621365904808,
      "learning_rate": 7.742222222222222e-05,
      "loss": 0.4423251152038574,
      "step": 1630
    },
    {
      "epoch": 0.2598019801980198,
      "grad_norm": 0.11200203001499176,
      "learning_rate": 7.653333333333333e-05,
      "loss": 0.4621281623840332,
      "step": 1640
    },
    {
      "epoch": 0.2613861386138614,
      "grad_norm": 0.11022822558879852,
      "learning_rate": 7.564444444444445e-05,
      "loss": 0.4474879264831543,
      "step": 1650
    },
    {
      "epoch": 0.262970297029703,
      "grad_norm": 0.10621003806591034,
      "learning_rate": 7.475555555555555e-05,
      "loss": 0.42008557319641116,
      "step": 1660
    },
    {
      "epoch": 0.26455445544554457,
      "grad_norm": 0.11836650967597961,
      "learning_rate": 7.386666666666667e-05,
      "loss": 0.43319091796875,
      "step": 1670
    },
    {
      "epoch": 0.26613861386138615,
      "grad_norm": 0.1123187392950058,
      "learning_rate": 7.297777777777777e-05,
      "loss": 0.4296769618988037,
      "step": 1680
    },
    {
      "epoch": 0.26772277227722774,
      "grad_norm": 0.10100077092647552,
      "learning_rate": 7.208888888888889e-05,
      "loss": 0.41154913902282714,
      "step": 1690
    },
    {
      "epoch": 0.2693069306930693,
      "grad_norm": 0.1045333743095398,
      "learning_rate": 7.12e-05,
      "loss": 0.4219111442565918,
      "step": 1700
    },
    {
      "epoch": 0.2708910891089109,
      "grad_norm": 0.13197870552539825,
      "learning_rate": 7.031111111111111e-05,
      "loss": 0.43259439468383787,
      "step": 1710
    },
    {
      "epoch": 0.2724752475247525,
      "grad_norm": 0.14993301033973694,
      "learning_rate": 6.942222222222222e-05,
      "loss": 0.4652869701385498,
      "step": 1720
    },
    {
      "epoch": 0.2740594059405941,
      "grad_norm": 0.10407901555299759,
      "learning_rate": 6.853333333333334e-05,
      "loss": 0.4714209079742432,
      "step": 1730
    },
    {
      "epoch": 0.27564356435643567,
      "grad_norm": 0.10922378301620483,
      "learning_rate": 6.764444444444444e-05,
      "loss": 0.4610575199127197,
      "step": 1740
    },
    {
      "epoch": 0.27722772277227725,
      "grad_norm": 0.1403568983078003,
      "learning_rate": 6.675555555555556e-05,
      "loss": 0.41899795532226564,
      "step": 1750
    },
    {
      "epoch": 0.27881188118811884,
      "grad_norm": 0.10836900025606155,
      "learning_rate": 6.586666666666666e-05,
      "loss": 0.4317145824432373,
      "step": 1760
    },
    {
      "epoch": 0.2803960396039604,
      "grad_norm": 0.1111619770526886,
      "learning_rate": 6.497777777777778e-05,
      "loss": 0.4658851146697998,
      "step": 1770
    },
    {
      "epoch": 0.28198019801980195,
      "grad_norm": 0.12308915704488754,
      "learning_rate": 6.408888888888889e-05,
      "loss": 0.4481384754180908,
      "step": 1780
    },
    {
      "epoch": 0.28356435643564354,
      "grad_norm": 0.12358427047729492,
      "learning_rate": 6.32e-05,
      "loss": 0.40901408195495603,
      "step": 1790
    },
    {
      "epoch": 0.2851485148514851,
      "grad_norm": 0.10029692202806473,
      "learning_rate": 6.231111111111111e-05,
      "loss": 0.40301804542541503,
      "step": 1800
    },
    {
      "epoch": 0.2867326732673267,
      "grad_norm": 0.11558814346790314,
      "learning_rate": 6.142222222222223e-05,
      "loss": 0.4106534481048584,
      "step": 1810
    },
    {
      "epoch": 0.2883168316831683,
      "grad_norm": 0.14374975860118866,
      "learning_rate": 6.053333333333333e-05,
      "loss": 0.4378472328186035,
      "step": 1820
    },
    {
      "epoch": 0.2899009900990099,
      "grad_norm": 0.10107695311307907,
      "learning_rate": 5.964444444444445e-05,
      "loss": 0.45861082077026366,
      "step": 1830
    },
    {
      "epoch": 0.29148514851485147,
      "grad_norm": 0.11167020350694656,
      "learning_rate": 5.875555555555556e-05,
      "loss": 0.4487330913543701,
      "step": 1840
    },
    {
      "epoch": 0.29306930693069305,
      "grad_norm": 0.13690310716629028,
      "learning_rate": 5.7866666666666666e-05,
      "loss": 0.46242694854736327,
      "step": 1850
    },
    {
      "epoch": 0.29465346534653464,
      "grad_norm": 0.14845994114875793,
      "learning_rate": 5.6977777777777784e-05,
      "loss": 0.45589003562927244,
      "step": 1860
    },
    {
      "epoch": 0.2962376237623762,
      "grad_norm": 0.11164864152669907,
      "learning_rate": 5.608888888888889e-05,
      "loss": 0.42093238830566404,
      "step": 1870
    },
    {
      "epoch": 0.2978217821782178,
      "grad_norm": 0.11217094957828522,
      "learning_rate": 5.520000000000001e-05,
      "loss": 0.4216471195220947,
      "step": 1880
    },
    {
      "epoch": 0.2994059405940594,
      "grad_norm": 0.12560051679611206,
      "learning_rate": 5.431111111111111e-05,
      "loss": 0.4341439247131348,
      "step": 1890
    },
    {
      "epoch": 0.300990099009901,
      "grad_norm": 0.11575620621442795,
      "learning_rate": 5.342222222222223e-05,
      "loss": 0.42635207176208495,
      "step": 1900
    },
    {
      "epoch": 0.30257425742574257,
      "grad_norm": 0.11144798994064331,
      "learning_rate": 5.2533333333333334e-05,
      "loss": 0.44115509986877444,
      "step": 1910
    },
    {
      "epoch": 0.30415841584158415,
      "grad_norm": 0.11413414776325226,
      "learning_rate": 5.164444444444445e-05,
      "loss": 0.4849900722503662,
      "step": 1920
    },
    {
      "epoch": 0.30574257425742574,
      "grad_norm": 0.11314431577920914,
      "learning_rate": 5.075555555555556e-05,
      "loss": 0.4439102649688721,
      "step": 1930
    },
    {
      "epoch": 0.3073267326732673,
      "grad_norm": 0.12936046719551086,
      "learning_rate": 4.986666666666667e-05,
      "loss": 0.4341707706451416,
      "step": 1940
    },
    {
      "epoch": 0.3089108910891089,
      "grad_norm": 0.1315099000930786,
      "learning_rate": 4.897777777777778e-05,
      "loss": 0.47466235160827636,
      "step": 1950
    },
    {
      "epoch": 0.3104950495049505,
      "grad_norm": 0.135579913854599,
      "learning_rate": 4.808888888888889e-05,
      "loss": 0.4311628818511963,
      "step": 1960
    },
    {
      "epoch": 0.3120792079207921,
      "grad_norm": 0.1412050724029541,
      "learning_rate": 4.72e-05,
      "loss": 0.4453381061553955,
      "step": 1970
    },
    {
      "epoch": 0.31366336633663366,
      "grad_norm": 0.1284494251012802,
      "learning_rate": 4.6311111111111113e-05,
      "loss": 0.4290179252624512,
      "step": 1980
    },
    {
      "epoch": 0.31524752475247525,
      "grad_norm": 0.13294199109077454,
      "learning_rate": 4.5422222222222225e-05,
      "loss": 0.433257007598877,
      "step": 1990
    },
    {
      "epoch": 0.31683168316831684,
      "grad_norm": 0.12909874320030212,
      "learning_rate": 4.4533333333333336e-05,
      "loss": 0.44462175369262696,
      "step": 2000
    },
    {
      "epoch": 0.3184158415841584,
      "grad_norm": 0.10991871356964111,
      "learning_rate": 4.364444444444445e-05,
      "loss": 0.45618624687194825,
      "step": 2010
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.12459543347358704,
      "learning_rate": 4.275555555555556e-05,
      "loss": 0.46598353385925295,
      "step": 2020
    },
    {
      "epoch": 0.3215841584158416,
      "grad_norm": 0.11573746055364609,
      "learning_rate": 4.186666666666667e-05,
      "loss": 0.3969010591506958,
      "step": 2030
    },
    {
      "epoch": 0.3231683168316832,
      "grad_norm": 0.10749443620443344,
      "learning_rate": 4.097777777777778e-05,
      "loss": 0.43877344131469725,
      "step": 2040
    },
    {
      "epoch": 0.32475247524752476,
      "grad_norm": 0.11602727323770523,
      "learning_rate": 4.008888888888889e-05,
      "loss": 0.43892335891723633,
      "step": 2050
    },
    {
      "epoch": 0.32633663366336635,
      "grad_norm": 0.1159844696521759,
      "learning_rate": 3.9200000000000004e-05,
      "loss": 0.4742868423461914,
      "step": 2060
    },
    {
      "epoch": 0.32792079207920793,
      "grad_norm": 0.12614595890045166,
      "learning_rate": 3.8311111111111115e-05,
      "loss": 0.4636037826538086,
      "step": 2070
    },
    {
      "epoch": 0.3295049504950495,
      "grad_norm": 0.11560297012329102,
      "learning_rate": 3.742222222222223e-05,
      "loss": 0.4710518836975098,
      "step": 2080
    },
    {
      "epoch": 0.3310891089108911,
      "grad_norm": 0.15510666370391846,
      "learning_rate": 3.653333333333334e-05,
      "loss": 0.4677096366882324,
      "step": 2090
    },
    {
      "epoch": 0.3326732673267327,
      "grad_norm": 0.14245380461215973,
      "learning_rate": 3.564444444444445e-05,
      "loss": 0.4679864406585693,
      "step": 2100
    },
    {
      "epoch": 0.3342574257425743,
      "grad_norm": 0.11864912509918213,
      "learning_rate": 3.475555555555556e-05,
      "loss": 0.4409189701080322,
      "step": 2110
    },
    {
      "epoch": 0.33584158415841586,
      "grad_norm": 0.1343812793493271,
      "learning_rate": 3.3866666666666665e-05,
      "loss": 0.4066458702087402,
      "step": 2120
    },
    {
      "epoch": 0.33742574257425745,
      "grad_norm": 0.10461611300706863,
      "learning_rate": 3.297777777777778e-05,
      "loss": 0.4319614887237549,
      "step": 2130
    },
    {
      "epoch": 0.33900990099009903,
      "grad_norm": 0.11563409864902496,
      "learning_rate": 3.208888888888889e-05,
      "loss": 0.432065486907959,
      "step": 2140
    },
    {
      "epoch": 0.3405940594059406,
      "grad_norm": 0.10783884674310684,
      "learning_rate": 3.12e-05,
      "loss": 0.4129596710205078,
      "step": 2150
    },
    {
      "epoch": 0.3421782178217822,
      "grad_norm": 0.14003720879554749,
      "learning_rate": 3.031111111111111e-05,
      "loss": 0.4282253265380859,
      "step": 2160
    },
    {
      "epoch": 0.34376237623762373,
      "grad_norm": 0.1377970576286316,
      "learning_rate": 2.9422222222222222e-05,
      "loss": 0.4517963886260986,
      "step": 2170
    },
    {
      "epoch": 0.3453465346534653,
      "grad_norm": 0.14984577894210815,
      "learning_rate": 2.8533333333333333e-05,
      "loss": 0.4358660697937012,
      "step": 2180
    },
    {
      "epoch": 0.3469306930693069,
      "grad_norm": 0.11084114760160446,
      "learning_rate": 2.7644444444444445e-05,
      "loss": 0.3825148344039917,
      "step": 2190
    },
    {
      "epoch": 0.3485148514851485,
      "grad_norm": 0.11796099692583084,
      "learning_rate": 2.6755555555555556e-05,
      "loss": 0.4264970779418945,
      "step": 2200
    },
    {
      "epoch": 0.3500990099009901,
      "grad_norm": 0.13587944209575653,
      "learning_rate": 2.5866666666666667e-05,
      "loss": 0.41341686248779297,
      "step": 2210
    },
    {
      "epoch": 0.35168316831683166,
      "grad_norm": 0.09793379157781601,
      "learning_rate": 2.497777777777778e-05,
      "loss": 0.4133430480957031,
      "step": 2220
    },
    {
      "epoch": 0.35326732673267325,
      "grad_norm": 0.10808942466974258,
      "learning_rate": 2.408888888888889e-05,
      "loss": 0.42418746948242186,
      "step": 2230
    },
    {
      "epoch": 0.35485148514851483,
      "grad_norm": 0.11084719747304916,
      "learning_rate": 2.32e-05,
      "loss": 0.42908754348754885,
      "step": 2240
    },
    {
      "epoch": 0.3564356435643564,
      "grad_norm": 0.11243141442537308,
      "learning_rate": 2.2311111111111113e-05,
      "loss": 0.4357435703277588,
      "step": 2250
    },
    {
      "epoch": 0.358019801980198,
      "grad_norm": 0.0989893451333046,
      "learning_rate": 2.1422222222222224e-05,
      "loss": 0.4179375648498535,
      "step": 2260
    },
    {
      "epoch": 0.3596039603960396,
      "grad_norm": 0.1555781066417694,
      "learning_rate": 2.0533333333333336e-05,
      "loss": 0.42656970024108887,
      "step": 2270
    },
    {
      "epoch": 0.3611881188118812,
      "grad_norm": 0.10041913390159607,
      "learning_rate": 1.9644444444444447e-05,
      "loss": 0.40676274299621584,
      "step": 2280
    },
    {
      "epoch": 0.36277227722772276,
      "grad_norm": 0.11605637520551682,
      "learning_rate": 1.8755555555555558e-05,
      "loss": 0.4679983139038086,
      "step": 2290
    },
    {
      "epoch": 0.36435643564356435,
      "grad_norm": 0.10629253089427948,
      "learning_rate": 1.7866666666666666e-05,
      "loss": 0.41867480278015134,
      "step": 2300
    },
    {
      "epoch": 0.36594059405940593,
      "grad_norm": 0.12453669309616089,
      "learning_rate": 1.6977777777777777e-05,
      "loss": 0.42065892219543455,
      "step": 2310
    },
    {
      "epoch": 0.3675247524752475,
      "grad_norm": 0.11581775546073914,
      "learning_rate": 1.608888888888889e-05,
      "loss": 0.444520092010498,
      "step": 2320
    },
    {
      "epoch": 0.3691089108910891,
      "grad_norm": 0.1057516410946846,
      "learning_rate": 1.52e-05,
      "loss": 0.4548838138580322,
      "step": 2330
    },
    {
      "epoch": 0.3706930693069307,
      "grad_norm": 0.11470479518175125,
      "learning_rate": 1.4311111111111111e-05,
      "loss": 0.42058815956115725,
      "step": 2340
    },
    {
      "epoch": 0.3722772277227723,
      "grad_norm": 0.11543627828359604,
      "learning_rate": 1.3422222222222223e-05,
      "loss": 0.4344294548034668,
      "step": 2350
    },
    {
      "epoch": 0.37386138613861386,
      "grad_norm": 0.12915924191474915,
      "learning_rate": 1.2533333333333332e-05,
      "loss": 0.4566244125366211,
      "step": 2360
    },
    {
      "epoch": 0.37544554455445545,
      "grad_norm": 0.11681529879570007,
      "learning_rate": 1.1644444444444446e-05,
      "loss": 0.451328182220459,
      "step": 2370
    },
    {
      "epoch": 0.37702970297029703,
      "grad_norm": 0.11974669992923737,
      "learning_rate": 1.0755555555555557e-05,
      "loss": 0.45825467109680174,
      "step": 2380
    },
    {
      "epoch": 0.3786138613861386,
      "grad_norm": 0.11217518150806427,
      "learning_rate": 9.866666666666667e-06,
      "loss": 0.4391200065612793,
      "step": 2390
    },
    {
      "epoch": 0.3801980198019802,
      "grad_norm": 0.13289013504981995,
      "learning_rate": 8.977777777777778e-06,
      "loss": 0.42261600494384766,
      "step": 2400
    },
    {
      "epoch": 0.3817821782178218,
      "grad_norm": 0.13508014380931854,
      "learning_rate": 8.08888888888889e-06,
      "loss": 0.41110858917236326,
      "step": 2410
    },
    {
      "epoch": 0.3833663366336634,
      "grad_norm": 0.12474465370178223,
      "learning_rate": 7.2e-06,
      "loss": 0.45510258674621584,
      "step": 2420
    },
    {
      "epoch": 0.38495049504950496,
      "grad_norm": 0.13648369908332825,
      "learning_rate": 6.311111111111112e-06,
      "loss": 0.44538493156433107,
      "step": 2430
    },
    {
      "epoch": 0.38653465346534654,
      "grad_norm": 0.1486520767211914,
      "learning_rate": 5.422222222222222e-06,
      "loss": 0.4148688793182373,
      "step": 2440
    },
    {
      "epoch": 0.38811881188118813,
      "grad_norm": 0.12737219035625458,
      "learning_rate": 4.533333333333334e-06,
      "loss": 0.44829936027526857,
      "step": 2450
    },
    {
      "epoch": 0.3897029702970297,
      "grad_norm": 0.1182004064321518,
      "learning_rate": 3.6444444444444446e-06,
      "loss": 0.45412731170654297,
      "step": 2460
    },
    {
      "epoch": 0.3912871287128713,
      "grad_norm": 0.14805327355861664,
      "learning_rate": 2.7555555555555555e-06,
      "loss": 0.43036956787109376,
      "step": 2470
    },
    {
      "epoch": 0.3928712871287129,
      "grad_norm": 0.12756042182445526,
      "learning_rate": 1.8666666666666669e-06,
      "loss": 0.42612438201904296,
      "step": 2480
    },
    {
      "epoch": 0.3944554455445545,
      "grad_norm": 0.12241974472999573,
      "learning_rate": 9.777777777777778e-07,
      "loss": 0.4630708694458008,
      "step": 2490
    },
    {
      "epoch": 0.39603960396039606,
      "grad_norm": 0.10594528913497925,
      "learning_rate": 8.88888888888889e-08,
      "loss": 0.4205953598022461,
      "step": 2500
    }
  ],
  "logging_steps": 10,
  "max_steps": 2500,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 200,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.900426845678039e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}