{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.987241531016278,
  "eval_steps": 500,
  "global_step": 567,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.005279366476022877,
      "grad_norm": 9.06258192697587,
      "learning_rate": 0.0,
      "loss": 1.678,
      "step": 1
    },
    {
      "epoch": 0.010558732952045754,
      "grad_norm": 9.487470045686269,
      "learning_rate": 1.7543859649122808e-07,
      "loss": 1.8487,
      "step": 2
    },
    {
      "epoch": 0.01583809942806863,
      "grad_norm": 8.792837550815417,
      "learning_rate": 3.5087719298245616e-07,
      "loss": 1.6855,
      "step": 3
    },
    {
      "epoch": 0.02111746590409151,
      "grad_norm": 9.323941973098307,
      "learning_rate": 5.263157894736843e-07,
      "loss": 1.79,
      "step": 4
    },
    {
      "epoch": 0.026396832380114386,
      "grad_norm": 8.5661762778806,
      "learning_rate": 7.017543859649123e-07,
      "loss": 1.6796,
      "step": 5
    },
    {
      "epoch": 0.03167619885613726,
      "grad_norm": 8.780182073885886,
      "learning_rate": 8.771929824561404e-07,
      "loss": 1.8326,
      "step": 6
    },
    {
      "epoch": 0.03695556533216014,
      "grad_norm": 8.658784025795836,
      "learning_rate": 1.0526315789473685e-06,
      "loss": 1.7229,
      "step": 7
    },
    {
      "epoch": 0.04223493180818302,
      "grad_norm": 8.678284010844528,
      "learning_rate": 1.2280701754385965e-06,
      "loss": 1.782,
      "step": 8
    },
    {
      "epoch": 0.0475142982842059,
      "grad_norm": 7.4972200445720425,
      "learning_rate": 1.4035087719298246e-06,
      "loss": 1.6596,
      "step": 9
    },
    {
      "epoch": 0.05279366476022877,
      "grad_norm": 8.204566912821951,
      "learning_rate": 1.5789473684210526e-06,
      "loss": 1.6707,
      "step": 10
    },
    {
      "epoch": 0.05807303123625165,
      "grad_norm": 7.461093116720939,
      "learning_rate": 1.7543859649122807e-06,
      "loss": 1.718,
      "step": 11
    },
    {
      "epoch": 0.06335239771227452,
      "grad_norm": 6.113172095963636,
      "learning_rate": 1.929824561403509e-06,
      "loss": 1.5939,
      "step": 12
    },
    {
      "epoch": 0.0686317641882974,
      "grad_norm": 5.4039227506301835,
      "learning_rate": 2.105263157894737e-06,
      "loss": 1.497,
      "step": 13
    },
    {
      "epoch": 0.07391113066432028,
      "grad_norm": 5.072244053671971,
      "learning_rate": 2.280701754385965e-06,
      "loss": 1.4584,
      "step": 14
    },
    {
      "epoch": 0.07919049714034315,
      "grad_norm": 4.290896240507921,
      "learning_rate": 2.456140350877193e-06,
      "loss": 1.4996,
      "step": 15
    },
    {
      "epoch": 0.08446986361636603,
      "grad_norm": 3.563114688671191,
      "learning_rate": 2.631578947368421e-06,
      "loss": 1.4042,
      "step": 16
    },
    {
      "epoch": 0.08974923009238892,
      "grad_norm": 3.598254571007457,
      "learning_rate": 2.8070175438596493e-06,
      "loss": 1.4125,
      "step": 17
    },
    {
      "epoch": 0.0950285965684118,
      "grad_norm": 3.6215074072359865,
      "learning_rate": 2.9824561403508774e-06,
      "loss": 1.4723,
      "step": 18
    },
    {
      "epoch": 0.10030796304443466,
      "grad_norm": 2.915485138222026,
      "learning_rate": 3.157894736842105e-06,
      "loss": 1.2987,
      "step": 19
    },
    {
      "epoch": 0.10558732952045755,
      "grad_norm": 2.4634215162994595,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 1.2651,
      "step": 20
    },
    {
      "epoch": 0.11086669599648043,
      "grad_norm": 2.3107374113003103,
      "learning_rate": 3.5087719298245615e-06,
      "loss": 1.2512,
      "step": 21
    },
    {
      "epoch": 0.1161460624725033,
      "grad_norm": 2.7621133107185707,
      "learning_rate": 3.6842105263157896e-06,
      "loss": 1.3191,
      "step": 22
    },
    {
      "epoch": 0.12142542894852618,
      "grad_norm": 2.877480148788483,
      "learning_rate": 3.859649122807018e-06,
      "loss": 1.2354,
      "step": 23
    },
    {
      "epoch": 0.12670479542454904,
      "grad_norm": 2.329645780694447,
      "learning_rate": 4.035087719298246e-06,
      "loss": 1.174,
      "step": 24
    },
    {
      "epoch": 0.13198416190057194,
      "grad_norm": 2.692865294147214,
      "learning_rate": 4.210526315789474e-06,
      "loss": 1.2824,
      "step": 25
    },
    {
      "epoch": 0.1372635283765948,
      "grad_norm": 2.2247599668267615,
      "learning_rate": 4.385964912280702e-06,
      "loss": 1.2023,
      "step": 26
    },
    {
      "epoch": 0.14254289485261767,
      "grad_norm": 2.038589631126849,
      "learning_rate": 4.56140350877193e-06,
      "loss": 1.1412,
      "step": 27
    },
    {
      "epoch": 0.14782226132864057,
      "grad_norm": 2.0910541565756002,
      "learning_rate": 4.736842105263158e-06,
      "loss": 1.1989,
      "step": 28
    },
    {
      "epoch": 0.15310162780466344,
      "grad_norm": 1.7517601173871857,
      "learning_rate": 4.912280701754386e-06,
      "loss": 1.0738,
      "step": 29
    },
    {
      "epoch": 0.1583809942806863,
      "grad_norm": 1.6413195717279263,
      "learning_rate": 5.087719298245615e-06,
      "loss": 1.0853,
      "step": 30
    },
    {
      "epoch": 0.1636603607567092,
      "grad_norm": 1.688876231888243,
      "learning_rate": 5.263157894736842e-06,
      "loss": 1.061,
      "step": 31
    },
    {
      "epoch": 0.16893972723273207,
      "grad_norm": 1.5670006557231517,
      "learning_rate": 5.438596491228071e-06,
      "loss": 1.1496,
      "step": 32
    },
    {
      "epoch": 0.17421909370875496,
      "grad_norm": 1.7072674079415744,
      "learning_rate": 5.6140350877192985e-06,
      "loss": 1.1424,
      "step": 33
    },
    {
      "epoch": 0.17949846018477783,
      "grad_norm": 1.6307968487984736,
      "learning_rate": 5.789473684210527e-06,
      "loss": 1.0655,
      "step": 34
    },
    {
      "epoch": 0.1847778266608007,
      "grad_norm": 1.6358139036334913,
      "learning_rate": 5.964912280701755e-06,
      "loss": 1.0241,
      "step": 35
    },
    {
      "epoch": 0.1900571931368236,
      "grad_norm": 1.4688899759958145,
      "learning_rate": 6.140350877192983e-06,
      "loss": 1.0076,
      "step": 36
    },
    {
      "epoch": 0.19533655961284646,
      "grad_norm": 1.5254490097810096,
      "learning_rate": 6.31578947368421e-06,
      "loss": 1.0991,
      "step": 37
    },
    {
      "epoch": 0.20061592608886933,
      "grad_norm": 1.5005708253602146,
      "learning_rate": 6.491228070175439e-06,
      "loss": 1.0824,
      "step": 38
    },
    {
      "epoch": 0.20589529256489222,
      "grad_norm": 1.420109858670133,
      "learning_rate": 6.666666666666667e-06,
      "loss": 0.994,
      "step": 39
    },
    {
      "epoch": 0.2111746590409151,
      "grad_norm": 1.4491053784050478,
      "learning_rate": 6.842105263157896e-06,
      "loss": 1.0583,
      "step": 40
    },
    {
      "epoch": 0.21645402551693796,
      "grad_norm": 1.448588096978498,
      "learning_rate": 7.017543859649123e-06,
      "loss": 0.9892,
      "step": 41
    },
    {
      "epoch": 0.22173339199296085,
      "grad_norm": 1.4526199178661001,
      "learning_rate": 7.192982456140352e-06,
      "loss": 1.0051,
      "step": 42
    },
    {
      "epoch": 0.22701275846898372,
      "grad_norm": 1.4693112027438093,
      "learning_rate": 7.368421052631579e-06,
      "loss": 0.9833,
      "step": 43
    },
    {
      "epoch": 0.2322921249450066,
      "grad_norm": 1.3739429688061344,
      "learning_rate": 7.5438596491228074e-06,
      "loss": 0.9793,
      "step": 44
    },
    {
      "epoch": 0.23757149142102948,
      "grad_norm": 1.4247570212621312,
      "learning_rate": 7.719298245614036e-06,
      "loss": 0.9366,
      "step": 45
    },
    {
      "epoch": 0.24285085789705235,
      "grad_norm": 1.2987600676752833,
      "learning_rate": 7.894736842105265e-06,
      "loss": 0.9006,
      "step": 46
    },
    {
      "epoch": 0.24813022437307522,
      "grad_norm": 1.5006141932812773,
      "learning_rate": 8.070175438596492e-06,
      "loss": 0.9785,
      "step": 47
    },
    {
      "epoch": 0.2534095908490981,
      "grad_norm": 1.468806773441352,
      "learning_rate": 8.24561403508772e-06,
      "loss": 0.9941,
      "step": 48
    },
    {
      "epoch": 0.258688957325121,
      "grad_norm": 1.3084024864816892,
      "learning_rate": 8.421052631578948e-06,
      "loss": 0.938,
      "step": 49
    },
    {
      "epoch": 0.2639683238011439,
      "grad_norm": 1.4542464523472705,
      "learning_rate": 8.596491228070176e-06,
      "loss": 1.009,
      "step": 50
    },
    {
      "epoch": 0.2692476902771667,
      "grad_norm": 1.3097725384782457,
      "learning_rate": 8.771929824561405e-06,
      "loss": 0.9557,
      "step": 51
    },
    {
      "epoch": 0.2745270567531896,
      "grad_norm": 1.3424191425040415,
      "learning_rate": 8.947368421052632e-06,
      "loss": 0.9773,
      "step": 52
    },
    {
      "epoch": 0.2798064232292125,
      "grad_norm": 1.3120126450980685,
      "learning_rate": 9.12280701754386e-06,
      "loss": 0.979,
      "step": 53
    },
    {
      "epoch": 0.28508578970523535,
      "grad_norm": 1.4326002194117426,
      "learning_rate": 9.298245614035088e-06,
      "loss": 0.9909,
      "step": 54
    },
    {
      "epoch": 0.29036515618125824,
      "grad_norm": 1.3411895985410853,
      "learning_rate": 9.473684210526315e-06,
      "loss": 0.9343,
      "step": 55
    },
    {
      "epoch": 0.29564452265728114,
      "grad_norm": 1.4092777694950307,
      "learning_rate": 9.649122807017545e-06,
      "loss": 0.9711,
      "step": 56
    },
    {
      "epoch": 0.300923889133304,
      "grad_norm": 1.3183008246582104,
      "learning_rate": 9.824561403508772e-06,
      "loss": 1.0189,
      "step": 57
    },
    {
      "epoch": 0.3062032556093269,
      "grad_norm": 1.4351454680178788,
      "learning_rate": 1e-05,
      "loss": 0.9581,
      "step": 58
    },
    {
      "epoch": 0.31148262208534977,
      "grad_norm": 1.4327154249987661,
      "learning_rate": 9.999905136743635e-06,
      "loss": 1.0108,
      "step": 59
    },
    {
      "epoch": 0.3167619885613726,
      "grad_norm": 1.2783140310829089,
      "learning_rate": 9.999620550574155e-06,
      "loss": 0.8755,
      "step": 60
    },
    {
      "epoch": 0.3220413550373955,
      "grad_norm": 1.3286747156393754,
      "learning_rate": 9.999146252290264e-06,
      "loss": 0.9038,
      "step": 61
    },
    {
      "epoch": 0.3273207215134184,
      "grad_norm": 1.332121876828825,
      "learning_rate": 9.99848225988936e-06,
      "loss": 0.9326,
      "step": 62
    },
    {
      "epoch": 0.33260008798944124,
      "grad_norm": 1.279293629368409,
      "learning_rate": 9.99762859856683e-06,
      "loss": 0.8677,
      "step": 63
    },
    {
      "epoch": 0.33787945446546414,
      "grad_norm": 1.273872943436948,
      "learning_rate": 9.996585300715117e-06,
      "loss": 0.9299,
      "step": 64
    },
    {
      "epoch": 0.34315882094148703,
      "grad_norm": 1.2562758551505886,
      "learning_rate": 9.995352405922467e-06,
      "loss": 0.9017,
      "step": 65
    },
    {
      "epoch": 0.3484381874175099,
      "grad_norm": 1.4032802781936289,
      "learning_rate": 9.99392996097145e-06,
      "loss": 0.9452,
      "step": 66
    },
    {
      "epoch": 0.35371755389353277,
      "grad_norm": 1.4699498993510196,
      "learning_rate": 9.992318019837171e-06,
      "loss": 1.0884,
      "step": 67
    },
    {
      "epoch": 0.35899692036955566,
      "grad_norm": 1.2352131609899204,
      "learning_rate": 9.990516643685222e-06,
      "loss": 0.9171,
      "step": 68
    },
    {
      "epoch": 0.36427628684557856,
      "grad_norm": 1.3192425912595864,
      "learning_rate": 9.988525900869366e-06,
      "loss": 0.9075,
      "step": 69
    },
    {
      "epoch": 0.3695556533216014,
      "grad_norm": 1.2967022211363584,
      "learning_rate": 9.98634586692894e-06,
      "loss": 0.885,
      "step": 70
    },
    {
      "epoch": 0.3748350197976243,
      "grad_norm": 1.3926263384486055,
      "learning_rate": 9.983976624585996e-06,
      "loss": 0.9215,
      "step": 71
    },
    {
      "epoch": 0.3801143862736472,
      "grad_norm": 1.2279876199917352,
      "learning_rate": 9.981418263742148e-06,
      "loss": 0.9121,
      "step": 72
    },
    {
      "epoch": 0.38539375274967,
      "grad_norm": 1.3296649614901273,
      "learning_rate": 9.978670881475173e-06,
      "loss": 0.8719,
      "step": 73
    },
    {
      "epoch": 0.3906731192256929,
      "grad_norm": 1.4366980284008448,
      "learning_rate": 9.975734582035323e-06,
      "loss": 0.9158,
      "step": 74
    },
    {
      "epoch": 0.3959524857017158,
      "grad_norm": 1.4161336324128757,
      "learning_rate": 9.972609476841368e-06,
      "loss": 0.9519,
      "step": 75
    },
    {
      "epoch": 0.40123185217773866,
      "grad_norm": 1.2765268199027533,
      "learning_rate": 9.96929568447637e-06,
      "loss": 0.8892,
      "step": 76
    },
    {
      "epoch": 0.40651121865376155,
      "grad_norm": 1.2903936251174384,
      "learning_rate": 9.965793330683182e-06,
      "loss": 0.8749,
      "step": 77
    },
    {
      "epoch": 0.41179058512978445,
      "grad_norm": 1.328926357616079,
      "learning_rate": 9.96210254835968e-06,
      "loss": 0.8218,
      "step": 78
    },
    {
      "epoch": 0.4170699516058073,
      "grad_norm": 1.192377478319799,
      "learning_rate": 9.958223477553715e-06,
      "loss": 0.8215,
      "step": 79
    },
    {
      "epoch": 0.4223493180818302,
      "grad_norm": 1.2953681293753618,
      "learning_rate": 9.954156265457801e-06,
      "loss": 0.8103,
      "step": 80
    },
    {
      "epoch": 0.4276286845578531,
      "grad_norm": 1.3072992620223463,
      "learning_rate": 9.949901066403536e-06,
      "loss": 0.8992,
      "step": 81
    },
    {
      "epoch": 0.4329080510338759,
      "grad_norm": 1.2374067876062618,
      "learning_rate": 9.945458041855732e-06,
      "loss": 0.8831,
      "step": 82
    },
    {
      "epoch": 0.4381874175098988,
      "grad_norm": 1.3974745936753212,
      "learning_rate": 9.940827360406297e-06,
      "loss": 0.8843,
      "step": 83
    },
    {
      "epoch": 0.4434667839859217,
      "grad_norm": 1.2232655465327642,
      "learning_rate": 9.936009197767847e-06,
      "loss": 0.8714,
      "step": 84
    },
    {
      "epoch": 0.44874615046194455,
      "grad_norm": 1.3329454900801005,
      "learning_rate": 9.931003736767013e-06,
      "loss": 0.9267,
      "step": 85
    },
    {
      "epoch": 0.45402551693796744,
      "grad_norm": 1.2551849569644793,
      "learning_rate": 9.925811167337533e-06,
      "loss": 0.8765,
      "step": 86
    },
    {
      "epoch": 0.45930488341399034,
      "grad_norm": 1.324099190921721,
      "learning_rate": 9.920431686513023e-06,
      "loss": 0.8835,
      "step": 87
    },
    {
      "epoch": 0.4645842498900132,
      "grad_norm": 1.2343457957658,
      "learning_rate": 9.91486549841951e-06,
      "loss": 0.8557,
      "step": 88
    },
    {
      "epoch": 0.4698636163660361,
      "grad_norm": 1.357007540882203,
      "learning_rate": 9.909112814267686e-06,
      "loss": 0.93,
      "step": 89
    },
    {
      "epoch": 0.47514298284205897,
      "grad_norm": 1.2685007078756392,
      "learning_rate": 9.903173852344889e-06,
      "loss": 0.8493,
      "step": 90
    },
    {
      "epoch": 0.4804223493180818,
      "grad_norm": 1.3198835038669643,
      "learning_rate": 9.89704883800683e-06,
      "loss": 0.9375,
      "step": 91
    },
    {
      "epoch": 0.4857017157941047,
      "grad_norm": 1.2921827299558808,
      "learning_rate": 9.890738003669029e-06,
      "loss": 0.8502,
      "step": 92
    },
    {
      "epoch": 0.4909810822701276,
      "grad_norm": 1.3792411082761877,
      "learning_rate": 9.884241588798004e-06,
      "loss": 0.8722,
      "step": 93
    },
    {
      "epoch": 0.49626044874615044,
      "grad_norm": 1.3853454707822626,
      "learning_rate": 9.877559839902185e-06,
      "loss": 0.9781,
      "step": 94
    },
    {
      "epoch": 0.5015398152221734,
      "grad_norm": 1.4954228020473375,
      "learning_rate": 9.870693010522552e-06,
      "loss": 0.9494,
      "step": 95
    },
    {
      "epoch": 0.5068191816981962,
      "grad_norm": 1.4537142950730755,
      "learning_rate": 9.863641361223025e-06,
      "loss": 0.8948,
      "step": 96
    },
    {
      "epoch": 0.5120985481742191,
      "grad_norm": 1.3353911864277976,
      "learning_rate": 9.85640515958057e-06,
      "loss": 0.9305,
      "step": 97
    },
    {
      "epoch": 0.517377914650242,
      "grad_norm": 1.3069189595420478,
      "learning_rate": 9.848984680175049e-06,
      "loss": 1.0241,
      "step": 98
    },
    {
      "epoch": 0.5226572811262649,
      "grad_norm": 1.4160480924828072,
      "learning_rate": 9.841380204578795e-06,
      "loss": 0.8869,
      "step": 99
    },
    {
      "epoch": 0.5279366476022878,
      "grad_norm": 1.6379023507410095,
      "learning_rate": 9.833592021345938e-06,
      "loss": 0.8854,
      "step": 100
    },
    {
      "epoch": 0.5332160140783107,
      "grad_norm": 1.4984036893204795,
      "learning_rate": 9.825620426001446e-06,
      "loss": 0.9243,
      "step": 101
    },
    {
      "epoch": 0.5384953805543334,
      "grad_norm": 1.3234999163374,
      "learning_rate": 9.817465721029916e-06,
      "loss": 0.8645,
      "step": 102
    },
    {
      "epoch": 0.5437747470303563,
      "grad_norm": 1.3367013313050653,
      "learning_rate": 9.809128215864096e-06,
      "loss": 0.9064,
      "step": 103
    },
    {
      "epoch": 0.5490541135063792,
      "grad_norm": 1.2888959675698541,
      "learning_rate": 9.800608226873143e-06,
      "loss": 0.8828,
      "step": 104
    },
    {
      "epoch": 0.5543334799824021,
      "grad_norm": 1.3417129361301388,
      "learning_rate": 9.791906077350613e-06,
      "loss": 0.8687,
      "step": 105
    },
    {
      "epoch": 0.559612846458425,
      "grad_norm": 1.387011742779051,
      "learning_rate": 9.783022097502204e-06,
      "loss": 1.0081,
      "step": 106
    },
    {
      "epoch": 0.5648922129344479,
      "grad_norm": 1.2844930485660748,
      "learning_rate": 9.773956624433224e-06,
      "loss": 0.8988,
      "step": 107
    },
    {
      "epoch": 0.5701715794104707,
      "grad_norm": 1.362695293650949,
      "learning_rate": 9.764710002135784e-06,
      "loss": 0.8097,
      "step": 108
    },
    {
      "epoch": 0.5754509458864936,
      "grad_norm": 1.311448593659273,
      "learning_rate": 9.755282581475769e-06,
      "loss": 0.8707,
      "step": 109
    },
    {
      "epoch": 0.5807303123625165,
      "grad_norm": 1.4708655509314155,
      "learning_rate": 9.745674720179507e-06,
      "loss": 0.913,
      "step": 110
    },
    {
      "epoch": 0.5860096788385394,
      "grad_norm": 1.3142546545330323,
      "learning_rate": 9.735886782820202e-06,
      "loss": 0.8495,
      "step": 111
    },
    {
      "epoch": 0.5912890453145623,
      "grad_norm": 1.2448969618431651,
      "learning_rate": 9.7259191408041e-06,
      "loss": 0.7694,
      "step": 112
    },
    {
      "epoch": 0.5965684117905852,
      "grad_norm": 1.2817154139311548,
      "learning_rate": 9.715772172356388e-06,
      "loss": 0.8874,
      "step": 113
    },
    {
      "epoch": 0.601847778266608,
      "grad_norm": 1.303527565876824,
      "learning_rate": 9.705446262506858e-06,
      "loss": 0.9887,
      "step": 114
    },
    {
      "epoch": 0.6071271447426309,
      "grad_norm": 1.3162139512016877,
      "learning_rate": 9.694941803075285e-06,
      "loss": 0.8731,
      "step": 115
    },
    {
      "epoch": 0.6124065112186537,
      "grad_norm": 1.3631926446929201,
      "learning_rate": 9.684259192656554e-06,
      "loss": 0.8773,
      "step": 116
    },
    {
      "epoch": 0.6176858776946766,
      "grad_norm": 1.354454946440946,
      "learning_rate": 9.673398836605554e-06,
      "loss": 0.9415,
      "step": 117
    },
    {
      "epoch": 0.6229652441706995,
      "grad_norm": 1.2806247492822374,
      "learning_rate": 9.66236114702178e-06,
      "loss": 0.8214,
      "step": 118
    },
    {
      "epoch": 0.6282446106467224,
      "grad_norm": 1.3067756329426423,
      "learning_rate": 9.651146542733702e-06,
      "loss": 0.9561,
      "step": 119
    },
    {
      "epoch": 0.6335239771227452,
      "grad_norm": 1.3982461215765278,
      "learning_rate": 9.639755449282874e-06,
      "loss": 0.8812,
      "step": 120
    },
    {
      "epoch": 0.6388033435987681,
      "grad_norm": 1.2734112863554599,
      "learning_rate": 9.628188298907782e-06,
      "loss": 0.803,
      "step": 121
    },
    {
      "epoch": 0.644082710074791,
      "grad_norm": 1.4042153797470949,
      "learning_rate": 9.616445530527448e-06,
      "loss": 0.8159,
      "step": 122
    },
    {
      "epoch": 0.6493620765508139,
      "grad_norm": 1.230725944316371,
      "learning_rate": 9.60452758972477e-06,
      "loss": 0.8846,
      "step": 123
    },
    {
      "epoch": 0.6546414430268368,
      "grad_norm": 1.242349305278167,
      "learning_rate": 9.592434928729617e-06,
      "loss": 0.7621,
      "step": 124
    },
    {
      "epoch": 0.6599208095028597,
      "grad_norm": 1.4468948851039833,
      "learning_rate": 9.58016800640167e-06,
      "loss": 0.9327,
      "step": 125
    },
    {
      "epoch": 0.6652001759788825,
      "grad_norm": 1.3595406863398718,
      "learning_rate": 9.567727288213005e-06,
      "loss": 0.8629,
      "step": 126
    },
    {
      "epoch": 0.6704795424549054,
      "grad_norm": 1.3391481209651412,
      "learning_rate": 9.555113246230443e-06,
      "loss": 0.943,
      "step": 127
    },
    {
      "epoch": 0.6757589089309283,
      "grad_norm": 1.3816914835623122,
      "learning_rate": 9.542326359097619e-06,
      "loss": 0.8841,
      "step": 128
    },
    {
      "epoch": 0.6810382754069512,
      "grad_norm": 1.2580871478999183,
      "learning_rate": 9.529367112016836e-06,
      "loss": 0.8039,
      "step": 129
    },
    {
      "epoch": 0.6863176418829741,
      "grad_norm": 1.3901966106075496,
      "learning_rate": 9.516235996730645e-06,
      "loss": 0.8409,
      "step": 130
    },
    {
      "epoch": 0.691597008358997,
      "grad_norm": 1.2698547636051096,
      "learning_rate": 9.502933511503187e-06,
      "loss": 0.8499,
      "step": 131
    },
    {
      "epoch": 0.6968763748350199,
      "grad_norm": 1.390987513649665,
      "learning_rate": 9.489460161101291e-06,
      "loss": 0.8549,
      "step": 132
    },
    {
      "epoch": 0.7021557413110426,
      "grad_norm": 1.3670503603402828,
      "learning_rate": 9.475816456775313e-06,
      "loss": 0.8436,
      "step": 133
    },
    {
      "epoch": 0.7074351077870655,
      "grad_norm": 1.2624531025923733,
      "learning_rate": 9.46200291623974e-06,
      "loss": 0.853,
      "step": 134
    },
    {
      "epoch": 0.7127144742630884,
      "grad_norm": 1.2250644357723437,
      "learning_rate": 9.44802006365355e-06,
      "loss": 0.8283,
      "step": 135
    },
    {
      "epoch": 0.7179938407391113,
      "grad_norm": 1.2734440256518054,
      "learning_rate": 9.43386842960031e-06,
      "loss": 0.8474,
      "step": 136
    },
    {
      "epoch": 0.7232732072151342,
      "grad_norm": 1.3509174047115824,
      "learning_rate": 9.419548551068061e-06,
      "loss": 0.8657,
      "step": 137
    },
    {
      "epoch": 0.7285525736911571,
      "grad_norm": 1.370913524291918,
      "learning_rate": 9.405060971428924e-06,
      "loss": 0.8915,
      "step": 138
    },
    {
      "epoch": 0.7338319401671799,
      "grad_norm": 1.2433881056858749,
      "learning_rate": 9.39040624041849e-06,
      "loss": 1.024,
      "step": 139
    },
    {
      "epoch": 0.7391113066432028,
      "grad_norm": 1.1648887790445894,
      "learning_rate": 9.375584914114963e-06,
      "loss": 0.7808,
      "step": 140
    },
    {
      "epoch": 0.7443906731192257,
      "grad_norm": 1.3435997997706464,
      "learning_rate": 9.360597554918055e-06,
      "loss": 0.9497,
      "step": 141
    },
    {
      "epoch": 0.7496700395952486,
      "grad_norm": 1.401286458253954,
      "learning_rate": 9.345444731527642e-06,
      "loss": 0.927,
      "step": 142
    },
    {
      "epoch": 0.7549494060712715,
      "grad_norm": 1.2883022833187427,
      "learning_rate": 9.330127018922195e-06,
      "loss": 0.9708,
      "step": 143
    },
    {
      "epoch": 0.7602287725472944,
      "grad_norm": 1.2683832198503506,
      "learning_rate": 9.31464499833695e-06,
      "loss": 0.8359,
      "step": 144
    },
    {
      "epoch": 0.7655081390233172,
      "grad_norm": 1.2280565258082867,
      "learning_rate": 9.298999257241862e-06,
      "loss": 0.8085,
      "step": 145
    },
    {
      "epoch": 0.77078750549934,
      "grad_norm": 1.3268019274693263,
      "learning_rate": 9.283190389319315e-06,
      "loss": 0.8619,
      "step": 146
    },
    {
      "epoch": 0.776066871975363,
      "grad_norm": 1.3405013825655892,
      "learning_rate": 9.26721899444158e-06,
      "loss": 0.8757,
      "step": 147
    },
    {
      "epoch": 0.7813462384513858,
      "grad_norm": 1.3113438616437634,
      "learning_rate": 9.251085678648072e-06,
      "loss": 0.8586,
      "step": 148
    },
    {
      "epoch": 0.7866256049274087,
      "grad_norm": 1.2692947439879936,
      "learning_rate": 9.234791054122336e-06,
      "loss": 0.8315,
      "step": 149
    },
    {
      "epoch": 0.7919049714034316,
      "grad_norm": 1.288784803692807,
      "learning_rate": 9.218335739168833e-06,
      "loss": 0.8138,
      "step": 150
    },
    {
      "epoch": 0.7971843378794544,
      "grad_norm": 1.2853502663214944,
      "learning_rate": 9.201720358189464e-06,
      "loss": 0.8953,
      "step": 151
    },
    {
      "epoch": 0.8024637043554773,
      "grad_norm": 1.3844299853873043,
      "learning_rate": 9.18494554165989e-06,
      "loss": 0.8527,
      "step": 152
    },
    {
      "epoch": 0.8077430708315002,
      "grad_norm": 1.2348194951175424,
      "learning_rate": 9.168011926105598e-06,
      "loss": 0.7873,
      "step": 153
    },
    {
      "epoch": 0.8130224373075231,
      "grad_norm": 1.4444636219923,
      "learning_rate": 9.150920154077753e-06,
      "loss": 0.9273,
      "step": 154
    },
    {
      "epoch": 0.818301803783546,
      "grad_norm": 1.3415281982191147,
      "learning_rate": 9.133670874128818e-06,
      "loss": 0.8165,
      "step": 155
    },
    {
      "epoch": 0.8235811702595689,
      "grad_norm": 1.4171257480887072,
      "learning_rate": 9.116264740787937e-06,
      "loss": 0.903,
      "step": 156
    },
    {
      "epoch": 0.8288605367355917,
      "grad_norm": 1.4009278155261338,
      "learning_rate": 9.098702414536107e-06,
      "loss": 0.8654,
      "step": 157
    },
    {
      "epoch": 0.8341399032116146,
      "grad_norm": 1.3353961972609718,
      "learning_rate": 9.08098456178111e-06,
      "loss": 0.8821,
      "step": 158
    },
    {
      "epoch": 0.8394192696876375,
      "grad_norm": 1.465378569130035,
      "learning_rate": 9.06311185483223e-06,
      "loss": 0.8585,
      "step": 159
    },
    {
      "epoch": 0.8446986361636604,
      "grad_norm": 1.3247392983018136,
      "learning_rate": 9.045084971874738e-06,
      "loss": 0.8409,
      "step": 160
    },
    {
      "epoch": 0.8499780026396833,
      "grad_norm": 1.3094980178064088,
      "learning_rate": 9.026904596944163e-06,
      "loss": 0.8423,
      "step": 161
    },
    {
      "epoch": 0.8552573691157062,
      "grad_norm": 1.3167256777304588,
      "learning_rate": 9.008571419900334e-06,
      "loss": 0.8123,
      "step": 162
    },
    {
      "epoch": 0.8605367355917289,
      "grad_norm": 1.3199382134511854,
      "learning_rate": 8.990086136401199e-06,
      "loss": 0.8171,
      "step": 163
    },
    {
      "epoch": 0.8658161020677518,
      "grad_norm": 1.2759439255391014,
      "learning_rate": 8.97144944787643e-06,
      "loss": 0.7351,
      "step": 164
    },
    {
      "epoch": 0.8710954685437747,
      "grad_norm": 1.3371401649586945,
      "learning_rate": 8.952662061500817e-06,
      "loss": 0.9156,
      "step": 165
    },
    {
      "epoch": 0.8763748350197976,
      "grad_norm": 1.2566756220149857,
      "learning_rate": 8.933724690167417e-06,
      "loss": 0.9278,
      "step": 166
    },
    {
      "epoch": 0.8816542014958205,
      "grad_norm": 1.2918012041625928,
      "learning_rate": 8.914638052460515e-06,
      "loss": 0.796,
      "step": 167
    },
    {
      "epoch": 0.8869335679718434,
      "grad_norm": 1.3420464341954295,
      "learning_rate": 8.895402872628352e-06,
      "loss": 0.8289,
      "step": 168
    },
    {
      "epoch": 0.8922129344478662,
      "grad_norm": 1.386536525968897,
      "learning_rate": 8.87601988055565e-06,
      "loss": 0.9055,
      "step": 169
    },
    {
      "epoch": 0.8974923009238891,
      "grad_norm": 1.2764097483742913,
      "learning_rate": 8.856489811735904e-06,
      "loss": 0.8221,
      "step": 170
    },
    {
      "epoch": 0.902771667399912,
      "grad_norm": 1.3242925889713713,
      "learning_rate": 8.836813407243485e-06,
      "loss": 0.8052,
      "step": 171
    },
    {
      "epoch": 0.9080510338759349,
      "grad_norm": 1.135434673976009,
      "learning_rate": 8.816991413705515e-06,
      "loss": 0.8048,
      "step": 172
    },
    {
      "epoch": 0.9133304003519578,
      "grad_norm": 1.3633873651508777,
      "learning_rate": 8.797024583273536e-06,
      "loss": 0.8403,
      "step": 173
    },
    {
      "epoch": 0.9186097668279807,
      "grad_norm": 1.4254861868193114,
      "learning_rate": 8.776913673594968e-06,
      "loss": 0.8558,
      "step": 174
    },
    {
      "epoch": 0.9238891333040036,
      "grad_norm": 1.3944884567839855,
      "learning_rate": 8.756659447784367e-06,
      "loss": 0.8265,
      "step": 175
    },
    {
      "epoch": 0.9291684997800264,
      "grad_norm": 1.2473776372568752,
      "learning_rate": 8.736262674394455e-06,
      "loss": 0.8558,
      "step": 176
    },
    {
      "epoch": 0.9344478662560493,
      "grad_norm": 1.1199152507629353,
      "learning_rate": 8.715724127386971e-06,
      "loss": 0.7684,
      "step": 177
    },
    {
      "epoch": 0.9397272327320721,
      "grad_norm": 1.4769772323796146,
      "learning_rate": 8.695044586103297e-06,
      "loss": 0.8404,
      "step": 178
    },
    {
      "epoch": 0.945006599208095,
      "grad_norm": 1.2812768021421608,
      "learning_rate": 8.674224835234879e-06,
      "loss": 0.855,
      "step": 179
    },
    {
      "epoch": 0.9502859656841179,
      "grad_norm": 1.4074704240057607,
      "learning_rate": 8.653265664793466e-06,
      "loss": 0.8966,
      "step": 180
    },
    {
      "epoch": 0.9555653321601408,
      "grad_norm": 1.3552977566183917,
      "learning_rate": 8.632167870081122e-06,
      "loss": 0.8983,
      "step": 181
    },
    {
      "epoch": 0.9608446986361636,
      "grad_norm": 1.2662415913666043,
      "learning_rate": 8.610932251660046e-06,
      "loss": 0.7676,
      "step": 182
    },
    {
      "epoch": 0.9661240651121865,
      "grad_norm": 1.3122048439005143,
      "learning_rate": 8.58955961532221e-06,
      "loss": 0.8486,
      "step": 183
    },
    {
      "epoch": 0.9714034315882094,
      "grad_norm": 1.2880133358543706,
      "learning_rate": 8.568050772058763e-06,
      "loss": 1.0695,
      "step": 184
    },
    {
      "epoch": 0.9766827980642323,
      "grad_norm": 1.2876646312084281,
      "learning_rate": 8.546406538029268e-06,
      "loss": 0.8744,
      "step": 185
    },
    {
      "epoch": 0.9819621645402552,
      "grad_norm": 1.3907216667545839,
      "learning_rate": 8.524627734530738e-06,
      "loss": 0.8009,
      "step": 186
    },
    {
      "epoch": 0.9872415310162781,
      "grad_norm": 1.298714668518304,
      "learning_rate": 8.502715187966455e-06,
      "loss": 0.8211,
      "step": 187
    },
    {
      "epoch": 0.9925208974923009,
      "grad_norm": 1.4112133312678243,
      "learning_rate": 8.480669729814635e-06,
      "loss": 0.8909,
      "step": 188
    },
    {
      "epoch": 0.9978002639683238,
      "grad_norm": 1.2429484880228319,
      "learning_rate": 8.458492196596852e-06,
      "loss": 0.7842,
      "step": 189
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.2429484880228319,
      "learning_rate": 8.436183429846314e-06,
      "loss": 0.8917,
      "step": 190
    },
    {
      "epoch": 1.005279366476023,
      "grad_norm": 2.3017818904176828,
      "learning_rate": 8.413744276075928e-06,
      "loss": 0.7453,
      "step": 191
    },
    {
      "epoch": 1.0105587329520458,
      "grad_norm": 1.223195818545867,
      "learning_rate": 8.39117558674617e-06,
      "loss": 0.6252,
      "step": 192
    },
    {
      "epoch": 1.0158380994280687,
      "grad_norm": 1.2015392058187855,
      "learning_rate": 8.368478218232787e-06,
      "loss": 0.6357,
      "step": 193
    },
    {
      "epoch": 1.0211174659040916,
      "grad_norm": 1.2194373310662718,
      "learning_rate": 8.345653031794292e-06,
      "loss": 0.6568,
      "step": 194
    },
    {
      "epoch": 1.0263968323801145,
      "grad_norm": 1.251074042866813,
      "learning_rate": 8.32270089353929e-06,
      "loss": 0.6674,
      "step": 195
    },
    {
      "epoch": 1.0316761988561374,
      "grad_norm": 1.3553593206962593,
      "learning_rate": 8.299622674393615e-06,
      "loss": 0.7704,
      "step": 196
    },
    {
      "epoch": 1.03695556533216,
      "grad_norm": 1.3610141965233205,
      "learning_rate": 8.27641925006727e-06,
      "loss": 0.6893,
      "step": 197
    },
    {
      "epoch": 1.042234931808183,
      "grad_norm": 1.4430956370832788,
      "learning_rate": 8.25309150102121e-06,
      "loss": 0.6783,
      "step": 198
    },
    {
      "epoch": 1.0475142982842058,
      "grad_norm": 1.3237087640173875,
      "learning_rate": 8.229640312433938e-06,
      "loss": 0.6328,
      "step": 199
    },
    {
      "epoch": 1.0527936647602287,
      "grad_norm": 1.4354224675777918,
      "learning_rate": 8.206066574167893e-06,
      "loss": 0.7054,
      "step": 200
    },
    {
      "epoch": 1.0580730312362516,
      "grad_norm": 1.3820711783982724,
      "learning_rate": 8.182371180735708e-06,
      "loss": 0.6596,
      "step": 201
    },
    {
      "epoch": 1.0633523977122745,
      "grad_norm": 1.5892680249474918,
      "learning_rate": 8.158555031266255e-06,
      "loss": 0.7119,
      "step": 202
    },
    {
      "epoch": 1.0686317641882974,
      "grad_norm": 1.3831340041775368,
      "learning_rate": 8.134619029470535e-06,
      "loss": 0.6956,
      "step": 203
    },
    {
      "epoch": 1.0739111306643203,
      "grad_norm": 1.4618391544645484,
      "learning_rate": 8.110564083607371e-06,
      "loss": 0.6927,
      "step": 204
    },
    {
      "epoch": 1.0791904971403432,
      "grad_norm": 1.399225289114619,
      "learning_rate": 8.086391106448965e-06,
      "loss": 0.6719,
      "step": 205
    },
    {
      "epoch": 1.084469863616366,
      "grad_norm": 1.39102454168437,
      "learning_rate": 8.06210101524625e-06,
      "loss": 0.6677,
      "step": 206
    },
    {
      "epoch": 1.089749230092389,
      "grad_norm": 1.4013045019864605,
      "learning_rate": 8.037694731694085e-06,
      "loss": 0.6807,
      "step": 207
    },
    {
      "epoch": 1.095028596568412,
      "grad_norm": 1.3292251495775314,
      "learning_rate": 8.013173181896283e-06,
      "loss": 0.685,
      "step": 208
    },
    {
      "epoch": 1.1003079630444346,
      "grad_norm": 1.468780970931853,
      "learning_rate": 7.988537296330468e-06,
      "loss": 0.6559,
      "step": 209
    },
    {
      "epoch": 1.1055873295204575,
      "grad_norm": 1.2560486698645472,
      "learning_rate": 7.963788009812775e-06,
      "loss": 0.5966,
      "step": 210
    },
    {
      "epoch": 1.1108666959964804,
      "grad_norm": 1.3263436068368955,
      "learning_rate": 7.938926261462366e-06,
      "loss": 0.6426,
      "step": 211
    },
    {
      "epoch": 1.1161460624725033,
      "grad_norm": 1.4262360139572436,
      "learning_rate": 7.913952994665805e-06,
      "loss": 0.7044,
      "step": 212
    },
    {
      "epoch": 1.1214254289485261,
      "grad_norm": 1.413724127688339,
      "learning_rate": 7.888869157041257e-06,
      "loss": 0.6892,
      "step": 213
    },
    {
      "epoch": 1.126704795424549,
      "grad_norm": 1.3691991114364659,
      "learning_rate": 7.863675700402527e-06,
      "loss": 0.6913,
      "step": 214
    },
    {
      "epoch": 1.131984161900572,
      "grad_norm": 1.5050181189304115,
      "learning_rate": 7.838373580722952e-06,
      "loss": 0.7563,
      "step": 215
    },
    {
      "epoch": 1.1372635283765948,
      "grad_norm": 1.280216474266895,
      "learning_rate": 7.812963758099118e-06,
      "loss": 0.6034,
      "step": 216
    },
    {
      "epoch": 1.1425428948526177,
      "grad_norm": 1.3442258228040502,
      "learning_rate": 7.787447196714428e-06,
      "loss": 0.703,
      "step": 217
    },
    {
      "epoch": 1.1478222613286406,
      "grad_norm": 1.374879774404637,
      "learning_rate": 7.76182486480253e-06,
      "loss": 0.6622,
      "step": 218
    },
    {
      "epoch": 1.1531016278046635,
      "grad_norm": 1.1079594025474235,
      "learning_rate": 7.736097734610557e-06,
      "loss": 0.6343,
      "step": 219
    },
    {
      "epoch": 1.1583809942806864,
      "grad_norm": 1.4099196984187832,
      "learning_rate": 7.710266782362248e-06,
      "loss": 0.7379,
      "step": 220
    },
    {
      "epoch": 1.163660360756709,
      "grad_norm": 1.3722807994126047,
      "learning_rate": 7.684332988220901e-06,
      "loss": 0.7447,
      "step": 221
    },
    {
      "epoch": 1.168939727232732,
      "grad_norm": 1.495776876658676,
      "learning_rate": 7.658297336252181e-06,
      "loss": 0.6477,
      "step": 222
    },
    {
      "epoch": 1.1742190937087549,
      "grad_norm": 1.3604596279976626,
      "learning_rate": 7.63216081438678e-06,
      "loss": 0.7295,
      "step": 223
    },
    {
      "epoch": 1.1794984601847778,
      "grad_norm": 1.3235758656247603,
      "learning_rate": 7.605924414382926e-06,
      "loss": 0.6585,
      "step": 224
    },
    {
      "epoch": 1.1847778266608007,
      "grad_norm": 1.4440449502234758,
      "learning_rate": 7.579589131788756e-06,
      "loss": 0.6244,
      "step": 225
    },
    {
      "epoch": 1.1900571931368236,
      "grad_norm": 1.3928149968149692,
      "learning_rate": 7.553155965904535e-06,
      "loss": 0.637,
      "step": 226
    },
    {
      "epoch": 1.1953365596128465,
      "grad_norm": 1.4032725114348137,
      "learning_rate": 7.526625919744741e-06,
      "loss": 0.6644,
      "step": 227
    },
    {
      "epoch": 1.2006159260888694,
      "grad_norm": 1.3266237278115651,
      "learning_rate": 7.500000000000001e-06,
      "loss": 0.6354,
      "step": 228
    },
    {
      "epoch": 1.2058952925648923,
      "grad_norm": 1.5117455894482101,
      "learning_rate": 7.473279216998896e-06,
      "loss": 0.634,
      "step": 229
    },
    {
      "epoch": 1.2111746590409151,
      "grad_norm": 1.5645913721329012,
      "learning_rate": 7.4464645846696186e-06,
      "loss": 0.8021,
      "step": 230
    },
    {
      "epoch": 1.216454025516938,
      "grad_norm": 1.595585311092696,
      "learning_rate": 7.419557120501508e-06,
      "loss": 0.6831,
      "step": 231
    },
    {
      "epoch": 1.221733391992961,
      "grad_norm": 1.3739554991120078,
      "learning_rate": 7.392557845506433e-06,
      "loss": 0.6571,
      "step": 232
    },
    {
      "epoch": 1.2270127584689838,
      "grad_norm": 1.383758484574002,
      "learning_rate": 7.365467784180051e-06,
      "loss": 0.6015,
      "step": 233
    },
    {
      "epoch": 1.2322921249450065,
      "grad_norm": 1.2935886046335063,
      "learning_rate": 7.3382879644629345e-06,
      "loss": 0.684,
      "step": 234
    },
    {
      "epoch": 1.2375714914210294,
      "grad_norm": 1.4930967440370626,
      "learning_rate": 7.311019417701567e-06,
      "loss": 0.618,
      "step": 235
    },
    {
      "epoch": 1.2428508578970523,
      "grad_norm": 1.4340994519601895,
      "learning_rate": 7.283663178609204e-06,
      "loss": 0.6676,
      "step": 236
    },
    {
      "epoch": 1.2481302243730752,
      "grad_norm": 1.332079262932709,
      "learning_rate": 7.256220285226615e-06,
      "loss": 0.6518,
      "step": 237
    },
    {
      "epoch": 1.253409590849098,
      "grad_norm": 1.4124012184704442,
      "learning_rate": 7.2286917788826926e-06,
      "loss": 0.7255,
      "step": 238
    },
    {
      "epoch": 1.258688957325121,
      "grad_norm": 1.435352374027868,
      "learning_rate": 7.201078704154938e-06,
      "loss": 0.6427,
      "step": 239
    },
    {
      "epoch": 1.2639683238011439,
      "grad_norm": 1.3129409573708608,
      "learning_rate": 7.173382108829826e-06,
      "loss": 0.6435,
      "step": 240
    },
    {
      "epoch": 1.2692476902771668,
      "grad_norm": 1.3029674291538322,
      "learning_rate": 7.145603043863045e-06,
      "loss": 0.6018,
      "step": 241
    },
    {
      "epoch": 1.2745270567531897,
      "grad_norm": 1.4384137050989114,
      "learning_rate": 7.117742563339622e-06,
      "loss": 0.6399,
      "step": 242
    },
    {
      "epoch": 1.2798064232292126,
      "grad_norm": 1.404893956226061,
      "learning_rate": 7.089801724433918e-06,
      "loss": 0.6591,
      "step": 243
    },
    {
      "epoch": 1.2850857897052355,
      "grad_norm": 1.3631545091800101,
      "learning_rate": 7.061781587369518e-06,
      "loss": 0.661,
      "step": 244
    },
    {
      "epoch": 1.2903651561812581,
      "grad_norm": 1.3722052435590018,
      "learning_rate": 7.033683215379002e-06,
      "loss": 0.7329,
      "step": 245
    },
    {
      "epoch": 1.2956445226572813,
      "grad_norm": 1.3373371627523003,
      "learning_rate": 7.005507674663594e-06,
      "loss": 0.6853,
      "step": 246
    },
    {
      "epoch": 1.300923889133304,
      "grad_norm": 1.347515123739391,
      "learning_rate": 6.977256034352713e-06,
      "loss": 0.6356,
      "step": 247
    },
    {
      "epoch": 1.3062032556093268,
      "grad_norm": 1.3251248469180115,
      "learning_rate": 6.948929366463397e-06,
      "loss": 0.6542,
      "step": 248
    },
    {
      "epoch": 1.3114826220853497,
      "grad_norm": 1.413403738053324,
      "learning_rate": 6.9205287458596305e-06,
      "loss": 0.6732,
      "step": 249
    },
    {
      "epoch": 1.3167619885613726,
      "grad_norm": 1.3195739239798052,
      "learning_rate": 6.892055250211552e-06,
      "loss": 0.6157,
      "step": 250
    },
    {
      "epoch": 1.3220413550373955,
      "grad_norm": 1.398192094348221,
      "learning_rate": 6.86350995995457e-06,
      "loss": 0.6903,
      "step": 251
    },
    {
      "epoch": 1.3273207215134184,
      "grad_norm": 1.4424925485085278,
      "learning_rate": 6.834893958248361e-06,
      "loss": 0.6967,
      "step": 252
    },
    {
      "epoch": 1.3326000879894413,
      "grad_norm": 1.3715769454036013,
      "learning_rate": 6.806208330935766e-06,
      "loss": 0.6402,
      "step": 253
    },
    {
      "epoch": 1.3378794544654642,
      "grad_norm": 1.3832262511831421,
      "learning_rate": 6.77745416650159e-06,
      "loss": 0.6684,
      "step": 254
    },
    {
      "epoch": 1.343158820941487,
      "grad_norm": 1.3503209557607232,
      "learning_rate": 6.748632556031306e-06,
      "loss": 0.7828,
      "step": 255
    },
    {
      "epoch": 1.34843818741751,
      "grad_norm": 1.3619508308924722,
      "learning_rate": 6.719744593169642e-06,
      "loss": 0.6583,
      "step": 256
    },
    {
      "epoch": 1.3537175538935329,
      "grad_norm": 1.543700428502048,
      "learning_rate": 6.690791374079086e-06,
      "loss": 0.6687,
      "step": 257
    },
    {
      "epoch": 1.3589969203695555,
      "grad_norm": 1.3454959558325137,
      "learning_rate": 6.6617739973982985e-06,
      "loss": 0.6109,
      "step": 258
    },
    {
      "epoch": 1.3642762868455787,
      "grad_norm": 1.3091432151076758,
      "learning_rate": 6.6326935642004165e-06,
      "loss": 0.6819,
      "step": 259
    },
    {
      "epoch": 1.3695556533216013,
      "grad_norm": 1.4211398893275302,
      "learning_rate": 6.6035511779512764e-06,
      "loss": 0.6106,
      "step": 260
    },
    {
      "epoch": 1.3748350197976242,
      "grad_norm": 1.3056584370485818,
      "learning_rate": 6.57434794446754e-06,
      "loss": 0.6348,
      "step": 261
    },
    {
      "epoch": 1.3801143862736471,
      "grad_norm": 1.432042689389407,
      "learning_rate": 6.545084971874738e-06,
      "loss": 0.6428,
      "step": 262
    },
    {
      "epoch": 1.38539375274967,
      "grad_norm": 1.3426884980712488,
      "learning_rate": 6.515763370565218e-06,
      "loss": 0.6076,
      "step": 263
    },
    {
      "epoch": 1.390673119225693,
      "grad_norm": 1.2615012752998496,
      "learning_rate": 6.486384253156014e-06,
      "loss": 0.7665,
      "step": 264
    },
    {
      "epoch": 1.3959524857017158,
      "grad_norm": 1.3453647581013601,
      "learning_rate": 6.456948734446624e-06,
      "loss": 0.6377,
      "step": 265
    },
    {
      "epoch": 1.4012318521777387,
      "grad_norm": 1.4161701822318469,
      "learning_rate": 6.427457931376712e-06,
      "loss": 0.6732,
      "step": 266
    },
    {
      "epoch": 1.4065112186537616,
      "grad_norm": 1.32784380027798,
      "learning_rate": 6.39791296298372e-06,
      "loss": 0.628,
      "step": 267
    },
    {
      "epoch": 1.4117905851297845,
      "grad_norm": 1.3941543313635256,
      "learning_rate": 6.368314950360416e-06,
      "loss": 0.6554,
      "step": 268
    },
    {
      "epoch": 1.4170699516058072,
      "grad_norm": 1.4362476191327336,
      "learning_rate": 6.3386650166123406e-06,
      "loss": 0.7686,
      "step": 269
    },
    {
      "epoch": 1.4223493180818303,
      "grad_norm": 1.4890178566624934,
      "learning_rate": 6.308964286815203e-06,
      "loss": 0.6515,
      "step": 270
    },
    {
      "epoch": 1.427628684557853,
      "grad_norm": 1.52171364834682,
      "learning_rate": 6.279213887972179e-06,
      "loss": 0.6851,
      "step": 271
    },
    {
      "epoch": 1.4329080510338759,
      "grad_norm": 1.170459513215867,
      "learning_rate": 6.249414948971154e-06,
      "loss": 0.634,
      "step": 272
    },
    {
      "epoch": 1.4381874175098988,
      "grad_norm": 1.2892794847690134,
      "learning_rate": 6.219568600541886e-06,
      "loss": 0.5732,
      "step": 273
    },
    {
      "epoch": 1.4434667839859217,
      "grad_norm": 1.4147522223651536,
      "learning_rate": 6.189675975213094e-06,
      "loss": 0.6505,
      "step": 274
    },
    {
      "epoch": 1.4487461504619445,
      "grad_norm": 1.2766098284530847,
      "learning_rate": 6.159738207269491e-06,
      "loss": 0.613,
      "step": 275
    },
    {
      "epoch": 1.4540255169379674,
      "grad_norm": 1.3170993095662313,
      "learning_rate": 6.129756432708739e-06,
      "loss": 0.6058,
      "step": 276
    },
    {
      "epoch": 1.4593048834139903,
      "grad_norm": 1.3490297596989358,
      "learning_rate": 6.099731789198344e-06,
      "loss": 0.7526,
      "step": 277
    },
    {
      "epoch": 1.4645842498900132,
      "grad_norm": 1.49015141935795,
      "learning_rate": 6.0696654160324875e-06,
      "loss": 0.6664,
      "step": 278
    },
    {
      "epoch": 1.4698636163660361,
      "grad_norm": 1.353677527773509,
      "learning_rate": 6.039558454088796e-06,
      "loss": 0.6508,
      "step": 279
    },
    {
      "epoch": 1.475142982842059,
      "grad_norm": 1.3542791249145698,
      "learning_rate": 6.009412045785051e-06,
      "loss": 0.6868,
      "step": 280
    },
    {
      "epoch": 1.480422349318082,
      "grad_norm": 1.239412403087578,
      "learning_rate": 5.9792273350358354e-06,
      "loss": 0.6542,
      "step": 281
    },
    {
      "epoch": 1.4857017157941046,
      "grad_norm": 1.3657653754563595,
      "learning_rate": 5.9490054672091305e-06,
      "loss": 0.695,
      "step": 282
    },
    {
      "epoch": 1.4909810822701277,
      "grad_norm": 1.4092314752807444,
      "learning_rate": 5.918747589082853e-06,
      "loss": 0.6472,
      "step": 283
    },
    {
      "epoch": 1.4962604487461504,
      "grad_norm": 1.518575708392721,
      "learning_rate": 5.888454848801345e-06,
      "loss": 0.6623,
      "step": 284
    },
    {
      "epoch": 1.5015398152221735,
      "grad_norm": 1.4295896368916283,
      "learning_rate": 5.8581283958317995e-06,
      "loss": 0.7579,
      "step": 285
    },
    {
      "epoch": 1.5068191816981962,
      "grad_norm": 1.479897530210997,
      "learning_rate": 5.82776938092065e-06,
      "loss": 0.7334,
      "step": 286
    },
    {
      "epoch": 1.512098548174219,
      "grad_norm": 1.4366013380091691,
      "learning_rate": 5.797378956049905e-06,
      "loss": 0.6739,
      "step": 287
    },
    {
      "epoch": 1.517377914650242,
      "grad_norm": 1.4716566746195219,
      "learning_rate": 5.766958274393428e-06,
      "loss": 0.7233,
      "step": 288
    },
    {
      "epoch": 1.5226572811262649,
      "grad_norm": 1.3374013752311613,
      "learning_rate": 5.736508490273189e-06,
      "loss": 0.6999,
      "step": 289
    },
    {
      "epoch": 1.5279366476022878,
      "grad_norm": 1.404502862270622,
      "learning_rate": 5.706030759115458e-06,
      "loss": 0.6502,
      "step": 290
    },
    {
      "epoch": 1.5332160140783107,
      "grad_norm": 1.3895925622506242,
      "learning_rate": 5.675526237406965e-06,
      "loss": 0.6693,
      "step": 291
    },
    {
      "epoch": 1.5384953805543335,
      "grad_norm": 1.3933211625692163,
      "learning_rate": 5.644996082651018e-06,
      "loss": 0.6272,
      "step": 292
    },
    {
      "epoch": 1.5437747470303562,
      "grad_norm": 1.2462836635087724,
      "learning_rate": 5.614441453323571e-06,
      "loss": 0.6725,
      "step": 293
    },
    {
      "epoch": 1.5490541135063793,
      "grad_norm": 1.4996013016049565,
      "learning_rate": 5.583863508829281e-06,
      "loss": 0.6956,
      "step": 294
    },
    {
      "epoch": 1.554333479982402,
      "grad_norm": 1.3766256340590475,
      "learning_rate": 5.553263409457504e-06,
      "loss": 0.659,
      "step": 295
    },
    {
      "epoch": 1.5596128464584251,
      "grad_norm": 1.3350837109105465,
      "learning_rate": 5.522642316338268e-06,
      "loss": 0.6357,
      "step": 296
    },
    {
      "epoch": 1.5648922129344478,
      "grad_norm": 1.3570996604619927,
      "learning_rate": 5.492001391398214e-06,
      "loss": 0.6544,
      "step": 297
    },
    {
      "epoch": 1.5701715794104707,
      "grad_norm": 1.4608558691508997,
      "learning_rate": 5.46134179731651e-06,
      "loss": 0.6512,
      "step": 298
    },
    {
      "epoch": 1.5754509458864936,
      "grad_norm": 1.2494448543139998,
      "learning_rate": 5.430664697480731e-06,
      "loss": 0.5658,
      "step": 299
    },
    {
      "epoch": 1.5807303123625165,
      "grad_norm": 1.444693017380396,
      "learning_rate": 5.399971255942708e-06,
      "loss": 0.6901,
      "step": 300
    },
    {
      "epoch": 1.5860096788385394,
      "grad_norm": 1.4186391329903683,
      "learning_rate": 5.36926263737437e-06,
      "loss": 0.8807,
      "step": 301
    },
    {
      "epoch": 1.5912890453145623,
      "grad_norm": 1.29633534515009,
      "learning_rate": 5.338540007023538e-06,
      "loss": 0.6461,
      "step": 302
    },
    {
      "epoch": 1.5965684117905852,
      "grad_norm": 1.4448726879769416,
      "learning_rate": 5.3078045306697154e-06,
      "loss": 0.6523,
      "step": 303
    },
    {
      "epoch": 1.6018477782666078,
      "grad_norm": 1.266507195220378,
      "learning_rate": 5.27705737457985e-06,
      "loss": 0.6408,
      "step": 304
    },
    {
      "epoch": 1.607127144742631,
      "grad_norm": 1.3540583386343656,
      "learning_rate": 5.246299705464085e-06,
      "loss": 0.6488,
      "step": 305
    },
    {
      "epoch": 1.6124065112186536,
      "grad_norm": 1.343878144578292,
      "learning_rate": 5.2155326904314795e-06,
      "loss": 0.6031,
      "step": 306
    },
    {
      "epoch": 1.6176858776946768,
      "grad_norm": 1.390922633295502,
      "learning_rate": 5.184757496945726e-06,
      "loss": 0.6732,
      "step": 307
    },
    {
      "epoch": 1.6229652441706994,
      "grad_norm": 1.303700297184845,
      "learning_rate": 5.153975292780852e-06,
      "loss": 0.644,
      "step": 308
    },
    {
      "epoch": 1.6282446106467225,
      "grad_norm": 1.4719857684130002,
      "learning_rate": 5.123187245976912e-06,
      "loss": 0.6542,
      "step": 309
    },
    {
      "epoch": 1.6335239771227452,
      "grad_norm": 1.5316116004451763,
      "learning_rate": 5.09239452479565e-06,
      "loss": 0.6741,
      "step": 310
    },
    {
      "epoch": 1.6388033435987681,
      "grad_norm": 1.5058092447545324,
      "learning_rate": 5.061598297676192e-06,
      "loss": 0.6624,
      "step": 311
    },
    {
      "epoch": 1.644082710074791,
      "grad_norm": 1.2957852805869594,
      "learning_rate": 5.030799733190694e-06,
      "loss": 0.6866,
      "step": 312
    },
    {
      "epoch": 1.649362076550814,
      "grad_norm": 1.3465817125883073,
      "learning_rate": 5e-06,
      "loss": 0.665,
      "step": 313
    },
    {
      "epoch": 1.6546414430268368,
      "grad_norm": 1.2222436930506864,
      "learning_rate": 4.9692002668093075e-06,
      "loss": 0.5887,
      "step": 314
    },
    {
      "epoch": 1.6599208095028597,
      "grad_norm": 1.441331154425715,
      "learning_rate": 4.9384017023238085e-06,
      "loss": 0.673,
      "step": 315
    },
    {
      "epoch": 1.6652001759788826,
      "grad_norm": 1.3514338153223537,
      "learning_rate": 4.907605475204352e-06,
      "loss": 0.7095,
      "step": 316
    },
    {
      "epoch": 1.6704795424549053,
      "grad_norm": 1.4614586482457859,
      "learning_rate": 4.876812754023092e-06,
      "loss": 0.7205,
      "step": 317
    },
    {
      "epoch": 1.6757589089309284,
      "grad_norm": 1.3928056564895086,
      "learning_rate": 4.846024707219149e-06,
      "loss": 0.6358,
      "step": 318
    },
    {
      "epoch": 1.681038275406951,
      "grad_norm": 1.3113749307682454,
      "learning_rate": 4.815242503054277e-06,
      "loss": 0.6465,
      "step": 319
    },
    {
      "epoch": 1.6863176418829742,
      "grad_norm": 1.4316497180240197,
      "learning_rate": 4.784467309568524e-06,
      "loss": 0.6794,
      "step": 320
    },
    {
      "epoch": 1.6915970083589968,
      "grad_norm": 1.3763481895692722,
      "learning_rate": 4.753700294535916e-06,
      "loss": 0.7105,
      "step": 321
    },
    {
      "epoch": 1.69687637483502,
      "grad_norm": 1.3560535615138942,
      "learning_rate": 4.7229426254201504e-06,
      "loss": 0.6566,
      "step": 322
    },
    {
      "epoch": 1.7021557413110426,
      "grad_norm": 1.3113897207300194,
      "learning_rate": 4.692195469330286e-06,
      "loss": 0.753,
      "step": 323
    },
    {
      "epoch": 1.7074351077870655,
      "grad_norm": 1.2314416333529012,
      "learning_rate": 4.661459992976463e-06,
      "loss": 0.6087,
      "step": 324
    },
    {
      "epoch": 1.7127144742630884,
      "grad_norm": 1.357070932304121,
      "learning_rate": 4.630737362625631e-06,
      "loss": 0.678,
      "step": 325
    },
    {
      "epoch": 1.7179938407391113,
      "grad_norm": 1.3907841932602958,
      "learning_rate": 4.6000287440572925e-06,
      "loss": 0.6819,
      "step": 326
    },
    {
      "epoch": 1.7232732072151342,
      "grad_norm": 1.3821824046618116,
      "learning_rate": 4.569335302519271e-06,
      "loss": 0.6329,
      "step": 327
    },
    {
      "epoch": 1.7285525736911571,
      "grad_norm": 1.4473432204015564,
      "learning_rate": 4.53865820268349e-06,
      "loss": 0.7144,
      "step": 328
    },
    {
      "epoch": 1.73383194016718,
      "grad_norm": 1.4376742031177947,
      "learning_rate": 4.507998608601787e-06,
      "loss": 0.6086,
      "step": 329
    },
    {
      "epoch": 1.7391113066432027,
      "grad_norm": 1.2849628847256984,
      "learning_rate": 4.477357683661734e-06,
      "loss": 0.6101,
      "step": 330
    },
    {
      "epoch": 1.7443906731192258,
      "grad_norm": 1.3554057763386258,
      "learning_rate": 4.446736590542497e-06,
      "loss": 0.5833,
      "step": 331
    },
    {
      "epoch": 1.7496700395952485,
      "grad_norm": 1.3213798453951964,
      "learning_rate": 4.41613649117072e-06,
      "loss": 0.6859,
      "step": 332
    },
    {
      "epoch": 1.7549494060712716,
      "grad_norm": 1.319837554365992,
      "learning_rate": 4.3855585466764305e-06,
      "loss": 0.655,
      "step": 333
    },
    {
      "epoch": 1.7602287725472943,
      "grad_norm": 1.3686144434660683,
      "learning_rate": 4.355003917348985e-06,
      "loss": 0.6474,
      "step": 334
    },
    {
      "epoch": 1.7655081390233172,
      "grad_norm": 1.3793264604803168,
      "learning_rate": 4.324473762593037e-06,
      "loss": 0.5843,
      "step": 335
    },
    {
      "epoch": 1.77078750549934,
      "grad_norm": 1.3441234479337094,
      "learning_rate": 4.293969240884545e-06,
      "loss": 0.5984,
      "step": 336
    },
    {
      "epoch": 1.776066871975363,
      "grad_norm": 1.237308449464165,
      "learning_rate": 4.263491509726812e-06,
      "loss": 0.6477,
      "step": 337
    },
    {
      "epoch": 1.7813462384513858,
      "grad_norm": 1.3355474025021052,
      "learning_rate": 4.233041725606573e-06,
      "loss": 0.636,
      "step": 338
    },
    {
      "epoch": 1.7866256049274087,
      "grad_norm": 1.3458947073703338,
      "learning_rate": 4.202621043950096e-06,
      "loss": 0.6152,
      "step": 339
    },
    {
      "epoch": 1.7919049714034316,
      "grad_norm": 1.3724772310082562,
      "learning_rate": 4.17223061907935e-06,
      "loss": 0.6669,
      "step": 340
    },
    {
      "epoch": 1.7971843378794543,
      "grad_norm": 1.3927314177261432,
      "learning_rate": 4.141871604168201e-06,
      "loss": 0.6871,
      "step": 341
    },
    {
      "epoch": 1.8024637043554774,
      "grad_norm": 1.425898039985732,
      "learning_rate": 4.111545151198657e-06,
      "loss": 0.6479,
      "step": 342
    },
    {
      "epoch": 1.8077430708315,
      "grad_norm": 1.4786764449830878,
      "learning_rate": 4.081252410917148e-06,
      "loss": 0.6758,
      "step": 343
    },
    {
      "epoch": 1.8130224373075232,
      "grad_norm": 1.5596067837918601,
      "learning_rate": 4.050994532790871e-06,
      "loss": 0.6792,
      "step": 344
    },
    {
      "epoch": 1.818301803783546,
      "grad_norm": 1.3295616520702254,
      "learning_rate": 4.020772664964166e-06,
      "loss": 0.6447,
      "step": 345
    },
    {
      "epoch": 1.823581170259569,
      "grad_norm": 1.356711049558864,
      "learning_rate": 3.99058795421495e-06,
      "loss": 0.6988,
      "step": 346
    },
    {
      "epoch": 1.8288605367355917,
      "grad_norm": 1.3459848599920097,
      "learning_rate": 3.960441545911205e-06,
      "loss": 0.6793,
      "step": 347
    },
    {
      "epoch": 1.8341399032116146,
      "grad_norm": 1.2796136680768018,
      "learning_rate": 3.930334583967514e-06,
      "loss": 0.6404,
      "step": 348
    },
    {
      "epoch": 1.8394192696876375,
      "grad_norm": 1.430373997763793,
      "learning_rate": 3.9002682108016585e-06,
      "loss": 0.7089,
      "step": 349
    },
    {
      "epoch": 1.8446986361636604,
      "grad_norm": 1.443868769930965,
      "learning_rate": 3.870243567291263e-06,
      "loss": 0.6088,
      "step": 350
    },
    {
      "epoch": 1.8499780026396833,
      "grad_norm": 1.3354422816955691,
      "learning_rate": 3.840261792730511e-06,
      "loss": 0.6469,
      "step": 351
    },
    {
      "epoch": 1.8552573691157062,
      "grad_norm": 1.5007921332211551,
      "learning_rate": 3.8103240247869077e-06,
      "loss": 0.6917,
      "step": 352
    },
    {
      "epoch": 1.860536735591729,
      "grad_norm": 1.4369902254697013,
      "learning_rate": 3.7804313994581143e-06,
      "loss": 0.6745,
      "step": 353
    },
    {
      "epoch": 1.8658161020677517,
      "grad_norm": 1.2954980945001948,
      "learning_rate": 3.7505850510288455e-06,
      "loss": 0.6402,
      "step": 354
    },
    {
      "epoch": 1.8710954685437748,
      "grad_norm": 1.3479250337805435,
      "learning_rate": 3.720786112027822e-06,
      "loss": 0.6281,
      "step": 355
    },
    {
      "epoch": 1.8763748350197975,
      "grad_norm": 1.3528354522984527,
      "learning_rate": 3.6910357131847986e-06,
      "loss": 0.6253,
      "step": 356
    },
    {
      "epoch": 1.8816542014958206,
      "grad_norm": 1.2410984546080153,
      "learning_rate": 3.6613349833876607e-06,
      "loss": 0.5576,
      "step": 357
    },
    {
      "epoch": 1.8869335679718433,
      "grad_norm": 1.1827340907861352,
      "learning_rate": 3.6316850496395863e-06,
      "loss": 0.5936,
      "step": 358
    },
    {
      "epoch": 1.8922129344478662,
      "grad_norm": 1.2980573086194132,
      "learning_rate": 3.602087037016281e-06,
      "loss": 0.8214,
      "step": 359
    },
    {
      "epoch": 1.897492300923889,
      "grad_norm": 1.4315757982637016,
      "learning_rate": 3.5725420686232903e-06,
      "loss": 0.6522,
      "step": 360
    },
    {
      "epoch": 1.902771667399912,
      "grad_norm": 1.4091204255580805,
      "learning_rate": 3.5430512655533774e-06,
      "loss": 0.5795,
      "step": 361
    },
    {
      "epoch": 1.9080510338759349,
      "grad_norm": 1.3444722372985694,
      "learning_rate": 3.513615746843987e-06,
      "loss": 0.7231,
      "step": 362
    },
    {
      "epoch": 1.9133304003519578,
      "grad_norm": 1.5246355682127404,
      "learning_rate": 3.484236629434783e-06,
      "loss": 0.6603,
      "step": 363
    },
    {
      "epoch": 1.9186097668279807,
      "grad_norm": 1.415464008217028,
      "learning_rate": 3.4549150281252635e-06,
      "loss": 0.6775,
      "step": 364
    },
    {
      "epoch": 1.9238891333040036,
      "grad_norm": 1.3192883237623132,
      "learning_rate": 3.4256520555324613e-06,
      "loss": 0.6316,
      "step": 365
    },
    {
      "epoch": 1.9291684997800265,
      "grad_norm": 1.428352611949904,
      "learning_rate": 3.3964488220487252e-06,
      "loss": 0.6544,
      "step": 366
    },
    {
      "epoch": 1.9344478662560491,
      "grad_norm": 1.5172404820075067,
      "learning_rate": 3.3673064357995844e-06,
      "loss": 0.5938,
      "step": 367
    },
    {
      "epoch": 1.9397272327320723,
      "grad_norm": 1.3819196499385575,
      "learning_rate": 3.3382260026017027e-06,
      "loss": 0.658,
      "step": 368
    },
    {
      "epoch": 1.945006599208095,
      "grad_norm": 1.2219098246955071,
      "learning_rate": 3.3092086259209144e-06,
      "loss": 0.6436,
      "step": 369
    },
    {
      "epoch": 1.950285965684118,
      "grad_norm": 1.3112983916512726,
      "learning_rate": 3.2802554068303595e-06,
      "loss": 0.6277,
      "step": 370
    },
    {
      "epoch": 1.9555653321601407,
      "grad_norm": 1.3181733253990144,
      "learning_rate": 3.2513674439686945e-06,
      "loss": 0.6051,
      "step": 371
    },
    {
      "epoch": 1.9608446986361636,
      "grad_norm": 1.3950428699097805,
      "learning_rate": 3.22254583349841e-06,
      "loss": 0.6047,
      "step": 372
    },
    {
      "epoch": 1.9661240651121865,
      "grad_norm": 1.401575375536184,
      "learning_rate": 3.1937916690642356e-06,
      "loss": 0.7536,
      "step": 373
    },
    {
      "epoch": 1.9714034315882094,
      "grad_norm": 1.4675958168712424,
      "learning_rate": 3.16510604175164e-06,
      "loss": 0.6029,
      "step": 374
    },
    {
      "epoch": 1.9766827980642323,
      "grad_norm": 1.2821606191811943,
      "learning_rate": 3.13649004004543e-06,
      "loss": 0.5921,
      "step": 375
    },
    {
      "epoch": 1.9819621645402552,
      "grad_norm": 1.352642460803231,
      "learning_rate": 3.107944749788449e-06,
      "loss": 0.6541,
      "step": 376
    },
    {
      "epoch": 1.987241531016278,
      "grad_norm": 1.4500846871984014,
      "learning_rate": 3.0794712541403716e-06,
      "loss": 0.5958,
      "step": 377
    },
    {
      "epoch": 1.9925208974923008,
      "grad_norm": 1.344043810326557,
      "learning_rate": 3.0510706335366034e-06,
      "loss": 0.678,
      "step": 378
    },
    {
      "epoch": 1.9978002639683239,
      "grad_norm": 1.3311569208901686,
      "learning_rate": 3.0227439656472878e-06,
      "loss": 0.5696,
      "step": 379
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.3311569208901686,
      "learning_rate": 2.9944923253364066e-06,
      "loss": 0.6124,
      "step": 380
    },
    {
      "epoch": 2.0052793664760227,
      "grad_norm": 2.2453037842894434,
      "learning_rate": 2.966316784621e-06,
      "loss": 0.5021,
      "step": 381
    },
    {
      "epoch": 2.010558732952046,
      "grad_norm": 1.448400627279987,
      "learning_rate": 2.9382184126304834e-06,
      "loss": 0.4754,
      "step": 382
    },
    {
      "epoch": 2.0158380994280685,
      "grad_norm": 1.3928060588224582,
      "learning_rate": 2.910198275566085e-06,
      "loss": 0.5552,
      "step": 383
    },
    {
      "epoch": 2.0211174659040916,
      "grad_norm": 1.3053890423029602,
      "learning_rate": 2.8822574366603804e-06,
      "loss": 0.5096,
      "step": 384
    },
    {
      "epoch": 2.0263968323801143,
      "grad_norm": 1.312006902737542,
      "learning_rate": 2.8543969561369556e-06,
      "loss": 0.4384,
      "step": 385
    },
    {
      "epoch": 2.0316761988561374,
      "grad_norm": 1.3424294511811377,
      "learning_rate": 2.8266178911701757e-06,
      "loss": 0.4524,
      "step": 386
    },
    {
      "epoch": 2.03695556533216,
      "grad_norm": 1.353115219108087,
      "learning_rate": 2.798921295845064e-06,
      "loss": 0.5847,
      "step": 387
    },
    {
      "epoch": 2.042234931808183,
      "grad_norm": 1.359151667072332,
      "learning_rate": 2.771308221117309e-06,
      "loss": 0.5274,
      "step": 388
    },
    {
      "epoch": 2.047514298284206,
      "grad_norm": 1.1804464420852299,
      "learning_rate": 2.743779714773386e-06,
      "loss": 0.4868,
      "step": 389
    },
    {
      "epoch": 2.052793664760229,
      "grad_norm": 1.2257778269575734,
      "learning_rate": 2.7163368213907975e-06,
      "loss": 0.4974,
      "step": 390
    },
    {
      "epoch": 2.0580730312362516,
      "grad_norm": 1.3592658717787198,
      "learning_rate": 2.6889805822984348e-06,
      "loss": 0.429,
      "step": 391
    },
    {
      "epoch": 2.0633523977122747,
      "grad_norm": 1.4335615689021757,
      "learning_rate": 2.6617120355370667e-06,
      "loss": 0.4936,
      "step": 392
    },
    {
      "epoch": 2.0686317641882974,
      "grad_norm": 1.4971943650916089,
      "learning_rate": 2.6345322158199503e-06,
      "loss": 0.4891,
      "step": 393
    },
    {
      "epoch": 2.07391113066432,
      "grad_norm": 1.3630600653303417,
      "learning_rate": 2.607442154493568e-06,
      "loss": 0.4339,
      "step": 394
    },
    {
      "epoch": 2.079190497140343,
      "grad_norm": 1.3452492502199729,
      "learning_rate": 2.5804428794984926e-06,
      "loss": 0.4788,
      "step": 395
    },
    {
      "epoch": 2.084469863616366,
      "grad_norm": 1.3717266175336726,
      "learning_rate": 2.5535354153303827e-06,
      "loss": 0.4589,
      "step": 396
    },
    {
      "epoch": 2.089749230092389,
      "grad_norm": 1.4172021390970797,
      "learning_rate": 2.526720783001107e-06,
      "loss": 0.474,
      "step": 397
    },
    {
      "epoch": 2.0950285965684117,
      "grad_norm": 1.4012306931647633,
      "learning_rate": 2.5000000000000015e-06,
      "loss": 0.4703,
      "step": 398
    },
    {
      "epoch": 2.100307963044435,
      "grad_norm": 1.3223744927738885,
      "learning_rate": 2.473374080255261e-06,
      "loss": 0.4927,
      "step": 399
    },
    {
      "epoch": 2.1055873295204575,
      "grad_norm": 1.4340111903752237,
      "learning_rate": 2.4468440340954664e-06,
      "loss": 0.4911,
      "step": 400
    },
    {
      "epoch": 2.1108666959964806,
      "grad_norm": 1.4908200109241228,
      "learning_rate": 2.4204108682112443e-06,
      "loss": 0.4923,
      "step": 401
    },
    {
      "epoch": 2.1161460624725033,
      "grad_norm": 1.4498803710381125,
      "learning_rate": 2.3940755856170744e-06,
      "loss": 0.5264,
      "step": 402
    },
    {
      "epoch": 2.1214254289485264,
      "grad_norm": 1.5579303480326079,
      "learning_rate": 2.3678391856132203e-06,
      "loss": 0.4671,
      "step": 403
    },
    {
      "epoch": 2.126704795424549,
      "grad_norm": 1.3682695560666365,
      "learning_rate": 2.341702663747819e-06,
      "loss": 0.4791,
      "step": 404
    },
    {
      "epoch": 2.131984161900572,
      "grad_norm": 1.3740119474315011,
      "learning_rate": 2.3156670117790996e-06,
      "loss": 0.5081,
      "step": 405
    },
    {
      "epoch": 2.137263528376595,
      "grad_norm": 1.4378876285894175,
      "learning_rate": 2.289733217637753e-06,
      "loss": 0.6887,
      "step": 406
    },
    {
      "epoch": 2.1425428948526175,
      "grad_norm": 1.3945669735187922,
      "learning_rate": 2.2639022653894443e-06,
      "loss": 0.4747,
      "step": 407
    },
    {
      "epoch": 2.1478222613286406,
      "grad_norm": 1.5102801606024971,
      "learning_rate": 2.238175135197471e-06,
      "loss": 0.4772,
      "step": 408
    },
    {
      "epoch": 2.1531016278046633,
      "grad_norm": 1.343039872751995,
      "learning_rate": 2.2125528032855727e-06,
      "loss": 0.4662,
      "step": 409
    },
    {
      "epoch": 2.1583809942806864,
      "grad_norm": 1.7777099063240305,
      "learning_rate": 2.1870362419008844e-06,
      "loss": 0.4426,
      "step": 410
    },
    {
      "epoch": 2.163660360756709,
      "grad_norm": 1.3840206283915173,
      "learning_rate": 2.1616264192770496e-06,
      "loss": 0.451,
      "step": 411
    },
    {
      "epoch": 2.168939727232732,
      "grad_norm": 1.2930950541912372,
      "learning_rate": 2.136324299597474e-06,
      "loss": 0.523,
      "step": 412
    },
    {
      "epoch": 2.174219093708755,
      "grad_norm": 1.4431983442764567,
      "learning_rate": 2.1111308429587446e-06,
      "loss": 0.4051,
      "step": 413
    },
    {
      "epoch": 2.179498460184778,
      "grad_norm": 1.2550043379116107,
      "learning_rate": 2.0860470053341957e-06,
      "loss": 0.499,
      "step": 414
    },
    {
      "epoch": 2.1847778266608007,
      "grad_norm": 1.4359151954027813,
      "learning_rate": 2.061073738537635e-06,
      "loss": 0.4591,
      "step": 415
    },
    {
      "epoch": 2.190057193136824,
      "grad_norm": 1.3446535561143784,
      "learning_rate": 2.0362119901872262e-06,
      "loss": 0.4076,
      "step": 416
    },
    {
      "epoch": 2.1953365596128465,
      "grad_norm": 1.2459969483698727,
      "learning_rate": 2.011462703669532e-06,
      "loss": 0.4957,
      "step": 417
    },
    {
      "epoch": 2.200615926088869,
      "grad_norm": 1.2992424145598012,
      "learning_rate": 1.9868268181037186e-06,
      "loss": 0.463,
      "step": 418
    },
    {
      "epoch": 2.2058952925648923,
      "grad_norm": 1.4602888158466671,
      "learning_rate": 1.9623052683059164e-06,
      "loss": 0.4719,
      "step": 419
    },
    {
      "epoch": 2.211174659040915,
      "grad_norm": 1.3759597249907445,
      "learning_rate": 1.937898984753751e-06,
      "loss": 0.4951,
      "step": 420
    },
    {
      "epoch": 2.216454025516938,
      "grad_norm": 1.412150518484592,
      "learning_rate": 1.913608893551036e-06,
      "loss": 0.52,
      "step": 421
    },
    {
      "epoch": 2.2217333919929607,
      "grad_norm": 1.485490691650101,
      "learning_rate": 1.8894359163926312e-06,
      "loss": 0.444,
      "step": 422
    },
    {
      "epoch": 2.227012758468984,
      "grad_norm": 1.3670795340613098,
      "learning_rate": 1.865380970529469e-06,
      "loss": 0.5399,
      "step": 423
    },
    {
      "epoch": 2.2322921249450065,
      "grad_norm": 1.3525729496527066,
      "learning_rate": 1.8414449687337467e-06,
      "loss": 0.5159,
      "step": 424
    },
    {
      "epoch": 2.2375714914210296,
      "grad_norm": 1.4059006780837846,
      "learning_rate": 1.8176288192642944e-06,
      "loss": 0.5099,
      "step": 425
    },
    {
      "epoch": 2.2428508578970523,
      "grad_norm": 1.2761502912826002,
      "learning_rate": 1.7939334258321094e-06,
      "loss": 0.4717,
      "step": 426
    },
    {
      "epoch": 2.2481302243730754,
      "grad_norm": 1.4040503918498035,
      "learning_rate": 1.7703596875660645e-06,
      "loss": 0.4469,
      "step": 427
    },
    {
      "epoch": 2.253409590849098,
      "grad_norm": 1.2908543753758535,
      "learning_rate": 1.746908498978791e-06,
      "loss": 0.485,
      "step": 428
    },
    {
      "epoch": 2.2586889573251208,
      "grad_norm": 1.3759893346792271,
      "learning_rate": 1.7235807499327335e-06,
      "loss": 0.5101,
      "step": 429
    },
    {
      "epoch": 2.263968323801144,
      "grad_norm": 1.4728227490351313,
      "learning_rate": 1.7003773256063882e-06,
      "loss": 0.5347,
      "step": 430
    },
    {
      "epoch": 2.2692476902771666,
      "grad_norm": 1.489969037850193,
      "learning_rate": 1.6772991064607113e-06,
      "loss": 0.4467,
      "step": 431
    },
    {
      "epoch": 2.2745270567531897,
      "grad_norm": 1.417700490467943,
      "learning_rate": 1.6543469682057105e-06,
      "loss": 0.481,
      "step": 432
    },
    {
      "epoch": 2.2798064232292123,
      "grad_norm": 1.386346425394359,
      "learning_rate": 1.6315217817672142e-06,
      "loss": 0.4621,
      "step": 433
    },
    {
      "epoch": 2.2850857897052355,
      "grad_norm": 1.2589332584059243,
      "learning_rate": 1.60882441325383e-06,
      "loss": 0.5175,
      "step": 434
    },
    {
      "epoch": 2.290365156181258,
      "grad_norm": 1.3880552404176263,
      "learning_rate": 1.5862557239240729e-06,
      "loss": 0.4387,
      "step": 435
    },
    {
      "epoch": 2.2956445226572813,
      "grad_norm": 1.360835274455909,
      "learning_rate": 1.5638165701536866e-06,
      "loss": 0.5115,
      "step": 436
    },
    {
      "epoch": 2.300923889133304,
      "grad_norm": 1.3843299657391916,
      "learning_rate": 1.54150780340315e-06,
      "loss": 0.4899,
      "step": 437
    },
    {
      "epoch": 2.306203255609327,
      "grad_norm": 1.3835648119835473,
      "learning_rate": 1.5193302701853674e-06,
      "loss": 0.4664,
      "step": 438
    },
    {
      "epoch": 2.3114826220853497,
      "grad_norm": 1.4640561341524838,
      "learning_rate": 1.4972848120335453e-06,
      "loss": 0.4609,
      "step": 439
    },
    {
      "epoch": 2.316761988561373,
      "grad_norm": 1.421258969771172,
      "learning_rate": 1.475372265469265e-06,
      "loss": 0.4763,
      "step": 440
    },
    {
      "epoch": 2.3220413550373955,
      "grad_norm": 1.2751966894937146,
      "learning_rate": 1.453593461970733e-06,
      "loss": 0.4701,
      "step": 441
    },
    {
      "epoch": 2.327320721513418,
      "grad_norm": 1.340345062295216,
      "learning_rate": 1.4319492279412388e-06,
      "loss": 0.4832,
      "step": 442
    },
    {
      "epoch": 2.3326000879894413,
      "grad_norm": 1.4159387316202012,
      "learning_rate": 1.410440384677791e-06,
      "loss": 0.42,
      "step": 443
    },
    {
      "epoch": 2.337879454465464,
      "grad_norm": 1.2648065651654534,
      "learning_rate": 1.389067748339954e-06,
      "loss": 0.4404,
      "step": 444
    },
    {
      "epoch": 2.343158820941487,
      "grad_norm": 1.3711182773880273,
      "learning_rate": 1.3678321299188802e-06,
      "loss": 0.4388,
      "step": 445
    },
    {
      "epoch": 2.3484381874175098,
      "grad_norm": 1.3906995330557852,
      "learning_rate": 1.3467343352065349e-06,
      "loss": 0.5312,
      "step": 446
    },
    {
      "epoch": 2.353717553893533,
      "grad_norm": 1.397658739943819,
      "learning_rate": 1.3257751647651223e-06,
      "loss": 0.4675,
      "step": 447
    },
    {
      "epoch": 2.3589969203695555,
      "grad_norm": 1.4627906940091926,
      "learning_rate": 1.3049554138967052e-06,
      "loss": 0.4395,
      "step": 448
    },
    {
      "epoch": 2.3642762868455787,
      "grad_norm": 1.381779631997442,
      "learning_rate": 1.2842758726130283e-06,
      "loss": 0.569,
      "step": 449
    },
    {
      "epoch": 2.3695556533216013,
      "grad_norm": 1.4402592673817487,
      "learning_rate": 1.2637373256055445e-06,
      "loss": 0.4903,
      "step": 450
    },
    {
      "epoch": 2.3748350197976245,
      "grad_norm": 1.3333412823689215,
      "learning_rate": 1.2433405522156334e-06,
      "loss": 0.4824,
      "step": 451
    },
    {
      "epoch": 2.380114386273647,
      "grad_norm": 1.4106276931723192,
      "learning_rate": 1.2230863264050308e-06,
      "loss": 0.487,
      "step": 452
    },
    {
      "epoch": 2.3853937527496702,
      "grad_norm": 1.3557673199870695,
      "learning_rate": 1.202975416726464e-06,
      "loss": 0.5265,
      "step": 453
    },
    {
      "epoch": 2.390673119225693,
      "grad_norm": 1.4343260095491823,
      "learning_rate": 1.1830085862944851e-06,
      "loss": 0.449,
      "step": 454
    },
    {
      "epoch": 2.3959524857017156,
      "grad_norm": 1.446767986226991,
      "learning_rate": 1.163186592756515e-06,
      "loss": 0.4699,
      "step": 455
    },
    {
      "epoch": 2.4012318521777387,
      "grad_norm": 1.424117946851896,
      "learning_rate": 1.1435101882640964e-06,
      "loss": 0.4514,
      "step": 456
    },
    {
      "epoch": 2.4065112186537614,
      "grad_norm": 1.5365862656275142,
      "learning_rate": 1.1239801194443507e-06,
      "loss": 0.4373,
      "step": 457
    },
    {
      "epoch": 2.4117905851297845,
      "grad_norm": 1.2648145260275343,
      "learning_rate": 1.1045971273716476e-06,
      "loss": 0.4329,
      "step": 458
    },
    {
      "epoch": 2.417069951605807,
      "grad_norm": 1.3311965815866447,
      "learning_rate": 1.085361947539486e-06,
      "loss": 0.4769,
      "step": 459
    },
    {
      "epoch": 2.4223493180818303,
      "grad_norm": 1.3975266216041633,
      "learning_rate": 1.066275309832584e-06,
      "loss": 0.472,
      "step": 460
    },
    {
      "epoch": 2.427628684557853,
      "grad_norm": 1.3252996893653324,
      "learning_rate": 1.0473379384991833e-06,
      "loss": 0.4243,
      "step": 461
    },
    {
      "epoch": 2.432908051033876,
      "grad_norm": 1.4139994351082152,
      "learning_rate": 1.02855055212357e-06,
      "loss": 0.4785,
      "step": 462
    },
    {
      "epoch": 2.4381874175098988,
      "grad_norm": 1.3372117034643396,
      "learning_rate": 1.0099138635988026e-06,
      "loss": 0.4215,
      "step": 463
    },
    {
      "epoch": 2.443466783985922,
      "grad_norm": 1.3606372944047547,
      "learning_rate": 9.91428580099667e-07,
      "loss": 0.4413,
      "step": 464
    },
    {
      "epoch": 2.4487461504619445,
      "grad_norm": 1.318507119449003,
      "learning_rate": 9.73095403055837e-07,
      "loss": 0.415,
      "step": 465
    },
    {
      "epoch": 2.4540255169379677,
      "grad_norm": 1.2123750888837692,
      "learning_rate": 9.549150281252633e-07,
      "loss": 0.4886,
      "step": 466
    },
    {
      "epoch": 2.4593048834139903,
      "grad_norm": 1.3528666735660853,
      "learning_rate": 9.368881451677725e-07,
      "loss": 0.4838,
      "step": 467
    },
    {
      "epoch": 2.464584249890013,
      "grad_norm": 1.3418881482008247,
      "learning_rate": 9.190154382188921e-07,
      "loss": 0.4466,
      "step": 468
    },
    {
      "epoch": 2.469863616366036,
      "grad_norm": 1.3296751447001665,
      "learning_rate": 9.01297585463895e-07,
      "loss": 0.4595,
      "step": 469
    },
    {
      "epoch": 2.475142982842059,
      "grad_norm": 1.4089808402301305,
      "learning_rate": 8.837352592120646e-07,
      "loss": 0.4365,
      "step": 470
    },
    {
      "epoch": 2.480422349318082,
      "grad_norm": 1.402157984134382,
      "learning_rate": 8.663291258711831e-07,
      "loss": 0.4776,
      "step": 471
    },
    {
      "epoch": 2.4857017157941046,
      "grad_norm": 1.334493882835527,
      "learning_rate": 8.490798459222477e-07,
      "loss": 0.446,
      "step": 472
    },
    {
      "epoch": 2.4909810822701277,
      "grad_norm": 1.4469360566334513,
      "learning_rate": 8.31988073894403e-07,
      "loss": 0.5585,
      "step": 473
    },
    {
      "epoch": 2.4962604487461504,
      "grad_norm": 1.3547614775330397,
      "learning_rate": 8.150544583401116e-07,
      "loss": 0.4951,
      "step": 474
    },
    {
      "epoch": 2.5015398152221735,
      "grad_norm": 1.4317273864472844,
      "learning_rate": 7.98279641810537e-07,
      "loss": 0.4658,
      "step": 475
    },
    {
      "epoch": 2.506819181698196,
      "grad_norm": 1.3305013073280645,
      "learning_rate": 7.816642608311692e-07,
      "loss": 0.5777,
      "step": 476
    },
    {
      "epoch": 2.512098548174219,
      "grad_norm": 1.3136690941260454,
      "learning_rate": 7.652089458776651e-07,
      "loss": 0.499,
      "step": 477
    },
    {
      "epoch": 2.517377914650242,
      "grad_norm": 1.3874569359917572,
      "learning_rate": 7.489143213519301e-07,
      "loss": 0.5347,
      "step": 478
    },
    {
      "epoch": 2.522657281126265,
      "grad_norm": 1.447251018353361,
      "learning_rate": 7.327810055584211e-07,
      "loss": 0.435,
      "step": 479
    },
    {
      "epoch": 2.5279366476022878,
      "grad_norm": 1.3496149617623217,
      "learning_rate": 7.168096106806871e-07,
      "loss": 0.4171,
      "step": 480
    },
    {
      "epoch": 2.5332160140783104,
      "grad_norm": 1.249564521876932,
      "learning_rate": 7.010007427581378e-07,
      "loss": 0.4364,
      "step": 481
    },
    {
      "epoch": 2.5384953805543335,
      "grad_norm": 1.16664480296305,
      "learning_rate": 6.853550016630517e-07,
      "loss": 0.4704,
      "step": 482
    },
    {
      "epoch": 2.543774747030356,
      "grad_norm": 1.360240021411605,
      "learning_rate": 6.698729810778065e-07,
      "loss": 0.4452,
      "step": 483
    },
    {
      "epoch": 2.5490541135063793,
      "grad_norm": 1.342403768766378,
      "learning_rate": 6.545552684723583e-07,
      "loss": 0.4693,
      "step": 484
    },
    {
      "epoch": 2.554333479982402,
      "grad_norm": 1.3325018963351474,
      "learning_rate": 6.394024450819458e-07,
      "loss": 0.6651,
      "step": 485
    },
    {
      "epoch": 2.559612846458425,
      "grad_norm": 1.3913165441700324,
      "learning_rate": 6.244150858850368e-07,
      "loss": 0.4975,
      "step": 486
    },
    {
      "epoch": 2.564892212934448,
      "grad_norm": 1.2628490579653824,
      "learning_rate": 6.095937595815104e-07,
      "loss": 0.492,
      "step": 487
    },
    {
      "epoch": 2.570171579410471,
      "grad_norm": 1.2910442047354849,
      "learning_rate": 5.949390285710777e-07,
      "loss": 0.4534,
      "step": 488
    },
    {
      "epoch": 2.5754509458864936,
      "grad_norm": 1.3249433260471921,
      "learning_rate": 5.804514489319402e-07,
      "loss": 0.487,
      "step": 489
    },
    {
      "epoch": 2.5807303123625163,
      "grad_norm": 1.4072341388559009,
      "learning_rate": 5.661315703996905e-07,
      "loss": 0.4675,
      "step": 490
    },
    {
      "epoch": 2.5860096788385394,
      "grad_norm": 1.4015735453825087,
      "learning_rate": 5.519799363464523e-07,
      "loss": 0.4845,
      "step": 491
    },
    {
      "epoch": 2.5912890453145625,
      "grad_norm": 1.4217891239143823,
      "learning_rate": 5.379970837602611e-07,
      "loss": 0.4998,
      "step": 492
    },
    {
      "epoch": 2.596568411790585,
      "grad_norm": 1.3648246182499375,
      "learning_rate": 5.241835432246888e-07,
      "loss": 0.5176,
      "step": 493
    },
    {
      "epoch": 2.601847778266608,
      "grad_norm": 1.414958969535076,
      "learning_rate": 5.105398388987098e-07,
      "loss": 0.4967,
      "step": 494
    },
    {
      "epoch": 2.607127144742631,
      "grad_norm": 1.3790275298806813,
      "learning_rate": 4.970664884968135e-07,
      "loss": 0.4526,
      "step": 495
    },
    {
      "epoch": 2.6124065112186536,
      "grad_norm": 1.4260512881673313,
      "learning_rate": 4.837640032693558e-07,
      "loss": 0.4988,
      "step": 496
    },
    {
      "epoch": 2.6176858776946768,
      "grad_norm": 1.4375522094160005,
      "learning_rate": 4.7063288798316397e-07,
      "loss": 0.5034,
      "step": 497
    },
    {
      "epoch": 2.6229652441706994,
      "grad_norm": 1.2795249845130867,
      "learning_rate": 4.576736409023813e-07,
      "loss": 0.4697,
      "step": 498
    },
    {
      "epoch": 2.6282446106467225,
      "grad_norm": 1.341408752696913,
      "learning_rate": 4.448867537695578e-07,
      "loss": 0.4577,
      "step": 499
    },
    {
      "epoch": 2.633523977122745,
      "grad_norm": 1.388819232620493,
      "learning_rate": 4.322727117869951e-07,
      "loss": 0.4578,
      "step": 500
    },
    {
      "epoch": 2.6388033435987683,
      "grad_norm": 1.4259575315112532,
      "learning_rate": 4.198319935983325e-07,
      "loss": 0.432,
      "step": 501
    },
    {
      "epoch": 2.644082710074791,
      "grad_norm": 1.3388679638482945,
      "learning_rate": 4.0756507127038494e-07,
      "loss": 0.4297,
      "step": 502
    },
    {
      "epoch": 2.6493620765508137,
      "grad_norm": 1.343061176539468,
      "learning_rate": 3.9547241027523164e-07,
      "loss": 0.4731,
      "step": 503
    },
    {
      "epoch": 2.654641443026837,
      "grad_norm": 1.3358210629083995,
      "learning_rate": 3.8355446947255293e-07,
      "loss": 0.3901,
      "step": 504
    },
    {
      "epoch": 2.65992080950286,
      "grad_norm": 1.2293751714391306,
      "learning_rate": 3.71811701092219e-07,
      "loss": 0.4707,
      "step": 505
    },
    {
      "epoch": 2.6652001759788826,
      "grad_norm": 1.3129862851940244,
      "learning_rate": 3.602445507171276e-07,
      "loss": 0.4352,
      "step": 506
    },
    {
      "epoch": 2.6704795424549053,
      "grad_norm": 1.4034927380523827,
      "learning_rate": 3.488534572662994e-07,
      "loss": 0.4641,
      "step": 507
    },
    {
      "epoch": 2.6757589089309284,
      "grad_norm": 1.2489349783536317,
      "learning_rate": 3.3763885297822153e-07,
      "loss": 0.4681,
      "step": 508
    },
    {
      "epoch": 2.681038275406951,
      "grad_norm": 1.338257980632932,
      "learning_rate": 3.266011633944477e-07,
      "loss": 0.4466,
      "step": 509
    },
    {
      "epoch": 2.686317641882974,
      "grad_norm": 1.340765808641228,
      "learning_rate": 3.1574080734344757e-07,
      "loss": 0.4427,
      "step": 510
    },
    {
      "epoch": 2.691597008358997,
      "grad_norm": 1.3488826792679693,
      "learning_rate": 3.0505819692471797e-07,
      "loss": 0.4425,
      "step": 511
    },
    {
      "epoch": 2.69687637483502,
      "grad_norm": 1.2448047137351241,
      "learning_rate": 2.9455373749314285e-07,
      "loss": 0.5045,
      "step": 512
    },
    {
      "epoch": 2.7021557413110426,
      "grad_norm": 1.327982717505523,
      "learning_rate": 2.842278276436128e-07,
      "loss": 0.4434,
      "step": 513
    },
    {
      "epoch": 2.7074351077870658,
      "grad_norm": 1.3317380787717712,
      "learning_rate": 2.7408085919590265e-07,
      "loss": 0.4685,
      "step": 514
    },
    {
      "epoch": 2.7127144742630884,
      "grad_norm": 1.418889669781179,
      "learning_rate": 2.6411321717979886e-07,
      "loss": 0.4459,
      "step": 515
    },
    {
      "epoch": 2.717993840739111,
      "grad_norm": 1.4212898616431393,
      "learning_rate": 2.5432527982049424e-07,
      "loss": 0.4436,
      "step": 516
    },
    {
      "epoch": 2.723273207215134,
      "grad_norm": 1.372505212467702,
      "learning_rate": 2.447174185242324e-07,
      "loss": 0.4942,
      "step": 517
    },
    {
      "epoch": 2.7285525736911573,
      "grad_norm": 1.429171310323447,
      "learning_rate": 2.3528999786421758e-07,
      "loss": 0.4636,
      "step": 518
    },
    {
      "epoch": 2.73383194016718,
      "grad_norm": 1.338261834173231,
      "learning_rate": 2.2604337556677846e-07,
      "loss": 0.4656,
      "step": 519
    },
    {
      "epoch": 2.7391113066432027,
      "grad_norm": 1.324849203082196,
      "learning_rate": 2.1697790249779638e-07,
      "loss": 0.4788,
      "step": 520
    },
    {
      "epoch": 2.744390673119226,
      "grad_norm": 1.350337658446117,
      "learning_rate": 2.080939226493889e-07,
      "loss": 0.4846,
      "step": 521
    },
    {
      "epoch": 2.7496700395952485,
      "grad_norm": 1.3500445059182393,
      "learning_rate": 1.9939177312685963e-07,
      "loss": 0.4419,
      "step": 522
    },
    {
      "epoch": 2.7549494060712716,
      "grad_norm": 1.375463337098407,
      "learning_rate": 1.908717841359048e-07,
      "loss": 0.4687,
      "step": 523
    },
    {
      "epoch": 2.7602287725472943,
      "grad_norm": 1.4823623308521863,
      "learning_rate": 1.825342789700846e-07,
      "loss": 0.4779,
      "step": 524
    },
    {
      "epoch": 2.765508139023317,
      "grad_norm": 1.4161590791252803,
      "learning_rate": 1.7437957399855488e-07,
      "loss": 0.4685,
      "step": 525
    },
    {
      "epoch": 2.77078750549934,
      "grad_norm": 1.2986729971436586,
      "learning_rate": 1.664079786540629e-07,
      "loss": 0.4771,
      "step": 526
    },
    {
      "epoch": 2.776066871975363,
      "grad_norm": 1.3827623556792923,
      "learning_rate": 1.5861979542120598e-07,
      "loss": 0.4634,
      "step": 527
    },
    {
      "epoch": 2.781346238451386,
      "grad_norm": 1.3339794328080277,
      "learning_rate": 1.510153198249531e-07,
      "loss": 0.4435,
      "step": 528
    },
    {
      "epoch": 2.7866256049274085,
      "grad_norm": 1.3094435959629867,
      "learning_rate": 1.435948404194304e-07,
      "loss": 0.4537,
      "step": 529
    },
    {
      "epoch": 2.7919049714034316,
      "grad_norm": 1.395651401211996,
      "learning_rate": 1.363586387769761e-07,
      "loss": 0.4729,
      "step": 530
    },
    {
      "epoch": 2.7971843378794543,
      "grad_norm": 1.3803361937212524,
      "learning_rate": 1.2930698947744957e-07,
      "loss": 0.5551,
      "step": 531
    },
    {
      "epoch": 2.8024637043554774,
      "grad_norm": 1.403170004866064,
      "learning_rate": 1.22440160097817e-07,
      "loss": 0.4659,
      "step": 532
    },
    {
      "epoch": 2.8077430708315,
      "grad_norm": 1.4326502602660136,
      "learning_rate": 1.157584112019966e-07,
      "loss": 0.4532,
      "step": 533
    },
    {
      "epoch": 2.813022437307523,
      "grad_norm": 1.413170997771312,
      "learning_rate": 1.0926199633097156e-07,
      "loss": 0.5077,
      "step": 534
    },
    {
      "epoch": 2.818301803783546,
      "grad_norm": 1.4978501520243235,
      "learning_rate": 1.0295116199317057e-07,
      "loss": 0.4524,
      "step": 535
    },
    {
      "epoch": 2.823581170259569,
      "grad_norm": 1.3811339585897102,
      "learning_rate": 9.682614765511134e-08,
      "loss": 0.4267,
      "step": 536
    },
    {
      "epoch": 2.8288605367355917,
      "grad_norm": 1.2532370949093539,
      "learning_rate": 9.08871857323157e-08,
      "loss": 0.5053,
      "step": 537
    },
    {
      "epoch": 2.8341399032116144,
      "grad_norm": 1.3788001439277469,
      "learning_rate": 8.513450158049109e-08,
      "loss": 0.4377,
      "step": 538
    },
    {
      "epoch": 2.8394192696876375,
      "grad_norm": 1.3386655810754182,
      "learning_rate": 7.956831348697791e-08,
      "loss": 0.5369,
      "step": 539
    },
    {
      "epoch": 2.8446986361636606,
      "grad_norm": 1.4031016680793478,
      "learning_rate": 7.418883266246734e-08,
      "loss": 0.4692,
      "step": 540
    },
    {
      "epoch": 2.8499780026396833,
      "grad_norm": 1.4223612412457645,
      "learning_rate": 6.899626323298714e-08,
      "loss": 0.4975,
      "step": 541
    },
    {
      "epoch": 2.855257369115706,
      "grad_norm": 1.468568132224329,
      "learning_rate": 6.399080223215503e-08,
      "loss": 0.4278,
      "step": 542
    },
    {
      "epoch": 2.860536735591729,
      "grad_norm": 1.2905228846748407,
      "learning_rate": 5.917263959370312e-08,
      "loss": 0.4459,
      "step": 543
    },
    {
      "epoch": 2.8658161020677517,
      "grad_norm": 1.30438415852383,
      "learning_rate": 5.454195814427021e-08,
      "loss": 0.4881,
      "step": 544
    },
    {
      "epoch": 2.871095468543775,
      "grad_norm": 1.4658032992281533,
      "learning_rate": 5.009893359646523e-08,
      "loss": 0.422,
      "step": 545
    },
    {
      "epoch": 2.8763748350197975,
      "grad_norm": 1.403126172079016,
      "learning_rate": 4.584373454219859e-08,
      "loss": 0.4298,
      "step": 546
    },
    {
      "epoch": 2.8816542014958206,
      "grad_norm": 1.305238740579575,
      "learning_rate": 4.177652244628627e-08,
      "loss": 0.447,
      "step": 547
    },
    {
      "epoch": 2.8869335679718433,
      "grad_norm": 1.4226875729692003,
      "learning_rate": 3.7897451640321326e-08,
      "loss": 0.537,
      "step": 548
    },
    {
      "epoch": 2.8922129344478664,
      "grad_norm": 1.3043310631991534,
      "learning_rate": 3.4206669316819155e-08,
      "loss": 0.495,
      "step": 549
    },
    {
      "epoch": 2.897492300923889,
      "grad_norm": 1.4379823363129705,
      "learning_rate": 3.0704315523631956e-08,
      "loss": 0.4139,
      "step": 550
    },
    {
      "epoch": 2.9027716673999118,
      "grad_norm": 1.3544951690739686,
      "learning_rate": 2.7390523158633552e-08,
      "loss": 0.5213,
      "step": 551
    },
    {
      "epoch": 2.908051033875935,
      "grad_norm": 1.5078288720536737,
      "learning_rate": 2.426541796467785e-08,
      "loss": 0.4605,
      "step": 552
    },
    {
      "epoch": 2.913330400351958,
      "grad_norm": 1.35610421146911,
      "learning_rate": 2.1329118524827662e-08,
      "loss": 0.4708,
      "step": 553
    },
    {
      "epoch": 2.9186097668279807,
      "grad_norm": 1.4726737456407306,
      "learning_rate": 1.8581736257852756e-08,
      "loss": 0.4868,
      "step": 554
    },
    {
      "epoch": 2.9238891333040034,
      "grad_norm": 1.353334569052309,
      "learning_rate": 1.6023375414004894e-08,
      "loss": 0.4867,
      "step": 555
    },
    {
      "epoch": 2.9291684997800265,
      "grad_norm": 1.3416226125226052,
      "learning_rate": 1.3654133071059894e-08,
      "loss": 0.4396,
      "step": 556
    },
    {
      "epoch": 2.934447866256049,
      "grad_norm": 1.226026839315963,
      "learning_rate": 1.1474099130635575e-08,
      "loss": 0.4901,
      "step": 557
    },
    {
      "epoch": 2.9397272327320723,
      "grad_norm": 1.3404474468548127,
      "learning_rate": 9.48335631477948e-09,
      "loss": 0.4651,
      "step": 558
    },
    {
      "epoch": 2.945006599208095,
      "grad_norm": 1.3923456514703572,
      "learning_rate": 7.681980162830283e-09,
      "loss": 0.5356,
      "step": 559
    },
    {
      "epoch": 2.950285965684118,
      "grad_norm": 1.2760505962703481,
      "learning_rate": 6.070039028550634e-09,
      "loss": 0.5385,
      "step": 560
    },
    {
      "epoch": 2.9555653321601407,
      "grad_norm": 2.2171211350170843,
      "learning_rate": 4.647594077534235e-09,
      "loss": 0.5793,
      "step": 561
    },
    {
      "epoch": 2.960844698636164,
      "grad_norm": 1.5115950710680348,
      "learning_rate": 3.41469928488547e-09,
      "loss": 0.5072,
      "step": 562
    },
    {
      "epoch": 2.9661240651121865,
      "grad_norm": 1.386901569403929,
      "learning_rate": 2.371401433170495e-09,
      "loss": 0.4858,
      "step": 563
    },
    {
      "epoch": 2.971403431588209,
      "grad_norm": 1.4637428485442363,
      "learning_rate": 1.5177401106419853e-09,
      "loss": 0.4478,
      "step": 564
    },
    {
      "epoch": 2.9766827980642323,
      "grad_norm": 1.4551106718059847,
      "learning_rate": 8.537477097364522e-10,
      "loss": 0.4673,
      "step": 565
    },
    {
      "epoch": 2.9819621645402554,
      "grad_norm": 1.3415126297649902,
      "learning_rate": 3.7944942584688947e-10,
      "loss": 0.4997,
      "step": 566
    },
    {
      "epoch": 2.987241531016278,
      "grad_norm": 1.2328749287439438,
      "learning_rate": 9.486325636576254e-11,
      "loss": 0.5271,
      "step": 567
    },
    {
      "epoch": 2.987241531016278,
      "step": 567,
      "total_flos": 4.6211312738788966e+17,
      "train_loss": 0.7107904120832944,
      "train_runtime": 62456.134,
      "train_samples_per_second": 0.437,
      "train_steps_per_second": 0.009
    }
  ],
  "logging_steps": 1,
  "max_steps": 567,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 200,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 4.6211312738788966e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}