sanity_syntax_10p_200k / trainer_state.json

Model save

968d5cc verified over 1 year ago

67 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9996003729852138,
	"eval_steps": 500,
	"global_step": 1876,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0005328360197149328,
	"grad_norm": 0.3923943299533747,
	"learning_rate": 1.0638297872340427e-06,
	"loss": 1.5282,
	"step": 1
	},
	{
	"epoch": 0.0026641800985746636,
	"grad_norm": 0.39997680726308193,
	"learning_rate": 5.319148936170213e-06,
	"loss": 1.5368,
	"step": 5
	},
	{
	"epoch": 0.005328360197149327,
	"grad_norm": 0.42655574017759024,
	"learning_rate": 1.0638297872340426e-05,
	"loss": 1.5771,
	"step": 10
	},
	{
	"epoch": 0.007992540295723992,
	"grad_norm": 0.4800547793020182,
	"learning_rate": 1.595744680851064e-05,
	"loss": 1.5624,
	"step": 15
	},
	{
	"epoch": 0.010656720394298654,
	"grad_norm": 0.36870917165643946,
	"learning_rate": 2.1276595744680852e-05,
	"loss": 1.5192,
	"step": 20
	},
	{
	"epoch": 0.013320900492873319,
	"grad_norm": 0.23219684210183744,
	"learning_rate": 2.6595744680851064e-05,
	"loss": 1.5223,
	"step": 25
	},
	{
	"epoch": 0.015985080591447983,
	"grad_norm": 0.2091606557073564,
	"learning_rate": 3.191489361702128e-05,
	"loss": 1.4527,
	"step": 30
	},
	{
	"epoch": 0.018649260690022644,
	"grad_norm": 0.18998890324763035,
	"learning_rate": 3.723404255319149e-05,
	"loss": 1.4828,
	"step": 35
	},
	{
	"epoch": 0.02131344078859731,
	"grad_norm": 0.14996191641971635,
	"learning_rate": 4.2553191489361704e-05,
	"loss": 1.4084,
	"step": 40
	},
	{
	"epoch": 0.023977620887171973,
	"grad_norm": 0.16249029940771254,
	"learning_rate": 4.787234042553192e-05,
	"loss": 1.4001,
	"step": 45
	},
	{
	"epoch": 0.026641800985746637,
	"grad_norm": 0.1460528370416976,
	"learning_rate": 5.319148936170213e-05,
	"loss": 1.3865,
	"step": 50
	},
	{
	"epoch": 0.0293059810843213,
	"grad_norm": 0.12748888043071394,
	"learning_rate": 5.851063829787234e-05,
	"loss": 1.3832,
	"step": 55
	},
	{
	"epoch": 0.031970161182895966,
	"grad_norm": 0.1047553716550612,
	"learning_rate": 6.382978723404256e-05,
	"loss": 1.3383,
	"step": 60
	},
	{
	"epoch": 0.03463434128147063,
	"grad_norm": 1.0945957696792898,
	"learning_rate": 6.914893617021277e-05,
	"loss": 1.3216,
	"step": 65
	},
	{
	"epoch": 0.03729852138004529,
	"grad_norm": 0.0891343071370869,
	"learning_rate": 7.446808510638298e-05,
	"loss": 1.3098,
	"step": 70
	},
	{
	"epoch": 0.03996270147861995,
	"grad_norm": 0.07870697792715504,
	"learning_rate": 7.978723404255319e-05,
	"loss": 1.3138,
	"step": 75
	},
	{
	"epoch": 0.04262688157719462,
	"grad_norm": 0.08760750591416677,
	"learning_rate": 8.510638297872341e-05,
	"loss": 1.3006,
	"step": 80
	},
	{
	"epoch": 0.04529106167576928,
	"grad_norm": 0.08120742351067671,
	"learning_rate": 9.042553191489363e-05,
	"loss": 1.2385,
	"step": 85
	},
	{
	"epoch": 0.047955241774343946,
	"grad_norm": 0.08142820910966997,
	"learning_rate": 9.574468085106384e-05,
	"loss": 1.2945,
	"step": 90
	},
	{
	"epoch": 0.05061942187291861,
	"grad_norm": 0.09177922715037878,
	"learning_rate": 0.00010106382978723406,
	"loss": 1.2761,
	"step": 95
	},
	{
	"epoch": 0.053283601971493275,
	"grad_norm": 0.07677835076593886,
	"learning_rate": 0.00010638297872340425,
	"loss": 1.244,
	"step": 100
	},
	{
	"epoch": 0.05594778207006794,
	"grad_norm": 0.08525332172522379,
	"learning_rate": 0.00011170212765957446,
	"loss": 1.2838,
	"step": 105
	},
	{
	"epoch": 0.0586119621686426,
	"grad_norm": 0.10003274873557398,
	"learning_rate": 0.00011702127659574468,
	"loss": 1.2489,
	"step": 110
	},
	{
	"epoch": 0.06127614226721726,
	"grad_norm": 0.09434455492112725,
	"learning_rate": 0.0001223404255319149,
	"loss": 1.2503,
	"step": 115
	},
	{
	"epoch": 0.06394032236579193,
	"grad_norm": 0.0960230638906738,
	"learning_rate": 0.00012765957446808513,
	"loss": 1.2205,
	"step": 120
	},
	{
	"epoch": 0.0666045024643666,
	"grad_norm": 0.09721981845211174,
	"learning_rate": 0.00013297872340425532,
	"loss": 1.2624,
	"step": 125
	},
	{
	"epoch": 0.06926868256294126,
	"grad_norm": 0.08809066774892928,
	"learning_rate": 0.00013829787234042554,
	"loss": 1.2545,
	"step": 130
	},
	{
	"epoch": 0.07193286266151591,
	"grad_norm": 0.26229245154975894,
	"learning_rate": 0.00014361702127659576,
	"loss": 1.2408,
	"step": 135
	},
	{
	"epoch": 0.07459704276009058,
	"grad_norm": 0.10552899642439768,
	"learning_rate": 0.00014893617021276596,
	"loss": 1.2392,
	"step": 140
	},
	{
	"epoch": 0.07726122285866524,
	"grad_norm": 0.10911221765360271,
	"learning_rate": 0.00015425531914893618,
	"loss": 1.2148,
	"step": 145
	},
	{
	"epoch": 0.0799254029572399,
	"grad_norm": 0.11632059103832315,
	"learning_rate": 0.00015957446808510637,
	"loss": 1.2382,
	"step": 150
	},
	{
	"epoch": 0.08258958305581457,
	"grad_norm": 0.10281933721760748,
	"learning_rate": 0.00016489361702127662,
	"loss": 1.226,
	"step": 155
	},
	{
	"epoch": 0.08525376315438923,
	"grad_norm": 0.10561194502249595,
	"learning_rate": 0.00017021276595744682,
	"loss": 1.2531,
	"step": 160
	},
	{
	"epoch": 0.0879179432529639,
	"grad_norm": 0.10407844313384682,
	"learning_rate": 0.000175531914893617,
	"loss": 1.2428,
	"step": 165
	},
	{
	"epoch": 0.09058212335153856,
	"grad_norm": 0.08952286824052161,
	"learning_rate": 0.00018085106382978726,
	"loss": 1.2176,
	"step": 170
	},
	{
	"epoch": 0.09324630345011323,
	"grad_norm": 0.0938821785588311,
	"learning_rate": 0.00018617021276595746,
	"loss": 1.2307,
	"step": 175
	},
	{
	"epoch": 0.09591048354868789,
	"grad_norm": 0.1162063476232978,
	"learning_rate": 0.00019148936170212768,
	"loss": 1.2276,
	"step": 180
	},
	{
	"epoch": 0.09857466364726256,
	"grad_norm": 0.09632362372953375,
	"learning_rate": 0.00019680851063829787,
	"loss": 1.213,
	"step": 185
	},
	{
	"epoch": 0.10123884374583722,
	"grad_norm": 0.0984821085857903,
	"learning_rate": 0.00019999930723752516,
	"loss": 1.2093,
	"step": 190
	},
	{
	"epoch": 0.10390302384441188,
	"grad_norm": 0.09843324070313318,
	"learning_rate": 0.00019999151376991434,
	"loss": 1.2405,
	"step": 195
	},
	{
	"epoch": 0.10656720394298655,
	"grad_norm": 0.09038802438280195,
	"learning_rate": 0.00019997506155872244,
	"loss": 1.2226,
	"step": 200
	},
	{
	"epoch": 0.10923138404156121,
	"grad_norm": 0.09204563702733434,
	"learning_rate": 0.00019994995202862512,
	"loss": 1.1841,
	"step": 205
	},
	{
	"epoch": 0.11189556414013588,
	"grad_norm": 0.09153264803236888,
	"learning_rate": 0.00019991618735397672,
	"loss": 1.1963,
	"step": 210
	},
	{
	"epoch": 0.11455974423871054,
	"grad_norm": 0.10122556405254433,
	"learning_rate": 0.00019987377045862202,
	"loss": 1.1912,
	"step": 215
	},
	{
	"epoch": 0.1172239243372852,
	"grad_norm": 0.10731171538200276,
	"learning_rate": 0.00019982270501564284,
	"loss": 1.2206,
	"step": 220
	},
	{
	"epoch": 0.11988810443585986,
	"grad_norm": 0.10261300609074893,
	"learning_rate": 0.00019976299544704026,
	"loss": 1.2063,
	"step": 225
	},
	{
	"epoch": 0.12255228453443452,
	"grad_norm": 0.10220846662233612,
	"learning_rate": 0.00019969464692335152,
	"loss": 1.2176,
	"step": 230
	},
	{
	"epoch": 0.1252164646330092,
	"grad_norm": 0.106711961435993,
	"learning_rate": 0.00019961766536320225,
	"loss": 1.2338,
	"step": 235
	},
	{
	"epoch": 0.12788064473158386,
	"grad_norm": 0.08642302944089619,
	"learning_rate": 0.0001995320574327941,
	"loss": 1.1834,
	"step": 240
	},
	{
	"epoch": 0.13054482483015853,
	"grad_norm": 0.10984213170710444,
	"learning_rate": 0.00019943783054532732,
	"loss": 1.2157,
	"step": 245
	},
	{
	"epoch": 0.1332090049287332,
	"grad_norm": 0.09485880486202997,
	"learning_rate": 0.00019933499286035894,
	"loss": 1.204,
	"step": 250
	},
	{
	"epoch": 0.13587318502730786,
	"grad_norm": 0.10445439668189137,
	"learning_rate": 0.0001992235532830961,
	"loss": 1.2193,
	"step": 255
	},
	{
	"epoch": 0.13853736512588252,
	"grad_norm": 0.08363317544398702,
	"learning_rate": 0.00019910352146362497,
	"loss": 1.1989,
	"step": 260
	},
	{
	"epoch": 0.1412015452244572,
	"grad_norm": 0.13246579577470613,
	"learning_rate": 0.00019897490779607514,
	"loss": 1.1942,
	"step": 265
	},
	{
	"epoch": 0.14386572532303182,
	"grad_norm": 0.11140593579855256,
	"learning_rate": 0.00019883772341771936,
	"loss": 1.226,
	"step": 270
	},
	{
	"epoch": 0.1465299054216065,
	"grad_norm": 0.09879562730310984,
	"learning_rate": 0.0001986919802080093,
	"loss": 1.2206,
	"step": 275
	},
	{
	"epoch": 0.14919408552018115,
	"grad_norm": 0.09576696495195093,
	"learning_rate": 0.00019853769078754686,
	"loss": 1.2156,
	"step": 280
	},
	{
	"epoch": 0.15185826561875582,
	"grad_norm": 0.09339602143232201,
	"learning_rate": 0.00019837486851699104,
	"loss": 1.2136,
	"step": 285
	},
	{
	"epoch": 0.15452244571733048,
	"grad_norm": 0.1015702269360243,
	"learning_rate": 0.0001982035274959014,
	"loss": 1.228,
	"step": 290
	},
	{
	"epoch": 0.15718662581590515,
	"grad_norm": 0.10731429321620178,
	"learning_rate": 0.0001980236825615166,
	"loss": 1.2084,
	"step": 295
	},
	{
	"epoch": 0.1598508059144798,
	"grad_norm": 0.11015660781012064,
	"learning_rate": 0.00019783534928747006,
	"loss": 1.233,
	"step": 300
	},
	{
	"epoch": 0.16251498601305447,
	"grad_norm": 0.09317505295867419,
	"learning_rate": 0.000197638543982441,
	"loss": 1.1949,
	"step": 305
	},
	{
	"epoch": 0.16517916611162914,
	"grad_norm": 0.10444172159792364,
	"learning_rate": 0.00019743328368874237,
	"loss": 1.2077,
	"step": 310
	},
	{
	"epoch": 0.1678433462102038,
	"grad_norm": 0.08551570812304626,
	"learning_rate": 0.00019721958618084507,
	"loss": 1.206,
	"step": 315
	},
	{
	"epoch": 0.17050752630877847,
	"grad_norm": 0.08486005829321344,
	"learning_rate": 0.00019699746996383878,
	"loss": 1.2162,
	"step": 320
	},
	{
	"epoch": 0.17317170640735313,
	"grad_norm": 0.08572790019112694,
	"learning_rate": 0.00019676695427182938,
	"loss": 1.1866,
	"step": 325
	},
	{
	"epoch": 0.1758358865059278,
	"grad_norm": 0.0948088094425236,
	"learning_rate": 0.00019652805906627356,
	"loss": 1.1903,
	"step": 330
	},
	{
	"epoch": 0.17850006660450246,
	"grad_norm": 0.09120766035226856,
	"learning_rate": 0.00019628080503425013,
	"loss": 1.2231,
	"step": 335
	},
	{
	"epoch": 0.18116424670307713,
	"grad_norm": 0.10099249661711791,
	"learning_rate": 0.0001960252135866687,
	"loss": 1.192,
	"step": 340
	},
	{
	"epoch": 0.1838284268016518,
	"grad_norm": 0.08142630900860537,
	"learning_rate": 0.0001957613068564156,
	"loss": 1.2093,
	"step": 345
	},
	{
	"epoch": 0.18649260690022645,
	"grad_norm": 0.08243035183498343,
	"learning_rate": 0.00019548910769643722,
	"loss": 1.2232,
	"step": 350
	},
	{
	"epoch": 0.18915678699880112,
	"grad_norm": 0.08113246622113654,
	"learning_rate": 0.00019520863967776116,
	"loss": 1.1773,
	"step": 355
	},
	{
	"epoch": 0.19182096709737578,
	"grad_norm": 0.08217032990907831,
	"learning_rate": 0.000194919927087455,
	"loss": 1.1909,
	"step": 360
	},
	{
	"epoch": 0.19448514719595045,
	"grad_norm": 0.08936356448152723,
	"learning_rate": 0.00019462299492652336,
	"loss": 1.1768,
	"step": 365
	},
	{
	"epoch": 0.1971493272945251,
	"grad_norm": 0.09171279408988006,
	"learning_rate": 0.00019431786890774264,
	"loss": 1.1899,
	"step": 370
	},
	{
	"epoch": 0.19981350739309978,
	"grad_norm": 0.08313643695167447,
	"learning_rate": 0.00019400457545343464,
	"loss": 1.224,
	"step": 375
	},
	{
	"epoch": 0.20247768749167444,
	"grad_norm": 0.08891928174737382,
	"learning_rate": 0.00019368314169317856,
	"loss": 1.1723,
	"step": 380
	},
	{
	"epoch": 0.2051418675902491,
	"grad_norm": 0.08770933776267686,
	"learning_rate": 0.00019335359546146156,
	"loss": 1.2028,
	"step": 385
	},
	{
	"epoch": 0.20780604768882377,
	"grad_norm": 0.08301528792067146,
	"learning_rate": 0.00019301596529526854,
	"loss": 1.2056,
	"step": 390
	},
	{
	"epoch": 0.21047022778739843,
	"grad_norm": 0.08890281842327881,
	"learning_rate": 0.00019267028043161094,
	"loss": 1.2138,
	"step": 395
	},
	{
	"epoch": 0.2131344078859731,
	"grad_norm": 0.0900002819215321,
	"learning_rate": 0.0001923165708049951,
	"loss": 1.2051,
	"step": 400
	},
	{
	"epoch": 0.21579858798454776,
	"grad_norm": 0.10504748978346506,
	"learning_rate": 0.00019195486704482977,
	"loss": 1.1954,
	"step": 405
	},
	{
	"epoch": 0.21846276808312243,
	"grad_norm": 0.09718704604170597,
	"learning_rate": 0.0001915852004727742,
	"loss": 1.1639,
	"step": 410
	},
	{
	"epoch": 0.2211269481816971,
	"grad_norm": 0.08996864675224003,
	"learning_rate": 0.00019120760310002545,
	"loss": 1.2265,
	"step": 415
	},
	{
	"epoch": 0.22379112828027176,
	"grad_norm": 0.07943107198536507,
	"learning_rate": 0.0001908221076245466,
	"loss": 1.2169,
	"step": 420
	},
	{
	"epoch": 0.22645530837884642,
	"grad_norm": 0.08284744366625013,
	"learning_rate": 0.0001904287474282353,
	"loss": 1.1828,
	"step": 425
	},
	{
	"epoch": 0.22911948847742108,
	"grad_norm": 0.07736916644319017,
	"learning_rate": 0.00019002755657403298,
	"loss": 1.1979,
	"step": 430
	},
	{
	"epoch": 0.23178366857599575,
	"grad_norm": 0.08280858698864835,
	"learning_rate": 0.00018961856980297513,
	"loss": 1.191,
	"step": 435
	},
	{
	"epoch": 0.2344478486745704,
	"grad_norm": 0.07937399115370877,
	"learning_rate": 0.0001892018225311831,
	"loss": 1.2173,
	"step": 440
	},
	{
	"epoch": 0.23711202877314508,
	"grad_norm": 0.08409239653616714,
	"learning_rate": 0.00018877735084679693,
	"loss": 1.1903,
	"step": 445
	},
	{
	"epoch": 0.23977620887171971,
	"grad_norm": 0.0825557060792781,
	"learning_rate": 0.00018834519150685071,
	"loss": 1.1985,
	"step": 450
	},
	{
	"epoch": 0.24244038897029438,
	"grad_norm": 0.07982212340626871,
	"learning_rate": 0.00018790538193408937,
	"loss": 1.2038,
	"step": 455
	},
	{
	"epoch": 0.24510456906886904,
	"grad_norm": 0.0774659417434534,
	"learning_rate": 0.000187457960213728,
	"loss": 1.1788,
	"step": 460
	},
	{
	"epoch": 0.2477687491674437,
	"grad_norm": 0.08395126176587492,
	"learning_rate": 0.00018700296509015406,
	"loss": 1.1862,
	"step": 465
	},
	{
	"epoch": 0.2504329292660184,
	"grad_norm": 0.09287329697747186,
	"learning_rate": 0.00018654043596357217,
	"loss": 1.2092,
	"step": 470
	},
	{
	"epoch": 0.25309710936459306,
	"grad_norm": 0.09110234430419713,
	"learning_rate": 0.00018607041288659236,
	"loss": 1.1974,
	"step": 475
	},
	{
	"epoch": 0.25576128946316773,
	"grad_norm": 0.08308651742822264,
	"learning_rate": 0.00018559293656076166,
	"loss": 1.1869,
	"step": 480
	},
	{
	"epoch": 0.2584254695617424,
	"grad_norm": 0.08214254142545631,
	"learning_rate": 0.0001851080483330396,
	"loss": 1.1831,
	"step": 485
	},
	{
	"epoch": 0.26108964966031706,
	"grad_norm": 0.08701064777773787,
	"learning_rate": 0.00018461579019221774,
	"loss": 1.1879,
	"step": 490
	},
	{
	"epoch": 0.2637538297588917,
	"grad_norm": 0.08680397859688439,
	"learning_rate": 0.00018411620476528362,
	"loss": 1.1929,
	"step": 495
	},
	{
	"epoch": 0.2664180098574664,
	"grad_norm": 0.09030897168085561,
	"learning_rate": 0.0001836093353137297,
	"loss": 1.1902,
	"step": 500
	},
	{
	"epoch": 0.26908218995604105,
	"grad_norm": 0.08473182672968443,
	"learning_rate": 0.00018309522572980673,
	"loss": 1.2044,
	"step": 505
	},
	{
	"epoch": 0.2717463700546157,
	"grad_norm": 0.08536458790900281,
	"learning_rate": 0.00018257392053272345,
	"loss": 1.2259,
	"step": 510
	},
	{
	"epoch": 0.2744105501531904,
	"grad_norm": 0.081003787470878,
	"learning_rate": 0.00018204546486479096,
	"loss": 1.213,
	"step": 515
	},
	{
	"epoch": 0.27707473025176504,
	"grad_norm": 0.089272857126091,
	"learning_rate": 0.00018150990448751394,
	"loss": 1.1791,
	"step": 520
	},
	{
	"epoch": 0.2797389103503397,
	"grad_norm": 0.08621840551694437,
	"learning_rate": 0.0001809672857776278,
	"loss": 1.2024,
	"step": 525
	},
	{
	"epoch": 0.2824030904489144,
	"grad_norm": 0.07933042265020962,
	"learning_rate": 0.00018041765572308278,
	"loss": 1.2025,
	"step": 530
	},
	{
	"epoch": 0.28506727054748904,
	"grad_norm": 0.0850752493351441,
	"learning_rate": 0.00017986106191897493,
	"loss": 1.1994,
	"step": 535
	},
	{
	"epoch": 0.28773145064606365,
	"grad_norm": 0.07823580475459424,
	"learning_rate": 0.00017929755256342479,
	"loss": 1.2139,
	"step": 540
	},
	{
	"epoch": 0.2903956307446383,
	"grad_norm": 0.07706877273113974,
	"learning_rate": 0.0001787271764534035,
	"loss": 1.1909,
	"step": 545
	},
	{
	"epoch": 0.293059810843213,
	"grad_norm": 0.07946013242507238,
	"learning_rate": 0.00017814998298050743,
	"loss": 1.1795,
	"step": 550
	},
	{
	"epoch": 0.29572399094178764,
	"grad_norm": 0.08180878258450536,
	"learning_rate": 0.00017756602212668082,
	"loss": 1.1906,
	"step": 555
	},
	{
	"epoch": 0.2983881710403623,
	"grad_norm": 0.09250927603458256,
	"learning_rate": 0.00017697534445988803,
	"loss": 1.1779,
	"step": 560
	},
	{
	"epoch": 0.30105235113893697,
	"grad_norm": 0.09177332060381718,
	"learning_rate": 0.00017637800112973428,
	"loss": 1.1723,
	"step": 565
	},
	{
	"epoch": 0.30371653123751163,
	"grad_norm": 0.0837886550110598,
	"learning_rate": 0.00017577404386303645,
	"loss": 1.1954,
	"step": 570
	},
	{
	"epoch": 0.3063807113360863,
	"grad_norm": 0.09291852958714042,
	"learning_rate": 0.0001751635249593439,
	"loss": 1.1913,
	"step": 575
	},
	{
	"epoch": 0.30904489143466096,
	"grad_norm": 0.0751186613096299,
	"learning_rate": 0.00017454649728640943,
	"loss": 1.1884,
	"step": 580
	},
	{
	"epoch": 0.3117090715332356,
	"grad_norm": 0.08335342725723932,
	"learning_rate": 0.00017392301427561146,
	"loss": 1.2182,
	"step": 585
	},
	{
	"epoch": 0.3143732516318103,
	"grad_norm": 0.10512490135127568,
	"learning_rate": 0.00017329312991732688,
	"loss": 1.2022,
	"step": 590
	},
	{
	"epoch": 0.31703743173038496,
	"grad_norm": 0.08736469147276345,
	"learning_rate": 0.00017265689875625587,
	"loss": 1.2034,
	"step": 595
	},
	{
	"epoch": 0.3197016118289596,
	"grad_norm": 0.08181172036849664,
	"learning_rate": 0.00017201437588669878,
	"loss": 1.1734,
	"step": 600
	},
	{
	"epoch": 0.3223657919275343,
	"grad_norm": 0.10161889430894355,
	"learning_rate": 0.0001713656169477849,
	"loss": 1.1819,
	"step": 605
	},
	{
	"epoch": 0.32502997202610895,
	"grad_norm": 0.08576387885641809,
	"learning_rate": 0.00017071067811865476,
	"loss": 1.2189,
	"step": 610
	},
	{
	"epoch": 0.3276941521246836,
	"grad_norm": 0.07896254402827822,
	"learning_rate": 0.00017004961611359506,
	"loss": 1.1975,
	"step": 615
	},
	{
	"epoch": 0.3303583322232583,
	"grad_norm": 0.0843725771070502,
	"learning_rate": 0.00016938248817712767,
	"loss": 1.2049,
	"step": 620
	},
	{
	"epoch": 0.33302251232183294,
	"grad_norm": 0.08922430755828152,
	"learning_rate": 0.0001687093520790524,
	"loss": 1.2,
	"step": 625
	},
	{
	"epoch": 0.3356866924204076,
	"grad_norm": 0.09060345427129264,
	"learning_rate": 0.00016803026610944462,
	"loss": 1.2019,
	"step": 630
	},
	{
	"epoch": 0.33835087251898227,
	"grad_norm": 0.08487192271777715,
	"learning_rate": 0.0001673452890736074,
	"loss": 1.2101,
	"step": 635
	},
	{
	"epoch": 0.34101505261755694,
	"grad_norm": 0.10237244952453312,
	"learning_rate": 0.00016665448028697961,
	"loss": 1.1917,
	"step": 640
	},
	{
	"epoch": 0.3436792327161316,
	"grad_norm": 0.08297722193267411,
	"learning_rate": 0.0001659578995699991,
	"loss": 1.1714,
	"step": 645
	},
	{
	"epoch": 0.34634341281470626,
	"grad_norm": 0.08034790490692274,
	"learning_rate": 0.00016525560724292305,
	"loss": 1.2135,
	"step": 650
	},
	{
	"epoch": 0.34900759291328093,
	"grad_norm": 0.07638178286632234,
	"learning_rate": 0.00016454766412060402,
	"loss": 1.1725,
	"step": 655
	},
	{
	"epoch": 0.3516717730118556,
	"grad_norm": 0.08455753089941971,
	"learning_rate": 0.00016383413150722415,
	"loss": 1.1842,
	"step": 660
	},
	{
	"epoch": 0.35433595311043026,
	"grad_norm": 0.07805666953810234,
	"learning_rate": 0.00016311507119098627,
	"loss": 1.2005,
	"step": 665
	},
	{
	"epoch": 0.3570001332090049,
	"grad_norm": 0.07613396423899182,
	"learning_rate": 0.00016239054543876343,
	"loss": 1.1971,
	"step": 670
	},
	{
	"epoch": 0.3596643133075796,
	"grad_norm": 0.07964041743179047,
	"learning_rate": 0.00016166061699070703,
	"loss": 1.2247,
	"step": 675
	},
	{
	"epoch": 0.36232849340615425,
	"grad_norm": 0.07545427492471256,
	"learning_rate": 0.00016092534905481367,
	"loss": 1.1965,
	"step": 680
	},
	{
	"epoch": 0.3649926735047289,
	"grad_norm": 0.07935466685302715,
	"learning_rate": 0.00016018480530145175,
	"loss": 1.1777,
	"step": 685
	},
	{
	"epoch": 0.3676568536033036,
	"grad_norm": 0.07697591776205723,
	"learning_rate": 0.00015943904985784796,
	"loss": 1.2043,
	"step": 690
	},
	{
	"epoch": 0.37032103370187824,
	"grad_norm": 0.08353307335035773,
	"learning_rate": 0.00015868814730253422,
	"loss": 1.2016,
	"step": 695
	},
	{
	"epoch": 0.3729852138004529,
	"grad_norm": 0.12083203321167697,
	"learning_rate": 0.00015793216265975538,
	"loss": 1.2039,
	"step": 700
	},
	{
	"epoch": 0.3756493938990276,
	"grad_norm": 0.08002384831591002,
	"learning_rate": 0.0001571711613938387,
	"loss": 1.2018,
	"step": 705
	},
	{
	"epoch": 0.37831357399760224,
	"grad_norm": 0.07416696808155057,
	"learning_rate": 0.00015640520940352474,
	"loss": 1.1761,
	"step": 710
	},
	{
	"epoch": 0.3809777540961769,
	"grad_norm": 0.07477584114343706,
	"learning_rate": 0.00015563437301626095,
	"loss": 1.1691,
	"step": 715
	},
	{
	"epoch": 0.38364193419475157,
	"grad_norm": 0.08021029434297425,
	"learning_rate": 0.00015485871898245822,
	"loss": 1.1879,
	"step": 720
	},
	{
	"epoch": 0.38630611429332623,
	"grad_norm": 0.07655243996754035,
	"learning_rate": 0.0001540783144697103,
	"loss": 1.1895,
	"step": 725
	},
	{
	"epoch": 0.3889702943919009,
	"grad_norm": 0.07480027547778711,
	"learning_rate": 0.0001532932270569778,
	"loss": 1.1975,
	"step": 730
	},
	{
	"epoch": 0.39163447449047556,
	"grad_norm": 0.0777051603884027,
	"learning_rate": 0.00015250352472873603,
	"loss": 1.1676,
	"step": 735
	},
	{
	"epoch": 0.3942986545890502,
	"grad_norm": 0.09274122893001194,
	"learning_rate": 0.00015170927586908786,
	"loss": 1.185,
	"step": 740
	},
	{
	"epoch": 0.3969628346876249,
	"grad_norm": 0.08369763065847857,
	"learning_rate": 0.00015091054925584204,
	"loss": 1.1839,
	"step": 745
	},
	{
	"epoch": 0.39962701478619955,
	"grad_norm": 0.0785954093676615,
	"learning_rate": 0.0001501074140545575,
	"loss": 1.195,
	"step": 750
	},
	{
	"epoch": 0.4022911948847742,
	"grad_norm": 0.08125955697905107,
	"learning_rate": 0.00014929993981255388,
	"loss": 1.167,
	"step": 755
	},
	{
	"epoch": 0.4049553749833489,
	"grad_norm": 0.0795318945758808,
	"learning_rate": 0.00014848819645288915,
	"loss": 1.1809,
	"step": 760
	},
	{
	"epoch": 0.40761955508192355,
	"grad_norm": 0.08215872783779934,
	"learning_rate": 0.0001476722542683045,
	"loss": 1.1982,
	"step": 765
	},
	{
	"epoch": 0.4102837351804982,
	"grad_norm": 0.0902569586423544,
	"learning_rate": 0.0001468521839151375,
	"loss": 1.2058,
	"step": 770
	},
	{
	"epoch": 0.4129479152790729,
	"grad_norm": 0.08977396388549971,
	"learning_rate": 0.00014602805640720373,
	"loss": 1.2046,
	"step": 775
	},
	{
	"epoch": 0.41561209537764754,
	"grad_norm": 0.08797468277446341,
	"learning_rate": 0.00014519994310964698,
	"loss": 1.1767,
	"step": 780
	},
	{
	"epoch": 0.4182762754762222,
	"grad_norm": 0.08154618218534682,
	"learning_rate": 0.0001443679157327598,
	"loss": 1.2016,
	"step": 785
	},
	{
	"epoch": 0.42094045557479687,
	"grad_norm": 0.08123872265319151,
	"learning_rate": 0.00014353204632577352,
	"loss": 1.1836,
	"step": 790
	},
	{
	"epoch": 0.42360463567337153,
	"grad_norm": 0.09034057444914761,
	"learning_rate": 0.00014269240727061928,
	"loss": 1.1984,
	"step": 795
	},
	{
	"epoch": 0.4262688157719462,
	"grad_norm": 0.07751594264193425,
	"learning_rate": 0.00014184907127566006,
	"loss": 1.1721,
	"step": 800
	},
	{
	"epoch": 0.42893299587052086,
	"grad_norm": 0.07817067745827988,
	"learning_rate": 0.00014100211136939457,
	"loss": 1.2066,
	"step": 805
	},
	{
	"epoch": 0.4315971759690955,
	"grad_norm": 0.07666379004066795,
	"learning_rate": 0.00014015160089413331,
	"loss": 1.201,
	"step": 810
	},
	{
	"epoch": 0.4342613560676702,
	"grad_norm": 0.07977661703965382,
	"learning_rate": 0.00013929761349964755,
	"loss": 1.1986,
	"step": 815
	},
	{
	"epoch": 0.43692553616624485,
	"grad_norm": 0.07515238252186936,
	"learning_rate": 0.00013844022313679166,
	"loss": 1.1673,
	"step": 820
	},
	{
	"epoch": 0.4395897162648195,
	"grad_norm": 0.08668062284259438,
	"learning_rate": 0.00013757950405109926,
	"loss": 1.2055,
	"step": 825
	},
	{
	"epoch": 0.4422538963633942,
	"grad_norm": 0.07958110157591258,
	"learning_rate": 0.00013671553077635403,
	"loss": 1.2052,
	"step": 830
	},
	{
	"epoch": 0.44491807646196885,
	"grad_norm": 0.07801662094774196,
	"learning_rate": 0.00013584837812813554,
	"loss": 1.191,
	"step": 835
	},
	{
	"epoch": 0.4475822565605435,
	"grad_norm": 0.0766973195738648,
	"learning_rate": 0.00013497812119734037,
	"loss": 1.1918,
	"step": 840
	},
	{
	"epoch": 0.4502464366591182,
	"grad_norm": 0.07475449320976814,
	"learning_rate": 0.00013410483534367988,
	"loss": 1.1837,
	"step": 845
	},
	{
	"epoch": 0.45291061675769284,
	"grad_norm": 0.07991050463902843,
	"learning_rate": 0.0001332285961891543,
	"loss": 1.1941,
	"step": 850
	},
	{
	"epoch": 0.4555747968562675,
	"grad_norm": 0.08254589522833469,
	"learning_rate": 0.00013234947961150438,
	"loss": 1.1782,
	"step": 855
	},
	{
	"epoch": 0.45823897695484217,
	"grad_norm": 0.07717793943049406,
	"learning_rate": 0.0001314675617376406,
	"loss": 1.1773,
	"step": 860
	},
	{
	"epoch": 0.46090315705341683,
	"grad_norm": 0.07981760014460237,
	"learning_rate": 0.00013058291893705123,
	"loss": 1.1587,
	"step": 865
	},
	{
	"epoch": 0.4635673371519915,
	"grad_norm": 0.0746596071448608,
	"learning_rate": 0.00012969562781518884,
	"loss": 1.1672,
	"step": 870
	},
	{
	"epoch": 0.46623151725056616,
	"grad_norm": 0.07546467676535663,
	"learning_rate": 0.00012880576520683687,
	"loss": 1.188,
	"step": 875
	},
	{
	"epoch": 0.4688956973491408,
	"grad_norm": 0.0822763180376801,
	"learning_rate": 0.00012791340816945609,
	"loss": 1.1773,
	"step": 880
	},
	{
	"epoch": 0.4715598774477155,
	"grad_norm": 0.08094564516346787,
	"learning_rate": 0.00012701863397651176,
	"loss": 1.1692,
	"step": 885
	},
	{
	"epoch": 0.47422405754629016,
	"grad_norm": 0.08080906995900732,
	"learning_rate": 0.00012612152011078233,
	"loss": 1.1923,
	"step": 890
	},
	{
	"epoch": 0.47688823764486477,
	"grad_norm": 0.07799247485478207,
	"learning_rate": 0.00012522214425764953,
	"loss": 1.1762,
	"step": 895
	},
	{
	"epoch": 0.47955241774343943,
	"grad_norm": 0.07890128228587008,
	"learning_rate": 0.00012432058429837152,
	"loss": 1.1872,
	"step": 900
	},
	{
	"epoch": 0.4822165978420141,
	"grad_norm": 0.07930485805581218,
	"learning_rate": 0.00012341691830333867,
	"loss": 1.1801,
	"step": 905
	},
	{
	"epoch": 0.48488077794058876,
	"grad_norm": 0.07523574346910737,
	"learning_rate": 0.000122511224525313,
	"loss": 1.1705,
	"step": 910
	},
	{
	"epoch": 0.4875449580391634,
	"grad_norm": 0.08019564137195122,
	"learning_rate": 0.00012160358139265202,
	"loss": 1.1968,
	"step": 915
	},
	{
	"epoch": 0.4902091381377381,
	"grad_norm": 0.07799871453882441,
	"learning_rate": 0.00012069406750251713,
	"loss": 1.2037,
	"step": 920
	},
	{
	"epoch": 0.49287331823631275,
	"grad_norm": 0.07616406333142303,
	"learning_rate": 0.00011978276161406756,
	"loss": 1.1771,
	"step": 925
	},
	{
	"epoch": 0.4955374983348874,
	"grad_norm": 0.08287250388641591,
	"learning_rate": 0.00011886974264164037,
	"loss": 1.1817,
	"step": 930
	},
	{
	"epoch": 0.4982016784334621,
	"grad_norm": 0.07709252333335805,
	"learning_rate": 0.00011795508964791659,
	"loss": 1.1837,
	"step": 935
	},
	{
	"epoch": 0.5008658585320368,
	"grad_norm": 0.07774534231906956,
	"learning_rate": 0.00011703888183707512,
	"loss": 1.1801,
	"step": 940
	},
	{
	"epoch": 0.5035300386306114,
	"grad_norm": 0.07836641922774835,
	"learning_rate": 0.00011612119854793377,
	"loss": 1.1928,
	"step": 945
	},
	{
	"epoch": 0.5061942187291861,
	"grad_norm": 0.0855819667886154,
	"learning_rate": 0.00011520211924707917,
	"loss": 1.2115,
	"step": 950
	},
	{
	"epoch": 0.5088583988277607,
	"grad_norm": 0.08249753825043267,
	"learning_rate": 0.00011428172352198534,
	"loss": 1.1902,
	"step": 955
	},
	{
	"epoch": 0.5115225789263355,
	"grad_norm": 0.07960165957450928,
	"learning_rate": 0.00011336009107412162,
	"loss": 1.1846,
	"step": 960
	},
	{
	"epoch": 0.5141867590249101,
	"grad_norm": 0.0844585882351588,
	"learning_rate": 0.00011243730171205118,
	"loss": 1.1546,
	"step": 965
	},
	{
	"epoch": 0.5168509391234848,
	"grad_norm": 0.07615164060165457,
	"learning_rate": 0.00011151343534451994,
	"loss": 1.1909,
	"step": 970
	},
	{
	"epoch": 0.5195151192220594,
	"grad_norm": 0.08628193709778877,
	"learning_rate": 0.00011058857197353683,
	"loss": 1.1832,
	"step": 975
	},
	{
	"epoch": 0.5221792993206341,
	"grad_norm": 0.08464663568633256,
	"learning_rate": 0.0001096627916874461,
	"loss": 1.19,
	"step": 980
	},
	{
	"epoch": 0.5248434794192087,
	"grad_norm": 0.07335066380801168,
	"learning_rate": 0.00010873617465399209,
	"loss": 1.1962,
	"step": 985
	},
	{
	"epoch": 0.5275076595177834,
	"grad_norm": 0.07968663002138815,
	"learning_rate": 0.00010780880111337703,
	"loss": 1.1882,
	"step": 990
	},
	{
	"epoch": 0.530171839616358,
	"grad_norm": 0.08264162145143913,
	"learning_rate": 0.00010688075137131282,
	"loss": 1.1731,
	"step": 995
	},
	{
	"epoch": 0.5328360197149328,
	"grad_norm": 0.0801021939451612,
	"learning_rate": 0.00010595210579206676,
	"loss": 1.1947,
	"step": 1000
	},
	{
	"epoch": 0.5355001998135074,
	"grad_norm": 0.08017946990238331,
	"learning_rate": 0.0001050229447915027,
	"loss": 1.2001,
	"step": 1005
	},
	{
	"epoch": 0.5381643799120821,
	"grad_norm": 0.07658836800590599,
	"learning_rate": 0.0001040933488301171,
	"loss": 1.2002,
	"step": 1010
	},
	{
	"epoch": 0.5408285600106567,
	"grad_norm": 0.07982866205360158,
	"learning_rate": 0.00010316339840607194,
	"loss": 1.1836,
	"step": 1015
	},
	{
	"epoch": 0.5434927401092314,
	"grad_norm": 0.07960723865086924,
	"learning_rate": 0.0001022331740482237,
	"loss": 1.1777,
	"step": 1020
	},
	{
	"epoch": 0.546156920207806,
	"grad_norm": 0.0748679705543507,
	"learning_rate": 0.00010130275630915009,
	"loss": 1.1921,
	"step": 1025
	},
	{
	"epoch": 0.5488211003063808,
	"grad_norm": 0.0878356815626402,
	"learning_rate": 0.00010037222575817475,
	"loss": 1.1709,
	"step": 1030
	},
	{
	"epoch": 0.5514852804049554,
	"grad_norm": 0.07848930190109027,
	"learning_rate": 9.944166297439011e-05,
	"loss": 1.1896,
	"step": 1035
	},
	{
	"epoch": 0.5541494605035301,
	"grad_norm": 0.07598028143410929,
	"learning_rate": 9.85111485396798e-05,
	"loss": 1.1671,
	"step": 1040
	},
	{
	"epoch": 0.5568136406021047,
	"grad_norm": 0.07455678199305199,
	"learning_rate": 9.758076303174082e-05,
	"loss": 1.1879,
	"step": 1045
	},
	{
	"epoch": 0.5594778207006794,
	"grad_norm": 0.07933883340689663,
	"learning_rate": 9.665058701710561e-05,
	"loss": 1.1906,
	"step": 1050
	},
	{
	"epoch": 0.562142000799254,
	"grad_norm": 0.0782311193459855,
	"learning_rate": 9.572070104416566e-05,
	"loss": 1.1814,
	"step": 1055
	},
	{
	"epoch": 0.5648061808978287,
	"grad_norm": 0.07728561745740628,
	"learning_rate": 9.479118563619636e-05,
	"loss": 1.179,
	"step": 1060
	},
	{
	"epoch": 0.5674703609964034,
	"grad_norm": 0.08077639691991045,
	"learning_rate": 9.386212128438412e-05,
	"loss": 1.1957,
	"step": 1065
	},
	{
	"epoch": 0.5701345410949781,
	"grad_norm": 0.07773225366778684,
	"learning_rate": 9.29335884408562e-05,
	"loss": 1.221,
	"step": 1070
	},
	{
	"epoch": 0.5727987211935527,
	"grad_norm": 0.07773099884244754,
	"learning_rate": 9.2005667511714e-05,
	"loss": 1.158,
	"step": 1075
	},
	{
	"epoch": 0.5754629012921273,
	"grad_norm": 0.07725515386954404,
	"learning_rate": 9.107843885007042e-05,
	"loss": 1.1699,
	"step": 1080
	},
	{
	"epoch": 0.578127081390702,
	"grad_norm": 0.08162033290693702,
	"learning_rate": 9.015198274909151e-05,
	"loss": 1.1885,
	"step": 1085
	},
	{
	"epoch": 0.5807912614892766,
	"grad_norm": 0.07774378164612243,
	"learning_rate": 8.922637943504361e-05,
	"loss": 1.1924,
	"step": 1090
	},
	{
	"epoch": 0.5834554415878513,
	"grad_norm": 0.08627267331483346,
	"learning_rate": 8.830170906034625e-05,
	"loss": 1.1971,
	"step": 1095
	},
	{
	"epoch": 0.586119621686426,
	"grad_norm": 0.07645366300993464,
	"learning_rate": 8.737805169663114e-05,
	"loss": 1.1807,
	"step": 1100
	},
	{
	"epoch": 0.5887838017850007,
	"grad_norm": 0.08443619410444902,
	"learning_rate": 8.645548732780864e-05,
	"loss": 1.1761,
	"step": 1105
	},
	{
	"epoch": 0.5914479818835753,
	"grad_norm": 0.07706639361213953,
	"learning_rate": 8.553409584314138e-05,
	"loss": 1.1902,
	"step": 1110
	},
	{
	"epoch": 0.59411216198215,
	"grad_norm": 0.08249092376191036,
	"learning_rate": 8.461395703032638e-05,
	"loss": 1.1839,
	"step": 1115
	},
	{
	"epoch": 0.5967763420807246,
	"grad_norm": 0.08065147422026245,
	"learning_rate": 8.369515056858575e-05,
	"loss": 1.1731,
	"step": 1120
	},
	{
	"epoch": 0.5994405221792993,
	"grad_norm": 0.07848658439918688,
	"learning_rate": 8.277775602176702e-05,
	"loss": 1.177,
	"step": 1125
	},
	{
	"epoch": 0.6021047022778739,
	"grad_norm": 0.07816482146783796,
	"learning_rate": 8.186185283145325e-05,
	"loss": 1.1625,
	"step": 1130
	},
	{
	"epoch": 0.6047688823764487,
	"grad_norm": 0.07727396916592474,
	"learning_rate": 8.094752031008371e-05,
	"loss": 1.2127,
	"step": 1135
	},
	{
	"epoch": 0.6074330624750233,
	"grad_norm": 0.0789877501243841,
	"learning_rate": 8.003483763408603e-05,
	"loss": 1.1685,
	"step": 1140
	},
	{
	"epoch": 0.610097242573598,
	"grad_norm": 0.07854117414343613,
	"learning_rate": 7.912388383701982e-05,
	"loss": 1.1826,
	"step": 1145
	},
	{
	"epoch": 0.6127614226721726,
	"grad_norm": 0.07974248826415456,
	"learning_rate": 7.821473780273279e-05,
	"loss": 1.1867,
	"step": 1150
	},
	{
	"epoch": 0.6154256027707473,
	"grad_norm": 0.08234486503543673,
	"learning_rate": 7.730747825852975e-05,
	"loss": 1.1928,
	"step": 1155
	},
	{
	"epoch": 0.6180897828693219,
	"grad_norm": 0.08113984284337296,
	"learning_rate": 7.64021837683554e-05,
	"loss": 1.2018,
	"step": 1160
	},
	{
	"epoch": 0.6207539629678966,
	"grad_norm": 0.07823635237833673,
	"learning_rate": 7.549893272599098e-05,
	"loss": 1.1756,
	"step": 1165
	},
	{
	"epoch": 0.6234181430664713,
	"grad_norm": 0.07948360741609674,
	"learning_rate": 7.459780334826578e-05,
	"loss": 1.2052,
	"step": 1170
	},
	{
	"epoch": 0.626082323165046,
	"grad_norm": 0.07981232728150925,
	"learning_rate": 7.369887366828405e-05,
	"loss": 1.1935,
	"step": 1175
	},
	{
	"epoch": 0.6287465032636206,
	"grad_norm": 0.07772028594630517,
	"learning_rate": 7.28022215286676e-05,
	"loss": 1.1742,
	"step": 1180
	},
	{
	"epoch": 0.6314106833621953,
	"grad_norm": 0.07942822498880386,
	"learning_rate": 7.190792457481526e-05,
	"loss": 1.2044,
	"step": 1185
	},
	{
	"epoch": 0.6340748634607699,
	"grad_norm": 0.08072671416547043,
	"learning_rate": 7.101606024817888e-05,
	"loss": 1.2139,
	"step": 1190
	},
	{
	"epoch": 0.6367390435593446,
	"grad_norm": 0.07657851251411404,
	"learning_rate": 7.01267057795577e-05,
	"loss": 1.1771,
	"step": 1195
	},
	{
	"epoch": 0.6394032236579192,
	"grad_norm": 0.07629161839506614,
	"learning_rate": 6.923993818241013e-05,
	"loss": 1.1878,
	"step": 1200
	},
	{
	"epoch": 0.642067403756494,
	"grad_norm": 0.07750592384625017,
	"learning_rate": 6.83558342461851e-05,
	"loss": 1.1965,
	"step": 1205
	},
	{
	"epoch": 0.6447315838550686,
	"grad_norm": 0.08074061148056243,
	"learning_rate": 6.747447052967246e-05,
	"loss": 1.1598,
	"step": 1210
	},
	{
	"epoch": 0.6473957639536433,
	"grad_norm": 0.08114992875515604,
	"learning_rate": 6.659592335437321e-05,
	"loss": 1.1863,
	"step": 1215
	},
	{
	"epoch": 0.6500599440522179,
	"grad_norm": 0.07837122688644742,
	"learning_rate": 6.572026879789064e-05,
	"loss": 1.1789,
	"step": 1220
	},
	{
	"epoch": 0.6527241241507926,
	"grad_norm": 0.07904963655043487,
	"learning_rate": 6.484758268734226e-05,
	"loss": 1.1988,
	"step": 1225
	},
	{
	"epoch": 0.6553883042493672,
	"grad_norm": 0.07794516218687547,
	"learning_rate": 6.397794059279376e-05,
	"loss": 1.1797,
	"step": 1230
	},
	{
	"epoch": 0.658052484347942,
	"grad_norm": 0.0782549564009468,
	"learning_rate": 6.311141782071486e-05,
	"loss": 1.1861,
	"step": 1235
	},
	{
	"epoch": 0.6607166644465166,
	"grad_norm": 0.08113466467014144,
	"learning_rate": 6.224808940745814e-05,
	"loss": 1.1812,
	"step": 1240
	},
	{
	"epoch": 0.6633808445450913,
	"grad_norm": 0.0751998700186739,
	"learning_rate": 6.138803011276157e-05,
	"loss": 1.1903,
	"step": 1245
	},
	{
	"epoch": 0.6660450246436659,
	"grad_norm": 0.08263899166467202,
	"learning_rate": 6.0531314413274306e-05,
	"loss": 1.1652,
	"step": 1250
	},
	{
	"epoch": 0.6687092047422406,
	"grad_norm": 0.07705824954536489,
	"learning_rate": 5.9678016496107737e-05,
	"loss": 1.1811,
	"step": 1255
	},
	{
	"epoch": 0.6713733848408152,
	"grad_norm": 0.08540183694555796,
	"learning_rate": 5.8828210252410995e-05,
	"loss": 1.1896,
	"step": 1260
	},
	{
	"epoch": 0.6740375649393899,
	"grad_norm": 0.0742001043082849,
	"learning_rate": 5.798196927097259e-05,
	"loss": 1.1709,
	"step": 1265
	},
	{
	"epoch": 0.6767017450379645,
	"grad_norm": 0.2483647268345394,
	"learning_rate": 5.7139366831847955e-05,
	"loss": 1.1841,
	"step": 1270
	},
	{
	"epoch": 0.6793659251365393,
	"grad_norm": 0.07966799417452507,
	"learning_rate": 5.63004759000136e-05,
	"loss": 1.1739,
	"step": 1275
	},
	{
	"epoch": 0.6820301052351139,
	"grad_norm": 0.07969094718480424,
	"learning_rate": 5.546536911904896e-05,
	"loss": 1.1903,
	"step": 1280
	},
	{
	"epoch": 0.6846942853336886,
	"grad_norm": 0.0828241197230709,
	"learning_rate": 5.463411880484577e-05,
	"loss": 1.1802,
	"step": 1285
	},
	{
	"epoch": 0.6873584654322632,
	"grad_norm": 0.09372413723978523,
	"learning_rate": 5.3806796939345685e-05,
	"loss": 1.1786,
	"step": 1290
	},
	{
	"epoch": 0.6900226455308379,
	"grad_norm": 0.07631033783827931,
	"learning_rate": 5.298347516430748e-05,
	"loss": 1.1895,
	"step": 1295
	},
	{
	"epoch": 0.6926868256294125,
	"grad_norm": 0.07690415214661994,
	"learning_rate": 5.216422477510267e-05,
	"loss": 1.1913,
	"step": 1300
	},
	{
	"epoch": 0.6953510057279872,
	"grad_norm": 0.0767097655138434,
	"learning_rate": 5.1349116714542144e-05,
	"loss": 1.1685,
	"step": 1305
	},
	{
	"epoch": 0.6980151858265619,
	"grad_norm": 0.07609380641851764,
	"learning_rate": 5.053822156673276e-05,
	"loss": 1.1907,
	"step": 1310
	},
	{
	"epoch": 0.7006793659251366,
	"grad_norm": 0.07956518870952646,
	"learning_rate": 4.973160955096496e-05,
	"loss": 1.1668,
	"step": 1315
	},
	{
	"epoch": 0.7033435460237112,
	"grad_norm": 0.0781847554601962,
	"learning_rate": 4.892935051563242e-05,
	"loss": 1.1898,
	"step": 1320
	},
	{
	"epoch": 0.7060077261222859,
	"grad_norm": 0.07968044970093434,
	"learning_rate": 4.8131513932183415e-05,
	"loss": 1.2072,
	"step": 1325
	},
	{
	"epoch": 0.7086719062208605,
	"grad_norm": 0.07875194128774458,
	"learning_rate": 4.733816888910483e-05,
	"loss": 1.178,
	"step": 1330
	},
	{
	"epoch": 0.7113360863194352,
	"grad_norm": 0.08181988531463072,
	"learning_rate": 4.654938408593974e-05,
	"loss": 1.1679,
	"step": 1335
	},
	{
	"epoch": 0.7140002664180098,
	"grad_norm": 0.08458887612797164,
	"learning_rate": 4.576522782733802e-05,
	"loss": 1.1925,
	"step": 1340
	},
	{
	"epoch": 0.7166644465165846,
	"grad_norm": 0.07929665848737272,
	"learning_rate": 4.4985768017142014e-05,
	"loss": 1.1942,
	"step": 1345
	},
	{
	"epoch": 0.7193286266151592,
	"grad_norm": 0.0793190517544045,
	"learning_rate": 4.421107215250586e-05,
	"loss": 1.1504,
	"step": 1350
	},
	{
	"epoch": 0.7219928067137339,
	"grad_norm": 0.0793615584488964,
	"learning_rate": 4.3441207318051005e-05,
	"loss": 1.1704,
	"step": 1355
	},
	{
	"epoch": 0.7246569868123085,
	"grad_norm": 0.08055131022376696,
	"learning_rate": 4.2676240180056856e-05,
	"loss": 1.1937,
	"step": 1360
	},
	{
	"epoch": 0.7273211669108832,
	"grad_norm": 0.08173806907452158,
	"learning_rate": 4.191623698068778e-05,
	"loss": 1.1779,
	"step": 1365
	},
	{
	"epoch": 0.7299853470094578,
	"grad_norm": 0.07773805545181321,
	"learning_rate": 4.116126353225703e-05,
	"loss": 1.1846,
	"step": 1370
	},
	{
	"epoch": 0.7326495271080325,
	"grad_norm": 0.07667327254766519,
	"learning_rate": 4.0411385211527684e-05,
	"loss": 1.2095,
	"step": 1375
	},
	{
	"epoch": 0.7353137072066072,
	"grad_norm": 0.08098668895333083,
	"learning_rate": 3.96666669540512e-05,
	"loss": 1.1682,
	"step": 1380
	},
	{
	"epoch": 0.7379778873051819,
	"grad_norm": 0.07984137500350058,
	"learning_rate": 3.892717324854459e-05,
	"loss": 1.1729,
	"step": 1385
	},
	{
	"epoch": 0.7406420674037565,
	"grad_norm": 0.07922048060290626,
	"learning_rate": 3.8192968131305886e-05,
	"loss": 1.1775,
	"step": 1390
	},
	{
	"epoch": 0.7433062475023312,
	"grad_norm": 0.07652665688687964,
	"learning_rate": 3.746411518066894e-05,
	"loss": 1.1621,
	"step": 1395
	},
	{
	"epoch": 0.7459704276009058,
	"grad_norm": 0.0798026979694231,
	"learning_rate": 3.674067751149796e-05,
	"loss": 1.1702,
	"step": 1400
	},
	{
	"epoch": 0.7486346076994805,
	"grad_norm": 0.08300115098412487,
	"learning_rate": 3.602271776972188e-05,
	"loss": 1.1533,
	"step": 1405
	},
	{
	"epoch": 0.7512987877980551,
	"grad_norm": 0.08575297897696614,
	"learning_rate": 3.5310298126909816e-05,
	"loss": 1.2051,
	"step": 1410
	},
	{
	"epoch": 0.7539629678966299,
	"grad_norm": 0.07861668329891834,
	"learning_rate": 3.46034802748872e-05,
	"loss": 1.1804,
	"step": 1415
	},
	{
	"epoch": 0.7566271479952045,
	"grad_norm": 0.07590825262005231,
	"learning_rate": 3.390232542039352e-05,
	"loss": 1.1846,
	"step": 1420
	},
	{
	"epoch": 0.7592913280937792,
	"grad_norm": 0.07760055527146281,
	"learning_rate": 3.320689427978232e-05,
	"loss": 1.174,
	"step": 1425
	},
	{
	"epoch": 0.7619555081923538,
	"grad_norm": 0.07989565355982597,
	"learning_rate": 3.251724707376324e-05,
	"loss": 1.1696,
	"step": 1430
	},
	{
	"epoch": 0.7646196882909284,
	"grad_norm": 0.07764798745610466,
	"learning_rate": 3.1833443522187454e-05,
	"loss": 1.1761,
	"step": 1435
	},
	{
	"epoch": 0.7672838683895031,
	"grad_norm": 0.07976913879065081,
	"learning_rate": 3.115554283887614e-05,
	"loss": 1.1909,
	"step": 1440
	},
	{
	"epoch": 0.7699480484880777,
	"grad_norm": 0.08144781158937257,
	"learning_rate": 3.0483603726492836e-05,
	"loss": 1.1718,
	"step": 1445
	},
	{
	"epoch": 0.7726122285866525,
	"grad_norm": 0.07748040591215276,
	"learning_rate": 2.9817684371460153e-05,
	"loss": 1.1867,
	"step": 1450
	},
	{
	"epoch": 0.7752764086852271,
	"grad_norm": 0.07690798090395808,
	"learning_rate": 2.9157842438921047e-05,
	"loss": 1.201,
	"step": 1455
	},
	{
	"epoch": 0.7779405887838018,
	"grad_norm": 0.07507016568699426,
	"learning_rate": 2.8504135067745464e-05,
	"loss": 1.1881,
	"step": 1460
	},
	{
	"epoch": 0.7806047688823764,
	"grad_norm": 0.07900678246787794,
	"learning_rate": 2.7856618865582318e-05,
	"loss": 1.1734,
	"step": 1465
	},
	{
	"epoch": 0.7832689489809511,
	"grad_norm": 0.08067040264461905,
	"learning_rate": 2.721534990395752e-05,
	"loss": 1.2003,
	"step": 1470
	},
	{
	"epoch": 0.7859331290795257,
	"grad_norm": 0.08005195988665038,
	"learning_rate": 2.658038371341859e-05,
	"loss": 1.1898,
	"step": 1475
	},
	{
	"epoch": 0.7885973091781004,
	"grad_norm": 0.07899201399633156,
	"learning_rate": 2.5951775278725955e-05,
	"loss": 1.1934,
	"step": 1480
	},
	{
	"epoch": 0.7912614892766751,
	"grad_norm": 0.07642642805468737,
	"learning_rate": 2.5329579034091455e-05,
	"loss": 1.2073,
	"step": 1485
	},
	{
	"epoch": 0.7939256693752498,
	"grad_norm": 0.08151590645902157,
	"learning_rate": 2.4713848858464817e-05,
	"loss": 1.181,
	"step": 1490
	},
	{
	"epoch": 0.7965898494738244,
	"grad_norm": 0.07944386459666944,
	"learning_rate": 2.410463807086786e-05,
	"loss": 1.1955,
	"step": 1495
	},
	{
	"epoch": 0.7992540295723991,
	"grad_norm": 0.07711356209897446,
	"learning_rate": 2.3501999425777432e-05,
	"loss": 1.1891,
	"step": 1500
	},
	{
	"epoch": 0.8019182096709737,
	"grad_norm": 0.08004988252971652,
	"learning_rate": 2.2905985108557114e-05,
	"loss": 1.1851,
	"step": 1505
	},
	{
	"epoch": 0.8045823897695484,
	"grad_norm": 0.08534573467737261,
	"learning_rate": 2.2316646730938196e-05,
	"loss": 1.1721,
	"step": 1510
	},
	{
	"epoch": 0.807246569868123,
	"grad_norm": 0.07920097969121198,
	"learning_rate": 2.173403532655046e-05,
	"loss": 1.1694,
	"step": 1515
	},
	{
	"epoch": 0.8099107499666978,
	"grad_norm": 0.07511500294571079,
	"learning_rate": 2.1158201346502926e-05,
	"loss": 1.1746,
	"step": 1520
	},
	{
	"epoch": 0.8125749300652724,
	"grad_norm": 0.07737975818247868,
	"learning_rate": 2.0589194655014898e-05,
	"loss": 1.185,
	"step": 1525
	},
	{
	"epoch": 0.8152391101638471,
	"grad_norm": 0.08190267832244168,
	"learning_rate": 2.0027064525098236e-05,
	"loss": 1.195,
	"step": 1530
	},
	{
	"epoch": 0.8179032902624217,
	"grad_norm": 0.08131306910775678,
	"learning_rate": 1.9471859634290336e-05,
	"loss": 1.1742,
	"step": 1535
	},
	{
	"epoch": 0.8205674703609964,
	"grad_norm": 0.0858733149118693,
	"learning_rate": 1.8923628060439036e-05,
	"loss": 1.1898,
	"step": 1540
	},
	{
	"epoch": 0.823231650459571,
	"grad_norm": 0.07675405619600406,
	"learning_rate": 1.838241727753931e-05,
	"loss": 1.1881,
	"step": 1545
	},
	{
	"epoch": 0.8258958305581457,
	"grad_norm": 0.07682847096326867,
	"learning_rate": 1.7848274151622234e-05,
	"loss": 1.1805,
	"step": 1550
	},
	{
	"epoch": 0.8285600106567204,
	"grad_norm": 0.08364774954218579,
	"learning_rate": 1.732124493669671e-05,
	"loss": 1.192,
	"step": 1555
	},
	{
	"epoch": 0.8312241907552951,
	"grad_norm": 0.07984768371406777,
	"learning_rate": 1.6801375270743924e-05,
	"loss": 1.1858,
	"step": 1560
	},
	{
	"epoch": 0.8338883708538697,
	"grad_norm": 0.08106959134364375,
	"learning_rate": 1.6288710171765576e-05,
	"loss": 1.1813,
	"step": 1565
	},
	{
	"epoch": 0.8365525509524444,
	"grad_norm": 0.07836491305718539,
	"learning_rate": 1.578329403388541e-05,
	"loss": 1.1881,
	"step": 1570
	},
	{
	"epoch": 0.839216731051019,
	"grad_norm": 0.0758115839482243,
	"learning_rate": 1.528517062350492e-05,
	"loss": 1.1889,
	"step": 1575
	},
	{
	"epoch": 0.8418809111495937,
	"grad_norm": 0.07588248787185455,
	"learning_rate": 1.4794383075513452e-05,
	"loss": 1.1768,
	"step": 1580
	},
	{
	"epoch": 0.8445450912481683,
	"grad_norm": 0.08067020299948538,
	"learning_rate": 1.431097388955297e-05,
	"loss": 1.2063,
	"step": 1585
	},
	{
	"epoch": 0.8472092713467431,
	"grad_norm": 0.07642268182718946,
	"learning_rate": 1.3834984926337657e-05,
	"loss": 1.1589,
	"step": 1590
	},
	{
	"epoch": 0.8498734514453177,
	"grad_norm": 0.07651179067647247,
	"learning_rate": 1.3366457404029275e-05,
	"loss": 1.2185,
	"step": 1595
	},
	{
	"epoch": 0.8525376315438924,
	"grad_norm": 0.07900907023829833,
	"learning_rate": 1.2905431894667553e-05,
	"loss": 1.163,
	"step": 1600
	},
	{
	"epoch": 0.855201811642467,
	"grad_norm": 0.07852531932632778,
	"learning_rate": 1.2451948320657114e-05,
	"loss": 1.1827,
	"step": 1605
	},
	{
	"epoch": 0.8578659917410417,
	"grad_norm": 0.08065290367816753,
	"learning_rate": 1.200604595131033e-05,
	"loss": 1.1723,
	"step": 1610
	},
	{
	"epoch": 0.8605301718396163,
	"grad_norm": 0.0779423491553262,
	"learning_rate": 1.1567763399446718e-05,
	"loss": 1.1636,
	"step": 1615
	},
	{
	"epoch": 0.863194351938191,
	"grad_norm": 0.07899604520177515,
	"learning_rate": 1.1137138618049404e-05,
	"loss": 1.2024,
	"step": 1620
	},
	{
	"epoch": 0.8658585320367657,
	"grad_norm": 0.08253045338915561,
	"learning_rate": 1.0714208896978484e-05,
	"loss": 1.1735,
	"step": 1625
	},
	{
	"epoch": 0.8685227121353404,
	"grad_norm": 0.07870321328036661,
	"learning_rate": 1.0299010859742009e-05,
	"loss": 1.1731,
	"step": 1630
	},
	{
	"epoch": 0.871186892233915,
	"grad_norm": 0.08272725502586431,
	"learning_rate": 9.891580460324523e-06,
	"loss": 1.1929,
	"step": 1635
	},
	{
	"epoch": 0.8738510723324897,
	"grad_norm": 0.07935943504829367,
	"learning_rate": 9.491952980073604e-06,
	"loss": 1.1709,
	"step": 1640
	},
	{
	"epoch": 0.8765152524310643,
	"grad_norm": 0.07895683534188976,
	"learning_rate": 9.100163024644815e-06,
	"loss": 1.1712,
	"step": 1645
	},
	{
	"epoch": 0.879179432529639,
	"grad_norm": 0.08082741880893497,
	"learning_rate": 8.716244521004846e-06,
	"loss": 1.1698,
	"step": 1650
	},
	{
	"epoch": 0.8818436126282136,
	"grad_norm": 0.07991694698538618,
	"learning_rate": 8.34023071449378e-06,
	"loss": 1.1789,
	"step": 1655
	},
	{
	"epoch": 0.8845077927267884,
	"grad_norm": 0.08214765689148273,
	"learning_rate": 7.972154165946155e-06,
	"loss": 1.1845,
	"step": 1660
	},
	{
	"epoch": 0.887171972825363,
	"grad_norm": 0.08176590536508709,
	"learning_rate": 7.612046748871327e-06,
	"loss": 1.1771,
	"step": 1665
	},
	{
	"epoch": 0.8898361529239377,
	"grad_norm": 0.0808798899357427,
	"learning_rate": 7.25993964669347e-06,
	"loss": 1.2,
	"step": 1670
	},
	{
	"epoch": 0.8925003330225123,
	"grad_norm": 0.07776019044347303,
	"learning_rate": 6.915863350051199e-06,
	"loss": 1.204,
	"step": 1675
	},
	{
	"epoch": 0.895164513121087,
	"grad_norm": 0.07706209163365262,
	"learning_rate": 6.579847654157234e-06,
	"loss": 1.1972,
	"step": 1680
	},
	{
	"epoch": 0.8978286932196616,
	"grad_norm": 0.07653638119319102,
	"learning_rate": 6.2519216562183516e-06,
	"loss": 1.1623,
	"step": 1685
	},
	{
	"epoch": 0.9004928733182364,
	"grad_norm": 0.07709508406908554,
	"learning_rate": 5.932113752915658e-06,
	"loss": 1.165,
	"step": 1690
	},
	{
	"epoch": 0.903157053416811,
	"grad_norm": 0.07922295657062284,
	"learning_rate": 5.620451637945567e-06,
	"loss": 1.19,
	"step": 1695
	},
	{
	"epoch": 0.9058212335153857,
	"grad_norm": 0.07654014983869019,
	"learning_rate": 5.316962299621808e-06,
	"loss": 1.1708,
	"step": 1700
	},
	{
	"epoch": 0.9084854136139603,
	"grad_norm": 0.07678567172116282,
	"learning_rate": 5.0216720185381595e-06,
	"loss": 1.1873,
	"step": 1705
	},
	{
	"epoch": 0.911149593712535,
	"grad_norm": 0.07752534581690265,
	"learning_rate": 4.734606365292871e-06,
	"loss": 1.175,
	"step": 1710
	},
	{
	"epoch": 0.9138137738111096,
	"grad_norm": 0.07543079231709852,
	"learning_rate": 4.4557901982743345e-06,
	"loss": 1.1718,
	"step": 1715
	},
	{
	"epoch": 0.9164779539096843,
	"grad_norm": 0.0847130046966339,
	"learning_rate": 4.185247661508396e-06,
	"loss": 1.1853,
	"step": 1720
	},
	{
	"epoch": 0.919142134008259,
	"grad_norm": 0.07672126462506362,
	"learning_rate": 3.923002182567737e-06,
	"loss": 1.1528,
	"step": 1725
	},
	{
	"epoch": 0.9218063141068337,
	"grad_norm": 0.08103275321155728,
	"learning_rate": 3.6690764705430537e-06,
	"loss": 1.1925,
	"step": 1730
	},
	{
	"epoch": 0.9244704942054083,
	"grad_norm": 0.07625095781555866,
	"learning_rate": 3.423492514076654e-06,
	"loss": 1.1466,
	"step": 1735
	},
	{
	"epoch": 0.927134674303983,
	"grad_norm": 0.07795348864062035,
	"learning_rate": 3.186271579458333e-06,
	"loss": 1.1804,
	"step": 1740
	},
	{
	"epoch": 0.9297988544025576,
	"grad_norm": 0.0798431550705619,
	"learning_rate": 2.9574342087837382e-06,
	"loss": 1.1948,
	"step": 1745
	},
	{
	"epoch": 0.9324630345011323,
	"grad_norm": 0.07723730498120181,
	"learning_rate": 2.7370002181757114e-06,
	"loss": 1.194,
	"step": 1750
	},
	{
	"epoch": 0.9351272145997069,
	"grad_norm": 0.076024197686587,
	"learning_rate": 2.52498869606812e-06,
	"loss": 1.1553,
	"step": 1755
	},
	{
	"epoch": 0.9377913946982817,
	"grad_norm": 0.07525767304214721,
	"learning_rate": 2.3214180015530218e-06,
	"loss": 1.1717,
	"step": 1760
	},
	{
	"epoch": 0.9404555747968563,
	"grad_norm": 0.07866979015778834,
	"learning_rate": 2.1263057627908478e-06,
	"loss": 1.1877,
	"step": 1765
	},
	{
	"epoch": 0.943119754895431,
	"grad_norm": 0.07918446703667696,
	"learning_rate": 1.9396688754838355e-06,
	"loss": 1.1825,
	"step": 1770
	},
	{
	"epoch": 0.9457839349940056,
	"grad_norm": 0.07807410852748545,
	"learning_rate": 1.7615235014130205e-06,
	"loss": 1.1597,
	"step": 1775
	},
	{
	"epoch": 0.9484481150925803,
	"grad_norm": 0.07773597995281895,
	"learning_rate": 1.5918850670386676e-06,
	"loss": 1.1736,
	"step": 1780
	},
	{
	"epoch": 0.9511122951911549,
	"grad_norm": 0.08101968421115548,
	"learning_rate": 1.4307682621644392e-06,
	"loss": 1.1726,
	"step": 1785
	},
	{
	"epoch": 0.9537764752897295,
	"grad_norm": 0.07640809417651317,
	"learning_rate": 1.2781870386653017e-06,
	"loss": 1.176,
	"step": 1790
	},
	{
	"epoch": 0.9564406553883043,
	"grad_norm": 0.07624826302993815,
	"learning_rate": 1.1341546092794475e-06,
	"loss": 1.1712,
	"step": 1795
	},
	{
	"epoch": 0.9591048354868789,
	"grad_norm": 0.07644512408140866,
	"learning_rate": 9.986834464640328e-07,
	"loss": 1.1804,
	"step": 1800
	},
	{
	"epoch": 0.9617690155854536,
	"grad_norm": 0.078535810502388,
	"learning_rate": 8.717852813152073e-07,
	"loss": 1.1634,
	"step": 1805
	},
	{
	"epoch": 0.9644331956840282,
	"grad_norm": 0.07806596561964084,
	"learning_rate": 7.534711025522167e-07,
	"loss": 1.1685,
	"step": 1810
	},
	{
	"epoch": 0.9670973757826029,
	"grad_norm": 0.07845914770402948,
	"learning_rate": 6.437511555658748e-07,
	"loss": 1.1704,
	"step": 1815
	},
	{
	"epoch": 0.9697615558811775,
	"grad_norm": 0.07631630513554058,
	"learning_rate": 5.426349415313503e-07,
	"loss": 1.167,
	"step": 1820
	},
	{
	"epoch": 0.9724257359797522,
	"grad_norm": 0.07644461634231602,
	"learning_rate": 4.5013121658538107e-07,
	"loss": 1.1952,
	"step": 1825
	},
	{
	"epoch": 0.9750899160783268,
	"grad_norm": 0.07797081390243328,
	"learning_rate": 3.662479910681027e-07,
	"loss": 1.1587,
	"step": 1830
	},
	{
	"epoch": 0.9777540961769016,
	"grad_norm": 0.07746705967903876,
	"learning_rate": 2.909925288293369e-07,
	"loss": 1.1729,
	"step": 1835
	},
	{
	"epoch": 0.9804182762754762,
	"grad_norm": 0.08118653860364235,
	"learning_rate": 2.2437134659962778e-07,
	"loss": 1.1637,
	"step": 1840
	},
	{
	"epoch": 0.9830824563740509,
	"grad_norm": 0.07709302387499754,
	"learning_rate": 1.6639021342588213e-07,
	"loss": 1.1714,
	"step": 1845
	},
	{
	"epoch": 0.9857466364726255,
	"grad_norm": 0.07514251112734556,
	"learning_rate": 1.1705415017183585e-07,
	"loss": 1.1826,
	"step": 1850
	},
	{
	"epoch": 0.9884108165712002,
	"grad_norm": 0.07785113536208763,
	"learning_rate": 7.636742908324613e-08,
	"loss": 1.1894,
	"step": 1855
	},
	{
	"epoch": 0.9910749966697748,
	"grad_norm": 0.08355649548742282,
	"learning_rate": 4.4333573417953967e-08,
	"loss": 1.1833,
	"step": 1860
	},
	{
	"epoch": 0.9937391767683496,
	"grad_norm": 0.07679966879567424,
	"learning_rate": 2.0955357140783893e-08,
	"loss": 1.1922,
	"step": 1865
	},
	{
	"epoch": 0.9964033568669242,
	"grad_norm": 0.07806796015090577,
	"learning_rate": 6.234804683336038e-09,
	"loss": 1.1612,
	"step": 1870
	},
	{
	"epoch": 0.9990675369654989,
	"grad_norm": 0.07653772348938681,
	"learning_rate": 1.7319076868194117e-10,
	"loss": 1.1679,
	"step": 1875
	},
	{
	"epoch": 0.9996003729852138,
	"eval_loss": 1.1644140481948853,
	"eval_runtime": 1556.6302,
	"eval_samples_per_second": 8.594,
	"eval_steps_per_second": 0.538,
	"step": 1876
	},
	{
	"epoch": 0.9996003729852138,
	"step": 1876,
	"total_flos": 2.3594858912415744e+16,
	"train_loss": 1.2015958401694227,
	"train_runtime": 40566.6998,
	"train_samples_per_second": 2.961,
	"train_steps_per_second": 0.046
	}
	],
	"logging_steps": 5,
	"max_steps": 1876,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 25,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.3594858912415744e+16,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}