Upload v1.0 CCTV caption model

052abf4 verified 17 days ago

144 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9719154307352477,
	"eval_steps": 770,
	"global_step": 770,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0012622278321236984,
	"grad_norm": 1.1810976266860962,
	"learning_rate": 0.0,
	"loss": 2.1786725521087646,
	"step": 1
	},
	{
	"epoch": 0.0025244556642473968,
	"grad_norm": 1.1999785900115967,
	"learning_rate": 4e-05,
	"loss": 1.9390826225280762,
	"step": 2
	},
	{
	"epoch": 0.003786683496371095,
	"grad_norm": 1.2012475728988647,
	"learning_rate": 8e-05,
	"loss": 1.841808795928955,
	"step": 3
	},
	{
	"epoch": 0.0050489113284947935,
	"grad_norm": 1.4274017810821533,
	"learning_rate": 0.00012,
	"loss": 2.174586772918701,
	"step": 4
	},
	{
	"epoch": 0.006311139160618492,
	"grad_norm": 0.5815935730934143,
	"learning_rate": 0.00016,
	"loss": 1.7276136875152588,
	"step": 5
	},
	{
	"epoch": 0.00757336699274219,
	"grad_norm": 0.48476865887641907,
	"learning_rate": 0.0002,
	"loss": 1.6276743412017822,
	"step": 6
	},
	{
	"epoch": 0.008835594824865888,
	"grad_norm": 0.5590611696243286,
	"learning_rate": 0.0001999991567695732,
	"loss": 1.6253315210342407,
	"step": 7
	},
	{
	"epoch": 0.010097822656989587,
	"grad_norm": 0.5516509413719177,
	"learning_rate": 0.00019999662709251355,
	"loss": 1.457699179649353,
	"step": 8
	},
	{
	"epoch": 0.011360050489113285,
	"grad_norm": 1.3951493501663208,
	"learning_rate": 0.00019999241101148306,
	"loss": 1.448043942451477,
	"step": 9
	},
	{
	"epoch": 0.012622278321236984,
	"grad_norm": 0.7879750728607178,
	"learning_rate": 0.0001999865085975843,
	"loss": 1.127958059310913,
	"step": 10
	},
	{
	"epoch": 0.013884506153360681,
	"grad_norm": 0.6136755347251892,
	"learning_rate": 0.00019997891995035912,
	"loss": 1.29304039478302,
	"step": 11
	},
	{
	"epoch": 0.01514673398548438,
	"grad_norm": 0.8061326146125793,
	"learning_rate": 0.0001999696451977872,
	"loss": 0.9419246912002563,
	"step": 12
	},
	{
	"epoch": 0.016408961817608078,
	"grad_norm": 0.6488391757011414,
	"learning_rate": 0.00019995868449628346,
	"loss": 0.8523351550102234,
	"step": 13
	},
	{
	"epoch": 0.017671189649731776,
	"grad_norm": 0.9592429399490356,
	"learning_rate": 0.00019994603803069594,
	"loss": 0.7415441870689392,
	"step": 14
	},
	{
	"epoch": 0.018933417481855473,
	"grad_norm": 0.6320379972457886,
	"learning_rate": 0.0001999317060143023,
	"loss": 0.9742417335510254,
	"step": 15
	},
	{
	"epoch": 0.020195645313979174,
	"grad_norm": 0.6976192593574524,
	"learning_rate": 0.0001999156886888064,
	"loss": 1.0749256610870361,
	"step": 16
	},
	{
	"epoch": 0.02145787314610287,
	"grad_norm": 0.6568692922592163,
	"learning_rate": 0.00019989798632433415,
	"loss": 0.7685850262641907,
	"step": 17
	},
	{
	"epoch": 0.02272010097822657,
	"grad_norm": 0.48727890849113464,
	"learning_rate": 0.00019987859921942903,
	"loss": 0.5362906455993652,
	"step": 18
	},
	{
	"epoch": 0.023982328810350267,
	"grad_norm": 0.42397183179855347,
	"learning_rate": 0.0001998575277010469,
	"loss": 0.6970788836479187,
	"step": 19
	},
	{
	"epoch": 0.025244556642473968,
	"grad_norm": 0.4272933602333069,
	"learning_rate": 0.00019983477212455074,
	"loss": 0.8377600312232971,
	"step": 20
	},
	{
	"epoch": 0.026506784474597665,
	"grad_norm": 0.3498779535293579,
	"learning_rate": 0.00019981033287370443,
	"loss": 0.7417164444923401,
	"step": 21
	},
	{
	"epoch": 0.027769012306721363,
	"grad_norm": 0.45754557847976685,
	"learning_rate": 0.00019978421036066633,
	"loss": 0.7524069547653198,
	"step": 22
	},
	{
	"epoch": 0.02903124013884506,
	"grad_norm": 0.406505823135376,
	"learning_rate": 0.00019975640502598244,
	"loss": 0.8919811248779297,
	"step": 23
	},
	{
	"epoch": 0.03029346797096876,
	"grad_norm": 0.3776075839996338,
	"learning_rate": 0.00019972691733857883,
	"loss": 0.5425232648849487,
	"step": 24
	},
	{
	"epoch": 0.031555695803092455,
	"grad_norm": 0.4487985670566559,
	"learning_rate": 0.00019969574779575376,
	"loss": 0.5764633417129517,
	"step": 25
	},
	{
	"epoch": 0.032817923635216156,
	"grad_norm": 0.4203525483608246,
	"learning_rate": 0.00019966289692316944,
	"loss": 0.7679987549781799,
	"step": 26
	},
	{
	"epoch": 0.03408015146733986,
	"grad_norm": 0.36741408705711365,
	"learning_rate": 0.00019962836527484296,
	"loss": 0.6128969192504883,
	"step": 27
	},
	{
	"epoch": 0.03534237929946355,
	"grad_norm": 0.3909834325313568,
	"learning_rate": 0.00019959215343313703,
	"loss": 0.6979946494102478,
	"step": 28
	},
	{
	"epoch": 0.03660460713158725,
	"grad_norm": 0.3810923099517822,
	"learning_rate": 0.00019955426200875018,
	"loss": 0.8191502690315247,
	"step": 29
	},
	{
	"epoch": 0.037866834963710946,
	"grad_norm": 0.4916118085384369,
	"learning_rate": 0.00019951469164070646,
	"loss": 0.9299726486206055,
	"step": 30
	},
	{
	"epoch": 0.03912906279583465,
	"grad_norm": 0.37555935978889465,
	"learning_rate": 0.00019947344299634464,
	"loss": 1.0361579656600952,
	"step": 31
	},
	{
	"epoch": 0.04039129062795835,
	"grad_norm": 0.42949214577674866,
	"learning_rate": 0.00019943051677130696,
	"loss": 0.8678889274597168,
	"step": 32
	},
	{
	"epoch": 0.04165351846008204,
	"grad_norm": 0.41855067014694214,
	"learning_rate": 0.0001993859136895274,
	"loss": 0.8316136002540588,
	"step": 33
	},
	{
	"epoch": 0.04291574629220574,
	"grad_norm": 0.4109402894973755,
	"learning_rate": 0.00019933963450321945,
	"loss": 0.6912973523139954,
	"step": 34
	},
	{
	"epoch": 0.044177974124329444,
	"grad_norm": 0.4073610007762909,
	"learning_rate": 0.0001992916799928635,
	"loss": 0.9194254875183105,
	"step": 35
	},
	{
	"epoch": 0.04544020195645314,
	"grad_norm": 0.4720235764980316,
	"learning_rate": 0.0001992420509671936,
	"loss": 0.7957297563552856,
	"step": 36
	},
	{
	"epoch": 0.04670242978857684,
	"grad_norm": 0.3987046182155609,
	"learning_rate": 0.0001991907482631838,
	"loss": 0.6258067488670349,
	"step": 37
	},
	{
	"epoch": 0.04796465762070053,
	"grad_norm": 0.4448748528957367,
	"learning_rate": 0.00019913777274603418,
	"loss": 1.003873348236084,
	"step": 38
	},
	{
	"epoch": 0.049226885452824234,
	"grad_norm": 0.4538639783859253,
	"learning_rate": 0.00019908312530915603,
	"loss": 0.8705529570579529,
	"step": 39
	},
	{
	"epoch": 0.050489113284947935,
	"grad_norm": 3.1903927326202393,
	"learning_rate": 0.00019902680687415705,
	"loss": 0.5736751556396484,
	"step": 40
	},
	{
	"epoch": 0.05175134111707163,
	"grad_norm": 0.34906044602394104,
	"learning_rate": 0.00019896881839082556,
	"loss": 0.6542955636978149,
	"step": 41
	},
	{
	"epoch": 0.05301356894919533,
	"grad_norm": 3.0380051136016846,
	"learning_rate": 0.0001989091608371146,
	"loss": 0.9085805416107178,
	"step": 42
	},
	{
	"epoch": 0.05427579678131903,
	"grad_norm": 0.3339233696460724,
	"learning_rate": 0.00019884783521912554,
	"loss": 0.4547462463378906,
	"step": 43
	},
	{
	"epoch": 0.055538024613442726,
	"grad_norm": 0.38581445813179016,
	"learning_rate": 0.00019878484257109083,
	"loss": 0.5983158349990845,
	"step": 44
	},
	{
	"epoch": 0.056800252445566426,
	"grad_norm": 0.3721480071544647,
	"learning_rate": 0.0001987201839553569,
	"loss": 0.8342102766036987,
	"step": 45
	},
	{
	"epoch": 0.05806248027769012,
	"grad_norm": 0.4079038202762604,
	"learning_rate": 0.00019865386046236596,
	"loss": 0.854637861251831,
	"step": 46
	},
	{
	"epoch": 0.05932470810981382,
	"grad_norm": 0.33452996611595154,
	"learning_rate": 0.00019858587321063776,
	"loss": 0.48024851083755493,
	"step": 47
	},
	{
	"epoch": 0.06058693594193752,
	"grad_norm": 0.35006284713745117,
	"learning_rate": 0.00019851622334675066,
	"loss": 0.7163654565811157,
	"step": 48
	},
	{
	"epoch": 0.06184916377406122,
	"grad_norm": 0.41123610734939575,
	"learning_rate": 0.00019844491204532236,
	"loss": 0.4998229742050171,
	"step": 49
	},
	{
	"epoch": 0.06311139160618491,
	"grad_norm": 0.3749666213989258,
	"learning_rate": 0.0001983719405089901,
	"loss": 0.48700374364852905,
	"step": 50
	},
	{
	"epoch": 0.06437361943830862,
	"grad_norm": 0.41837647557258606,
	"learning_rate": 0.0001982973099683902,
	"loss": 1.0134358406066895,
	"step": 51
	},
	{
	"epoch": 0.06563584727043231,
	"grad_norm": 0.3964208960533142,
	"learning_rate": 0.00019822102168213753,
	"loss": 0.8818788528442383,
	"step": 52
	},
	{
	"epoch": 0.066898075102556,
	"grad_norm": 0.4097653925418854,
	"learning_rate": 0.0001981430769368042,
	"loss": 0.6342326998710632,
	"step": 53
	},
	{
	"epoch": 0.06816030293467971,
	"grad_norm": 0.3813578188419342,
	"learning_rate": 0.00019806347704689778,
	"loss": 0.6181271076202393,
	"step": 54
	},
	{
	"epoch": 0.06942253076680341,
	"grad_norm": 0.36281293630599976,
	"learning_rate": 0.00019798222335483932,
	"loss": 0.9839555025100708,
	"step": 55
	},
	{
	"epoch": 0.0706847585989271,
	"grad_norm": 0.4149906039237976,
	"learning_rate": 0.00019789931723094046,
	"loss": 0.6778839826583862,
	"step": 56
	},
	{
	"epoch": 0.07194698643105081,
	"grad_norm": 0.3341962993144989,
	"learning_rate": 0.00019781476007338058,
	"loss": 0.47752535343170166,
	"step": 57
	},
	{
	"epoch": 0.0732092142631745,
	"grad_norm": 0.3859621286392212,
	"learning_rate": 0.000197728553308183,
	"loss": 0.8040428161621094,
	"step": 58
	},
	{
	"epoch": 0.0744714420952982,
	"grad_norm": 0.4537695348262787,
	"learning_rate": 0.0001976406983891911,
	"loss": 0.5346378684043884,
	"step": 59
	},
	{
	"epoch": 0.07573366992742189,
	"grad_norm": 0.39911121129989624,
	"learning_rate": 0.00019755119679804367,
	"loss": 0.8945479989051819,
	"step": 60
	},
	{
	"epoch": 0.0769958977595456,
	"grad_norm": 0.3326367437839508,
	"learning_rate": 0.00019746005004415005,
	"loss": 0.40628719329833984,
	"step": 61
	},
	{
	"epoch": 0.0782581255916693,
	"grad_norm": 0.3570570945739746,
	"learning_rate": 0.0001973672596646645,
	"loss": 0.4461412727832794,
	"step": 62
	},
	{
	"epoch": 0.07952035342379299,
	"grad_norm": 0.46154263615608215,
	"learning_rate": 0.00019727282722446047,
	"loss": 0.8460710048675537,
	"step": 63
	},
	{
	"epoch": 0.0807825812559167,
	"grad_norm": 0.3912942111492157,
	"learning_rate": 0.00019717675431610415,
	"loss": 0.855891764163971,
	"step": 64
	},
	{
	"epoch": 0.08204480908804039,
	"grad_norm": 0.39667049050331116,
	"learning_rate": 0.00019707904255982745,
	"loss": 0.7594934105873108,
	"step": 65
	},
	{
	"epoch": 0.08330703692016408,
	"grad_norm": 0.37858495116233826,
	"learning_rate": 0.00019697969360350098,
	"loss": 0.8552739024162292,
	"step": 66
	},
	{
	"epoch": 0.08456926475228779,
	"grad_norm": 0.3944226801395416,
	"learning_rate": 0.0001968787091226059,
	"loss": 0.6596317291259766,
	"step": 67
	},
	{
	"epoch": 0.08583149258441149,
	"grad_norm": 0.4035973846912384,
	"learning_rate": 0.00019677609082020597,
	"loss": 0.7658134698867798,
	"step": 68
	},
	{
	"epoch": 0.08709372041653518,
	"grad_norm": 0.3967765271663666,
	"learning_rate": 0.00019667184042691875,
	"loss": 0.768731951713562,
	"step": 69
	},
	{
	"epoch": 0.08835594824865889,
	"grad_norm": 0.40382981300354004,
	"learning_rate": 0.00019656595970088628,
	"loss": 0.689699649810791,
	"step": 70
	},
	{
	"epoch": 0.08961817608078258,
	"grad_norm": 0.3337244391441345,
	"learning_rate": 0.00019645845042774553,
	"loss": 0.33471691608428955,
	"step": 71
	},
	{
	"epoch": 0.09088040391290628,
	"grad_norm": 0.32900235056877136,
	"learning_rate": 0.00019634931442059832,
	"loss": 0.8053317070007324,
	"step": 72
	},
	{
	"epoch": 0.09214263174502998,
	"grad_norm": 0.33187833428382874,
	"learning_rate": 0.00019623855351998072,
	"loss": 0.4668503999710083,
	"step": 73
	},
	{
	"epoch": 0.09340485957715368,
	"grad_norm": 0.4185413420200348,
	"learning_rate": 0.0001961261695938319,
	"loss": 0.7394185066223145,
	"step": 74
	},
	{
	"epoch": 0.09466708740927737,
	"grad_norm": 0.3454440236091614,
	"learning_rate": 0.00019601216453746283,
	"loss": 0.5356079339981079,
	"step": 75
	},
	{
	"epoch": 0.09592931524140107,
	"grad_norm": 0.36690330505371094,
	"learning_rate": 0.00019589654027352414,
	"loss": 0.496408611536026,
	"step": 76
	},
	{
	"epoch": 0.09719154307352477,
	"grad_norm": 1.212344765663147,
	"learning_rate": 0.00019577929875197377,
	"loss": 1.0225098133087158,
	"step": 77
	},
	{
	"epoch": 0.09845377090564847,
	"grad_norm": 0.43937745690345764,
	"learning_rate": 0.0001956604419500441,
	"loss": 0.7864935398101807,
	"step": 78
	},
	{
	"epoch": 0.09971599873777216,
	"grad_norm": 0.37690651416778564,
	"learning_rate": 0.00019553997187220855,
	"loss": 0.4752700924873352,
	"step": 79
	},
	{
	"epoch": 0.10097822656989587,
	"grad_norm": 0.34280529618263245,
	"learning_rate": 0.00019541789055014784,
	"loss": 0.5001055002212524,
	"step": 80
	},
	{
	"epoch": 0.10224045440201956,
	"grad_norm": 0.37480127811431885,
	"learning_rate": 0.00019529420004271567,
	"loss": 0.6418332457542419,
	"step": 81
	},
	{
	"epoch": 0.10350268223414326,
	"grad_norm": 0.3891831338405609,
	"learning_rate": 0.000195168902435904,
	"loss": 0.8710986375808716,
	"step": 82
	},
	{
	"epoch": 0.10476491006626697,
	"grad_norm": 0.3586503565311432,
	"learning_rate": 0.00019504199984280799,
	"loss": 0.6337010860443115,
	"step": 83
	},
	{
	"epoch": 0.10602713789839066,
	"grad_norm": 0.36571335792541504,
	"learning_rate": 0.00019491349440359015,
	"loss": 0.7422975301742554,
	"step": 84
	},
	{
	"epoch": 0.10728936573051435,
	"grad_norm": 0.39639922976493835,
	"learning_rate": 0.00019478338828544435,
	"loss": 0.8967505097389221,
	"step": 85
	},
	{
	"epoch": 0.10855159356263806,
	"grad_norm": 0.409046471118927,
	"learning_rate": 0.00019465168368255946,
	"loss": 0.6384124159812927,
	"step": 86
	},
	{
	"epoch": 0.10981382139476176,
	"grad_norm": 0.40344712138175964,
	"learning_rate": 0.00019451838281608197,
	"loss": 0.8778766393661499,
	"step": 87
	},
	{
	"epoch": 0.11107604922688545,
	"grad_norm": 0.32860085368156433,
	"learning_rate": 0.00019438348793407881,
	"loss": 0.4792889654636383,
	"step": 88
	},
	{
	"epoch": 0.11233827705900915,
	"grad_norm": 0.39201056957244873,
	"learning_rate": 0.0001942470013114994,
	"loss": 0.7574765086174011,
	"step": 89
	},
	{
	"epoch": 0.11360050489113285,
	"grad_norm": 0.3348289728164673,
	"learning_rate": 0.0001941089252501372,
	"loss": 0.9156350493431091,
	"step": 90
	},
	{
	"epoch": 0.11486273272325655,
	"grad_norm": 0.40806034207344055,
	"learning_rate": 0.00019396926207859084,
	"loss": 0.5706713795661926,
	"step": 91
	},
	{
	"epoch": 0.11612496055538024,
	"grad_norm": 0.4064014256000519,
	"learning_rate": 0.00019382801415222516,
	"loss": 0.697914719581604,
	"step": 92
	},
	{
	"epoch": 0.11738718838750395,
	"grad_norm": 0.3701585829257965,
	"learning_rate": 0.00019368518385313107,
	"loss": 0.5228875279426575,
	"step": 93
	},
	{
	"epoch": 0.11864941621962764,
	"grad_norm": 0.4085630476474762,
	"learning_rate": 0.0001935407735900857,
	"loss": 0.5461081266403198,
	"step": 94
	},
	{
	"epoch": 0.11991164405175134,
	"grad_norm": 0.42529523372650146,
	"learning_rate": 0.00019339478579851155,
	"loss": 0.7004275918006897,
	"step": 95
	},
	{
	"epoch": 0.12117387188387505,
	"grad_norm": 0.3296562731266022,
	"learning_rate": 0.00019324722294043558,
	"loss": 0.728748619556427,
	"step": 96
	},
	{
	"epoch": 0.12243609971599874,
	"grad_norm": 0.35158950090408325,
	"learning_rate": 0.0001930980875044477,
	"loss": 0.4642578959465027,
	"step": 97
	},
	{
	"epoch": 0.12369832754812243,
	"grad_norm": 0.3580923080444336,
	"learning_rate": 0.00019294738200565856,
	"loss": 0.6952727437019348,
	"step": 98
	},
	{
	"epoch": 0.12496055538024614,
	"grad_norm": 0.3877851963043213,
	"learning_rate": 0.0001927951089856575,
	"loss": 0.9369809031486511,
	"step": 99
	},
	{
	"epoch": 0.12622278321236982,
	"grad_norm": 0.35963308811187744,
	"learning_rate": 0.0001926412710124693,
	"loss": 0.8294747471809387,
	"step": 100
	},
	{
	"epoch": 0.12748501104449353,
	"grad_norm": 0.3461640179157257,
	"learning_rate": 0.0001924858706805112,
	"loss": 0.5015355348587036,
	"step": 101
	},
	{
	"epoch": 0.12874723887661724,
	"grad_norm": 0.41662901639938354,
	"learning_rate": 0.00019232891061054895,
	"loss": 0.613286018371582,
	"step": 102
	},
	{
	"epoch": 0.13000946670874092,
	"grad_norm": 0.39659371972084045,
	"learning_rate": 0.0001921703934496527,
	"loss": 0.7263169884681702,
	"step": 103
	},
	{
	"epoch": 0.13127169454086463,
	"grad_norm": 0.3626038134098053,
	"learning_rate": 0.00019201032187115234,
	"loss": 0.5920513272285461,
	"step": 104
	},
	{
	"epoch": 0.13253392237298833,
	"grad_norm": 0.25446978211402893,
	"learning_rate": 0.00019184869857459232,
	"loss": 0.20390769839286804,
	"step": 105
	},
	{
	"epoch": 0.133796150205112,
	"grad_norm": 0.3908882439136505,
	"learning_rate": 0.00019168552628568631,
	"loss": 0.911649763584137,
	"step": 106
	},
	{
	"epoch": 0.13505837803723572,
	"grad_norm": 0.5168955326080322,
	"learning_rate": 0.00019152080775627103,
	"loss": 0.783044159412384,
	"step": 107
	},
	{
	"epoch": 0.13632060586935943,
	"grad_norm": 0.32102423906326294,
	"learning_rate": 0.0001913545457642601,
	"loss": 0.284521222114563,
	"step": 108
	},
	{
	"epoch": 0.1375828337014831,
	"grad_norm": 0.41527506709098816,
	"learning_rate": 0.00019118674311359684,
	"loss": 0.690119206905365,
	"step": 109
	},
	{
	"epoch": 0.13884506153360682,
	"grad_norm": 0.3743795156478882,
	"learning_rate": 0.0001910174026342073,
	"loss": 0.8299716711044312,
	"step": 110
	},
	{
	"epoch": 0.14010728936573053,
	"grad_norm": 0.4144361615180969,
	"learning_rate": 0.00019084652718195238,
	"loss": 0.7170496582984924,
	"step": 111
	},
	{
	"epoch": 0.1413695171978542,
	"grad_norm": 0.3862667679786682,
	"learning_rate": 0.00019067411963857967,
	"loss": 0.6340428590774536,
	"step": 112
	},
	{
	"epoch": 0.1426317450299779,
	"grad_norm": 0.41245025396347046,
	"learning_rate": 0.0001905001829116749,
	"loss": 0.644637405872345,
	"step": 113
	},
	{
	"epoch": 0.14389397286210162,
	"grad_norm": 0.34236887097358704,
	"learning_rate": 0.0001903247199346129,
	"loss": 0.5065594911575317,
	"step": 114
	},
	{
	"epoch": 0.1451562006942253,
	"grad_norm": 0.406076043844223,
	"learning_rate": 0.00019014773366650807,
	"loss": 0.8917930126190186,
	"step": 115
	},
	{
	"epoch": 0.146418428526349,
	"grad_norm": 0.3787905275821686,
	"learning_rate": 0.00018996922709216455,
	"loss": 0.8648253083229065,
	"step": 116
	},
	{
	"epoch": 0.14768065635847272,
	"grad_norm": 0.3749518096446991,
	"learning_rate": 0.00018978920322202582,
	"loss": 0.6751912832260132,
	"step": 117
	},
	{
	"epoch": 0.1489428841905964,
	"grad_norm": 0.32289671897888184,
	"learning_rate": 0.000189607665092124,
	"loss": 0.5505026578903198,
	"step": 118
	},
	{
	"epoch": 0.1502051120227201,
	"grad_norm": 0.3582629859447479,
	"learning_rate": 0.00018942461576402857,
	"loss": 0.6920587420463562,
	"step": 119
	},
	{
	"epoch": 0.15146733985484379,
	"grad_norm": 0.3632330596446991,
	"learning_rate": 0.00018924005832479478,
	"loss": 0.6031773090362549,
	"step": 120
	},
	{
	"epoch": 0.1527295676869675,
	"grad_norm": 0.40739816427230835,
	"learning_rate": 0.00018905399588691163,
	"loss": 0.8041491508483887,
	"step": 121
	},
	{
	"epoch": 0.1539917955190912,
	"grad_norm": 0.35906773805618286,
	"learning_rate": 0.0001888664315882493,
	"loss": 0.851598858833313,
	"step": 122
	},
	{
	"epoch": 0.15525402335121488,
	"grad_norm": 0.29666247963905334,
	"learning_rate": 0.0001886773685920062,
	"loss": 0.46212196350097656,
	"step": 123
	},
	{
	"epoch": 0.1565162511833386,
	"grad_norm": 0.3250925540924072,
	"learning_rate": 0.00018848681008665582,
	"loss": 0.4569106101989746,
	"step": 124
	},
	{
	"epoch": 0.1577784790154623,
	"grad_norm": 0.36993423104286194,
	"learning_rate": 0.00018829475928589271,
	"loss": 0.6663421988487244,
	"step": 125
	},
	{
	"epoch": 0.15904070684758598,
	"grad_norm": 0.3611743152141571,
	"learning_rate": 0.00018810121942857845,
	"loss": 0.7817614674568176,
	"step": 126
	},
	{
	"epoch": 0.16030293467970969,
	"grad_norm": 0.370026558637619,
	"learning_rate": 0.00018790619377868703,
	"loss": 0.47573864459991455,
	"step": 127
	},
	{
	"epoch": 0.1615651625118334,
	"grad_norm": 0.32366666197776794,
	"learning_rate": 0.0001877096856252496,
	"loss": 0.5783149003982544,
	"step": 128
	},
	{
	"epoch": 0.16282739034395707,
	"grad_norm": 0.3249809741973877,
	"learning_rate": 0.00018751169828229927,
	"loss": 0.46492838859558105,
	"step": 129
	},
	{
	"epoch": 0.16408961817608078,
	"grad_norm": 0.41037416458129883,
	"learning_rate": 0.0001873122350888151,
	"loss": 0.796636164188385,
	"step": 130
	},
	{
	"epoch": 0.1653518460082045,
	"grad_norm": 0.313863605260849,
	"learning_rate": 0.00018711129940866575,
	"loss": 0.38488903641700745,
	"step": 131
	},
	{
	"epoch": 0.16661407384032817,
	"grad_norm": 0.36502766609191895,
	"learning_rate": 0.00018690889463055283,
	"loss": 0.7027624249458313,
	"step": 132
	},
	{
	"epoch": 0.16787630167245188,
	"grad_norm": 0.348656564950943,
	"learning_rate": 0.00018670502416795367,
	"loss": 0.8470883369445801,
	"step": 133
	},
	{
	"epoch": 0.16913852950457559,
	"grad_norm": 0.35909080505371094,
	"learning_rate": 0.0001864996914590638,
	"loss": 0.661641001701355,
	"step": 134
	},
	{
	"epoch": 0.17040075733669927,
	"grad_norm": 0.38659459352493286,
	"learning_rate": 0.00018629289996673897,
	"loss": 0.694800853729248,
	"step": 135
	},
	{
	"epoch": 0.17166298516882297,
	"grad_norm": 0.366533100605011,
	"learning_rate": 0.00018608465317843678,
	"loss": 0.9004327654838562,
	"step": 136
	},
	{
	"epoch": 0.17292521300094668,
	"grad_norm": 0.42530369758605957,
	"learning_rate": 0.00018587495460615778,
	"loss": 0.9930410385131836,
	"step": 137
	},
	{
	"epoch": 0.17418744083307036,
	"grad_norm": 0.38337844610214233,
	"learning_rate": 0.00018566380778638628,
	"loss": 0.621214747428894,
	"step": 138
	},
	{
	"epoch": 0.17544966866519407,
	"grad_norm": 0.3821134567260742,
	"learning_rate": 0.00018545121628003077,
	"loss": 0.8524945974349976,
	"step": 139
	},
	{
	"epoch": 0.17671189649731778,
	"grad_norm": 0.6962800621986389,
	"learning_rate": 0.0001852371836723638,
	"loss": 0.490077942609787,
	"step": 140
	},
	{
	"epoch": 0.17797412432944146,
	"grad_norm": 0.40078434348106384,
	"learning_rate": 0.00018502171357296144,
	"loss": 0.7751069664955139,
	"step": 141
	},
	{
	"epoch": 0.17923635216156517,
	"grad_norm": 0.3736267685890198,
	"learning_rate": 0.0001848048096156426,
	"loss": 0.5479488968849182,
	"step": 142
	},
	{
	"epoch": 0.18049857999368887,
	"grad_norm": 0.3780677914619446,
	"learning_rate": 0.00018458647545840763,
	"loss": 0.6310573220252991,
	"step": 143
	},
	{
	"epoch": 0.18176080782581255,
	"grad_norm": 0.3293318748474121,
	"learning_rate": 0.00018436671478337666,
	"loss": 0.4275631010532379,
	"step": 144
	},
	{
	"epoch": 0.18302303565793626,
	"grad_norm": 0.3664384186267853,
	"learning_rate": 0.00018414553129672732,
	"loss": 0.4785746932029724,
	"step": 145
	},
	{
	"epoch": 0.18428526349005997,
	"grad_norm": 0.3737381100654602,
	"learning_rate": 0.00018392292872863267,
	"loss": 0.5807976722717285,
	"step": 146
	},
	{
	"epoch": 0.18554749132218365,
	"grad_norm": 0.40464866161346436,
	"learning_rate": 0.00018369891083319778,
	"loss": 0.673311710357666,
	"step": 147
	},
	{
	"epoch": 0.18680971915430736,
	"grad_norm": 0.4158247411251068,
	"learning_rate": 0.00018347348138839683,
	"loss": 0.5220749974250793,
	"step": 148
	},
	{
	"epoch": 0.18807194698643104,
	"grad_norm": 0.332676500082016,
	"learning_rate": 0.0001832466441960091,
	"loss": 0.42914730310440063,
	"step": 149
	},
	{
	"epoch": 0.18933417481855475,
	"grad_norm": 0.3765426278114319,
	"learning_rate": 0.00018301840308155507,
	"loss": 0.5210474729537964,
	"step": 150
	},
	{
	"epoch": 0.19059640265067845,
	"grad_norm": 0.3598466217517853,
	"learning_rate": 0.00018278876189423179,
	"loss": 1.0533007383346558,
	"step": 151
	},
	{
	"epoch": 0.19185863048280213,
	"grad_norm": 0.5936484932899475,
	"learning_rate": 0.00018255772450684798,
	"loss": 0.8764799237251282,
	"step": 152
	},
	{
	"epoch": 0.19312085831492584,
	"grad_norm": 0.37642624974250793,
	"learning_rate": 0.00018232529481575872,
	"loss": 0.46875783801078796,
	"step": 153
	},
	{
	"epoch": 0.19438308614704955,
	"grad_norm": 0.36098363995552063,
	"learning_rate": 0.00018209147674079983,
	"loss": 0.6464822292327881,
	"step": 154
	},
	{
	"epoch": 0.19564531397917323,
	"grad_norm": 0.39462804794311523,
	"learning_rate": 0.00018185627422522148,
	"loss": 0.7827063798904419,
	"step": 155
	},
	{
	"epoch": 0.19690754181129694,
	"grad_norm": 0.36141112446784973,
	"learning_rate": 0.0001816196912356222,
	"loss": 0.9432686567306519,
	"step": 156
	},
	{
	"epoch": 0.19816976964342065,
	"grad_norm": 0.3857667148113251,
	"learning_rate": 0.00018138173176188133,
	"loss": 0.8610580563545227,
	"step": 157
	},
	{
	"epoch": 0.19943199747554433,
	"grad_norm": 0.35036033391952515,
	"learning_rate": 0.00018114239981709232,
	"loss": 0.7541987299919128,
	"step": 158
	},
	{
	"epoch": 0.20069422530766803,
	"grad_norm": 0.3643214702606201,
	"learning_rate": 0.00018090169943749476,
	"loss": 0.5373222827911377,
	"step": 159
	},
	{
	"epoch": 0.20195645313979174,
	"grad_norm": 0.3778736889362335,
	"learning_rate": 0.00018065963468240625,
	"loss": 0.5798829197883606,
	"step": 160
	},
	{
	"epoch": 0.20321868097191542,
	"grad_norm": 0.3862821161746979,
	"learning_rate": 0.00018041620963415417,
	"loss": 0.8069719672203064,
	"step": 161
	},
	{
	"epoch": 0.20448090880403913,
	"grad_norm": 0.36028918623924255,
	"learning_rate": 0.00018017142839800668,
	"loss": 0.7396454811096191,
	"step": 162
	},
	{
	"epoch": 0.20574313663616284,
	"grad_norm": 0.3179962635040283,
	"learning_rate": 0.00017992529510210348,
	"loss": 0.4463472366333008,
	"step": 163
	},
	{
	"epoch": 0.20700536446828652,
	"grad_norm": 0.3768749237060547,
	"learning_rate": 0.00017967781389738625,
	"loss": 0.6056400537490845,
	"step": 164
	},
	{
	"epoch": 0.20826759230041023,
	"grad_norm": 0.3443696200847626,
	"learning_rate": 0.0001794289889575286,
	"loss": 0.6053676009178162,
	"step": 165
	},
	{
	"epoch": 0.20952982013253393,
	"grad_norm": 0.40036582946777344,
	"learning_rate": 0.00017917882447886582,
	"loss": 0.669062077999115,
	"step": 166
	},
	{
	"epoch": 0.21079204796465761,
	"grad_norm": 0.373081773519516,
	"learning_rate": 0.00017892732468032386,
	"loss": 0.6552575826644897,
	"step": 167
	},
	{
	"epoch": 0.21205427579678132,
	"grad_norm": 0.3748333752155304,
	"learning_rate": 0.00017867449380334834,
	"loss": 0.7766703963279724,
	"step": 168
	},
	{
	"epoch": 0.21331650362890503,
	"grad_norm": 0.3774300813674927,
	"learning_rate": 0.00017842033611183307,
	"loss": 0.425309419631958,
	"step": 169
	},
	{
	"epoch": 0.2145787314610287,
	"grad_norm": 0.3346552848815918,
	"learning_rate": 0.00017816485589204801,
	"loss": 0.39386531710624695,
	"step": 170
	},
	{
	"epoch": 0.21584095929315242,
	"grad_norm": 0.37330710887908936,
	"learning_rate": 0.00017790805745256704,
	"loss": 0.8232768774032593,
	"step": 171
	},
	{
	"epoch": 0.21710318712527613,
	"grad_norm": 0.39691922068595886,
	"learning_rate": 0.00017764994512419534,
	"loss": 0.6968734264373779,
	"step": 172
	},
	{
	"epoch": 0.2183654149573998,
	"grad_norm": 0.39556068181991577,
	"learning_rate": 0.0001773905232598963,
	"loss": 0.6288269758224487,
	"step": 173
	},
	{
	"epoch": 0.21962764278952351,
	"grad_norm": 0.3653506338596344,
	"learning_rate": 0.00017712979623471807,
	"loss": 0.6284940838813782,
	"step": 174
	},
	{
	"epoch": 0.2208898706216472,
	"grad_norm": 0.390316367149353,
	"learning_rate": 0.00017686776844571988,
	"loss": 0.7067583799362183,
	"step": 175
	},
	{
	"epoch": 0.2221520984537709,
	"grad_norm": 0.3740655481815338,
	"learning_rate": 0.0001766044443118978,
	"loss": 0.5908397436141968,
	"step": 176
	},
	{
	"epoch": 0.2234143262858946,
	"grad_norm": 0.3652481138706207,
	"learning_rate": 0.00017633982827411032,
	"loss": 0.5462816953659058,
	"step": 177
	},
	{
	"epoch": 0.2246765541180183,
	"grad_norm": 0.32050153613090515,
	"learning_rate": 0.00017607392479500325,
	"loss": 0.46369433403015137,
	"step": 178
	},
	{
	"epoch": 0.225938781950142,
	"grad_norm": 0.3392358720302582,
	"learning_rate": 0.00017580673835893473,
	"loss": 0.6735156774520874,
	"step": 179
	},
	{
	"epoch": 0.2272010097822657,
	"grad_norm": 0.3717758059501648,
	"learning_rate": 0.00017553827347189938,
	"loss": 0.9343303442001343,
	"step": 180
	},
	{
	"epoch": 0.2284632376143894,
	"grad_norm": 0.3827629089355469,
	"learning_rate": 0.00017526853466145244,
	"loss": 0.7392931580543518,
	"step": 181
	},
	{
	"epoch": 0.2297254654465131,
	"grad_norm": 0.39305350184440613,
	"learning_rate": 0.0001749975264766334,
	"loss": 0.9212709665298462,
	"step": 182
	},
	{
	"epoch": 0.2309876932786368,
	"grad_norm": 0.4486978352069855,
	"learning_rate": 0.0001747252534878891,
	"loss": 0.5881640315055847,
	"step": 183
	},
	{
	"epoch": 0.23224992111076048,
	"grad_norm": 0.31108546257019043,
	"learning_rate": 0.000174451720286997,
	"loss": 0.3923819959163666,
	"step": 184
	},
	{
	"epoch": 0.2335121489428842,
	"grad_norm": 0.3748640716075897,
	"learning_rate": 0.00017417693148698743,
	"loss": 0.7098450064659119,
	"step": 185
	},
	{
	"epoch": 0.2347743767750079,
	"grad_norm": 0.3929251730442047,
	"learning_rate": 0.00017390089172206592,
	"loss": 0.6599665880203247,
	"step": 186
	},
	{
	"epoch": 0.23603660460713158,
	"grad_norm": 0.3102874159812927,
	"learning_rate": 0.00017362360564753505,
	"loss": 0.48892730474472046,
	"step": 187
	},
	{
	"epoch": 0.2372988324392553,
	"grad_norm": 0.3638162314891815,
	"learning_rate": 0.00017334507793971592,
	"loss": 0.6274378895759583,
	"step": 188
	},
	{
	"epoch": 0.238561060271379,
	"grad_norm": 0.280404657125473,
	"learning_rate": 0.00017306531329586933,
	"loss": 0.2670789361000061,
	"step": 189
	},
	{
	"epoch": 0.23982328810350267,
	"grad_norm": 0.3414492905139923,
	"learning_rate": 0.00017278431643411642,
	"loss": 0.854606568813324,
	"step": 190
	},
	{
	"epoch": 0.24108551593562638,
	"grad_norm": 0.339760959148407,
	"learning_rate": 0.00017250209209335927,
	"loss": 0.4224780797958374,
	"step": 191
	},
	{
	"epoch": 0.2423477437677501,
	"grad_norm": 0.3548067808151245,
	"learning_rate": 0.00017221864503320092,
	"loss": 0.6572182178497314,
	"step": 192
	},
	{
	"epoch": 0.24360997159987377,
	"grad_norm": 0.3619638681411743,
	"learning_rate": 0.0001719339800338651,
	"loss": 0.4573401212692261,
	"step": 193
	},
	{
	"epoch": 0.24487219943199748,
	"grad_norm": 0.36929795145988464,
	"learning_rate": 0.0001716481018961156,
	"loss": 0.6632043123245239,
	"step": 194
	},
	{
	"epoch": 0.24613442726412119,
	"grad_norm": 0.37808045744895935,
	"learning_rate": 0.00017136101544117525,
	"loss": 0.7357593178749084,
	"step": 195
	},
	{
	"epoch": 0.24739665509624487,
	"grad_norm": 0.38574209809303284,
	"learning_rate": 0.00017107272551064473,
	"loss": 0.4269335865974426,
	"step": 196
	},
	{
	"epoch": 0.24865888292836857,
	"grad_norm": 0.3391668200492859,
	"learning_rate": 0.0001707832369664209,
	"loss": 0.8197081685066223,
	"step": 197
	},
	{
	"epoch": 0.24992111076049228,
	"grad_norm": 0.40485379099845886,
	"learning_rate": 0.00017049255469061474,
	"loss": 0.7450565099716187,
	"step": 198
	},
	{
	"epoch": 0.251183338592616,
	"grad_norm": 0.37861743569374084,
	"learning_rate": 0.00017020068358546898,
	"loss": 0.5399523973464966,
	"step": 199
	},
	{
	"epoch": 0.25244556642473964,
	"grad_norm": 0.39403632283210754,
	"learning_rate": 0.0001699076285732756,
	"loss": 0.9128871560096741,
	"step": 200
	},
	{
	"epoch": 0.25370779425686335,
	"grad_norm": 0.40291762351989746,
	"learning_rate": 0.0001696133945962927,
	"loss": 0.8255231976509094,
	"step": 201
	},
	{
	"epoch": 0.25497002208898706,
	"grad_norm": 0.6885679364204407,
	"learning_rate": 0.000169317986616661,
	"loss": 0.40416646003723145,
	"step": 202
	},
	{
	"epoch": 0.25623224992111077,
	"grad_norm": 0.37489989399909973,
	"learning_rate": 0.00016902140961632054,
	"loss": 0.688234269618988,
	"step": 203
	},
	{
	"epoch": 0.2574944777532345,
	"grad_norm": 0.38479313254356384,
	"learning_rate": 0.00016872366859692627,
	"loss": 0.5331247448921204,
	"step": 204
	},
	{
	"epoch": 0.2587567055853582,
	"grad_norm": 0.40287116169929504,
	"learning_rate": 0.00016842476857976396,
	"loss": 0.7545835971832275,
	"step": 205
	},
	{
	"epoch": 0.26001893341748183,
	"grad_norm": 0.3530018627643585,
	"learning_rate": 0.0001681247146056654,
	"loss": 0.5984229445457458,
	"step": 206
	},
	{
	"epoch": 0.26128116124960554,
	"grad_norm": 0.34704816341400146,
	"learning_rate": 0.00016782351173492342,
	"loss": 0.867906391620636,
	"step": 207
	},
	{
	"epoch": 0.26254338908172925,
	"grad_norm": 0.3187376856803894,
	"learning_rate": 0.00016752116504720644,
	"loss": 0.3967270255088806,
	"step": 208
	},
	{
	"epoch": 0.26380561691385296,
	"grad_norm": 0.4047222435474396,
	"learning_rate": 0.00016721767964147306,
	"loss": 0.7225915193557739,
	"step": 209
	},
	{
	"epoch": 0.26506784474597667,
	"grad_norm": 0.3720124661922455,
	"learning_rate": 0.00016691306063588583,
	"loss": 0.414902001619339,
	"step": 210
	},
	{
	"epoch": 0.2663300725781004,
	"grad_norm": 0.27026864886283875,
	"learning_rate": 0.00016660731316772505,
	"loss": 0.2642422616481781,
	"step": 211
	},
	{
	"epoch": 0.267592300410224,
	"grad_norm": 0.28109508752822876,
	"learning_rate": 0.00016630044239330204,
	"loss": 0.3239024877548218,
	"step": 212
	},
	{
	"epoch": 0.26885452824234773,
	"grad_norm": 0.4051285982131958,
	"learning_rate": 0.0001659924534878723,
	"loss": 0.5133159160614014,
	"step": 213
	},
	{
	"epoch": 0.27011675607447144,
	"grad_norm": 0.389447420835495,
	"learning_rate": 0.00016568335164554812,
	"loss": 0.5882396101951599,
	"step": 214
	},
	{
	"epoch": 0.27137898390659515,
	"grad_norm": 0.4064750075340271,
	"learning_rate": 0.00016537314207921115,
	"loss": 0.8135666847229004,
	"step": 215
	},
	{
	"epoch": 0.27264121173871886,
	"grad_norm": 0.4201750159263611,
	"learning_rate": 0.0001650618300204242,
	"loss": 0.5702388286590576,
	"step": 216
	},
	{
	"epoch": 0.2739034395708425,
	"grad_norm": 0.39069369435310364,
	"learning_rate": 0.00016474942071934337,
	"loss": 0.5717343688011169,
	"step": 217
	},
	{
	"epoch": 0.2751656674029662,
	"grad_norm": 0.407742977142334,
	"learning_rate": 0.00016443591944462915,
	"loss": 0.7300087213516235,
	"step": 218
	},
	{
	"epoch": 0.2764278952350899,
	"grad_norm": 0.3515043258666992,
	"learning_rate": 0.00016412133148335784,
	"loss": 0.3343101143836975,
	"step": 219
	},
	{
	"epoch": 0.27769012306721363,
	"grad_norm": 0.391044557094574,
	"learning_rate": 0.00016380566214093225,
	"loss": 0.7425781488418579,
	"step": 220
	},
	{
	"epoch": 0.27895235089933734,
	"grad_norm": 0.4042036831378937,
	"learning_rate": 0.0001634889167409923,
	"loss": 0.7461481690406799,
	"step": 221
	},
	{
	"epoch": 0.28021457873146105,
	"grad_norm": 0.3601584732532501,
	"learning_rate": 0.0001631711006253251,
	"loss": 0.37352609634399414,
	"step": 222
	},
	{
	"epoch": 0.2814768065635847,
	"grad_norm": 0.37277212738990784,
	"learning_rate": 0.00016285221915377508,
	"loss": 0.39840951561927795,
	"step": 223
	},
	{
	"epoch": 0.2827390343957084,
	"grad_norm": 0.41219770908355713,
	"learning_rate": 0.0001625322777041534,
	"loss": 0.631761908531189,
	"step": 224
	},
	{
	"epoch": 0.2840012622278321,
	"grad_norm": 0.3973751962184906,
	"learning_rate": 0.0001622112816721474,
	"loss": 0.905396580696106,
	"step": 225
	},
	{
	"epoch": 0.2852634900599558,
	"grad_norm": 0.4199240505695343,
	"learning_rate": 0.00016188923647122947,
	"loss": 0.5509951710700989,
	"step": 226
	},
	{
	"epoch": 0.28652571789207953,
	"grad_norm": 0.3599737882614136,
	"learning_rate": 0.0001615661475325658,
	"loss": 0.6364030838012695,
	"step": 227
	},
	{
	"epoch": 0.28778794572420324,
	"grad_norm": 0.36739909648895264,
	"learning_rate": 0.000161242020304925,
	"loss": 0.6433310508728027,
	"step": 228
	},
	{
	"epoch": 0.2890501735563269,
	"grad_norm": 0.3900837004184723,
	"learning_rate": 0.00016091686025458576,
	"loss": 0.965069055557251,
	"step": 229
	},
	{
	"epoch": 0.2903124013884506,
	"grad_norm": 0.35347774624824524,
	"learning_rate": 0.0001605906728652451,
	"loss": 0.5886582136154175,
	"step": 230
	},
	{
	"epoch": 0.2915746292205743,
	"grad_norm": 0.4109002649784088,
	"learning_rate": 0.00016026346363792567,
	"loss": 0.5591490268707275,
	"step": 231
	},
	{
	"epoch": 0.292836857052698,
	"grad_norm": 0.3631947636604309,
	"learning_rate": 0.0001599352380908829,
	"loss": 0.544223427772522,
	"step": 232
	},
	{
	"epoch": 0.2940990848848217,
	"grad_norm": 0.3431711196899414,
	"learning_rate": 0.00015960600175951223,
	"loss": 0.4162474274635315,
	"step": 233
	},
	{
	"epoch": 0.29536131271694543,
	"grad_norm": 0.36346155405044556,
	"learning_rate": 0.0001592757601962555,
	"loss": 0.8591347932815552,
	"step": 234
	},
	{
	"epoch": 0.2966235405490691,
	"grad_norm": 0.33583030104637146,
	"learning_rate": 0.00015894451897050738,
	"loss": 0.4463670551776886,
	"step": 235
	},
	{
	"epoch": 0.2978857683811928,
	"grad_norm": 0.3296612799167633,
	"learning_rate": 0.00015861228366852148,
	"loss": 0.46573173999786377,
	"step": 236
	},
	{
	"epoch": 0.2991479962133165,
	"grad_norm": 0.3123343288898468,
	"learning_rate": 0.0001582790598933161,
	"loss": 0.3503931164741516,
	"step": 237
	},
	{
	"epoch": 0.3004102240454402,
	"grad_norm": 0.374508261680603,
	"learning_rate": 0.0001579448532645798,
	"loss": 0.5895912051200867,
	"step": 238
	},
	{
	"epoch": 0.3016724518775639,
	"grad_norm": 0.3595065176486969,
	"learning_rate": 0.00015760966941857647,
	"loss": 0.565118670463562,
	"step": 239
	},
	{
	"epoch": 0.30293467970968757,
	"grad_norm": 0.3403629660606384,
	"learning_rate": 0.00015727351400805052,
	"loss": 0.3920265734195709,
	"step": 240
	},
	{
	"epoch": 0.3041969075418113,
	"grad_norm": 0.3979881703853607,
	"learning_rate": 0.00015693639270213136,
	"loss": 0.8573540449142456,
	"step": 241
	},
	{
	"epoch": 0.305459135373935,
	"grad_norm": 0.39144444465637207,
	"learning_rate": 0.0001565983111862378,
	"loss": 0.6504969000816345,
	"step": 242
	},
	{
	"epoch": 0.3067213632060587,
	"grad_norm": 0.37401193380355835,
	"learning_rate": 0.00015625927516198232,
	"loss": 0.5543976426124573,
	"step": 243
	},
	{
	"epoch": 0.3079835910381824,
	"grad_norm": 0.37249916791915894,
	"learning_rate": 0.0001559192903470747,
	"loss": 0.781203031539917,
	"step": 244
	},
	{
	"epoch": 0.3092458188703061,
	"grad_norm": 0.36005863547325134,
	"learning_rate": 0.00015557836247522575,
	"loss": 0.4812963306903839,
	"step": 245
	},
	{
	"epoch": 0.31050804670242976,
	"grad_norm": 0.3561168611049652,
	"learning_rate": 0.0001552364972960506,
	"loss": 0.5244578719139099,
	"step": 246
	},
	{
	"epoch": 0.31177027453455347,
	"grad_norm": 0.3064718544483185,
	"learning_rate": 0.00015489370057497165,
	"loss": 0.35441693663597107,
	"step": 247
	},
	{
	"epoch": 0.3130325023666772,
	"grad_norm": 0.38345471024513245,
	"learning_rate": 0.0001545499780931214,
	"loss": 0.6824744343757629,
	"step": 248
	},
	{
	"epoch": 0.3142947301988009,
	"grad_norm": 0.36782291531562805,
	"learning_rate": 0.00015420533564724495,
	"loss": 0.41213345527648926,
	"step": 249
	},
	{
	"epoch": 0.3155569580309246,
	"grad_norm": 0.39493328332901,
	"learning_rate": 0.00015385977904960226,
	"loss": 0.5020935535430908,
	"step": 250
	},
	{
	"epoch": 0.3168191858630483,
	"grad_norm": 0.3497244715690613,
	"learning_rate": 0.00015351331412787004,
	"loss": 0.5641796588897705,
	"step": 251
	},
	{
	"epoch": 0.31808141369517196,
	"grad_norm": 0.3519827127456665,
	"learning_rate": 0.0001531659467250436,
	"loss": 0.8068366646766663,
	"step": 252
	},
	{
	"epoch": 0.31934364152729566,
	"grad_norm": 0.3616220951080322,
	"learning_rate": 0.0001528176826993382,
	"loss": 0.8782303929328918,
	"step": 253
	},
	{
	"epoch": 0.32060586935941937,
	"grad_norm": 0.4184557795524597,
	"learning_rate": 0.00015246852792409033,
	"loss": 0.7177759408950806,
	"step": 254
	},
	{
	"epoch": 0.3218680971915431,
	"grad_norm": 0.4233710765838623,
	"learning_rate": 0.0001521184882876585,
	"loss": 0.7468725442886353,
	"step": 255
	},
	{
	"epoch": 0.3231303250236668,
	"grad_norm": 0.358642578125,
	"learning_rate": 0.00015176756969332425,
	"loss": 0.4827675223350525,
	"step": 256
	},
	{
	"epoch": 0.3243925528557905,
	"grad_norm": 0.33649536967277527,
	"learning_rate": 0.00015141577805919226,
	"loss": 0.3861742317676544,
	"step": 257
	},
	{
	"epoch": 0.32565478068791415,
	"grad_norm": 0.3700178861618042,
	"learning_rate": 0.0001510631193180907,
	"loss": 0.7173401713371277,
	"step": 258
	},
	{
	"epoch": 0.32691700852003786,
	"grad_norm": 0.3805610239505768,
	"learning_rate": 0.00015070959941747124,
	"loss": 0.8101674318313599,
	"step": 259
	},
	{
	"epoch": 0.32817923635216156,
	"grad_norm": 0.38329991698265076,
	"learning_rate": 0.00015035522431930856,
	"loss": 0.8402124643325806,
	"step": 260
	},
	{
	"epoch": 0.32944146418428527,
	"grad_norm": 0.361529678106308,
	"learning_rate": 0.00015000000000000001,
	"loss": 0.6627713441848755,
	"step": 261
	},
	{
	"epoch": 0.330703692016409,
	"grad_norm": 0.3611642122268677,
	"learning_rate": 0.00014964393245026466,
	"loss": 0.3878118693828583,
	"step": 262
	},
	{
	"epoch": 0.3319659198485327,
	"grad_norm": 0.41715049743652344,
	"learning_rate": 0.00014928702767504233,
	"loss": 0.5380449295043945,
	"step": 263
	},
	{
	"epoch": 0.33322814768065634,
	"grad_norm": 0.39908990263938904,
	"learning_rate": 0.00014892929169339235,
	"loss": 0.5558310151100159,
	"step": 264
	},
	{
	"epoch": 0.33449037551278005,
	"grad_norm": 0.39582890272140503,
	"learning_rate": 0.00014857073053839206,
	"loss": 0.7881603837013245,
	"step": 265
	},
	{
	"epoch": 0.33575260334490376,
	"grad_norm": 0.3694429397583008,
	"learning_rate": 0.0001482113502570349,
	"loss": 0.6454510688781738,
	"step": 266
	},
	{
	"epoch": 0.33701483117702746,
	"grad_norm": 0.25048568844795227,
	"learning_rate": 0.00014785115691012864,
	"loss": 0.23232965171337128,
	"step": 267
	},
	{
	"epoch": 0.33827705900915117,
	"grad_norm": 0.34138715267181396,
	"learning_rate": 0.00014749015657219313,
	"loss": 0.4494091868400574,
	"step": 268
	},
	{
	"epoch": 0.3395392868412748,
	"grad_norm": 0.34587278962135315,
	"learning_rate": 0.00014712835533135774,
	"loss": 0.6932641863822937,
	"step": 269
	},
	{
	"epoch": 0.34080151467339853,
	"grad_norm": 0.39235740900039673,
	"learning_rate": 0.00014676575928925867,
	"loss": 0.6115721464157104,
	"step": 270
	},
	{
	"epoch": 0.34206374250552224,
	"grad_norm": 0.372470498085022,
	"learning_rate": 0.00014640237456093634,
	"loss": 0.5936945676803589,
	"step": 271
	},
	{
	"epoch": 0.34332597033764595,
	"grad_norm": 0.3751293122768402,
	"learning_rate": 0.0001460382072747319,
	"loss": 0.6361874341964722,
	"step": 272
	},
	{
	"epoch": 0.34458819816976965,
	"grad_norm": 0.3495366871356964,
	"learning_rate": 0.00014567326357218407,
	"loss": 0.27429258823394775,
	"step": 273
	},
	{
	"epoch": 0.34585042600189336,
	"grad_norm": 0.40388405323028564,
	"learning_rate": 0.00014530754960792553,
	"loss": 0.46181124448776245,
	"step": 274
	},
	{
	"epoch": 0.347112653834017,
	"grad_norm": 0.319353312253952,
	"learning_rate": 0.0001449410715495791,
	"loss": 0.3895929455757141,
	"step": 275
	},
	{
	"epoch": 0.3483748816661407,
	"grad_norm": 0.3918631970882416,
	"learning_rate": 0.00014457383557765386,
	"loss": 0.7136199474334717,
	"step": 276
	},
	{
	"epoch": 0.34963710949826443,
	"grad_norm": 0.36512160301208496,
	"learning_rate": 0.00014420584788544057,
	"loss": 0.6242626905441284,
	"step": 277
	},
	{
	"epoch": 0.35089933733038814,
	"grad_norm": 0.4133952558040619,
	"learning_rate": 0.00014383711467890774,
	"loss": 0.5601866245269775,
	"step": 278
	},
	{
	"epoch": 0.35216156516251185,
	"grad_norm": 0.4711982011795044,
	"learning_rate": 0.00014346764217659653,
	"loss": 0.3125555217266083,
	"step": 279
	},
	{
	"epoch": 0.35342379299463555,
	"grad_norm": 0.3581778109073639,
	"learning_rate": 0.00014309743660951595,
	"loss": 0.715130090713501,
	"step": 280
	},
	{
	"epoch": 0.3546860208267592,
	"grad_norm": 0.34894779324531555,
	"learning_rate": 0.0001427265042210381,
	"loss": 0.5023713111877441,
	"step": 281
	},
	{
	"epoch": 0.3559482486588829,
	"grad_norm": 0.3577764332294464,
	"learning_rate": 0.00014235485126679243,
	"loss": 0.6359988451004028,
	"step": 282
	},
	{
	"epoch": 0.3572104764910066,
	"grad_norm": 0.44540712237358093,
	"learning_rate": 0.00014198248401456055,
	"loss": 0.8171525597572327,
	"step": 283
	},
	{
	"epoch": 0.35847270432313033,
	"grad_norm": 0.3892884850502014,
	"learning_rate": 0.0001416094087441704,
	"loss": 0.5745326280593872,
	"step": 284
	},
	{
	"epoch": 0.35973493215525404,
	"grad_norm": 0.36921554803848267,
	"learning_rate": 0.00014123563174739037,
	"loss": 0.4776252210140228,
	"step": 285
	},
	{
	"epoch": 0.36099715998737775,
	"grad_norm": 0.38392379879951477,
	"learning_rate": 0.00014086115932782314,
	"loss": 0.5178923606872559,
	"step": 286
	},
	{
	"epoch": 0.3622593878195014,
	"grad_norm": 0.2495623081922531,
	"learning_rate": 0.00014048599780079957,
	"loss": 0.25248217582702637,
	"step": 287
	},
	{
	"epoch": 0.3635216156516251,
	"grad_norm": 0.4058895409107208,
	"learning_rate": 0.00014011015349327187,
	"loss": 0.6448837518692017,
	"step": 288
	},
	{
	"epoch": 0.3647838434837488,
	"grad_norm": 0.38654524087905884,
	"learning_rate": 0.00013973363274370721,
	"loss": 0.5187302827835083,
	"step": 289
	},
	{
	"epoch": 0.3660460713158725,
	"grad_norm": 0.3716411292552948,
	"learning_rate": 0.0001393564419019806,
	"loss": 0.7247863411903381,
	"step": 290
	},
	{
	"epoch": 0.36730829914799623,
	"grad_norm": 0.36923542618751526,
	"learning_rate": 0.00013897858732926793,
	"loss": 0.44380512833595276,
	"step": 291
	},
	{
	"epoch": 0.36857052698011994,
	"grad_norm": 0.38871094584465027,
	"learning_rate": 0.00013860007539793871,
	"loss": 0.8842666149139404,
	"step": 292
	},
	{
	"epoch": 0.3698327548122436,
	"grad_norm": 0.35937783122062683,
	"learning_rate": 0.00013822091249144838,
	"loss": 0.489496111869812,
	"step": 293
	},
	{
	"epoch": 0.3710949826443673,
	"grad_norm": 0.3654249310493469,
	"learning_rate": 0.00013784110500423104,
	"loss": 0.5621508955955505,
	"step": 294
	},
	{
	"epoch": 0.372357210476491,
	"grad_norm": 0.4184640049934387,
	"learning_rate": 0.00013746065934159123,
	"loss": 0.4694799780845642,
	"step": 295
	},
	{
	"epoch": 0.3736194383086147,
	"grad_norm": 0.40087419748306274,
	"learning_rate": 0.00013707958191959608,
	"loss": 0.7347521781921387,
	"step": 296
	},
	{
	"epoch": 0.3748816661407384,
	"grad_norm": 0.43245846033096313,
	"learning_rate": 0.00013669787916496722,
	"loss": 0.6806380152702332,
	"step": 297
	},
	{
	"epoch": 0.3761438939728621,
	"grad_norm": 0.36302655935287476,
	"learning_rate": 0.00013631555751497215,
	"loss": 0.8191426992416382,
	"step": 298
	},
	{
	"epoch": 0.3774061218049858,
	"grad_norm": 0.3232358396053314,
	"learning_rate": 0.00013593262341731578,
	"loss": 0.3671002984046936,
	"step": 299
	},
	{
	"epoch": 0.3786683496371095,
	"grad_norm": 0.3223403990268707,
	"learning_rate": 0.0001355490833300318,
	"loss": 0.3676319718360901,
	"step": 300
	},
	{
	"epoch": 0.3799305774692332,
	"grad_norm": 0.3848235309123993,
	"learning_rate": 0.00013516494372137368,
	"loss": 0.7041884660720825,
	"step": 301
	},
	{
	"epoch": 0.3811928053013569,
	"grad_norm": 0.39564049243927,
	"learning_rate": 0.0001347802110697055,
	"loss": 0.7267032861709595,
	"step": 302
	},
	{
	"epoch": 0.3824550331334806,
	"grad_norm": 0.3752077519893646,
	"learning_rate": 0.00013439489186339282,
	"loss": 0.44746118783950806,
	"step": 303
	},
	{
	"epoch": 0.38371726096560427,
	"grad_norm": 0.3596220016479492,
	"learning_rate": 0.00013400899260069323,
	"loss": 0.42425066232681274,
	"step": 304
	},
	{
	"epoch": 0.384979488797728,
	"grad_norm": 0.36152541637420654,
	"learning_rate": 0.00013362251978964675,
	"loss": 0.457078754901886,
	"step": 305
	},
	{
	"epoch": 0.3862417166298517,
	"grad_norm": 0.3770156502723694,
	"learning_rate": 0.00013323547994796597,
	"loss": 0.5810063481330872,
	"step": 306
	},
	{
	"epoch": 0.3875039444619754,
	"grad_norm": 0.42228955030441284,
	"learning_rate": 0.0001328478796029264,
	"loss": 0.8851193189620972,
	"step": 307
	},
	{
	"epoch": 0.3887661722940991,
	"grad_norm": 0.4153822660446167,
	"learning_rate": 0.00013245972529125606,
	"loss": 0.6357755661010742,
	"step": 308
	},
	{
	"epoch": 0.3900284001262228,
	"grad_norm": 0.3957383930683136,
	"learning_rate": 0.00013207102355902552,
	"loss": 0.7041004300117493,
	"step": 309
	},
	{
	"epoch": 0.39129062795834646,
	"grad_norm": 0.37788495421409607,
	"learning_rate": 0.0001316817809615373,
	"loss": 0.5084975361824036,
	"step": 310
	},
	{
	"epoch": 0.39255285579047017,
	"grad_norm": 0.3773125410079956,
	"learning_rate": 0.00013129200406321545,
	"loss": 0.7748256325721741,
	"step": 311
	},
	{
	"epoch": 0.3938150836225939,
	"grad_norm": 0.36805328726768494,
	"learning_rate": 0.00013090169943749476,
	"loss": 0.5911955833435059,
	"step": 312
	},
	{
	"epoch": 0.3950773114547176,
	"grad_norm": 0.4318149983882904,
	"learning_rate": 0.00013051087366670994,
	"loss": 0.6285633444786072,
	"step": 313
	},
	{
	"epoch": 0.3963395392868413,
	"grad_norm": 0.27865713834762573,
	"learning_rate": 0.00013011953334198466,
	"loss": 0.2808951139450073,
	"step": 314
	},
	{
	"epoch": 0.397601767118965,
	"grad_norm": 0.38748934864997864,
	"learning_rate": 0.00012972768506312027,
	"loss": 0.7810741662979126,
	"step": 315
	},
	{
	"epoch": 0.39886399495108865,
	"grad_norm": 0.39623865485191345,
	"learning_rate": 0.00012933533543848461,
	"loss": 0.8346691727638245,
	"step": 316
	},
	{
	"epoch": 0.40012622278321236,
	"grad_norm": 0.3087095022201538,
	"learning_rate": 0.0001289424910849005,
	"loss": 0.35411983728408813,
	"step": 317
	},
	{
	"epoch": 0.40138845061533607,
	"grad_norm": 0.37265872955322266,
	"learning_rate": 0.00012854915862753422,
	"loss": 0.7961377501487732,
	"step": 318
	},
	{
	"epoch": 0.4026506784474598,
	"grad_norm": 0.3931768536567688,
	"learning_rate": 0.00012815534469978363,
	"loss": 0.5816214084625244,
	"step": 319
	},
	{
	"epoch": 0.4039129062795835,
	"grad_norm": 0.35481584072113037,
	"learning_rate": 0.00012776105594316647,
	"loss": 0.7527205944061279,
	"step": 320
	},
	{
	"epoch": 0.40517513411170714,
	"grad_norm": 0.3482368290424347,
	"learning_rate": 0.0001273662990072083,
	"loss": 0.4816396236419678,
	"step": 321
	},
	{
	"epoch": 0.40643736194383084,
	"grad_norm": 0.35917821526527405,
	"learning_rate": 0.00012697108054933025,
	"loss": 0.358943372964859,
	"step": 322
	},
	{
	"epoch": 0.40769958977595455,
	"grad_norm": 0.35279327630996704,
	"learning_rate": 0.000126575407234737,
	"loss": 0.6909571290016174,
	"step": 323
	},
	{
	"epoch": 0.40896181760807826,
	"grad_norm": 0.3735545575618744,
	"learning_rate": 0.00012617928573630406,
	"loss": 0.7668647170066833,
	"step": 324
	},
	{
	"epoch": 0.41022404544020197,
	"grad_norm": 0.3791963458061218,
	"learning_rate": 0.00012578272273446536,
	"loss": 0.4582277238368988,
	"step": 325
	},
	{
	"epoch": 0.4114862732723257,
	"grad_norm": 0.3846660852432251,
	"learning_rate": 0.0001253857249171008,
	"loss": 0.5816541910171509,
	"step": 326
	},
	{
	"epoch": 0.41274850110444933,
	"grad_norm": 0.2960149049758911,
	"learning_rate": 0.0001249882989794231,
	"loss": 0.33520427346229553,
	"step": 327
	},
	{
	"epoch": 0.41401072893657304,
	"grad_norm": 0.5094306468963623,
	"learning_rate": 0.00012459045162386512,
	"loss": 0.901237964630127,
	"step": 328
	},
	{
	"epoch": 0.41527295676869674,
	"grad_norm": 0.4056321680545807,
	"learning_rate": 0.00012419218955996676,
	"loss": 0.37850597500801086,
	"step": 329
	},
	{
	"epoch": 0.41653518460082045,
	"grad_norm": 0.4399261772632599,
	"learning_rate": 0.00012379351950426187,
	"loss": 0.7433345913887024,
	"step": 330
	},
	{
	"epoch": 0.41779741243294416,
	"grad_norm": 0.38947823643684387,
	"learning_rate": 0.0001233944481801649,
	"loss": 0.7301508784294128,
	"step": 331
	},
	{
	"epoch": 0.41905964026506787,
	"grad_norm": 0.4117131531238556,
	"learning_rate": 0.00012299498231785737,
	"loss": 0.5769900679588318,
	"step": 332
	},
	{
	"epoch": 0.4203218680971915,
	"grad_norm": 0.3559359312057495,
	"learning_rate": 0.00012259512865417477,
	"loss": 0.5584972500801086,
	"step": 333
	},
	{
	"epoch": 0.42158409592931523,
	"grad_norm": 0.4073047637939453,
	"learning_rate": 0.00012219489393249262,
	"loss": 0.4495258927345276,
	"step": 334
	},
	{
	"epoch": 0.42284632376143894,
	"grad_norm": 0.36505264043807983,
	"learning_rate": 0.00012179428490261278,
	"loss": 0.749606192111969,
	"step": 335
	},
	{
	"epoch": 0.42410855159356264,
	"grad_norm": 0.3678975999355316,
	"learning_rate": 0.00012139330832064974,
	"loss": 0.32790112495422363,
	"step": 336
	},
	{
	"epoch": 0.42537077942568635,
	"grad_norm": 0.37156620621681213,
	"learning_rate": 0.00012099197094891659,
	"loss": 0.43149426579475403,
	"step": 337
	},
	{
	"epoch": 0.42663300725781006,
	"grad_norm": 0.3237273395061493,
	"learning_rate": 0.00012059027955581099,
	"loss": 0.3703850209712982,
	"step": 338
	},
	{
	"epoch": 0.4278952350899337,
	"grad_norm": 0.3485283851623535,
	"learning_rate": 0.00012018824091570103,
	"loss": 0.569449782371521,
	"step": 339
	},
	{
	"epoch": 0.4291574629220574,
	"grad_norm": 0.378540962934494,
	"learning_rate": 0.00011978586180881099,
	"loss": 0.48175811767578125,
	"step": 340
	},
	{
	"epoch": 0.43041969075418113,
	"grad_norm": 0.3947147727012634,
	"learning_rate": 0.00011938314902110701,
	"loss": 0.4960615634918213,
	"step": 341
	},
	{
	"epoch": 0.43168191858630484,
	"grad_norm": 0.34757497906684875,
	"learning_rate": 0.0001189801093441826,
	"loss": 0.34023621678352356,
	"step": 342
	},
	{
	"epoch": 0.43294414641842854,
	"grad_norm": 0.3692375719547272,
	"learning_rate": 0.00011857674957514411,
	"loss": 0.760047197341919,
	"step": 343
	},
	{
	"epoch": 0.43420637425055225,
	"grad_norm": 0.38019847869873047,
	"learning_rate": 0.00011817307651649616,
	"loss": 0.8378443717956543,
	"step": 344
	},
	{
	"epoch": 0.4354686020826759,
	"grad_norm": 0.3751029074192047,
	"learning_rate": 0.00011776909697602689,
	"loss": 0.4766428470611572,
	"step": 345
	},
	{
	"epoch": 0.4367308299147996,
	"grad_norm": 0.5471876263618469,
	"learning_rate": 0.00011736481776669306,
	"loss": 0.41353490948677063,
	"step": 346
	},
	{
	"epoch": 0.4379930577469233,
	"grad_norm": 0.3773936629295349,
	"learning_rate": 0.00011696024570650528,
	"loss": 0.5652437210083008,
	"step": 347
	},
	{
	"epoch": 0.43925528557904703,
	"grad_norm": 0.3828847110271454,
	"learning_rate": 0.000116555387618413,
	"loss": 0.6103649139404297,
	"step": 348
	},
	{
	"epoch": 0.44051751341117074,
	"grad_norm": 0.35921478271484375,
	"learning_rate": 0.00011615025033018936,
	"loss": 0.609113872051239,
	"step": 349
	},
	{
	"epoch": 0.4417797412432944,
	"grad_norm": 0.3687792420387268,
	"learning_rate": 0.00011574484067431617,
	"loss": 0.8462064266204834,
	"step": 350
	},
	{
	"epoch": 0.4430419690754181,
	"grad_norm": 0.3686203956604004,
	"learning_rate": 0.00011533916548786857,
	"loss": 0.656709611415863,
	"step": 351
	},
	{
	"epoch": 0.4443041969075418,
	"grad_norm": 0.39589008688926697,
	"learning_rate": 0.0001149332316123997,
	"loss": 0.7393782734870911,
	"step": 352
	},
	{
	"epoch": 0.4455664247396655,
	"grad_norm": 0.38354629278182983,
	"learning_rate": 0.0001145270458938255,
	"loss": 0.6119332909584045,
	"step": 353
	},
	{
	"epoch": 0.4468286525717892,
	"grad_norm": 0.3615580201148987,
	"learning_rate": 0.00011412061518230914,
	"loss": 0.5982248783111572,
	"step": 354
	},
	{
	"epoch": 0.44809088040391293,
	"grad_norm": 0.35184618830680847,
	"learning_rate": 0.00011371394633214547,
	"loss": 0.7312008142471313,
	"step": 355
	},
	{
	"epoch": 0.4493531082360366,
	"grad_norm": 0.37319618463516235,
	"learning_rate": 0.00011330704620164538,
	"loss": 0.4518621265888214,
	"step": 356
	},
	{
	"epoch": 0.4506153360681603,
	"grad_norm": 0.38271263241767883,
	"learning_rate": 0.00011289992165302035,
	"loss": 0.684691309928894,
	"step": 357
	},
	{
	"epoch": 0.451877563900284,
	"grad_norm": 0.3614532947540283,
	"learning_rate": 0.00011249257955226648,
	"loss": 0.7593181729316711,
	"step": 358
	},
	{
	"epoch": 0.4531397917324077,
	"grad_norm": 0.42146942019462585,
	"learning_rate": 0.00011208502676904886,
	"loss": 0.6286287307739258,
	"step": 359
	},
	{
	"epoch": 0.4544020195645314,
	"grad_norm": 0.36411377787590027,
	"learning_rate": 0.00011167727017658562,
	"loss": 0.7084791660308838,
	"step": 360
	},
	{
	"epoch": 0.4556642473966551,
	"grad_norm": 0.3926357328891754,
	"learning_rate": 0.00011126931665153212,
	"loss": 0.7415444254875183,
	"step": 361
	},
	{
	"epoch": 0.4569264752287788,
	"grad_norm": 0.3722608685493469,
	"learning_rate": 0.0001108611730738648,
	"loss": 0.5457031726837158,
	"step": 362
	},
	{
	"epoch": 0.4581887030609025,
	"grad_norm": 0.34348252415657043,
	"learning_rate": 0.00011045284632676536,
	"loss": 0.3467724919319153,
	"step": 363
	},
	{
	"epoch": 0.4594509308930262,
	"grad_norm": 0.38620299100875854,
	"learning_rate": 0.00011004434329650452,
	"loss": 0.6784603595733643,
	"step": 364
	},
	{
	"epoch": 0.4607131587251499,
	"grad_norm": 0.412806898355484,
	"learning_rate": 0.000109635670872326,
	"loss": 0.541936993598938,
	"step": 365
	},
	{
	"epoch": 0.4619753865572736,
	"grad_norm": 0.37946563959121704,
	"learning_rate": 0.00010922683594633021,
	"loss": 0.7005019187927246,
	"step": 366
	},
	{
	"epoch": 0.4632376143893973,
	"grad_norm": 0.36721378564834595,
	"learning_rate": 0.00010881784541335817,
	"loss": 0.5035321712493896,
	"step": 367
	},
	{
	"epoch": 0.46449984222152096,
	"grad_norm": 0.41076555848121643,
	"learning_rate": 0.00010840870617087514,
	"loss": 0.7746437191963196,
	"step": 368
	},
	{
	"epoch": 0.4657620700536447,
	"grad_norm": 0.3742596209049225,
	"learning_rate": 0.00010799942511885418,
	"loss": 0.5171118974685669,
	"step": 369
	},
	{
	"epoch": 0.4670242978857684,
	"grad_norm": 0.3880580961704254,
	"learning_rate": 0.00010759000915966011,
	"loss": 0.7049781680107117,
	"step": 370
	},
	{
	"epoch": 0.4682865257178921,
	"grad_norm": 0.3612365424633026,
	"learning_rate": 0.00010718046519793276,
	"loss": 0.43177270889282227,
	"step": 371
	},
	{
	"epoch": 0.4695487535500158,
	"grad_norm": 0.4223220944404602,
	"learning_rate": 0.00010677080014047076,
	"loss": 0.6074368357658386,
	"step": 372
	},
	{
	"epoch": 0.47081098138213945,
	"grad_norm": 0.3780396282672882,
	"learning_rate": 0.00010636102089611491,
	"loss": 0.5008561015129089,
	"step": 373
	},
	{
	"epoch": 0.47207320921426316,
	"grad_norm": 0.3705812096595764,
	"learning_rate": 0.00010595113437563176,
	"loss": 0.6822476983070374,
	"step": 374
	},
	{
	"epoch": 0.47333543704638686,
	"grad_norm": 0.4130505919456482,
	"learning_rate": 0.000105541147491597,
	"loss": 0.5583031177520752,
	"step": 375
	},
	{
	"epoch": 0.4745976648785106,
	"grad_norm": 0.3589628040790558,
	"learning_rate": 0.00010513106715827896,
	"loss": 0.801206111907959,
	"step": 376
	},
	{
	"epoch": 0.4758598927106343,
	"grad_norm": 0.3859142065048218,
	"learning_rate": 0.00010472090029152196,
	"loss": 0.5001563429832458,
	"step": 377
	},
	{
	"epoch": 0.477122120542758,
	"grad_norm": 0.5252732038497925,
	"learning_rate": 0.00010431065380862959,
	"loss": 0.6630918383598328,
	"step": 378
	},
	{
	"epoch": 0.47838434837488164,
	"grad_norm": 0.37909185886383057,
	"learning_rate": 0.00010390033462824817,
	"loss": 0.7034825682640076,
	"step": 379
	},
	{
	"epoch": 0.47964657620700535,
	"grad_norm": 0.3590451776981354,
	"learning_rate": 0.00010348994967025012,
	"loss": 0.36768239736557007,
	"step": 380
	},
	{
	"epoch": 0.48090880403912906,
	"grad_norm": 0.3347563147544861,
	"learning_rate": 0.00010307950585561706,
	"loss": 0.35689371824264526,
	"step": 381
	},
	{
	"epoch": 0.48217103187125276,
	"grad_norm": 0.3807820975780487,
	"learning_rate": 0.00010266901010632324,
	"loss": 0.4797685742378235,
	"step": 382
	},
	{
	"epoch": 0.48343325970337647,
	"grad_norm": 0.35765600204467773,
	"learning_rate": 0.00010225846934521881,
	"loss": 0.5064284205436707,
	"step": 383
	},
	{
	"epoch": 0.4846954875355002,
	"grad_norm": 0.39294371008872986,
	"learning_rate": 0.00010184789049591299,
	"loss": 0.6024259924888611,
	"step": 384
	},
	{
	"epoch": 0.48595771536762383,
	"grad_norm": 0.3386979401111603,
	"learning_rate": 0.00010143728048265735,
	"loss": 0.4336264133453369,
	"step": 385
	},
	{
	"epoch": 0.48721994319974754,
	"grad_norm": 0.38877370953559875,
	"learning_rate": 0.00010102664623022899,
	"loss": 0.5891298055648804,
	"step": 386
	},
	{
	"epoch": 0.48848217103187125,
	"grad_norm": 0.3828097879886627,
	"learning_rate": 0.00010061599466381389,
	"loss": 0.608544111251831,
	"step": 387
	},
	{
	"epoch": 0.48974439886399496,
	"grad_norm": 0.3743601441383362,
	"learning_rate": 0.0001002053327088899,
	"loss": 0.6880306601524353,
	"step": 388
	},
	{
	"epoch": 0.49100662669611866,
	"grad_norm": 0.39663559198379517,
	"learning_rate": 9.979466729111013e-05,
	"loss": 0.587350070476532,
	"step": 389
	},
	{
	"epoch": 0.49226885452824237,
	"grad_norm": 0.4369630813598633,
	"learning_rate": 9.938400533618615e-05,
	"loss": 0.6706233024597168,
	"step": 390
	},
	{
	"epoch": 0.493531082360366,
	"grad_norm": 0.41926079988479614,
	"learning_rate": 9.897335376977102e-05,
	"loss": 0.6896798610687256,
	"step": 391
	},
	{
	"epoch": 0.49479331019248973,
	"grad_norm": 0.4132974147796631,
	"learning_rate": 9.856271951734268e-05,
	"loss": 0.49843940138816833,
	"step": 392
	},
	{
	"epoch": 0.49605553802461344,
	"grad_norm": 0.2707560956478119,
	"learning_rate": 9.815210950408704e-05,
	"loss": 0.2632002830505371,
	"step": 393
	},
	{
	"epoch": 0.49731776585673715,
	"grad_norm": 0.38526275753974915,
	"learning_rate": 9.774153065478121e-05,
	"loss": 0.40896376967430115,
	"step": 394
	},
	{
	"epoch": 0.49857999368886086,
	"grad_norm": 0.38434556126594543,
	"learning_rate": 9.733098989367677e-05,
	"loss": 0.5658249855041504,
	"step": 395
	},
	{
	"epoch": 0.49984222152098456,
	"grad_norm": 0.37741097807884216,
	"learning_rate": 9.692049414438299e-05,
	"loss": 0.6638325452804565,
	"step": 396
	},
	{
	"epoch": 0.5011044493531083,
	"grad_norm": 0.38284313678741455,
	"learning_rate": 9.651005032974994e-05,
	"loss": 0.822309672832489,
	"step": 397
	},
	{
	"epoch": 0.502366677185232,
	"grad_norm": 0.39180007576942444,
	"learning_rate": 9.609966537175185e-05,
	"loss": 0.6988601684570312,
	"step": 398
	},
	{
	"epoch": 0.5036289050173557,
	"grad_norm": 0.37315770983695984,
	"learning_rate": 9.568934619137046e-05,
	"loss": 0.3722432851791382,
	"step": 399
	},
	{
	"epoch": 0.5048911328494793,
	"grad_norm": 0.3731346130371094,
	"learning_rate": 9.52790997084781e-05,
	"loss": 0.6665936708450317,
	"step": 400
	},
	{
	"epoch": 0.506153360681603,
	"grad_norm": 0.39265018701553345,
	"learning_rate": 9.486893284172102e-05,
	"loss": 0.4295370578765869,
	"step": 401
	},
	{
	"epoch": 0.5074155885137267,
	"grad_norm": 0.22621490061283112,
	"learning_rate": 9.4458852508403e-05,
	"loss": 0.1555391401052475,
	"step": 402
	},
	{
	"epoch": 0.5086778163458504,
	"grad_norm": 0.39791470766067505,
	"learning_rate": 9.404886562436825e-05,
	"loss": 0.7941228151321411,
	"step": 403
	},
	{
	"epoch": 0.5099400441779741,
	"grad_norm": 0.39022767543792725,
	"learning_rate": 9.36389791038851e-05,
	"loss": 0.6743201613426208,
	"step": 404
	},
	{
	"epoch": 0.5112022720100978,
	"grad_norm": 0.3959182798862457,
	"learning_rate": 9.322919985952926e-05,
	"loss": 0.6928982138633728,
	"step": 405
	},
	{
	"epoch": 0.5124644998422215,
	"grad_norm": 0.35128676891326904,
	"learning_rate": 9.281953480206725e-05,
	"loss": 0.4283405840396881,
	"step": 406
	},
	{
	"epoch": 0.5137267276743452,
	"grad_norm": 0.38393881916999817,
	"learning_rate": 9.240999084033991e-05,
	"loss": 0.48866939544677734,
	"step": 407
	},
	{
	"epoch": 0.514988955506469,
	"grad_norm": 0.3746855556964874,
	"learning_rate": 9.200057488114585e-05,
	"loss": 0.7293848395347595,
	"step": 408
	},
	{
	"epoch": 0.5162511833385927,
	"grad_norm": 0.3574482500553131,
	"learning_rate": 9.15912938291249e-05,
	"loss": 0.7160978317260742,
	"step": 409
	},
	{
	"epoch": 0.5175134111707164,
	"grad_norm": 0.31795260310173035,
	"learning_rate": 9.118215458664185e-05,
	"loss": 0.3059941828250885,
	"step": 410
	},
	{
	"epoch": 0.51877563900284,
	"grad_norm": 0.37041789293289185,
	"learning_rate": 9.077316405366981e-05,
	"loss": 0.40029266476631165,
	"step": 411
	},
	{
	"epoch": 0.5200378668349637,
	"grad_norm": 0.3135358989238739,
	"learning_rate": 9.036432912767403e-05,
	"loss": 0.34788432717323303,
	"step": 412
	},
	{
	"epoch": 0.5213000946670874,
	"grad_norm": 0.3632740080356598,
	"learning_rate": 8.99556567034955e-05,
	"loss": 0.47788649797439575,
	"step": 413
	},
	{
	"epoch": 0.5225623224992111,
	"grad_norm": 0.39943233132362366,
	"learning_rate": 8.954715367323468e-05,
	"loss": 0.7340242862701416,
	"step": 414
	},
	{
	"epoch": 0.5238245503313348,
	"grad_norm": 0.35586607456207275,
	"learning_rate": 8.91388269261352e-05,
	"loss": 0.416128933429718,
	"step": 415
	},
	{
	"epoch": 0.5250867781634585,
	"grad_norm": 0.38117703795433044,
	"learning_rate": 8.87306833484679e-05,
	"loss": 0.5627406239509583,
	"step": 416
	},
	{
	"epoch": 0.5263490059955822,
	"grad_norm": 0.4389495253562927,
	"learning_rate": 8.832272982341439e-05,
	"loss": 0.41440343856811523,
	"step": 417
	},
	{
	"epoch": 0.5276112338277059,
	"grad_norm": 0.4085499942302704,
	"learning_rate": 8.791497323095116e-05,
	"loss": 0.48129522800445557,
	"step": 418
	},
	{
	"epoch": 0.5288734616598296,
	"grad_norm": 0.4046858549118042,
	"learning_rate": 8.750742044773354e-05,
	"loss": 0.6476734280586243,
	"step": 419
	},
	{
	"epoch": 0.5301356894919533,
	"grad_norm": 0.4076245427131653,
	"learning_rate": 8.710007834697969e-05,
	"loss": 0.6386293768882751,
	"step": 420
	},
	{
	"epoch": 0.531397917324077,
	"grad_norm": 0.4085608124732971,
	"learning_rate": 8.669295379835467e-05,
	"loss": 0.6650468707084656,
	"step": 421
	},
	{
	"epoch": 0.5326601451562007,
	"grad_norm": 0.4489421844482422,
	"learning_rate": 8.628605366785458e-05,
	"loss": 0.5000302195549011,
	"step": 422
	},
	{
	"epoch": 0.5339223729883243,
	"grad_norm": 0.3692164123058319,
	"learning_rate": 8.587938481769089e-05,
	"loss": 0.6816071271896362,
	"step": 423
	},
	{
	"epoch": 0.535184600820448,
	"grad_norm": 0.40202704071998596,
	"learning_rate": 8.547295410617453e-05,
	"loss": 0.7187950611114502,
	"step": 424
	},
	{
	"epoch": 0.5364468286525718,
	"grad_norm": 0.3954196870326996,
	"learning_rate": 8.506676838760032e-05,
	"loss": 0.47280117869377136,
	"step": 425
	},
	{
	"epoch": 0.5377090564846955,
	"grad_norm": 0.4074536859989166,
	"learning_rate": 8.466083451213144e-05,
	"loss": 0.5304967761039734,
	"step": 426
	},
	{
	"epoch": 0.5389712843168192,
	"grad_norm": 0.4292575418949127,
	"learning_rate": 8.425515932568382e-05,
	"loss": 0.5013709664344788,
	"step": 427
	},
	{
	"epoch": 0.5402335121489429,
	"grad_norm": 0.3722835183143616,
	"learning_rate": 8.384974966981063e-05,
	"loss": 0.5023803114891052,
	"step": 428
	},
	{
	"epoch": 0.5414957399810666,
	"grad_norm": 0.39425259828567505,
	"learning_rate": 8.344461238158699e-05,
	"loss": 0.5070059299468994,
	"step": 429
	},
	{
	"epoch": 0.5427579678131903,
	"grad_norm": 0.3532828688621521,
	"learning_rate": 8.303975429349473e-05,
	"loss": 0.4102450907230377,
	"step": 430
	},
	{
	"epoch": 0.544020195645314,
	"grad_norm": 0.41622671484947205,
	"learning_rate": 8.263518223330697e-05,
	"loss": 0.7629631757736206,
	"step": 431
	},
	{
	"epoch": 0.5452824234774377,
	"grad_norm": 0.410709947347641,
	"learning_rate": 8.223090302397313e-05,
	"loss": 0.7080658078193665,
	"step": 432
	},
	{
	"epoch": 0.5465446513095614,
	"grad_norm": 0.3647861182689667,
	"learning_rate": 8.182692348350385e-05,
	"loss": 0.48096179962158203,
	"step": 433
	},
	{
	"epoch": 0.547806879141685,
	"grad_norm": 0.39459702372550964,
	"learning_rate": 8.142325042485592e-05,
	"loss": 0.8301153779029846,
	"step": 434
	},
	{
	"epoch": 0.5490691069738087,
	"grad_norm": 0.3667653799057007,
	"learning_rate": 8.101989065581743e-05,
	"loss": 0.44432565569877625,
	"step": 435
	},
	{
	"epoch": 0.5503313348059324,
	"grad_norm": 0.4047844707965851,
	"learning_rate": 8.0616850978893e-05,
	"loss": 0.5940053462982178,
	"step": 436
	},
	{
	"epoch": 0.5515935626380561,
	"grad_norm": 0.4128320515155792,
	"learning_rate": 8.021413819118903e-05,
	"loss": 0.512177050113678,
	"step": 437
	},
	{
	"epoch": 0.5528557904701799,
	"grad_norm": 0.37576359510421753,
	"learning_rate": 7.9811759084299e-05,
	"loss": 0.5231778025627136,
	"step": 438
	},
	{
	"epoch": 0.5541180183023036,
	"grad_norm": 0.3246806263923645,
	"learning_rate": 7.940972044418902e-05,
	"loss": 0.31796854734420776,
	"step": 439
	},
	{
	"epoch": 0.5553802461344273,
	"grad_norm": 0.35433802008628845,
	"learning_rate": 7.900802905108342e-05,
	"loss": 0.42495012283325195,
	"step": 440
	},
	{
	"epoch": 0.556642473966551,
	"grad_norm": 0.4064764380455017,
	"learning_rate": 7.860669167935028e-05,
	"loss": 0.6670479774475098,
	"step": 441
	},
	{
	"epoch": 0.5579047017986747,
	"grad_norm": 0.3848694860935211,
	"learning_rate": 7.820571509738723e-05,
	"loss": 0.9129263162612915,
	"step": 442
	},
	{
	"epoch": 0.5591669296307984,
	"grad_norm": 0.33378908038139343,
	"learning_rate": 7.780510606750742e-05,
	"loss": 0.3959806561470032,
	"step": 443
	},
	{
	"epoch": 0.5604291574629221,
	"grad_norm": 0.4084720313549042,
	"learning_rate": 7.740487134582525e-05,
	"loss": 0.5052785873413086,
	"step": 444
	},
	{
	"epoch": 0.5616913852950458,
	"grad_norm": 0.4099523425102234,
	"learning_rate": 7.700501768214267e-05,
	"loss": 0.6453187465667725,
	"step": 445
	},
	{
	"epoch": 0.5629536131271694,
	"grad_norm": 0.3560808002948761,
	"learning_rate": 7.660555181983518e-05,
	"loss": 0.4158024787902832,
	"step": 446
	},
	{
	"epoch": 0.5642158409592931,
	"grad_norm": 0.39216476678848267,
	"learning_rate": 7.620648049573815e-05,
	"loss": 0.5767735242843628,
	"step": 447
	},
	{
	"epoch": 0.5654780687914168,
	"grad_norm": 0.3903045356273651,
	"learning_rate": 7.580781044003324e-05,
	"loss": 0.44133317470550537,
	"step": 448
	},
	{
	"epoch": 0.5667402966235405,
	"grad_norm": 0.37804114818573,
	"learning_rate": 7.540954837613488e-05,
	"loss": 0.3772793710231781,
	"step": 449
	},
	{
	"epoch": 0.5680025244556642,
	"grad_norm": 0.40392929315567017,
	"learning_rate": 7.50117010205769e-05,
	"loss": 0.6205388307571411,
	"step": 450
	},
	{
	"epoch": 0.569264752287788,
	"grad_norm": 0.414870023727417,
	"learning_rate": 7.461427508289922e-05,
	"loss": 0.58516925573349,
	"step": 451
	},
	{
	"epoch": 0.5705269801199117,
	"grad_norm": 0.3570805490016937,
	"learning_rate": 7.421727726553463e-05,
	"loss": 0.4138091802597046,
	"step": 452
	},
	{
	"epoch": 0.5717892079520354,
	"grad_norm": 0.3515688478946686,
	"learning_rate": 7.382071426369597e-05,
	"loss": 0.3913613557815552,
	"step": 453
	},
	{
	"epoch": 0.5730514357841591,
	"grad_norm": 0.3770284056663513,
	"learning_rate": 7.342459276526302e-05,
	"loss": 0.6880075335502625,
	"step": 454
	},
	{
	"epoch": 0.5743136636162828,
	"grad_norm": 0.3983762264251709,
	"learning_rate": 7.302891945066974e-05,
	"loss": 0.6962027549743652,
	"step": 455
	},
	{
	"epoch": 0.5755758914484065,
	"grad_norm": 0.3529524505138397,
	"learning_rate": 7.263370099279172e-05,
	"loss": 0.4161332845687866,
	"step": 456
	},
	{
	"epoch": 0.5768381192805301,
	"grad_norm": 0.3377407193183899,
	"learning_rate": 7.223894405683354e-05,
	"loss": 0.39849692583084106,
	"step": 457
	},
	{
	"epoch": 0.5781003471126538,
	"grad_norm": 0.4013289511203766,
	"learning_rate": 7.18446553002164e-05,
	"loss": 0.5468084812164307,
	"step": 458
	},
	{
	"epoch": 0.5793625749447775,
	"grad_norm": 0.39508214592933655,
	"learning_rate": 7.14508413724658e-05,
	"loss": 0.8175787329673767,
	"step": 459
	},
	{
	"epoch": 0.5806248027769012,
	"grad_norm": 0.4191129803657532,
	"learning_rate": 7.10575089150995e-05,
	"loss": 0.5919452905654907,
	"step": 460
	},
	{
	"epoch": 0.5818870306090249,
	"grad_norm": 0.40128064155578613,
	"learning_rate": 7.066466456151541e-05,
	"loss": 0.8323053121566772,
	"step": 461
	},
	{
	"epoch": 0.5831492584411486,
	"grad_norm": 0.3903089761734009,
	"learning_rate": 7.027231493687974e-05,
	"loss": 0.4888315796852112,
	"step": 462
	},
	{
	"epoch": 0.5844114862732723,
	"grad_norm": 0.3628254532814026,
	"learning_rate": 6.988046665801536e-05,
	"loss": 0.33037495613098145,
	"step": 463
	},
	{
	"epoch": 0.585673714105396,
	"grad_norm": 0.3754008710384369,
	"learning_rate": 6.948912633329007e-05,
	"loss": 0.5007816553115845,
	"step": 464
	},
	{
	"epoch": 0.5869359419375197,
	"grad_norm": 0.376667320728302,
	"learning_rate": 6.909830056250527e-05,
	"loss": 0.757786750793457,
	"step": 465
	},
	{
	"epoch": 0.5881981697696435,
	"grad_norm": 0.29717469215393066,
	"learning_rate": 6.870799593678459e-05,
	"loss": 0.2943430244922638,
	"step": 466
	},
	{
	"epoch": 0.5894603976017672,
	"grad_norm": 0.38486912846565247,
	"learning_rate": 6.831821903846273e-05,
	"loss": 0.44896000623703003,
	"step": 467
	},
	{
	"epoch": 0.5907226254338909,
	"grad_norm": 0.34192511439323425,
	"learning_rate": 6.792897644097451e-05,
	"loss": 0.29370012879371643,
	"step": 468
	},
	{
	"epoch": 0.5919848532660145,
	"grad_norm": 0.4050130248069763,
	"learning_rate": 6.754027470874396e-05,
	"loss": 0.6608400344848633,
	"step": 469
	},
	{
	"epoch": 0.5932470810981382,
	"grad_norm": 0.3004320561885834,
	"learning_rate": 6.715212039707364e-05,
	"loss": 0.23013579845428467,
	"step": 470
	},
	{
	"epoch": 0.5945093089302619,
	"grad_norm": 0.36933329701423645,
	"learning_rate": 6.676452005203406e-05,
	"loss": 0.6952561140060425,
	"step": 471
	},
	{
	"epoch": 0.5957715367623856,
	"grad_norm": 0.42043766379356384,
	"learning_rate": 6.63774802103533e-05,
	"loss": 0.7303497195243835,
	"step": 472
	},
	{
	"epoch": 0.5970337645945093,
	"grad_norm": 0.3762672543525696,
	"learning_rate": 6.599100739930677e-05,
	"loss": 0.7378503084182739,
	"step": 473
	},
	{
	"epoch": 0.598295992426633,
	"grad_norm": 0.36484387516975403,
	"learning_rate": 6.560510813660719e-05,
	"loss": 0.4264744818210602,
	"step": 474
	},
	{
	"epoch": 0.5995582202587567,
	"grad_norm": 0.4137173295021057,
	"learning_rate": 6.521978893029452e-05,
	"loss": 0.6754275560379028,
	"step": 475
	},
	{
	"epoch": 0.6008204480908804,
	"grad_norm": 0.4293482303619385,
	"learning_rate": 6.483505627862632e-05,
	"loss": 0.7817292809486389,
	"step": 476
	},
	{
	"epoch": 0.6020826759230041,
	"grad_norm": 0.4162338376045227,
	"learning_rate": 6.44509166699682e-05,
	"loss": 0.6910249590873718,
	"step": 477
	},
	{
	"epoch": 0.6033449037551278,
	"grad_norm": 0.4081710875034332,
	"learning_rate": 6.406737658268425e-05,
	"loss": 0.68759685754776,
	"step": 478
	},
	{
	"epoch": 0.6046071315872515,
	"grad_norm": 0.37592121958732605,
	"learning_rate": 6.368444248502789e-05,
	"loss": 0.6178593635559082,
	"step": 479
	},
	{
	"epoch": 0.6058693594193751,
	"grad_norm": 0.43066924810409546,
	"learning_rate": 6.33021208350328e-05,
	"loss": 0.5456580519676208,
	"step": 480
	},
	{
	"epoch": 0.6071315872514988,
	"grad_norm": 0.3334132730960846,
	"learning_rate": 6.292041808040393e-05,
	"loss": 0.36408746242523193,
	"step": 481
	},
	{
	"epoch": 0.6083938150836226,
	"grad_norm": 0.42052480578422546,
	"learning_rate": 6.25393406584088e-05,
	"loss": 0.6775397062301636,
	"step": 482
	},
	{
	"epoch": 0.6096560429157463,
	"grad_norm": 0.3473283648490906,
	"learning_rate": 6.215889499576898e-05,
	"loss": 0.4786512851715088,
	"step": 483
	},
	{
	"epoch": 0.61091827074787,
	"grad_norm": 0.35813814401626587,
	"learning_rate": 6.177908750855164e-05,
	"loss": 0.35457998514175415,
	"step": 484
	},
	{
	"epoch": 0.6121804985799937,
	"grad_norm": 0.33015450835227966,
	"learning_rate": 6.139992460206132e-05,
	"loss": 0.314817875623703,
	"step": 485
	},
	{
	"epoch": 0.6134427264121174,
	"grad_norm": 0.3904082179069519,
	"learning_rate": 6.102141267073207e-05,
	"loss": 0.5199745893478394,
	"step": 486
	},
	{
	"epoch": 0.6147049542442411,
	"grad_norm": 0.3974827229976654,
	"learning_rate": 6.064355809801943e-05,
	"loss": 0.6768912672996521,
	"step": 487
	},
	{
	"epoch": 0.6159671820763648,
	"grad_norm": 0.3908008635044098,
	"learning_rate": 6.02663672562928e-05,
	"loss": 0.5883216261863708,
	"step": 488
	},
	{
	"epoch": 0.6172294099084885,
	"grad_norm": 0.3862961232662201,
	"learning_rate": 5.988984650672813e-05,
	"loss": 0.7970855236053467,
	"step": 489
	},
	{
	"epoch": 0.6184916377406122,
	"grad_norm": 0.3746252655982971,
	"learning_rate": 5.951400219920046e-05,
	"loss": 0.4062190651893616,
	"step": 490
	},
	{
	"epoch": 0.6197538655727359,
	"grad_norm": 0.36359089612960815,
	"learning_rate": 5.913884067217685e-05,
	"loss": 0.4925137758255005,
	"step": 491
	},
	{
	"epoch": 0.6210160934048595,
	"grad_norm": 0.3990168273448944,
	"learning_rate": 5.876436825260967e-05,
	"loss": 0.7016726732254028,
	"step": 492
	},
	{
	"epoch": 0.6222783212369832,
	"grad_norm": 0.3235120475292206,
	"learning_rate": 5.8390591255829644e-05,
	"loss": 0.31492355465888977,
	"step": 493
	},
	{
	"epoch": 0.6235405490691069,
	"grad_norm": 0.41507890820503235,
	"learning_rate": 5.8017515985439465e-05,
	"loss": 0.647290825843811,
	"step": 494
	},
	{
	"epoch": 0.6248027769012306,
	"grad_norm": 0.27676281332969666,
	"learning_rate": 5.764514873320761e-05,
	"loss": 0.2870396375656128,
	"step": 495
	},
	{
	"epoch": 0.6260650047333544,
	"grad_norm": 0.3965661823749542,
	"learning_rate": 5.727349577896194e-05,
	"loss": 0.4853188693523407,
	"step": 496
	},
	{
	"epoch": 0.6273272325654781,
	"grad_norm": 0.4400973916053772,
	"learning_rate": 5.6902563390484023e-05,
	"loss": 0.6750615239143372,
	"step": 497
	},
	{
	"epoch": 0.6285894603976018,
	"grad_norm": 0.3927224576473236,
	"learning_rate": 5.6532357823403517e-05,
	"loss": 0.4222678542137146,
	"step": 498
	},
	{
	"epoch": 0.6298516882297255,
	"grad_norm": 0.3898910880088806,
	"learning_rate": 5.616288532109225e-05,
	"loss": 0.6995186805725098,
	"step": 499
	},
	{
	"epoch": 0.6311139160618492,
	"grad_norm": 0.38628652691841125,
	"learning_rate": 5.579415211455941e-05,
	"loss": 0.44969233870506287,
	"step": 500
	},
	{
	"epoch": 0.6323761438939729,
	"grad_norm": 0.42243316769599915,
	"learning_rate": 5.542616442234618e-05,
	"loss": 0.6847352981567383,
	"step": 501
	},
	{
	"epoch": 0.6336383717260966,
	"grad_norm": 0.394643098115921,
	"learning_rate": 5.505892845042089e-05,
	"loss": 0.5232677459716797,
	"step": 502
	},
	{
	"epoch": 0.6349005995582203,
	"grad_norm": 0.3849993050098419,
	"learning_rate": 5.469245039207451e-05,
	"loss": 0.45429885387420654,
	"step": 503
	},
	{
	"epoch": 0.6361628273903439,
	"grad_norm": 0.39264214038848877,
	"learning_rate": 5.4326736427815946e-05,
	"loss": 0.7198891639709473,
	"step": 504
	},
	{
	"epoch": 0.6374250552224676,
	"grad_norm": 0.3624120056629181,
	"learning_rate": 5.39617927252681e-05,
	"loss": 0.6535207033157349,
	"step": 505
	},
	{
	"epoch": 0.6386872830545913,
	"grad_norm": 0.41762086749076843,
	"learning_rate": 5.359762543906368e-05,
	"loss": 0.5117899775505066,
	"step": 506
	},
	{
	"epoch": 0.639949510886715,
	"grad_norm": 0.3560762405395508,
	"learning_rate": 5.3234240710741337e-05,
	"loss": 0.3488892912864685,
	"step": 507
	},
	{
	"epoch": 0.6412117387188387,
	"grad_norm": 0.3697710633277893,
	"learning_rate": 5.28716446686423e-05,
	"loss": 0.5296636819839478,
	"step": 508
	},
	{
	"epoch": 0.6424739665509624,
	"grad_norm": 0.3891625702381134,
	"learning_rate": 5.250984342780689e-05,
	"loss": 0.4500022530555725,
	"step": 509
	},
	{
	"epoch": 0.6437361943830862,
	"grad_norm": 0.4205571115016937,
	"learning_rate": 5.214884308987136e-05,
	"loss": 0.4895755648612976,
	"step": 510
	},
	{
	"epoch": 0.6449984222152099,
	"grad_norm": 0.41864123940467834,
	"learning_rate": 5.178864974296511e-05,
	"loss": 0.7258821725845337,
	"step": 511
	},
	{
	"epoch": 0.6462606500473336,
	"grad_norm": 0.3590496778488159,
	"learning_rate": 5.142926946160799e-05,
	"loss": 0.3575442135334015,
	"step": 512
	},
	{
	"epoch": 0.6475228778794573,
	"grad_norm": 0.41997307538986206,
	"learning_rate": 5.107070830660765e-05,
	"loss": 0.6464291214942932,
	"step": 513
	},
	{
	"epoch": 0.648785105711581,
	"grad_norm": 0.40842562913894653,
	"learning_rate": 5.071297232495769e-05,
	"loss": 0.693924069404602,
	"step": 514
	},
	{
	"epoch": 0.6500473335437046,
	"grad_norm": 0.4067709445953369,
	"learning_rate": 5.035606754973539e-05,
	"loss": 0.7233395576477051,
	"step": 515
	},
	{
	"epoch": 0.6513095613758283,
	"grad_norm": 0.4231897294521332,
	"learning_rate": 5.000000000000002e-05,
	"loss": 0.5112624764442444,
	"step": 516
	},
	{
	"epoch": 0.652571789207952,
	"grad_norm": 0.33488285541534424,
	"learning_rate": 4.964477568069146e-05,
	"loss": 0.335151731967926,
	"step": 517
	},
	{
	"epoch": 0.6538340170400757,
	"grad_norm": 0.39816269278526306,
	"learning_rate": 4.9290400582528815e-05,
	"loss": 0.47427669167518616,
	"step": 518
	},
	{
	"epoch": 0.6550962448721994,
	"grad_norm": 0.3252885341644287,
	"learning_rate": 4.893688068190932e-05,
	"loss": 0.26451653242111206,
	"step": 519
	},
	{
	"epoch": 0.6563584727043231,
	"grad_norm": 0.3190288543701172,
	"learning_rate": 4.8584221940807774e-05,
	"loss": 0.29336637258529663,
	"step": 520
	},
	{
	"epoch": 0.6576207005364468,
	"grad_norm": 0.3690161108970642,
	"learning_rate": 4.823243030667576e-05,
	"loss": 0.4153848886489868,
	"step": 521
	},
	{
	"epoch": 0.6588829283685705,
	"grad_norm": 0.38851308822631836,
	"learning_rate": 4.7881511712341484e-05,
	"loss": 0.8248839974403381,
	"step": 522
	},
	{
	"epoch": 0.6601451562006942,
	"grad_norm": 0.3935796618461609,
	"learning_rate": 4.753147207590971e-05,
	"loss": 0.8026013970375061,
	"step": 523
	},
	{
	"epoch": 0.661407384032818,
	"grad_norm": 0.39873406291007996,
	"learning_rate": 4.7182317300661796e-05,
	"loss": 0.7289063930511475,
	"step": 524
	},
	{
	"epoch": 0.6626696118649417,
	"grad_norm": 0.3880118429660797,
	"learning_rate": 4.683405327495638e-05,
	"loss": 0.5413039922714233,
	"step": 525
	},
	{
	"epoch": 0.6639318396970654,
	"grad_norm": 0.41318458318710327,
	"learning_rate": 4.648668587212997e-05,
	"loss": 0.6406034827232361,
	"step": 526
	},
	{
	"epoch": 0.665194067529189,
	"grad_norm": 0.3890816271305084,
	"learning_rate": 4.6140220950397764e-05,
	"loss": 0.7736164927482605,
	"step": 527
	},
	{
	"epoch": 0.6664562953613127,
	"grad_norm": 0.3265458047389984,
	"learning_rate": 4.5794664352755055e-05,
	"loss": 0.3139330744743347,
	"step": 528
	},
	{
	"epoch": 0.6677185231934364,
	"grad_norm": 0.3433822691440582,
	"learning_rate": 4.545002190687865e-05,
	"loss": 0.35356977581977844,
	"step": 529
	},
	{
	"epoch": 0.6689807510255601,
	"grad_norm": 0.3755057156085968,
	"learning_rate": 4.510629942502839e-05,
	"loss": 0.8373801708221436,
	"step": 530
	},
	{
	"epoch": 0.6702429788576838,
	"grad_norm": 0.31386467814445496,
	"learning_rate": 4.476350270394942e-05,
	"loss": 0.2859068214893341,
	"step": 531
	},
	{
	"epoch": 0.6715052066898075,
	"grad_norm": 0.3479110598564148,
	"learning_rate": 4.4421637524774285e-05,
	"loss": 0.4022149443626404,
	"step": 532
	},
	{
	"epoch": 0.6727674345219312,
	"grad_norm": 0.3931775689125061,
	"learning_rate": 4.4080709652925336e-05,
	"loss": 0.4654971957206726,
	"step": 533
	},
	{
	"epoch": 0.6740296623540549,
	"grad_norm": 0.41888129711151123,
	"learning_rate": 4.374072483801769e-05,
	"loss": 0.6287370920181274,
	"step": 534
	},
	{
	"epoch": 0.6752918901861786,
	"grad_norm": 0.3527485430240631,
	"learning_rate": 4.340168881376222e-05,
	"loss": 0.424509197473526,
	"step": 535
	},
	{
	"epoch": 0.6765541180183023,
	"grad_norm": 0.3850213289260864,
	"learning_rate": 4.306360729786867e-05,
	"loss": 0.6349387764930725,
	"step": 536
	},
	{
	"epoch": 0.677816345850426,
	"grad_norm": 0.39798423647880554,
	"learning_rate": 4.272648599194948e-05,
	"loss": 0.4587141275405884,
	"step": 537
	},
	{
	"epoch": 0.6790785736825496,
	"grad_norm": 0.4049997925758362,
	"learning_rate": 4.239033058142356e-05,
	"loss": 0.6317430138587952,
	"step": 538
	},
	{
	"epoch": 0.6803408015146734,
	"grad_norm": 0.3872447609901428,
	"learning_rate": 4.2055146735420245e-05,
	"loss": 0.511966347694397,
	"step": 539
	},
	{
	"epoch": 0.6816030293467971,
	"grad_norm": 0.34591948986053467,
	"learning_rate": 4.172094010668391e-05,
	"loss": 0.34035632014274597,
	"step": 540
	},
	{
	"epoch": 0.6828652571789208,
	"grad_norm": 0.35914257168769836,
	"learning_rate": 4.1387716331478565e-05,
	"loss": 0.4750257134437561,
	"step": 541
	},
	{
	"epoch": 0.6841274850110445,
	"grad_norm": 0.37576189637184143,
	"learning_rate": 4.1055481029492645e-05,
	"loss": 0.44672656059265137,
	"step": 542
	},
	{
	"epoch": 0.6853897128431682,
	"grad_norm": 0.38701605796813965,
	"learning_rate": 4.072423980374452e-05,
	"loss": 0.45069319009780884,
	"step": 543
	},
	{
	"epoch": 0.6866519406752919,
	"grad_norm": 0.3991917669773102,
	"learning_rate": 4.039399824048777e-05,
	"loss": 0.4803800582885742,
	"step": 544
	},
	{
	"epoch": 0.6879141685074156,
	"grad_norm": 0.3985093832015991,
	"learning_rate": 4.00647619091171e-05,
	"loss": 0.707385778427124,
	"step": 545
	},
	{
	"epoch": 0.6891763963395393,
	"grad_norm": 0.34546467661857605,
	"learning_rate": 3.973653636207437e-05,
	"loss": 0.40447893738746643,
	"step": 546
	},
	{
	"epoch": 0.690438624171663,
	"grad_norm": 0.3801027834415436,
	"learning_rate": 3.9409327134754895e-05,
	"loss": 0.4316953420639038,
	"step": 547
	},
	{
	"epoch": 0.6917008520037867,
	"grad_norm": 0.39960116147994995,
	"learning_rate": 3.908313974541422e-05,
	"loss": 0.6661956906318665,
	"step": 548
	},
	{
	"epoch": 0.6929630798359104,
	"grad_norm": 0.4249173402786255,
	"learning_rate": 3.875797969507502e-05,
	"loss": 0.6954900026321411,
	"step": 549
	},
	{
	"epoch": 0.694225307668034,
	"grad_norm": 0.4491938650608063,
	"learning_rate": 3.843385246743417e-05,
	"loss": 0.694817066192627,
	"step": 550
	},
	{
	"epoch": 0.6954875355001577,
	"grad_norm": 0.4053807556629181,
	"learning_rate": 3.811076352877054e-05,
	"loss": 0.677171528339386,
	"step": 551
	},
	{
	"epoch": 0.6967497633322814,
	"grad_norm": 0.3556557893753052,
	"learning_rate": 3.778871832785262e-05,
	"loss": 0.31312018632888794,
	"step": 552
	},
	{
	"epoch": 0.6980119911644052,
	"grad_norm": 0.37487420439720154,
	"learning_rate": 3.74677222958466e-05,
	"loss": 0.43329551815986633,
	"step": 553
	},
	{
	"epoch": 0.6992742189965289,
	"grad_norm": 0.4070112407207489,
	"learning_rate": 3.714778084622492e-05,
	"loss": 0.6022857427597046,
	"step": 554
	},
	{
	"epoch": 0.7005364468286526,
	"grad_norm": 0.3633062243461609,
	"learning_rate": 3.682889937467493e-05,
	"loss": 0.407479465007782,
	"step": 555
	},
	{
	"epoch": 0.7017986746607763,
	"grad_norm": 0.38449397683143616,
	"learning_rate": 3.651108325900773e-05,
	"loss": 0.5523849725723267,
	"step": 556
	},
	{
	"epoch": 0.7030609024929,
	"grad_norm": 0.3744942247867584,
	"learning_rate": 3.619433785906775e-05,
	"loss": 0.48631197214126587,
	"step": 557
	},
	{
	"epoch": 0.7043231303250237,
	"grad_norm": 0.40868815779685974,
	"learning_rate": 3.587866851664219e-05,
	"loss": 0.6774845719337463,
	"step": 558
	},
	{
	"epoch": 0.7055853581571474,
	"grad_norm": 0.35936489701271057,
	"learning_rate": 3.556408055537087e-05,
	"loss": 0.34799298644065857,
	"step": 559
	},
	{
	"epoch": 0.7068475859892711,
	"grad_norm": 0.3731677234172821,
	"learning_rate": 3.5250579280656636e-05,
	"loss": 0.3729614317417145,
	"step": 560
	},
	{
	"epoch": 0.7081098138213947,
	"grad_norm": 0.4450969398021698,
	"learning_rate": 3.493816997957582e-05,
	"loss": 0.39747729897499084,
	"step": 561
	},
	{
	"epoch": 0.7093720416535184,
	"grad_norm": 0.3150026500225067,
	"learning_rate": 3.462685792078888e-05,
	"loss": 0.30238404870033264,
	"step": 562
	},
	{
	"epoch": 0.7106342694856421,
	"grad_norm": 0.4264235496520996,
	"learning_rate": 3.4316648354451895e-05,
	"loss": 0.7084164023399353,
	"step": 563
	},
	{
	"epoch": 0.7118964973177658,
	"grad_norm": 0.35976630449295044,
	"learning_rate": 3.400754651212776e-05,
	"loss": 0.35280704498291016,
	"step": 564
	},
	{
	"epoch": 0.7131587251498895,
	"grad_norm": 0.3740016520023346,
	"learning_rate": 3.3699557606698015e-05,
	"loss": 0.487404465675354,
	"step": 565
	},
	{
	"epoch": 0.7144209529820132,
	"grad_norm": 0.4432770013809204,
	"learning_rate": 3.339268683227499e-05,
	"loss": 0.6776658296585083,
	"step": 566
	},
	{
	"epoch": 0.715683180814137,
	"grad_norm": 0.3524283766746521,
	"learning_rate": 3.308693936411421e-05,
	"loss": 0.3227110207080841,
	"step": 567
	},
	{
	"epoch": 0.7169454086462607,
	"grad_norm": 0.39707088470458984,
	"learning_rate": 3.278232035852693e-05,
	"loss": 0.6849966645240784,
	"step": 568
	},
	{
	"epoch": 0.7182076364783844,
	"grad_norm": 0.4202400743961334,
	"learning_rate": 3.247883495279358e-05,
	"loss": 0.6456137299537659,
	"step": 569
	},
	{
	"epoch": 0.7194698643105081,
	"grad_norm": 0.4002569317817688,
	"learning_rate": 3.2176488265076596e-05,
	"loss": 0.7039542198181152,
	"step": 570
	},
	{
	"epoch": 0.7207320921426318,
	"grad_norm": 0.40294668078422546,
	"learning_rate": 3.187528539433458e-05,
	"loss": 0.46439212560653687,
	"step": 571
	},
	{
	"epoch": 0.7219943199747555,
	"grad_norm": 0.40857481956481934,
	"learning_rate": 3.157523142023604e-05,
	"loss": 0.5847267508506775,
	"step": 572
	},
	{
	"epoch": 0.7232565478068791,
	"grad_norm": 0.43344590067863464,
	"learning_rate": 3.1276331403073735e-05,
	"loss": 0.5486865043640137,
	"step": 573
	},
	{
	"epoch": 0.7245187756390028,
	"grad_norm": 0.4011099934577942,
	"learning_rate": 3.097859038367947e-05,
	"loss": 0.6386106014251709,
	"step": 574
	},
	{
	"epoch": 0.7257810034711265,
	"grad_norm": 0.39212876558303833,
	"learning_rate": 3.068201338333903e-05,
	"loss": 0.6849637031555176,
	"step": 575
	},
	{
	"epoch": 0.7270432313032502,
	"grad_norm": 0.3913683593273163,
	"learning_rate": 3.0386605403707346e-05,
	"loss": 0.9085783958435059,
	"step": 576
	},
	{
	"epoch": 0.7283054591353739,
	"grad_norm": 0.4202577769756317,
	"learning_rate": 3.0092371426724398e-05,
	"loss": 0.692664623260498,
	"step": 577
	},
	{
	"epoch": 0.7295676869674976,
	"grad_norm": 0.33715662360191345,
	"learning_rate": 2.979931641453104e-05,
	"loss": 0.3271544575691223,
	"step": 578
	},
	{
	"epoch": 0.7308299147996213,
	"grad_norm": 0.34124237298965454,
	"learning_rate": 2.9507445309385294e-05,
	"loss": 0.34397092461586,
	"step": 579
	},
	{
	"epoch": 0.732092142631745,
	"grad_norm": 0.40698572993278503,
	"learning_rate": 2.9216763033579097e-05,
	"loss": 0.4819522500038147,
	"step": 580
	},
	{
	"epoch": 0.7333543704638688,
	"grad_norm": 0.37911415100097656,
	"learning_rate": 2.8927274489355293e-05,
	"loss": 0.4310797154903412,
	"step": 581
	},
	{
	"epoch": 0.7346165982959925,
	"grad_norm": 0.36646318435668945,
	"learning_rate": 2.8638984558824777e-05,
	"loss": 0.5274304747581482,
	"step": 582
	},
	{
	"epoch": 0.7358788261281162,
	"grad_norm": 0.3488803803920746,
	"learning_rate": 2.835189810388441e-05,
	"loss": 0.7499272227287292,
	"step": 583
	},
	{
	"epoch": 0.7371410539602399,
	"grad_norm": 0.40415751934051514,
	"learning_rate": 2.8066019966134904e-05,
	"loss": 0.8633046746253967,
	"step": 584
	},
	{
	"epoch": 0.7384032817923635,
	"grad_norm": 0.325978547334671,
	"learning_rate": 2.7781354966799078e-05,
	"loss": 0.3552260994911194,
	"step": 585
	},
	{
	"epoch": 0.7396655096244872,
	"grad_norm": 0.37058016657829285,
	"learning_rate": 2.7497907906640742e-05,
	"loss": 0.913851261138916,
	"step": 586
	},
	{
	"epoch": 0.7409277374566109,
	"grad_norm": 0.36124756932258606,
	"learning_rate": 2.721568356588362e-05,
	"loss": 0.5102133750915527,
	"step": 587
	},
	{
	"epoch": 0.7421899652887346,
	"grad_norm": 0.41945722699165344,
	"learning_rate": 2.6934686704130696e-05,
	"loss": 0.5533009767532349,
	"step": 588
	},
	{
	"epoch": 0.7434521931208583,
	"grad_norm": 0.40652337670326233,
	"learning_rate": 2.665492206028407e-05,
	"loss": 0.6261847019195557,
	"step": 589
	},
	{
	"epoch": 0.744714420952982,
	"grad_norm": 0.36238163709640503,
	"learning_rate": 2.6376394352464972e-05,
	"loss": 0.5246446132659912,
	"step": 590
	},
	{
	"epoch": 0.7459766487851057,
	"grad_norm": 0.3909083306789398,
	"learning_rate": 2.6099108277934103e-05,
	"loss": 0.5678606033325195,
	"step": 591
	},
	{
	"epoch": 0.7472388766172294,
	"grad_norm": 0.3918708562850952,
	"learning_rate": 2.5823068513012595e-05,
	"loss": 0.4282546639442444,
	"step": 592
	},
	{
	"epoch": 0.7485011044493531,
	"grad_norm": 0.3766772150993347,
	"learning_rate": 2.5548279713002997e-05,
	"loss": 0.43503549695014954,
	"step": 593
	},
	{
	"epoch": 0.7497633322814768,
	"grad_norm": 0.43319037556648254,
	"learning_rate": 2.527474651211089e-05,
	"loss": 0.6522255539894104,
	"step": 594
	},
	{
	"epoch": 0.7510255601136006,
	"grad_norm": 0.4107663035392761,
	"learning_rate": 2.500247352336664e-05,
	"loss": 0.3986871540546417,
	"step": 595
	},
	{
	"epoch": 0.7522877879457242,
	"grad_norm": 0.4372679591178894,
	"learning_rate": 2.4731465338547556e-05,
	"loss": 0.681415855884552,
	"step": 596
	},
	{
	"epoch": 0.7535500157778479,
	"grad_norm": 0.3968641459941864,
	"learning_rate": 2.4461726528100615e-05,
	"loss": 0.44046419858932495,
	"step": 597
	},
	{
	"epoch": 0.7548122436099716,
	"grad_norm": 0.33103057742118835,
	"learning_rate": 2.41932616410653e-05,
	"loss": 0.37138405442237854,
	"step": 598
	},
	{
	"epoch": 0.7560744714420953,
	"grad_norm": 0.36118385195732117,
	"learning_rate": 2.392607520499677e-05,
	"loss": 0.31369921565055847,
	"step": 599
	},
	{
	"epoch": 0.757336699274219,
	"grad_norm": 0.35563066601753235,
	"learning_rate": 2.36601717258897e-05,
	"loss": 0.3743899464607239,
	"step": 600
	},
	{
	"epoch": 0.7585989271063427,
	"grad_norm": 0.4097678065299988,
	"learning_rate": 2.339555568810221e-05,
	"loss": 0.418079674243927,
	"step": 601
	},
	{
	"epoch": 0.7598611549384664,
	"grad_norm": 0.38674771785736084,
	"learning_rate": 2.3132231554280136e-05,
	"loss": 0.8224179744720459,
	"step": 602
	},
	{
	"epoch": 0.7611233827705901,
	"grad_norm": 0.3854767084121704,
	"learning_rate": 2.2870203765281926e-05,
	"loss": 0.542049765586853,
	"step": 603
	},
	{
	"epoch": 0.7623856106027138,
	"grad_norm": 0.35851332545280457,
	"learning_rate": 2.260947674010372e-05,
	"loss": 0.5342020988464355,
	"step": 604
	},
	{
	"epoch": 0.7636478384348375,
	"grad_norm": 0.37478891015052795,
	"learning_rate": 2.235005487580466e-05,
	"loss": 0.8123199939727783,
	"step": 605
	},
	{
	"epoch": 0.7649100662669612,
	"grad_norm": 0.451459676027298,
	"learning_rate": 2.2091942547432955e-05,
	"loss": 0.5622618198394775,
	"step": 606
	},
	{
	"epoch": 0.7661722940990849,
	"grad_norm": 0.42055562138557434,
	"learning_rate": 2.1835144107952022e-05,
	"loss": 0.6805808544158936,
	"step": 607
	},
	{
	"epoch": 0.7674345219312085,
	"grad_norm": 0.38752734661102295,
	"learning_rate": 2.1579663888166956e-05,
	"loss": 0.6346580982208252,
	"step": 608
	},
	{
	"epoch": 0.7686967497633322,
	"grad_norm": 0.39068523049354553,
	"learning_rate": 2.132550619665168e-05,
	"loss": 0.5962034463882446,
	"step": 609
	},
	{
	"epoch": 0.769958977595456,
	"grad_norm": 0.3247472643852234,
	"learning_rate": 2.107267531967618e-05,
	"loss": 0.25553497672080994,
	"step": 610
	},
	{
	"epoch": 0.7712212054275797,
	"grad_norm": 0.4266479015350342,
	"learning_rate": 2.0821175521134207e-05,
	"loss": 0.5519466996192932,
	"step": 611
	},
	{
	"epoch": 0.7724834332597034,
	"grad_norm": 0.4060700237751007,
	"learning_rate": 2.05710110424714e-05,
	"loss": 0.6059053540229797,
	"step": 612
	},
	{
	"epoch": 0.7737456610918271,
	"grad_norm": 0.4174729585647583,
	"learning_rate": 2.0322186102613795e-05,
	"loss": 0.42115089297294617,
	"step": 613
	},
	{
	"epoch": 0.7750078889239508,
	"grad_norm": 0.375446617603302,
	"learning_rate": 2.0074704897896558e-05,
	"loss": 0.368305504322052,
	"step": 614
	},
	{
	"epoch": 0.7762701167560745,
	"grad_norm": 0.37311506271362305,
	"learning_rate": 1.982857160199334e-05,
	"loss": 0.3238658010959625,
	"step": 615
	},
	{
	"epoch": 0.7775323445881982,
	"grad_norm": 0.41771042346954346,
	"learning_rate": 1.9583790365845822e-05,
	"loss": 0.6185348033905029,
	"step": 616
	},
	{
	"epoch": 0.7787945724203219,
	"grad_norm": 0.39036667346954346,
	"learning_rate": 1.9340365317593746e-05,
	"loss": 0.7339574098587036,
	"step": 617
	},
	{
	"epoch": 0.7800568002524456,
	"grad_norm": 0.40570926666259766,
	"learning_rate": 1.9098300562505266e-05,
	"loss": 0.46005457639694214,
	"step": 618
	},
	{
	"epoch": 0.7813190280845692,
	"grad_norm": 0.36136454343795776,
	"learning_rate": 1.8857600182907675e-05,
	"loss": 0.3527463972568512,
	"step": 619
	},
	{
	"epoch": 0.7825812559166929,
	"grad_norm": 0.38751932978630066,
	"learning_rate": 1.8618268238118675e-05,
	"loss": 0.7095609307289124,
	"step": 620
	},
	{
	"epoch": 0.7838434837488166,
	"grad_norm": 0.4258861541748047,
	"learning_rate": 1.8380308764377842e-05,
	"loss": 0.6087920665740967,
	"step": 621
	},
	{
	"epoch": 0.7851057115809403,
	"grad_norm": 0.3894071578979492,
	"learning_rate": 1.8143725774778508e-05,
	"loss": 0.5984947085380554,
	"step": 622
	},
	{
	"epoch": 0.786367939413064,
	"grad_norm": 0.39034441113471985,
	"learning_rate": 1.7908523259200192e-05,
	"loss": 0.5467015504837036,
	"step": 623
	},
	{
	"epoch": 0.7876301672451878,
	"grad_norm": 0.40297675132751465,
	"learning_rate": 1.767470518424129e-05,
	"loss": 0.6903741359710693,
	"step": 624
	},
	{
	"epoch": 0.7888923950773115,
	"grad_norm": 0.3851509392261505,
	"learning_rate": 1.7442275493152037e-05,
	"loss": 0.486089825630188,
	"step": 625
	},
	{
	"epoch": 0.7901546229094352,
	"grad_norm": 0.37658852338790894,
	"learning_rate": 1.7211238105768214e-05,
	"loss": 0.4333967864513397,
	"step": 626
	},
	{
	"epoch": 0.7914168507415589,
	"grad_norm": 0.45156872272491455,
	"learning_rate": 1.6981596918444953e-05,
	"loss": 0.7170761823654175,
	"step": 627
	},
	{
	"epoch": 0.7926790785736826,
	"grad_norm": 0.41625985503196716,
	"learning_rate": 1.6753355803990912e-05,
	"loss": 0.45374661684036255,
	"step": 628
	},
	{
	"epoch": 0.7939413064058063,
	"grad_norm": 0.41271454095840454,
	"learning_rate": 1.652651861160318e-05,
	"loss": 0.49166661500930786,
	"step": 629
	},
	{
	"epoch": 0.79520353423793,
	"grad_norm": 0.30450883507728577,
	"learning_rate": 1.630108916680223e-05,
	"loss": 0.26509180665016174,
	"step": 630
	},
	{
	"epoch": 0.7964657620700536,
	"grad_norm": 0.41994258761405945,
	"learning_rate": 1.607707127136734e-05,
	"loss": 0.5564639568328857,
	"step": 631
	},
	{
	"epoch": 0.7977279899021773,
	"grad_norm": 0.42379099130630493,
	"learning_rate": 1.5854468703272663e-05,
	"loss": 0.6809132695198059,
	"step": 632
	},
	{
	"epoch": 0.798990217734301,
	"grad_norm": 0.3801705837249756,
	"learning_rate": 1.5633285216623385e-05,
	"loss": 0.4586731493473053,
	"step": 633
	},
	{
	"epoch": 0.8002524455664247,
	"grad_norm": 0.3840394914150238,
	"learning_rate": 1.541352454159237e-05,
	"loss": 0.38096368312835693,
	"step": 634
	},
	{
	"epoch": 0.8015146733985484,
	"grad_norm": 0.3911992311477661,
	"learning_rate": 1.5195190384357404e-05,
	"loss": 0.6233262419700623,
	"step": 635
	},
	{
	"epoch": 0.8027769012306721,
	"grad_norm": 0.4130832254886627,
	"learning_rate": 1.4978286427038601e-05,
	"loss": 0.6100831031799316,
	"step": 636
	},
	{
	"epoch": 0.8040391290627958,
	"grad_norm": 0.530238687992096,
	"learning_rate": 1.4762816327636241e-05,
	"loss": 0.6475313901901245,
	"step": 637
	},
	{
	"epoch": 0.8053013568949196,
	"grad_norm": 0.43065938353538513,
	"learning_rate": 1.4548783719969239e-05,
	"loss": 0.6517763137817383,
	"step": 638
	},
	{
	"epoch": 0.8065635847270433,
	"grad_norm": 0.39852434396743774,
	"learning_rate": 1.4336192213613742e-05,
	"loss": 0.762035608291626,
	"step": 639
	},
	{
	"epoch": 0.807825812559167,
	"grad_norm": 0.4060841202735901,
	"learning_rate": 1.4125045393842219e-05,
	"loss": 0.5141922831535339,
	"step": 640
	},
	{
	"epoch": 0.8090880403912907,
	"grad_norm": 0.42946869134902954,
	"learning_rate": 1.3915346821563235e-05,
	"loss": 0.4715317189693451,
	"step": 641
	},
	{
	"epoch": 0.8103502682234143,
	"grad_norm": 0.4243875741958618,
	"learning_rate": 1.3707100033261034e-05,
	"loss": 0.5333652496337891,
	"step": 642
	},
	{
	"epoch": 0.811612496055538,
	"grad_norm": 0.40289306640625,
	"learning_rate": 1.3500308540936201e-05,
	"loss": 0.8304973840713501,
	"step": 643
	},
	{
	"epoch": 0.8128747238876617,
	"grad_norm": 0.43981650471687317,
	"learning_rate": 1.3294975832046353e-05,
	"loss": 0.7121323347091675,
	"step": 644
	},
	{
	"epoch": 0.8141369517197854,
	"grad_norm": 0.3223661780357361,
	"learning_rate": 1.3091105369447165e-05,
	"loss": 0.2905374765396118,
	"step": 645
	},
	{
	"epoch": 0.8153991795519091,
	"grad_norm": 0.4346272051334381,
	"learning_rate": 1.2888700591334223e-05,
	"loss": 0.537320613861084,
	"step": 646
	},
	{
	"epoch": 0.8166614073840328,
	"grad_norm": 0.35340362787246704,
	"learning_rate": 1.2687764911184907e-05,
	"loss": 0.34484896063804626,
	"step": 647
	},
	{
	"epoch": 0.8179236352161565,
	"grad_norm": 0.40185239911079407,
	"learning_rate": 1.2488301717700735e-05,
	"loss": 0.4863336682319641,
	"step": 648
	},
	{
	"epoch": 0.8191858630482802,
	"grad_norm": 0.33702552318573,
	"learning_rate": 1.2290314374750422e-05,
	"loss": 0.3356221318244934,
	"step": 649
	},
	{
	"epoch": 0.8204480908804039,
	"grad_norm": 0.38969579339027405,
	"learning_rate": 1.2093806221313008e-05,
	"loss": 0.6058964729309082,
	"step": 650
	},
	{
	"epoch": 0.8217103187125276,
	"grad_norm": 0.4453175961971283,
	"learning_rate": 1.1898780571421552e-05,
	"loss": 0.44390422105789185,
	"step": 651
	},
	{
	"epoch": 0.8229725465446514,
	"grad_norm": 0.39128580689430237,
	"learning_rate": 1.1705240714107302e-05,
	"loss": 0.6540953516960144,
	"step": 652
	},
	{
	"epoch": 0.8242347743767751,
	"grad_norm": 0.3710046708583832,
	"learning_rate": 1.1513189913344214e-05,
	"loss": 0.5617390871047974,
	"step": 653
	},
	{
	"epoch": 0.8254970022088987,
	"grad_norm": 0.4133809208869934,
	"learning_rate": 1.1322631407993811e-05,
	"loss": 0.6450774669647217,
	"step": 654
	},
	{
	"epoch": 0.8267592300410224,
	"grad_norm": 0.3774697184562683,
	"learning_rate": 1.1133568411750727e-05,
	"loss": 0.3926354646682739,
	"step": 655
	},
	{
	"epoch": 0.8280214578731461,
	"grad_norm": 0.39373353123664856,
	"learning_rate": 1.0946004113088381e-05,
	"loss": 0.7614798545837402,
	"step": 656
	},
	{
	"epoch": 0.8292836857052698,
	"grad_norm": 0.3788921535015106,
	"learning_rate": 1.0759941675205221e-05,
	"loss": 0.6513789892196655,
	"step": 657
	},
	{
	"epoch": 0.8305459135373935,
	"grad_norm": 0.47546783089637756,
	"learning_rate": 1.0575384235971465e-05,
	"loss": 0.43815821409225464,
	"step": 658
	},
	{
	"epoch": 0.8318081413695172,
	"grad_norm": 0.4033801257610321,
	"learning_rate": 1.0392334907876022e-05,
	"loss": 0.7993838787078857,
	"step": 659
	},
	{
	"epoch": 0.8330703692016409,
	"grad_norm": 0.3804508447647095,
	"learning_rate": 1.0210796777974197e-05,
	"loss": 0.5399584174156189,
	"step": 660
	},
	{
	"epoch": 0.8343325970337646,
	"grad_norm": 0.40873584151268005,
	"learning_rate": 1.0030772907835483e-05,
	"loss": 0.4069630801677704,
	"step": 661
	},
	{
	"epoch": 0.8355948248658883,
	"grad_norm": 0.31726691126823425,
	"learning_rate": 9.852266333491954e-06,
	"loss": 0.31673499941825867,
	"step": 662
	},
	{
	"epoch": 0.836857052698012,
	"grad_norm": 0.42769894003868103,
	"learning_rate": 9.675280065387116e-06,
	"loss": 0.5651416778564453,
	"step": 663
	},
	{
	"epoch": 0.8381192805301357,
	"grad_norm": 0.34212225675582886,
	"learning_rate": 9.499817088325102e-06,
	"loss": 0.3379066288471222,
	"step": 664
	},
	{
	"epoch": 0.8393815083622594,
	"grad_norm": 0.3834571838378906,
	"learning_rate": 9.325880361420336e-06,
	"loss": 0.532379686832428,
	"step": 665
	},
	{
	"epoch": 0.840643736194383,
	"grad_norm": 0.4152385890483856,
	"learning_rate": 9.153472818047625e-06,
	"loss": 0.5268415212631226,
	"step": 666
	},
	{
	"epoch": 0.8419059640265067,
	"grad_norm": 0.43394723534584045,
	"learning_rate": 8.982597365792711e-06,
	"loss": 0.5578685402870178,
	"step": 667
	},
	{
	"epoch": 0.8431681918586305,
	"grad_norm": 0.3674545884132385,
	"learning_rate": 8.813256886403164e-06,
	"loss": 0.4507666826248169,
	"step": 668
	},
	{
	"epoch": 0.8444304196907542,
	"grad_norm": 0.4950237572193146,
	"learning_rate": 8.645454235739903e-06,
	"loss": 0.5587325096130371,
	"step": 669
	},
	{
	"epoch": 0.8456926475228779,
	"grad_norm": 0.42047086358070374,
	"learning_rate": 8.479192243728962e-06,
	"loss": 0.46830785274505615,
	"step": 670
	},
	{
	"epoch": 0.8469548753550016,
	"grad_norm": 0.33029595017433167,
	"learning_rate": 8.314473714313719e-06,
	"loss": 0.3492874503135681,
	"step": 671
	},
	{
	"epoch": 0.8482171031871253,
	"grad_norm": 0.3771483600139618,
	"learning_rate": 8.151301425407699e-06,
	"loss": 0.416072815656662,
	"step": 672
	},
	{
	"epoch": 0.849479331019249,
	"grad_norm": 0.3575372099876404,
	"learning_rate": 7.9896781288477e-06,
	"loss": 0.4314277470111847,
	"step": 673
	},
	{
	"epoch": 0.8507415588513727,
	"grad_norm": 0.42138731479644775,
	"learning_rate": 7.829606550347313e-06,
	"loss": 0.6481724381446838,
	"step": 674
	},
	{
	"epoch": 0.8520037866834964,
	"grad_norm": 0.39553171396255493,
	"learning_rate": 7.671089389451058e-06,
	"loss": 0.3940804600715637,
	"step": 675
	},
	{
	"epoch": 0.8532660145156201,
	"grad_norm": 0.3964840769767761,
	"learning_rate": 7.514129319488839e-06,
	"loss": 0.7153723835945129,
	"step": 676
	},
	{
	"epoch": 0.8545282423477437,
	"grad_norm": 0.4527961015701294,
	"learning_rate": 7.358728987530728e-06,
	"loss": 0.7575295567512512,
	"step": 677
	},
	{
	"epoch": 0.8557904701798674,
	"grad_norm": 0.47758570313453674,
	"learning_rate": 7.204891014342552e-06,
	"loss": 0.732297420501709,
	"step": 678
	},
	{
	"epoch": 0.8570526980119911,
	"grad_norm": 0.3915818929672241,
	"learning_rate": 7.052617994341448e-06,
	"loss": 0.5047644376754761,
	"step": 679
	},
	{
	"epoch": 0.8583149258441148,
	"grad_norm": 0.42662402987480164,
	"learning_rate": 6.901912495552332e-06,
	"loss": 0.7435489892959595,
	"step": 680
	},
	{
	"epoch": 0.8595771536762385,
	"grad_norm": 0.44890522956848145,
	"learning_rate": 6.75277705956443e-06,
	"loss": 0.5125769376754761,
	"step": 681
	},
	{
	"epoch": 0.8608393815083623,
	"grad_norm": 0.3554657995700836,
	"learning_rate": 6.605214201488486e-06,
	"loss": 0.3450443744659424,
	"step": 682
	},
	{
	"epoch": 0.862101609340486,
	"grad_norm": 0.32458341121673584,
	"learning_rate": 6.459226409914332e-06,
	"loss": 0.31173160672187805,
	"step": 683
	},
	{
	"epoch": 0.8633638371726097,
	"grad_norm": 0.3945808708667755,
	"learning_rate": 6.314816146868952e-06,
	"loss": 0.4987742304801941,
	"step": 684
	},
	{
	"epoch": 0.8646260650047334,
	"grad_norm": 0.41859179735183716,
	"learning_rate": 6.171985847774864e-06,
	"loss": 0.5809845924377441,
	"step": 685
	},
	{
	"epoch": 0.8658882928368571,
	"grad_norm": 0.4125705361366272,
	"learning_rate": 6.030737921409169e-06,
	"loss": 0.6869086623191833,
	"step": 686
	},
	{
	"epoch": 0.8671505206689808,
	"grad_norm": 0.5110360980033875,
	"learning_rate": 5.891074749862857e-06,
	"loss": 0.5902141332626343,
	"step": 687
	},
	{
	"epoch": 0.8684127485011045,
	"grad_norm": 0.3964199125766754,
	"learning_rate": 5.75299868850061e-06,
	"loss": 0.778140127658844,
	"step": 688
	},
	{
	"epoch": 0.8696749763332281,
	"grad_norm": 0.3277434706687927,
	"learning_rate": 5.616512065921187e-06,
	"loss": 0.2611342966556549,
	"step": 689
	},
	{
	"epoch": 0.8709372041653518,
	"grad_norm": 0.3749728500843048,
	"learning_rate": 5.481617183918053e-06,
	"loss": 0.42815372347831726,
	"step": 690
	},
	{
	"epoch": 0.8721994319974755,
	"grad_norm": 0.36340272426605225,
	"learning_rate": 5.348316317440549e-06,
	"loss": 0.4718218445777893,
	"step": 691
	},
	{
	"epoch": 0.8734616598295992,
	"grad_norm": 0.3954283893108368,
	"learning_rate": 5.21661171455563e-06,
	"loss": 0.49787670373916626,
	"step": 692
	},
	{
	"epoch": 0.8747238876617229,
	"grad_norm": 0.39619600772857666,
	"learning_rate": 5.086505596409885e-06,
	"loss": 0.568760335445404,
	"step": 693
	},
	{
	"epoch": 0.8759861154938466,
	"grad_norm": 0.33868858218193054,
	"learning_rate": 4.958000157192022e-06,
	"loss": 0.37448927760124207,
	"step": 694
	},
	{
	"epoch": 0.8772483433259703,
	"grad_norm": 0.43138137459754944,
	"learning_rate": 4.831097564095999e-06,
	"loss": 0.6743485331535339,
	"step": 695
	},
	{
	"epoch": 0.8785105711580941,
	"grad_norm": 0.41570451855659485,
	"learning_rate": 4.705799957284351e-06,
	"loss": 0.6966921091079712,
	"step": 696
	},
	{
	"epoch": 0.8797727989902178,
	"grad_norm": 0.3950325548648834,
	"learning_rate": 4.582109449852168e-06,
	"loss": 0.8221022486686707,
	"step": 697
	},
	{
	"epoch": 0.8810350268223415,
	"grad_norm": 0.31951889395713806,
	"learning_rate": 4.4600281277914715e-06,
	"loss": 0.33876973390579224,
	"step": 698
	},
	{
	"epoch": 0.8822972546544652,
	"grad_norm": 0.408273309469223,
	"learning_rate": 4.339558049955927e-06,
	"loss": 0.5404328107833862,
	"step": 699
	},
	{
	"epoch": 0.8835594824865888,
	"grad_norm": 0.3891682028770447,
	"learning_rate": 4.220701248026248e-06,
	"loss": 0.48202747106552124,
	"step": 700
	},
	{
	"epoch": 0.8848217103187125,
	"grad_norm": 0.40945693850517273,
	"learning_rate": 4.103459726475889e-06,
	"loss": 0.8016560077667236,
	"step": 701
	},
	{
	"epoch": 0.8860839381508362,
	"grad_norm": 0.43001535534858704,
	"learning_rate": 3.987835462537193e-06,
	"loss": 0.6459006071090698,
	"step": 702
	},
	{
	"epoch": 0.8873461659829599,
	"grad_norm": 0.41465309262275696,
	"learning_rate": 3.873830406168111e-06,
	"loss": 0.5275793671607971,
	"step": 703
	},
	{
	"epoch": 0.8886083938150836,
	"grad_norm": 0.3870158791542053,
	"learning_rate": 3.761446480019315e-06,
	"loss": 0.8116216063499451,
	"step": 704
	},
	{
	"epoch": 0.8898706216472073,
	"grad_norm": 0.3732059895992279,
	"learning_rate": 3.6506855794016913e-06,
	"loss": 0.3549728989601135,
	"step": 705
	},
	{
	"epoch": 0.891132849479331,
	"grad_norm": 0.38289642333984375,
	"learning_rate": 3.541549572254488e-06,
	"loss": 0.3792566955089569,
	"step": 706
	},
	{
	"epoch": 0.8923950773114547,
	"grad_norm": 0.3992280066013336,
	"learning_rate": 3.43404029911375e-06,
	"loss": 0.7304099798202515,
	"step": 707
	},
	{
	"epoch": 0.8936573051435784,
	"grad_norm": 0.3860641121864319,
	"learning_rate": 3.3281595730812575e-06,
	"loss": 0.6320814490318298,
	"step": 708
	},
	{
	"epoch": 0.8949195329757021,
	"grad_norm": 0.40705665946006775,
	"learning_rate": 3.223909179794027e-06,
	"loss": 0.7557500600814819,
	"step": 709
	},
	{
	"epoch": 0.8961817608078259,
	"grad_norm": 0.3863953649997711,
	"learning_rate": 3.121290877394134e-06,
	"loss": 0.5255841016769409,
	"step": 710
	},
	{
	"epoch": 0.8974439886399496,
	"grad_norm": 0.3851090967655182,
	"learning_rate": 3.0203063964990617e-06,
	"loss": 0.5183653235435486,
	"step": 711
	},
	{
	"epoch": 0.8987062164720732,
	"grad_norm": 0.39725980162620544,
	"learning_rate": 2.9209574401725557e-06,
	"loss": 0.5958725214004517,
	"step": 712
	},
	{
	"epoch": 0.8999684443041969,
	"grad_norm": 0.47921210527420044,
	"learning_rate": 2.82324568389587e-06,
	"loss": 0.7262052297592163,
	"step": 713
	},
	{
	"epoch": 0.9012306721363206,
	"grad_norm": 0.405513733625412,
	"learning_rate": 2.7271727755395214e-06,
	"loss": 0.6049070954322815,
	"step": 714
	},
	{
	"epoch": 0.9024928999684443,
	"grad_norm": 0.3995083272457123,
	"learning_rate": 2.6327403353355264e-06,
	"loss": 0.808394193649292,
	"step": 715
	},
	{
	"epoch": 0.903755127800568,
	"grad_norm": 0.43631553649902344,
	"learning_rate": 2.539949955849985e-06,
	"loss": 0.48620936274528503,
	"step": 716
	},
	{
	"epoch": 0.9050173556326917,
	"grad_norm": 0.479377806186676,
	"learning_rate": 2.4488032019563402e-06,
	"loss": 0.6404117941856384,
	"step": 717
	},
	{
	"epoch": 0.9062795834648154,
	"grad_norm": 0.408569872379303,
	"learning_rate": 2.359301610808917e-06,
	"loss": 0.7001040577888489,
	"step": 718
	},
	{
	"epoch": 0.9075418112969391,
	"grad_norm": 0.4069215655326843,
	"learning_rate": 2.271446691817014e-06,
	"loss": 0.6278159618377686,
	"step": 719
	},
	{
	"epoch": 0.9088040391290628,
	"grad_norm": 0.4575406014919281,
	"learning_rate": 2.1852399266194314e-06,
	"loss": 0.6095160245895386,
	"step": 720
	},
	{
	"epoch": 0.9100662669611865,
	"grad_norm": 0.43460536003112793,
	"learning_rate": 2.100682769059548e-06,
	"loss": 0.4627190828323364,
	"step": 721
	},
	{
	"epoch": 0.9113284947933102,
	"grad_norm": 0.4876587986946106,
	"learning_rate": 2.017776645160707e-06,
	"loss": 0.4769670367240906,
	"step": 722
	},
	{
	"epoch": 0.9125907226254338,
	"grad_norm": 0.4268261194229126,
	"learning_rate": 1.9365229531022264e-06,
	"loss": 0.49713101983070374,
	"step": 723
	},
	{
	"epoch": 0.9138529504575575,
	"grad_norm": 0.4099612832069397,
	"learning_rate": 1.8569230631958256e-06,
	"loss": 0.45675134658813477,
	"step": 724
	},
	{
	"epoch": 0.9151151782896813,
	"grad_norm": 0.39911365509033203,
	"learning_rate": 1.7789783178624897e-06,
	"loss": 0.4840657711029053,
	"step": 725
	},
	{
	"epoch": 0.916377406121805,
	"grad_norm": 0.39041027426719666,
	"learning_rate": 1.7026900316098215e-06,
	"loss": 0.5516049861907959,
	"step": 726
	},
	{
	"epoch": 0.9176396339539287,
	"grad_norm": 0.401254802942276,
	"learning_rate": 1.6280594910099256e-06,
	"loss": 0.7506740093231201,
	"step": 727
	},
	{
	"epoch": 0.9189018617860524,
	"grad_norm": 0.38945209980010986,
	"learning_rate": 1.5550879546776364e-06,
	"loss": 0.45651984214782715,
	"step": 728
	},
	{
	"epoch": 0.9201640896181761,
	"grad_norm": 0.3908751904964447,
	"learning_rate": 1.4837766532493468e-06,
	"loss": 0.4634789824485779,
	"step": 729
	},
	{
	"epoch": 0.9214263174502998,
	"grad_norm": 0.42969706654548645,
	"learning_rate": 1.414126789362269e-06,
	"loss": 0.8332436084747314,
	"step": 730
	},
	{
	"epoch": 0.9226885452824235,
	"grad_norm": 0.3828902542591095,
	"learning_rate": 1.3461395376340502e-06,
	"loss": 0.36839234828948975,
	"step": 731
	},
	{
	"epoch": 0.9239507731145472,
	"grad_norm": 0.4279589354991913,
	"learning_rate": 1.2798160446431006e-06,
	"loss": 0.7247366309165955,
	"step": 732
	},
	{
	"epoch": 0.9252130009466709,
	"grad_norm": 0.4109678566455841,
	"learning_rate": 1.2151574289091749e-06,
	"loss": 0.44771307706832886,
	"step": 733
	},
	{
	"epoch": 0.9264752287787946,
	"grad_norm": 0.3857699930667877,
	"learning_rate": 1.1521647808744873e-06,
	"loss": 0.7814648151397705,
	"step": 734
	},
	{
	"epoch": 0.9277374566109182,
	"grad_norm": 0.40495210886001587,
	"learning_rate": 1.0908391628854041e-06,
	"loss": 0.4813134968280792,
	"step": 735
	},
	{
	"epoch": 0.9289996844430419,
	"grad_norm": 0.40271830558776855,
	"learning_rate": 1.0311816091744698e-06,
	"loss": 0.4100000858306885,
	"step": 736
	},
	{
	"epoch": 0.9302619122751656,
	"grad_norm": 0.37395796179771423,
	"learning_rate": 9.731931258429638e-07,
	"loss": 0.4800105690956116,
	"step": 737
	},
	{
	"epoch": 0.9315241401072893,
	"grad_norm": 0.3781779408454895,
	"learning_rate": 9.168746908439718e-07,
	"loss": 0.48567116260528564,
	"step": 738
	},
	{
	"epoch": 0.932786367939413,
	"grad_norm": 0.383577436208725,
	"learning_rate": 8.622272539658415e-07,
	"loss": 0.4960499107837677,
	"step": 739
	},
	{
	"epoch": 0.9340485957715368,
	"grad_norm": 0.40534883737564087,
	"learning_rate": 8.092517368162078e-07,
	"loss": 0.4538559913635254,
	"step": 740
	},
	{
	"epoch": 0.9353108236036605,
	"grad_norm": 0.3785009980201721,
	"learning_rate": 7.579490328064265e-07,
	"loss": 0.4022294580936432,
	"step": 741
	},
	{
	"epoch": 0.9365730514357842,
	"grad_norm": 0.3643127381801605,
	"learning_rate": 7.083200071365203e-07,
	"loss": 0.429392009973526,
	"step": 742
	},
	{
	"epoch": 0.9378352792679079,
	"grad_norm": 0.4218924343585968,
	"learning_rate": 6.603654967805683e-07,
	"loss": 0.6960986256599426,
	"step": 743
	},
	{
	"epoch": 0.9390975071000316,
	"grad_norm": 0.387144535779953,
	"learning_rate": 6.140863104726391e-07,
	"loss": 0.359319269657135,
	"step": 744
	},
	{
	"epoch": 0.9403597349321553,
	"grad_norm": 0.386854887008667,
	"learning_rate": 5.694832286930685e-07,
	"loss": 0.5978315472602844,
	"step": 745
	},
	{
	"epoch": 0.9416219627642789,
	"grad_norm": 0.38212618231773376,
	"learning_rate": 5.265570036553813e-07,
	"loss": 0.7151321172714233,
	"step": 746
	},
	{
	"epoch": 0.9428841905964026,
	"grad_norm": 0.38942816853523254,
	"learning_rate": 4.85308359293557e-07,
	"loss": 0.34270745515823364,
	"step": 747
	},
	{
	"epoch": 0.9441464184285263,
	"grad_norm": 0.4136378765106201,
	"learning_rate": 4.457379912498394e-07,
	"loss": 0.3653174340724945,
	"step": 748
	},
	{
	"epoch": 0.94540864626065,
	"grad_norm": 0.42216548323631287,
	"learning_rate": 4.078465668629905e-07,
	"loss": 0.663544237613678,
	"step": 749
	},
	{
	"epoch": 0.9466708740927737,
	"grad_norm": 0.4414190948009491,
	"learning_rate": 3.716347251570551e-07,
	"loss": 0.7294875383377075,
	"step": 750
	},
	{
	"epoch": 0.9479331019248974,
	"grad_norm": 0.3959789574146271,
	"learning_rate": 3.371030768305583e-07,
	"loss": 0.6958010196685791,
	"step": 751
	},
	{
	"epoch": 0.9491953297570211,
	"grad_norm": 0.45387375354766846,
	"learning_rate": 3.042522042462359e-07,
	"loss": 0.7474179267883301,
	"step": 752
	},
	{
	"epoch": 0.9504575575891449,
	"grad_norm": 0.37097567319869995,
	"learning_rate": 2.7308266142119785e-07,
	"loss": 0.7090280055999756,
	"step": 753
	},
	{
	"epoch": 0.9517197854212686,
	"grad_norm": 0.4319815933704376,
	"learning_rate": 2.4359497401758024e-07,
	"loss": 0.632872462272644,
	"step": 754
	},
	{
	"epoch": 0.9529820132533923,
	"grad_norm": 0.412222295999527,
	"learning_rate": 2.1578963933367446e-07,
	"loss": 0.6069747805595398,
	"step": 755
	},
	{
	"epoch": 0.954244241085516,
	"grad_norm": 0.4318292737007141,
	"learning_rate": 1.8966712629558957e-07,
	"loss": 0.48516613245010376,
	"step": 756
	},
	{
	"epoch": 0.9555064689176397,
	"grad_norm": 0.4013379216194153,
	"learning_rate": 1.6522787544926977e-07,
	"loss": 0.7001821994781494,
	"step": 757
	},
	{
	"epoch": 0.9567686967497633,
	"grad_norm": 0.3875749111175537,
	"learning_rate": 1.424722989531113e-07,
	"loss": 0.5603348016738892,
	"step": 758
	},
	{
	"epoch": 0.958030924581887,
	"grad_norm": 0.2857275605201721,
	"learning_rate": 1.2140078057101266e-07,
	"loss": 0.2514762878417969,
	"step": 759
	},
	{
	"epoch": 0.9592931524140107,
	"grad_norm": 0.38641858100891113,
	"learning_rate": 1.020136756658574e-07,
	"loss": 0.6449640393257141,
	"step": 760
	},
	{
	"epoch": 0.9605553802461344,
	"grad_norm": 0.4277747571468353,
	"learning_rate": 8.43113111936189e-08,
	"loss": 0.7620565891265869,
	"step": 761
	},
	{
	"epoch": 0.9618176080782581,
	"grad_norm": 0.3486212193965912,
	"learning_rate": 6.829398569770939e-08,
	"loss": 0.43015536665916443,
	"step": 762
	},
	{
	"epoch": 0.9630798359103818,
	"grad_norm": 0.36243584752082825,
	"learning_rate": 5.3961969304072715e-08,
	"loss": 0.393317312002182,
	"step": 763
	},
	{
	"epoch": 0.9643420637425055,
	"grad_norm": 0.38432276248931885,
	"learning_rate": 4.131550371655468e-08,
	"loss": 0.752675473690033,
	"step": 764
	},
	{
	"epoch": 0.9656042915746292,
	"grad_norm": 0.413333535194397,
	"learning_rate": 3.0354802212839705e-08,
	"loss": 0.7670407891273499,
	"step": 765
	},
	{
	"epoch": 0.9668665194067529,
	"grad_norm": 0.3813234269618988,
	"learning_rate": 2.108004964086474e-08,
	"loss": 0.4830048382282257,
	"step": 766
	},
	{
	"epoch": 0.9681287472388767,
	"grad_norm": 0.2374144047498703,
	"learning_rate": 1.3491402415710675e-08,
	"loss": 0.1855914294719696,
	"step": 767
	},
	{
	"epoch": 0.9693909750710004,
	"grad_norm": 0.48682042956352234,
	"learning_rate": 7.58898851693779e-09,
	"loss": 0.5933582186698914,
	"step": 768
	},
	{
	"epoch": 0.9706532029031241,
	"grad_norm": 0.4472711980342865,
	"learning_rate": 3.3729074864541355e-09,
	"loss": 0.55843585729599,
	"step": 769
	},
	{
	"epoch": 0.9719154307352477,
	"grad_norm": 0.4075043201446533,
	"learning_rate": 8.432304268057856e-10,
	"loss": 0.7006219625473022,
	"step": 770
	},
	{
	"epoch": 0.9719154307352477,
	"eval_loss": 0.5271598100662231,
	"eval_runtime": 224.8405,
	"eval_samples_per_second": 2.126,
	"eval_steps_per_second": 0.534,
	"step": 770
	}
	],
	"logging_steps": 1,
	"max_steps": 770,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.2224210803964467e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}