SykoLLM-v6.5 / trainer_state.json

SykoLLM v6.5

a00cbcc verified about 1 month ago

49.6 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.105875,
	"eval_steps": 500,
	"global_step": 2800,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00125,
	"grad_norm": 0.32223036885261536,
	"learning_rate": 9.890999999999999e-06,
	"loss": 2.9122833251953124,
	"step": 10
	},
	{
	"epoch": 0.0025,
	"grad_norm": 0.3097129762172699,
	"learning_rate": 2.0881000000000002e-05,
	"loss": 2.881389617919922,
	"step": 20
	},
	{
	"epoch": 0.00375,
	"grad_norm": 0.30452761054039,
	"learning_rate": 3.1871e-05,
	"loss": 2.8967803955078124,
	"step": 30
	},
	{
	"epoch": 0.005,
	"grad_norm": 0.2955208420753479,
	"learning_rate": 4.2861e-05,
	"loss": 2.8681930541992187,
	"step": 40
	},
	{
	"epoch": 0.00625,
	"grad_norm": 0.303114652633667,
	"learning_rate": 5.3850999999999997e-05,
	"loss": 2.8751144409179688,
	"step": 50
	},
	{
	"epoch": 0.0075,
	"grad_norm": 0.299868106842041,
	"learning_rate": 6.4841e-05,
	"loss": 2.8749458312988283,
	"step": 60
	},
	{
	"epoch": 0.00875,
	"grad_norm": 0.31019559502601624,
	"learning_rate": 7.5831e-05,
	"loss": 2.860850524902344,
	"step": 70
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.30683860182762146,
	"learning_rate": 8.6821e-05,
	"loss": 2.8604888916015625,
	"step": 80
	},
	{
	"epoch": 0.01125,
	"grad_norm": 0.30718618631362915,
	"learning_rate": 9.7811e-05,
	"loss": 2.8761545181274415,
	"step": 90
	},
	{
	"epoch": 0.0125,
	"grad_norm": 0.32211124897003174,
	"learning_rate": 0.000108801,
	"loss": 2.8468536376953124,
	"step": 100
	},
	{
	"epoch": 0.01375,
	"grad_norm": 0.31109386682510376,
	"learning_rate": 0.000119791,
	"loss": 2.8445552825927733,
	"step": 110
	},
	{
	"epoch": 0.015,
	"grad_norm": 0.3102831542491913,
	"learning_rate": 0.000130781,
	"loss": 2.864554214477539,
	"step": 120
	},
	{
	"epoch": 0.01625,
	"grad_norm": 0.3220812976360321,
	"learning_rate": 0.000141771,
	"loss": 2.8806329727172852,
	"step": 130
	},
	{
	"epoch": 0.0175,
	"grad_norm": 0.30876684188842773,
	"learning_rate": 0.00015276099999999998,
	"loss": 2.8452987670898438,
	"step": 140
	},
	{
	"epoch": 0.01875,
	"grad_norm": 0.31868258118629456,
	"learning_rate": 0.000163751,
	"loss": 2.8517589569091797,
	"step": 150
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.3087399899959564,
	"learning_rate": 0.000174741,
	"loss": 2.8347522735595705,
	"step": 160
	},
	{
	"epoch": 0.02125,
	"grad_norm": 0.3106062710285187,
	"learning_rate": 0.000185731,
	"loss": 2.85534553527832,
	"step": 170
	},
	{
	"epoch": 0.0225,
	"grad_norm": 0.32315531373023987,
	"learning_rate": 0.00019672100000000002,
	"loss": 2.858936309814453,
	"step": 180
	},
	{
	"epoch": 0.02375,
	"grad_norm": 0.3293415307998657,
	"learning_rate": 0.000207711,
	"loss": 2.8992713928222655,
	"step": 190
	},
	{
	"epoch": 0.025,
	"grad_norm": 0.3309278190135956,
	"learning_rate": 0.000218701,
	"loss": 2.863359832763672,
	"step": 200
	},
	{
	"epoch": 0.02625,
	"grad_norm": 0.3089866638183594,
	"learning_rate": 0.0002197992779574687,
	"loss": 2.8769275665283205,
	"step": 210
	},
	{
	"epoch": 0.0275,
	"grad_norm": 0.32934558391571045,
	"learning_rate": 0.0002197967820201583,
	"loss": 2.8595829010009766,
	"step": 220
	},
	{
	"epoch": 0.02875,
	"grad_norm": 0.3154727518558502,
	"learning_rate": 0.00021979250331444358,
	"loss": 2.8655704498291015,
	"step": 230
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.31462976336479187,
	"learning_rate": 0.0002197864419097345,
	"loss": 2.8554920196533202,
	"step": 240
	},
	{
	"epoch": 0.03125,
	"grad_norm": 0.3277083933353424,
	"learning_rate": 0.00021977859790436047,
	"loss": 2.896647262573242,
	"step": 250
	},
	{
	"epoch": 0.0325,
	"grad_norm": 0.3230266571044922,
	"learning_rate": 0.00021976897142556858,
	"loss": 2.8914859771728514,
	"step": 260
	},
	{
	"epoch": 0.03375,
	"grad_norm": 0.3097373843193054,
	"learning_rate": 0.00021975756262952153,
	"loss": 2.867509460449219,
	"step": 270
	},
	{
	"epoch": 0.035,
	"grad_norm": 0.31526896357536316,
	"learning_rate": 0.00021974437170129525,
	"loss": 2.861627388000488,
	"step": 280
	},
	{
	"epoch": 0.03625,
	"grad_norm": 0.3264971077442169,
	"learning_rate": 0.0002197293988548756,
	"loss": 2.8434619903564453,
	"step": 290
	},
	{
	"epoch": 0.0375,
	"grad_norm": 0.31985947489738464,
	"learning_rate": 0.00021971264433315533,
	"loss": 2.858683776855469,
	"step": 300
	},
	{
	"epoch": 0.03875,
	"grad_norm": 0.3007575571537018,
	"learning_rate": 0.00021969410840792965,
	"loss": 2.856831359863281,
	"step": 310
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.32181960344314575,
	"learning_rate": 0.00021967379137989224,
	"loss": 2.8669090270996094,
	"step": 320
	},
	{
	"epoch": 0.04125,
	"grad_norm": 0.3142366111278534,
	"learning_rate": 0.00021965169357863014,
	"loss": 2.864155578613281,
	"step": 330
	},
	{
	"epoch": 0.0425,
	"grad_norm": 0.31411442160606384,
	"learning_rate": 0.00021962781536261853,
	"loss": 2.8719043731689453,
	"step": 340
	},
	{
	"epoch": 0.04375,
	"grad_norm": 0.3069416880607605,
	"learning_rate": 0.00021960215711921467,
	"loss": 2.8788784027099608,
	"step": 350
	},
	{
	"epoch": 0.045,
	"grad_norm": 0.3287704586982727,
	"learning_rate": 0.00021957471926465198,
	"loss": 2.8686893463134764,
	"step": 360
	},
	{
	"epoch": 0.04625,
	"grad_norm": 0.32815802097320557,
	"learning_rate": 0.00021954550224403304,
	"loss": 2.872859573364258,
	"step": 370
	},
	{
	"epoch": 0.0475,
	"grad_norm": 0.3123241066932678,
	"learning_rate": 0.0002195145065313224,
	"loss": 2.861919975280762,
	"step": 380
	},
	{
	"epoch": 0.04875,
	"grad_norm": 0.3143039643764496,
	"learning_rate": 0.0002194817326293389,
	"loss": 2.8754358291625977,
	"step": 390
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.32305410504341125,
	"learning_rate": 0.00021944718106974763,
	"loss": 2.830820083618164,
	"step": 400
	},
	{
	"epoch": 0.05125,
	"grad_norm": 0.3187738060951233,
	"learning_rate": 0.00021941085241305118,
	"loss": 2.8469779968261717,
	"step": 410
	},
	{
	"epoch": 0.0525,
	"grad_norm": 0.3240358829498291,
	"learning_rate": 0.00021937274724858052,
	"loss": 2.872676467895508,
	"step": 420
	},
	{
	"epoch": 0.05375,
	"grad_norm": 0.3307654857635498,
	"learning_rate": 0.00021933286619448556,
	"loss": 2.868929862976074,
	"step": 430
	},
	{
	"epoch": 0.055,
	"grad_norm": 0.31867194175720215,
	"learning_rate": 0.00021929120989772503,
	"loss": 2.837067794799805,
	"step": 440
	},
	{
	"epoch": 0.05625,
	"grad_norm": 0.3109733760356903,
	"learning_rate": 0.00021924777903405596,
	"loss": 2.8356159210205076,
	"step": 450
	},
	{
	"epoch": 0.0575,
	"grad_norm": 0.33047595620155334,
	"learning_rate": 0.00021920257430802295,
	"loss": 2.859963226318359,
	"step": 460
	},
	{
	"epoch": 0.05875,
	"grad_norm": 0.3140341341495514,
	"learning_rate": 0.00021915559645294634,
	"loss": 2.864061737060547,
	"step": 470
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.30880865454673767,
	"learning_rate": 0.0002191068462309107,
	"loss": 2.8523515701293944,
	"step": 480
	},
	{
	"epoch": 0.06125,
	"grad_norm": 0.3137487769126892,
	"learning_rate": 0.00021905632443275225,
	"loss": 2.8639093399047852,
	"step": 490
	},
	{
	"epoch": 0.0625,
	"grad_norm": 0.340537965297699,
	"learning_rate": 0.00021900403187804607,
	"loss": 2.8927494049072267,
	"step": 500
	},
	{
	"epoch": 0.06375,
	"grad_norm": 0.31051260232925415,
	"learning_rate": 0.00021894996941509282,
	"loss": 2.840711212158203,
	"step": 510
	},
	{
	"epoch": 0.065,
	"grad_norm": 0.3152431547641754,
	"learning_rate": 0.00021889413792090502,
	"loss": 2.862700653076172,
	"step": 520
	},
	{
	"epoch": 0.06625,
	"grad_norm": 0.3119368553161621,
	"learning_rate": 0.00021883653830119274,
	"loss": 2.8526124954223633,
	"step": 530
	},
	{
	"epoch": 0.0675,
	"grad_norm": 0.31616318225860596,
	"learning_rate": 0.00021877717149034896,
	"loss": 2.855159378051758,
	"step": 540
	},
	{
	"epoch": 0.06875,
	"grad_norm": 0.30254286527633667,
	"learning_rate": 0.00021871603845143443,
	"loss": 2.854717254638672,
	"step": 550
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.3120061159133911,
	"learning_rate": 0.000218653140176162,
	"loss": 2.850946044921875,
	"step": 560
	},
	{
	"epoch": 0.07125,
	"grad_norm": 0.30754292011260986,
	"learning_rate": 0.00021858847768488048,
	"loss": 2.8386112213134767,
	"step": 570
	},
	{
	"epoch": 0.0725,
	"grad_norm": 0.3003309667110443,
	"learning_rate": 0.0002185220520265583,
	"loss": 2.858784294128418,
	"step": 580
	},
	{
	"epoch": 0.07375,
	"grad_norm": 0.31817367672920227,
	"learning_rate": 0.00021845386427876622,
	"loss": 2.8400810241699217,
	"step": 590
	},
	{
	"epoch": 0.075,
	"grad_norm": 0.31158024072647095,
	"learning_rate": 0.00021838391554766004,
	"loss": 2.8315425872802735,
	"step": 600
	},
	{
	"epoch": 0.07625,
	"grad_norm": 0.31356877088546753,
	"learning_rate": 0.00021831220696796264,
	"loss": 2.85643310546875,
	"step": 610
	},
	{
	"epoch": 0.0775,
	"grad_norm": 0.3057396411895752,
	"learning_rate": 0.00021823873970294543,
	"loss": 2.8644752502441406,
	"step": 620
	},
	{
	"epoch": 0.07875,
	"grad_norm": 0.30540961027145386,
	"learning_rate": 0.00021816351494440965,
	"loss": 2.840130615234375,
	"step": 630
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.3201405107975006,
	"learning_rate": 0.00021808653391266697,
	"loss": 2.81726016998291,
	"step": 640
	},
	{
	"epoch": 0.08125,
	"grad_norm": 0.31356149911880493,
	"learning_rate": 0.0002180077978565196,
	"loss": 2.841321563720703,
	"step": 650
	},
	{
	"epoch": 0.0825,
	"grad_norm": 0.3322322368621826,
	"learning_rate": 0.00021792730805324023,
	"loss": 2.833037185668945,
	"step": 660
	},
	{
	"epoch": 0.08375,
	"grad_norm": 0.3101900517940521,
	"learning_rate": 0.0002178450658085511,
	"loss": 2.8306228637695314,
	"step": 670
	},
	{
	"epoch": 0.085,
	"grad_norm": 0.31162750720977783,
	"learning_rate": 0.00021776107245660307,
	"loss": 2.849654769897461,
	"step": 680
	},
	{
	"epoch": 0.08625,
	"grad_norm": 0.3168909251689911,
	"learning_rate": 0.00021767532935995366,
	"loss": 2.882074737548828,
	"step": 690
	},
	{
	"epoch": 0.0875,
	"grad_norm": 0.2994805574417114,
	"learning_rate": 0.00021758783790954515,
	"loss": 2.834335517883301,
	"step": 700
	},
	{
	"epoch": 0.08875,
	"grad_norm": 0.3097037672996521,
	"learning_rate": 0.0002174985995246821,
	"loss": 2.8143672943115234,
	"step": 710
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.32182541489601135,
	"learning_rate": 0.00021740761565300799,
	"loss": 2.845683288574219,
	"step": 720
	},
	{
	"epoch": 0.09125,
	"grad_norm": 0.32514718174934387,
	"learning_rate": 0.00021731488777048213,
	"loss": 2.8221324920654296,
	"step": 730
	},
	{
	"epoch": 0.0925,
	"grad_norm": 0.3028743267059326,
	"learning_rate": 0.0002172204173813555,
	"loss": 2.8356349945068358,
	"step": 740
	},
	{
	"epoch": 0.09375,
	"grad_norm": 0.3133573830127716,
	"learning_rate": 0.0002171242060181463,
	"loss": 2.838234710693359,
	"step": 750
	},
	{
	"epoch": 0.095,
	"grad_norm": 0.3107962906360626,
	"learning_rate": 0.00021702625524161527,
	"loss": 2.8331020355224608,
	"step": 760
	},
	{
	"epoch": 0.09625,
	"grad_norm": 0.3266642987728119,
	"learning_rate": 0.00021692656664074023,
	"loss": 2.847811698913574,
	"step": 770
	},
	{
	"epoch": 0.0975,
	"grad_norm": 0.3073740303516388,
	"learning_rate": 0.00021682514183269034,
	"loss": 2.8351299285888674,
	"step": 780
	},
	{
	"epoch": 0.09875,
	"grad_norm": 0.3130224645137787,
	"learning_rate": 0.00021672198246279985,
	"loss": 2.7890214920043945,
	"step": 790
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.3218679130077362,
	"learning_rate": 0.00021661709020454157,
	"loss": 2.8209762573242188,
	"step": 800
	},
	{
	"epoch": 0.10125,
	"grad_norm": 0.2967888414859772,
	"learning_rate": 0.00021651046675949938,
	"loss": 2.819289207458496,
	"step": 810
	},
	{
	"epoch": 0.1025,
	"grad_norm": 0.32564085721969604,
	"learning_rate": 0.000216402113857341,
	"loss": 2.8148468017578123,
	"step": 820
	},
	{
	"epoch": 0.10375,
	"grad_norm": 0.30720430612564087,
	"learning_rate": 0.00021629203325578962,
	"loss": 2.832720947265625,
	"step": 830
	},
	{
	"epoch": 0.105,
	"grad_norm": 0.31553003191947937,
	"learning_rate": 0.00021618022674059568,
	"loss": 2.8313037872314455,
	"step": 840
	},
	{
	"epoch": 0.10625,
	"grad_norm": 0.2927679121494293,
	"learning_rate": 0.0002160666961255076,
	"loss": 2.822229766845703,
	"step": 850
	},
	{
	"epoch": 0.1075,
	"grad_norm": 0.3168841302394867,
	"learning_rate": 0.00021595144325224264,
	"loss": 2.8234331130981447,
	"step": 860
	},
	{
	"epoch": 0.10875,
	"grad_norm": 0.3195788860321045,
	"learning_rate": 0.0002158344699904568,
	"loss": 2.8171760559082033,
	"step": 870
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.30483055114746094,
	"learning_rate": 0.00021571577823771462,
	"loss": 2.82617244720459,
	"step": 880
	},
	{
	"epoch": 0.11125,
	"grad_norm": 0.31678906083106995,
	"learning_rate": 0.00021559536991945833,
	"loss": 2.8162193298339844,
	"step": 890
	},
	{
	"epoch": 0.1125,
	"grad_norm": 0.30715152621269226,
	"learning_rate": 0.00021547324698897665,
	"loss": 2.8252620697021484,
	"step": 900
	},
	{
	"epoch": 0.11375,
	"grad_norm": 0.303281307220459,
	"learning_rate": 0.00021534941142737314,
	"loss": 2.8220481872558594,
	"step": 910
	},
	{
	"epoch": 0.115,
	"grad_norm": 0.3042793571949005,
	"learning_rate": 0.00021522386524353395,
	"loss": 2.825517272949219,
	"step": 920
	},
	{
	"epoch": 0.11625,
	"grad_norm": 0.328135222196579,
	"learning_rate": 0.00021509661047409534,
	"loss": 2.806531524658203,
	"step": 930
	},
	{
	"epoch": 0.1175,
	"grad_norm": 0.30471575260162354,
	"learning_rate": 0.00021496764918341058,
	"loss": 2.8206180572509765,
	"step": 940
	},
	{
	"epoch": 0.11875,
	"grad_norm": 0.3096025884151459,
	"learning_rate": 0.0002148369834635165,
	"loss": 2.8001310348510744,
	"step": 950
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.30915719270706177,
	"learning_rate": 0.0002147046154340995,
	"loss": 2.838936996459961,
	"step": 960
	},
	{
	"epoch": 0.12125,
	"grad_norm": 0.30633190274238586,
	"learning_rate": 0.00021457054724246125,
	"loss": 2.8280914306640623,
	"step": 970
	},
	{
	"epoch": 0.1225,
	"grad_norm": 0.3169943392276764,
	"learning_rate": 0.00021443478106348375,
	"loss": 2.8208492279052733,
	"step": 980
	},
	{
	"epoch": 0.12375,
	"grad_norm": 0.31402623653411865,
	"learning_rate": 0.00021429731909959417,
	"loss": 2.803514099121094,
	"step": 990
	},
	{
	"epoch": 0.125,
	"grad_norm": 0.31064271926879883,
	"learning_rate": 0.00021415816358072898,
	"loss": 2.828254508972168,
	"step": 1000
	},
	{
	"epoch": 0.12625,
	"grad_norm": 0.3190893530845642,
	"learning_rate": 0.00021401731676429792,
	"loss": 2.814365196228027,
	"step": 1010
	},
	{
	"epoch": 0.1275,
	"grad_norm": 0.3164026141166687,
	"learning_rate": 0.00021387478093514724,
	"loss": 2.803851509094238,
	"step": 1020
	},
	{
	"epoch": 0.12875,
	"grad_norm": 0.3159414529800415,
	"learning_rate": 0.00021373055840552275,
	"loss": 2.8509082794189453,
	"step": 1030
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.3224294185638428,
	"learning_rate": 0.00021358465151503225,
	"loss": 2.789044952392578,
	"step": 1040
	},
	{
	"epoch": 0.13125,
	"grad_norm": 0.31033849716186523,
	"learning_rate": 0.00021343706263060765,
	"loss": 2.8226268768310545,
	"step": 1050
	},
	{
	"epoch": 0.1325,
	"grad_norm": 0.3086431622505188,
	"learning_rate": 0.00021328779414646635,
	"loss": 2.8077007293701173,
	"step": 1060
	},
	{
	"epoch": 0.13375,
	"grad_norm": 0.3155769109725952,
	"learning_rate": 0.00021313684848407282,
	"loss": 2.8190916061401365,
	"step": 1070
	},
	{
	"epoch": 0.135,
	"grad_norm": 0.3062079846858978,
	"learning_rate": 0.0002129842280920988,
	"loss": 2.8035049438476562,
	"step": 1080
	},
	{
	"epoch": 0.13625,
	"grad_norm": 0.3113609552383423,
	"learning_rate": 0.000212829935446384,
	"loss": 2.808064842224121,
	"step": 1090
	},
	{
	"epoch": 0.1375,
	"grad_norm": 0.3248916566371918,
	"learning_rate": 0.0002126739730498958,
	"loss": 2.8036418914794923,
	"step": 1100
	},
	{
	"epoch": 0.13875,
	"grad_norm": 0.314177930355072,
	"learning_rate": 0.00021251634343268845,
	"loss": 2.8073291778564453,
	"step": 1110
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.31667032837867737,
	"learning_rate": 0.00021235704915186242,
	"loss": 2.8247406005859377,
	"step": 1120
	},
	{
	"epoch": 0.14125,
	"grad_norm": 0.32587730884552,
	"learning_rate": 0.0002121960927915225,
	"loss": 2.81424560546875,
	"step": 1130
	},
	{
	"epoch": 0.1425,
	"grad_norm": 0.3099067509174347,
	"learning_rate": 0.00021203347696273621,
	"loss": 2.833042526245117,
	"step": 1140
	},
	{
	"epoch": 0.14375,
	"grad_norm": 0.3176534175872803,
	"learning_rate": 0.0002118692043034913,
	"loss": 2.8056007385253907,
	"step": 1150
	},
	{
	"epoch": 0.145,
	"grad_norm": 0.32910725474357605,
	"learning_rate": 0.00021170327747865292,
	"loss": 2.791951370239258,
	"step": 1160
	},
	{
	"epoch": 0.14625,
	"grad_norm": 0.31169673800468445,
	"learning_rate": 0.00021153569917992042,
	"loss": 2.809808540344238,
	"step": 1170
	},
	{
	"epoch": 0.1475,
	"grad_norm": 0.31293970346450806,
	"learning_rate": 0.00021136647212578378,
	"loss": 2.7925342559814452,
	"step": 1180
	},
	{
	"epoch": 0.14875,
	"grad_norm": 0.3170998990535736,
	"learning_rate": 0.00021119559906147942,
	"loss": 2.809326934814453,
	"step": 1190
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.30116304755210876,
	"learning_rate": 0.00021102308275894555,
	"loss": 2.7981502532958986,
	"step": 1200
	},
	{
	"epoch": 0.15125,
	"grad_norm": 0.30669230222702026,
	"learning_rate": 0.0002108489260167775,
	"loss": 2.7857837677001953,
	"step": 1210
	},
	{
	"epoch": 0.1525,
	"grad_norm": 0.30800774693489075,
	"learning_rate": 0.00021067313166018209,
	"loss": 2.806937408447266,
	"step": 1220
	},
	{
	"epoch": 0.15375,
	"grad_norm": 0.3087230622768402,
	"learning_rate": 0.00021049570254093184,
	"loss": 2.8145347595214845,
	"step": 1230
	},
	{
	"epoch": 0.155,
	"grad_norm": 0.30576276779174805,
	"learning_rate": 0.00021031664153731874,
	"loss": 2.806387710571289,
	"step": 1240
	},
	{
	"epoch": 0.15625,
	"grad_norm": 0.3263702392578125,
	"learning_rate": 0.00021013595155410756,
	"loss": 2.773836135864258,
	"step": 1250
	},
	{
	"epoch": 0.1575,
	"grad_norm": 0.3177431523799896,
	"learning_rate": 0.00020995363552248867,
	"loss": 2.7588844299316406,
	"step": 1260
	},
	{
	"epoch": 0.15875,
	"grad_norm": 0.30336225032806396,
	"learning_rate": 0.00020976969640003064,
	"loss": 2.8113712310791015,
	"step": 1270
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.32169830799102783,
	"learning_rate": 0.000209584137170632,
	"loss": 2.788315773010254,
	"step": 1280
	},
	{
	"epoch": 0.16125,
	"grad_norm": 0.30413737893104553,
	"learning_rate": 0.00020939696084447314,
	"loss": 2.7458065032958983,
	"step": 1290
	},
	{
	"epoch": 0.1625,
	"grad_norm": 0.3089154064655304,
	"learning_rate": 0.00020920817045796727,
	"loss": 2.7877056121826174,
	"step": 1300
	},
	{
	"epoch": 0.16375,
	"grad_norm": 0.30705851316452026,
	"learning_rate": 0.00020901776907371116,
	"loss": 2.773893356323242,
	"step": 1310
	},
	{
	"epoch": 0.165,
	"grad_norm": 0.3133976459503174,
	"learning_rate": 0.00020882575978043566,
	"loss": 2.784181594848633,
	"step": 1320
	},
	{
	"epoch": 0.16625,
	"grad_norm": 0.31440430879592896,
	"learning_rate": 0.00020863214569295533,
	"loss": 2.8143083572387697,
	"step": 1330
	},
	{
	"epoch": 0.1675,
	"grad_norm": 0.29583054780960083,
	"learning_rate": 0.00020843692995211805,
	"loss": 2.7985980987548826,
	"step": 1340
	},
	{
	"epoch": 0.16875,
	"grad_norm": 0.3040190637111664,
	"learning_rate": 0.0002082401157247541,
	"loss": 2.774214744567871,
	"step": 1350
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.30737006664276123,
	"learning_rate": 0.00020804170620362475,
	"loss": 2.803047943115234,
	"step": 1360
	},
	{
	"epoch": 0.17125,
	"grad_norm": 0.30594661831855774,
	"learning_rate": 0.0002078417046073704,
	"loss": 2.7990367889404295,
	"step": 1370
	},
	{
	"epoch": 0.1725,
	"grad_norm": 0.3074641823768616,
	"learning_rate": 0.00020764011418045845,
	"loss": 2.770071792602539,
	"step": 1380
	},
	{
	"epoch": 0.17375,
	"grad_norm": 0.304598331451416,
	"learning_rate": 0.00020743693819313063,
	"loss": 2.7667999267578125,
	"step": 1390
	},
	{
	"epoch": 0.175,
	"grad_norm": 0.32464832067489624,
	"learning_rate": 0.00020723217994135003,
	"loss": 2.8097129821777345,
	"step": 1400
	},
	{
	"epoch": 0.17625,
	"grad_norm": 0.3164089620113373,
	"learning_rate": 0.00020702584274674742,
	"loss": 2.7955820083618166,
	"step": 1410
	},
	{
	"epoch": 0.1775,
	"grad_norm": 0.310068279504776,
	"learning_rate": 0.00020681792995656763,
	"loss": 2.7704933166503904,
	"step": 1420
	},
	{
	"epoch": 0.17875,
	"grad_norm": 0.3000030219554901,
	"learning_rate": 0.00020660844494361513,
	"loss": 2.8106201171875,
	"step": 1430
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.3196377456188202,
	"learning_rate": 0.00020639739110619917,
	"loss": 2.7796897888183594,
	"step": 1440
	},
	{
	"epoch": 0.18125,
	"grad_norm": 0.3006730079650879,
	"learning_rate": 0.000206184771868079,
	"loss": 2.791950225830078,
	"step": 1450
	},
	{
	"epoch": 0.1825,
	"grad_norm": 0.3123355805873871,
	"learning_rate": 0.000205970590678408,
	"loss": 2.7847476959228517,
	"step": 1460
	},
	{
	"epoch": 0.18375,
	"grad_norm": 0.31853538751602173,
	"learning_rate": 0.00020575485101167782,
	"loss": 2.7865251541137694,
	"step": 1470
	},
	{
	"epoch": 0.185,
	"grad_norm": 0.30936041474342346,
	"learning_rate": 0.0002055375563676622,
	"loss": 2.7906095504760744,
	"step": 1480
	},
	{
	"epoch": 0.18625,
	"grad_norm": 0.30842670798301697,
	"learning_rate": 0.0002053187102713599,
	"loss": 2.7754417419433595,
	"step": 1490
	},
	{
	"epoch": 0.1875,
	"grad_norm": 0.3201216757297516,
	"learning_rate": 0.00020509831627293766,
	"loss": 2.796547698974609,
	"step": 1500
	},
	{
	"epoch": 0.18875,
	"grad_norm": 0.3134450316429138,
	"learning_rate": 0.00020487637794767275,
	"loss": 2.7649627685546876,
	"step": 1510
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.3114699721336365,
	"learning_rate": 0.00020465289889589467,
	"loss": 2.8279897689819338,
	"step": 1520
	},
	{
	"epoch": 0.19125,
	"grad_norm": 0.3171784281730652,
	"learning_rate": 0.00020442788274292704,
	"loss": 2.776567840576172,
	"step": 1530
	},
	{
	"epoch": 0.1925,
	"grad_norm": 0.30708587169647217,
	"learning_rate": 0.00020420133313902856,
	"loss": 2.786650466918945,
	"step": 1540
	},
	{
	"epoch": 0.19375,
	"grad_norm": 0.3005415201187134,
	"learning_rate": 0.00020397325375933387,
	"loss": 2.7795650482177736,
	"step": 1550
	},
	{
	"epoch": 0.195,
	"grad_norm": 0.30447477102279663,
	"learning_rate": 0.0002037436483037941,
	"loss": 2.7910282135009767,
	"step": 1560
	},
	{
	"epoch": 0.19625,
	"grad_norm": 0.308108389377594,
	"learning_rate": 0.0002035125204971165,
	"loss": 2.7864933013916016,
	"step": 1570
	},
	{
	"epoch": 0.1975,
	"grad_norm": 0.31156831979751587,
	"learning_rate": 0.00020327987408870436,
	"loss": 2.77624397277832,
	"step": 1580
	},
	{
	"epoch": 0.19875,
	"grad_norm": 0.30407053232192993,
	"learning_rate": 0.00020304571285259602,
	"loss": 2.786225509643555,
	"step": 1590
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.30873724818229675,
	"learning_rate": 0.0002028100405874036,
	"loss": 2.7831089019775392,
	"step": 1600
	},
	{
	"epoch": 0.20125,
	"grad_norm": 0.305469274520874,
	"learning_rate": 0.00020257286111625156,
	"loss": 2.770510673522949,
	"step": 1610
	},
	{
	"epoch": 0.2025,
	"grad_norm": 0.3133813440799713,
	"learning_rate": 0.00020233417828671444,
	"loss": 2.7937782287597654,
	"step": 1620
	},
	{
	"epoch": 0.20375,
	"grad_norm": 0.3113247752189636,
	"learning_rate": 0.00020209399597075463,
	"loss": 2.811221694946289,
	"step": 1630
	},
	{
	"epoch": 0.205,
	"grad_norm": 0.29653653502464294,
	"learning_rate": 0.00020185231806465958,
	"loss": 2.736056900024414,
	"step": 1640
	},
	{
	"epoch": 0.20625,
	"grad_norm": 0.296674519777298,
	"learning_rate": 0.00020160914848897833,
	"loss": 2.773727035522461,
	"step": 1650
	},
	{
	"epoch": 0.2075,
	"grad_norm": 0.3117091953754425,
	"learning_rate": 0.00020136449118845828,
	"loss": 2.7696605682373048,
	"step": 1660
	},
	{
	"epoch": 0.20875,
	"grad_norm": 0.3065008819103241,
	"learning_rate": 0.00020111835013198088,
	"loss": 2.7859319686889648,
	"step": 1670
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.30614563822746277,
	"learning_rate": 0.00020087072931249746,
	"loss": 2.761496734619141,
	"step": 1680
	},
	{
	"epoch": 0.21125,
	"grad_norm": 0.3214632272720337,
	"learning_rate": 0.0002006216327469644,
	"loss": 2.795328140258789,
	"step": 1690
	},
	{
	"epoch": 0.2125,
	"grad_norm": 0.3141666054725647,
	"learning_rate": 0.00020037106447627772,
	"loss": 2.7613990783691404,
	"step": 1700
	},
	{
	"epoch": 0.21375,
	"grad_norm": 0.32107681035995483,
	"learning_rate": 0.00020011902856520807,
	"loss": 2.7515789031982423,
	"step": 1710
	},
	{
	"epoch": 0.215,
	"grad_norm": 0.3231985867023468,
	"learning_rate": 0.00019986552910233424,
	"loss": 2.7852977752685546,
	"step": 1720
	},
	{
	"epoch": 0.21625,
	"grad_norm": 0.3149876892566681,
	"learning_rate": 0.00019961057019997707,
	"loss": 2.754520225524902,
	"step": 1730
	},
	{
	"epoch": 0.2175,
	"grad_norm": 0.31885862350463867,
	"learning_rate": 0.00019935415599413287,
	"loss": 2.7804901123046877,
	"step": 1740
	},
	{
	"epoch": 0.21875,
	"grad_norm": 0.30009323358535767,
	"learning_rate": 0.0001990962906444061,
	"loss": 2.766156005859375,
	"step": 1750
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.31249675154685974,
	"learning_rate": 0.00019883697833394186,
	"loss": 2.779193878173828,
	"step": 1760
	},
	{
	"epoch": 0.22125,
	"grad_norm": 0.30822932720184326,
	"learning_rate": 0.0001985762232693584,
	"loss": 2.7579469680786133,
	"step": 1770
	},
	{
	"epoch": 0.2225,
	"grad_norm": 0.3053094446659088,
	"learning_rate": 0.00019831402968067843,
	"loss": 2.76893310546875,
	"step": 1780
	},
	{
	"epoch": 0.22375,
	"grad_norm": 0.31457704305648804,
	"learning_rate": 0.00019805040182126077,
	"loss": 2.781879425048828,
	"step": 1790
	},
	{
	"epoch": 0.225,
	"grad_norm": 0.30379778146743774,
	"learning_rate": 0.00019778534396773127,
	"loss": 2.783489799499512,
	"step": 1800
	},
	{
	"epoch": 0.22625,
	"grad_norm": 0.31210359930992126,
	"learning_rate": 0.0001975188604199134,
	"loss": 2.7574298858642576,
	"step": 1810
	},
	{
	"epoch": 0.2275,
	"grad_norm": 0.3024740219116211,
	"learning_rate": 0.00019725095550075862,
	"loss": 2.7888748168945314,
	"step": 1820
	},
	{
	"epoch": 0.22875,
	"grad_norm": 0.3073548376560211,
	"learning_rate": 0.0001969816335562761,
	"loss": 2.7340553283691404,
	"step": 1830
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.31958791613578796,
	"learning_rate": 0.00019671089895546232,
	"loss": 2.804524230957031,
	"step": 1840
	},
	{
	"epoch": 0.23125,
	"grad_norm": 0.3051760196685791,
	"learning_rate": 0.00019643875609023017,
	"loss": 2.775598907470703,
	"step": 1850
	},
	{
	"epoch": 0.2325,
	"grad_norm": 0.3086925148963928,
	"learning_rate": 0.0001961652093753377,
	"loss": 2.7774431228637697,
	"step": 1860
	},
	{
	"epoch": 0.23375,
	"grad_norm": 0.3144133388996124,
	"learning_rate": 0.00019589026324831643,
	"loss": 2.7702011108398437,
	"step": 1870
	},
	{
	"epoch": 0.235,
	"grad_norm": 0.3036665916442871,
	"learning_rate": 0.00019561392216939954,
	"loss": 2.7927045822143555,
	"step": 1880
	},
	{
	"epoch": 0.23625,
	"grad_norm": 0.30784451961517334,
	"learning_rate": 0.00019533619062144934,
	"loss": 2.741124725341797,
	"step": 1890
	},
	{
	"epoch": 0.2375,
	"grad_norm": 0.29786407947540283,
	"learning_rate": 0.00019505707310988463,
	"loss": 2.748614501953125,
	"step": 1900
	},
	{
	"epoch": 0.23875,
	"grad_norm": 0.30479830503463745,
	"learning_rate": 0.00019477657416260764,
	"loss": 2.7626161575317383,
	"step": 1910
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.30530789494514465,
	"learning_rate": 0.0001944946983299305,
	"loss": 2.7705900192260744,
	"step": 1920
	},
	{
	"epoch": 0.24125,
	"grad_norm": 0.30881696939468384,
	"learning_rate": 0.00019421145018450145,
	"loss": 2.7753509521484374,
	"step": 1930
	},
	{
	"epoch": 0.2425,
	"grad_norm": 0.30990368127822876,
	"learning_rate": 0.00019392683432123065,
	"loss": 2.7618339538574217,
	"step": 1940
	},
	{
	"epoch": 0.24375,
	"grad_norm": 0.30068239569664,
	"learning_rate": 0.00019364085535721574,
	"loss": 2.751456451416016,
	"step": 1950
	},
	{
	"epoch": 1.000875,
	"grad_norm": 0.32766178250312805,
	"learning_rate": 0.00019335351793166682,
	"loss": 2.9953849792480467,
	"step": 1960
	},
	{
	"epoch": 1.002125,
	"grad_norm": 0.31653207540512085,
	"learning_rate": 0.00019306482670583127,
	"loss": 2.7172924041748048,
	"step": 1970
	},
	{
	"epoch": 1.003375,
	"grad_norm": 0.30188634991645813,
	"learning_rate": 0.000192774786362918,
	"loss": 2.718875503540039,
	"step": 1980
	},
	{
	"epoch": 1.004625,
	"grad_norm": 0.3092830777168274,
	"learning_rate": 0.00019248340160802165,
	"loss": 2.6953250885009767,
	"step": 1990
	},
	{
	"epoch": 1.005875,
	"grad_norm": 0.3100144863128662,
	"learning_rate": 0.00019219067716804626,
	"loss": 2.7128387451171876,
	"step": 2000
	},
	{
	"epoch": 1.007125,
	"grad_norm": 0.32156386971473694,
	"learning_rate": 0.00019189661779162834,
	"loss": 2.7038270950317385,
	"step": 2010
	},
	{
	"epoch": 1.008375,
	"grad_norm": 0.3106272518634796,
	"learning_rate": 0.00019160122824906018,
	"loss": 2.7032100677490236,
	"step": 2020
	},
	{
	"epoch": 1.009625,
	"grad_norm": 0.3121194541454315,
	"learning_rate": 0.00019130451333221226,
	"loss": 2.6769741058349608,
	"step": 2030
	},
	{
	"epoch": 1.010875,
	"grad_norm": 0.31094688177108765,
	"learning_rate": 0.0001910064778544555,
	"loss": 2.6934465408325194,
	"step": 2040
	},
	{
	"epoch": 1.012125,
	"grad_norm": 0.3150351941585541,
	"learning_rate": 0.00019070712665058325,
	"loss": 2.674116325378418,
	"step": 2050
	},
	{
	"epoch": 1.013375,
	"grad_norm": 0.3132378160953522,
	"learning_rate": 0.00019040646457673294,
	"loss": 2.667017936706543,
	"step": 2060
	},
	{
	"epoch": 1.014625,
	"grad_norm": 0.30859819054603577,
	"learning_rate": 0.000190104496510307,
	"loss": 2.6529170989990236,
	"step": 2070
	},
	{
	"epoch": 1.015875,
	"grad_norm": 0.3140536844730377,
	"learning_rate": 0.00018980122734989425,
	"loss": 2.649005889892578,
	"step": 2080
	},
	{
	"epoch": 1.017125,
	"grad_norm": 0.3163485825061798,
	"learning_rate": 0.00018949666201518978,
	"loss": 2.658115005493164,
	"step": 2090
	},
	{
	"epoch": 1.018375,
	"grad_norm": 0.3046296536922455,
	"learning_rate": 0.00018919080544691573,
	"loss": 2.637746238708496,
	"step": 2100
	},
	{
	"epoch": 1.019625,
	"grad_norm": 0.30639058351516724,
	"learning_rate": 0.00018888366260674078,
	"loss": 2.6267181396484376,
	"step": 2110
	},
	{
	"epoch": 1.020875,
	"grad_norm": 0.3216869831085205,
	"learning_rate": 0.00018857523847719992,
	"loss": 2.6571407318115234,
	"step": 2120
	},
	{
	"epoch": 1.022125,
	"grad_norm": 0.32431310415267944,
	"learning_rate": 0.0001882655380616133,
	"loss": 2.6225955963134764,
	"step": 2130
	},
	{
	"epoch": 1.023375,
	"grad_norm": 0.3109528720378876,
	"learning_rate": 0.0001879545663840053,
	"loss": 2.633950042724609,
	"step": 2140
	},
	{
	"epoch": 1.024625,
	"grad_norm": 0.32065126299858093,
	"learning_rate": 0.00018764232848902314,
	"loss": 2.602225494384766,
	"step": 2150
	},
	{
	"epoch": 1.025875,
	"grad_norm": 0.32300078868865967,
	"learning_rate": 0.00018732882944185462,
	"loss": 2.615239715576172,
	"step": 2160
	},
	{
	"epoch": 1.027125,
	"grad_norm": 0.3188120424747467,
	"learning_rate": 0.00018701407432814644,
	"loss": 2.594603157043457,
	"step": 2170
	},
	{
	"epoch": 1.028375,
	"grad_norm": 0.3217035233974457,
	"learning_rate": 0.00018669806825392132,
	"loss": 2.601702117919922,
	"step": 2180
	},
	{
	"epoch": 1.029625,
	"grad_norm": 0.322839617729187,
	"learning_rate": 0.00018638081634549534,
	"loss": 2.597119903564453,
	"step": 2190
	},
	{
	"epoch": 1.030875,
	"grad_norm": 0.33341312408447266,
	"learning_rate": 0.00018606232374939488,
	"loss": 2.604803466796875,
	"step": 2200
	},
	{
	"epoch": 1.032125,
	"grad_norm": 0.32422640919685364,
	"learning_rate": 0.00018574259563227289,
	"loss": 2.622762107849121,
	"step": 2210
	},
	{
	"epoch": 1.033375,
	"grad_norm": 0.3312685787677765,
	"learning_rate": 0.00018542163718082523,
	"loss": 2.623911666870117,
	"step": 2220
	},
	{
	"epoch": 1.034625,
	"grad_norm": 0.3332018256187439,
	"learning_rate": 0.0001850994536017065,
	"loss": 2.5997699737548827,
	"step": 2230
	},
	{
	"epoch": 1.035875,
	"grad_norm": 0.32356560230255127,
	"learning_rate": 0.00018477605012144564,
	"loss": 2.59320182800293,
	"step": 2240
	},
	{
	"epoch": 1.037125,
	"grad_norm": 0.30938515067100525,
	"learning_rate": 0.00018445143198636093,
	"loss": 2.5783287048339845,
	"step": 2250
	},
	{
	"epoch": 1.038375,
	"grad_norm": 0.33119791746139526,
	"learning_rate": 0.0001841256044624752,
	"loss": 2.6023700714111326,
	"step": 2260
	},
	{
	"epoch": 1.039625,
	"grad_norm": 0.32936912775039673,
	"learning_rate": 0.00018379857283543015,
	"loss": 2.595666694641113,
	"step": 2270
	},
	{
	"epoch": 1.040875,
	"grad_norm": 0.34784626960754395,
	"learning_rate": 0.00018347034241040066,
	"loss": 2.6071990966796874,
	"step": 2280
	},
	{
	"epoch": 1.042125,
	"grad_norm": 0.3317442238330841,
	"learning_rate": 0.00018314091851200881,
	"loss": 2.5899078369140627,
	"step": 2290
	},
	{
	"epoch": 1.043375,
	"grad_norm": 0.3433104157447815,
	"learning_rate": 0.0001828103064842375,
	"loss": 2.6167388916015626,
	"step": 2300
	},
	{
	"epoch": 1.044625,
	"grad_norm": 0.3177641034126282,
	"learning_rate": 0.00018247851169034358,
	"loss": 2.5915859222412108,
	"step": 2310
	},
	{
	"epoch": 1.045875,
	"grad_norm": 0.33989644050598145,
	"learning_rate": 0.00018214553951277114,
	"loss": 2.5995319366455076,
	"step": 2320
	},
	{
	"epoch": 1.047125,
	"grad_norm": 0.3309226930141449,
	"learning_rate": 0.00018181139535306383,
	"loss": 2.5778053283691404,
	"step": 2330
	},
	{
	"epoch": 1.048375,
	"grad_norm": 0.33091750741004944,
	"learning_rate": 0.00018147608463177768,
	"loss": 2.6125743865966795,
	"step": 2340
	},
	{
	"epoch": 1.049625,
	"grad_norm": 0.32603928446769714,
	"learning_rate": 0.00018113961278839268,
	"loss": 2.5618928909301757,
	"step": 2350
	},
	{
	"epoch": 1.050875,
	"grad_norm": 0.3253335654735565,
	"learning_rate": 0.00018080198528122495,
	"loss": 2.592588424682617,
	"step": 2360
	},
	{
	"epoch": 1.052125,
	"grad_norm": 0.3284412622451782,
	"learning_rate": 0.000180463207587338,
	"loss": 2.568330764770508,
	"step": 2370
	},
	{
	"epoch": 1.053375,
	"grad_norm": 0.32107362151145935,
	"learning_rate": 0.00018012328520245385,
	"loss": 2.5809921264648437,
	"step": 2380
	},
	{
	"epoch": 1.054625,
	"grad_norm": 0.3348993957042694,
	"learning_rate": 0.000179782223640864,
	"loss": 2.5713642120361326,
	"step": 2390
	},
	{
	"epoch": 1.055875,
	"grad_norm": 0.3235042095184326,
	"learning_rate": 0.00017944002843533986,
	"loss": 2.608296203613281,
	"step": 2400
	},
	{
	"epoch": 1.057125,
	"grad_norm": 0.33322450518608093,
	"learning_rate": 0.00017909670513704306,
	"loss": 2.587118911743164,
	"step": 2410
	},
	{
	"epoch": 1.058375,
	"grad_norm": 0.32530325651168823,
	"learning_rate": 0.00017875225931543543,
	"loss": 2.5887866973876954,
	"step": 2420
	},
	{
	"epoch": 1.059625,
	"grad_norm": 0.3360804319381714,
	"learning_rate": 0.00017840669655818856,
	"loss": 2.598593902587891,
	"step": 2430
	},
	{
	"epoch": 1.060875,
	"grad_norm": 0.3203558921813965,
	"learning_rate": 0.00017806002247109317,
	"loss": 2.5644474029541016,
	"step": 2440
	},
	{
	"epoch": 1.062125,
	"grad_norm": 0.34525611996650696,
	"learning_rate": 0.00017771224267796828,
	"loss": 2.5811479568481444,
	"step": 2450
	},
	{
	"epoch": 1.063375,
	"grad_norm": 0.33284473419189453,
	"learning_rate": 0.00017736336282056986,
	"loss": 2.5817935943603514,
	"step": 2460
	},
	{
	"epoch": 1.064625,
	"grad_norm": 0.34238749742507935,
	"learning_rate": 0.00017701338855849938,
	"loss": 2.570195770263672,
	"step": 2470
	},
	{
	"epoch": 1.065875,
	"grad_norm": 0.330721378326416,
	"learning_rate": 0.0001766623255691119,
	"loss": 2.5676502227783202,
	"step": 2480
	},
	{
	"epoch": 1.067125,
	"grad_norm": 0.33618465065956116,
	"learning_rate": 0.00017631017954742415,
	"loss": 2.581513595581055,
	"step": 2490
	},
	{
	"epoch": 1.068375,
	"grad_norm": 0.3335385322570801,
	"learning_rate": 0.00017595695620602192,
	"loss": 2.6056888580322264,
	"step": 2500
	},
	{
	"epoch": 1.069625,
	"grad_norm": 0.3303595781326294,
	"learning_rate": 0.00017560266127496753,
	"loss": 2.5539363861083983,
	"step": 2510
	},
	{
	"epoch": 1.070875,
	"grad_norm": 0.32198089361190796,
	"learning_rate": 0.00017524730050170697,
	"loss": 2.569991683959961,
	"step": 2520
	},
	{
	"epoch": 1.072125,
	"grad_norm": 0.3235105872154236,
	"learning_rate": 0.0001748908796509764,
	"loss": 2.5943014144897463,
	"step": 2530
	},
	{
	"epoch": 1.073375,
	"grad_norm": 0.3448514938354492,
	"learning_rate": 0.00017453340450470885,
	"loss": 2.5967823028564454,
	"step": 2540
	},
	{
	"epoch": 1.074625,
	"grad_norm": 0.32868677377700806,
	"learning_rate": 0.00017417488086194028,
	"loss": 2.5600149154663088,
	"step": 2550
	},
	{
	"epoch": 1.075875,
	"grad_norm": 0.3214341104030609,
	"learning_rate": 0.00017381531453871567,
	"loss": 2.5800102233886717,
	"step": 2560
	},
	{
	"epoch": 1.077125,
	"grad_norm": 0.33103859424591064,
	"learning_rate": 0.00017345471136799454,
	"loss": 2.568808364868164,
	"step": 2570
	},
	{
	"epoch": 1.078375,
	"grad_norm": 0.31372782588005066,
	"learning_rate": 0.00017309307719955632,
	"loss": 2.554553413391113,
	"step": 2580
	},
	{
	"epoch": 1.079625,
	"grad_norm": 0.3474419116973877,
	"learning_rate": 0.00017273041789990558,
	"loss": 2.540375900268555,
	"step": 2590
	},
	{
	"epoch": 1.080875,
	"grad_norm": 0.3302421569824219,
	"learning_rate": 0.0001723667393521767,
	"loss": 2.5536571502685548,
	"step": 2600
	},
	{
	"epoch": 1.082125,
	"grad_norm": 0.3372521996498108,
	"learning_rate": 0.00017200204745603854,
	"loss": 2.5786903381347654,
	"step": 2610
	},
	{
	"epoch": 1.083375,
	"grad_norm": 0.34310850501060486,
	"learning_rate": 0.00017163634812759882,
	"loss": 2.56533203125,
	"step": 2620
	},
	{
	"epoch": 1.084625,
	"grad_norm": 0.3463296890258789,
	"learning_rate": 0.00017126964729930784,
	"loss": 2.5742265701293947,
	"step": 2630
	},
	{
	"epoch": 1.085875,
	"grad_norm": 0.3372081220149994,
	"learning_rate": 0.00017090195091986254,
	"loss": 2.5609130859375,
	"step": 2640
	},
	{
	"epoch": 1.087125,
	"grad_norm": 0.33471760153770447,
	"learning_rate": 0.00017053326495410998,
	"loss": 2.570426177978516,
	"step": 2650
	},
	{
	"epoch": 1.088375,
	"grad_norm": 0.3420524299144745,
	"learning_rate": 0.0001701635953829503,
	"loss": 2.5492122650146483,
	"step": 2660
	},
	{
	"epoch": 1.089625,
	"grad_norm": 0.33050400018692017,
	"learning_rate": 0.0001697929482032401,
	"loss": 2.5594730377197266,
	"step": 2670
	},
	{
	"epoch": 1.090875,
	"grad_norm": 0.33682385087013245,
	"learning_rate": 0.00016942132942769476,
	"loss": 2.560088348388672,
	"step": 2680
	},
	{
	"epoch": 1.092125,
	"grad_norm": 0.34267619252204895,
	"learning_rate": 0.00016904874508479127,
	"loss": 2.5474054336547853,
	"step": 2690
	},
	{
	"epoch": 1.093375,
	"grad_norm": 0.33607542514801025,
	"learning_rate": 0.00016867520121867006,
	"loss": 2.5770172119140624,
	"step": 2700
	},
	{
	"epoch": 1.094625,
	"grad_norm": 0.3332061171531677,
	"learning_rate": 0.0001683007038890373,
	"loss": 2.5588443756103514,
	"step": 2710
	},
	{
	"epoch": 1.095875,
	"grad_norm": 0.34043437242507935,
	"learning_rate": 0.00016792525917106642,
	"loss": 2.5765233993530274,
	"step": 2720
	},
	{
	"epoch": 1.097125,
	"grad_norm": 0.3437064290046692,
	"learning_rate": 0.00016754887315529948,
	"loss": 2.598227691650391,
	"step": 2730
	},
	{
	"epoch": 1.098375,
	"grad_norm": 0.3502216935157776,
	"learning_rate": 0.0001671715519475486,
	"loss": 2.5620880126953125,
	"step": 2740
	},
	{
	"epoch": 1.099625,
	"grad_norm": 0.32694822549819946,
	"learning_rate": 0.00016679330166879665,
	"loss": 2.5393630981445314,
	"step": 2750
	},
	{
	"epoch": 1.100875,
	"grad_norm": 0.3365384042263031,
	"learning_rate": 0.00016641412845509818,
	"loss": 2.5454193115234376,
	"step": 2760
	},
	{
	"epoch": 1.102125,
	"grad_norm": 0.3421364426612854,
	"learning_rate": 0.00016603403845747984,
	"loss": 2.5687324523925783,
	"step": 2770
	},
	{
	"epoch": 1.103375,
	"grad_norm": 0.32685622572898865,
	"learning_rate": 0.0001656530378418403,
	"loss": 2.564802551269531,
	"step": 2780
	},
	{
	"epoch": 1.104625,
	"grad_norm": 0.32674023509025574,
	"learning_rate": 0.0001652711327888507,
	"loss": 2.5603107452392577,
	"step": 2790
	},
	{
	"epoch": 1.105875,
	"grad_norm": 0.3370579481124878,
	"learning_rate": 0.00016488832949385402,
	"loss": 2.537816619873047,
	"step": 2800
	}
	],
	"logging_steps": 10,
	"max_steps": 8000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.7508190343633306e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}