Yuan-embedding-2.0-en / trainer_state.json

Upload 19 files

b2fd15d verified about 1 month ago

74.6 kB

	{
	"best_global_step": 1800,
	"best_metric": 0.00229549,
	"best_model_checkpoint": "/mnt/beegfs3/liying/zhangfanhao/output1125/v1-20251125-231025/checkpoint-1800",
	"epoch": 3.0354280894137493,
	"eval_steps": 100,
	"global_step": 1800,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.001687051876845213,
	"grad_norm": 0.5938383277366354,
	"learning_rate": 5.999998316002012e-06,
	"loss": 0.380859375,
	"step": 1
	},
	{
	"epoch": 0.008435259384226065,
	"grad_norm": 0.432332139447319,
	"learning_rate": 5.999957900144816e-06,
	"loss": 0.3326416015625,
	"step": 5
	},
	{
	"epoch": 0.01687051876845213,
	"grad_norm": 0.24245712798777588,
	"learning_rate": 5.99983160176086e-06,
	"loss": 0.2187744140625,
	"step": 10
	},
	{
	"epoch": 0.025305778152678194,
	"grad_norm": 0.14967602144842607,
	"learning_rate": 5.999621108392896e-06,
	"loss": 0.1771240234375,
	"step": 15
	},
	{
	"epoch": 0.03374103753690426,
	"grad_norm": 0.11965916268612647,
	"learning_rate": 5.9993264259487505e-06,
	"loss": 0.14423828125,
	"step": 20
	},
	{
	"epoch": 0.04217629692113033,
	"grad_norm": 0.09039362542123534,
	"learning_rate": 5.998947562699149e-06,
	"loss": 0.1184326171875,
	"step": 25
	},
	{
	"epoch": 0.05061155630535639,
	"grad_norm": 0.0761794885482189,
	"learning_rate": 5.998484529277483e-06,
	"loss": 0.108642578125,
	"step": 30
	},
	{
	"epoch": 0.059046815689582456,
	"grad_norm": 0.07436752367684027,
	"learning_rate": 5.997937338679513e-06,
	"loss": 0.09638671875,
	"step": 35
	},
	{
	"epoch": 0.06748207507380852,
	"grad_norm": 0.06054003854062884,
	"learning_rate": 5.997306006263003e-06,
	"loss": 0.1025146484375,
	"step": 40
	},
	{
	"epoch": 0.07591733445803459,
	"grad_norm": 0.05715450839425674,
	"learning_rate": 5.996590549747288e-06,
	"loss": 0.0909912109375,
	"step": 45
	},
	{
	"epoch": 0.08435259384226065,
	"grad_norm": 0.0562159873926997,
	"learning_rate": 5.995790989212777e-06,
	"loss": 0.0900390625,
	"step": 50
	},
	{
	"epoch": 0.09278785322648671,
	"grad_norm": 0.054733644360014155,
	"learning_rate": 5.994907347100393e-06,
	"loss": 0.08599853515625,
	"step": 55
	},
	{
	"epoch": 0.10122311261071278,
	"grad_norm": 0.04945430208391664,
	"learning_rate": 5.99393964821094e-06,
	"loss": 0.08861083984375,
	"step": 60
	},
	{
	"epoch": 0.10965837199493884,
	"grad_norm": 0.060375343186170424,
	"learning_rate": 5.992887919704406e-06,
	"loss": 0.08037109375,
	"step": 65
	},
	{
	"epoch": 0.11809363137916491,
	"grad_norm": 0.05113371142226039,
	"learning_rate": 5.991752191099203e-06,
	"loss": 0.07867431640625,
	"step": 70
	},
	{
	"epoch": 0.12652889076339097,
	"grad_norm": 0.060073186423122656,
	"learning_rate": 5.990532494271337e-06,
	"loss": 0.07816162109375,
	"step": 75
	},
	{
	"epoch": 0.13496415014761703,
	"grad_norm": 0.058832653609599356,
	"learning_rate": 5.989228863453515e-06,
	"loss": 0.08001708984375,
	"step": 80
	},
	{
	"epoch": 0.1433994095318431,
	"grad_norm": 0.06587176624760811,
	"learning_rate": 5.987841335234184e-06,
	"loss": 0.074359130859375,
	"step": 85
	},
	{
	"epoch": 0.15183466891606917,
	"grad_norm": 0.06491166432460505,
	"learning_rate": 5.9863699485565e-06,
	"loss": 0.0674072265625,
	"step": 90
	},
	{
	"epoch": 0.16026992830029524,
	"grad_norm": 0.056198676389375694,
	"learning_rate": 5.984814744717241e-06,
	"loss": 0.0659912109375,
	"step": 95
	},
	{
	"epoch": 0.1687051876845213,
	"grad_norm": 0.0673764252680421,
	"learning_rate": 5.983175767365646e-06,
	"loss": 0.063623046875,
	"step": 100
	},
	{
	"epoch": 0.1687051876845213,
	"eval_loss": 0.0162808820605278,
	"eval_margin": -0.020074697267714766,
	"eval_mean_neg": 0.6548054814338684,
	"eval_mean_pos": 0.8441178202629089,
	"eval_runtime": 367.938,
	"eval_samples_per_second": 21.713,
	"eval_steps_per_second": 0.34,
	"step": 100
	},
	{
	"epoch": 0.17714044706874738,
	"grad_norm": 0.06055978762872105,
	"learning_rate": 5.981453062502185e-06,
	"loss": 0.060498046875,
	"step": 105
	},
	{
	"epoch": 0.18557570645297342,
	"grad_norm": 0.06213709235940642,
	"learning_rate": 5.979646678477277e-06,
	"loss": 0.056640625,
	"step": 110
	},
	{
	"epoch": 0.19401096583719948,
	"grad_norm": 0.0659729457413995,
	"learning_rate": 5.977756665989925e-06,
	"loss": 0.05919189453125,
	"step": 115
	},
	{
	"epoch": 0.20244622522142555,
	"grad_norm": 0.05897713608413389,
	"learning_rate": 5.9757830780862985e-06,
	"loss": 0.0628662109375,
	"step": 120
	},
	{
	"epoch": 0.21088148460565162,
	"grad_norm": 0.05642517065149083,
	"learning_rate": 5.973725970158239e-06,
	"loss": 0.05245361328125,
	"step": 125
	},
	{
	"epoch": 0.2193167439898777,
	"grad_norm": 0.06579611075607034,
	"learning_rate": 5.9715853999417115e-06,
	"loss": 0.05848388671875,
	"step": 130
	},
	{
	"epoch": 0.22775200337410376,
	"grad_norm": 0.07448489445734133,
	"learning_rate": 5.969361427515179e-06,
	"loss": 0.0573974609375,
	"step": 135
	},
	{
	"epoch": 0.23618726275832982,
	"grad_norm": 0.05975086799089143,
	"learning_rate": 5.9670541152979215e-06,
	"loss": 0.05091552734375,
	"step": 140
	},
	{
	"epoch": 0.2446225221425559,
	"grad_norm": 0.06504159374670346,
	"learning_rate": 5.964663528048276e-06,
	"loss": 0.047943115234375,
	"step": 145
	},
	{
	"epoch": 0.25305778152678193,
	"grad_norm": 0.060584307441235295,
	"learning_rate": 5.96218973286183e-06,
	"loss": 0.0493896484375,
	"step": 150
	},
	{
	"epoch": 0.261493040911008,
	"grad_norm": 0.06234398910972033,
	"learning_rate": 5.959632799169529e-06,
	"loss": 0.04854736328125,
	"step": 155
	},
	{
	"epoch": 0.26992830029523407,
	"grad_norm": 0.07326440644425879,
	"learning_rate": 5.9569927987357305e-06,
	"loss": 0.0443359375,
	"step": 160
	},
	{
	"epoch": 0.27836355967946014,
	"grad_norm": 0.059873291821439245,
	"learning_rate": 5.954269805656194e-06,
	"loss": 0.04698486328125,
	"step": 165
	},
	{
	"epoch": 0.2867988190636862,
	"grad_norm": 0.07214278446872342,
	"learning_rate": 5.951463896355993e-06,
	"loss": 0.0474639892578125,
	"step": 170
	},
	{
	"epoch": 0.2952340784479123,
	"grad_norm": 0.06530184393433881,
	"learning_rate": 5.94857514958738e-06,
	"loss": 0.043914794921875,
	"step": 175
	},
	{
	"epoch": 0.30366933783213834,
	"grad_norm": 0.06214586771199744,
	"learning_rate": 5.945603646427567e-06,
	"loss": 0.043475341796875,
	"step": 180
	},
	{
	"epoch": 0.3121045972163644,
	"grad_norm": 0.06764874450241058,
	"learning_rate": 5.9425494702764575e-06,
	"loss": 0.04755859375,
	"step": 185
	},
	{
	"epoch": 0.3205398566005905,
	"grad_norm": 0.06523200399348678,
	"learning_rate": 5.939412706854299e-06,
	"loss": 0.044635009765625,
	"step": 190
	},
	{
	"epoch": 0.32897511598481655,
	"grad_norm": 0.060102318432770876,
	"learning_rate": 5.9361934441992835e-06,
	"loss": 0.042364501953125,
	"step": 195
	},
	{
	"epoch": 0.3374103753690426,
	"grad_norm": 0.06678207500644712,
	"learning_rate": 5.9328917726650706e-06,
	"loss": 0.04183349609375,
	"step": 200
	},
	{
	"epoch": 0.3374103753690426,
	"eval_loss": 0.010425936430692673,
	"eval_margin": -0.016463442112229044,
	"eval_mean_neg": 0.5932909250259399,
	"eval_mean_pos": 0.8196097016334534,
	"eval_runtime": 365.6666,
	"eval_samples_per_second": 21.848,
	"eval_steps_per_second": 0.342,
	"step": 200
	},
	{
	"epoch": 0.3458456347532687,
	"grad_norm": 0.05626492604909855,
	"learning_rate": 5.929507784918257e-06,
	"loss": 0.040447998046875,
	"step": 205
	},
	{
	"epoch": 0.35428089413749475,
	"grad_norm": 0.054176681030320105,
	"learning_rate": 5.926041575935772e-06,
	"loss": 0.037396240234375,
	"step": 210
	},
	{
	"epoch": 0.3627161535217208,
	"grad_norm": 0.06953999336709471,
	"learning_rate": 5.922493243002212e-06,
	"loss": 0.042828369140625,
	"step": 215
	},
	{
	"epoch": 0.37115141290594683,
	"grad_norm": 0.05589129508252642,
	"learning_rate": 5.918862885707113e-06,
	"loss": 0.034979248046875,
	"step": 220
	},
	{
	"epoch": 0.3795866722901729,
	"grad_norm": 0.07078214617147234,
	"learning_rate": 5.915150605942153e-06,
	"loss": 0.035723876953125,
	"step": 225
	},
	{
	"epoch": 0.38802193167439897,
	"grad_norm": 0.06815732953530805,
	"learning_rate": 5.911356507898291e-06,
	"loss": 0.041973876953125,
	"step": 230
	},
	{
	"epoch": 0.39645719105862504,
	"grad_norm": 0.062472935047014386,
	"learning_rate": 5.907480698062848e-06,
	"loss": 0.0356689453125,
	"step": 235
	},
	{
	"epoch": 0.4048924504428511,
	"grad_norm": 0.06665756879409568,
	"learning_rate": 5.90352328521651e-06,
	"loss": 0.036456298828125,
	"step": 240
	},
	{
	"epoch": 0.41332770982707717,
	"grad_norm": 0.06681598226193439,
	"learning_rate": 5.899484380430284e-06,
	"loss": 0.0343994140625,
	"step": 245
	},
	{
	"epoch": 0.42176296921130324,
	"grad_norm": 0.060740413400477374,
	"learning_rate": 5.895364097062374e-06,
	"loss": 0.0318511962890625,
	"step": 250
	},
	{
	"epoch": 0.4301982285955293,
	"grad_norm": 0.06545743307605277,
	"learning_rate": 5.8911625507550015e-06,
	"loss": 0.034765625,
	"step": 255
	},
	{
	"epoch": 0.4386334879797554,
	"grad_norm": 0.0673664786591912,
	"learning_rate": 5.88687985943116e-06,
	"loss": 0.03580322265625,
	"step": 260
	},
	{
	"epoch": 0.44706874736398144,
	"grad_norm": 0.06937993663032453,
	"learning_rate": 5.882516143291308e-06,
	"loss": 0.036236572265625,
	"step": 265
	},
	{
	"epoch": 0.4555040067482075,
	"grad_norm": 0.0639250177544625,
	"learning_rate": 5.878071524809988e-06,
	"loss": 0.0317962646484375,
	"step": 270
	},
	{
	"epoch": 0.4639392661324336,
	"grad_norm": 0.06037822600018219,
	"learning_rate": 5.873546128732399e-06,
	"loss": 0.0323699951171875,
	"step": 275
	},
	{
	"epoch": 0.47237452551665965,
	"grad_norm": 0.060357976056049485,
	"learning_rate": 5.868940082070885e-06,
	"loss": 0.033660888671875,
	"step": 280
	},
	{
	"epoch": 0.4808097849008857,
	"grad_norm": 0.061037172126093234,
	"learning_rate": 5.8642535141013785e-06,
	"loss": 0.0297515869140625,
	"step": 285
	},
	{
	"epoch": 0.4892450442851118,
	"grad_norm": 0.0524126813526148,
	"learning_rate": 5.859486556359768e-06,
	"loss": 0.028472900390625,
	"step": 290
	},
	{
	"epoch": 0.49768030366933785,
	"grad_norm": 0.062026009465912704,
	"learning_rate": 5.854639342638208e-06,
	"loss": 0.030718994140625,
	"step": 295
	},
	{
	"epoch": 0.5061155630535639,
	"grad_norm": 0.05866098788599579,
	"learning_rate": 5.849712008981361e-06,
	"loss": 0.032916259765625,
	"step": 300
	},
	{
	"epoch": 0.5061155630535639,
	"eval_loss": 0.007868120446801186,
	"eval_margin": -0.013977996595654517,
	"eval_mean_neg": 0.5548827648162842,
	"eval_mean_pos": 0.793705403804779,
	"eval_runtime": 364.6437,
	"eval_samples_per_second": 21.909,
	"eval_steps_per_second": 0.343,
	"step": 300
	},
	{
	"epoch": 0.5145508224377899,
	"grad_norm": 0.05968132039231295,
	"learning_rate": 5.844704693682583e-06,
	"loss": 0.0292724609375,
	"step": 305
	},
	{
	"epoch": 0.522986081822016,
	"grad_norm": 0.06038138238675174,
	"learning_rate": 5.8396175372800405e-06,
	"loss": 0.030743408203125,
	"step": 310
	},
	{
	"epoch": 0.5314213412062421,
	"grad_norm": 0.06052295196543659,
	"learning_rate": 5.834450682552765e-06,
	"loss": 0.030194091796875,
	"step": 315
	},
	{
	"epoch": 0.5398566005904681,
	"grad_norm": 0.05539528727202974,
	"learning_rate": 5.829204274516648e-06,
	"loss": 0.0312774658203125,
	"step": 320
	},
	{
	"epoch": 0.5482918599746942,
	"grad_norm": 0.052508369724972796,
	"learning_rate": 5.823878460420366e-06,
	"loss": 0.0295318603515625,
	"step": 325
	},
	{
	"epoch": 0.5567271193589203,
	"grad_norm": 0.05151880865825463,
	"learning_rate": 5.8184733897412565e-06,
	"loss": 0.028912353515625,
	"step": 330
	},
	{
	"epoch": 0.5651623787431463,
	"grad_norm": 0.0624220665428448,
	"learning_rate": 5.812989214181113e-06,
	"loss": 0.027313232421875,
	"step": 335
	},
	{
	"epoch": 0.5735976381273724,
	"grad_norm": 0.06481057308539884,
	"learning_rate": 5.807426087661934e-06,
	"loss": 0.02608642578125,
	"step": 340
	},
	{
	"epoch": 0.5820328975115985,
	"grad_norm": 0.06109467057046473,
	"learning_rate": 5.8017841663216e-06,
	"loss": 0.0282989501953125,
	"step": 345
	},
	{
	"epoch": 0.5904681568958245,
	"grad_norm": 0.062107444796084835,
	"learning_rate": 5.796063608509493e-06,
	"loss": 0.0277069091796875,
	"step": 350
	},
	{
	"epoch": 0.5989034162800506,
	"grad_norm": 0.0552072139581444,
	"learning_rate": 5.7902645747820485e-06,
	"loss": 0.028399658203125,
	"step": 355
	},
	{
	"epoch": 0.6073386756642767,
	"grad_norm": 0.06047980839414296,
	"learning_rate": 5.784387227898254e-06,
	"loss": 0.0281524658203125,
	"step": 360
	},
	{
	"epoch": 0.6157739350485028,
	"grad_norm": 0.05336288606895412,
	"learning_rate": 5.778431732815078e-06,
	"loss": 0.02484130859375,
	"step": 365
	},
	{
	"epoch": 0.6242091944327288,
	"grad_norm": 0.060745200996401724,
	"learning_rate": 5.77239825668284e-06,
	"loss": 0.02640380859375,
	"step": 370
	},
	{
	"epoch": 0.6326444538169549,
	"grad_norm": 0.048268694566304324,
	"learning_rate": 5.766286968840522e-06,
	"loss": 0.0278717041015625,
	"step": 375
	},
	{
	"epoch": 0.641079713201181,
	"grad_norm": 0.05424806603710711,
	"learning_rate": 5.760098040811012e-06,
	"loss": 0.0271453857421875,
	"step": 380
	},
	{
	"epoch": 0.649514972585407,
	"grad_norm": 0.054535443289609395,
	"learning_rate": 5.7538316462962935e-06,
	"loss": 0.026611328125,
	"step": 385
	},
	{
	"epoch": 0.6579502319696331,
	"grad_norm": 0.06967389025087475,
	"learning_rate": 5.7474879611725655e-06,
	"loss": 0.02589111328125,
	"step": 390
	},
	{
	"epoch": 0.6663854913538592,
	"grad_norm": 0.06024092137696802,
	"learning_rate": 5.741067163485314e-06,
	"loss": 0.0193756103515625,
	"step": 395
	},
	{
	"epoch": 0.6748207507380852,
	"grad_norm": 0.05981804001044263,
	"learning_rate": 5.7345694334443066e-06,
	"loss": 0.0205718994140625,
	"step": 400
	},
	{
	"epoch": 0.6748207507380852,
	"eval_loss": 0.006414474919438362,
	"eval_margin": -0.013447051244457402,
	"eval_mean_neg": 0.5324161052703857,
	"eval_mean_pos": 0.7909372448921204,
	"eval_runtime": 365.0145,
	"eval_samples_per_second": 21.887,
	"eval_steps_per_second": 0.342,
	"step": 400
	},
	{
	"epoch": 0.6832560101223113,
	"grad_norm": 0.06692561927901217,
	"learning_rate": 5.727994953418538e-06,
	"loss": 0.022021484375,
	"step": 405
	},
	{
	"epoch": 0.6916912695065374,
	"grad_norm": 0.06609269963808409,
	"learning_rate": 5.721343907931114e-06,
	"loss": 0.02950592041015625,
	"step": 410
	},
	{
	"epoch": 0.7001265288907634,
	"grad_norm": 0.052617111357424175,
	"learning_rate": 5.71461648365407e-06,
	"loss": 0.025189208984375,
	"step": 415
	},
	{
	"epoch": 0.7085617882749895,
	"grad_norm": 0.04860971480260525,
	"learning_rate": 5.707812869403128e-06,
	"loss": 0.022052001953125,
	"step": 420
	},
	{
	"epoch": 0.7169970476592156,
	"grad_norm": 0.06030454097987917,
	"learning_rate": 5.7009332561324085e-06,
	"loss": 0.0219390869140625,
	"step": 425
	},
	{
	"epoch": 0.7254323070434416,
	"grad_norm": 0.06837586048390999,
	"learning_rate": 5.693977836929057e-06,
	"loss": 0.0270172119140625,
	"step": 430
	},
	{
	"epoch": 0.7338675664276677,
	"grad_norm": 0.05197492190608033,
	"learning_rate": 5.686946807007834e-06,
	"loss": 0.02206878662109375,
	"step": 435
	},
	{
	"epoch": 0.7423028258118937,
	"grad_norm": 0.06128713786873146,
	"learning_rate": 5.679840363705637e-06,
	"loss": 0.0244720458984375,
	"step": 440
	},
	{
	"epoch": 0.7507380851961197,
	"grad_norm": 0.0629198604819534,
	"learning_rate": 5.672658706475953e-06,
	"loss": 0.0194488525390625,
	"step": 445
	},
	{
	"epoch": 0.7591733445803458,
	"grad_norm": 0.05502172045134509,
	"learning_rate": 5.665402036883267e-06,
	"loss": 0.0225250244140625,
	"step": 450
	},
	{
	"epoch": 0.7676086039645719,
	"grad_norm": 0.06119000768724386,
	"learning_rate": 5.658070558597408e-06,
	"loss": 0.01928558349609375,
	"step": 455
	},
	{
	"epoch": 0.7760438633487979,
	"grad_norm": 0.058834092769235756,
	"learning_rate": 5.650664477387824e-06,
	"loss": 0.02149658203125,
	"step": 460
	},
	{
	"epoch": 0.784479122733024,
	"grad_norm": 0.06942758384696321,
	"learning_rate": 5.643184001117811e-06,
	"loss": 0.0266326904296875,
	"step": 465
	},
	{
	"epoch": 0.7929143821172501,
	"grad_norm": 0.05395397336586372,
	"learning_rate": 5.6356293397386836e-06,
	"loss": 0.0206085205078125,
	"step": 470
	},
	{
	"epoch": 0.8013496415014761,
	"grad_norm": 0.057301086470950384,
	"learning_rate": 5.628000705283873e-06,
	"loss": 0.021770477294921875,
	"step": 475
	},
	{
	"epoch": 0.8097849008857022,
	"grad_norm": 0.058618795566843934,
	"learning_rate": 5.620298311862985e-06,
	"loss": 0.0174072265625,
	"step": 480
	},
	{
	"epoch": 0.8182201602699283,
	"grad_norm": 0.053997897902853975,
	"learning_rate": 5.612522375655783e-06,
	"loss": 0.0246124267578125,
	"step": 485
	},
	{
	"epoch": 0.8266554196541543,
	"grad_norm": 0.058293384553658546,
	"learning_rate": 5.604673114906126e-06,
	"loss": 0.0239288330078125,
	"step": 490
	},
	{
	"epoch": 0.8350906790383804,
	"grad_norm": 0.062099166751088966,
	"learning_rate": 5.596750749915842e-06,
	"loss": 0.023724365234375,
	"step": 495
	},
	{
	"epoch": 0.8435259384226065,
	"grad_norm": 0.0518337334475497,
	"learning_rate": 5.588755503038543e-06,
	"loss": 0.01995849609375,
	"step": 500
	},
	{
	"epoch": 0.8435259384226065,
	"eval_loss": 0.00542406877502799,
	"eval_margin": -0.010786364688688228,
	"eval_mean_neg": 0.5346763134002686,
	"eval_mean_pos": 0.7906754016876221,
	"eval_runtime": 367.5462,
	"eval_samples_per_second": 21.736,
	"eval_steps_per_second": 0.34,
	"step": 500
	},
	{
	"epoch": 0.8519611978068325,
	"grad_norm": 0.0579368996460804,
	"learning_rate": 5.580687598673387e-06,
	"loss": 0.02121734619140625,
	"step": 505
	},
	{
	"epoch": 0.8603964571910586,
	"grad_norm": 0.05214070956939639,
	"learning_rate": 5.572547263258776e-06,
	"loss": 0.0197113037109375,
	"step": 510
	},
	{
	"epoch": 0.8688317165752847,
	"grad_norm": 0.0687906199565583,
	"learning_rate": 5.564334725266006e-06,
	"loss": 0.0217254638671875,
	"step": 515
	},
	{
	"epoch": 0.8772669759595108,
	"grad_norm": 0.051621267659708626,
	"learning_rate": 5.55605021519285e-06,
	"loss": 0.019158935546875,
	"step": 520
	},
	{
	"epoch": 0.8857022353437368,
	"grad_norm": 0.05599957001213385,
	"learning_rate": 5.547693965557092e-06,
	"loss": 0.0195770263671875,
	"step": 525
	},
	{
	"epoch": 0.8941374947279629,
	"grad_norm": 0.06034671456944424,
	"learning_rate": 5.539266210889997e-06,
	"loss": 0.0231231689453125,
	"step": 530
	},
	{
	"epoch": 0.902572754112189,
	"grad_norm": 0.04518349407201743,
	"learning_rate": 5.5307671877297326e-06,
	"loss": 0.0208709716796875,
	"step": 535
	},
	{
	"epoch": 0.911008013496415,
	"grad_norm": 0.0503478793140038,
	"learning_rate": 5.522197134614728e-06,
	"loss": 0.0209930419921875,
	"step": 540
	},
	{
	"epoch": 0.9194432728806411,
	"grad_norm": 0.046047217532892024,
	"learning_rate": 5.513556292076981e-06,
	"loss": 0.0175750732421875,
	"step": 545
	},
	{
	"epoch": 0.9278785322648672,
	"grad_norm": 0.05575253759567789,
	"learning_rate": 5.504844902635303e-06,
	"loss": 0.0171112060546875,
	"step": 550
	},
	{
	"epoch": 0.9363137916490932,
	"grad_norm": 0.04687503220455111,
	"learning_rate": 5.496063210788519e-06,
	"loss": 0.0167633056640625,
	"step": 555
	},
	{
	"epoch": 0.9447490510333193,
	"grad_norm": 0.04891593875536363,
	"learning_rate": 5.487211463008597e-06,
	"loss": 0.019036865234375,
	"step": 560
	},
	{
	"epoch": 0.9531843104175454,
	"grad_norm": 0.04841249311058062,
	"learning_rate": 5.478289907733738e-06,
	"loss": 0.01807098388671875,
	"step": 565
	},
	{
	"epoch": 0.9616195698017714,
	"grad_norm": 0.060373651634708765,
	"learning_rate": 5.469298795361397e-06,
	"loss": 0.015673828125,
	"step": 570
	},
	{
	"epoch": 0.9700548291859975,
	"grad_norm": 0.051868174671481436,
	"learning_rate": 5.460238378241262e-06,
	"loss": 0.01802978515625,
	"step": 575
	},
	{
	"epoch": 0.9784900885702236,
	"grad_norm": 0.051146316151485995,
	"learning_rate": 5.451108910668163e-06,
	"loss": 0.01664581298828125,
	"step": 580
	},
	{
	"epoch": 0.9869253479544496,
	"grad_norm": 0.04017649470362814,
	"learning_rate": 5.441910648874945e-06,
	"loss": 0.016483306884765625,
	"step": 585
	},
	{
	"epoch": 0.9953606073386757,
	"grad_norm": 0.04457228909606784,
	"learning_rate": 5.4326438510252655e-06,
	"loss": 0.0192718505859375,
	"step": 590
	},
	{
	"epoch": 1.0033741037536905,
	"grad_norm": 0.053005736672298354,
	"learning_rate": 5.423308777206357e-06,
	"loss": 0.015604400634765625,
	"step": 595
	},
	{
	"epoch": 1.0118093631379166,
	"grad_norm": 0.05754347568157857,
	"learning_rate": 5.413905689421722e-06,
	"loss": 0.0159515380859375,
	"step": 600
	},
	{
	"epoch": 1.0118093631379166,
	"eval_loss": 0.004593910649418831,
	"eval_margin": -0.011103880922159842,
	"eval_mean_neg": 0.5064941644668579,
	"eval_mean_pos": 0.7831713557243347,
	"eval_runtime": 364.5429,
	"eval_samples_per_second": 21.915,
	"eval_steps_per_second": 0.343,
	"step": 600
	},
	{
	"epoch": 1.0202446225221427,
	"grad_norm": 0.04962686662442784,
	"learning_rate": 5.404434851583785e-06,
	"loss": 0.01360015869140625,
	"step": 605
	},
	{
	"epoch": 1.0286798819063687,
	"grad_norm": 0.046926535788142015,
	"learning_rate": 5.394896529506479e-06,
	"loss": 0.01566925048828125,
	"step": 610
	},
	{
	"epoch": 1.0371151412905948,
	"grad_norm": 0.043042108440633,
	"learning_rate": 5.38529099089779e-06,
	"loss": 0.0128326416015625,
	"step": 615
	},
	{
	"epoch": 1.0455504006748209,
	"grad_norm": 0.049749099013614635,
	"learning_rate": 5.375618505352241e-06,
	"loss": 0.0136383056640625,
	"step": 620
	},
	{
	"epoch": 1.053985660059047,
	"grad_norm": 0.04945151693616336,
	"learning_rate": 5.365879344343326e-06,
	"loss": 0.01544036865234375,
	"step": 625
	},
	{
	"epoch": 1.062420919443273,
	"grad_norm": 0.04626935309793636,
	"learning_rate": 5.35607378121589e-06,
	"loss": 0.0143829345703125,
	"step": 630
	},
	{
	"epoch": 1.070856178827499,
	"grad_norm": 0.04580735975264899,
	"learning_rate": 5.346202091178459e-06,
	"loss": 0.014122772216796874,
	"step": 635
	},
	{
	"epoch": 1.079291438211725,
	"grad_norm": 0.046216725385350446,
	"learning_rate": 5.336264551295512e-06,
	"loss": 0.014672088623046874,
	"step": 640
	},
	{
	"epoch": 1.087726697595951,
	"grad_norm": 0.04564303944680029,
	"learning_rate": 5.326261440479709e-06,
	"loss": 0.0136993408203125,
	"step": 645
	},
	{
	"epoch": 1.096161956980177,
	"grad_norm": 0.05114495970312972,
	"learning_rate": 5.316193039484063e-06,
	"loss": 0.0147705078125,
	"step": 650
	},
	{
	"epoch": 1.1045972163644031,
	"grad_norm": 0.044105955284847585,
	"learning_rate": 5.306059630894056e-06,
	"loss": 0.015480804443359374,
	"step": 655
	},
	{
	"epoch": 1.1130324757486292,
	"grad_norm": 0.045182200484827885,
	"learning_rate": 5.295861499119711e-06,
	"loss": 0.013404083251953126,
	"step": 660
	},
	{
	"epoch": 1.1214677351328552,
	"grad_norm": 0.04324759296793784,
	"learning_rate": 5.2855989303876065e-06,
	"loss": 0.01672821044921875,
	"step": 665
	},
	{
	"epoch": 1.1299029945170813,
	"grad_norm": 0.03328038907845692,
	"learning_rate": 5.275272212732849e-06,
	"loss": 0.01335906982421875,
	"step": 670
	},
	{
	"epoch": 1.1383382539013074,
	"grad_norm": 0.044225327184826406,
	"learning_rate": 5.264881635990984e-06,
	"loss": 0.012935638427734375,
	"step": 675
	},
	{
	"epoch": 1.1467735132855335,
	"grad_norm": 0.04645591264342837,
	"learning_rate": 5.2544274917898615e-06,
	"loss": 0.01385498046875,
	"step": 680
	},
	{
	"epoch": 1.1552087726697595,
	"grad_norm": 0.05453216622664439,
	"learning_rate": 5.243910073541454e-06,
	"loss": 0.016290283203125,
	"step": 685
	},
	{
	"epoch": 1.1636440320539856,
	"grad_norm": 0.057731965028177075,
	"learning_rate": 5.233329676433617e-06,
	"loss": 0.0145355224609375,
	"step": 690
	},
	{
	"epoch": 1.1720792914382117,
	"grad_norm": 0.05145183297720149,
	"learning_rate": 5.222686597421808e-06,
	"loss": 0.01390838623046875,
	"step": 695
	},
	{
	"epoch": 1.1805145508224377,
	"grad_norm": 0.04021056012812571,
	"learning_rate": 5.211981135220751e-06,
	"loss": 0.01344757080078125,
	"step": 700
	},
	{
	"epoch": 1.1805145508224377,
	"eval_loss": 0.004191060084849596,
	"eval_margin": -0.010819014589933137,
	"eval_mean_neg": 0.4851545989513397,
	"eval_mean_pos": 0.7733471989631653,
	"eval_runtime": 359.0481,
	"eval_samples_per_second": 22.251,
	"eval_steps_per_second": 0.348,
	"step": 700
	},
	{
	"epoch": 1.1889498102066638,
	"grad_norm": 0.0416204676277527,
	"learning_rate": 5.201213590296052e-06,
	"loss": 0.014748382568359374,
	"step": 705
	},
	{
	"epoch": 1.1973850695908899,
	"grad_norm": 0.05633713089091016,
	"learning_rate": 5.190384264855764e-06,
	"loss": 0.014013671875,
	"step": 710
	},
	{
	"epoch": 1.205820328975116,
	"grad_norm": 0.05143948467095745,
	"learning_rate": 5.1794934628419104e-06,
	"loss": 0.015460205078125,
	"step": 715
	},
	{
	"epoch": 1.214255588359342,
	"grad_norm": 0.05227911954680101,
	"learning_rate": 5.168541489921949e-06,
	"loss": 0.01507415771484375,
	"step": 720
	},
	{
	"epoch": 1.222690847743568,
	"grad_norm": 0.058608960783147375,
	"learning_rate": 5.1575286534801955e-06,
	"loss": 0.01417236328125,
	"step": 725
	},
	{
	"epoch": 1.2311261071277941,
	"grad_norm": 0.04818858161693878,
	"learning_rate": 5.146455262609197e-06,
	"loss": 0.013425445556640625,
	"step": 730
	},
	{
	"epoch": 1.2395613665120202,
	"grad_norm": 0.05406749848988645,
	"learning_rate": 5.1353216281010535e-06,
	"loss": 0.013022613525390626,
	"step": 735
	},
	{
	"epoch": 1.2479966258962463,
	"grad_norm": 0.044408669007062154,
	"learning_rate": 5.1241280624387e-06,
	"loss": 0.01393585205078125,
	"step": 740
	},
	{
	"epoch": 1.2564318852804723,
	"grad_norm": 0.04519048638967848,
	"learning_rate": 5.1128748797871314e-06,
	"loss": 0.013826751708984375,
	"step": 745
	},
	{
	"epoch": 1.2648671446646984,
	"grad_norm": 0.0491460974626283,
	"learning_rate": 5.101562395984587e-06,
	"loss": 0.01336212158203125,
	"step": 750
	},
	{
	"epoch": 1.2733024040489245,
	"grad_norm": 0.04356609182045035,
	"learning_rate": 5.090190928533689e-06,
	"loss": 0.01492156982421875,
	"step": 755
	},
	{
	"epoch": 1.2817376634331505,
	"grad_norm": 0.03556136795064142,
	"learning_rate": 5.078760796592524e-06,
	"loss": 0.0125732421875,
	"step": 760
	},
	{
	"epoch": 1.2901729228173766,
	"grad_norm": 0.04189977738590891,
	"learning_rate": 5.067272320965692e-06,
	"loss": 0.0149322509765625,
	"step": 765
	},
	{
	"epoch": 1.2986081822016027,
	"grad_norm": 0.05051201336701144,
	"learning_rate": 5.055725824095301e-06,
	"loss": 0.01419525146484375,
	"step": 770
	},
	{
	"epoch": 1.3070434415858287,
	"grad_norm": 0.0416942039130722,
	"learning_rate": 5.0441216300519126e-06,
	"loss": 0.01274261474609375,
	"step": 775
	},
	{
	"epoch": 1.3154787009700548,
	"grad_norm": 0.04629875001130603,
	"learning_rate": 5.032460064525455e-06,
	"loss": 0.01363525390625,
	"step": 780
	},
	{
	"epoch": 1.3239139603542809,
	"grad_norm": 0.03704688355237128,
	"learning_rate": 5.020741454816074e-06,
	"loss": 0.01301422119140625,
	"step": 785
	},
	{
	"epoch": 1.332349219738507,
	"grad_norm": 0.03742406408262459,
	"learning_rate": 5.00896612982495e-06,
	"loss": 0.01353302001953125,
	"step": 790
	},
	{
	"epoch": 1.340784479122733,
	"grad_norm": 0.050480726423335516,
	"learning_rate": 4.99713442004507e-06,
	"loss": 0.01196746826171875,
	"step": 795
	},
	{
	"epoch": 1.349219738506959,
	"grad_norm": 0.03808846024736694,
	"learning_rate": 4.985246657551943e-06,
	"loss": 0.0110015869140625,
	"step": 800
	},
	{
	"epoch": 1.349219738506959,
	"eval_loss": 0.003908403683453798,
	"eval_margin": -0.010123856463319352,
	"eval_mean_neg": 0.49688851833343506,
	"eval_mean_pos": 0.7784863114356995,
	"eval_runtime": 364.0137,
	"eval_samples_per_second": 21.947,
	"eval_steps_per_second": 0.343,
	"step": 800
	},
	{
	"epoch": 1.3576549978911852,
	"grad_norm": 0.04637758927467518,
	"learning_rate": 4.973303175994289e-06,
	"loss": 0.013458251953125,
	"step": 805
	},
	{
	"epoch": 1.3660902572754112,
	"grad_norm": 0.05066098296531039,
	"learning_rate": 4.961304310584674e-06,
	"loss": 0.01515960693359375,
	"step": 810
	},
	{
	"epoch": 1.3745255166596373,
	"grad_norm": 0.038530384714911596,
	"learning_rate": 4.949250398090092e-06,
	"loss": 0.011260223388671876,
	"step": 815
	},
	{
	"epoch": 1.3829607760438634,
	"grad_norm": 0.040188601844867354,
	"learning_rate": 4.937141776822525e-06,
	"loss": 0.0158447265625,
	"step": 820
	},
	{
	"epoch": 1.3913960354280894,
	"grad_norm": 0.03574613677300634,
	"learning_rate": 4.92497878662944e-06,
	"loss": 0.011143875122070313,
	"step": 825
	},
	{
	"epoch": 1.3998312948123155,
	"grad_norm": 0.05019423126073816,
	"learning_rate": 4.912761768884255e-06,
	"loss": 0.01179351806640625,
	"step": 830
	},
	{
	"epoch": 1.4082665541965416,
	"grad_norm": 0.04311116805857567,
	"learning_rate": 4.9004910664767545e-06,
	"loss": 0.01372833251953125,
	"step": 835
	},
	{
	"epoch": 1.4167018135807676,
	"grad_norm": 0.04928580588462512,
	"learning_rate": 4.888167023803468e-06,
	"loss": 0.01297607421875,
	"step": 840
	},
	{
	"epoch": 1.4251370729649937,
	"grad_norm": 0.054968450905918724,
	"learning_rate": 4.8757899867580046e-06,
	"loss": 0.014654541015625,
	"step": 845
	},
	{
	"epoch": 1.4335723323492198,
	"grad_norm": 0.050366347428194534,
	"learning_rate": 4.86336030272134e-06,
	"loss": 0.011295318603515625,
	"step": 850
	},
	{
	"epoch": 1.4420075917334458,
	"grad_norm": 0.05107215089989217,
	"learning_rate": 4.850878320552076e-06,
	"loss": 0.01334228515625,
	"step": 855
	},
	{
	"epoch": 1.450442851117672,
	"grad_norm": 0.0391963683003482,
	"learning_rate": 4.838344390576638e-06,
	"loss": 0.01104736328125,
	"step": 860
	},
	{
	"epoch": 1.458878110501898,
	"grad_norm": 0.03985676744245212,
	"learning_rate": 4.825758864579452e-06,
	"loss": 0.013307952880859375,
	"step": 865
	},
	{
	"epoch": 1.467313369886124,
	"grad_norm": 0.04852757651119817,
	"learning_rate": 4.813122095793066e-06,
	"loss": 0.014328384399414062,
	"step": 870
	},
	{
	"epoch": 1.47574862927035,
	"grad_norm": 0.0454254941425111,
	"learning_rate": 4.800434438888235e-06,
	"loss": 0.012960052490234375,
	"step": 875
	},
	{
	"epoch": 1.4841838886545762,
	"grad_norm": 0.03868230007157653,
	"learning_rate": 4.787696249963974e-06,
	"loss": 0.01402740478515625,
	"step": 880
	},
	{
	"epoch": 1.4926191480388022,
	"grad_norm": 0.05289135869423979,
	"learning_rate": 4.774907886537553e-06,
	"loss": 0.013831901550292968,
	"step": 885
	},
	{
	"epoch": 1.501054407423028,
	"grad_norm": 0.04594308680556284,
	"learning_rate": 4.7620697075344736e-06,
	"loss": 0.012446975708007813,
	"step": 890
	},
	{
	"epoch": 1.5094896668072542,
	"grad_norm": 0.048917845490978454,
	"learning_rate": 4.7491820732783866e-06,
	"loss": 0.011295318603515625,
	"step": 895
	},
	{
	"epoch": 1.5179249261914802,
	"grad_norm": 0.043266255463378436,
	"learning_rate": 4.73624534548098e-06,
	"loss": 0.01407012939453125,
	"step": 900
	},
	{
	"epoch": 1.5179249261914802,
	"eval_loss": 0.0036048581823706627,
	"eval_margin": -0.009617562525935711,
	"eval_mean_neg": 0.4904225468635559,
	"eval_mean_pos": 0.7793014049530029,
	"eval_runtime": 363.5397,
	"eval_samples_per_second": 21.976,
	"eval_steps_per_second": 0.344,
	"step": 900
	},
	{
	"epoch": 1.5263601855757063,
	"grad_norm": 0.04363576408467007,
	"learning_rate": 4.723259887231835e-06,
	"loss": 0.0138519287109375,
	"step": 905
	},
	{
	"epoch": 1.5347954449599324,
	"grad_norm": 0.04199459687850267,
	"learning_rate": 4.710226062988223e-06,
	"loss": 0.01312255859375,
	"step": 910
	},
	{
	"epoch": 1.5432307043441584,
	"grad_norm": 0.047436231412077354,
	"learning_rate": 4.697144238564889e-06,
	"loss": 0.01208648681640625,
	"step": 915
	},
	{
	"epoch": 1.5516659637283845,
	"grad_norm": 0.04092453404900873,
	"learning_rate": 4.684014781123775e-06,
	"loss": 0.012505340576171874,
	"step": 920
	},
	{
	"epoch": 1.5601012231126106,
	"grad_norm": 0.045645370405214956,
	"learning_rate": 4.6708380591637166e-06,
	"loss": 0.0120208740234375,
	"step": 925
	},
	{
	"epoch": 1.5685364824968366,
	"grad_norm": 0.04911154284719614,
	"learning_rate": 4.6576144425101076e-06,
	"loss": 0.013311767578125,
	"step": 930
	},
	{
	"epoch": 1.5769717418810627,
	"grad_norm": 0.045881762593597546,
	"learning_rate": 4.64434430230451e-06,
	"loss": 0.012969207763671876,
	"step": 935
	},
	{
	"epoch": 1.5854070012652888,
	"grad_norm": 0.04728445094523914,
	"learning_rate": 4.631028010994245e-06,
	"loss": 0.01099395751953125,
	"step": 940
	},
	{
	"epoch": 1.5938422606495148,
	"grad_norm": 0.03903116673162643,
	"learning_rate": 4.617665942321937e-06,
	"loss": 0.0129608154296875,
	"step": 945
	},
	{
	"epoch": 1.602277520033741,
	"grad_norm": 0.040499425484585065,
	"learning_rate": 4.6042584713150225e-06,
	"loss": 0.009827423095703124,
	"step": 950
	},
	{
	"epoch": 1.610712779417967,
	"grad_norm": 0.047017092872005554,
	"learning_rate": 4.590805974275228e-06,
	"loss": 0.01045989990234375,
	"step": 955
	},
	{
	"epoch": 1.619148038802193,
	"grad_norm": 0.03869016761931018,
	"learning_rate": 4.577308828768005e-06,
	"loss": 0.011346435546875,
	"step": 960
	},
	{
	"epoch": 1.6275832981864191,
	"grad_norm": 0.05726216064413269,
	"learning_rate": 4.563767413611932e-06,
	"loss": 0.01296844482421875,
	"step": 965
	},
	{
	"epoch": 1.6360185575706452,
	"grad_norm": 0.034971593802495975,
	"learning_rate": 4.550182108868089e-06,
	"loss": 0.01379852294921875,
	"step": 970
	},
	{
	"epoch": 1.6444538169548713,
	"grad_norm": 0.04877425067250454,
	"learning_rate": 4.536553295829384e-06,
	"loss": 0.012924957275390624,
	"step": 975
	},
	{
	"epoch": 1.6528890763390973,
	"grad_norm": 0.03927648322180213,
	"learning_rate": 4.522881357009853e-06,
	"loss": 0.01293792724609375,
	"step": 980
	},
	{
	"epoch": 1.6613243357233234,
	"grad_norm": 0.024976847462424127,
	"learning_rate": 4.5091666761339275e-06,
	"loss": 0.009877777099609375,
	"step": 985
	},
	{
	"epoch": 1.6697595951075495,
	"grad_norm": 0.03945379802090875,
	"learning_rate": 4.495409638125657e-06,
	"loss": 0.01130523681640625,
	"step": 990
	},
	{
	"epoch": 1.6781948544917755,
	"grad_norm": 0.03430320161614481,
	"learning_rate": 4.481610629097917e-06,
	"loss": 0.009923553466796875,
	"step": 995
	},
	{
	"epoch": 1.6866301138760016,
	"grad_norm": 0.03895065600017937,
	"learning_rate": 4.46777003634156e-06,
	"loss": 0.01330413818359375,
	"step": 1000
	},
	{
	"epoch": 1.6866301138760016,
	"eval_loss": 0.0034073551651090384,
	"eval_margin": -0.009528953300398444,
	"eval_mean_neg": 0.4926661550998688,
	"eval_mean_pos": 0.7842009663581848,
	"eval_runtime": 367.0219,
	"eval_samples_per_second": 21.767,
	"eval_steps_per_second": 0.341,
	"step": 1000
	},
	{
	"epoch": 1.6950653732602277,
	"grad_norm": 0.04302786223265218,
	"learning_rate": 4.453888248314553e-06,
	"loss": 0.01107330322265625,
	"step": 1005
	},
	{
	"epoch": 1.7035006326444537,
	"grad_norm": 0.04002206909489744,
	"learning_rate": 4.439965654631073e-06,
	"loss": 0.0105499267578125,
	"step": 1010
	},
	{
	"epoch": 1.7119358920286798,
	"grad_norm": 0.04439497813433074,
	"learning_rate": 4.426002646050574e-06,
	"loss": 0.010544586181640624,
	"step": 1015
	},
	{
	"epoch": 1.7203711514129059,
	"grad_norm": 0.043341839034531496,
	"learning_rate": 4.411999614466812e-06,
	"loss": 0.0125335693359375,
	"step": 1020
	},
	{
	"epoch": 1.728806410797132,
	"grad_norm": 0.03449321841295583,
	"learning_rate": 4.397956952896858e-06,
	"loss": 0.010623550415039063,
	"step": 1025
	},
	{
	"epoch": 1.737241670181358,
	"grad_norm": 0.041185961783139574,
	"learning_rate": 4.383875055470055e-06,
	"loss": 0.01031951904296875,
	"step": 1030
	},
	{
	"epoch": 1.745676929565584,
	"grad_norm": 0.04627446953615271,
	"learning_rate": 4.3697543174169675e-06,
	"loss": 0.01590385437011719,
	"step": 1035
	},
	{
	"epoch": 1.7541121889498101,
	"grad_norm": 0.04582345634360075,
	"learning_rate": 4.355595135058278e-06,
	"loss": 0.0119537353515625,
	"step": 1040
	},
	{
	"epoch": 1.7625474483340362,
	"grad_norm": 0.033580437424405536,
	"learning_rate": 4.3413979057936715e-06,
	"loss": 0.01235198974609375,
	"step": 1045
	},
	{
	"epoch": 1.7709827077182623,
	"grad_norm": 0.03545606353671419,
	"learning_rate": 4.32716302809068e-06,
	"loss": 0.012863922119140624,
	"step": 1050
	},
	{
	"epoch": 1.7794179671024883,
	"grad_norm": 0.03491571698794484,
	"learning_rate": 4.312890901473496e-06,
	"loss": 0.01035614013671875,
	"step": 1055
	},
	{
	"epoch": 1.7878532264867144,
	"grad_norm": 0.04391496148899165,
	"learning_rate": 4.29858192651176e-06,
	"loss": 0.011370468139648437,
	"step": 1060
	},
	{
	"epoch": 1.7962884858709405,
	"grad_norm": 0.049338016603549396,
	"learning_rate": 4.284236504809324e-06,
	"loss": 0.011846160888671875,
	"step": 1065
	},
	{
	"epoch": 1.8047237452551665,
	"grad_norm": 0.035387852478552806,
	"learning_rate": 4.269855038992971e-06,
	"loss": 0.011142349243164063,
	"step": 1070
	},
	{
	"epoch": 1.8131590046393926,
	"grad_norm": 0.043891210942711104,
	"learning_rate": 4.2554379327011196e-06,
	"loss": 0.011545944213867187,
	"step": 1075
	},
	{
	"epoch": 1.8215942640236187,
	"grad_norm": 0.040327331551499056,
	"learning_rate": 4.240985590572496e-06,
	"loss": 0.00897674560546875,
	"step": 1080
	},
	{
	"epoch": 1.8300295234078447,
	"grad_norm": 0.03274271686886844,
	"learning_rate": 4.226498418234771e-06,
	"loss": 0.01215667724609375,
	"step": 1085
	},
	{
	"epoch": 1.8384647827920708,
	"grad_norm": 0.04375742422856697,
	"learning_rate": 4.2119768222931865e-06,
	"loss": 0.0109588623046875,
	"step": 1090
	},
	{
	"epoch": 1.8469000421762969,
	"grad_norm": 0.036163256401816654,
	"learning_rate": 4.19742121031913e-06,
	"loss": 0.012054443359375,
	"step": 1095
	},
	{
	"epoch": 1.855335301560523,
	"grad_norm": 0.04078407955383746,
	"learning_rate": 4.182831990838709e-06,
	"loss": 0.0132843017578125,
	"step": 1100
	},
	{
	"epoch": 1.855335301560523,
	"eval_loss": 0.003225065069273114,
	"eval_margin": -0.008749207222623932,
	"eval_mean_neg": 0.49084940552711487,
	"eval_mean_pos": 0.7849159836769104,
	"eval_runtime": 366.687,
	"eval_samples_per_second": 21.787,
	"eval_steps_per_second": 0.341,
	"step": 1100
	},
	{
	"epoch": 1.863770560944749,
	"grad_norm": 0.047827239751426935,
	"learning_rate": 4.168209573321271e-06,
	"loss": 0.0133697509765625,
	"step": 1105
	},
	{
	"epoch": 1.872205820328975,
	"grad_norm": 0.0274823880547768,
	"learning_rate": 4.153554368167927e-06,
	"loss": 0.010877227783203125,
	"step": 1110
	},
	{
	"epoch": 1.8806410797132012,
	"grad_norm": 0.052787755841206804,
	"learning_rate": 4.138866786700016e-06,
	"loss": 0.0139434814453125,
	"step": 1115
	},
	{
	"epoch": 1.8890763390974272,
	"grad_norm": 0.029629846825489692,
	"learning_rate": 4.124147241147577e-06,
	"loss": 0.011189651489257813,
	"step": 1120
	},
	{
	"epoch": 1.8975115984816533,
	"grad_norm": 0.039855575258898726,
	"learning_rate": 4.109396144637764e-06,
	"loss": 0.010993194580078126,
	"step": 1125
	},
	{
	"epoch": 1.9059468578658794,
	"grad_norm": 0.03789188882991695,
	"learning_rate": 4.094613911183265e-06,
	"loss": 0.01313323974609375,
	"step": 1130
	},
	{
	"epoch": 1.9143821172501054,
	"grad_norm": 0.03482605825228896,
	"learning_rate": 4.0798009556706685e-06,
	"loss": 0.008492279052734374,
	"step": 1135
	},
	{
	"epoch": 1.9228173766343315,
	"grad_norm": 0.0395626147511318,
	"learning_rate": 4.064957693848831e-06,
	"loss": 0.011167144775390625,
	"step": 1140
	},
	{
	"epoch": 1.9312526360185576,
	"grad_norm": 0.026910728579180684,
	"learning_rate": 4.050084542317201e-06,
	"loss": 0.0124908447265625,
	"step": 1145
	},
	{
	"epoch": 1.9396878954027836,
	"grad_norm": 0.05111929237613795,
	"learning_rate": 4.0351819185141284e-06,
	"loss": 0.01279144287109375,
	"step": 1150
	},
	{
	"epoch": 1.9481231547870097,
	"grad_norm": 0.031631097839140386,
	"learning_rate": 4.02025024070515e-06,
	"loss": 0.010783004760742187,
	"step": 1155
	},
	{
	"epoch": 1.9565584141712358,
	"grad_norm": 0.03921591693735718,
	"learning_rate": 4.005289927971248e-06,
	"loss": 0.009867095947265625,
	"step": 1160
	},
	{
	"epoch": 1.9649936735554618,
	"grad_norm": 0.03786979993880419,
	"learning_rate": 3.990301400197088e-06,
	"loss": 0.010943603515625,
	"step": 1165
	},
	{
	"epoch": 1.973428932939688,
	"grad_norm": 0.033688024912648086,
	"learning_rate": 3.9752850780592366e-06,
	"loss": 0.010836410522460937,
	"step": 1170
	},
	{
	"epoch": 1.981864192323914,
	"grad_norm": 0.0473160707405277,
	"learning_rate": 3.960241383014353e-06,
	"loss": 0.011658477783203124,
	"step": 1175
	},
	{
	"epoch": 1.99029945170814,
	"grad_norm": 0.034470209590808834,
	"learning_rate": 3.945170737287356e-06,
	"loss": 0.0096588134765625,
	"step": 1180
	},
	{
	"epoch": 1.9987347110923661,
	"grad_norm": 0.04035006428036731,
	"learning_rate": 3.930073563859583e-06,
	"loss": 0.013312530517578126,
	"step": 1185
	},
	{
	"epoch": 2.006748207507381,
	"grad_norm": 0.03443773853658945,
	"learning_rate": 3.914950286456911e-06,
	"loss": 0.0104766845703125,
	"step": 1190
	},
	{
	"epoch": 2.015183466891607,
	"grad_norm": 0.02321269258461312,
	"learning_rate": 3.899801329537865e-06,
	"loss": 0.008111572265625,
	"step": 1195
	},
	{
	"epoch": 2.023618726275833,
	"grad_norm": 0.02427731911492366,
	"learning_rate": 3.884627118281706e-06,
	"loss": 0.009668731689453125,
	"step": 1200
	},
	{
	"epoch": 2.023618726275833,
	"eval_loss": 0.0028827113565057516,
	"eval_margin": -0.008073512017877111,
	"eval_mean_neg": 0.5066258907318115,
	"eval_mean_pos": 0.7934735417366028,
	"eval_runtime": 365.1842,
	"eval_samples_per_second": 21.877,
	"eval_steps_per_second": 0.342,
	"step": 1200
	},
	{
	"epoch": 2.0320539856600592,
	"grad_norm": 0.033776934236771874,
	"learning_rate": 3.869428078576498e-06,
	"loss": 0.00937347412109375,
	"step": 1205
	},
	{
	"epoch": 2.0404892450442853,
	"grad_norm": 0.05070270762284893,
	"learning_rate": 3.8542046370071575e-06,
	"loss": 0.008733367919921875,
	"step": 1210
	},
	{
	"epoch": 2.0489245044285114,
	"grad_norm": 0.028063560546546604,
	"learning_rate": 3.838957220843472e-06,
	"loss": 0.00914459228515625,
	"step": 1215
	},
	{
	"epoch": 2.0573597638127374,
	"grad_norm": 0.041287537117132886,
	"learning_rate": 3.8236862580281175e-06,
	"loss": 0.010516357421875,
	"step": 1220
	},
	{
	"epoch": 2.0657950231969635,
	"grad_norm": 0.03173632436563901,
	"learning_rate": 3.808392177164642e-06,
	"loss": 0.010186767578125,
	"step": 1225
	},
	{
	"epoch": 2.0742302825811896,
	"grad_norm": 0.03149301964970768,
	"learning_rate": 3.7930754075054406e-06,
	"loss": 0.010378265380859375,
	"step": 1230
	},
	{
	"epoch": 2.0826655419654156,
	"grad_norm": 0.03183747792195117,
	"learning_rate": 3.7777363789397004e-06,
	"loss": 0.009032630920410156,
	"step": 1235
	},
	{
	"epoch": 2.0911008013496417,
	"grad_norm": 0.0353065686803631,
	"learning_rate": 3.7623755219813442e-06,
	"loss": 0.0096771240234375,
	"step": 1240
	},
	{
	"epoch": 2.0995360607338673,
	"grad_norm": 0.040800577074973816,
	"learning_rate": 3.746993267756939e-06,
	"loss": 0.009685516357421875,
	"step": 1245
	},
	{
	"epoch": 2.107971320118094,
	"grad_norm": 0.04064182954953987,
	"learning_rate": 3.7315900479936044e-06,
	"loss": 0.010097503662109375,
	"step": 1250
	},
	{
	"epoch": 2.1164065795023195,
	"grad_norm": 0.04908593416403285,
	"learning_rate": 3.7161662950068846e-06,
	"loss": 0.009412384033203125,
	"step": 1255
	},
	{
	"epoch": 2.124841838886546,
	"grad_norm": 0.0284060145446946,
	"learning_rate": 3.7007224416886276e-06,
	"loss": 0.00821533203125,
	"step": 1260
	},
	{
	"epoch": 2.1332770982707716,
	"grad_norm": 0.030842726867602113,
	"learning_rate": 3.685258921494824e-06,
	"loss": 0.009014129638671875,
	"step": 1265
	},
	{
	"epoch": 2.141712357654998,
	"grad_norm": 0.036273158990138075,
	"learning_rate": 3.6697761684334466e-06,
	"loss": 0.010558700561523438,
	"step": 1270
	},
	{
	"epoch": 2.1501476170392237,
	"grad_norm": 0.03693819496482909,
	"learning_rate": 3.6542746170522717e-06,
	"loss": 0.010668182373046875,
	"step": 1275
	},
	{
	"epoch": 2.15858287642345,
	"grad_norm": 0.03797267942950567,
	"learning_rate": 3.638754702426678e-06,
	"loss": 0.008889389038085938,
	"step": 1280
	},
	{
	"epoch": 2.167018135807676,
	"grad_norm": 0.03341108305444907,
	"learning_rate": 3.6232168601474363e-06,
	"loss": 0.006923675537109375,
	"step": 1285
	},
	{
	"epoch": 2.175453395191902,
	"grad_norm": 0.03454779917085028,
	"learning_rate": 3.607661526308488e-06,
	"loss": 0.00969085693359375,
	"step": 1290
	},
	{
	"epoch": 2.183888654576128,
	"grad_norm": 0.035727285557249105,
	"learning_rate": 3.5920891374947005e-06,
	"loss": 0.00997161865234375,
	"step": 1295
	},
	{
	"epoch": 2.192323913960354,
	"grad_norm": 0.031320211315080816,
	"learning_rate": 3.5765001307696152e-06,
	"loss": 0.007769393920898438,
	"step": 1300
	},
	{
	"epoch": 2.192323913960354,
	"eval_loss": 0.0026897923089563847,
	"eval_margin": -0.0077478337221808975,
	"eval_mean_neg": 0.49285975098609924,
	"eval_mean_pos": 0.7862820625305176,
	"eval_runtime": 362.3777,
	"eval_samples_per_second": 22.046,
	"eval_steps_per_second": 0.345,
	"step": 1300
	},
	{
	"epoch": 2.20075917334458,
	"grad_norm": 0.023952498523963275,
	"learning_rate": 3.560894943663185e-06,
	"loss": 0.009902191162109376,
	"step": 1305
	},
	{
	"epoch": 2.2091944327288062,
	"grad_norm": 0.029616458459003896,
	"learning_rate": 3.545274014159486e-06,
	"loss": 0.008718109130859375,
	"step": 1310
	},
	{
	"epoch": 2.2176296921130323,
	"grad_norm": 0.026768679077660198,
	"learning_rate": 3.5296377806844334e-06,
	"loss": 0.006624603271484375,
	"step": 1315
	},
	{
	"epoch": 2.2260649514972584,
	"grad_norm": 0.03723135315427558,
	"learning_rate": 3.5139866820934687e-06,
	"loss": 0.010486793518066407,
	"step": 1320
	},
	{
	"epoch": 2.2345002108814844,
	"grad_norm": 0.030973900207479872,
	"learning_rate": 3.498321157659248e-06,
	"loss": 0.00841064453125,
	"step": 1325
	},
	{
	"epoch": 2.2429354702657105,
	"grad_norm": 0.042522927349784224,
	"learning_rate": 3.482641647059313e-06,
	"loss": 0.010484886169433594,
	"step": 1330
	},
	{
	"epoch": 2.2513707296499366,
	"grad_norm": 0.036298357689256384,
	"learning_rate": 3.4669485903637452e-06,
	"loss": 0.010845947265625,
	"step": 1335
	},
	{
	"epoch": 2.2598059890341626,
	"grad_norm": 0.04210885166855473,
	"learning_rate": 3.4512424280228227e-06,
	"loss": 0.009656906127929688,
	"step": 1340
	},
	{
	"epoch": 2.2682412484183887,
	"grad_norm": 0.037852259539673916,
	"learning_rate": 3.435523600854652e-06,
	"loss": 0.009561920166015625,
	"step": 1345
	},
	{
	"epoch": 2.2766765078026148,
	"grad_norm": 0.03972030283651443,
	"learning_rate": 3.4197925500327973e-06,
	"loss": 0.00974578857421875,
	"step": 1350
	},
	{
	"epoch": 2.285111767186841,
	"grad_norm": 0.03864567979018308,
	"learning_rate": 3.4040497170739e-06,
	"loss": 0.009082794189453125,
	"step": 1355
	},
	{
	"epoch": 2.293547026571067,
	"grad_norm": 0.03547766099076331,
	"learning_rate": 3.3882955438252852e-06,
	"loss": 0.008104705810546875,
	"step": 1360
	},
	{
	"epoch": 2.301982285955293,
	"grad_norm": 0.042069666240123815,
	"learning_rate": 3.372530472452561e-06,
	"loss": 0.010825538635253906,
	"step": 1365
	},
	{
	"epoch": 2.310417545339519,
	"grad_norm": 0.030187240942476403,
	"learning_rate": 3.356754945427209e-06,
	"loss": 0.010921478271484375,
	"step": 1370
	},
	{
	"epoch": 2.318852804723745,
	"grad_norm": 0.03775236120881388,
	"learning_rate": 3.3409694055141636e-06,
	"loss": 0.00971527099609375,
	"step": 1375
	},
	{
	"epoch": 2.327288064107971,
	"grad_norm": 0.04517333042895106,
	"learning_rate": 3.3251742957593896e-06,
	"loss": 0.010394287109375,
	"step": 1380
	},
	{
	"epoch": 2.3357233234921972,
	"grad_norm": 0.03441694727754078,
	"learning_rate": 3.3093700594774415e-06,
	"loss": 0.008525848388671875,
	"step": 1385
	},
	{
	"epoch": 2.3441585828764233,
	"grad_norm": 0.039855958024762626,
	"learning_rate": 3.2935571402390243e-06,
	"loss": 0.01035003662109375,
	"step": 1390
	},
	{
	"epoch": 2.3525938422606494,
	"grad_norm": 0.036912654679360425,
	"learning_rate": 3.2777359818585453e-06,
	"loss": 0.01036224365234375,
	"step": 1395
	},
	{
	"epoch": 2.3610291016448754,
	"grad_norm": 0.02819486898709386,
	"learning_rate": 3.2619070283816567e-06,
	"loss": 0.008788299560546876,
	"step": 1400
	},
	{
	"epoch": 2.3610291016448754,
	"eval_loss": 0.002835027640685439,
	"eval_margin": -0.006975951657119778,
	"eval_mean_neg": 0.4969240725040436,
	"eval_mean_pos": 0.7925288081169128,
	"eval_runtime": 364.0594,
	"eval_samples_per_second": 21.944,
	"eval_steps_per_second": 0.343,
	"step": 1400
	},
	{
	"epoch": 2.3694643610291015,
	"grad_norm": 0.0347736325148637,
	"learning_rate": 3.24607072407279e-06,
	"loss": 0.00931854248046875,
	"step": 1405
	},
	{
	"epoch": 2.3778996204133276,
	"grad_norm": 0.02843547221351205,
	"learning_rate": 3.2302275134026902e-06,
	"loss": 0.008514404296875,
	"step": 1410
	},
	{
	"epoch": 2.3863348797975537,
	"grad_norm": 0.035527939183407756,
	"learning_rate": 3.2143778410359414e-06,
	"loss": 0.009189605712890625,
	"step": 1415
	},
	{
	"epoch": 2.3947701391817797,
	"grad_norm": 0.02697400462877436,
	"learning_rate": 3.1985221518184845e-06,
	"loss": 0.008056259155273438,
	"step": 1420
	},
	{
	"epoch": 2.403205398566006,
	"grad_norm": 0.02974726363919492,
	"learning_rate": 3.1826608907651327e-06,
	"loss": 0.008675384521484374,
	"step": 1425
	},
	{
	"epoch": 2.411640657950232,
	"grad_norm": 0.04279127831329293,
	"learning_rate": 3.1667945030470815e-06,
	"loss": 0.009341812133789063,
	"step": 1430
	},
	{
	"epoch": 2.420075917334458,
	"grad_norm": 0.039837807919925805,
	"learning_rate": 3.1509234339794144e-06,
	"loss": 0.010208892822265624,
	"step": 1435
	},
	{
	"epoch": 2.428511176718684,
	"grad_norm": 0.03024657864136027,
	"learning_rate": 3.1350481290086038e-06,
	"loss": 0.008173370361328125,
	"step": 1440
	},
	{
	"epoch": 2.43694643610291,
	"grad_norm": 0.03564318900525913,
	"learning_rate": 3.119169033700011e-06,
	"loss": 0.00924224853515625,
	"step": 1445
	},
	{
	"epoch": 2.445381695487136,
	"grad_norm": 0.028913985964356455,
	"learning_rate": 3.103286593725377e-06,
	"loss": 0.008563995361328125,
	"step": 1450
	},
	{
	"epoch": 2.453816954871362,
	"grad_norm": 0.035875161756803144,
	"learning_rate": 3.0874012548503173e-06,
	"loss": 0.009112548828125,
	"step": 1455
	},
	{
	"epoch": 2.4622522142555883,
	"grad_norm": 0.03817913502015442,
	"learning_rate": 3.0715134629218095e-06,
	"loss": 0.007489013671875,
	"step": 1460
	},
	{
	"epoch": 2.4706874736398143,
	"grad_norm": 0.03470677728941542,
	"learning_rate": 3.0556236638556803e-06,
	"loss": 0.012370681762695313,
	"step": 1465
	},
	{
	"epoch": 2.4791227330240404,
	"grad_norm": 0.042966141209856486,
	"learning_rate": 3.0397323036240886e-06,
	"loss": 0.0088165283203125,
	"step": 1470
	},
	{
	"epoch": 2.4875579924082665,
	"grad_norm": 0.03434953324492014,
	"learning_rate": 3.023839828243012e-06,
	"loss": 0.008261871337890626,
	"step": 1475
	},
	{
	"epoch": 2.4959932517924925,
	"grad_norm": 0.03061507966476803,
	"learning_rate": 3.007946683759723e-06,
	"loss": 0.008873748779296874,
	"step": 1480
	},
	{
	"epoch": 2.5044285111767186,
	"grad_norm": 0.027732115444419583,
	"learning_rate": 2.9920533162402776e-06,
	"loss": 0.008371734619140625,
	"step": 1485
	},
	{
	"epoch": 2.5128637705609447,
	"grad_norm": 0.029951392389848317,
	"learning_rate": 2.9761601717569896e-06,
	"loss": 0.00865478515625,
	"step": 1490
	},
	{
	"epoch": 2.5212990299451707,
	"grad_norm": 0.033652436341082566,
	"learning_rate": 2.960267696375911e-06,
	"loss": 0.009691619873046875,
	"step": 1495
	},
	{
	"epoch": 2.529734289329397,
	"grad_norm": 0.024511774862390433,
	"learning_rate": 2.9443763361443203e-06,
	"loss": 0.010028076171875,
	"step": 1500
	},
	{
	"epoch": 2.529734289329397,
	"eval_loss": 0.002559108193963766,
	"eval_margin": -0.006972289358776423,
	"eval_mean_neg": 0.4843982458114624,
	"eval_mean_pos": 0.7881345152854919,
	"eval_runtime": 365.5243,
	"eval_samples_per_second": 21.856,
	"eval_steps_per_second": 0.342,
	"step": 1500
	},
	{
	"epoch": 2.538169548713623,
	"grad_norm": 0.034627287332041165,
	"learning_rate": 2.9284865370781906e-06,
	"loss": 0.00982513427734375,
	"step": 1505
	},
	{
	"epoch": 2.546604808097849,
	"grad_norm": 0.03482839500691478,
	"learning_rate": 2.9125987451496837e-06,
	"loss": 0.00842742919921875,
	"step": 1510
	},
	{
	"epoch": 2.555040067482075,
	"grad_norm": 0.034040276652772095,
	"learning_rate": 2.8967134062746236e-06,
	"loss": 0.008990859985351563,
	"step": 1515
	},
	{
	"epoch": 2.563475326866301,
	"grad_norm": 0.03868034786852329,
	"learning_rate": 2.8808309662999897e-06,
	"loss": 0.007648468017578125,
	"step": 1520
	},
	{
	"epoch": 2.571910586250527,
	"grad_norm": 0.0419385930164125,
	"learning_rate": 2.864951870991397e-06,
	"loss": 0.009268951416015626,
	"step": 1525
	},
	{
	"epoch": 2.580345845634753,
	"grad_norm": 0.03690945718603307,
	"learning_rate": 2.8490765660205857e-06,
	"loss": 0.00864715576171875,
	"step": 1530
	},
	{
	"epoch": 2.5887811050189793,
	"grad_norm": 0.02493335874585237,
	"learning_rate": 2.833205496952919e-06,
	"loss": 0.00865478515625,
	"step": 1535
	},
	{
	"epoch": 2.5972163644032054,
	"grad_norm": 0.0355467734297459,
	"learning_rate": 2.817339109234868e-06,
	"loss": 0.009038543701171875,
	"step": 1540
	},
	{
	"epoch": 2.6056516237874314,
	"grad_norm": 0.035706551369837684,
	"learning_rate": 2.801477848181517e-06,
	"loss": 0.008769607543945313,
	"step": 1545
	},
	{
	"epoch": 2.6140868831716575,
	"grad_norm": 0.030590948482880534,
	"learning_rate": 2.7856221589640584e-06,
	"loss": 0.010419464111328125,
	"step": 1550
	},
	{
	"epoch": 2.6225221425558836,
	"grad_norm": 0.031187166990055255,
	"learning_rate": 2.7697724865973103e-06,
	"loss": 0.008966064453125,
	"step": 1555
	},
	{
	"epoch": 2.6309574019401096,
	"grad_norm": 0.03195446103788609,
	"learning_rate": 2.753929275927211e-06,
	"loss": 0.00810089111328125,
	"step": 1560
	},
	{
	"epoch": 2.6393926613243357,
	"grad_norm": 0.03124766219549955,
	"learning_rate": 2.7380929716183448e-06,
	"loss": 0.00867919921875,
	"step": 1565
	},
	{
	"epoch": 2.6478279207085618,
	"grad_norm": 0.04158743972175772,
	"learning_rate": 2.722264018141455e-06,
	"loss": 0.008811187744140626,
	"step": 1570
	},
	{
	"epoch": 2.656263180092788,
	"grad_norm": 0.042358151513616535,
	"learning_rate": 2.706442859760976e-06,
	"loss": 0.008480644226074219,
	"step": 1575
	},
	{
	"epoch": 2.664698439477014,
	"grad_norm": 0.02876853915749735,
	"learning_rate": 2.6906299405225595e-06,
	"loss": 0.009603309631347656,
	"step": 1580
	},
	{
	"epoch": 2.67313369886124,
	"grad_norm": 0.031452133973887623,
	"learning_rate": 2.6748257042406114e-06,
	"loss": 0.008524322509765625,
	"step": 1585
	},
	{
	"epoch": 2.681568958245466,
	"grad_norm": 0.03502577600676223,
	"learning_rate": 2.659030594485836e-06,
	"loss": 0.007845306396484375,
	"step": 1590
	},
	{
	"epoch": 2.690004217629692,
	"grad_norm": 0.029358280910616305,
	"learning_rate": 2.6432450545727913e-06,
	"loss": 0.008304595947265625,
	"step": 1595
	},
	{
	"epoch": 2.698439477013918,
	"grad_norm": 0.037226468621806945,
	"learning_rate": 2.62746952754744e-06,
	"loss": 0.0089141845703125,
	"step": 1600
	},
	{
	"epoch": 2.698439477013918,
	"eval_loss": 0.002468662802129984,
	"eval_margin": -0.006652700444383006,
	"eval_mean_neg": 0.5055871605873108,
	"eval_mean_pos": 0.8004181981086731,
	"eval_runtime": 363.3432,
	"eval_samples_per_second": 21.987,
	"eval_steps_per_second": 0.344,
	"step": 1600
	},
	{
	"epoch": 2.7068747363981442,
	"grad_norm": 0.029979441347867175,
	"learning_rate": 2.6117044561747145e-06,
	"loss": 0.007899856567382813,
	"step": 1605
	},
	{
	"epoch": 2.7153099957823703,
	"grad_norm": 0.04117264280378634,
	"learning_rate": 2.5959502829261e-06,
	"loss": 0.009801483154296875,
	"step": 1610
	},
	{
	"epoch": 2.7237452551665964,
	"grad_norm": 0.02874139529420723,
	"learning_rate": 2.5802074499672033e-06,
	"loss": 0.007126617431640625,
	"step": 1615
	},
	{
	"epoch": 2.7321805145508224,
	"grad_norm": 0.032009387593884574,
	"learning_rate": 2.564476399145349e-06,
	"loss": 0.007319259643554688,
	"step": 1620
	},
	{
	"epoch": 2.7406157739350485,
	"grad_norm": 0.0343660828009257,
	"learning_rate": 2.5487575719771774e-06,
	"loss": 0.010648345947265625,
	"step": 1625
	},
	{
	"epoch": 2.7490510333192746,
	"grad_norm": 0.033859872264591424,
	"learning_rate": 2.533051409636255e-06,
	"loss": 0.007244110107421875,
	"step": 1630
	},
	{
	"epoch": 2.7574862927035007,
	"grad_norm": 0.032973506044290384,
	"learning_rate": 2.517358352940688e-06,
	"loss": 0.008284759521484376,
	"step": 1635
	},
	{
	"epoch": 2.7659215520877267,
	"grad_norm": 0.03481146191160576,
	"learning_rate": 2.501678842340753e-06,
	"loss": 0.00882110595703125,
	"step": 1640
	},
	{
	"epoch": 2.774356811471953,
	"grad_norm": 0.03862588539253724,
	"learning_rate": 2.4860133179065323e-06,
	"loss": 0.00964202880859375,
	"step": 1645
	},
	{
	"epoch": 2.782792070856179,
	"grad_norm": 0.02979780702601001,
	"learning_rate": 2.4703622193155676e-06,
	"loss": 0.009095001220703124,
	"step": 1650
	},
	{
	"epoch": 2.791227330240405,
	"grad_norm": 0.02658002258647219,
	"learning_rate": 2.4547259858405147e-06,
	"loss": 0.008580398559570313,
	"step": 1655
	},
	{
	"epoch": 2.799662589624631,
	"grad_norm": 0.03237100489547251,
	"learning_rate": 2.439105056336816e-06,
	"loss": 0.006137275695800781,
	"step": 1660
	},
	{
	"epoch": 2.808097849008857,
	"grad_norm": 0.035925961611001624,
	"learning_rate": 2.423499869230385e-06,
	"loss": 0.006979179382324219,
	"step": 1665
	},
	{
	"epoch": 2.816533108393083,
	"grad_norm": 0.028925897672990208,
	"learning_rate": 2.4079108625053e-06,
	"loss": 0.007439422607421875,
	"step": 1670
	},
	{
	"epoch": 2.824968367777309,
	"grad_norm": 0.02643424196739614,
	"learning_rate": 2.392338473691513e-06,
	"loss": 0.007563400268554688,
	"step": 1675
	},
	{
	"epoch": 2.8334036271615353,
	"grad_norm": 0.029469931037551172,
	"learning_rate": 2.376783139852564e-06,
	"loss": 0.00782928466796875,
	"step": 1680
	},
	{
	"epoch": 2.8418388865457613,
	"grad_norm": 0.03519097117769341,
	"learning_rate": 2.3612452975733225e-06,
	"loss": 0.0081695556640625,
	"step": 1685
	},
	{
	"epoch": 2.8502741459299874,
	"grad_norm": 0.041842720836538394,
	"learning_rate": 2.3457253829477284e-06,
	"loss": 0.00938720703125,
	"step": 1690
	},
	{
	"epoch": 2.8587094053142135,
	"grad_norm": 0.02803118980318521,
	"learning_rate": 2.3302238315665544e-06,
	"loss": 0.007602310180664063,
	"step": 1695
	},
	{
	"epoch": 2.8671446646984395,
	"grad_norm": 0.06643247372472408,
	"learning_rate": 2.314741078505177e-06,
	"loss": 0.009275436401367188,
	"step": 1700
	},
	{
	"epoch": 2.8671446646984395,
	"eval_loss": 0.002381447935476899,
	"eval_margin": -0.0063614378337778395,
	"eval_mean_neg": 0.4982295334339142,
	"eval_mean_pos": 0.7957465648651123,
	"eval_runtime": 364.3957,
	"eval_samples_per_second": 21.924,
	"eval_steps_per_second": 0.343,
	"step": 1700
	},
	{
	"epoch": 2.8755799240826656,
	"grad_norm": 0.04573493937998368,
	"learning_rate": 2.299277558311373e-06,
	"loss": 0.008275604248046875,
	"step": 1705
	},
	{
	"epoch": 2.8840151834668917,
	"grad_norm": 0.030855319414577996,
	"learning_rate": 2.283833704993116e-06,
	"loss": 0.008497047424316406,
	"step": 1710
	},
	{
	"epoch": 2.8924504428511177,
	"grad_norm": 0.03287831217925721,
	"learning_rate": 2.268409952006397e-06,
	"loss": 0.006939697265625,
	"step": 1715
	},
	{
	"epoch": 2.900885702235344,
	"grad_norm": 0.03738971418410914,
	"learning_rate": 2.253006732243061e-06,
	"loss": 0.00982208251953125,
	"step": 1720
	},
	{
	"epoch": 2.90932096161957,
	"grad_norm": 0.02295281003302144,
	"learning_rate": 2.237624478018656e-06,
	"loss": 0.00743560791015625,
	"step": 1725
	},
	{
	"epoch": 2.917756221003796,
	"grad_norm": 0.03960242549923526,
	"learning_rate": 2.2222636210603002e-06,
	"loss": 0.008847427368164063,
	"step": 1730
	},
	{
	"epoch": 2.926191480388022,
	"grad_norm": 0.04741800625952587,
	"learning_rate": 2.2069245924945604e-06,
	"loss": 0.009384918212890624,
	"step": 1735
	},
	{
	"epoch": 2.934626739772248,
	"grad_norm": 0.03409532340357435,
	"learning_rate": 2.191607822835357e-06,
	"loss": 0.0076019287109375,
	"step": 1740
	},
	{
	"epoch": 2.943061999156474,
	"grad_norm": 0.0239211291682541,
	"learning_rate": 2.1763137419718826e-06,
	"loss": 0.007954025268554687,
	"step": 1745
	},
	{
	"epoch": 2.9514972585407,
	"grad_norm": 0.0255275562880085,
	"learning_rate": 2.161042779156529e-06,
	"loss": 0.007129669189453125,
	"step": 1750
	},
	{
	"epoch": 2.9599325179249263,
	"grad_norm": 0.026100931475016395,
	"learning_rate": 2.1457953629928426e-06,
	"loss": 0.007111358642578125,
	"step": 1755
	},
	{
	"epoch": 2.9683677773091524,
	"grad_norm": 0.03040565516608014,
	"learning_rate": 2.1305719214235017e-06,
	"loss": 0.00856170654296875,
	"step": 1760
	},
	{
	"epoch": 2.9768030366933784,
	"grad_norm": 0.031725391054917944,
	"learning_rate": 2.115372881718295e-06,
	"loss": 0.00930938720703125,
	"step": 1765
	},
	{
	"epoch": 2.9852382960776045,
	"grad_norm": 0.025864373534585865,
	"learning_rate": 2.100198670462137e-06,
	"loss": 0.007320022583007813,
	"step": 1770
	},
	{
	"epoch": 2.9936735554618306,
	"grad_norm": 0.013680490985647303,
	"learning_rate": 2.0850497135430897e-06,
	"loss": 0.007777786254882813,
	"step": 1775
	},
	{
	"epoch": 3.001687051876845,
	"grad_norm": 0.03143671946142631,
	"learning_rate": 2.0699264361404174e-06,
	"loss": 0.008609771728515625,
	"step": 1780
	},
	{
	"epoch": 3.010122311261071,
	"grad_norm": 0.021237532660395856,
	"learning_rate": 2.054829262712645e-06,
	"loss": 0.007422637939453125,
	"step": 1785
	},
	{
	"epoch": 3.018557570645297,
	"grad_norm": 0.02970629169587053,
	"learning_rate": 2.0397586169856488e-06,
	"loss": 0.008047866821289062,
	"step": 1790
	},
	{
	"epoch": 3.0269928300295232,
	"grad_norm": 0.0280079357370666,
	"learning_rate": 2.024714921940763e-06,
	"loss": 0.008725738525390625,
	"step": 1795
	},
	{
	"epoch": 3.0354280894137493,
	"grad_norm": 0.05178206206651836,
	"learning_rate": 2.0096985998029124e-06,
	"loss": 0.007384490966796875,
	"step": 1800
	},
	{
	"epoch": 3.0354280894137493,
	"eval_loss": 0.0022954940795898438,
	"eval_margin": -0.005535545939159009,
	"eval_mean_neg": 0.49804064631462097,
	"eval_mean_pos": 0.7978142499923706,
	"eval_runtime": 362.5441,
	"eval_samples_per_second": 22.036,
	"eval_steps_per_second": 0.345,
	"step": 1800
	}
	],
	"logging_steps": 5,
	"max_steps": 2965,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2008625567629312.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}