Training in progress, step 15000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7faa7408a314eb81f420ce1f2568d726ce6012f44614f1f2a60a7364bd5ef3f
 size 613004648

 version https://git-lfs.github.com/spec/v1
+oid sha256:b233efdfedfad8f103bdeed119d35dcd099eba59c85ffbbf10546b2a64d3674e
 size 613004648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed1cf1b200aa0d0cd19c9252edcac54428c1ac0420162221afb866eff0c7bd48
 size 1226096954

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6cd415bf9e90b88d0f924f465a8f839a232fb228bedc13d8305dea0013598c0
 size 1226096954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96df60f7a61e3b5eb854abf0dcce2641f189b2c45835fcf9c1fef3b37282da2b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:35a846db1f952a5c57e0f96eff0e1f51f9bc69325d1c9533532221ee67d3d2cc
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdb91814ca594bcc53b1d6ad5131ca9e1395fe1b33192ef261102fa12fca871c
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ae2d4f55a59e8b5160b468e406d78254547d58c1b3eaf0e1797452533ce3e19
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.560449859418932,
   "eval_steps": 250,
-  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10703,6 +10703,770 @@
       "eval_spearman_manhattan": 0.757795808702236,
       "eval_steps_per_second": 37.345,
       "step": 14000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.029053420805998,
   "eval_steps": 250,
+  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.757795808702236,
       "eval_steps_per_second": 37.345,
       "step": 14000
+    },
+    {
+      "epoch": 6.565135895032802,
+      "grad_norm": 1.1771986484527588,
+      "learning_rate": 9.1793580131209e-06,
+      "loss": 0.0723,
+      "step": 14010
+    },
+    {
+      "epoch": 6.569821930646673,
+      "grad_norm": 3.105875253677368,
+      "learning_rate": 9.178772258669167e-06,
+      "loss": 0.0831,
+      "step": 14020
+    },
+    {
+      "epoch": 6.574507966260543,
+      "grad_norm": 2.368614673614502,
+      "learning_rate": 9.178186504217432e-06,
+      "loss": 0.0896,
+      "step": 14030
+    },
+    {
+      "epoch": 6.579194001874415,
+      "grad_norm": 1.0225666761398315,
+      "learning_rate": 9.1776007497657e-06,
+      "loss": 0.0773,
+      "step": 14040
+    },
+    {
+      "epoch": 6.583880037488285,
+      "grad_norm": 1.7535622119903564,
+      "learning_rate": 9.177014995313966e-06,
+      "loss": 0.0966,
+      "step": 14050
+    },
+    {
+      "epoch": 6.588566073102156,
+      "grad_norm": 1.9074852466583252,
+      "learning_rate": 9.176429240862231e-06,
+      "loss": 0.099,
+      "step": 14060
+    },
+    {
+      "epoch": 6.593252108716026,
+      "grad_norm": 1.9208943843841553,
+      "learning_rate": 9.175843486410497e-06,
+      "loss": 0.0829,
+      "step": 14070
+    },
+    {
+      "epoch": 6.597938144329897,
+      "grad_norm": 1.6164686679840088,
+      "learning_rate": 9.175257731958764e-06,
+      "loss": 0.0791,
+      "step": 14080
+    },
+    {
+      "epoch": 6.602624179943768,
+      "grad_norm": 2.0227229595184326,
+      "learning_rate": 9.17467197750703e-06,
+      "loss": 0.087,
+      "step": 14090
+    },
+    {
+      "epoch": 6.607310215557638,
+      "grad_norm": 2.0741658210754395,
+      "learning_rate": 9.174086223055296e-06,
+      "loss": 0.0832,
+      "step": 14100
+    },
+    {
+      "epoch": 6.611996251171509,
+      "grad_norm": 2.0126988887786865,
+      "learning_rate": 9.173500468603563e-06,
+      "loss": 0.0959,
+      "step": 14110
+    },
+    {
+      "epoch": 6.616682286785379,
+      "grad_norm": 2.8039979934692383,
+      "learning_rate": 9.172914714151828e-06,
+      "loss": 0.0876,
+      "step": 14120
+    },
+    {
+      "epoch": 6.62136832239925,
+      "grad_norm": 2.453516721725464,
+      "learning_rate": 9.172328959700095e-06,
+      "loss": 0.0946,
+      "step": 14130
+    },
+    {
+      "epoch": 6.626054358013121,
+      "grad_norm": 1.891790509223938,
+      "learning_rate": 9.17174320524836e-06,
+      "loss": 0.0995,
+      "step": 14140
+    },
+    {
+      "epoch": 6.630740393626992,
+      "grad_norm": 2.185473680496216,
+      "learning_rate": 9.171157450796627e-06,
+      "loss": 0.0766,
+      "step": 14150
+    },
+    {
+      "epoch": 6.635426429240862,
+      "grad_norm": 1.8330421447753906,
+      "learning_rate": 9.170571696344894e-06,
+      "loss": 0.0944,
+      "step": 14160
+    },
+    {
+      "epoch": 6.640112464854733,
+      "grad_norm": 1.9126405715942383,
+      "learning_rate": 9.169985941893159e-06,
+      "loss": 0.0903,
+      "step": 14170
+    },
+    {
+      "epoch": 6.644798500468603,
+      "grad_norm": 2.1286425590515137,
+      "learning_rate": 9.169400187441426e-06,
+      "loss": 0.0909,
+      "step": 14180
+    },
+    {
+      "epoch": 6.649484536082475,
+      "grad_norm": 2.539160966873169,
+      "learning_rate": 9.168814432989691e-06,
+      "loss": 0.0842,
+      "step": 14190
+    },
+    {
+      "epoch": 6.654170571696345,
+      "grad_norm": 2.383507490158081,
+      "learning_rate": 9.168228678537958e-06,
+      "loss": 0.0884,
+      "step": 14200
+    },
+    {
+      "epoch": 6.658856607310216,
+      "grad_norm": 1.336970567703247,
+      "learning_rate": 9.167642924086225e-06,
+      "loss": 0.0832,
+      "step": 14210
+    },
+    {
+      "epoch": 6.663542642924086,
+      "grad_norm": 1.9437108039855957,
+      "learning_rate": 9.16705716963449e-06,
+      "loss": 0.0939,
+      "step": 14220
+    },
+    {
+      "epoch": 6.6682286785379565,
+      "grad_norm": 1.757957100868225,
+      "learning_rate": 9.166471415182755e-06,
+      "loss": 0.0789,
+      "step": 14230
+    },
+    {
+      "epoch": 6.672914714151828,
+      "grad_norm": 1.8997693061828613,
+      "learning_rate": 9.165885660731022e-06,
+      "loss": 0.0871,
+      "step": 14240
+    },
+    {
+      "epoch": 6.677600749765698,
+      "grad_norm": 2.3691928386688232,
+      "learning_rate": 9.165299906279288e-06,
+      "loss": 0.0919,
+      "step": 14250
+    },
+    {
+      "epoch": 6.677600749765698,
+      "eval_loss": 0.04086451604962349,
+      "eval_pearson_cosine": 0.7820280058953486,
+      "eval_pearson_dot": 0.6341032311060246,
+      "eval_pearson_euclidean": 0.7402547311501273,
+      "eval_pearson_manhattan": 0.7402377003069951,
+      "eval_runtime": 39.165,
+      "eval_samples_per_second": 38.3,
+      "eval_spearman_cosine": 0.7858084087028067,
+      "eval_spearman_dot": 0.6459085165502623,
+      "eval_spearman_euclidean": 0.7544028045089441,
+      "eval_spearman_manhattan": 0.7545435768510885,
+      "eval_steps_per_second": 38.3,
+      "step": 14250
+    },
+    {
+      "epoch": 6.682286785379569,
+      "grad_norm": 1.7762689590454102,
+      "learning_rate": 9.164714151827554e-06,
+      "loss": 0.0917,
+      "step": 14260
+    },
+    {
+      "epoch": 6.686972820993439,
+      "grad_norm": 2.296797037124634,
+      "learning_rate": 9.164128397375821e-06,
+      "loss": 0.0843,
+      "step": 14270
+    },
+    {
+      "epoch": 6.69165885660731,
+      "grad_norm": 2.3844399452209473,
+      "learning_rate": 9.163542642924087e-06,
+      "loss": 0.0987,
+      "step": 14280
+    },
+    {
+      "epoch": 6.696344892221181,
+      "grad_norm": 1.65080988407135,
+      "learning_rate": 9.162956888472354e-06,
+      "loss": 0.0644,
+      "step": 14290
+    },
+    {
+      "epoch": 6.701030927835052,
+      "grad_norm": 2.429184913635254,
+      "learning_rate": 9.162371134020619e-06,
+      "loss": 0.0913,
+      "step": 14300
+    },
+    {
+      "epoch": 6.705716963448922,
+      "grad_norm": 2.7205028533935547,
+      "learning_rate": 9.161785379568886e-06,
+      "loss": 0.0955,
+      "step": 14310
+    },
+    {
+      "epoch": 6.710402999062793,
+      "grad_norm": 1.9049710035324097,
+      "learning_rate": 9.161199625117153e-06,
+      "loss": 0.0943,
+      "step": 14320
+    },
+    {
+      "epoch": 6.715089034676663,
+      "grad_norm": 1.4774081707000732,
+      "learning_rate": 9.160613870665418e-06,
+      "loss": 0.0909,
+      "step": 14330
+    },
+    {
+      "epoch": 6.719775070290535,
+      "grad_norm": 2.102787971496582,
+      "learning_rate": 9.160028116213685e-06,
+      "loss": 0.0757,
+      "step": 14340
+    },
+    {
+      "epoch": 6.724461105904405,
+      "grad_norm": 1.7760144472122192,
+      "learning_rate": 9.15944236176195e-06,
+      "loss": 0.0949,
+      "step": 14350
+    },
+    {
+      "epoch": 6.7291471415182755,
+      "grad_norm": 2.6216742992401123,
+      "learning_rate": 9.158856607310215e-06,
+      "loss": 0.0997,
+      "step": 14360
+    },
+    {
+      "epoch": 6.733833177132146,
+      "grad_norm": 1.8759592771530151,
+      "learning_rate": 9.158270852858484e-06,
+      "loss": 0.0898,
+      "step": 14370
+    },
+    {
+      "epoch": 6.7385192127460165,
+      "grad_norm": 1.7543883323669434,
+      "learning_rate": 9.157685098406749e-06,
+      "loss": 0.0913,
+      "step": 14380
+    },
+    {
+      "epoch": 6.743205248359888,
+      "grad_norm": 2.2106900215148926,
+      "learning_rate": 9.157099343955014e-06,
+      "loss": 0.0996,
+      "step": 14390
+    },
+    {
+      "epoch": 6.747891283973758,
+      "grad_norm": 2.408613443374634,
+      "learning_rate": 9.156513589503281e-06,
+      "loss": 0.0988,
+      "step": 14400
+    },
+    {
+      "epoch": 6.752577319587629,
+      "grad_norm": 3.430854082107544,
+      "learning_rate": 9.155927835051546e-06,
+      "loss": 0.0998,
+      "step": 14410
+    },
+    {
+      "epoch": 6.757263355201499,
+      "grad_norm": 2.024101495742798,
+      "learning_rate": 9.155342080599813e-06,
+      "loss": 0.0784,
+      "step": 14420
+    },
+    {
+      "epoch": 6.76194939081537,
+      "grad_norm": 1.9962611198425293,
+      "learning_rate": 9.15475632614808e-06,
+      "loss": 0.0778,
+      "step": 14430
+    },
+    {
+      "epoch": 6.766635426429241,
+      "grad_norm": 2.7750437259674072,
+      "learning_rate": 9.154170571696345e-06,
+      "loss": 0.0787,
+      "step": 14440
+    },
+    {
+      "epoch": 6.771321462043112,
+      "grad_norm": 2.2293503284454346,
+      "learning_rate": 9.153584817244612e-06,
+      "loss": 0.0866,
+      "step": 14450
+    },
+    {
+      "epoch": 6.776007497656982,
+      "grad_norm": 2.104199171066284,
+      "learning_rate": 9.152999062792878e-06,
+      "loss": 0.0886,
+      "step": 14460
+    },
+    {
+      "epoch": 6.780693533270853,
+      "grad_norm": 2.1825919151306152,
+      "learning_rate": 9.152413308341144e-06,
+      "loss": 0.0881,
+      "step": 14470
+    },
+    {
+      "epoch": 6.785379568884723,
+      "grad_norm": 2.0743556022644043,
+      "learning_rate": 9.151827553889411e-06,
+      "loss": 0.0816,
+      "step": 14480
+    },
+    {
+      "epoch": 6.7900656044985945,
+      "grad_norm": 1.4492499828338623,
+      "learning_rate": 9.151241799437677e-06,
+      "loss": 0.0798,
+      "step": 14490
+    },
+    {
+      "epoch": 6.794751640112465,
+      "grad_norm": 2.3385043144226074,
+      "learning_rate": 9.150656044985944e-06,
+      "loss": 0.0784,
+      "step": 14500
+    },
+    {
+      "epoch": 6.794751640112465,
+      "eval_loss": 0.040780164301395416,
+      "eval_pearson_cosine": 0.7793833022968641,
+      "eval_pearson_dot": 0.6305632848645555,
+      "eval_pearson_euclidean": 0.7311736352551961,
+      "eval_pearson_manhattan": 0.7308022032341484,
+      "eval_runtime": 40.6522,
+      "eval_samples_per_second": 36.898,
+      "eval_spearman_cosine": 0.7838836973690695,
+      "eval_spearman_dot": 0.6427126264330253,
+      "eval_spearman_euclidean": 0.7493899504087712,
+      "eval_spearman_manhattan": 0.7495131408878735,
+      "eval_steps_per_second": 36.898,
+      "step": 14500
+    },
+    {
+      "epoch": 6.7994376757263355,
+      "grad_norm": 2.441380023956299,
+      "learning_rate": 9.150070290534209e-06,
+      "loss": 0.0866,
+      "step": 14510
+    },
+    {
+      "epoch": 6.804123711340206,
+      "grad_norm": 2.3444080352783203,
+      "learning_rate": 9.149484536082474e-06,
+      "loss": 0.1104,
+      "step": 14520
+    },
+    {
+      "epoch": 6.8088097469540765,
+      "grad_norm": 2.7428460121154785,
+      "learning_rate": 9.148898781630741e-06,
+      "loss": 0.1116,
+      "step": 14530
+    },
+    {
+      "epoch": 6.813495782567948,
+      "grad_norm": 2.756432294845581,
+      "learning_rate": 9.148313027179008e-06,
+      "loss": 0.0942,
+      "step": 14540
+    },
+    {
+      "epoch": 6.818181818181818,
+      "grad_norm": 2.891023635864258,
+      "learning_rate": 9.147727272727273e-06,
+      "loss": 0.1101,
+      "step": 14550
+    },
+    {
+      "epoch": 6.822867853795689,
+      "grad_norm": 2.115098476409912,
+      "learning_rate": 9.14714151827554e-06,
+      "loss": 0.0896,
+      "step": 14560
+    },
+    {
+      "epoch": 6.827553889409559,
+      "grad_norm": 1.161385178565979,
+      "learning_rate": 9.146555763823805e-06,
+      "loss": 0.0881,
+      "step": 14570
+    },
+    {
+      "epoch": 6.83223992502343,
+      "grad_norm": 2.266988754272461,
+      "learning_rate": 9.145970009372072e-06,
+      "loss": 0.0904,
+      "step": 14580
+    },
+    {
+      "epoch": 6.836925960637301,
+      "grad_norm": 2.111978769302368,
+      "learning_rate": 9.145384254920339e-06,
+      "loss": 0.0864,
+      "step": 14590
+    },
+    {
+      "epoch": 6.841611996251172,
+      "grad_norm": 2.025771141052246,
+      "learning_rate": 9.144798500468604e-06,
+      "loss": 0.0947,
+      "step": 14600
+    },
+    {
+      "epoch": 6.846298031865042,
+      "grad_norm": 1.6989368200302124,
+      "learning_rate": 9.144212746016871e-06,
+      "loss": 0.0906,
+      "step": 14610
+    },
+    {
+      "epoch": 6.850984067478913,
+      "grad_norm": 2.4871666431427,
+      "learning_rate": 9.143626991565136e-06,
+      "loss": 0.0969,
+      "step": 14620
+    },
+    {
+      "epoch": 6.855670103092783,
+      "grad_norm": 2.155759572982788,
+      "learning_rate": 9.143041237113403e-06,
+      "loss": 0.0978,
+      "step": 14630
+    },
+    {
+      "epoch": 6.8603561387066545,
+      "grad_norm": 3.0879483222961426,
+      "learning_rate": 9.142455482661668e-06,
+      "loss": 0.0928,
+      "step": 14640
+    },
+    {
+      "epoch": 6.865042174320525,
+      "grad_norm": 1.6940726041793823,
+      "learning_rate": 9.141869728209935e-06,
+      "loss": 0.0879,
+      "step": 14650
+    },
+    {
+      "epoch": 6.8697282099343955,
+      "grad_norm": 2.233914613723755,
+      "learning_rate": 9.141283973758202e-06,
+      "loss": 0.0894,
+      "step": 14660
+    },
+    {
+      "epoch": 6.874414245548266,
+      "grad_norm": 2.0306718349456787,
+      "learning_rate": 9.140698219306468e-06,
+      "loss": 0.0844,
+      "step": 14670
+    },
+    {
+      "epoch": 6.8791002811621365,
+      "grad_norm": 1.8942639827728271,
+      "learning_rate": 9.140112464854733e-06,
+      "loss": 0.0817,
+      "step": 14680
+    },
+    {
+      "epoch": 6.883786316776008,
+      "grad_norm": 2.03265643119812,
+      "learning_rate": 9.139526710403e-06,
+      "loss": 0.0852,
+      "step": 14690
+    },
+    {
+      "epoch": 6.888472352389878,
+      "grad_norm": 1.7808202505111694,
+      "learning_rate": 9.138940955951267e-06,
+      "loss": 0.0896,
+      "step": 14700
+    },
+    {
+      "epoch": 6.893158388003749,
+      "grad_norm": 2.668078660964966,
+      "learning_rate": 9.138355201499532e-06,
+      "loss": 0.0973,
+      "step": 14710
+    },
+    {
+      "epoch": 6.897844423617619,
+      "grad_norm": 1.402289867401123,
+      "learning_rate": 9.137769447047799e-06,
+      "loss": 0.1026,
+      "step": 14720
+    },
+    {
+      "epoch": 6.90253045923149,
+      "grad_norm": 2.591413974761963,
+      "learning_rate": 9.137183692596064e-06,
+      "loss": 0.1042,
+      "step": 14730
+    },
+    {
+      "epoch": 6.907216494845361,
+      "grad_norm": 2.172842264175415,
+      "learning_rate": 9.136597938144331e-06,
+      "loss": 0.0896,
+      "step": 14740
+    },
+    {
+      "epoch": 6.911902530459232,
+      "grad_norm": 2.8410751819610596,
+      "learning_rate": 9.136012183692596e-06,
+      "loss": 0.0821,
+      "step": 14750
+    },
+    {
+      "epoch": 6.911902530459232,
+      "eval_loss": 0.04055028408765793,
+      "eval_pearson_cosine": 0.7788665525758081,
+      "eval_pearson_dot": 0.6376645263249117,
+      "eval_pearson_euclidean": 0.727043862062235,
+      "eval_pearson_manhattan": 0.7265471618369332,
+      "eval_runtime": 40.6024,
+      "eval_samples_per_second": 36.944,
+      "eval_spearman_cosine": 0.7822270840908377,
+      "eval_spearman_dot": 0.6567383479059669,
+      "eval_spearman_euclidean": 0.744619349149987,
+      "eval_spearman_manhattan": 0.7446135946974944,
+      "eval_steps_per_second": 36.944,
+      "step": 14750
+    },
+    {
+      "epoch": 6.916588566073102,
+      "grad_norm": 2.586047649383545,
+      "learning_rate": 9.135426429240863e-06,
+      "loss": 0.0965,
+      "step": 14760
+    },
+    {
+      "epoch": 6.921274601686973,
+      "grad_norm": 1.9667673110961914,
+      "learning_rate": 9.13484067478913e-06,
+      "loss": 0.0913,
+      "step": 14770
+    },
+    {
+      "epoch": 6.925960637300843,
+      "grad_norm": 2.6598875522613525,
+      "learning_rate": 9.134254920337395e-06,
+      "loss": 0.0863,
+      "step": 14780
+    },
+    {
+      "epoch": 6.9306466729147145,
+      "grad_norm": 1.5291812419891357,
+      "learning_rate": 9.133669165885662e-06,
+      "loss": 0.0699,
+      "step": 14790
+    },
+    {
+      "epoch": 6.935332708528585,
+      "grad_norm": 1.8771485090255737,
+      "learning_rate": 9.133083411433927e-06,
+      "loss": 0.0836,
+      "step": 14800
+    },
+    {
+      "epoch": 6.9400187441424555,
+      "grad_norm": 1.7967191934585571,
+      "learning_rate": 9.132497656982192e-06,
+      "loss": 0.0833,
+      "step": 14810
+    },
+    {
+      "epoch": 6.944704779756326,
+      "grad_norm": 1.3904474973678589,
+      "learning_rate": 9.131911902530461e-06,
+      "loss": 0.1147,
+      "step": 14820
+    },
+    {
+      "epoch": 6.949390815370196,
+      "grad_norm": 2.315178871154785,
+      "learning_rate": 9.131326148078726e-06,
+      "loss": 0.1054,
+      "step": 14830
+    },
+    {
+      "epoch": 6.954076850984068,
+      "grad_norm": 2.0457489490509033,
+      "learning_rate": 9.130740393626992e-06,
+      "loss": 0.0833,
+      "step": 14840
+    },
+    {
+      "epoch": 6.958762886597938,
+      "grad_norm": 1.5070949792861938,
+      "learning_rate": 9.130154639175258e-06,
+      "loss": 0.0737,
+      "step": 14850
+    },
+    {
+      "epoch": 6.963448922211809,
+      "grad_norm": 2.301478862762451,
+      "learning_rate": 9.129568884723524e-06,
+      "loss": 0.0779,
+      "step": 14860
+    },
+    {
+      "epoch": 6.968134957825679,
+      "grad_norm": 1.9525973796844482,
+      "learning_rate": 9.12898313027179e-06,
+      "loss": 0.0829,
+      "step": 14870
+    },
+    {
+      "epoch": 6.97282099343955,
+      "grad_norm": 2.3320276737213135,
+      "learning_rate": 9.128397375820058e-06,
+      "loss": 0.09,
+      "step": 14880
+    },
+    {
+      "epoch": 6.977507029053421,
+      "grad_norm": 2.358041286468506,
+      "learning_rate": 9.127811621368323e-06,
+      "loss": 0.0848,
+      "step": 14890
+    },
+    {
+      "epoch": 6.982193064667292,
+      "grad_norm": 2.0248255729675293,
+      "learning_rate": 9.12722586691659e-06,
+      "loss": 0.1023,
+      "step": 14900
+    },
+    {
+      "epoch": 6.986879100281162,
+      "grad_norm": 2.4078421592712402,
+      "learning_rate": 9.126640112464855e-06,
+      "loss": 0.0886,
+      "step": 14910
+    },
+    {
+      "epoch": 6.991565135895033,
+      "grad_norm": 2.0203652381896973,
+      "learning_rate": 9.126054358013122e-06,
+      "loss": 0.0989,
+      "step": 14920
+    },
+    {
+      "epoch": 6.996251171508904,
+      "grad_norm": 2.0305638313293457,
+      "learning_rate": 9.125468603561389e-06,
+      "loss": 0.0854,
+      "step": 14930
+    },
+    {
+      "epoch": 7.0009372071227745,
+      "grad_norm": 2.3170547485351562,
+      "learning_rate": 9.124882849109654e-06,
+      "loss": 0.0888,
+      "step": 14940
+    },
+    {
+      "epoch": 7.005623242736645,
+      "grad_norm": 1.3576775789260864,
+      "learning_rate": 9.124297094657921e-06,
+      "loss": 0.0756,
+      "step": 14950
+    },
+    {
+      "epoch": 7.010309278350515,
+      "grad_norm": 2.177962303161621,
+      "learning_rate": 9.123711340206186e-06,
+      "loss": 0.0679,
+      "step": 14960
+    },
+    {
+      "epoch": 7.014995313964386,
+      "grad_norm": 1.6852316856384277,
+      "learning_rate": 9.123125585754451e-06,
+      "loss": 0.0635,
+      "step": 14970
+    },
+    {
+      "epoch": 7.019681349578256,
+      "grad_norm": 2.245973825454712,
+      "learning_rate": 9.12253983130272e-06,
+      "loss": 0.081,
+      "step": 14980
+    },
+    {
+      "epoch": 7.024367385192128,
+      "grad_norm": 1.2212837934494019,
+      "learning_rate": 9.121954076850985e-06,
+      "loss": 0.0684,
+      "step": 14990
+    },
+    {
+      "epoch": 7.029053420805998,
+      "grad_norm": 2.061438798904419,
+      "learning_rate": 9.12136832239925e-06,
+      "loss": 0.0792,
+      "step": 15000
+    },
+    {
+      "epoch": 7.029053420805998,
+      "eval_loss": 0.04008892923593521,
+      "eval_pearson_cosine": 0.7799962553837254,
+      "eval_pearson_dot": 0.6338093099514381,
+      "eval_pearson_euclidean": 0.740542330523235,
+      "eval_pearson_manhattan": 0.7397823209884535,
+      "eval_runtime": 39.3867,
+      "eval_samples_per_second": 38.084,
+      "eval_spearman_cosine": 0.7833374621050089,
+      "eval_spearman_dot": 0.646744349870265,
+      "eval_spearman_euclidean": 0.7572153670081455,
+      "eval_spearman_manhattan": 0.7568637419859118,
+      "eval_steps_per_second": 38.084,
+      "step": 15000
     }
   ],
   "logging_steps": 10,