Training in progress, step 18000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:723de6fd746cbba66015f7a7da153864465a825d5f4e24435edd8645a25ac837
 size 613004648

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ca95a7948bce19be5449f8781c37f0268eecbc454dcb50de5ef8e89c3d9a4e6
 size 613004648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dafb37725ed184eeb99653a88821c53652c298a048e783bcf251a3b487c248c8
 size 1226096954

 version https://git-lfs.github.com/spec/v1
+oid sha256:667a4ed3665b904cc6a25c6508c89fb468bc4b1b80e08cd26eb7f6e936a1d8ff
 size 1226096954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c551e87aa3f069465eab6343f6462d0da8c27e46770ad44ff0400698bec95cda
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b67589c462b9c803b3450b2a56b26bd15fd2aad689878137f6e7e3b31569b4d3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64e32232d2d68b6508947dd18795fe7ac8dd583abb7b016b68d853036e32fd4b
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e87f5dbc951603cbe6f4d5f5d51c8e0ef8863d7cd661e58ac58827859c30521
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.966260543580131,
   "eval_steps": 250,
-  "global_step": 17000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12995,6 +12995,770 @@
       "eval_spearman_manhattan": 0.745468210963869,
       "eval_steps_per_second": 37.654,
       "step": 17000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.434864104967197,
   "eval_steps": 250,
+  "global_step": 18000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.745468210963869,
       "eval_steps_per_second": 37.654,
       "step": 17000
+    },
+    {
+      "epoch": 7.970946579194002,
+      "grad_norm": 1.712897539138794,
+      "learning_rate": 9.00363167760075e-06,
+      "loss": 0.0638,
+      "step": 17010
+    },
+    {
+      "epoch": 7.975632614807872,
+      "grad_norm": 1.6661624908447266,
+      "learning_rate": 9.003045923149017e-06,
+      "loss": 0.0721,
+      "step": 17020
+    },
+    {
+      "epoch": 7.980318650421744,
+      "grad_norm": 1.8900232315063477,
+      "learning_rate": 9.002460168697282e-06,
+      "loss": 0.0697,
+      "step": 17030
+    },
+    {
+      "epoch": 7.985004686035614,
+      "grad_norm": 1.7580076456069946,
+      "learning_rate": 9.001874414245549e-06,
+      "loss": 0.0829,
+      "step": 17040
+    },
+    {
+      "epoch": 7.989690721649485,
+      "grad_norm": 1.0621994733810425,
+      "learning_rate": 9.001288659793816e-06,
+      "loss": 0.0654,
+      "step": 17050
+    },
+    {
+      "epoch": 7.994376757263355,
+      "grad_norm": 2.382904529571533,
+      "learning_rate": 9.000702905342081e-06,
+      "loss": 0.0832,
+      "step": 17060
+    },
+    {
+      "epoch": 7.9990627928772255,
+      "grad_norm": 2.5280025005340576,
+      "learning_rate": 9.000117150890348e-06,
+      "loss": 0.0671,
+      "step": 17070
+    },
+    {
+      "epoch": 8.003748828491096,
+      "grad_norm": 1.5230673551559448,
+      "learning_rate": 8.999531396438613e-06,
+      "loss": 0.0705,
+      "step": 17080
+    },
+    {
+      "epoch": 8.008434864104967,
+      "grad_norm": 1.430708646774292,
+      "learning_rate": 8.99894564198688e-06,
+      "loss": 0.0469,
+      "step": 17090
+    },
+    {
+      "epoch": 8.013120899718837,
+      "grad_norm": 1.6292754411697388,
+      "learning_rate": 8.998359887535147e-06,
+      "loss": 0.0511,
+      "step": 17100
+    },
+    {
+      "epoch": 8.01780693533271,
+      "grad_norm": 1.5162855386734009,
+      "learning_rate": 8.997774133083412e-06,
+      "loss": 0.0562,
+      "step": 17110
+    },
+    {
+      "epoch": 8.02249297094658,
+      "grad_norm": 1.8024640083312988,
+      "learning_rate": 8.997188378631679e-06,
+      "loss": 0.0591,
+      "step": 17120
+    },
+    {
+      "epoch": 8.02717900656045,
+      "grad_norm": 1.7311487197875977,
+      "learning_rate": 8.996602624179944e-06,
+      "loss": 0.0588,
+      "step": 17130
+    },
+    {
+      "epoch": 8.03186504217432,
+      "grad_norm": 0.8079742193222046,
+      "learning_rate": 8.99601686972821e-06,
+      "loss": 0.0575,
+      "step": 17140
+    },
+    {
+      "epoch": 8.036551077788191,
+      "grad_norm": 1.5149396657943726,
+      "learning_rate": 8.995431115276478e-06,
+      "loss": 0.0631,
+      "step": 17150
+    },
+    {
+      "epoch": 8.041237113402062,
+      "grad_norm": 1.4858596324920654,
+      "learning_rate": 8.994845360824743e-06,
+      "loss": 0.0531,
+      "step": 17160
+    },
+    {
+      "epoch": 8.045923149015932,
+      "grad_norm": 0.9805922508239746,
+      "learning_rate": 8.994259606373009e-06,
+      "loss": 0.0507,
+      "step": 17170
+    },
+    {
+      "epoch": 8.050609184629803,
+      "grad_norm": 1.2604528665542603,
+      "learning_rate": 8.993673851921275e-06,
+      "loss": 0.0552,
+      "step": 17180
+    },
+    {
+      "epoch": 8.055295220243673,
+      "grad_norm": 1.1252182722091675,
+      "learning_rate": 8.99308809746954e-06,
+      "loss": 0.05,
+      "step": 17190
+    },
+    {
+      "epoch": 8.059981255857544,
+      "grad_norm": 2.151175022125244,
+      "learning_rate": 8.992502343017808e-06,
+      "loss": 0.0678,
+      "step": 17200
+    },
+    {
+      "epoch": 8.064667291471416,
+      "grad_norm": 1.468262791633606,
+      "learning_rate": 8.991916588566075e-06,
+      "loss": 0.0542,
+      "step": 17210
+    },
+    {
+      "epoch": 8.069353327085286,
+      "grad_norm": 1.679754376411438,
+      "learning_rate": 8.99133083411434e-06,
+      "loss": 0.0574,
+      "step": 17220
+    },
+    {
+      "epoch": 8.074039362699157,
+      "grad_norm": 2.2520573139190674,
+      "learning_rate": 8.990745079662607e-06,
+      "loss": 0.0517,
+      "step": 17230
+    },
+    {
+      "epoch": 8.078725398313027,
+      "grad_norm": 1.5211695432662964,
+      "learning_rate": 8.990159325210872e-06,
+      "loss": 0.0527,
+      "step": 17240
+    },
+    {
+      "epoch": 8.083411433926898,
+      "grad_norm": 1.7770270109176636,
+      "learning_rate": 8.989573570759139e-06,
+      "loss": 0.0682,
+      "step": 17250
+    },
+    {
+      "epoch": 8.083411433926898,
+      "eval_loss": 0.03860222175717354,
+      "eval_pearson_cosine": 0.7845454144482034,
+      "eval_pearson_dot": 0.6431296048602846,
+      "eval_pearson_euclidean": 0.7311376660170836,
+      "eval_pearson_manhattan": 0.7305724358867849,
+      "eval_runtime": 40.1479,
+      "eval_samples_per_second": 37.362,
+      "eval_spearman_cosine": 0.7869140607349678,
+      "eval_spearman_dot": 0.6613187727914379,
+      "eval_spearman_euclidean": 0.744930207684551,
+      "eval_spearman_manhattan": 0.7446744595094797,
+      "eval_steps_per_second": 37.362,
+      "step": 17250
+    },
+    {
+      "epoch": 8.088097469540768,
+      "grad_norm": 1.6006652116775513,
+      "learning_rate": 8.988987816307406e-06,
+      "loss": 0.0604,
+      "step": 17260
+    },
+    {
+      "epoch": 8.092783505154639,
+      "grad_norm": 1.7531373500823975,
+      "learning_rate": 8.988402061855671e-06,
+      "loss": 0.063,
+      "step": 17270
+    },
+    {
+      "epoch": 8.09746954076851,
+      "grad_norm": 2.294930934906006,
+      "learning_rate": 8.987816307403938e-06,
+      "loss": 0.0568,
+      "step": 17280
+    },
+    {
+      "epoch": 8.10215557638238,
+      "grad_norm": 1.9267457723617554,
+      "learning_rate": 8.987230552952203e-06,
+      "loss": 0.0565,
+      "step": 17290
+    },
+    {
+      "epoch": 8.10684161199625,
+      "grad_norm": 2.1076624393463135,
+      "learning_rate": 8.986644798500468e-06,
+      "loss": 0.05,
+      "step": 17300
+    },
+    {
+      "epoch": 8.111527647610123,
+      "grad_norm": 2.3128514289855957,
+      "learning_rate": 8.986059044048735e-06,
+      "loss": 0.0656,
+      "step": 17310
+    },
+    {
+      "epoch": 8.116213683223993,
+      "grad_norm": 1.6104718446731567,
+      "learning_rate": 8.985473289597002e-06,
+      "loss": 0.0554,
+      "step": 17320
+    },
+    {
+      "epoch": 8.120899718837864,
+      "grad_norm": 1.1439037322998047,
+      "learning_rate": 8.984887535145267e-06,
+      "loss": 0.0588,
+      "step": 17330
+    },
+    {
+      "epoch": 8.125585754451734,
+      "grad_norm": 1.342757225036621,
+      "learning_rate": 8.984301780693534e-06,
+      "loss": 0.0539,
+      "step": 17340
+    },
+    {
+      "epoch": 8.130271790065605,
+      "grad_norm": 0.8630651235580444,
+      "learning_rate": 8.9837160262418e-06,
+      "loss": 0.0602,
+      "step": 17350
+    },
+    {
+      "epoch": 8.134957825679475,
+      "grad_norm": 2.1189727783203125,
+      "learning_rate": 8.983130271790066e-06,
+      "loss": 0.0676,
+      "step": 17360
+    },
+    {
+      "epoch": 8.139643861293345,
+      "grad_norm": 1.943943977355957,
+      "learning_rate": 8.982544517338333e-06,
+      "loss": 0.0564,
+      "step": 17370
+    },
+    {
+      "epoch": 8.144329896907216,
+      "grad_norm": 2.4925365447998047,
+      "learning_rate": 8.981958762886599e-06,
+      "loss": 0.058,
+      "step": 17380
+    },
+    {
+      "epoch": 8.149015932521086,
+      "grad_norm": 0.8549938797950745,
+      "learning_rate": 8.981373008434865e-06,
+      "loss": 0.0583,
+      "step": 17390
+    },
+    {
+      "epoch": 8.153701968134957,
+      "grad_norm": 2.259129762649536,
+      "learning_rate": 8.98078725398313e-06,
+      "loss": 0.064,
+      "step": 17400
+    },
+    {
+      "epoch": 8.15838800374883,
+      "grad_norm": 1.5482234954833984,
+      "learning_rate": 8.980201499531398e-06,
+      "loss": 0.0608,
+      "step": 17410
+    },
+    {
+      "epoch": 8.1630740393627,
+      "grad_norm": 1.5130146741867065,
+      "learning_rate": 8.979615745079663e-06,
+      "loss": 0.0487,
+      "step": 17420
+    },
+    {
+      "epoch": 8.16776007497657,
+      "grad_norm": 2.1378371715545654,
+      "learning_rate": 8.97902999062793e-06,
+      "loss": 0.0687,
+      "step": 17430
+    },
+    {
+      "epoch": 8.17244611059044,
+      "grad_norm": 1.4148082733154297,
+      "learning_rate": 8.978444236176197e-06,
+      "loss": 0.0527,
+      "step": 17440
+    },
+    {
+      "epoch": 8.177132146204311,
+      "grad_norm": 1.621864676475525,
+      "learning_rate": 8.977858481724462e-06,
+      "loss": 0.0541,
+      "step": 17450
+    },
+    {
+      "epoch": 8.181818181818182,
+      "grad_norm": 1.5040533542633057,
+      "learning_rate": 8.977272727272727e-06,
+      "loss": 0.0505,
+      "step": 17460
+    },
+    {
+      "epoch": 8.186504217432052,
+      "grad_norm": 1.7481443881988525,
+      "learning_rate": 8.976686972820994e-06,
+      "loss": 0.0658,
+      "step": 17470
+    },
+    {
+      "epoch": 8.191190253045923,
+      "grad_norm": 1.6171940565109253,
+      "learning_rate": 8.976101218369261e-06,
+      "loss": 0.0545,
+      "step": 17480
+    },
+    {
+      "epoch": 8.195876288659793,
+      "grad_norm": 3.027470350265503,
+      "learning_rate": 8.975515463917526e-06,
+      "loss": 0.0497,
+      "step": 17490
+    },
+    {
+      "epoch": 8.200562324273664,
+      "grad_norm": 1.5770045518875122,
+      "learning_rate": 8.974929709465793e-06,
+      "loss": 0.0526,
+      "step": 17500
+    },
+    {
+      "epoch": 8.200562324273664,
+      "eval_loss": 0.03888610377907753,
+      "eval_pearson_cosine": 0.7824405710209184,
+      "eval_pearson_dot": 0.6370045075889941,
+      "eval_pearson_euclidean": 0.7275292814047258,
+      "eval_pearson_manhattan": 0.7271617935348544,
+      "eval_runtime": 40.0736,
+      "eval_samples_per_second": 37.431,
+      "eval_spearman_cosine": 0.7832356097193793,
+      "eval_spearman_dot": 0.6538613957323862,
+      "eval_spearman_euclidean": 0.7430558622725291,
+      "eval_spearman_manhattan": 0.7430619174369794,
+      "eval_steps_per_second": 37.431,
+      "step": 17500
+    },
+    {
+      "epoch": 8.205248359887536,
+      "grad_norm": 2.2228381633758545,
+      "learning_rate": 8.974343955014058e-06,
+      "loss": 0.0457,
+      "step": 17510
+    },
+    {
+      "epoch": 8.209934395501406,
+      "grad_norm": 2.4519641399383545,
+      "learning_rate": 8.973758200562325e-06,
+      "loss": 0.051,
+      "step": 17520
+    },
+    {
+      "epoch": 8.214620431115277,
+      "grad_norm": 1.8084455728530884,
+      "learning_rate": 8.97317244611059e-06,
+      "loss": 0.0575,
+      "step": 17530
+    },
+    {
+      "epoch": 8.219306466729147,
+      "grad_norm": 1.3803386688232422,
+      "learning_rate": 8.972586691658857e-06,
+      "loss": 0.053,
+      "step": 17540
+    },
+    {
+      "epoch": 8.223992502343018,
+      "grad_norm": 1.3450793027877808,
+      "learning_rate": 8.972000937207124e-06,
+      "loss": 0.0556,
+      "step": 17550
+    },
+    {
+      "epoch": 8.228678537956888,
+      "grad_norm": 2.0758721828460693,
+      "learning_rate": 8.97141518275539e-06,
+      "loss": 0.0521,
+      "step": 17560
+    },
+    {
+      "epoch": 8.233364573570759,
+      "grad_norm": 1.4197956323623657,
+      "learning_rate": 8.970829428303656e-06,
+      "loss": 0.0631,
+      "step": 17570
+    },
+    {
+      "epoch": 8.23805060918463,
+      "grad_norm": 1.497050166130066,
+      "learning_rate": 8.970243673851922e-06,
+      "loss": 0.0614,
+      "step": 17580
+    },
+    {
+      "epoch": 8.2427366447985,
+      "grad_norm": 1.0769314765930176,
+      "learning_rate": 8.969657919400189e-06,
+      "loss": 0.0587,
+      "step": 17590
+    },
+    {
+      "epoch": 8.24742268041237,
+      "grad_norm": 1.9401723146438599,
+      "learning_rate": 8.969072164948455e-06,
+      "loss": 0.0584,
+      "step": 17600
+    },
+    {
+      "epoch": 8.252108716026243,
+      "grad_norm": 0.6708168387413025,
+      "learning_rate": 8.96848641049672e-06,
+      "loss": 0.058,
+      "step": 17610
+    },
+    {
+      "epoch": 8.256794751640113,
+      "grad_norm": 1.555535912513733,
+      "learning_rate": 8.967900656044986e-06,
+      "loss": 0.0623,
+      "step": 17620
+    },
+    {
+      "epoch": 8.261480787253983,
+      "grad_norm": 1.182997703552246,
+      "learning_rate": 8.967314901593253e-06,
+      "loss": 0.0521,
+      "step": 17630
+    },
+    {
+      "epoch": 8.266166822867854,
+      "grad_norm": 1.7748857736587524,
+      "learning_rate": 8.966729147141518e-06,
+      "loss": 0.0573,
+      "step": 17640
+    },
+    {
+      "epoch": 8.270852858481724,
+      "grad_norm": 1.558457851409912,
+      "learning_rate": 8.966143392689785e-06,
+      "loss": 0.0586,
+      "step": 17650
+    },
+    {
+      "epoch": 8.275538894095595,
+      "grad_norm": 2.463069438934326,
+      "learning_rate": 8.965557638238052e-06,
+      "loss": 0.0581,
+      "step": 17660
+    },
+    {
+      "epoch": 8.280224929709465,
+      "grad_norm": 1.325049877166748,
+      "learning_rate": 8.964971883786317e-06,
+      "loss": 0.0526,
+      "step": 17670
+    },
+    {
+      "epoch": 8.284910965323336,
+      "grad_norm": 1.9136682748794556,
+      "learning_rate": 8.964386129334584e-06,
+      "loss": 0.0717,
+      "step": 17680
+    },
+    {
+      "epoch": 8.289597000937206,
+      "grad_norm": 0.9149712920188904,
+      "learning_rate": 8.96380037488285e-06,
+      "loss": 0.0551,
+      "step": 17690
+    },
+    {
+      "epoch": 8.294283036551079,
+      "grad_norm": 1.0004934072494507,
+      "learning_rate": 8.963214620431116e-06,
+      "loss": 0.0552,
+      "step": 17700
+    },
+    {
+      "epoch": 8.29896907216495,
+      "grad_norm": 2.1920504570007324,
+      "learning_rate": 8.962628865979383e-06,
+      "loss": 0.0631,
+      "step": 17710
+    },
+    {
+      "epoch": 8.30365510777882,
+      "grad_norm": 1.7555533647537231,
+      "learning_rate": 8.962043111527648e-06,
+      "loss": 0.0643,
+      "step": 17720
+    },
+    {
+      "epoch": 8.30834114339269,
+      "grad_norm": 1.980637550354004,
+      "learning_rate": 8.961457357075915e-06,
+      "loss": 0.0594,
+      "step": 17730
+    },
+    {
+      "epoch": 8.31302717900656,
+      "grad_norm": 1.4178955554962158,
+      "learning_rate": 8.96087160262418e-06,
+      "loss": 0.0584,
+      "step": 17740
+    },
+    {
+      "epoch": 8.317713214620431,
+      "grad_norm": 1.375645399093628,
+      "learning_rate": 8.960285848172446e-06,
+      "loss": 0.0558,
+      "step": 17750
+    },
+    {
+      "epoch": 8.317713214620431,
+      "eval_loss": 0.03849739581346512,
+      "eval_pearson_cosine": 0.7855877317949194,
+      "eval_pearson_dot": 0.651727283647233,
+      "eval_pearson_euclidean": 0.7376296235813697,
+      "eval_pearson_manhattan": 0.7370097948427539,
+      "eval_runtime": 40.7984,
+      "eval_samples_per_second": 36.766,
+      "eval_spearman_cosine": 0.7865254359033228,
+      "eval_spearman_dot": 0.6678553912046729,
+      "eval_spearman_euclidean": 0.7518223898617357,
+      "eval_spearman_manhattan": 0.7512717468993468,
+      "eval_steps_per_second": 36.766,
+      "step": 17750
+    },
+    {
+      "epoch": 8.322399250234302,
+      "grad_norm": 1.6528228521347046,
+      "learning_rate": 8.959700093720714e-06,
+      "loss": 0.0671,
+      "step": 17760
+    },
+    {
+      "epoch": 8.327085285848172,
+      "grad_norm": 1.526089072227478,
+      "learning_rate": 8.95911433926898e-06,
+      "loss": 0.0661,
+      "step": 17770
+    },
+    {
+      "epoch": 8.331771321462043,
+      "grad_norm": 1.9455267190933228,
+      "learning_rate": 8.958528584817245e-06,
+      "loss": 0.059,
+      "step": 17780
+    },
+    {
+      "epoch": 8.336457357075913,
+      "grad_norm": 2.1176974773406982,
+      "learning_rate": 8.957942830365512e-06,
+      "loss": 0.0628,
+      "step": 17790
+    },
+    {
+      "epoch": 8.341143392689784,
+      "grad_norm": 1.9059792757034302,
+      "learning_rate": 8.957357075913777e-06,
+      "loss": 0.0547,
+      "step": 17800
+    },
+    {
+      "epoch": 8.345829428303656,
+      "grad_norm": 1.9086081981658936,
+      "learning_rate": 8.956771321462044e-06,
+      "loss": 0.0598,
+      "step": 17810
+    },
+    {
+      "epoch": 8.350515463917526,
+      "grad_norm": 1.835897445678711,
+      "learning_rate": 8.95618556701031e-06,
+      "loss": 0.0528,
+      "step": 17820
+    },
+    {
+      "epoch": 8.355201499531397,
+      "grad_norm": 1.4925363063812256,
+      "learning_rate": 8.955599812558576e-06,
+      "loss": 0.054,
+      "step": 17830
+    },
+    {
+      "epoch": 8.359887535145267,
+      "grad_norm": 1.8737494945526123,
+      "learning_rate": 8.955014058106843e-06,
+      "loss": 0.0592,
+      "step": 17840
+    },
+    {
+      "epoch": 8.364573570759138,
+      "grad_norm": 2.0734856128692627,
+      "learning_rate": 8.954428303655108e-06,
+      "loss": 0.0577,
+      "step": 17850
+    },
+    {
+      "epoch": 8.369259606373008,
+      "grad_norm": 1.1876471042633057,
+      "learning_rate": 8.953842549203375e-06,
+      "loss": 0.0529,
+      "step": 17860
+    },
+    {
+      "epoch": 8.373945641986879,
+      "grad_norm": 0.8391751646995544,
+      "learning_rate": 8.953256794751642e-06,
+      "loss": 0.0513,
+      "step": 17870
+    },
+    {
+      "epoch": 8.37863167760075,
+      "grad_norm": 2.0527615547180176,
+      "learning_rate": 8.952671040299907e-06,
+      "loss": 0.0802,
+      "step": 17880
+    },
+    {
+      "epoch": 8.38331771321462,
+      "grad_norm": 1.1670820713043213,
+      "learning_rate": 8.952085285848174e-06,
+      "loss": 0.0567,
+      "step": 17890
+    },
+    {
+      "epoch": 8.388003748828492,
+      "grad_norm": 1.0440400838851929,
+      "learning_rate": 8.95149953139644e-06,
+      "loss": 0.0589,
+      "step": 17900
+    },
+    {
+      "epoch": 8.392689784442362,
+      "grad_norm": 1.3903789520263672,
+      "learning_rate": 8.950913776944704e-06,
+      "loss": 0.0555,
+      "step": 17910
+    },
+    {
+      "epoch": 8.397375820056233,
+      "grad_norm": 2.042224407196045,
+      "learning_rate": 8.950328022492971e-06,
+      "loss": 0.0705,
+      "step": 17920
+    },
+    {
+      "epoch": 8.402061855670103,
+      "grad_norm": 1.8270450830459595,
+      "learning_rate": 8.949742268041238e-06,
+      "loss": 0.0568,
+      "step": 17930
+    },
+    {
+      "epoch": 8.406747891283974,
+      "grad_norm": 1.7498126029968262,
+      "learning_rate": 8.949156513589504e-06,
+      "loss": 0.0584,
+      "step": 17940
+    },
+    {
+      "epoch": 8.411433926897844,
+      "grad_norm": 1.2420893907546997,
+      "learning_rate": 8.94857075913777e-06,
+      "loss": 0.06,
+      "step": 17950
+    },
+    {
+      "epoch": 8.416119962511715,
+      "grad_norm": 1.9896409511566162,
+      "learning_rate": 8.947985004686036e-06,
+      "loss": 0.0505,
+      "step": 17960
+    },
+    {
+      "epoch": 8.420805998125585,
+      "grad_norm": 1.1669880151748657,
+      "learning_rate": 8.947399250234303e-06,
+      "loss": 0.0595,
+      "step": 17970
+    },
+    {
+      "epoch": 8.425492033739456,
+      "grad_norm": 1.2261865139007568,
+      "learning_rate": 8.94681349578257e-06,
+      "loss": 0.0604,
+      "step": 17980
+    },
+    {
+      "epoch": 8.430178069353326,
+      "grad_norm": 1.5421935319900513,
+      "learning_rate": 8.946227741330835e-06,
+      "loss": 0.0621,
+      "step": 17990
+    },
+    {
+      "epoch": 8.434864104967197,
+      "grad_norm": 1.9026983976364136,
+      "learning_rate": 8.945641986879102e-06,
+      "loss": 0.0633,
+      "step": 18000
+    },
+    {
+      "epoch": 8.434864104967197,
+      "eval_loss": 0.039177875965833664,
+      "eval_pearson_cosine": 0.7822495113035757,
+      "eval_pearson_dot": 0.6511666258149553,
+      "eval_pearson_euclidean": 0.7395462188066446,
+      "eval_pearson_manhattan": 0.7387984914454222,
+      "eval_runtime": 42.2768,
+      "eval_samples_per_second": 35.48,
+      "eval_spearman_cosine": 0.7845228935533591,
+      "eval_spearman_dot": 0.6664111108433938,
+      "eval_spearman_euclidean": 0.7541690232038317,
+      "eval_spearman_manhattan": 0.7537307168421792,
+      "eval_steps_per_second": 35.48,
+      "step": 18000
     }
   ],
   "logging_steps": 10,