Training in progress, step 17000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2d2a0f5d2fd2db2c00ba8019c5d26c7e05ea6254b391695cc519d7dab59b225
 size 613004648

 version https://git-lfs.github.com/spec/v1
+oid sha256:723de6fd746cbba66015f7a7da153864465a825d5f4e24435edd8645a25ac837
 size 613004648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b5ee984e35f64350e857f17403ecda5095a0c3d2917a731f8237c213d237bae
 size 1226096954

 version https://git-lfs.github.com/spec/v1
+oid sha256:dafb37725ed184eeb99653a88821c53652c298a048e783bcf251a3b487c248c8
 size 1226096954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2be093747f5a4a232618c3318bfffdf24560aea746cf4c11903c465c5179b6c9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c551e87aa3f069465eab6343f6462d0da8c27e46770ad44ff0400698bec95cda
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:975ed305a3fe7b4927a3b3d12f66d6b14051cd85dfe6e94defa4d7c56781b5ac
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:64e32232d2d68b6508947dd18795fe7ac8dd583abb7b016b68d853036e32fd4b
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.497656982193065,
   "eval_steps": 250,
-  "global_step": 16000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12231,6 +12231,770 @@
       "eval_spearman_manhattan": 0.7524283280152466,
       "eval_steps_per_second": 37.268,
       "step": 16000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.966260543580131,
   "eval_steps": 250,
+  "global_step": 17000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7524283280152466,
       "eval_steps_per_second": 37.268,
       "step": 16000
+    },
+    {
+      "epoch": 7.502343017806935,
+      "grad_norm": 2.1431262493133545,
+      "learning_rate": 9.062207122774134e-06,
+      "loss": 0.0768,
+      "step": 16010
+    },
+    {
+      "epoch": 7.507029053420806,
+      "grad_norm": 1.5847636461257935,
+      "learning_rate": 9.0616213683224e-06,
+      "loss": 0.0772,
+      "step": 16020
+    },
+    {
+      "epoch": 7.511715089034677,
+      "grad_norm": 1.5291898250579834,
+      "learning_rate": 9.061035613870666e-06,
+      "loss": 0.0642,
+      "step": 16030
+    },
+    {
+      "epoch": 7.516401124648548,
+      "grad_norm": 1.497979998588562,
+      "learning_rate": 9.060449859418933e-06,
+      "loss": 0.0846,
+      "step": 16040
+    },
+    {
+      "epoch": 7.521087160262418,
+      "grad_norm": 2.9073336124420166,
+      "learning_rate": 9.059864104967199e-06,
+      "loss": 0.0735,
+      "step": 16050
+    },
+    {
+      "epoch": 7.525773195876289,
+      "grad_norm": 2.264319896697998,
+      "learning_rate": 9.059278350515464e-06,
+      "loss": 0.0752,
+      "step": 16060
+    },
+    {
+      "epoch": 7.530459231490159,
+      "grad_norm": 1.6372432708740234,
+      "learning_rate": 9.05869259606373e-06,
+      "loss": 0.0842,
+      "step": 16070
+    },
+    {
+      "epoch": 7.5351452671040295,
+      "grad_norm": 1.1619336605072021,
+      "learning_rate": 9.058106841611996e-06,
+      "loss": 0.0687,
+      "step": 16080
+    },
+    {
+      "epoch": 7.539831302717901,
+      "grad_norm": 0.9320247173309326,
+      "learning_rate": 9.057521087160263e-06,
+      "loss": 0.0709,
+      "step": 16090
+    },
+    {
+      "epoch": 7.544517338331771,
+      "grad_norm": 1.3003836870193481,
+      "learning_rate": 9.05693533270853e-06,
+      "loss": 0.062,
+      "step": 16100
+    },
+    {
+      "epoch": 7.549203373945642,
+      "grad_norm": 1.8614999055862427,
+      "learning_rate": 9.056349578256795e-06,
+      "loss": 0.0713,
+      "step": 16110
+    },
+    {
+      "epoch": 7.553889409559512,
+      "grad_norm": 2.049309492111206,
+      "learning_rate": 9.055763823805062e-06,
+      "loss": 0.0763,
+      "step": 16120
+    },
+    {
+      "epoch": 7.558575445173384,
+      "grad_norm": 1.3978779315948486,
+      "learning_rate": 9.055178069353327e-06,
+      "loss": 0.0778,
+      "step": 16130
+    },
+    {
+      "epoch": 7.563261480787254,
+      "grad_norm": 1.9440947771072388,
+      "learning_rate": 9.054592314901594e-06,
+      "loss": 0.0637,
+      "step": 16140
+    },
+    {
+      "epoch": 7.567947516401125,
+      "grad_norm": 1.5653728246688843,
+      "learning_rate": 9.054006560449861e-06,
+      "loss": 0.0791,
+      "step": 16150
+    },
+    {
+      "epoch": 7.572633552014995,
+      "grad_norm": 1.3674747943878174,
+      "learning_rate": 9.053420805998126e-06,
+      "loss": 0.0662,
+      "step": 16160
+    },
+    {
+      "epoch": 7.577319587628866,
+      "grad_norm": 1.2067365646362305,
+      "learning_rate": 9.052835051546393e-06,
+      "loss": 0.0677,
+      "step": 16170
+    },
+    {
+      "epoch": 7.582005623242736,
+      "grad_norm": 1.9453731775283813,
+      "learning_rate": 9.052249297094658e-06,
+      "loss": 0.0776,
+      "step": 16180
+    },
+    {
+      "epoch": 7.586691658856608,
+      "grad_norm": 1.6629338264465332,
+      "learning_rate": 9.051663542642925e-06,
+      "loss": 0.0615,
+      "step": 16190
+    },
+    {
+      "epoch": 7.591377694470478,
+      "grad_norm": 2.192781925201416,
+      "learning_rate": 9.051077788191192e-06,
+      "loss": 0.0762,
+      "step": 16200
+    },
+    {
+      "epoch": 7.5960637300843485,
+      "grad_norm": 1.7695443630218506,
+      "learning_rate": 9.050492033739457e-06,
+      "loss": 0.0798,
+      "step": 16210
+    },
+    {
+      "epoch": 7.600749765698219,
+      "grad_norm": 2.5343542098999023,
+      "learning_rate": 9.049906279287723e-06,
+      "loss": 0.0642,
+      "step": 16220
+    },
+    {
+      "epoch": 7.60543580131209,
+      "grad_norm": 2.3569960594177246,
+      "learning_rate": 9.04932052483599e-06,
+      "loss": 0.0791,
+      "step": 16230
+    },
+    {
+      "epoch": 7.610121836925961,
+      "grad_norm": 1.6627905368804932,
+      "learning_rate": 9.048734770384255e-06,
+      "loss": 0.0751,
+      "step": 16240
+    },
+    {
+      "epoch": 7.614807872539831,
+      "grad_norm": 2.732750177383423,
+      "learning_rate": 9.048149015932522e-06,
+      "loss": 0.0779,
+      "step": 16250
+    },
+    {
+      "epoch": 7.614807872539831,
+      "eval_loss": 0.03914293646812439,
+      "eval_pearson_cosine": 0.7825741148617453,
+      "eval_pearson_dot": 0.6371994676784709,
+      "eval_pearson_euclidean": 0.7333148039136894,
+      "eval_pearson_manhattan": 0.7325802747620713,
+      "eval_runtime": 39.7805,
+      "eval_samples_per_second": 37.707,
+      "eval_spearman_cosine": 0.7845511113526636,
+      "eval_spearman_dot": 0.6532379504600656,
+      "eval_spearman_euclidean": 0.746661992951968,
+      "eval_spearman_manhattan": 0.7461572363651041,
+      "eval_steps_per_second": 37.707,
+      "step": 16250
+    },
+    {
+      "epoch": 7.619493908153702,
+      "grad_norm": 1.1624847650527954,
+      "learning_rate": 9.047563261480789e-06,
+      "loss": 0.0677,
+      "step": 16260
+    },
+    {
+      "epoch": 7.624179943767572,
+      "grad_norm": 2.173877477645874,
+      "learning_rate": 9.046977507029054e-06,
+      "loss": 0.0697,
+      "step": 16270
+    },
+    {
+      "epoch": 7.628865979381443,
+      "grad_norm": 2.1271920204162598,
+      "learning_rate": 9.04639175257732e-06,
+      "loss": 0.0736,
+      "step": 16280
+    },
+    {
+      "epoch": 7.633552014995314,
+      "grad_norm": 1.3459683656692505,
+      "learning_rate": 9.045805998125586e-06,
+      "loss": 0.082,
+      "step": 16290
+    },
+    {
+      "epoch": 7.638238050609185,
+      "grad_norm": 2.0023584365844727,
+      "learning_rate": 9.045220243673853e-06,
+      "loss": 0.0662,
+      "step": 16300
+    },
+    {
+      "epoch": 7.642924086223055,
+      "grad_norm": 1.8559486865997314,
+      "learning_rate": 9.044634489222118e-06,
+      "loss": 0.0685,
+      "step": 16310
+    },
+    {
+      "epoch": 7.647610121836926,
+      "grad_norm": 2.1703007221221924,
+      "learning_rate": 9.044048734770385e-06,
+      "loss": 0.0659,
+      "step": 16320
+    },
+    {
+      "epoch": 7.652296157450797,
+      "grad_norm": 2.0675439834594727,
+      "learning_rate": 9.043462980318652e-06,
+      "loss": 0.0708,
+      "step": 16330
+    },
+    {
+      "epoch": 7.6569821930646675,
+      "grad_norm": 1.600040316581726,
+      "learning_rate": 9.042877225866917e-06,
+      "loss": 0.0682,
+      "step": 16340
+    },
+    {
+      "epoch": 7.661668228678538,
+      "grad_norm": 2.5737037658691406,
+      "learning_rate": 9.042291471415184e-06,
+      "loss": 0.077,
+      "step": 16350
+    },
+    {
+      "epoch": 7.6663542642924085,
+      "grad_norm": 1.909056544303894,
+      "learning_rate": 9.04170571696345e-06,
+      "loss": 0.076,
+      "step": 16360
+    },
+    {
+      "epoch": 7.671040299906279,
+      "grad_norm": 2.5772509574890137,
+      "learning_rate": 9.041119962511716e-06,
+      "loss": 0.0743,
+      "step": 16370
+    },
+    {
+      "epoch": 7.6757263355201495,
+      "grad_norm": 1.6890363693237305,
+      "learning_rate": 9.040534208059981e-06,
+      "loss": 0.0696,
+      "step": 16380
+    },
+    {
+      "epoch": 7.680412371134021,
+      "grad_norm": 1.6115903854370117,
+      "learning_rate": 9.039948453608248e-06,
+      "loss": 0.0849,
+      "step": 16390
+    },
+    {
+      "epoch": 7.685098406747891,
+      "grad_norm": 2.3779239654541016,
+      "learning_rate": 9.039362699156514e-06,
+      "loss": 0.0819,
+      "step": 16400
+    },
+    {
+      "epoch": 7.689784442361762,
+      "grad_norm": 1.5444949865341187,
+      "learning_rate": 9.03877694470478e-06,
+      "loss": 0.0718,
+      "step": 16410
+    },
+    {
+      "epoch": 7.694470477975632,
+      "grad_norm": 2.221595525741577,
+      "learning_rate": 9.038191190253046e-06,
+      "loss": 0.084,
+      "step": 16420
+    },
+    {
+      "epoch": 7.699156513589504,
+      "grad_norm": 2.68977427482605,
+      "learning_rate": 9.037605435801313e-06,
+      "loss": 0.0828,
+      "step": 16430
+    },
+    {
+      "epoch": 7.703842549203374,
+      "grad_norm": 1.9625297784805298,
+      "learning_rate": 9.03701968134958e-06,
+      "loss": 0.0645,
+      "step": 16440
+    },
+    {
+      "epoch": 7.708528584817245,
+      "grad_norm": 1.4848051071166992,
+      "learning_rate": 9.036433926897845e-06,
+      "loss": 0.0775,
+      "step": 16450
+    },
+    {
+      "epoch": 7.713214620431115,
+      "grad_norm": 1.2312238216400146,
+      "learning_rate": 9.035848172446112e-06,
+      "loss": 0.0654,
+      "step": 16460
+    },
+    {
+      "epoch": 7.717900656044986,
+      "grad_norm": 2.353621006011963,
+      "learning_rate": 9.035262417994377e-06,
+      "loss": 0.0798,
+      "step": 16470
+    },
+    {
+      "epoch": 7.722586691658856,
+      "grad_norm": 2.2561025619506836,
+      "learning_rate": 9.034676663542644e-06,
+      "loss": 0.0679,
+      "step": 16480
+    },
+    {
+      "epoch": 7.7272727272727275,
+      "grad_norm": 1.7776751518249512,
+      "learning_rate": 9.03409090909091e-06,
+      "loss": 0.0619,
+      "step": 16490
+    },
+    {
+      "epoch": 7.731958762886598,
+      "grad_norm": 1.9327503442764282,
+      "learning_rate": 9.033505154639176e-06,
+      "loss": 0.078,
+      "step": 16500
+    },
+    {
+      "epoch": 7.731958762886598,
+      "eval_loss": 0.039704494178295135,
+      "eval_pearson_cosine": 0.7809507850262349,
+      "eval_pearson_dot": 0.636416760886064,
+      "eval_pearson_euclidean": 0.7299738247708838,
+      "eval_pearson_manhattan": 0.7298765220753651,
+      "eval_runtime": 40.0275,
+      "eval_samples_per_second": 37.474,
+      "eval_spearman_cosine": 0.782649086170428,
+      "eval_spearman_dot": 0.6554585356303039,
+      "eval_spearman_euclidean": 0.7456788267720733,
+      "eval_spearman_manhattan": 0.7461425779916862,
+      "eval_steps_per_second": 37.474,
+      "step": 16500
+    },
+    {
+      "epoch": 7.7366447985004685,
+      "grad_norm": 1.9791489839553833,
+      "learning_rate": 9.032919400187443e-06,
+      "loss": 0.08,
+      "step": 16510
+    },
+    {
+      "epoch": 7.741330834114339,
+      "grad_norm": 2.5181267261505127,
+      "learning_rate": 9.032333645735708e-06,
+      "loss": 0.0822,
+      "step": 16520
+    },
+    {
+      "epoch": 7.74601686972821,
+      "grad_norm": 1.2553796768188477,
+      "learning_rate": 9.031747891283973e-06,
+      "loss": 0.0713,
+      "step": 16530
+    },
+    {
+      "epoch": 7.750702905342081,
+      "grad_norm": 2.394421100616455,
+      "learning_rate": 9.03116213683224e-06,
+      "loss": 0.0852,
+      "step": 16540
+    },
+    {
+      "epoch": 7.755388940955951,
+      "grad_norm": 2.388476848602295,
+      "learning_rate": 9.030576382380507e-06,
+      "loss": 0.0703,
+      "step": 16550
+    },
+    {
+      "epoch": 7.760074976569822,
+      "grad_norm": 1.3286539316177368,
+      "learning_rate": 9.029990627928772e-06,
+      "loss": 0.0606,
+      "step": 16560
+    },
+    {
+      "epoch": 7.764761012183692,
+      "grad_norm": 2.0466766357421875,
+      "learning_rate": 9.02940487347704e-06,
+      "loss": 0.0729,
+      "step": 16570
+    },
+    {
+      "epoch": 7.769447047797563,
+      "grad_norm": 1.3759188652038574,
+      "learning_rate": 9.028819119025305e-06,
+      "loss": 0.0776,
+      "step": 16580
+    },
+    {
+      "epoch": 7.774133083411434,
+      "grad_norm": 1.6511011123657227,
+      "learning_rate": 9.028233364573571e-06,
+      "loss": 0.0728,
+      "step": 16590
+    },
+    {
+      "epoch": 7.778819119025305,
+      "grad_norm": 2.05136775970459,
+      "learning_rate": 9.027647610121838e-06,
+      "loss": 0.0719,
+      "step": 16600
+    },
+    {
+      "epoch": 7.783505154639175,
+      "grad_norm": 2.3014705181121826,
+      "learning_rate": 9.027061855670104e-06,
+      "loss": 0.0682,
+      "step": 16610
+    },
+    {
+      "epoch": 7.788191190253046,
+      "grad_norm": 2.6752190589904785,
+      "learning_rate": 9.02647610121837e-06,
+      "loss": 0.0856,
+      "step": 16620
+    },
+    {
+      "epoch": 7.792877225866917,
+      "grad_norm": 1.7644881010055542,
+      "learning_rate": 9.025890346766636e-06,
+      "loss": 0.0705,
+      "step": 16630
+    },
+    {
+      "epoch": 7.7975632614807875,
+      "grad_norm": 2.1563751697540283,
+      "learning_rate": 9.025304592314903e-06,
+      "loss": 0.0842,
+      "step": 16640
+    },
+    {
+      "epoch": 7.802249297094658,
+      "grad_norm": 1.4930392503738403,
+      "learning_rate": 9.02471883786317e-06,
+      "loss": 0.0759,
+      "step": 16650
+    },
+    {
+      "epoch": 7.8069353327085285,
+      "grad_norm": 2.3332340717315674,
+      "learning_rate": 9.024133083411435e-06,
+      "loss": 0.0668,
+      "step": 16660
+    },
+    {
+      "epoch": 7.811621368322399,
+      "grad_norm": 2.424914836883545,
+      "learning_rate": 9.023547328959702e-06,
+      "loss": 0.0619,
+      "step": 16670
+    },
+    {
+      "epoch": 7.816307403936269,
+      "grad_norm": 2.246410369873047,
+      "learning_rate": 9.022961574507967e-06,
+      "loss": 0.0772,
+      "step": 16680
+    },
+    {
+      "epoch": 7.820993439550141,
+      "grad_norm": 1.8411740064620972,
+      "learning_rate": 9.022375820056232e-06,
+      "loss": 0.0685,
+      "step": 16690
+    },
+    {
+      "epoch": 7.825679475164011,
+      "grad_norm": 1.6910183429718018,
+      "learning_rate": 9.021790065604499e-06,
+      "loss": 0.0666,
+      "step": 16700
+    },
+    {
+      "epoch": 7.830365510777882,
+      "grad_norm": 1.7055261135101318,
+      "learning_rate": 9.021204311152766e-06,
+      "loss": 0.0555,
+      "step": 16710
+    },
+    {
+      "epoch": 7.835051546391752,
+      "grad_norm": 1.0138518810272217,
+      "learning_rate": 9.020618556701031e-06,
+      "loss": 0.0709,
+      "step": 16720
+    },
+    {
+      "epoch": 7.839737582005624,
+      "grad_norm": 1.5108051300048828,
+      "learning_rate": 9.020032802249298e-06,
+      "loss": 0.0563,
+      "step": 16730
+    },
+    {
+      "epoch": 7.844423617619494,
+      "grad_norm": 1.4900165796279907,
+      "learning_rate": 9.019447047797563e-06,
+      "loss": 0.0725,
+      "step": 16740
+    },
+    {
+      "epoch": 7.849109653233365,
+      "grad_norm": 2.11224627494812,
+      "learning_rate": 9.01886129334583e-06,
+      "loss": 0.0699,
+      "step": 16750
+    },
+    {
+      "epoch": 7.849109653233365,
+      "eval_loss": 0.04045228287577629,
+      "eval_pearson_cosine": 0.7810519865633125,
+      "eval_pearson_dot": 0.6315366018290618,
+      "eval_pearson_euclidean": 0.7311610922445455,
+      "eval_pearson_manhattan": 0.7308498943499657,
+      "eval_runtime": 40.5903,
+      "eval_samples_per_second": 36.955,
+      "eval_spearman_cosine": 0.7836878662688926,
+      "eval_spearman_dot": 0.642582986344888,
+      "eval_spearman_euclidean": 0.7470082334118219,
+      "eval_spearman_manhattan": 0.7467779627853639,
+      "eval_steps_per_second": 36.955,
+      "step": 16750
+    },
+    {
+      "epoch": 7.853795688847235,
+      "grad_norm": 1.3252798318862915,
+      "learning_rate": 9.018275538894097e-06,
+      "loss": 0.0691,
+      "step": 16760
+    },
+    {
+      "epoch": 7.858481724461106,
+      "grad_norm": 0.9918208122253418,
+      "learning_rate": 9.017689784442362e-06,
+      "loss": 0.0723,
+      "step": 16770
+    },
+    {
+      "epoch": 7.863167760074976,
+      "grad_norm": 2.2344889640808105,
+      "learning_rate": 9.01710402999063e-06,
+      "loss": 0.0739,
+      "step": 16780
+    },
+    {
+      "epoch": 7.8678537956888475,
+      "grad_norm": 1.8005706071853638,
+      "learning_rate": 9.016518275538895e-06,
+      "loss": 0.0831,
+      "step": 16790
+    },
+    {
+      "epoch": 7.872539831302718,
+      "grad_norm": 1.365945816040039,
+      "learning_rate": 9.015932521087161e-06,
+      "loss": 0.0759,
+      "step": 16800
+    },
+    {
+      "epoch": 7.877225866916588,
+      "grad_norm": 1.3977360725402832,
+      "learning_rate": 9.015346766635427e-06,
+      "loss": 0.0806,
+      "step": 16810
+    },
+    {
+      "epoch": 7.881911902530459,
+      "grad_norm": 1.3826375007629395,
+      "learning_rate": 9.014761012183694e-06,
+      "loss": 0.0744,
+      "step": 16820
+    },
+    {
+      "epoch": 7.88659793814433,
+      "grad_norm": 2.0823261737823486,
+      "learning_rate": 9.01417525773196e-06,
+      "loss": 0.0731,
+      "step": 16830
+    },
+    {
+      "epoch": 7.891283973758201,
+      "grad_norm": 1.4947584867477417,
+      "learning_rate": 9.013589503280226e-06,
+      "loss": 0.0788,
+      "step": 16840
+    },
+    {
+      "epoch": 7.895970009372071,
+      "grad_norm": 1.659224033355713,
+      "learning_rate": 9.013003748828491e-06,
+      "loss": 0.0733,
+      "step": 16850
+    },
+    {
+      "epoch": 7.900656044985942,
+      "grad_norm": 1.4698199033737183,
+      "learning_rate": 9.012417994376758e-06,
+      "loss": 0.0789,
+      "step": 16860
+    },
+    {
+      "epoch": 7.905342080599812,
+      "grad_norm": 1.6106451749801636,
+      "learning_rate": 9.011832239925025e-06,
+      "loss": 0.0656,
+      "step": 16870
+    },
+    {
+      "epoch": 7.910028116213683,
+      "grad_norm": 1.2820615768432617,
+      "learning_rate": 9.01124648547329e-06,
+      "loss": 0.0648,
+      "step": 16880
+    },
+    {
+      "epoch": 7.914714151827554,
+      "grad_norm": 2.3736705780029297,
+      "learning_rate": 9.010660731021557e-06,
+      "loss": 0.0884,
+      "step": 16890
+    },
+    {
+      "epoch": 7.919400187441425,
+      "grad_norm": 1.1591442823410034,
+      "learning_rate": 9.010074976569822e-06,
+      "loss": 0.0657,
+      "step": 16900
+    },
+    {
+      "epoch": 7.924086223055295,
+      "grad_norm": 1.9707759618759155,
+      "learning_rate": 9.009489222118089e-06,
+      "loss": 0.0833,
+      "step": 16910
+    },
+    {
+      "epoch": 7.928772258669166,
+      "grad_norm": 2.5806972980499268,
+      "learning_rate": 9.008903467666354e-06,
+      "loss": 0.073,
+      "step": 16920
+    },
+    {
+      "epoch": 7.933458294283037,
+      "grad_norm": 0.8301031589508057,
+      "learning_rate": 9.008317713214621e-06,
+      "loss": 0.0694,
+      "step": 16930
+    },
+    {
+      "epoch": 7.938144329896907,
+      "grad_norm": 2.491325855255127,
+      "learning_rate": 9.007731958762888e-06,
+      "loss": 0.07,
+      "step": 16940
+    },
+    {
+      "epoch": 7.942830365510778,
+      "grad_norm": 1.3585147857666016,
+      "learning_rate": 9.007146204311153e-06,
+      "loss": 0.0844,
+      "step": 16950
+    },
+    {
+      "epoch": 7.947516401124648,
+      "grad_norm": 0.8648898601531982,
+      "learning_rate": 9.00656044985942e-06,
+      "loss": 0.0706,
+      "step": 16960
+    },
+    {
+      "epoch": 7.952202436738519,
+      "grad_norm": 1.6157063245773315,
+      "learning_rate": 9.005974695407685e-06,
+      "loss": 0.0849,
+      "step": 16970
+    },
+    {
+      "epoch": 7.956888472352389,
+      "grad_norm": 2.6578354835510254,
+      "learning_rate": 9.005388940955952e-06,
+      "loss": 0.0785,
+      "step": 16980
+    },
+    {
+      "epoch": 7.961574507966261,
+      "grad_norm": 2.8184850215911865,
+      "learning_rate": 9.00480318650422e-06,
+      "loss": 0.0769,
+      "step": 16990
+    },
+    {
+      "epoch": 7.966260543580131,
+      "grad_norm": 1.8346798419952393,
+      "learning_rate": 9.004217432052485e-06,
+      "loss": 0.0735,
+      "step": 17000
+    },
+    {
+      "epoch": 7.966260543580131,
+      "eval_loss": 0.03939095139503479,
+      "eval_pearson_cosine": 0.780422600052205,
+      "eval_pearson_dot": 0.646788551622171,
+      "eval_pearson_euclidean": 0.7325980054422985,
+      "eval_pearson_manhattan": 0.731991687137608,
+      "eval_runtime": 39.8363,
+      "eval_samples_per_second": 37.654,
+      "eval_spearman_cosine": 0.7823114033515521,
+      "eval_spearman_dot": 0.6607344073150395,
+      "eval_spearman_euclidean": 0.7461718651526544,
+      "eval_spearman_manhattan": 0.745468210963869,
+      "eval_steps_per_second": 37.654,
+      "step": 17000
     }
   ],
   "logging_steps": 10,