Training in progress, step 8000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:039eb5c73d0c30d604c0b44c1ce93e67f4cad28867b354ed01f17480dad76a76
 size 613004648

 version https://git-lfs.github.com/spec/v1
+oid sha256:63b8d2f54dcc233ad06ab39430ee3ef4e9969c8462dbe0a0663055814f28088c
 size 613004648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc06b5cbd2ac7683e57b1ae52249f53d8b5ccf8cd27718ad72fba95231fa2073
 size 1226096954

 version https://git-lfs.github.com/spec/v1
+oid sha256:4236b0fedc806b4de7d27d910cef5ebb9c225250d3c23afcbea1ab330a679e73
 size 1226096954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9819055317e0aa1215ad120239bc4cecc175225c0dc18c98ca0bffe9f465133f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff2a98b7b58dd272a86869334fd0edf641ab47ceb102b634b242c3ff92151a26
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:879c433ff59d472a2c5d7c4da04ae14ac33f2ec2552c8f49d34302050bc28fb0
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7a23627952aa878a89c58e1effd3a883c81420a06e0fccd761ecb8b1539b91f
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.280224929709466,
   "eval_steps": 250,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5355,6 +5355,770 @@
       "eval_spearman_manhattan": 0.7671464837523794,
       "eval_steps_per_second": 29.806,
       "step": 7000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.7488284910965324,
   "eval_steps": 250,
+  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7671464837523794,
       "eval_steps_per_second": 29.806,
       "step": 7000
+    },
+    {
+      "epoch": 3.2849109653233364,
+      "grad_norm": 1.3316779136657715,
+      "learning_rate": 1.7946930646672916e-05,
+      "loss": 0.1139,
+      "step": 7010
+    },
+    {
+      "epoch": 3.2895970009372073,
+      "grad_norm": 1.3782374858856201,
+      "learning_rate": 1.794400187441425e-05,
+      "loss": 0.1238,
+      "step": 7020
+    },
+    {
+      "epoch": 3.294283036551078,
+      "grad_norm": 1.4582282304763794,
+      "learning_rate": 1.7941073102155578e-05,
+      "loss": 0.1279,
+      "step": 7030
+    },
+    {
+      "epoch": 3.2989690721649483,
+      "grad_norm": 2.3581652641296387,
+      "learning_rate": 1.793814432989691e-05,
+      "loss": 0.118,
+      "step": 7040
+    },
+    {
+      "epoch": 3.303655107778819,
+      "grad_norm": 2.1047656536102295,
+      "learning_rate": 1.793521555763824e-05,
+      "loss": 0.1086,
+      "step": 7050
+    },
+    {
+      "epoch": 3.3083411433926897,
+      "grad_norm": 1.748353123664856,
+      "learning_rate": 1.793228678537957e-05,
+      "loss": 0.1357,
+      "step": 7060
+    },
+    {
+      "epoch": 3.3130271790065606,
+      "grad_norm": 1.905609130859375,
+      "learning_rate": 1.79293580131209e-05,
+      "loss": 0.1239,
+      "step": 7070
+    },
+    {
+      "epoch": 3.317713214620431,
+      "grad_norm": 1.5777533054351807,
+      "learning_rate": 1.7926429240862232e-05,
+      "loss": 0.1179,
+      "step": 7080
+    },
+    {
+      "epoch": 3.3223992502343016,
+      "grad_norm": 1.8429454565048218,
+      "learning_rate": 1.7923500468603562e-05,
+      "loss": 0.1103,
+      "step": 7090
+    },
+    {
+      "epoch": 3.3270852858481725,
+      "grad_norm": 1.601769208908081,
+      "learning_rate": 1.792057169634489e-05,
+      "loss": 0.1282,
+      "step": 7100
+    },
+    {
+      "epoch": 3.331771321462043,
+      "grad_norm": 1.948339581489563,
+      "learning_rate": 1.7917642924086224e-05,
+      "loss": 0.1314,
+      "step": 7110
+    },
+    {
+      "epoch": 3.336457357075914,
+      "grad_norm": 2.035210609436035,
+      "learning_rate": 1.7914714151827554e-05,
+      "loss": 0.1232,
+      "step": 7120
+    },
+    {
+      "epoch": 3.3411433926897844,
+      "grad_norm": 1.3871088027954102,
+      "learning_rate": 1.7911785379568887e-05,
+      "loss": 0.1225,
+      "step": 7130
+    },
+    {
+      "epoch": 3.345829428303655,
+      "grad_norm": 1.9721599817276,
+      "learning_rate": 1.7908856607310216e-05,
+      "loss": 0.1364,
+      "step": 7140
+    },
+    {
+      "epoch": 3.350515463917526,
+      "grad_norm": 2.2410221099853516,
+      "learning_rate": 1.790592783505155e-05,
+      "loss": 0.1277,
+      "step": 7150
+    },
+    {
+      "epoch": 3.3552014995313963,
+      "grad_norm": 1.8568767309188843,
+      "learning_rate": 1.790299906279288e-05,
+      "loss": 0.1114,
+      "step": 7160
+    },
+    {
+      "epoch": 3.3598875351452673,
+      "grad_norm": 2.367185115814209,
+      "learning_rate": 1.790007029053421e-05,
+      "loss": 0.1334,
+      "step": 7170
+    },
+    {
+      "epoch": 3.3645735707591378,
+      "grad_norm": 1.6528865098953247,
+      "learning_rate": 1.789714151827554e-05,
+      "loss": 0.1223,
+      "step": 7180
+    },
+    {
+      "epoch": 3.3692596063730083,
+      "grad_norm": 1.9136816263198853,
+      "learning_rate": 1.789421274601687e-05,
+      "loss": 0.1066,
+      "step": 7190
+    },
+    {
+      "epoch": 3.373945641986879,
+      "grad_norm": 2.2870426177978516,
+      "learning_rate": 1.7891283973758203e-05,
+      "loss": 0.1058,
+      "step": 7200
+    },
+    {
+      "epoch": 3.3786316776007497,
+      "grad_norm": 1.5177735090255737,
+      "learning_rate": 1.7888355201499533e-05,
+      "loss": 0.1179,
+      "step": 7210
+    },
+    {
+      "epoch": 3.3833177132146206,
+      "grad_norm": 2.215899705886841,
+      "learning_rate": 1.7885426429240866e-05,
+      "loss": 0.1321,
+      "step": 7220
+    },
+    {
+      "epoch": 3.388003748828491,
+      "grad_norm": 1.7164250612258911,
+      "learning_rate": 1.7882497656982195e-05,
+      "loss": 0.1111,
+      "step": 7230
+    },
+    {
+      "epoch": 3.3926897844423616,
+      "grad_norm": 2.3435146808624268,
+      "learning_rate": 1.7879568884723525e-05,
+      "loss": 0.1513,
+      "step": 7240
+    },
+    {
+      "epoch": 3.3973758200562325,
+      "grad_norm": 1.6385475397109985,
+      "learning_rate": 1.7876640112464858e-05,
+      "loss": 0.1252,
+      "step": 7250
+    },
+    {
+      "epoch": 3.3973758200562325,
+      "eval_loss": 0.047000955790281296,
+      "eval_pearson_cosine": 0.7888804465638501,
+      "eval_pearson_dot": 0.6256929197655836,
+      "eval_pearson_euclidean": 0.7570957556748965,
+      "eval_pearson_manhattan": 0.7561323835241964,
+      "eval_runtime": 3.4083,
+      "eval_samples_per_second": 440.106,
+      "eval_spearman_cosine": 0.7947042550328448,
+      "eval_spearman_dot": 0.6282838912238756,
+      "eval_spearman_euclidean": 0.7692784528325559,
+      "eval_spearman_manhattan": 0.7683456146298958,
+      "eval_steps_per_second": 27.58,
+      "step": 7250
+    },
+    {
+      "epoch": 3.402061855670103,
+      "grad_norm": 1.5348442792892456,
+      "learning_rate": 1.7873711340206187e-05,
+      "loss": 0.1304,
+      "step": 7260
+    },
+    {
+      "epoch": 3.406747891283974,
+      "grad_norm": 1.854861855506897,
+      "learning_rate": 1.7870782567947517e-05,
+      "loss": 0.1296,
+      "step": 7270
+    },
+    {
+      "epoch": 3.4114339268978444,
+      "grad_norm": 1.5103728771209717,
+      "learning_rate": 1.7867853795688846e-05,
+      "loss": 0.1182,
+      "step": 7280
+    },
+    {
+      "epoch": 3.416119962511715,
+      "grad_norm": 1.4604400396347046,
+      "learning_rate": 1.786492502343018e-05,
+      "loss": 0.1155,
+      "step": 7290
+    },
+    {
+      "epoch": 3.420805998125586,
+      "grad_norm": 1.9087272882461548,
+      "learning_rate": 1.786199625117151e-05,
+      "loss": 0.1265,
+      "step": 7300
+    },
+    {
+      "epoch": 3.4254920337394563,
+      "grad_norm": 2.3286941051483154,
+      "learning_rate": 1.785906747891284e-05,
+      "loss": 0.0926,
+      "step": 7310
+    },
+    {
+      "epoch": 3.4301780693533273,
+      "grad_norm": 1.8551883697509766,
+      "learning_rate": 1.785613870665417e-05,
+      "loss": 0.122,
+      "step": 7320
+    },
+    {
+      "epoch": 3.4348641049671977,
+      "grad_norm": 1.7142447233200073,
+      "learning_rate": 1.7853209934395504e-05,
+      "loss": 0.138,
+      "step": 7330
+    },
+    {
+      "epoch": 3.4395501405810682,
+      "grad_norm": 1.5548756122589111,
+      "learning_rate": 1.7850281162136833e-05,
+      "loss": 0.1123,
+      "step": 7340
+    },
+    {
+      "epoch": 3.444236176194939,
+      "grad_norm": 1.3273271322250366,
+      "learning_rate": 1.7847352389878166e-05,
+      "loss": 0.129,
+      "step": 7350
+    },
+    {
+      "epoch": 3.4489222118088096,
+      "grad_norm": 2.410999298095703,
+      "learning_rate": 1.7844423617619496e-05,
+      "loss": 0.1329,
+      "step": 7360
+    },
+    {
+      "epoch": 3.4536082474226806,
+      "grad_norm": 2.0272533893585205,
+      "learning_rate": 1.784149484536083e-05,
+      "loss": 0.1251,
+      "step": 7370
+    },
+    {
+      "epoch": 3.458294283036551,
+      "grad_norm": 2.4070749282836914,
+      "learning_rate": 1.7838566073102158e-05,
+      "loss": 0.1384,
+      "step": 7380
+    },
+    {
+      "epoch": 3.4629803186504216,
+      "grad_norm": 2.0983331203460693,
+      "learning_rate": 1.7835637300843487e-05,
+      "loss": 0.1268,
+      "step": 7390
+    },
+    {
+      "epoch": 3.4676663542642925,
+      "grad_norm": 1.5650460720062256,
+      "learning_rate": 1.783270852858482e-05,
+      "loss": 0.1218,
+      "step": 7400
+    },
+    {
+      "epoch": 3.472352389878163,
+      "grad_norm": 1.4505574703216553,
+      "learning_rate": 1.782977975632615e-05,
+      "loss": 0.1278,
+      "step": 7410
+    },
+    {
+      "epoch": 3.477038425492034,
+      "grad_norm": 2.4104747772216797,
+      "learning_rate": 1.782685098406748e-05,
+      "loss": 0.1506,
+      "step": 7420
+    },
+    {
+      "epoch": 3.4817244611059044,
+      "grad_norm": 2.2749085426330566,
+      "learning_rate": 1.7823922211808812e-05,
+      "loss": 0.1382,
+      "step": 7430
+    },
+    {
+      "epoch": 3.486410496719775,
+      "grad_norm": 1.619983434677124,
+      "learning_rate": 1.7820993439550142e-05,
+      "loss": 0.1145,
+      "step": 7440
+    },
+    {
+      "epoch": 3.491096532333646,
+      "grad_norm": 1.797600269317627,
+      "learning_rate": 1.781806466729147e-05,
+      "loss": 0.1381,
+      "step": 7450
+    },
+    {
+      "epoch": 3.4957825679475163,
+      "grad_norm": 1.2865104675292969,
+      "learning_rate": 1.7815135895032804e-05,
+      "loss": 0.1088,
+      "step": 7460
+    },
+    {
+      "epoch": 3.5004686035613872,
+      "grad_norm": 2.2955312728881836,
+      "learning_rate": 1.7812207122774134e-05,
+      "loss": 0.1389,
+      "step": 7470
+    },
+    {
+      "epoch": 3.5051546391752577,
+      "grad_norm": 1.884758472442627,
+      "learning_rate": 1.7809278350515463e-05,
+      "loss": 0.1399,
+      "step": 7480
+    },
+    {
+      "epoch": 3.509840674789128,
+      "grad_norm": 2.0076119899749756,
+      "learning_rate": 1.7806349578256796e-05,
+      "loss": 0.1028,
+      "step": 7490
+    },
+    {
+      "epoch": 3.514526710402999,
+      "grad_norm": 1.5606528520584106,
+      "learning_rate": 1.7803420805998125e-05,
+      "loss": 0.1058,
+      "step": 7500
+    },
+    {
+      "epoch": 3.514526710402999,
+      "eval_loss": 0.044608332216739655,
+      "eval_pearson_cosine": 0.7913143880230251,
+      "eval_pearson_dot": 0.6221286850907433,
+      "eval_pearson_euclidean": 0.7578325537672654,
+      "eval_pearson_manhattan": 0.7571791901529252,
+      "eval_runtime": 3.3012,
+      "eval_samples_per_second": 454.374,
+      "eval_spearman_cosine": 0.7958246101441605,
+      "eval_spearman_dot": 0.6338421877202784,
+      "eval_spearman_euclidean": 0.7715109007041803,
+      "eval_spearman_manhattan": 0.7714185275105551,
+      "eval_steps_per_second": 28.474,
+      "step": 7500
+    },
+    {
+      "epoch": 3.5192127460168696,
+      "grad_norm": 1.9054310321807861,
+      "learning_rate": 1.780049203373946e-05,
+      "loss": 0.1149,
+      "step": 7510
+    },
+    {
+      "epoch": 3.5238987816307406,
+      "grad_norm": 2.2473042011260986,
+      "learning_rate": 1.7797563261480788e-05,
+      "loss": 0.1241,
+      "step": 7520
+    },
+    {
+      "epoch": 3.528584817244611,
+      "grad_norm": 2.9301676750183105,
+      "learning_rate": 1.779463448922212e-05,
+      "loss": 0.1155,
+      "step": 7530
+    },
+    {
+      "epoch": 3.5332708528584815,
+      "grad_norm": 1.8250157833099365,
+      "learning_rate": 1.779170571696345e-05,
+      "loss": 0.118,
+      "step": 7540
+    },
+    {
+      "epoch": 3.5379568884723525,
+      "grad_norm": 2.101794958114624,
+      "learning_rate": 1.7788776944704783e-05,
+      "loss": 0.1338,
+      "step": 7550
+    },
+    {
+      "epoch": 3.542642924086223,
+      "grad_norm": 1.9058297872543335,
+      "learning_rate": 1.7785848172446113e-05,
+      "loss": 0.1172,
+      "step": 7560
+    },
+    {
+      "epoch": 3.547328959700094,
+      "grad_norm": 2.1106228828430176,
+      "learning_rate": 1.7782919400187446e-05,
+      "loss": 0.119,
+      "step": 7570
+    },
+    {
+      "epoch": 3.5520149953139644,
+      "grad_norm": 1.572771430015564,
+      "learning_rate": 1.7779990627928775e-05,
+      "loss": 0.1303,
+      "step": 7580
+    },
+    {
+      "epoch": 3.556701030927835,
+      "grad_norm": 2.670691967010498,
+      "learning_rate": 1.7777061855670105e-05,
+      "loss": 0.1367,
+      "step": 7590
+    },
+    {
+      "epoch": 3.561387066541706,
+      "grad_norm": 1.0899403095245361,
+      "learning_rate": 1.7774133083411434e-05,
+      "loss": 0.131,
+      "step": 7600
+    },
+    {
+      "epoch": 3.5660731021555763,
+      "grad_norm": 1.66856050491333,
+      "learning_rate": 1.7771204311152767e-05,
+      "loss": 0.1282,
+      "step": 7610
+    },
+    {
+      "epoch": 3.570759137769447,
+      "grad_norm": 1.9693597555160522,
+      "learning_rate": 1.7768275538894096e-05,
+      "loss": 0.1141,
+      "step": 7620
+    },
+    {
+      "epoch": 3.5754451733833177,
+      "grad_norm": 2.5107643604278564,
+      "learning_rate": 1.7765346766635426e-05,
+      "loss": 0.1302,
+      "step": 7630
+    },
+    {
+      "epoch": 3.580131208997188,
+      "grad_norm": 1.843782663345337,
+      "learning_rate": 1.776241799437676e-05,
+      "loss": 0.1295,
+      "step": 7640
+    },
+    {
+      "epoch": 3.584817244611059,
+      "grad_norm": 1.5396898984909058,
+      "learning_rate": 1.7759489222118088e-05,
+      "loss": 0.1146,
+      "step": 7650
+    },
+    {
+      "epoch": 3.5895032802249296,
+      "grad_norm": 1.250181794166565,
+      "learning_rate": 1.775656044985942e-05,
+      "loss": 0.0997,
+      "step": 7660
+    },
+    {
+      "epoch": 3.5941893158388005,
+      "grad_norm": 1.0038021802902222,
+      "learning_rate": 1.775363167760075e-05,
+      "loss": 0.131,
+      "step": 7670
+    },
+    {
+      "epoch": 3.598875351452671,
+      "grad_norm": 1.7689967155456543,
+      "learning_rate": 1.775070290534208e-05,
+      "loss": 0.1323,
+      "step": 7680
+    },
+    {
+      "epoch": 3.6035613870665415,
+      "grad_norm": 1.6515671014785767,
+      "learning_rate": 1.7747774133083413e-05,
+      "loss": 0.1228,
+      "step": 7690
+    },
+    {
+      "epoch": 3.6082474226804124,
+      "grad_norm": 1.6234405040740967,
+      "learning_rate": 1.7744845360824743e-05,
+      "loss": 0.1177,
+      "step": 7700
+    },
+    {
+      "epoch": 3.612933458294283,
+      "grad_norm": 1.1468828916549683,
+      "learning_rate": 1.7741916588566075e-05,
+      "loss": 0.121,
+      "step": 7710
+    },
+    {
+      "epoch": 3.617619493908154,
+      "grad_norm": 2.2512290477752686,
+      "learning_rate": 1.7738987816307405e-05,
+      "loss": 0.1506,
+      "step": 7720
+    },
+    {
+      "epoch": 3.6223055295220243,
+      "grad_norm": 1.967869758605957,
+      "learning_rate": 1.7736059044048738e-05,
+      "loss": 0.1278,
+      "step": 7730
+    },
+    {
+      "epoch": 3.626991565135895,
+      "grad_norm": 1.6843619346618652,
+      "learning_rate": 1.7733130271790067e-05,
+      "loss": 0.1292,
+      "step": 7740
+    },
+    {
+      "epoch": 3.6316776007497658,
+      "grad_norm": 1.7128106355667114,
+      "learning_rate": 1.77302014995314e-05,
+      "loss": 0.1144,
+      "step": 7750
+    },
+    {
+      "epoch": 3.6316776007497658,
+      "eval_loss": 0.043338797986507416,
+      "eval_pearson_cosine": 0.7938926107691149,
+      "eval_pearson_dot": 0.6518687502689318,
+      "eval_pearson_euclidean": 0.7541829192023144,
+      "eval_pearson_manhattan": 0.7533667893162033,
+      "eval_runtime": 3.5292,
+      "eval_samples_per_second": 425.028,
+      "eval_spearman_cosine": 0.7989181032598132,
+      "eval_spearman_dot": 0.658312239789335,
+      "eval_spearman_euclidean": 0.7677205029787961,
+      "eval_spearman_manhattan": 0.7673451483642694,
+      "eval_steps_per_second": 26.635,
+      "step": 7750
+    },
+    {
+      "epoch": 3.6363636363636362,
+      "grad_norm": 2.2347500324249268,
+      "learning_rate": 1.772727272727273e-05,
+      "loss": 0.145,
+      "step": 7760
+    },
+    {
+      "epoch": 3.641049671977507,
+      "grad_norm": 1.1075607538223267,
+      "learning_rate": 1.772434395501406e-05,
+      "loss": 0.122,
+      "step": 7770
+    },
+    {
+      "epoch": 3.6457357075913777,
+      "grad_norm": 1.9819576740264893,
+      "learning_rate": 1.772141518275539e-05,
+      "loss": 0.1542,
+      "step": 7780
+    },
+    {
+      "epoch": 3.650421743205248,
+      "grad_norm": 1.3385450839996338,
+      "learning_rate": 1.771848641049672e-05,
+      "loss": 0.1269,
+      "step": 7790
+    },
+    {
+      "epoch": 3.655107778819119,
+      "grad_norm": 1.2146624326705933,
+      "learning_rate": 1.771555763823805e-05,
+      "loss": 0.1124,
+      "step": 7800
+    },
+    {
+      "epoch": 3.6597938144329896,
+      "grad_norm": 1.8543137311935425,
+      "learning_rate": 1.771262886597938e-05,
+      "loss": 0.1513,
+      "step": 7810
+    },
+    {
+      "epoch": 3.6644798500468605,
+      "grad_norm": 1.147740125656128,
+      "learning_rate": 1.7709700093720713e-05,
+      "loss": 0.1207,
+      "step": 7820
+    },
+    {
+      "epoch": 3.669165885660731,
+      "grad_norm": 2.1737101078033447,
+      "learning_rate": 1.7706771321462043e-05,
+      "loss": 0.1345,
+      "step": 7830
+    },
+    {
+      "epoch": 3.6738519212746015,
+      "grad_norm": 2.481095790863037,
+      "learning_rate": 1.7703842549203376e-05,
+      "loss": 0.1304,
+      "step": 7840
+    },
+    {
+      "epoch": 3.6785379568884724,
+      "grad_norm": 1.9203423261642456,
+      "learning_rate": 1.7700913776944705e-05,
+      "loss": 0.1257,
+      "step": 7850
+    },
+    {
+      "epoch": 3.683223992502343,
+      "grad_norm": 2.324158191680908,
+      "learning_rate": 1.7697985004686038e-05,
+      "loss": 0.126,
+      "step": 7860
+    },
+    {
+      "epoch": 3.687910028116214,
+      "grad_norm": 1.6233323812484741,
+      "learning_rate": 1.7695056232427368e-05,
+      "loss": 0.1228,
+      "step": 7870
+    },
+    {
+      "epoch": 3.6925960637300843,
+      "grad_norm": 1.0567041635513306,
+      "learning_rate": 1.7692127460168697e-05,
+      "loss": 0.1129,
+      "step": 7880
+    },
+    {
+      "epoch": 3.697282099343955,
+      "grad_norm": 1.4684457778930664,
+      "learning_rate": 1.768919868791003e-05,
+      "loss": 0.1164,
+      "step": 7890
+    },
+    {
+      "epoch": 3.7019681349578257,
+      "grad_norm": 2.070171594619751,
+      "learning_rate": 1.768626991565136e-05,
+      "loss": 0.1488,
+      "step": 7900
+    },
+    {
+      "epoch": 3.706654170571696,
+      "grad_norm": 1.93710458278656,
+      "learning_rate": 1.7683341143392693e-05,
+      "loss": 0.1423,
+      "step": 7910
+    },
+    {
+      "epoch": 3.711340206185567,
+      "grad_norm": 2.109379529953003,
+      "learning_rate": 1.7680412371134022e-05,
+      "loss": 0.1247,
+      "step": 7920
+    },
+    {
+      "epoch": 3.7160262417994376,
+      "grad_norm": 1.9402395486831665,
+      "learning_rate": 1.7677483598875355e-05,
+      "loss": 0.1258,
+      "step": 7930
+    },
+    {
+      "epoch": 3.720712277413308,
+      "grad_norm": 1.3770403861999512,
+      "learning_rate": 1.7674554826616684e-05,
+      "loss": 0.1152,
+      "step": 7940
+    },
+    {
+      "epoch": 3.725398313027179,
+      "grad_norm": 1.8845633268356323,
+      "learning_rate": 1.7671626054358014e-05,
+      "loss": 0.1128,
+      "step": 7950
+    },
+    {
+      "epoch": 3.7300843486410495,
+      "grad_norm": 1.80978524684906,
+      "learning_rate": 1.7668697282099347e-05,
+      "loss": 0.1506,
+      "step": 7960
+    },
+    {
+      "epoch": 3.7347703842549205,
+      "grad_norm": 1.714689016342163,
+      "learning_rate": 1.7665768509840676e-05,
+      "loss": 0.1295,
+      "step": 7970
+    },
+    {
+      "epoch": 3.739456419868791,
+      "grad_norm": 2.2683634757995605,
+      "learning_rate": 1.7662839737582006e-05,
+      "loss": 0.153,
+      "step": 7980
+    },
+    {
+      "epoch": 3.7441424554826614,
+      "grad_norm": 1.1487226486206055,
+      "learning_rate": 1.7659910965323335e-05,
+      "loss": 0.1305,
+      "step": 7990
+    },
+    {
+      "epoch": 3.7488284910965324,
+      "grad_norm": 1.4769738912582397,
+      "learning_rate": 1.7656982193064668e-05,
+      "loss": 0.0971,
+      "step": 8000
+    },
+    {
+      "epoch": 3.7488284910965324,
+      "eval_loss": 0.04381699115037918,
+      "eval_pearson_cosine": 0.7952038190054296,
+      "eval_pearson_dot": 0.6344663529067152,
+      "eval_pearson_euclidean": 0.7547335910463318,
+      "eval_pearson_manhattan": 0.7536726944037966,
+      "eval_runtime": 3.6935,
+      "eval_samples_per_second": 406.123,
+      "eval_spearman_cosine": 0.7993143516157027,
+      "eval_spearman_dot": 0.6382938851288388,
+      "eval_spearman_euclidean": 0.7679077610624258,
+      "eval_spearman_manhattan": 0.767544325158077,
+      "eval_steps_per_second": 25.45,
+      "step": 8000
     }
   ],
   "logging_steps": 10,