Training in progress, step 8000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb141f64f181f8aaa27c9d3a77af0d93d7afb9857067a90441308d67ea3f00a0
 size 737580392

 version https://git-lfs.github.com/spec/v1
+oid sha256:14971b6e04cadaa88534f712e721171d13999a95ce9d9ac46c4729800b89e946
 size 737580392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd3f4a311baa95b8c3c9a1270d3c59f445a214334d14d8eaebcf84317b8587c7
 size 1475248442

 version https://git-lfs.github.com/spec/v1
+oid sha256:cebce73c6f9897e73bc658e05632b2e976a2c1891e8ef3f6c3c2f8924ba60b4c
 size 1475248442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9819055317e0aa1215ad120239bc4cecc175225c0dc18c98ca0bffe9f465133f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff2a98b7b58dd272a86869334fd0edf641ab47ceb102b634b242c3ff92151a26
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:879c433ff59d472a2c5d7c4da04ae14ac33f2ec2552c8f49d34302050bc28fb0
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7a23627952aa878a89c58e1effd3a883c81420a06e0fccd761ecb8b1539b91f
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.280224929709466,
   "eval_steps": 250,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5355,6 +5355,770 @@
       "eval_spearman_manhattan": 0.7992497485259732,
       "eval_steps_per_second": 27.898,
       "step": 7000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.7488284910965324,
   "eval_steps": 250,
+  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7992497485259732,
       "eval_steps_per_second": 27.898,
       "step": 7000
+    },
+    {
+      "epoch": 3.2849109653233364,
+      "grad_norm": 1.3195544481277466,
+      "learning_rate": 1.7946930646672916e-05,
+      "loss": 0.1136,
+      "step": 7010
+    },
+    {
+      "epoch": 3.2895970009372073,
+      "grad_norm": 1.7174955606460571,
+      "learning_rate": 1.794400187441425e-05,
+      "loss": 0.1114,
+      "step": 7020
+    },
+    {
+      "epoch": 3.294283036551078,
+      "grad_norm": 1.8189715147018433,
+      "learning_rate": 1.7941073102155578e-05,
+      "loss": 0.133,
+      "step": 7030
+    },
+    {
+      "epoch": 3.2989690721649483,
+      "grad_norm": 1.8281652927398682,
+      "learning_rate": 1.793814432989691e-05,
+      "loss": 0.1079,
+      "step": 7040
+    },
+    {
+      "epoch": 3.303655107778819,
+      "grad_norm": 1.686579704284668,
+      "learning_rate": 1.793521555763824e-05,
+      "loss": 0.1038,
+      "step": 7050
+    },
+    {
+      "epoch": 3.3083411433926897,
+      "grad_norm": 1.5126315355300903,
+      "learning_rate": 1.793228678537957e-05,
+      "loss": 0.1181,
+      "step": 7060
+    },
+    {
+      "epoch": 3.3130271790065606,
+      "grad_norm": 1.5008283853530884,
+      "learning_rate": 1.79293580131209e-05,
+      "loss": 0.1223,
+      "step": 7070
+    },
+    {
+      "epoch": 3.317713214620431,
+      "grad_norm": 0.7563474178314209,
+      "learning_rate": 1.7926429240862232e-05,
+      "loss": 0.1028,
+      "step": 7080
+    },
+    {
+      "epoch": 3.3223992502343016,
+      "grad_norm": 0.9533982872962952,
+      "learning_rate": 1.7923500468603562e-05,
+      "loss": 0.1032,
+      "step": 7090
+    },
+    {
+      "epoch": 3.3270852858481725,
+      "grad_norm": 1.5246295928955078,
+      "learning_rate": 1.792057169634489e-05,
+      "loss": 0.128,
+      "step": 7100
+    },
+    {
+      "epoch": 3.331771321462043,
+      "grad_norm": 1.4202959537506104,
+      "learning_rate": 1.7917642924086224e-05,
+      "loss": 0.1173,
+      "step": 7110
+    },
+    {
+      "epoch": 3.336457357075914,
+      "grad_norm": 1.5270695686340332,
+      "learning_rate": 1.7914714151827554e-05,
+      "loss": 0.1188,
+      "step": 7120
+    },
+    {
+      "epoch": 3.3411433926897844,
+      "grad_norm": 1.5747121572494507,
+      "learning_rate": 1.7911785379568887e-05,
+      "loss": 0.1154,
+      "step": 7130
+    },
+    {
+      "epoch": 3.345829428303655,
+      "grad_norm": 1.4199724197387695,
+      "learning_rate": 1.7908856607310216e-05,
+      "loss": 0.1174,
+      "step": 7140
+    },
+    {
+      "epoch": 3.350515463917526,
+      "grad_norm": 1.601879596710205,
+      "learning_rate": 1.790592783505155e-05,
+      "loss": 0.1095,
+      "step": 7150
+    },
+    {
+      "epoch": 3.3552014995313963,
+      "grad_norm": 1.8753916025161743,
+      "learning_rate": 1.790299906279288e-05,
+      "loss": 0.1137,
+      "step": 7160
+    },
+    {
+      "epoch": 3.3598875351452673,
+      "grad_norm": 2.2938902378082275,
+      "learning_rate": 1.790007029053421e-05,
+      "loss": 0.1187,
+      "step": 7170
+    },
+    {
+      "epoch": 3.3645735707591378,
+      "grad_norm": 1.0570533275604248,
+      "learning_rate": 1.789714151827554e-05,
+      "loss": 0.1122,
+      "step": 7180
+    },
+    {
+      "epoch": 3.3692596063730083,
+      "grad_norm": 1.3693780899047852,
+      "learning_rate": 1.789421274601687e-05,
+      "loss": 0.1056,
+      "step": 7190
+    },
+    {
+      "epoch": 3.373945641986879,
+      "grad_norm": 1.088611364364624,
+      "learning_rate": 1.7891283973758203e-05,
+      "loss": 0.0943,
+      "step": 7200
+    },
+    {
+      "epoch": 3.3786316776007497,
+      "grad_norm": 1.651551604270935,
+      "learning_rate": 1.7888355201499533e-05,
+      "loss": 0.1148,
+      "step": 7210
+    },
+    {
+      "epoch": 3.3833177132146206,
+      "grad_norm": 1.9416500329971313,
+      "learning_rate": 1.7885426429240866e-05,
+      "loss": 0.1162,
+      "step": 7220
+    },
+    {
+      "epoch": 3.388003748828491,
+      "grad_norm": 1.549742341041565,
+      "learning_rate": 1.7882497656982195e-05,
+      "loss": 0.0984,
+      "step": 7230
+    },
+    {
+      "epoch": 3.3926897844423616,
+      "grad_norm": 1.9772891998291016,
+      "learning_rate": 1.7879568884723525e-05,
+      "loss": 0.1146,
+      "step": 7240
+    },
+    {
+      "epoch": 3.3973758200562325,
+      "grad_norm": 1.915805459022522,
+      "learning_rate": 1.7876640112464858e-05,
+      "loss": 0.12,
+      "step": 7250
+    },
+    {
+      "epoch": 3.3973758200562325,
+      "eval_loss": 0.030257537961006165,
+      "eval_pearson_cosine": 0.8236641701952188,
+      "eval_pearson_dot": 0.7683165917501924,
+      "eval_pearson_euclidean": 0.7929510591670237,
+      "eval_pearson_manhattan": 0.7953417991908651,
+      "eval_runtime": 3.1268,
+      "eval_samples_per_second": 479.717,
+      "eval_spearman_cosine": 0.8229564695132245,
+      "eval_spearman_dot": 0.7689794551234463,
+      "eval_spearman_euclidean": 0.8016168710764218,
+      "eval_spearman_manhattan": 0.8035095618864339,
+      "eval_steps_per_second": 30.062,
+      "step": 7250
+    },
+    {
+      "epoch": 3.402061855670103,
+      "grad_norm": 1.2766612768173218,
+      "learning_rate": 1.7873711340206187e-05,
+      "loss": 0.1256,
+      "step": 7260
+    },
+    {
+      "epoch": 3.406747891283974,
+      "grad_norm": 1.6186020374298096,
+      "learning_rate": 1.7870782567947517e-05,
+      "loss": 0.106,
+      "step": 7270
+    },
+    {
+      "epoch": 3.4114339268978444,
+      "grad_norm": 1.5091776847839355,
+      "learning_rate": 1.7867853795688846e-05,
+      "loss": 0.1157,
+      "step": 7280
+    },
+    {
+      "epoch": 3.416119962511715,
+      "grad_norm": 1.5809932947158813,
+      "learning_rate": 1.786492502343018e-05,
+      "loss": 0.1151,
+      "step": 7290
+    },
+    {
+      "epoch": 3.420805998125586,
+      "grad_norm": 1.6943892240524292,
+      "learning_rate": 1.786199625117151e-05,
+      "loss": 0.1131,
+      "step": 7300
+    },
+    {
+      "epoch": 3.4254920337394563,
+      "grad_norm": 1.5174516439437866,
+      "learning_rate": 1.785906747891284e-05,
+      "loss": 0.0843,
+      "step": 7310
+    },
+    {
+      "epoch": 3.4301780693533273,
+      "grad_norm": 1.4588013887405396,
+      "learning_rate": 1.785613870665417e-05,
+      "loss": 0.1079,
+      "step": 7320
+    },
+    {
+      "epoch": 3.4348641049671977,
+      "grad_norm": 1.5333396196365356,
+      "learning_rate": 1.7853209934395504e-05,
+      "loss": 0.1309,
+      "step": 7330
+    },
+    {
+      "epoch": 3.4395501405810682,
+      "grad_norm": 1.5144264698028564,
+      "learning_rate": 1.7850281162136833e-05,
+      "loss": 0.1006,
+      "step": 7340
+    },
+    {
+      "epoch": 3.444236176194939,
+      "grad_norm": 1.2702832221984863,
+      "learning_rate": 1.7847352389878166e-05,
+      "loss": 0.1173,
+      "step": 7350
+    },
+    {
+      "epoch": 3.4489222118088096,
+      "grad_norm": 1.808031678199768,
+      "learning_rate": 1.7844423617619496e-05,
+      "loss": 0.1321,
+      "step": 7360
+    },
+    {
+      "epoch": 3.4536082474226806,
+      "grad_norm": 1.8384732007980347,
+      "learning_rate": 1.784149484536083e-05,
+      "loss": 0.1093,
+      "step": 7370
+    },
+    {
+      "epoch": 3.458294283036551,
+      "grad_norm": 1.468562126159668,
+      "learning_rate": 1.7838566073102158e-05,
+      "loss": 0.1117,
+      "step": 7380
+    },
+    {
+      "epoch": 3.4629803186504216,
+      "grad_norm": 1.647537350654602,
+      "learning_rate": 1.7835637300843487e-05,
+      "loss": 0.1161,
+      "step": 7390
+    },
+    {
+      "epoch": 3.4676663542642925,
+      "grad_norm": 1.5217511653900146,
+      "learning_rate": 1.783270852858482e-05,
+      "loss": 0.1287,
+      "step": 7400
+    },
+    {
+      "epoch": 3.472352389878163,
+      "grad_norm": 1.3853079080581665,
+      "learning_rate": 1.782977975632615e-05,
+      "loss": 0.1273,
+      "step": 7410
+    },
+    {
+      "epoch": 3.477038425492034,
+      "grad_norm": 1.938225269317627,
+      "learning_rate": 1.782685098406748e-05,
+      "loss": 0.1381,
+      "step": 7420
+    },
+    {
+      "epoch": 3.4817244611059044,
+      "grad_norm": 1.4750497341156006,
+      "learning_rate": 1.7823922211808812e-05,
+      "loss": 0.1173,
+      "step": 7430
+    },
+    {
+      "epoch": 3.486410496719775,
+      "grad_norm": 1.421303391456604,
+      "learning_rate": 1.7820993439550142e-05,
+      "loss": 0.104,
+      "step": 7440
+    },
+    {
+      "epoch": 3.491096532333646,
+      "grad_norm": 1.1640669107437134,
+      "learning_rate": 1.781806466729147e-05,
+      "loss": 0.1018,
+      "step": 7450
+    },
+    {
+      "epoch": 3.4957825679475163,
+      "grad_norm": 1.3329296112060547,
+      "learning_rate": 1.7815135895032804e-05,
+      "loss": 0.1127,
+      "step": 7460
+    },
+    {
+      "epoch": 3.5004686035613872,
+      "grad_norm": 2.0254921913146973,
+      "learning_rate": 1.7812207122774134e-05,
+      "loss": 0.1361,
+      "step": 7470
+    },
+    {
+      "epoch": 3.5051546391752577,
+      "grad_norm": 1.3234291076660156,
+      "learning_rate": 1.7809278350515463e-05,
+      "loss": 0.1211,
+      "step": 7480
+    },
+    {
+      "epoch": 3.509840674789128,
+      "grad_norm": 1.448867678642273,
+      "learning_rate": 1.7806349578256796e-05,
+      "loss": 0.0999,
+      "step": 7490
+    },
+    {
+      "epoch": 3.514526710402999,
+      "grad_norm": 1.56028151512146,
+      "learning_rate": 1.7803420805998125e-05,
+      "loss": 0.1003,
+      "step": 7500
+    },
+    {
+      "epoch": 3.514526710402999,
+      "eval_loss": 0.031522952020168304,
+      "eval_pearson_cosine": 0.81808882827319,
+      "eval_pearson_dot": 0.750183242563736,
+      "eval_pearson_euclidean": 0.7941389529600116,
+      "eval_pearson_manhattan": 0.7963593749181541,
+      "eval_runtime": 3.4063,
+      "eval_samples_per_second": 440.357,
+      "eval_spearman_cosine": 0.8172168876953952,
+      "eval_spearman_dot": 0.7505334150938179,
+      "eval_spearman_euclidean": 0.8027508928771647,
+      "eval_spearman_manhattan": 0.8047390955898335,
+      "eval_steps_per_second": 27.596,
+      "step": 7500
+    },
+    {
+      "epoch": 3.5192127460168696,
+      "grad_norm": 1.775154948234558,
+      "learning_rate": 1.780049203373946e-05,
+      "loss": 0.1058,
+      "step": 7510
+    },
+    {
+      "epoch": 3.5238987816307406,
+      "grad_norm": 2.034623622894287,
+      "learning_rate": 1.7797563261480788e-05,
+      "loss": 0.1198,
+      "step": 7520
+    },
+    {
+      "epoch": 3.528584817244611,
+      "grad_norm": 2.037757635116577,
+      "learning_rate": 1.779463448922212e-05,
+      "loss": 0.1047,
+      "step": 7530
+    },
+    {
+      "epoch": 3.5332708528584815,
+      "grad_norm": 1.7488856315612793,
+      "learning_rate": 1.779170571696345e-05,
+      "loss": 0.1096,
+      "step": 7540
+    },
+    {
+      "epoch": 3.5379568884723525,
+      "grad_norm": 1.4379994869232178,
+      "learning_rate": 1.7788776944704783e-05,
+      "loss": 0.1294,
+      "step": 7550
+    },
+    {
+      "epoch": 3.542642924086223,
+      "grad_norm": 1.6399285793304443,
+      "learning_rate": 1.7785848172446113e-05,
+      "loss": 0.1022,
+      "step": 7560
+    },
+    {
+      "epoch": 3.547328959700094,
+      "grad_norm": 2.018709182739258,
+      "learning_rate": 1.7782919400187446e-05,
+      "loss": 0.1109,
+      "step": 7570
+    },
+    {
+      "epoch": 3.5520149953139644,
+      "grad_norm": 0.8838659524917603,
+      "learning_rate": 1.7779990627928775e-05,
+      "loss": 0.1174,
+      "step": 7580
+    },
+    {
+      "epoch": 3.556701030927835,
+      "grad_norm": 2.33553147315979,
+      "learning_rate": 1.7777061855670105e-05,
+      "loss": 0.1303,
+      "step": 7590
+    },
+    {
+      "epoch": 3.561387066541706,
+      "grad_norm": 1.3626232147216797,
+      "learning_rate": 1.7774133083411434e-05,
+      "loss": 0.1261,
+      "step": 7600
+    },
+    {
+      "epoch": 3.5660731021555763,
+      "grad_norm": 1.8817883729934692,
+      "learning_rate": 1.7771204311152767e-05,
+      "loss": 0.129,
+      "step": 7610
+    },
+    {
+      "epoch": 3.570759137769447,
+      "grad_norm": 1.817522644996643,
+      "learning_rate": 1.7768275538894096e-05,
+      "loss": 0.1029,
+      "step": 7620
+    },
+    {
+      "epoch": 3.5754451733833177,
+      "grad_norm": 2.126809597015381,
+      "learning_rate": 1.7765346766635426e-05,
+      "loss": 0.133,
+      "step": 7630
+    },
+    {
+      "epoch": 3.580131208997188,
+      "grad_norm": 1.5726145505905151,
+      "learning_rate": 1.776241799437676e-05,
+      "loss": 0.1174,
+      "step": 7640
+    },
+    {
+      "epoch": 3.584817244611059,
+      "grad_norm": 1.2460345029830933,
+      "learning_rate": 1.7759489222118088e-05,
+      "loss": 0.104,
+      "step": 7650
+    },
+    {
+      "epoch": 3.5895032802249296,
+      "grad_norm": 0.8555458784103394,
+      "learning_rate": 1.775656044985942e-05,
+      "loss": 0.0922,
+      "step": 7660
+    },
+    {
+      "epoch": 3.5941893158388005,
+      "grad_norm": 1.0801823139190674,
+      "learning_rate": 1.775363167760075e-05,
+      "loss": 0.1155,
+      "step": 7670
+    },
+    {
+      "epoch": 3.598875351452671,
+      "grad_norm": 1.5534123182296753,
+      "learning_rate": 1.775070290534208e-05,
+      "loss": 0.1188,
+      "step": 7680
+    },
+    {
+      "epoch": 3.6035613870665415,
+      "grad_norm": 1.877568244934082,
+      "learning_rate": 1.7747774133083413e-05,
+      "loss": 0.1247,
+      "step": 7690
+    },
+    {
+      "epoch": 3.6082474226804124,
+      "grad_norm": 1.3344906568527222,
+      "learning_rate": 1.7744845360824743e-05,
+      "loss": 0.1026,
+      "step": 7700
+    },
+    {
+      "epoch": 3.612933458294283,
+      "grad_norm": 1.3001571893692017,
+      "learning_rate": 1.7741916588566075e-05,
+      "loss": 0.1084,
+      "step": 7710
+    },
+    {
+      "epoch": 3.617619493908154,
+      "grad_norm": 1.6098321676254272,
+      "learning_rate": 1.7738987816307405e-05,
+      "loss": 0.1198,
+      "step": 7720
+    },
+    {
+      "epoch": 3.6223055295220243,
+      "grad_norm": 1.9912426471710205,
+      "learning_rate": 1.7736059044048738e-05,
+      "loss": 0.1207,
+      "step": 7730
+    },
+    {
+      "epoch": 3.626991565135895,
+      "grad_norm": 1.3719514608383179,
+      "learning_rate": 1.7733130271790067e-05,
+      "loss": 0.1146,
+      "step": 7740
+    },
+    {
+      "epoch": 3.6316776007497658,
+      "grad_norm": 1.8076539039611816,
+      "learning_rate": 1.77302014995314e-05,
+      "loss": 0.1237,
+      "step": 7750
+    },
+    {
+      "epoch": 3.6316776007497658,
+      "eval_loss": 0.030823856592178345,
+      "eval_pearson_cosine": 0.8190383769297682,
+      "eval_pearson_dot": 0.7588954827942871,
+      "eval_pearson_euclidean": 0.7885622153014467,
+      "eval_pearson_manhattan": 0.7914609723187311,
+      "eval_runtime": 3.3684,
+      "eval_samples_per_second": 445.315,
+      "eval_spearman_cosine": 0.8178038191764202,
+      "eval_spearman_dot": 0.7582507405982527,
+      "eval_spearman_euclidean": 0.7968649602561575,
+      "eval_spearman_manhattan": 0.7990160021869986,
+      "eval_steps_per_second": 27.906,
+      "step": 7750
+    },
+    {
+      "epoch": 3.6363636363636362,
+      "grad_norm": 1.93159818649292,
+      "learning_rate": 1.772727272727273e-05,
+      "loss": 0.1406,
+      "step": 7760
+    },
+    {
+      "epoch": 3.641049671977507,
+      "grad_norm": 1.5332342386245728,
+      "learning_rate": 1.772434395501406e-05,
+      "loss": 0.1012,
+      "step": 7770
+    },
+    {
+      "epoch": 3.6457357075913777,
+      "grad_norm": 1.2360097169876099,
+      "learning_rate": 1.772141518275539e-05,
+      "loss": 0.1226,
+      "step": 7780
+    },
+    {
+      "epoch": 3.650421743205248,
+      "grad_norm": 1.1280817985534668,
+      "learning_rate": 1.771848641049672e-05,
+      "loss": 0.1096,
+      "step": 7790
+    },
+    {
+      "epoch": 3.655107778819119,
+      "grad_norm": 1.785524606704712,
+      "learning_rate": 1.771555763823805e-05,
+      "loss": 0.0999,
+      "step": 7800
+    },
+    {
+      "epoch": 3.6597938144329896,
+      "grad_norm": 1.4114161729812622,
+      "learning_rate": 1.771262886597938e-05,
+      "loss": 0.1516,
+      "step": 7810
+    },
+    {
+      "epoch": 3.6644798500468605,
+      "grad_norm": 0.764554500579834,
+      "learning_rate": 1.7709700093720713e-05,
+      "loss": 0.1187,
+      "step": 7820
+    },
+    {
+      "epoch": 3.669165885660731,
+      "grad_norm": 1.6357208490371704,
+      "learning_rate": 1.7706771321462043e-05,
+      "loss": 0.125,
+      "step": 7830
+    },
+    {
+      "epoch": 3.6738519212746015,
+      "grad_norm": 1.6706812381744385,
+      "learning_rate": 1.7703842549203376e-05,
+      "loss": 0.1231,
+      "step": 7840
+    },
+    {
+      "epoch": 3.6785379568884724,
+      "grad_norm": 1.300350308418274,
+      "learning_rate": 1.7700913776944705e-05,
+      "loss": 0.1322,
+      "step": 7850
+    },
+    {
+      "epoch": 3.683223992502343,
+      "grad_norm": 2.3312079906463623,
+      "learning_rate": 1.7697985004686038e-05,
+      "loss": 0.1215,
+      "step": 7860
+    },
+    {
+      "epoch": 3.687910028116214,
+      "grad_norm": 1.8526086807250977,
+      "learning_rate": 1.7695056232427368e-05,
+      "loss": 0.1221,
+      "step": 7870
+    },
+    {
+      "epoch": 3.6925960637300843,
+      "grad_norm": 1.1056420803070068,
+      "learning_rate": 1.7692127460168697e-05,
+      "loss": 0.1133,
+      "step": 7880
+    },
+    {
+      "epoch": 3.697282099343955,
+      "grad_norm": 1.6572386026382446,
+      "learning_rate": 1.768919868791003e-05,
+      "loss": 0.1088,
+      "step": 7890
+    },
+    {
+      "epoch": 3.7019681349578257,
+      "grad_norm": 2.0055267810821533,
+      "learning_rate": 1.768626991565136e-05,
+      "loss": 0.1329,
+      "step": 7900
+    },
+    {
+      "epoch": 3.706654170571696,
+      "grad_norm": 1.336578130722046,
+      "learning_rate": 1.7683341143392693e-05,
+      "loss": 0.1383,
+      "step": 7910
+    },
+    {
+      "epoch": 3.711340206185567,
+      "grad_norm": 1.4480973482131958,
+      "learning_rate": 1.7680412371134022e-05,
+      "loss": 0.1315,
+      "step": 7920
+    },
+    {
+      "epoch": 3.7160262417994376,
+      "grad_norm": 1.1693243980407715,
+      "learning_rate": 1.7677483598875355e-05,
+      "loss": 0.1103,
+      "step": 7930
+    },
+    {
+      "epoch": 3.720712277413308,
+      "grad_norm": 1.479332447052002,
+      "learning_rate": 1.7674554826616684e-05,
+      "loss": 0.1113,
+      "step": 7940
+    },
+    {
+      "epoch": 3.725398313027179,
+      "grad_norm": 1.9750406742095947,
+      "learning_rate": 1.7671626054358014e-05,
+      "loss": 0.1241,
+      "step": 7950
+    },
+    {
+      "epoch": 3.7300843486410495,
+      "grad_norm": 1.7816461324691772,
+      "learning_rate": 1.7668697282099347e-05,
+      "loss": 0.1437,
+      "step": 7960
+    },
+    {
+      "epoch": 3.7347703842549205,
+      "grad_norm": 1.6916552782058716,
+      "learning_rate": 1.7665768509840676e-05,
+      "loss": 0.1114,
+      "step": 7970
+    },
+    {
+      "epoch": 3.739456419868791,
+      "grad_norm": 2.0555579662323,
+      "learning_rate": 1.7662839737582006e-05,
+      "loss": 0.1294,
+      "step": 7980
+    },
+    {
+      "epoch": 3.7441424554826614,
+      "grad_norm": 1.6788338422775269,
+      "learning_rate": 1.7659910965323335e-05,
+      "loss": 0.1097,
+      "step": 7990
+    },
+    {
+      "epoch": 3.7488284910965324,
+      "grad_norm": 1.449519395828247,
+      "learning_rate": 1.7656982193064668e-05,
+      "loss": 0.0991,
+      "step": 8000
+    },
+    {
+      "epoch": 3.7488284910965324,
+      "eval_loss": 0.031480398029088974,
+      "eval_pearson_cosine": 0.8186177727574986,
+      "eval_pearson_dot": 0.7539932234321896,
+      "eval_pearson_euclidean": 0.7925447531882952,
+      "eval_pearson_manhattan": 0.7952092015244716,
+      "eval_runtime": 3.1967,
+      "eval_samples_per_second": 469.239,
+      "eval_spearman_cosine": 0.8171537163292079,
+      "eval_spearman_dot": 0.7531451005912094,
+      "eval_spearman_euclidean": 0.8000355030273796,
+      "eval_spearman_manhattan": 0.8023527525471515,
+      "eval_steps_per_second": 29.406,
+      "step": 8000
     }
   ],
   "logging_steps": 10,