Training in progress, step 8000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9633a850a059cf491302b372793014c9f51d624cecee02d810f1ffb4f948cb5a
 size 613004648

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1964f2d5c44ba4b4c7469db7fbf8939a22f3ba4ba4fc4a9f4f93ad2d0dc89b1
 size 613004648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ecb623df2903c40cf6dd05e8ef7a7d544e2ade6ea023dc6571c5439d0804ef0
 size 1226096954

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd9ace385e6a3aedc5db9e21d5d93eaf44570601ca89516573fdb084906c785a
 size 1226096954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9819055317e0aa1215ad120239bc4cecc175225c0dc18c98ca0bffe9f465133f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff2a98b7b58dd272a86869334fd0edf641ab47ceb102b634b242c3ff92151a26
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9e4824f828cb336ae95eabed6c26dfd8b564a017ccd96bc4ddd4d495508006c
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:f41a5cf6a87e1088bf38fb8d7948db1a1b81802306d68edaf56a922e0f3b1c95
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.280224929709466,
   "eval_steps": 250,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5355,6 +5355,770 @@
       "eval_spearman_manhattan": 0.767145329588772,
       "eval_steps_per_second": 37.861,
       "step": 7000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.7488284910965324,
   "eval_steps": 250,
+  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.767145329588772,
       "eval_steps_per_second": 37.861,
       "step": 7000
+    },
+    {
+      "epoch": 3.2849109653233364,
+      "grad_norm": 2.2868146896362305,
+      "learning_rate": 9.589386129334584e-06,
+      "loss": 0.1909,
+      "step": 7010
+    },
+    {
+      "epoch": 3.2895970009372073,
+      "grad_norm": 2.2928576469421387,
+      "learning_rate": 9.58880037488285e-06,
+      "loss": 0.1867,
+      "step": 7020
+    },
+    {
+      "epoch": 3.294283036551078,
+      "grad_norm": 2.36120343208313,
+      "learning_rate": 9.588214620431116e-06,
+      "loss": 0.2003,
+      "step": 7030
+    },
+    {
+      "epoch": 3.2989690721649483,
+      "grad_norm": 2.88966965675354,
+      "learning_rate": 9.587628865979383e-06,
+      "loss": 0.1916,
+      "step": 7040
+    },
+    {
+      "epoch": 3.303655107778819,
+      "grad_norm": 3.188649892807007,
+      "learning_rate": 9.587043111527648e-06,
+      "loss": 0.1839,
+      "step": 7050
+    },
+    {
+      "epoch": 3.3083411433926897,
+      "grad_norm": 2.4474985599517822,
+      "learning_rate": 9.586457357075915e-06,
+      "loss": 0.2007,
+      "step": 7060
+    },
+    {
+      "epoch": 3.3130271790065606,
+      "grad_norm": 3.1308703422546387,
+      "learning_rate": 9.58587160262418e-06,
+      "loss": 0.2049,
+      "step": 7070
+    },
+    {
+      "epoch": 3.317713214620431,
+      "grad_norm": 2.200005292892456,
+      "learning_rate": 9.585285848172447e-06,
+      "loss": 0.1926,
+      "step": 7080
+    },
+    {
+      "epoch": 3.3223992502343016,
+      "grad_norm": 3.012788772583008,
+      "learning_rate": 9.584700093720714e-06,
+      "loss": 0.1753,
+      "step": 7090
+    },
+    {
+      "epoch": 3.3270852858481725,
+      "grad_norm": 2.8640036582946777,
+      "learning_rate": 9.58411433926898e-06,
+      "loss": 0.2004,
+      "step": 7100
+    },
+    {
+      "epoch": 3.331771321462043,
+      "grad_norm": 2.8414249420166016,
+      "learning_rate": 9.583528584817245e-06,
+      "loss": 0.22,
+      "step": 7110
+    },
+    {
+      "epoch": 3.336457357075914,
+      "grad_norm": 3.137575149536133,
+      "learning_rate": 9.582942830365512e-06,
+      "loss": 0.1985,
+      "step": 7120
+    },
+    {
+      "epoch": 3.3411433926897844,
+      "grad_norm": 3.0193729400634766,
+      "learning_rate": 9.582357075913777e-06,
+      "loss": 0.1918,
+      "step": 7130
+    },
+    {
+      "epoch": 3.345829428303655,
+      "grad_norm": 2.8278656005859375,
+      "learning_rate": 9.581771321462044e-06,
+      "loss": 0.2042,
+      "step": 7140
+    },
+    {
+      "epoch": 3.350515463917526,
+      "grad_norm": 3.6021783351898193,
+      "learning_rate": 9.58118556701031e-06,
+      "loss": 0.2013,
+      "step": 7150
+    },
+    {
+      "epoch": 3.3552014995313963,
+      "grad_norm": 2.698171615600586,
+      "learning_rate": 9.580599812558576e-06,
+      "loss": 0.1776,
+      "step": 7160
+    },
+    {
+      "epoch": 3.3598875351452673,
+      "grad_norm": 2.7866642475128174,
+      "learning_rate": 9.580014058106843e-06,
+      "loss": 0.2219,
+      "step": 7170
+    },
+    {
+      "epoch": 3.3645735707591378,
+      "grad_norm": 2.216646671295166,
+      "learning_rate": 9.579428303655108e-06,
+      "loss": 0.1971,
+      "step": 7180
+    },
+    {
+      "epoch": 3.3692596063730083,
+      "grad_norm": 2.300733804702759,
+      "learning_rate": 9.578842549203375e-06,
+      "loss": 0.1866,
+      "step": 7190
+    },
+    {
+      "epoch": 3.373945641986879,
+      "grad_norm": 2.985243320465088,
+      "learning_rate": 9.578256794751642e-06,
+      "loss": 0.1884,
+      "step": 7200
+    },
+    {
+      "epoch": 3.3786316776007497,
+      "grad_norm": 2.4142348766326904,
+      "learning_rate": 9.577671040299907e-06,
+      "loss": 0.2,
+      "step": 7210
+    },
+    {
+      "epoch": 3.3833177132146206,
+      "grad_norm": 3.3411073684692383,
+      "learning_rate": 9.577085285848174e-06,
+      "loss": 0.1961,
+      "step": 7220
+    },
+    {
+      "epoch": 3.388003748828491,
+      "grad_norm": 2.240095376968384,
+      "learning_rate": 9.57649953139644e-06,
+      "loss": 0.1759,
+      "step": 7230
+    },
+    {
+      "epoch": 3.3926897844423616,
+      "grad_norm": 2.9961328506469727,
+      "learning_rate": 9.575913776944706e-06,
+      "loss": 0.2184,
+      "step": 7240
+    },
+    {
+      "epoch": 3.3973758200562325,
+      "grad_norm": 3.188340663909912,
+      "learning_rate": 9.575328022492971e-06,
+      "loss": 0.225,
+      "step": 7250
+    },
+    {
+      "epoch": 3.3973758200562325,
+      "eval_loss": 0.05125829204916954,
+      "eval_pearson_cosine": 0.7683713936958014,
+      "eval_pearson_dot": 0.5867459849479424,
+      "eval_pearson_euclidean": 0.7513948436830518,
+      "eval_pearson_manhattan": 0.7514791526214619,
+      "eval_runtime": 39.3707,
+      "eval_samples_per_second": 38.099,
+      "eval_spearman_cosine": 0.7749219401036014,
+      "eval_spearman_dot": 0.589399728241704,
+      "eval_spearman_euclidean": 0.7692196211001016,
+      "eval_spearman_manhattan": 0.7689230301417627,
+      "eval_steps_per_second": 38.099,
+      "step": 7250
+    },
+    {
+      "epoch": 3.402061855670103,
+      "grad_norm": 2.632519006729126,
+      "learning_rate": 9.574742268041238e-06,
+      "loss": 0.2081,
+      "step": 7260
+    },
+    {
+      "epoch": 3.406747891283974,
+      "grad_norm": 2.775071620941162,
+      "learning_rate": 9.574156513589503e-06,
+      "loss": 0.2054,
+      "step": 7270
+    },
+    {
+      "epoch": 3.4114339268978444,
+      "grad_norm": 2.4009063243865967,
+      "learning_rate": 9.57357075913777e-06,
+      "loss": 0.188,
+      "step": 7280
+    },
+    {
+      "epoch": 3.416119962511715,
+      "grad_norm": 3.2851004600524902,
+      "learning_rate": 9.572985004686036e-06,
+      "loss": 0.1901,
+      "step": 7290
+    },
+    {
+      "epoch": 3.420805998125586,
+      "grad_norm": 2.978980541229248,
+      "learning_rate": 9.572399250234303e-06,
+      "loss": 0.1906,
+      "step": 7300
+    },
+    {
+      "epoch": 3.4254920337394563,
+      "grad_norm": 3.4765729904174805,
+      "learning_rate": 9.57181349578257e-06,
+      "loss": 0.163,
+      "step": 7310
+    },
+    {
+      "epoch": 3.4301780693533273,
+      "grad_norm": 2.3053479194641113,
+      "learning_rate": 9.571227741330835e-06,
+      "loss": 0.2051,
+      "step": 7320
+    },
+    {
+      "epoch": 3.4348641049671977,
+      "grad_norm": 2.520573139190674,
+      "learning_rate": 9.570641986879102e-06,
+      "loss": 0.2171,
+      "step": 7330
+    },
+    {
+      "epoch": 3.4395501405810682,
+      "grad_norm": 2.7145869731903076,
+      "learning_rate": 9.570056232427367e-06,
+      "loss": 0.1946,
+      "step": 7340
+    },
+    {
+      "epoch": 3.444236176194939,
+      "grad_norm": 2.9998998641967773,
+      "learning_rate": 9.569470477975634e-06,
+      "loss": 0.1942,
+      "step": 7350
+    },
+    {
+      "epoch": 3.4489222118088096,
+      "grad_norm": 3.165696620941162,
+      "learning_rate": 9.568884723523899e-06,
+      "loss": 0.2204,
+      "step": 7360
+    },
+    {
+      "epoch": 3.4536082474226806,
+      "grad_norm": 2.271026849746704,
+      "learning_rate": 9.568298969072166e-06,
+      "loss": 0.1974,
+      "step": 7370
+    },
+    {
+      "epoch": 3.458294283036551,
+      "grad_norm": 2.50876522064209,
+      "learning_rate": 9.567713214620433e-06,
+      "loss": 0.1998,
+      "step": 7380
+    },
+    {
+      "epoch": 3.4629803186504216,
+      "grad_norm": 2.734961986541748,
+      "learning_rate": 9.567127460168698e-06,
+      "loss": 0.1918,
+      "step": 7390
+    },
+    {
+      "epoch": 3.4676663542642925,
+      "grad_norm": 2.7971320152282715,
+      "learning_rate": 9.566541705716965e-06,
+      "loss": 0.2187,
+      "step": 7400
+    },
+    {
+      "epoch": 3.472352389878163,
+      "grad_norm": 2.5854151248931885,
+      "learning_rate": 9.56595595126523e-06,
+      "loss": 0.1825,
+      "step": 7410
+    },
+    {
+      "epoch": 3.477038425492034,
+      "grad_norm": 3.7421298027038574,
+      "learning_rate": 9.565370196813497e-06,
+      "loss": 0.2332,
+      "step": 7420
+    },
+    {
+      "epoch": 3.4817244611059044,
+      "grad_norm": 3.0620522499084473,
+      "learning_rate": 9.564784442361762e-06,
+      "loss": 0.1976,
+      "step": 7430
+    },
+    {
+      "epoch": 3.486410496719775,
+      "grad_norm": 2.0397024154663086,
+      "learning_rate": 9.56419868791003e-06,
+      "loss": 0.1765,
+      "step": 7440
+    },
+    {
+      "epoch": 3.491096532333646,
+      "grad_norm": 3.286588191986084,
+      "learning_rate": 9.563612933458294e-06,
+      "loss": 0.2395,
+      "step": 7450
+    },
+    {
+      "epoch": 3.4957825679475163,
+      "grad_norm": 2.812507390975952,
+      "learning_rate": 9.563027179006561e-06,
+      "loss": 0.1873,
+      "step": 7460
+    },
+    {
+      "epoch": 3.5004686035613872,
+      "grad_norm": 3.213799476623535,
+      "learning_rate": 9.562441424554827e-06,
+      "loss": 0.2309,
+      "step": 7470
+    },
+    {
+      "epoch": 3.5051546391752577,
+      "grad_norm": 2.9520084857940674,
+      "learning_rate": 9.561855670103093e-06,
+      "loss": 0.1993,
+      "step": 7480
+    },
+    {
+      "epoch": 3.509840674789128,
+      "grad_norm": 2.5035924911499023,
+      "learning_rate": 9.56126991565136e-06,
+      "loss": 0.1745,
+      "step": 7490
+    },
+    {
+      "epoch": 3.514526710402999,
+      "grad_norm": 1.8526318073272705,
+      "learning_rate": 9.560684161199626e-06,
+      "loss": 0.1748,
+      "step": 7500
+    },
+    {
+      "epoch": 3.514526710402999,
+      "eval_loss": 0.050157614052295685,
+      "eval_pearson_cosine": 0.7752481977984473,
+      "eval_pearson_dot": 0.5877283656585206,
+      "eval_pearson_euclidean": 0.7460582363929404,
+      "eval_pearson_manhattan": 0.7459100147594686,
+      "eval_runtime": 42.2146,
+      "eval_samples_per_second": 35.533,
+      "eval_spearman_cosine": 0.7800582604837842,
+      "eval_spearman_dot": 0.5948918375623936,
+      "eval_spearman_euclidean": 0.7635782236371852,
+      "eval_spearman_manhattan": 0.7629943017245161,
+      "eval_steps_per_second": 35.533,
+      "step": 7500
+    },
+    {
+      "epoch": 3.5192127460168696,
+      "grad_norm": 2.638265371322632,
+      "learning_rate": 9.560098406747893e-06,
+      "loss": 0.1919,
+      "step": 7510
+    },
+    {
+      "epoch": 3.5238987816307406,
+      "grad_norm": 2.9258508682250977,
+      "learning_rate": 9.559512652296158e-06,
+      "loss": 0.2036,
+      "step": 7520
+    },
+    {
+      "epoch": 3.528584817244611,
+      "grad_norm": 3.6239101886749268,
+      "learning_rate": 9.558926897844425e-06,
+      "loss": 0.1855,
+      "step": 7530
+    },
+    {
+      "epoch": 3.5332708528584815,
+      "grad_norm": 3.1037397384643555,
+      "learning_rate": 9.558341143392692e-06,
+      "loss": 0.2081,
+      "step": 7540
+    },
+    {
+      "epoch": 3.5379568884723525,
+      "grad_norm": 2.8824028968811035,
+      "learning_rate": 9.557755388940957e-06,
+      "loss": 0.2028,
+      "step": 7550
+    },
+    {
+      "epoch": 3.542642924086223,
+      "grad_norm": 2.8066060543060303,
+      "learning_rate": 9.557169634489224e-06,
+      "loss": 0.2031,
+      "step": 7560
+    },
+    {
+      "epoch": 3.547328959700094,
+      "grad_norm": 3.691577911376953,
+      "learning_rate": 9.556583880037489e-06,
+      "loss": 0.2095,
+      "step": 7570
+    },
+    {
+      "epoch": 3.5520149953139644,
+      "grad_norm": 1.769102692604065,
+      "learning_rate": 9.555998125585754e-06,
+      "loss": 0.1927,
+      "step": 7580
+    },
+    {
+      "epoch": 3.556701030927835,
+      "grad_norm": 3.4198482036590576,
+      "learning_rate": 9.555412371134021e-06,
+      "loss": 0.217,
+      "step": 7590
+    },
+    {
+      "epoch": 3.561387066541706,
+      "grad_norm": 2.0379226207733154,
+      "learning_rate": 9.554826616682288e-06,
+      "loss": 0.1977,
+      "step": 7600
+    },
+    {
+      "epoch": 3.5660731021555763,
+      "grad_norm": 2.7821481227874756,
+      "learning_rate": 9.554240862230553e-06,
+      "loss": 0.2084,
+      "step": 7610
+    },
+    {
+      "epoch": 3.570759137769447,
+      "grad_norm": 2.9597930908203125,
+      "learning_rate": 9.55365510777882e-06,
+      "loss": 0.1858,
+      "step": 7620
+    },
+    {
+      "epoch": 3.5754451733833177,
+      "grad_norm": 3.193235397338867,
+      "learning_rate": 9.553069353327085e-06,
+      "loss": 0.1936,
+      "step": 7630
+    },
+    {
+      "epoch": 3.580131208997188,
+      "grad_norm": 2.8011372089385986,
+      "learning_rate": 9.552483598875352e-06,
+      "loss": 0.1958,
+      "step": 7640
+    },
+    {
+      "epoch": 3.584817244611059,
+      "grad_norm": 2.2420766353607178,
+      "learning_rate": 9.55189784442362e-06,
+      "loss": 0.1988,
+      "step": 7650
+    },
+    {
+      "epoch": 3.5895032802249296,
+      "grad_norm": 2.6297037601470947,
+      "learning_rate": 9.551312089971884e-06,
+      "loss": 0.1809,
+      "step": 7660
+    },
+    {
+      "epoch": 3.5941893158388005,
+      "grad_norm": 2.1531927585601807,
+      "learning_rate": 9.550726335520151e-06,
+      "loss": 0.197,
+      "step": 7670
+    },
+    {
+      "epoch": 3.598875351452671,
+      "grad_norm": 3.1594254970550537,
+      "learning_rate": 9.550140581068417e-06,
+      "loss": 0.2049,
+      "step": 7680
+    },
+    {
+      "epoch": 3.6035613870665415,
+      "grad_norm": 3.0111396312713623,
+      "learning_rate": 9.549554826616683e-06,
+      "loss": 0.2213,
+      "step": 7690
+    },
+    {
+      "epoch": 3.6082474226804124,
+      "grad_norm": 2.9145541191101074,
+      "learning_rate": 9.54896907216495e-06,
+      "loss": 0.2027,
+      "step": 7700
+    },
+    {
+      "epoch": 3.612933458294283,
+      "grad_norm": 2.465318441390991,
+      "learning_rate": 9.548383317713216e-06,
+      "loss": 0.1937,
+      "step": 7710
+    },
+    {
+      "epoch": 3.617619493908154,
+      "grad_norm": 2.6440296173095703,
+      "learning_rate": 9.547797563261482e-06,
+      "loss": 0.2379,
+      "step": 7720
+    },
+    {
+      "epoch": 3.6223055295220243,
+      "grad_norm": 3.0767295360565186,
+      "learning_rate": 9.547211808809748e-06,
+      "loss": 0.2245,
+      "step": 7730
+    },
+    {
+      "epoch": 3.626991565135895,
+      "grad_norm": 2.5648956298828125,
+      "learning_rate": 9.546626054358013e-06,
+      "loss": 0.2085,
+      "step": 7740
+    },
+    {
+      "epoch": 3.6316776007497658,
+      "grad_norm": 2.750375509262085,
+      "learning_rate": 9.54604029990628e-06,
+      "loss": 0.2045,
+      "step": 7750
+    },
+    {
+      "epoch": 3.6316776007497658,
+      "eval_loss": 0.0512368269264698,
+      "eval_pearson_cosine": 0.7786877204785156,
+      "eval_pearson_dot": 0.6112588074907244,
+      "eval_pearson_euclidean": 0.7460156578487087,
+      "eval_pearson_manhattan": 0.7457383323528859,
+      "eval_runtime": 40.2911,
+      "eval_samples_per_second": 37.229,
+      "eval_spearman_cosine": 0.7855704741784334,
+      "eval_spearman_dot": 0.615574294440821,
+      "eval_spearman_euclidean": 0.764218948503257,
+      "eval_spearman_manhattan": 0.7636335157024128,
+      "eval_steps_per_second": 37.229,
+      "step": 7750
+    },
+    {
+      "epoch": 3.6363636363636362,
+      "grad_norm": 2.703327178955078,
+      "learning_rate": 9.545454545454547e-06,
+      "loss": 0.2241,
+      "step": 7760
+    },
+    {
+      "epoch": 3.641049671977507,
+      "grad_norm": 2.124490976333618,
+      "learning_rate": 9.544868791002812e-06,
+      "loss": 0.1919,
+      "step": 7770
+    },
+    {
+      "epoch": 3.6457357075913777,
+      "grad_norm": 2.9296751022338867,
+      "learning_rate": 9.544283036551079e-06,
+      "loss": 0.2316,
+      "step": 7780
+    },
+    {
+      "epoch": 3.650421743205248,
+      "grad_norm": 2.1380982398986816,
+      "learning_rate": 9.543697282099344e-06,
+      "loss": 0.2119,
+      "step": 7790
+    },
+    {
+      "epoch": 3.655107778819119,
+      "grad_norm": 2.6718966960906982,
+      "learning_rate": 9.543111527647611e-06,
+      "loss": 0.1828,
+      "step": 7800
+    },
+    {
+      "epoch": 3.6597938144329896,
+      "grad_norm": 2.4571399688720703,
+      "learning_rate": 9.542525773195878e-06,
+      "loss": 0.2349,
+      "step": 7810
+    },
+    {
+      "epoch": 3.6644798500468605,
+      "grad_norm": 2.056894540786743,
+      "learning_rate": 9.541940018744143e-06,
+      "loss": 0.1866,
+      "step": 7820
+    },
+    {
+      "epoch": 3.669165885660731,
+      "grad_norm": 2.6094396114349365,
+      "learning_rate": 9.54135426429241e-06,
+      "loss": 0.1974,
+      "step": 7830
+    },
+    {
+      "epoch": 3.6738519212746015,
+      "grad_norm": 2.887286901473999,
+      "learning_rate": 9.540768509840675e-06,
+      "loss": 0.2095,
+      "step": 7840
+    },
+    {
+      "epoch": 3.6785379568884724,
+      "grad_norm": 2.494635581970215,
+      "learning_rate": 9.540182755388942e-06,
+      "loss": 0.2114,
+      "step": 7850
+    },
+    {
+      "epoch": 3.683223992502343,
+      "grad_norm": 3.544060707092285,
+      "learning_rate": 9.539597000937207e-06,
+      "loss": 0.2046,
+      "step": 7860
+    },
+    {
+      "epoch": 3.687910028116214,
+      "grad_norm": 2.7348105907440186,
+      "learning_rate": 9.539011246485474e-06,
+      "loss": 0.1959,
+      "step": 7870
+    },
+    {
+      "epoch": 3.6925960637300843,
+      "grad_norm": 2.1513376235961914,
+      "learning_rate": 9.538425492033741e-06,
+      "loss": 0.1886,
+      "step": 7880
+    },
+    {
+      "epoch": 3.697282099343955,
+      "grad_norm": 3.102924346923828,
+      "learning_rate": 9.537839737582007e-06,
+      "loss": 0.1918,
+      "step": 7890
+    },
+    {
+      "epoch": 3.7019681349578257,
+      "grad_norm": 3.166285276412964,
+      "learning_rate": 9.537253983130272e-06,
+      "loss": 0.241,
+      "step": 7900
+    },
+    {
+      "epoch": 3.706654170571696,
+      "grad_norm": 2.2208495140075684,
+      "learning_rate": 9.536668228678539e-06,
+      "loss": 0.2227,
+      "step": 7910
+    },
+    {
+      "epoch": 3.711340206185567,
+      "grad_norm": 2.3546998500823975,
+      "learning_rate": 9.536082474226806e-06,
+      "loss": 0.1939,
+      "step": 7920
+    },
+    {
+      "epoch": 3.7160262417994376,
+      "grad_norm": 2.840576171875,
+      "learning_rate": 9.53549671977507e-06,
+      "loss": 0.1999,
+      "step": 7930
+    },
+    {
+      "epoch": 3.720712277413308,
+      "grad_norm": 2.5227537155151367,
+      "learning_rate": 9.534910965323338e-06,
+      "loss": 0.1939,
+      "step": 7940
+    },
+    {
+      "epoch": 3.725398313027179,
+      "grad_norm": 2.9870660305023193,
+      "learning_rate": 9.534325210871603e-06,
+      "loss": 0.1905,
+      "step": 7950
+    },
+    {
+      "epoch": 3.7300843486410495,
+      "grad_norm": 2.755246877670288,
+      "learning_rate": 9.53373945641987e-06,
+      "loss": 0.2267,
+      "step": 7960
+    },
+    {
+      "epoch": 3.7347703842549205,
+      "grad_norm": 2.6030502319335938,
+      "learning_rate": 9.533153701968135e-06,
+      "loss": 0.2079,
+      "step": 7970
+    },
+    {
+      "epoch": 3.739456419868791,
+      "grad_norm": 3.440239906311035,
+      "learning_rate": 9.532567947516402e-06,
+      "loss": 0.2159,
+      "step": 7980
+    },
+    {
+      "epoch": 3.7441424554826614,
+      "grad_norm": 2.320068359375,
+      "learning_rate": 9.531982193064669e-06,
+      "loss": 0.204,
+      "step": 7990
+    },
+    {
+      "epoch": 3.7488284910965324,
+      "grad_norm": 1.8982993364334106,
+      "learning_rate": 9.531396438612934e-06,
+      "loss": 0.1821,
+      "step": 8000
+    },
+    {
+      "epoch": 3.7488284910965324,
+      "eval_loss": 0.05020766332745552,
+      "eval_pearson_cosine": 0.7782144788553325,
+      "eval_pearson_dot": 0.6044765942520343,
+      "eval_pearson_euclidean": 0.7544531777073331,
+      "eval_pearson_manhattan": 0.7542794078830823,
+      "eval_runtime": 40.4619,
+      "eval_samples_per_second": 37.072,
+      "eval_spearman_cosine": 0.784196959157774,
+      "eval_spearman_dot": 0.6068889930424554,
+      "eval_spearman_euclidean": 0.7710302682957489,
+      "eval_spearman_manhattan": 0.7707235385401614,
+      "eval_steps_per_second": 37.072,
+      "step": 8000
     }
   ],
   "logging_steps": 10,