Training in progress, step 14000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d153a85db882a8d2ec877dfba2d9b581b46d201ce2501b713d912d9b724be90d
 size 613004648

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7faa7408a314eb81f420ce1f2568d726ce6012f44614f1f2a60a7364bd5ef3f
 size 613004648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e64c3f6b99c05bc4af3b1afc1105f63d286ccdb944360ccc4c6c03aaa0867281
 size 1226096954

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed1cf1b200aa0d0cd19c9252edcac54428c1ac0420162221afb866eff0c7bd48
 size 1226096954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:feb76d7d56395cb464f4c6b097cc298c265886f58499ea053baed20b9e64abbb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:96df60f7a61e3b5eb854abf0dcce2641f189b2c45835fcf9c1fef3b37282da2b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61bccafd9792e811bc7ce6d26e59618969221a81768981a24e66ff1e4f6c92d4
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdb91814ca594bcc53b1d6ad5131ca9e1395fe1b33192ef261102fa12fca871c
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.091846298031865,
   "eval_steps": 250,
-  "global_step": 13000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9939,6 +9939,770 @@
       "eval_spearman_manhattan": 0.752705655614685,
       "eval_steps_per_second": 37.444,
       "step": 13000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.560449859418932,
   "eval_steps": 250,
+  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.752705655614685,
       "eval_steps_per_second": 37.444,
       "step": 13000
+    },
+    {
+      "epoch": 6.096532333645736,
+      "grad_norm": 2.591386556625366,
+      "learning_rate": 9.237933458294283e-06,
+      "loss": 0.074,
+      "step": 13010
+    },
+    {
+      "epoch": 6.101218369259606,
+      "grad_norm": 3.0938313007354736,
+      "learning_rate": 9.23734770384255e-06,
+      "loss": 0.0889,
+      "step": 13020
+    },
+    {
+      "epoch": 6.105904404873477,
+      "grad_norm": 1.073983907699585,
+      "learning_rate": 9.236761949390815e-06,
+      "loss": 0.0702,
+      "step": 13030
+    },
+    {
+      "epoch": 6.110590440487348,
+      "grad_norm": 1.7386090755462646,
+      "learning_rate": 9.236176194939082e-06,
+      "loss": 0.0965,
+      "step": 13040
+    },
+    {
+      "epoch": 6.115276476101219,
+      "grad_norm": 2.1852550506591797,
+      "learning_rate": 9.235590440487349e-06,
+      "loss": 0.0818,
+      "step": 13050
+    },
+    {
+      "epoch": 6.119962511715089,
+      "grad_norm": 2.9571776390075684,
+      "learning_rate": 9.235004686035614e-06,
+      "loss": 0.0909,
+      "step": 13060
+    },
+    {
+      "epoch": 6.12464854732896,
+      "grad_norm": 1.568499207496643,
+      "learning_rate": 9.234418931583881e-06,
+      "loss": 0.0935,
+      "step": 13070
+    },
+    {
+      "epoch": 6.12933458294283,
+      "grad_norm": 2.0286030769348145,
+      "learning_rate": 9.233833177132146e-06,
+      "loss": 0.0923,
+      "step": 13080
+    },
+    {
+      "epoch": 6.134020618556701,
+      "grad_norm": 1.3567001819610596,
+      "learning_rate": 9.233247422680413e-06,
+      "loss": 0.0874,
+      "step": 13090
+    },
+    {
+      "epoch": 6.138706654170572,
+      "grad_norm": 3.1520678997039795,
+      "learning_rate": 9.23266166822868e-06,
+      "loss": 0.0907,
+      "step": 13100
+    },
+    {
+      "epoch": 6.143392689784442,
+      "grad_norm": 1.935091495513916,
+      "learning_rate": 9.232075913776945e-06,
+      "loss": 0.0927,
+      "step": 13110
+    },
+    {
+      "epoch": 6.148078725398313,
+      "grad_norm": 2.9123198986053467,
+      "learning_rate": 9.23149015932521e-06,
+      "loss": 0.0986,
+      "step": 13120
+    },
+    {
+      "epoch": 6.152764761012183,
+      "grad_norm": 2.592006206512451,
+      "learning_rate": 9.230904404873478e-06,
+      "loss": 0.0864,
+      "step": 13130
+    },
+    {
+      "epoch": 6.157450796626055,
+      "grad_norm": 2.0214340686798096,
+      "learning_rate": 9.230318650421743e-06,
+      "loss": 0.1066,
+      "step": 13140
+    },
+    {
+      "epoch": 6.162136832239925,
+      "grad_norm": 1.743891716003418,
+      "learning_rate": 9.22973289597001e-06,
+      "loss": 0.0871,
+      "step": 13150
+    },
+    {
+      "epoch": 6.166822867853796,
+      "grad_norm": 2.368562698364258,
+      "learning_rate": 9.229147141518277e-06,
+      "loss": 0.0754,
+      "step": 13160
+    },
+    {
+      "epoch": 6.171508903467666,
+      "grad_norm": 2.369436264038086,
+      "learning_rate": 9.228561387066542e-06,
+      "loss": 0.0788,
+      "step": 13170
+    },
+    {
+      "epoch": 6.176194939081537,
+      "grad_norm": 1.3312957286834717,
+      "learning_rate": 9.227975632614809e-06,
+      "loss": 0.0816,
+      "step": 13180
+    },
+    {
+      "epoch": 6.180880974695408,
+      "grad_norm": 1.15755295753479,
+      "learning_rate": 9.227389878163074e-06,
+      "loss": 0.0867,
+      "step": 13190
+    },
+    {
+      "epoch": 6.185567010309279,
+      "grad_norm": 1.4255220890045166,
+      "learning_rate": 9.226804123711341e-06,
+      "loss": 0.085,
+      "step": 13200
+    },
+    {
+      "epoch": 6.190253045923149,
+      "grad_norm": 2.264315605163574,
+      "learning_rate": 9.226218369259608e-06,
+      "loss": 0.0939,
+      "step": 13210
+    },
+    {
+      "epoch": 6.1949390815370196,
+      "grad_norm": 1.314502239227295,
+      "learning_rate": 9.225632614807873e-06,
+      "loss": 0.0847,
+      "step": 13220
+    },
+    {
+      "epoch": 6.19962511715089,
+      "grad_norm": 1.463553786277771,
+      "learning_rate": 9.22504686035614e-06,
+      "loss": 0.0733,
+      "step": 13230
+    },
+    {
+      "epoch": 6.204311152764761,
+      "grad_norm": 2.397528648376465,
+      "learning_rate": 9.224461105904405e-06,
+      "loss": 0.1004,
+      "step": 13240
+    },
+    {
+      "epoch": 6.208997188378632,
+      "grad_norm": 1.8068519830703735,
+      "learning_rate": 9.223875351452672e-06,
+      "loss": 0.081,
+      "step": 13250
+    },
+    {
+      "epoch": 6.208997188378632,
+      "eval_loss": 0.04053681343793869,
+      "eval_pearson_cosine": 0.7813660928551514,
+      "eval_pearson_dot": 0.6355779688477607,
+      "eval_pearson_euclidean": 0.7355234843709724,
+      "eval_pearson_manhattan": 0.7352503996205417,
+      "eval_runtime": 39.4829,
+      "eval_samples_per_second": 37.991,
+      "eval_spearman_cosine": 0.7853597304476542,
+      "eval_spearman_dot": 0.6478331015151749,
+      "eval_spearman_euclidean": 0.7514050247961205,
+      "eval_spearman_manhattan": 0.751296576320389,
+      "eval_steps_per_second": 37.991,
+      "step": 13250
+    },
+    {
+      "epoch": 6.213683223992502,
+      "grad_norm": 2.0780019760131836,
+      "learning_rate": 9.223289597000939e-06,
+      "loss": 0.1108,
+      "step": 13260
+    },
+    {
+      "epoch": 6.218369259606373,
+      "grad_norm": 1.3198286294937134,
+      "learning_rate": 9.222703842549204e-06,
+      "loss": 0.0809,
+      "step": 13270
+    },
+    {
+      "epoch": 6.223055295220243,
+      "grad_norm": 1.4620928764343262,
+      "learning_rate": 9.22211808809747e-06,
+      "loss": 0.0803,
+      "step": 13280
+    },
+    {
+      "epoch": 6.227741330834115,
+      "grad_norm": 2.1493215560913086,
+      "learning_rate": 9.221532333645736e-06,
+      "loss": 0.0925,
+      "step": 13290
+    },
+    {
+      "epoch": 6.232427366447985,
+      "grad_norm": 2.0909435749053955,
+      "learning_rate": 9.220946579194002e-06,
+      "loss": 0.1007,
+      "step": 13300
+    },
+    {
+      "epoch": 6.237113402061856,
+      "grad_norm": 1.8717360496520996,
+      "learning_rate": 9.220360824742269e-06,
+      "loss": 0.0907,
+      "step": 13310
+    },
+    {
+      "epoch": 6.241799437675726,
+      "grad_norm": 2.817506790161133,
+      "learning_rate": 9.219775070290535e-06,
+      "loss": 0.1027,
+      "step": 13320
+    },
+    {
+      "epoch": 6.246485473289597,
+      "grad_norm": 2.344900369644165,
+      "learning_rate": 9.2191893158388e-06,
+      "loss": 0.0993,
+      "step": 13330
+    },
+    {
+      "epoch": 6.251171508903468,
+      "grad_norm": 1.5306053161621094,
+      "learning_rate": 9.218603561387068e-06,
+      "loss": 0.0717,
+      "step": 13340
+    },
+    {
+      "epoch": 6.2558575445173386,
+      "grad_norm": 1.2907652854919434,
+      "learning_rate": 9.218017806935333e-06,
+      "loss": 0.0813,
+      "step": 13350
+    },
+    {
+      "epoch": 6.260543580131209,
+      "grad_norm": 2.5026895999908447,
+      "learning_rate": 9.2174320524836e-06,
+      "loss": 0.107,
+      "step": 13360
+    },
+    {
+      "epoch": 6.2652296157450795,
+      "grad_norm": 2.076305389404297,
+      "learning_rate": 9.216846298031867e-06,
+      "loss": 0.0725,
+      "step": 13370
+    },
+    {
+      "epoch": 6.26991565135895,
+      "grad_norm": 2.985992908477783,
+      "learning_rate": 9.216260543580132e-06,
+      "loss": 0.1041,
+      "step": 13380
+    },
+    {
+      "epoch": 6.274601686972821,
+      "grad_norm": 1.430763602256775,
+      "learning_rate": 9.215674789128399e-06,
+      "loss": 0.0941,
+      "step": 13390
+    },
+    {
+      "epoch": 6.279287722586692,
+      "grad_norm": 2.2910046577453613,
+      "learning_rate": 9.215089034676664e-06,
+      "loss": 0.07,
+      "step": 13400
+    },
+    {
+      "epoch": 6.283973758200562,
+      "grad_norm": 2.093707799911499,
+      "learning_rate": 9.214503280224931e-06,
+      "loss": 0.085,
+      "step": 13410
+    },
+    {
+      "epoch": 6.288659793814433,
+      "grad_norm": 1.2367407083511353,
+      "learning_rate": 9.213917525773196e-06,
+      "loss": 0.0895,
+      "step": 13420
+    },
+    {
+      "epoch": 6.293345829428303,
+      "grad_norm": 1.8991947174072266,
+      "learning_rate": 9.213331771321463e-06,
+      "loss": 0.0992,
+      "step": 13430
+    },
+    {
+      "epoch": 6.298031865042175,
+      "grad_norm": 2.4072980880737305,
+      "learning_rate": 9.212746016869728e-06,
+      "loss": 0.1033,
+      "step": 13440
+    },
+    {
+      "epoch": 6.302717900656045,
+      "grad_norm": 1.8667056560516357,
+      "learning_rate": 9.212160262417995e-06,
+      "loss": 0.0825,
+      "step": 13450
+    },
+    {
+      "epoch": 6.307403936269916,
+      "grad_norm": 2.0823960304260254,
+      "learning_rate": 9.21157450796626e-06,
+      "loss": 0.095,
+      "step": 13460
+    },
+    {
+      "epoch": 6.312089971883786,
+      "grad_norm": 1.7069936990737915,
+      "learning_rate": 9.210988753514527e-06,
+      "loss": 0.088,
+      "step": 13470
+    },
+    {
+      "epoch": 6.316776007497657,
+      "grad_norm": 2.103296995162964,
+      "learning_rate": 9.210402999062794e-06,
+      "loss": 0.0867,
+      "step": 13480
+    },
+    {
+      "epoch": 6.321462043111528,
+      "grad_norm": 1.0462993383407593,
+      "learning_rate": 9.20981724461106e-06,
+      "loss": 0.0813,
+      "step": 13490
+    },
+    {
+      "epoch": 6.3261480787253985,
+      "grad_norm": 1.5300264358520508,
+      "learning_rate": 9.209231490159326e-06,
+      "loss": 0.0807,
+      "step": 13500
+    },
+    {
+      "epoch": 6.3261480787253985,
+      "eval_loss": 0.040135517716407776,
+      "eval_pearson_cosine": 0.7837547061964756,
+      "eval_pearson_dot": 0.6449662712980881,
+      "eval_pearson_euclidean": 0.7344489051322731,
+      "eval_pearson_manhattan": 0.733928021220585,
+      "eval_runtime": 40.9066,
+      "eval_samples_per_second": 36.669,
+      "eval_spearman_cosine": 0.787895557874529,
+      "eval_spearman_dot": 0.6615144668773622,
+      "eval_spearman_euclidean": 0.7513080603143243,
+      "eval_spearman_manhattan": 0.7509655476151297,
+      "eval_steps_per_second": 36.669,
+      "step": 13500
+    },
+    {
+      "epoch": 6.330834114339269,
+      "grad_norm": 2.420490264892578,
+      "learning_rate": 9.208645735707592e-06,
+      "loss": 0.086,
+      "step": 13510
+    },
+    {
+      "epoch": 6.3355201499531395,
+      "grad_norm": 2.568124771118164,
+      "learning_rate": 9.208059981255859e-06,
+      "loss": 0.0972,
+      "step": 13520
+    },
+    {
+      "epoch": 6.34020618556701,
+      "grad_norm": 2.0971317291259766,
+      "learning_rate": 9.207474226804124e-06,
+      "loss": 0.0851,
+      "step": 13530
+    },
+    {
+      "epoch": 6.344892221180881,
+      "grad_norm": 2.3092575073242188,
+      "learning_rate": 9.20688847235239e-06,
+      "loss": 0.1103,
+      "step": 13540
+    },
+    {
+      "epoch": 6.349578256794752,
+      "grad_norm": 1.0552003383636475,
+      "learning_rate": 9.206302717900658e-06,
+      "loss": 0.0927,
+      "step": 13550
+    },
+    {
+      "epoch": 6.354264292408622,
+      "grad_norm": 2.5293657779693604,
+      "learning_rate": 9.205716963448923e-06,
+      "loss": 0.0948,
+      "step": 13560
+    },
+    {
+      "epoch": 6.358950328022493,
+      "grad_norm": 2.3516149520874023,
+      "learning_rate": 9.20513120899719e-06,
+      "loss": 0.0997,
+      "step": 13570
+    },
+    {
+      "epoch": 6.363636363636363,
+      "grad_norm": 2.1005942821502686,
+      "learning_rate": 9.204545454545455e-06,
+      "loss": 0.0839,
+      "step": 13580
+    },
+    {
+      "epoch": 6.368322399250235,
+      "grad_norm": 1.8200384378433228,
+      "learning_rate": 9.203959700093722e-06,
+      "loss": 0.0876,
+      "step": 13590
+    },
+    {
+      "epoch": 6.373008434864105,
+      "grad_norm": 2.4939422607421875,
+      "learning_rate": 9.203373945641987e-06,
+      "loss": 0.0912,
+      "step": 13600
+    },
+    {
+      "epoch": 6.377694470477976,
+      "grad_norm": 2.695819616317749,
+      "learning_rate": 9.202788191190254e-06,
+      "loss": 0.0797,
+      "step": 13610
+    },
+    {
+      "epoch": 6.382380506091846,
+      "grad_norm": 2.2140467166900635,
+      "learning_rate": 9.20220243673852e-06,
+      "loss": 0.0908,
+      "step": 13620
+    },
+    {
+      "epoch": 6.387066541705717,
+      "grad_norm": 1.4225996732711792,
+      "learning_rate": 9.201616682286786e-06,
+      "loss": 0.0888,
+      "step": 13630
+    },
+    {
+      "epoch": 6.391752577319588,
+      "grad_norm": 1.8974356651306152,
+      "learning_rate": 9.201030927835051e-06,
+      "loss": 0.0721,
+      "step": 13640
+    },
+    {
+      "epoch": 6.3964386129334585,
+      "grad_norm": 2.853360176086426,
+      "learning_rate": 9.200445173383318e-06,
+      "loss": 0.0998,
+      "step": 13650
+    },
+    {
+      "epoch": 6.401124648547329,
+      "grad_norm": 1.7699189186096191,
+      "learning_rate": 9.199859418931585e-06,
+      "loss": 0.075,
+      "step": 13660
+    },
+    {
+      "epoch": 6.4058106841611995,
+      "grad_norm": 1.9779934883117676,
+      "learning_rate": 9.19927366447985e-06,
+      "loss": 0.0854,
+      "step": 13670
+    },
+    {
+      "epoch": 6.41049671977507,
+      "grad_norm": 1.0165759325027466,
+      "learning_rate": 9.198687910028117e-06,
+      "loss": 0.0694,
+      "step": 13680
+    },
+    {
+      "epoch": 6.415182755388941,
+      "grad_norm": 2.2649970054626465,
+      "learning_rate": 9.198102155576383e-06,
+      "loss": 0.1138,
+      "step": 13690
+    },
+    {
+      "epoch": 6.419868791002812,
+      "grad_norm": 1.683463454246521,
+      "learning_rate": 9.19751640112465e-06,
+      "loss": 0.0838,
+      "step": 13700
+    },
+    {
+      "epoch": 6.424554826616682,
+      "grad_norm": 2.579838275909424,
+      "learning_rate": 9.196930646672916e-06,
+      "loss": 0.1073,
+      "step": 13710
+    },
+    {
+      "epoch": 6.429240862230553,
+      "grad_norm": 2.041942834854126,
+      "learning_rate": 9.196344892221182e-06,
+      "loss": 0.0804,
+      "step": 13720
+    },
+    {
+      "epoch": 6.433926897844423,
+      "grad_norm": 1.7387852668762207,
+      "learning_rate": 9.195759137769449e-06,
+      "loss": 0.0994,
+      "step": 13730
+    },
+    {
+      "epoch": 6.438612933458295,
+      "grad_norm": 1.3456875085830688,
+      "learning_rate": 9.195173383317714e-06,
+      "loss": 0.0957,
+      "step": 13740
+    },
+    {
+      "epoch": 6.443298969072165,
+      "grad_norm": 1.8419511318206787,
+      "learning_rate": 9.194587628865979e-06,
+      "loss": 0.0863,
+      "step": 13750
+    },
+    {
+      "epoch": 6.443298969072165,
+      "eval_loss": 0.04049157723784447,
+      "eval_pearson_cosine": 0.7813714988340337,
+      "eval_pearson_dot": 0.6324385596537514,
+      "eval_pearson_euclidean": 0.7407851614356957,
+      "eval_pearson_manhattan": 0.7403546898217854,
+      "eval_runtime": 39.3844,
+      "eval_samples_per_second": 38.086,
+      "eval_spearman_cosine": 0.7841122028697166,
+      "eval_spearman_dot": 0.6478511175419069,
+      "eval_spearman_euclidean": 0.7589082543335365,
+      "eval_spearman_manhattan": 0.7586951153918645,
+      "eval_steps_per_second": 38.086,
+      "step": 13750
+    },
+    {
+      "epoch": 6.447985004686036,
+      "grad_norm": 2.0003013610839844,
+      "learning_rate": 9.194001874414246e-06,
+      "loss": 0.0752,
+      "step": 13760
+    },
+    {
+      "epoch": 6.452671040299906,
+      "grad_norm": 1.2026764154434204,
+      "learning_rate": 9.193416119962513e-06,
+      "loss": 0.0879,
+      "step": 13770
+    },
+    {
+      "epoch": 6.457357075913777,
+      "grad_norm": 1.3370740413665771,
+      "learning_rate": 9.192830365510778e-06,
+      "loss": 0.1001,
+      "step": 13780
+    },
+    {
+      "epoch": 6.462043111527648,
+      "grad_norm": 2.915313482284546,
+      "learning_rate": 9.192244611059045e-06,
+      "loss": 0.0893,
+      "step": 13790
+    },
+    {
+      "epoch": 6.4667291471415185,
+      "grad_norm": 2.472095012664795,
+      "learning_rate": 9.19165885660731e-06,
+      "loss": 0.0833,
+      "step": 13800
+    },
+    {
+      "epoch": 6.471415182755389,
+      "grad_norm": 2.4989047050476074,
+      "learning_rate": 9.191073102155577e-06,
+      "loss": 0.0808,
+      "step": 13810
+    },
+    {
+      "epoch": 6.4761012183692594,
+      "grad_norm": 1.9011194705963135,
+      "learning_rate": 9.190487347703844e-06,
+      "loss": 0.0845,
+      "step": 13820
+    },
+    {
+      "epoch": 6.48078725398313,
+      "grad_norm": 1.4347310066223145,
+      "learning_rate": 9.18990159325211e-06,
+      "loss": 0.1029,
+      "step": 13830
+    },
+    {
+      "epoch": 6.485473289597001,
+      "grad_norm": 2.54189395904541,
+      "learning_rate": 9.189315838800376e-06,
+      "loss": 0.0779,
+      "step": 13840
+    },
+    {
+      "epoch": 6.490159325210872,
+      "grad_norm": 1.2057007551193237,
+      "learning_rate": 9.188730084348641e-06,
+      "loss": 0.0894,
+      "step": 13850
+    },
+    {
+      "epoch": 6.494845360824742,
+      "grad_norm": 1.7278800010681152,
+      "learning_rate": 9.188144329896908e-06,
+      "loss": 0.0779,
+      "step": 13860
+    },
+    {
+      "epoch": 6.499531396438613,
+      "grad_norm": 1.5743318796157837,
+      "learning_rate": 9.187558575445175e-06,
+      "loss": 0.0927,
+      "step": 13870
+    },
+    {
+      "epoch": 6.504217432052483,
+      "grad_norm": 1.5857350826263428,
+      "learning_rate": 9.18697282099344e-06,
+      "loss": 0.0947,
+      "step": 13880
+    },
+    {
+      "epoch": 6.508903467666355,
+      "grad_norm": 1.6598036289215088,
+      "learning_rate": 9.186387066541707e-06,
+      "loss": 0.0686,
+      "step": 13890
+    },
+    {
+      "epoch": 6.513589503280225,
+      "grad_norm": 1.861210823059082,
+      "learning_rate": 9.185801312089973e-06,
+      "loss": 0.0785,
+      "step": 13900
+    },
+    {
+      "epoch": 6.518275538894096,
+      "grad_norm": 2.236298084259033,
+      "learning_rate": 9.185215557638238e-06,
+      "loss": 0.0786,
+      "step": 13910
+    },
+    {
+      "epoch": 6.522961574507966,
+      "grad_norm": 2.7919623851776123,
+      "learning_rate": 9.184629803186505e-06,
+      "loss": 0.091,
+      "step": 13920
+    },
+    {
+      "epoch": 6.527647610121837,
+      "grad_norm": 2.071950674057007,
+      "learning_rate": 9.184044048734772e-06,
+      "loss": 0.0815,
+      "step": 13930
+    },
+    {
+      "epoch": 6.532333645735708,
+      "grad_norm": 2.533116102218628,
+      "learning_rate": 9.183458294283037e-06,
+      "loss": 0.0787,
+      "step": 13940
+    },
+    {
+      "epoch": 6.5370196813495784,
+      "grad_norm": 2.1527774333953857,
+      "learning_rate": 9.182872539831304e-06,
+      "loss": 0.0749,
+      "step": 13950
+    },
+    {
+      "epoch": 6.541705716963449,
+      "grad_norm": 1.961341142654419,
+      "learning_rate": 9.182286785379569e-06,
+      "loss": 0.0953,
+      "step": 13960
+    },
+    {
+      "epoch": 6.546391752577319,
+      "grad_norm": 2.28048038482666,
+      "learning_rate": 9.181701030927836e-06,
+      "loss": 0.0915,
+      "step": 13970
+    },
+    {
+      "epoch": 6.55107778819119,
+      "grad_norm": 2.0521295070648193,
+      "learning_rate": 9.181115276476103e-06,
+      "loss": 0.0895,
+      "step": 13980
+    },
+    {
+      "epoch": 6.555763823805061,
+      "grad_norm": 1.6671199798583984,
+      "learning_rate": 9.180529522024368e-06,
+      "loss": 0.0728,
+      "step": 13990
+    },
+    {
+      "epoch": 6.560449859418932,
+      "grad_norm": 1.6179335117340088,
+      "learning_rate": 9.179943767572635e-06,
+      "loss": 0.0948,
+      "step": 14000
+    },
+    {
+      "epoch": 6.560449859418932,
+      "eval_loss": 0.03971678018569946,
+      "eval_pearson_cosine": 0.7830490563978572,
+      "eval_pearson_dot": 0.6307782966974682,
+      "eval_pearson_euclidean": 0.7414858554074186,
+      "eval_pearson_manhattan": 0.7410214751653541,
+      "eval_runtime": 40.1664,
+      "eval_samples_per_second": 37.345,
+      "eval_spearman_cosine": 0.7866220854382757,
+      "eval_spearman_dot": 0.6460234579111318,
+      "eval_spearman_euclidean": 0.7578877607249501,
+      "eval_spearman_manhattan": 0.757795808702236,
+      "eval_steps_per_second": 37.345,
+      "step": 14000
     }
   ],
   "logging_steps": 10,