Training in progress, step 13000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3b588761b50be65d8796badee7ef8b1410198e0580687e0e9b4fb211a20c99b
 size 613004648

 version https://git-lfs.github.com/spec/v1
+oid sha256:d153a85db882a8d2ec877dfba2d9b581b46d201ce2501b713d912d9b724be90d
 size 613004648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a271571edbbdb0723201c1dcd4e66117d96525b325fc1fd6acf49af21cc25818
 size 1226096954

 version https://git-lfs.github.com/spec/v1
+oid sha256:e64c3f6b99c05bc4af3b1afc1105f63d286ccdb944360ccc4c6c03aaa0867281
 size 1226096954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f92435eb6dc7f41ea95fa3d980a0666d4a13b153aeb2cd8cebe90dc94dc1f10
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:feb76d7d56395cb464f4c6b097cc298c265886f58499ea053baed20b9e64abbb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8db93a2f6abb2c48f8c464d140e6d8e94f07e6e65ef70a39fa77270a82587ab1
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:61bccafd9792e811bc7ce6d26e59618969221a81768981a24e66ff1e4f6c92d4
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.623242736644799,
   "eval_steps": 250,
-  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9175,6 +9175,770 @@
       "eval_spearman_manhattan": 0.7598359774134882,
       "eval_steps_per_second": 37.573,
       "step": 12000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.091846298031865,
   "eval_steps": 250,
+  "global_step": 13000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7598359774134882,
       "eval_steps_per_second": 37.573,
       "step": 12000
+    },
+    {
+      "epoch": 5.627928772258669,
+      "grad_norm": 2.1159090995788574,
+      "learning_rate": 9.296508903467668e-06,
+      "loss": 0.1142,
+      "step": 12010
+    },
+    {
+      "epoch": 5.63261480787254,
+      "grad_norm": 2.249617576599121,
+      "learning_rate": 9.295923149015933e-06,
+      "loss": 0.1091,
+      "step": 12020
+    },
+    {
+      "epoch": 5.63730084348641,
+      "grad_norm": 2.0257644653320312,
+      "learning_rate": 9.295337394564198e-06,
+      "loss": 0.1094,
+      "step": 12030
+    },
+    {
+      "epoch": 5.641986879100282,
+      "grad_norm": 3.4566030502319336,
+      "learning_rate": 9.294751640112467e-06,
+      "loss": 0.1203,
+      "step": 12040
+    },
+    {
+      "epoch": 5.646672914714152,
+      "grad_norm": 3.4752063751220703,
+      "learning_rate": 9.294165885660732e-06,
+      "loss": 0.1359,
+      "step": 12050
+    },
+    {
+      "epoch": 5.651358950328023,
+      "grad_norm": 2.0857534408569336,
+      "learning_rate": 9.293580131208997e-06,
+      "loss": 0.0959,
+      "step": 12060
+    },
+    {
+      "epoch": 5.656044985941893,
+      "grad_norm": 1.1136995553970337,
+      "learning_rate": 9.292994376757264e-06,
+      "loss": 0.0922,
+      "step": 12070
+    },
+    {
+      "epoch": 5.660731021555764,
+      "grad_norm": 1.7703429460525513,
+      "learning_rate": 9.29240862230553e-06,
+      "loss": 0.1314,
+      "step": 12080
+    },
+    {
+      "epoch": 5.665417057169634,
+      "grad_norm": 2.678006172180176,
+      "learning_rate": 9.291822867853796e-06,
+      "loss": 0.1124,
+      "step": 12090
+    },
+    {
+      "epoch": 5.670103092783505,
+      "grad_norm": 2.3180134296417236,
+      "learning_rate": 9.291237113402063e-06,
+      "loss": 0.0916,
+      "step": 12100
+    },
+    {
+      "epoch": 5.674789128397376,
+      "grad_norm": 1.4481223821640015,
+      "learning_rate": 9.290651358950328e-06,
+      "loss": 0.0934,
+      "step": 12110
+    },
+    {
+      "epoch": 5.679475164011246,
+      "grad_norm": 1.6825222969055176,
+      "learning_rate": 9.290065604498595e-06,
+      "loss": 0.112,
+      "step": 12120
+    },
+    {
+      "epoch": 5.684161199625117,
+      "grad_norm": 1.8293483257293701,
+      "learning_rate": 9.28947985004686e-06,
+      "loss": 0.1006,
+      "step": 12130
+    },
+    {
+      "epoch": 5.688847235238988,
+      "grad_norm": 1.5621511936187744,
+      "learning_rate": 9.288894095595127e-06,
+      "loss": 0.1069,
+      "step": 12140
+    },
+    {
+      "epoch": 5.693533270852859,
+      "grad_norm": 1.9712047576904297,
+      "learning_rate": 9.288308341143394e-06,
+      "loss": 0.1121,
+      "step": 12150
+    },
+    {
+      "epoch": 5.698219306466729,
+      "grad_norm": 1.5489860773086548,
+      "learning_rate": 9.28772258669166e-06,
+      "loss": 0.1152,
+      "step": 12160
+    },
+    {
+      "epoch": 5.7029053420806,
+      "grad_norm": 1.5992718935012817,
+      "learning_rate": 9.287136832239927e-06,
+      "loss": 0.1081,
+      "step": 12170
+    },
+    {
+      "epoch": 5.70759137769447,
+      "grad_norm": 2.584080219268799,
+      "learning_rate": 9.286551077788192e-06,
+      "loss": 0.115,
+      "step": 12180
+    },
+    {
+      "epoch": 5.712277413308341,
+      "grad_norm": 1.9940451383590698,
+      "learning_rate": 9.285965323336457e-06,
+      "loss": 0.1334,
+      "step": 12190
+    },
+    {
+      "epoch": 5.716963448922212,
+      "grad_norm": 2.244067668914795,
+      "learning_rate": 9.285379568884726e-06,
+      "loss": 0.1126,
+      "step": 12200
+    },
+    {
+      "epoch": 5.721649484536083,
+      "grad_norm": 2.828308343887329,
+      "learning_rate": 9.28479381443299e-06,
+      "loss": 0.0978,
+      "step": 12210
+    },
+    {
+      "epoch": 5.726335520149953,
+      "grad_norm": 2.3048787117004395,
+      "learning_rate": 9.284208059981256e-06,
+      "loss": 0.1285,
+      "step": 12220
+    },
+    {
+      "epoch": 5.7310215557638235,
+      "grad_norm": 1.9416192770004272,
+      "learning_rate": 9.283622305529523e-06,
+      "loss": 0.114,
+      "step": 12230
+    },
+    {
+      "epoch": 5.735707591377695,
+      "grad_norm": 2.0904664993286133,
+      "learning_rate": 9.283036551077788e-06,
+      "loss": 0.1135,
+      "step": 12240
+    },
+    {
+      "epoch": 5.740393626991565,
+      "grad_norm": 2.0567378997802734,
+      "learning_rate": 9.282450796626055e-06,
+      "loss": 0.1269,
+      "step": 12250
+    },
+    {
+      "epoch": 5.740393626991565,
+      "eval_loss": 0.042026255279779434,
+      "eval_pearson_cosine": 0.7802074426247394,
+      "eval_pearson_dot": 0.621680331450122,
+      "eval_pearson_euclidean": 0.7417166161845756,
+      "eval_pearson_manhattan": 0.7412630516460794,
+      "eval_runtime": 40.3256,
+      "eval_samples_per_second": 37.197,
+      "eval_spearman_cosine": 0.7839546315832364,
+      "eval_spearman_dot": 0.6311338337036988,
+      "eval_spearman_euclidean": 0.7564314536390471,
+      "eval_spearman_manhattan": 0.7562308413966785,
+      "eval_steps_per_second": 37.197,
+      "step": 12250
+    },
+    {
+      "epoch": 5.745079662605436,
+      "grad_norm": 1.8017923831939697,
+      "learning_rate": 9.281865042174322e-06,
+      "loss": 0.116,
+      "step": 12260
+    },
+    {
+      "epoch": 5.749765698219306,
+      "grad_norm": 2.184885025024414,
+      "learning_rate": 9.281279287722587e-06,
+      "loss": 0.1141,
+      "step": 12270
+    },
+    {
+      "epoch": 5.754451733833177,
+      "grad_norm": 2.258493423461914,
+      "learning_rate": 9.280693533270854e-06,
+      "loss": 0.1179,
+      "step": 12280
+    },
+    {
+      "epoch": 5.759137769447047,
+      "grad_norm": 3.2758543491363525,
+      "learning_rate": 9.28010777881912e-06,
+      "loss": 0.1354,
+      "step": 12290
+    },
+    {
+      "epoch": 5.763823805060919,
+      "grad_norm": 2.4894609451293945,
+      "learning_rate": 9.279522024367386e-06,
+      "loss": 0.1088,
+      "step": 12300
+    },
+    {
+      "epoch": 5.768509840674789,
+      "grad_norm": 1.9505615234375,
+      "learning_rate": 9.278936269915653e-06,
+      "loss": 0.1104,
+      "step": 12310
+    },
+    {
+      "epoch": 5.77319587628866,
+      "grad_norm": 2.9411964416503906,
+      "learning_rate": 9.278350515463918e-06,
+      "loss": 0.1333,
+      "step": 12320
+    },
+    {
+      "epoch": 5.77788191190253,
+      "grad_norm": 2.877175807952881,
+      "learning_rate": 9.277764761012185e-06,
+      "loss": 0.1038,
+      "step": 12330
+    },
+    {
+      "epoch": 5.782567947516402,
+      "grad_norm": 2.866086006164551,
+      "learning_rate": 9.27717900656045e-06,
+      "loss": 0.1119,
+      "step": 12340
+    },
+    {
+      "epoch": 5.787253983130272,
+      "grad_norm": 2.0350656509399414,
+      "learning_rate": 9.276593252108716e-06,
+      "loss": 0.1218,
+      "step": 12350
+    },
+    {
+      "epoch": 5.7919400187441425,
+      "grad_norm": 1.9179691076278687,
+      "learning_rate": 9.276007497656983e-06,
+      "loss": 0.117,
+      "step": 12360
+    },
+    {
+      "epoch": 5.796626054358013,
+      "grad_norm": 1.894805669784546,
+      "learning_rate": 9.27542174320525e-06,
+      "loss": 0.1148,
+      "step": 12370
+    },
+    {
+      "epoch": 5.8013120899718835,
+      "grad_norm": 1.7460695505142212,
+      "learning_rate": 9.274835988753515e-06,
+      "loss": 0.1347,
+      "step": 12380
+    },
+    {
+      "epoch": 5.805998125585754,
+      "grad_norm": 2.7748680114746094,
+      "learning_rate": 9.274250234301782e-06,
+      "loss": 0.1077,
+      "step": 12390
+    },
+    {
+      "epoch": 5.810684161199625,
+      "grad_norm": 2.6616406440734863,
+      "learning_rate": 9.273664479850047e-06,
+      "loss": 0.111,
+      "step": 12400
+    },
+    {
+      "epoch": 5.815370196813496,
+      "grad_norm": 2.389298439025879,
+      "learning_rate": 9.273078725398314e-06,
+      "loss": 0.1061,
+      "step": 12410
+    },
+    {
+      "epoch": 5.820056232427366,
+      "grad_norm": 1.6245344877243042,
+      "learning_rate": 9.272492970946579e-06,
+      "loss": 0.1196,
+      "step": 12420
+    },
+    {
+      "epoch": 5.824742268041237,
+      "grad_norm": 2.8195879459381104,
+      "learning_rate": 9.271907216494846e-06,
+      "loss": 0.1265,
+      "step": 12430
+    },
+    {
+      "epoch": 5.829428303655108,
+      "grad_norm": 2.538292169570923,
+      "learning_rate": 9.271321462043113e-06,
+      "loss": 0.1038,
+      "step": 12440
+    },
+    {
+      "epoch": 5.834114339268979,
+      "grad_norm": 1.4378900527954102,
+      "learning_rate": 9.270735707591378e-06,
+      "loss": 0.1097,
+      "step": 12450
+    },
+    {
+      "epoch": 5.838800374882849,
+      "grad_norm": 2.120596170425415,
+      "learning_rate": 9.270149953139645e-06,
+      "loss": 0.1054,
+      "step": 12460
+    },
+    {
+      "epoch": 5.84348641049672,
+      "grad_norm": 1.7521088123321533,
+      "learning_rate": 9.26956419868791e-06,
+      "loss": 0.0985,
+      "step": 12470
+    },
+    {
+      "epoch": 5.84817244611059,
+      "grad_norm": 2.082510471343994,
+      "learning_rate": 9.268978444236177e-06,
+      "loss": 0.1142,
+      "step": 12480
+    },
+    {
+      "epoch": 5.852858481724461,
+      "grad_norm": 2.3451695442199707,
+      "learning_rate": 9.268392689784444e-06,
+      "loss": 0.135,
+      "step": 12490
+    },
+    {
+      "epoch": 5.857544517338332,
+      "grad_norm": 1.9797242879867554,
+      "learning_rate": 9.26780693533271e-06,
+      "loss": 0.0888,
+      "step": 12500
+    },
+    {
+      "epoch": 5.857544517338332,
+      "eval_loss": 0.04142308607697487,
+      "eval_pearson_cosine": 0.7805016780478695,
+      "eval_pearson_dot": 0.6245128907955291,
+      "eval_pearson_euclidean": 0.7411648320805888,
+      "eval_pearson_manhattan": 0.7407809523735267,
+      "eval_runtime": 39.8943,
+      "eval_samples_per_second": 37.599,
+      "eval_spearman_cosine": 0.7841450480888137,
+      "eval_spearman_dot": 0.636499292941551,
+      "eval_spearman_euclidean": 0.7567573577855005,
+      "eval_spearman_manhattan": 0.7567068203829979,
+      "eval_steps_per_second": 37.599,
+      "step": 12500
+    },
+    {
+      "epoch": 5.8622305529522025,
+      "grad_norm": 2.519564628601074,
+      "learning_rate": 9.267221180880975e-06,
+      "loss": 0.1118,
+      "step": 12510
+    },
+    {
+      "epoch": 5.866916588566073,
+      "grad_norm": 2.348604679107666,
+      "learning_rate": 9.266635426429241e-06,
+      "loss": 0.1165,
+      "step": 12520
+    },
+    {
+      "epoch": 5.8716026241799435,
+      "grad_norm": 1.9285309314727783,
+      "learning_rate": 9.266049671977507e-06,
+      "loss": 0.1168,
+      "step": 12530
+    },
+    {
+      "epoch": 5.876288659793815,
+      "grad_norm": 2.3968348503112793,
+      "learning_rate": 9.265463917525774e-06,
+      "loss": 0.1226,
+      "step": 12540
+    },
+    {
+      "epoch": 5.880974695407685,
+      "grad_norm": 1.3296688795089722,
+      "learning_rate": 9.26487816307404e-06,
+      "loss": 0.0979,
+      "step": 12550
+    },
+    {
+      "epoch": 5.885660731021556,
+      "grad_norm": 2.3655405044555664,
+      "learning_rate": 9.264292408622306e-06,
+      "loss": 0.1163,
+      "step": 12560
+    },
+    {
+      "epoch": 5.890346766635426,
+      "grad_norm": 1.9741175174713135,
+      "learning_rate": 9.263706654170573e-06,
+      "loss": 0.1193,
+      "step": 12570
+    },
+    {
+      "epoch": 5.895032802249297,
+      "grad_norm": 2.2787790298461914,
+      "learning_rate": 9.263120899718838e-06,
+      "loss": 0.1053,
+      "step": 12580
+    },
+    {
+      "epoch": 5.899718837863167,
+      "grad_norm": 2.3028697967529297,
+      "learning_rate": 9.262535145267105e-06,
+      "loss": 0.105,
+      "step": 12590
+    },
+    {
+      "epoch": 5.904404873477039,
+      "grad_norm": 2.420567274093628,
+      "learning_rate": 9.261949390815372e-06,
+      "loss": 0.1153,
+      "step": 12600
+    },
+    {
+      "epoch": 5.909090909090909,
+      "grad_norm": 1.8667070865631104,
+      "learning_rate": 9.261363636363637e-06,
+      "loss": 0.1206,
+      "step": 12610
+    },
+    {
+      "epoch": 5.91377694470478,
+      "grad_norm": 2.433323621749878,
+      "learning_rate": 9.260777881911904e-06,
+      "loss": 0.1107,
+      "step": 12620
+    },
+    {
+      "epoch": 5.91846298031865,
+      "grad_norm": 1.6899259090423584,
+      "learning_rate": 9.260192127460169e-06,
+      "loss": 0.1006,
+      "step": 12630
+    },
+    {
+      "epoch": 5.9231490159325215,
+      "grad_norm": 3.0744214057922363,
+      "learning_rate": 9.259606373008434e-06,
+      "loss": 0.1165,
+      "step": 12640
+    },
+    {
+      "epoch": 5.927835051546392,
+      "grad_norm": 1.6527074575424194,
+      "learning_rate": 9.259020618556703e-06,
+      "loss": 0.1134,
+      "step": 12650
+    },
+    {
+      "epoch": 5.9325210871602625,
+      "grad_norm": 2.3836679458618164,
+      "learning_rate": 9.258434864104968e-06,
+      "loss": 0.1195,
+      "step": 12660
+    },
+    {
+      "epoch": 5.937207122774133,
+      "grad_norm": 1.6903315782546997,
+      "learning_rate": 9.257849109653233e-06,
+      "loss": 0.125,
+      "step": 12670
+    },
+    {
+      "epoch": 5.9418931583880035,
+      "grad_norm": 2.0928590297698975,
+      "learning_rate": 9.2572633552015e-06,
+      "loss": 0.114,
+      "step": 12680
+    },
+    {
+      "epoch": 5.946579194001874,
+      "grad_norm": 1.6326929330825806,
+      "learning_rate": 9.256677600749765e-06,
+      "loss": 0.1056,
+      "step": 12690
+    },
+    {
+      "epoch": 5.951265229615745,
+      "grad_norm": 2.0911965370178223,
+      "learning_rate": 9.256091846298032e-06,
+      "loss": 0.128,
+      "step": 12700
+    },
+    {
+      "epoch": 5.955951265229616,
+      "grad_norm": 1.6815580129623413,
+      "learning_rate": 9.2555060918463e-06,
+      "loss": 0.1211,
+      "step": 12710
+    },
+    {
+      "epoch": 5.960637300843486,
+      "grad_norm": 2.4735517501831055,
+      "learning_rate": 9.254920337394565e-06,
+      "loss": 0.1246,
+      "step": 12720
+    },
+    {
+      "epoch": 5.965323336457357,
+      "grad_norm": 1.822643756866455,
+      "learning_rate": 9.254334582942831e-06,
+      "loss": 0.1119,
+      "step": 12730
+    },
+    {
+      "epoch": 5.970009372071228,
+      "grad_norm": 2.694791793823242,
+      "learning_rate": 9.253748828491097e-06,
+      "loss": 0.1186,
+      "step": 12740
+    },
+    {
+      "epoch": 5.974695407685099,
+      "grad_norm": 1.8677020072937012,
+      "learning_rate": 9.253163074039364e-06,
+      "loss": 0.1202,
+      "step": 12750
+    },
+    {
+      "epoch": 5.974695407685099,
+      "eval_loss": 0.04308323189616203,
+      "eval_pearson_cosine": 0.7792983938024989,
+      "eval_pearson_dot": 0.6261386080869897,
+      "eval_pearson_euclidean": 0.7413977396293134,
+      "eval_pearson_manhattan": 0.7411537960595762,
+      "eval_runtime": 41.5128,
+      "eval_samples_per_second": 36.133,
+      "eval_spearman_cosine": 0.7834591025676726,
+      "eval_spearman_dot": 0.6404906337885011,
+      "eval_spearman_euclidean": 0.7574889490533175,
+      "eval_spearman_manhattan": 0.7571743616408941,
+      "eval_steps_per_second": 36.133,
+      "step": 12750
+    },
+    {
+      "epoch": 5.979381443298969,
+      "grad_norm": 2.534433126449585,
+      "learning_rate": 9.25257731958763e-06,
+      "loss": 0.1275,
+      "step": 12760
+    },
+    {
+      "epoch": 5.98406747891284,
+      "grad_norm": 1.7585105895996094,
+      "learning_rate": 9.251991565135896e-06,
+      "loss": 0.1129,
+      "step": 12770
+    },
+    {
+      "epoch": 5.98875351452671,
+      "grad_norm": 2.6499111652374268,
+      "learning_rate": 9.251405810684163e-06,
+      "loss": 0.1117,
+      "step": 12780
+    },
+    {
+      "epoch": 5.993439550140581,
+      "grad_norm": 2.0610055923461914,
+      "learning_rate": 9.250820056232428e-06,
+      "loss": 0.1137,
+      "step": 12790
+    },
+    {
+      "epoch": 5.998125585754452,
+      "grad_norm": 2.293468952178955,
+      "learning_rate": 9.250234301780693e-06,
+      "loss": 0.1178,
+      "step": 12800
+    },
+    {
+      "epoch": 6.0028116213683225,
+      "grad_norm": 1.97608482837677,
+      "learning_rate": 9.249648547328962e-06,
+      "loss": 0.1105,
+      "step": 12810
+    },
+    {
+      "epoch": 6.007497656982193,
+      "grad_norm": 1.9157034158706665,
+      "learning_rate": 9.249062792877227e-06,
+      "loss": 0.0914,
+      "step": 12820
+    },
+    {
+      "epoch": 6.0121836925960634,
+      "grad_norm": 1.4950352907180786,
+      "learning_rate": 9.248477038425492e-06,
+      "loss": 0.0983,
+      "step": 12830
+    },
+    {
+      "epoch": 6.016869728209935,
+      "grad_norm": 1.4796631336212158,
+      "learning_rate": 9.247891283973759e-06,
+      "loss": 0.0799,
+      "step": 12840
+    },
+    {
+      "epoch": 6.021555763823805,
+      "grad_norm": 1.68351149559021,
+      "learning_rate": 9.247305529522024e-06,
+      "loss": 0.079,
+      "step": 12850
+    },
+    {
+      "epoch": 6.026241799437676,
+      "grad_norm": 2.24094295501709,
+      "learning_rate": 9.246719775070291e-06,
+      "loss": 0.0908,
+      "step": 12860
+    },
+    {
+      "epoch": 6.030927835051546,
+      "grad_norm": 2.414583683013916,
+      "learning_rate": 9.246134020618558e-06,
+      "loss": 0.0908,
+      "step": 12870
+    },
+    {
+      "epoch": 6.035613870665417,
+      "grad_norm": 2.87400221824646,
+      "learning_rate": 9.245548266166823e-06,
+      "loss": 0.085,
+      "step": 12880
+    },
+    {
+      "epoch": 6.040299906279288,
+      "grad_norm": 1.8591458797454834,
+      "learning_rate": 9.24496251171509e-06,
+      "loss": 0.0825,
+      "step": 12890
+    },
+    {
+      "epoch": 6.044985941893159,
+      "grad_norm": 2.2384636402130127,
+      "learning_rate": 9.244376757263355e-06,
+      "loss": 0.0826,
+      "step": 12900
+    },
+    {
+      "epoch": 6.049671977507029,
+      "grad_norm": 1.670571208000183,
+      "learning_rate": 9.243791002811622e-06,
+      "loss": 0.0746,
+      "step": 12910
+    },
+    {
+      "epoch": 6.0543580131209,
+      "grad_norm": 1.607620358467102,
+      "learning_rate": 9.243205248359888e-06,
+      "loss": 0.106,
+      "step": 12920
+    },
+    {
+      "epoch": 6.05904404873477,
+      "grad_norm": 1.543734073638916,
+      "learning_rate": 9.242619493908155e-06,
+      "loss": 0.0788,
+      "step": 12930
+    },
+    {
+      "epoch": 6.0637300843486415,
+      "grad_norm": 2.0840065479278564,
+      "learning_rate": 9.242033739456421e-06,
+      "loss": 0.1013,
+      "step": 12940
+    },
+    {
+      "epoch": 6.068416119962512,
+      "grad_norm": 1.8061577081680298,
+      "learning_rate": 9.241447985004687e-06,
+      "loss": 0.0895,
+      "step": 12950
+    },
+    {
+      "epoch": 6.073102155576382,
+      "grad_norm": 1.341036081314087,
+      "learning_rate": 9.240862230552952e-06,
+      "loss": 0.0714,
+      "step": 12960
+    },
+    {
+      "epoch": 6.077788191190253,
+      "grad_norm": 2.1150712966918945,
+      "learning_rate": 9.240276476101219e-06,
+      "loss": 0.0899,
+      "step": 12970
+    },
+    {
+      "epoch": 6.082474226804123,
+      "grad_norm": 2.214730739593506,
+      "learning_rate": 9.239690721649486e-06,
+      "loss": 0.0758,
+      "step": 12980
+    },
+    {
+      "epoch": 6.087160262417995,
+      "grad_norm": 1.489686369895935,
+      "learning_rate": 9.239104967197751e-06,
+      "loss": 0.0784,
+      "step": 12990
+    },
+    {
+      "epoch": 6.091846298031865,
+      "grad_norm": 1.2778211832046509,
+      "learning_rate": 9.238519212746018e-06,
+      "loss": 0.0941,
+      "step": 13000
+    },
+    {
+      "epoch": 6.091846298031865,
+      "eval_loss": 0.0399174839258194,
+      "eval_pearson_cosine": 0.7838266464106027,
+      "eval_pearson_dot": 0.6493223534201924,
+      "eval_pearson_euclidean": 0.739064666910151,
+      "eval_pearson_manhattan": 0.7387769365054666,
+      "eval_runtime": 40.0598,
+      "eval_samples_per_second": 37.444,
+      "eval_spearman_cosine": 0.7872885894711749,
+      "eval_spearman_dot": 0.6641643317048077,
+      "eval_spearman_euclidean": 0.7529671041992676,
+      "eval_spearman_manhattan": 0.752705655614685,
+      "eval_steps_per_second": 37.444,
+      "step": 13000
     }
   ],
   "logging_steps": 10,