Training in progress, step 12000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d7c345217153b5ffddd752365249e312bba97798c34c7461fe730d174535d39
 size 613004648

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3b588761b50be65d8796badee7ef8b1410198e0580687e0e9b4fb211a20c99b
 size 613004648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:528a95b443b1dbf7f94d3bb468ca4f53192fe7e23b946971046c87c0b9045e56
 size 1226096954

 version https://git-lfs.github.com/spec/v1
+oid sha256:a271571edbbdb0723201c1dcd4e66117d96525b325fc1fd6acf49af21cc25818
 size 1226096954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b017ee0b8d5b0208434fd4a2a199fc3b93d7395c3472e6edb0f63512bbc20c3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f92435eb6dc7f41ea95fa3d980a0666d4a13b153aeb2cd8cebe90dc94dc1f10
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:193283a3db7c41b10c55462d4cd2b8ef19c4b39369364b96fdc0d6e4e4e07810
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:8db93a2f6abb2c48f8c464d140e6d8e94f07e6e65ef70a39fa77270a82587ab1
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.154639175257732,
   "eval_steps": 250,
-  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8411,6 +8411,770 @@
       "eval_spearman_manhattan": 0.7590724893258253,
       "eval_steps_per_second": 37.21,
       "step": 11000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.623242736644799,
   "eval_steps": 250,
+  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7590724893258253,
       "eval_steps_per_second": 37.21,
       "step": 11000
+    },
+    {
+      "epoch": 5.159325210871603,
+      "grad_norm": 2.7338879108428955,
+      "learning_rate": 9.35508434864105e-06,
+      "loss": 0.1157,
+      "step": 11010
+    },
+    {
+      "epoch": 5.164011246485473,
+      "grad_norm": 2.1284737586975098,
+      "learning_rate": 9.354498594189316e-06,
+      "loss": 0.1073,
+      "step": 11020
+    },
+    {
+      "epoch": 5.168697282099344,
+      "grad_norm": 1.506453037261963,
+      "learning_rate": 9.353912839737583e-06,
+      "loss": 0.1119,
+      "step": 11030
+    },
+    {
+      "epoch": 5.173383317713214,
+      "grad_norm": 2.2100448608398438,
+      "learning_rate": 9.35332708528585e-06,
+      "loss": 0.1091,
+      "step": 11040
+    },
+    {
+      "epoch": 5.178069353327086,
+      "grad_norm": 2.5225071907043457,
+      "learning_rate": 9.352741330834115e-06,
+      "loss": 0.1089,
+      "step": 11050
+    },
+    {
+      "epoch": 5.182755388940956,
+      "grad_norm": 2.282289981842041,
+      "learning_rate": 9.352155576382382e-06,
+      "loss": 0.1165,
+      "step": 11060
+    },
+    {
+      "epoch": 5.187441424554827,
+      "grad_norm": 2.467607259750366,
+      "learning_rate": 9.351569821930647e-06,
+      "loss": 0.1104,
+      "step": 11070
+    },
+    {
+      "epoch": 5.192127460168697,
+      "grad_norm": 2.524582624435425,
+      "learning_rate": 9.350984067478914e-06,
+      "loss": 0.1316,
+      "step": 11080
+    },
+    {
+      "epoch": 5.196813495782568,
+      "grad_norm": 2.6294236183166504,
+      "learning_rate": 9.350398313027181e-06,
+      "loss": 0.1068,
+      "step": 11090
+    },
+    {
+      "epoch": 5.201499531396439,
+      "grad_norm": 2.033003091812134,
+      "learning_rate": 9.349812558575446e-06,
+      "loss": 0.1025,
+      "step": 11100
+    },
+    {
+      "epoch": 5.206185567010309,
+      "grad_norm": 1.909003734588623,
+      "learning_rate": 9.349226804123713e-06,
+      "loss": 0.0948,
+      "step": 11110
+    },
+    {
+      "epoch": 5.21087160262418,
+      "grad_norm": 2.284494400024414,
+      "learning_rate": 9.348641049671978e-06,
+      "loss": 0.1456,
+      "step": 11120
+    },
+    {
+      "epoch": 5.21555763823805,
+      "grad_norm": 2.152364492416382,
+      "learning_rate": 9.348055295220243e-06,
+      "loss": 0.1067,
+      "step": 11130
+    },
+    {
+      "epoch": 5.220243673851921,
+      "grad_norm": 1.9327460527420044,
+      "learning_rate": 9.34746954076851e-06,
+      "loss": 0.1041,
+      "step": 11140
+    },
+    {
+      "epoch": 5.224929709465792,
+      "grad_norm": 1.4854366779327393,
+      "learning_rate": 9.346883786316777e-06,
+      "loss": 0.1014,
+      "step": 11150
+    },
+    {
+      "epoch": 5.229615745079663,
+      "grad_norm": 2.438124418258667,
+      "learning_rate": 9.346298031865043e-06,
+      "loss": 0.1009,
+      "step": 11160
+    },
+    {
+      "epoch": 5.234301780693533,
+      "grad_norm": 2.2534475326538086,
+      "learning_rate": 9.34571227741331e-06,
+      "loss": 0.1204,
+      "step": 11170
+    },
+    {
+      "epoch": 5.238987816307404,
+      "grad_norm": 1.7294119596481323,
+      "learning_rate": 9.345126522961575e-06,
+      "loss": 0.1156,
+      "step": 11180
+    },
+    {
+      "epoch": 5.243673851921274,
+      "grad_norm": 2.046323299407959,
+      "learning_rate": 9.344540768509842e-06,
+      "loss": 0.1052,
+      "step": 11190
+    },
+    {
+      "epoch": 5.248359887535146,
+      "grad_norm": 1.4913642406463623,
+      "learning_rate": 9.343955014058108e-06,
+      "loss": 0.1108,
+      "step": 11200
+    },
+    {
+      "epoch": 5.253045923149016,
+      "grad_norm": 2.705307722091675,
+      "learning_rate": 9.343369259606374e-06,
+      "loss": 0.1196,
+      "step": 11210
+    },
+    {
+      "epoch": 5.257731958762887,
+      "grad_norm": 2.288198709487915,
+      "learning_rate": 9.34278350515464e-06,
+      "loss": 0.1111,
+      "step": 11220
+    },
+    {
+      "epoch": 5.262417994376757,
+      "grad_norm": 1.7562745809555054,
+      "learning_rate": 9.342197750702906e-06,
+      "loss": 0.1091,
+      "step": 11230
+    },
+    {
+      "epoch": 5.2671040299906275,
+      "grad_norm": 1.7820425033569336,
+      "learning_rate": 9.341611996251173e-06,
+      "loss": 0.1274,
+      "step": 11240
+    },
+    {
+      "epoch": 5.271790065604499,
+      "grad_norm": 1.3509507179260254,
+      "learning_rate": 9.341026241799438e-06,
+      "loss": 0.1082,
+      "step": 11250
+    },
+    {
+      "epoch": 5.271790065604499,
+      "eval_loss": 0.04377983510494232,
+      "eval_pearson_cosine": 0.777409933262625,
+      "eval_pearson_dot": 0.6039188474436514,
+      "eval_pearson_euclidean": 0.7432758495109439,
+      "eval_pearson_manhattan": 0.742989414571646,
+      "eval_runtime": 40.4868,
+      "eval_samples_per_second": 37.049,
+      "eval_spearman_cosine": 0.7818314076527526,
+      "eval_spearman_dot": 0.6129138744459114,
+      "eval_spearman_euclidean": 0.7593037528355521,
+      "eval_spearman_manhattan": 0.7591440996970567,
+      "eval_steps_per_second": 37.049,
+      "step": 11250
+    },
+    {
+      "epoch": 5.276476101218369,
+      "grad_norm": 1.9400215148925781,
+      "learning_rate": 9.340440487347705e-06,
+      "loss": 0.1033,
+      "step": 11260
+    },
+    {
+      "epoch": 5.28116213683224,
+      "grad_norm": 2.5327563285827637,
+      "learning_rate": 9.339854732895972e-06,
+      "loss": 0.1006,
+      "step": 11270
+    },
+    {
+      "epoch": 5.28584817244611,
+      "grad_norm": 2.5133285522460938,
+      "learning_rate": 9.339268978444237e-06,
+      "loss": 0.1092,
+      "step": 11280
+    },
+    {
+      "epoch": 5.290534208059981,
+      "grad_norm": 2.192230224609375,
+      "learning_rate": 9.338683223992502e-06,
+      "loss": 0.0995,
+      "step": 11290
+    },
+    {
+      "epoch": 5.295220243673852,
+      "grad_norm": 2.7413835525512695,
+      "learning_rate": 9.33809746954077e-06,
+      "loss": 0.1253,
+      "step": 11300
+    },
+    {
+      "epoch": 5.299906279287723,
+      "grad_norm": 2.4897637367248535,
+      "learning_rate": 9.337511715089036e-06,
+      "loss": 0.1231,
+      "step": 11310
+    },
+    {
+      "epoch": 5.304592314901593,
+      "grad_norm": 2.837437629699707,
+      "learning_rate": 9.336925960637301e-06,
+      "loss": 0.1061,
+      "step": 11320
+    },
+    {
+      "epoch": 5.309278350515464,
+      "grad_norm": 2.932845115661621,
+      "learning_rate": 9.336340206185568e-06,
+      "loss": 0.1128,
+      "step": 11330
+    },
+    {
+      "epoch": 5.313964386129334,
+      "grad_norm": 2.7689220905303955,
+      "learning_rate": 9.335754451733833e-06,
+      "loss": 0.106,
+      "step": 11340
+    },
+    {
+      "epoch": 5.318650421743206,
+      "grad_norm": 2.0174484252929688,
+      "learning_rate": 9.3351686972821e-06,
+      "loss": 0.1068,
+      "step": 11350
+    },
+    {
+      "epoch": 5.323336457357076,
+      "grad_norm": 1.9986820220947266,
+      "learning_rate": 9.334582942830366e-06,
+      "loss": 0.1138,
+      "step": 11360
+    },
+    {
+      "epoch": 5.3280224929709465,
+      "grad_norm": 2.263935089111328,
+      "learning_rate": 9.333997188378632e-06,
+      "loss": 0.1215,
+      "step": 11370
+    },
+    {
+      "epoch": 5.332708528584817,
+      "grad_norm": 2.540949821472168,
+      "learning_rate": 9.3334114339269e-06,
+      "loss": 0.1139,
+      "step": 11380
+    },
+    {
+      "epoch": 5.3373945641986875,
+      "grad_norm": 2.293947219848633,
+      "learning_rate": 9.332825679475165e-06,
+      "loss": 0.1113,
+      "step": 11390
+    },
+    {
+      "epoch": 5.342080599812559,
+      "grad_norm": 1.2586168050765991,
+      "learning_rate": 9.332239925023432e-06,
+      "loss": 0.1072,
+      "step": 11400
+    },
+    {
+      "epoch": 5.346766635426429,
+      "grad_norm": 2.605865955352783,
+      "learning_rate": 9.331654170571697e-06,
+      "loss": 0.1032,
+      "step": 11410
+    },
+    {
+      "epoch": 5.3514526710403,
+      "grad_norm": 2.003467321395874,
+      "learning_rate": 9.331068416119962e-06,
+      "loss": 0.1107,
+      "step": 11420
+    },
+    {
+      "epoch": 5.35613870665417,
+      "grad_norm": 2.439173460006714,
+      "learning_rate": 9.33048266166823e-06,
+      "loss": 0.1055,
+      "step": 11430
+    },
+    {
+      "epoch": 5.360824742268041,
+      "grad_norm": 2.154588460922241,
+      "learning_rate": 9.329896907216496e-06,
+      "loss": 0.1008,
+      "step": 11440
+    },
+    {
+      "epoch": 5.365510777881912,
+      "grad_norm": 2.530766725540161,
+      "learning_rate": 9.329311152764761e-06,
+      "loss": 0.1062,
+      "step": 11450
+    },
+    {
+      "epoch": 5.370196813495783,
+      "grad_norm": 1.994178056716919,
+      "learning_rate": 9.328725398313028e-06,
+      "loss": 0.1472,
+      "step": 11460
+    },
+    {
+      "epoch": 5.374882849109653,
+      "grad_norm": 2.8370258808135986,
+      "learning_rate": 9.328139643861293e-06,
+      "loss": 0.1098,
+      "step": 11470
+    },
+    {
+      "epoch": 5.379568884723524,
+      "grad_norm": 1.487667441368103,
+      "learning_rate": 9.32755388940956e-06,
+      "loss": 0.1124,
+      "step": 11480
+    },
+    {
+      "epoch": 5.384254920337394,
+      "grad_norm": 2.180283308029175,
+      "learning_rate": 9.326968134957827e-06,
+      "loss": 0.1181,
+      "step": 11490
+    },
+    {
+      "epoch": 5.3889409559512655,
+      "grad_norm": 2.2690398693084717,
+      "learning_rate": 9.326382380506092e-06,
+      "loss": 0.1138,
+      "step": 11500
+    },
+    {
+      "epoch": 5.3889409559512655,
+      "eval_loss": 0.04145639017224312,
+      "eval_pearson_cosine": 0.782895609059949,
+      "eval_pearson_dot": 0.63470693002958,
+      "eval_pearson_euclidean": 0.740956945446257,
+      "eval_pearson_manhattan": 0.740521959356709,
+      "eval_runtime": 40.2743,
+      "eval_samples_per_second": 37.245,
+      "eval_spearman_cosine": 0.7869693899558259,
+      "eval_spearman_dot": 0.6463692784357133,
+      "eval_spearman_euclidean": 0.7560888074878002,
+      "eval_spearman_manhattan": 0.7559675920990712,
+      "eval_steps_per_second": 37.245,
+      "step": 11500
+    },
+    {
+      "epoch": 5.393626991565136,
+      "grad_norm": 1.9818650484085083,
+      "learning_rate": 9.32579662605436e-06,
+      "loss": 0.1057,
+      "step": 11510
+    },
+    {
+      "epoch": 5.3983130271790065,
+      "grad_norm": 2.286259651184082,
+      "learning_rate": 9.325210871602624e-06,
+      "loss": 0.1091,
+      "step": 11520
+    },
+    {
+      "epoch": 5.402999062792877,
+      "grad_norm": 1.2215278148651123,
+      "learning_rate": 9.324625117150891e-06,
+      "loss": 0.0859,
+      "step": 11530
+    },
+    {
+      "epoch": 5.4076850984067475,
+      "grad_norm": 2.2619011402130127,
+      "learning_rate": 9.324039362699158e-06,
+      "loss": 0.1281,
+      "step": 11540
+    },
+    {
+      "epoch": 5.412371134020619,
+      "grad_norm": 1.313723087310791,
+      "learning_rate": 9.323453608247423e-06,
+      "loss": 0.0844,
+      "step": 11550
+    },
+    {
+      "epoch": 5.417057169634489,
+      "grad_norm": 1.5897408723831177,
+      "learning_rate": 9.32286785379569e-06,
+      "loss": 0.1006,
+      "step": 11560
+    },
+    {
+      "epoch": 5.42174320524836,
+      "grad_norm": 2.7910852432250977,
+      "learning_rate": 9.322282099343956e-06,
+      "loss": 0.1199,
+      "step": 11570
+    },
+    {
+      "epoch": 5.42642924086223,
+      "grad_norm": 1.7807790040969849,
+      "learning_rate": 9.32169634489222e-06,
+      "loss": 0.1063,
+      "step": 11580
+    },
+    {
+      "epoch": 5.431115276476101,
+      "grad_norm": 2.412628650665283,
+      "learning_rate": 9.32111059044049e-06,
+      "loss": 0.103,
+      "step": 11590
+    },
+    {
+      "epoch": 5.435801312089972,
+      "grad_norm": 1.029317855834961,
+      "learning_rate": 9.320524835988755e-06,
+      "loss": 0.1025,
+      "step": 11600
+    },
+    {
+      "epoch": 5.440487347703843,
+      "grad_norm": 2.206700563430786,
+      "learning_rate": 9.31993908153702e-06,
+      "loss": 0.114,
+      "step": 11610
+    },
+    {
+      "epoch": 5.445173383317713,
+      "grad_norm": 1.643839716911316,
+      "learning_rate": 9.319353327085287e-06,
+      "loss": 0.1155,
+      "step": 11620
+    },
+    {
+      "epoch": 5.449859418931584,
+      "grad_norm": 2.211933135986328,
+      "learning_rate": 9.318767572633552e-06,
+      "loss": 0.1096,
+      "step": 11630
+    },
+    {
+      "epoch": 5.454545454545454,
+      "grad_norm": 2.2456345558166504,
+      "learning_rate": 9.318181818181819e-06,
+      "loss": 0.1153,
+      "step": 11640
+    },
+    {
+      "epoch": 5.4592314901593255,
+      "grad_norm": 2.144434928894043,
+      "learning_rate": 9.317596063730086e-06,
+      "loss": 0.1245,
+      "step": 11650
+    },
+    {
+      "epoch": 5.463917525773196,
+      "grad_norm": 1.8856313228607178,
+      "learning_rate": 9.317010309278351e-06,
+      "loss": 0.1139,
+      "step": 11660
+    },
+    {
+      "epoch": 5.4686035613870665,
+      "grad_norm": 2.399268627166748,
+      "learning_rate": 9.316424554826618e-06,
+      "loss": 0.1189,
+      "step": 11670
+    },
+    {
+      "epoch": 5.473289597000937,
+      "grad_norm": 2.7165584564208984,
+      "learning_rate": 9.315838800374883e-06,
+      "loss": 0.1016,
+      "step": 11680
+    },
+    {
+      "epoch": 5.4779756326148075,
+      "grad_norm": 2.1864237785339355,
+      "learning_rate": 9.31525304592315e-06,
+      "loss": 0.1164,
+      "step": 11690
+    },
+    {
+      "epoch": 5.482661668228679,
+      "grad_norm": 1.5643881559371948,
+      "learning_rate": 9.314667291471417e-06,
+      "loss": 0.1069,
+      "step": 11700
+    },
+    {
+      "epoch": 5.487347703842549,
+      "grad_norm": 2.7151424884796143,
+      "learning_rate": 9.314081537019682e-06,
+      "loss": 0.1268,
+      "step": 11710
+    },
+    {
+      "epoch": 5.49203373945642,
+      "grad_norm": 2.5677719116210938,
+      "learning_rate": 9.31349578256795e-06,
+      "loss": 0.0967,
+      "step": 11720
+    },
+    {
+      "epoch": 5.49671977507029,
+      "grad_norm": 1.8421558141708374,
+      "learning_rate": 9.312910028116214e-06,
+      "loss": 0.111,
+      "step": 11730
+    },
+    {
+      "epoch": 5.501405810684162,
+      "grad_norm": 2.0751326084136963,
+      "learning_rate": 9.31232427366448e-06,
+      "loss": 0.12,
+      "step": 11740
+    },
+    {
+      "epoch": 5.506091846298032,
+      "grad_norm": 2.1153831481933594,
+      "learning_rate": 9.311738519212747e-06,
+      "loss": 0.1015,
+      "step": 11750
+    },
+    {
+      "epoch": 5.506091846298032,
+      "eval_loss": 0.041955165565013885,
+      "eval_pearson_cosine": 0.777849777417785,
+      "eval_pearson_dot": 0.6249138636860323,
+      "eval_pearson_euclidean": 0.7435429429906506,
+      "eval_pearson_manhattan": 0.7436891262385359,
+      "eval_runtime": 40.2707,
+      "eval_samples_per_second": 37.248,
+      "eval_spearman_cosine": 0.7810709480369951,
+      "eval_spearman_dot": 0.6369677452237958,
+      "eval_spearman_euclidean": 0.7589293041705764,
+      "eval_spearman_manhattan": 0.7592155214560544,
+      "eval_steps_per_second": 37.248,
+      "step": 11750
+    },
+    {
+      "epoch": 5.510777881911903,
+      "grad_norm": 2.5980823040008545,
+      "learning_rate": 9.311152764761013e-06,
+      "loss": 0.097,
+      "step": 11760
+    },
+    {
+      "epoch": 5.515463917525773,
+      "grad_norm": 2.678083658218384,
+      "learning_rate": 9.310567010309279e-06,
+      "loss": 0.1082,
+      "step": 11770
+    },
+    {
+      "epoch": 5.520149953139644,
+      "grad_norm": 2.221808910369873,
+      "learning_rate": 9.309981255857546e-06,
+      "loss": 0.0951,
+      "step": 11780
+    },
+    {
+      "epoch": 5.524835988753514,
+      "grad_norm": 3.2802789211273193,
+      "learning_rate": 9.30939550140581e-06,
+      "loss": 0.1153,
+      "step": 11790
+    },
+    {
+      "epoch": 5.5295220243673855,
+      "grad_norm": 2.6341254711151123,
+      "learning_rate": 9.308809746954078e-06,
+      "loss": 0.1173,
+      "step": 11800
+    },
+    {
+      "epoch": 5.534208059981256,
+      "grad_norm": 1.4996163845062256,
+      "learning_rate": 9.308223992502345e-06,
+      "loss": 0.1066,
+      "step": 11810
+    },
+    {
+      "epoch": 5.5388940955951265,
+      "grad_norm": 1.6984524726867676,
+      "learning_rate": 9.30763823805061e-06,
+      "loss": 0.0985,
+      "step": 11820
+    },
+    {
+      "epoch": 5.543580131208997,
+      "grad_norm": 2.20283842086792,
+      "learning_rate": 9.307052483598877e-06,
+      "loss": 0.1011,
+      "step": 11830
+    },
+    {
+      "epoch": 5.548266166822868,
+      "grad_norm": 1.3354145288467407,
+      "learning_rate": 9.306466729147142e-06,
+      "loss": 0.1067,
+      "step": 11840
+    },
+    {
+      "epoch": 5.552952202436739,
+      "grad_norm": 2.6207938194274902,
+      "learning_rate": 9.305880974695409e-06,
+      "loss": 0.1159,
+      "step": 11850
+    },
+    {
+      "epoch": 5.557638238050609,
+      "grad_norm": 2.9331352710723877,
+      "learning_rate": 9.305295220243674e-06,
+      "loss": 0.1152,
+      "step": 11860
+    },
+    {
+      "epoch": 5.56232427366448,
+      "grad_norm": 1.8482978343963623,
+      "learning_rate": 9.304709465791941e-06,
+      "loss": 0.1121,
+      "step": 11870
+    },
+    {
+      "epoch": 5.56701030927835,
+      "grad_norm": 1.7065162658691406,
+      "learning_rate": 9.304123711340208e-06,
+      "loss": 0.1256,
+      "step": 11880
+    },
+    {
+      "epoch": 5.571696344892221,
+      "grad_norm": 2.6578869819641113,
+      "learning_rate": 9.303537956888473e-06,
+      "loss": 0.1033,
+      "step": 11890
+    },
+    {
+      "epoch": 5.576382380506092,
+      "grad_norm": 2.356271266937256,
+      "learning_rate": 9.302952202436738e-06,
+      "loss": 0.1106,
+      "step": 11900
+    },
+    {
+      "epoch": 5.581068416119963,
+      "grad_norm": 2.4331321716308594,
+      "learning_rate": 9.302366447985005e-06,
+      "loss": 0.1342,
+      "step": 11910
+    },
+    {
+      "epoch": 5.585754451733833,
+      "grad_norm": 2.5583012104034424,
+      "learning_rate": 9.30178069353327e-06,
+      "loss": 0.1232,
+      "step": 11920
+    },
+    {
+      "epoch": 5.590440487347704,
+      "grad_norm": 1.2320704460144043,
+      "learning_rate": 9.301194939081537e-06,
+      "loss": 0.1235,
+      "step": 11930
+    },
+    {
+      "epoch": 5.595126522961575,
+      "grad_norm": 2.749943256378174,
+      "learning_rate": 9.300609184629804e-06,
+      "loss": 0.1204,
+      "step": 11940
+    },
+    {
+      "epoch": 5.5998125585754455,
+      "grad_norm": 1.935255527496338,
+      "learning_rate": 9.30002343017807e-06,
+      "loss": 0.1194,
+      "step": 11950
+    },
+    {
+      "epoch": 5.604498594189316,
+      "grad_norm": 2.05389666557312,
+      "learning_rate": 9.299437675726337e-06,
+      "loss": 0.1185,
+      "step": 11960
+    },
+    {
+      "epoch": 5.609184629803186,
+      "grad_norm": 2.0948450565338135,
+      "learning_rate": 9.298851921274602e-06,
+      "loss": 0.117,
+      "step": 11970
+    },
+    {
+      "epoch": 5.613870665417057,
+      "grad_norm": 2.4468414783477783,
+      "learning_rate": 9.298266166822869e-06,
+      "loss": 0.1042,
+      "step": 11980
+    },
+    {
+      "epoch": 5.618556701030927,
+      "grad_norm": 1.7686811685562134,
+      "learning_rate": 9.297680412371136e-06,
+      "loss": 0.1323,
+      "step": 11990
+    },
+    {
+      "epoch": 5.623242736644799,
+      "grad_norm": 2.70004940032959,
+      "learning_rate": 9.2970946579194e-06,
+      "loss": 0.1153,
+      "step": 12000
+    },
+    {
+      "epoch": 5.623242736644799,
+      "eval_loss": 0.044810693711042404,
+      "eval_pearson_cosine": 0.7729592983209912,
+      "eval_pearson_dot": 0.6141014999130547,
+      "eval_pearson_euclidean": 0.7453445610743417,
+      "eval_pearson_manhattan": 0.7450714346494465,
+      "eval_runtime": 39.9226,
+      "eval_samples_per_second": 37.573,
+      "eval_spearman_cosine": 0.7783555866745624,
+      "eval_spearman_dot": 0.6213713696364336,
+      "eval_spearman_euclidean": 0.7596029469985899,
+      "eval_spearman_manhattan": 0.7598359774134882,
+      "eval_steps_per_second": 37.573,
+      "step": 12000
     }
   ],
   "logging_steps": 10,