Training in progress, step 11000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad6a577dd191618d3b00fe33fe0cdf33b81a5c002fe33712258e536fcc1520a8
 size 613004648

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d7c345217153b5ffddd752365249e312bba97798c34c7461fe730d174535d39
 size 613004648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ffe192963611108e55a8d98be8d1dafc323965fc2794aed1bf226c3a6c17145
 size 1226096954

 version https://git-lfs.github.com/spec/v1
+oid sha256:528a95b443b1dbf7f94d3bb468ca4f53192fe7e23b946971046c87c0b9045e56
 size 1226096954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5e1f8a9c771c1f6fac3e948b043a309dd550a6e17ac92d5fdcc99c5e406cf1c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b017ee0b8d5b0208434fd4a2a199fc3b93d7395c3472e6edb0f63512bbc20c3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c9a67dc102c0201a7b47ec5ea788b4d7cd182385f8b19e21244eece8e7dbf3b
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:193283a3db7c41b10c55462d4cd2b8ef19c4b39369364b96fdc0d6e4e4e07810
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.686035613870665,
   "eval_steps": 250,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7647,6 +7647,770 @@
       "eval_spearman_manhattan": 0.7658321542772971,
       "eval_steps_per_second": 37.213,
       "step": 10000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.154639175257732,
   "eval_steps": 250,
+  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7658321542772971,
       "eval_steps_per_second": 37.213,
       "step": 10000
+    },
+    {
+      "epoch": 4.690721649484536,
+      "grad_norm": 2.401972532272339,
+      "learning_rate": 9.413659793814434e-06,
+      "loss": 0.1564,
+      "step": 10010
+    },
+    {
+      "epoch": 4.695407685098407,
+      "grad_norm": 1.4866012334823608,
+      "learning_rate": 9.413074039362699e-06,
+      "loss": 0.1573,
+      "step": 10020
+    },
+    {
+      "epoch": 4.700093720712277,
+      "grad_norm": 2.4179933071136475,
+      "learning_rate": 9.412488284910966e-06,
+      "loss": 0.1613,
+      "step": 10030
+    },
+    {
+      "epoch": 4.704779756326148,
+      "grad_norm": 2.4758639335632324,
+      "learning_rate": 9.411902530459233e-06,
+      "loss": 0.1621,
+      "step": 10040
+    },
+    {
+      "epoch": 4.709465791940019,
+      "grad_norm": 2.450495481491089,
+      "learning_rate": 9.411316776007498e-06,
+      "loss": 0.1355,
+      "step": 10050
+    },
+    {
+      "epoch": 4.71415182755389,
+      "grad_norm": 2.5910768508911133,
+      "learning_rate": 9.410731021555765e-06,
+      "loss": 0.1382,
+      "step": 10060
+    },
+    {
+      "epoch": 4.71883786316776,
+      "grad_norm": 3.6344025135040283,
+      "learning_rate": 9.41014526710403e-06,
+      "loss": 0.1609,
+      "step": 10070
+    },
+    {
+      "epoch": 4.723523898781631,
+      "grad_norm": 2.099355697631836,
+      "learning_rate": 9.409559512652297e-06,
+      "loss": 0.1476,
+      "step": 10080
+    },
+    {
+      "epoch": 4.728209934395501,
+      "grad_norm": 2.334122896194458,
+      "learning_rate": 9.408973758200564e-06,
+      "loss": 0.1444,
+      "step": 10090
+    },
+    {
+      "epoch": 4.7328959700093725,
+      "grad_norm": 2.061877965927124,
+      "learning_rate": 9.408388003748829e-06,
+      "loss": 0.1507,
+      "step": 10100
+    },
+    {
+      "epoch": 4.737582005623243,
+      "grad_norm": 1.8726963996887207,
+      "learning_rate": 9.407802249297096e-06,
+      "loss": 0.1546,
+      "step": 10110
+    },
+    {
+      "epoch": 4.742268041237113,
+      "grad_norm": 2.147475004196167,
+      "learning_rate": 9.407216494845361e-06,
+      "loss": 0.1378,
+      "step": 10120
+    },
+    {
+      "epoch": 4.746954076850984,
+      "grad_norm": 2.2211480140686035,
+      "learning_rate": 9.406630740393628e-06,
+      "loss": 0.1636,
+      "step": 10130
+    },
+    {
+      "epoch": 4.751640112464854,
+      "grad_norm": 2.4492108821868896,
+      "learning_rate": 9.406044985941893e-06,
+      "loss": 0.1485,
+      "step": 10140
+    },
+    {
+      "epoch": 4.756326148078726,
+      "grad_norm": 2.647960662841797,
+      "learning_rate": 9.40545923149016e-06,
+      "loss": 0.1518,
+      "step": 10150
+    },
+    {
+      "epoch": 4.761012183692596,
+      "grad_norm": 2.5408220291137695,
+      "learning_rate": 9.404873477038427e-06,
+      "loss": 0.1088,
+      "step": 10160
+    },
+    {
+      "epoch": 4.765698219306467,
+      "grad_norm": 2.3026010990142822,
+      "learning_rate": 9.404287722586692e-06,
+      "loss": 0.1414,
+      "step": 10170
+    },
+    {
+      "epoch": 4.770384254920337,
+      "grad_norm": 2.1535961627960205,
+      "learning_rate": 9.403701968134958e-06,
+      "loss": 0.1438,
+      "step": 10180
+    },
+    {
+      "epoch": 4.775070290534208,
+      "grad_norm": 2.3178975582122803,
+      "learning_rate": 9.403116213683224e-06,
+      "loss": 0.1579,
+      "step": 10190
+    },
+    {
+      "epoch": 4.779756326148079,
+      "grad_norm": 1.7218929529190063,
+      "learning_rate": 9.402530459231491e-06,
+      "loss": 0.1565,
+      "step": 10200
+    },
+    {
+      "epoch": 4.78444236176195,
+      "grad_norm": 1.7112232446670532,
+      "learning_rate": 9.401944704779757e-06,
+      "loss": 0.1576,
+      "step": 10210
+    },
+    {
+      "epoch": 4.78912839737582,
+      "grad_norm": 2.9099996089935303,
+      "learning_rate": 9.401358950328024e-06,
+      "loss": 0.1404,
+      "step": 10220
+    },
+    {
+      "epoch": 4.793814432989691,
+      "grad_norm": 2.4656243324279785,
+      "learning_rate": 9.400773195876289e-06,
+      "loss": 0.1537,
+      "step": 10230
+    },
+    {
+      "epoch": 4.798500468603561,
+      "grad_norm": 2.836191415786743,
+      "learning_rate": 9.400187441424556e-06,
+      "loss": 0.1444,
+      "step": 10240
+    },
+    {
+      "epoch": 4.803186504217432,
+      "grad_norm": 1.7375587224960327,
+      "learning_rate": 9.399601686972821e-06,
+      "loss": 0.148,
+      "step": 10250
+    },
+    {
+      "epoch": 4.803186504217432,
+      "eval_loss": 0.04357453063130379,
+      "eval_pearson_cosine": 0.7816648988028874,
+      "eval_pearson_dot": 0.617140121100384,
+      "eval_pearson_euclidean": 0.7424818050017805,
+      "eval_pearson_manhattan": 0.74207686822308,
+      "eval_runtime": 40.6143,
+      "eval_samples_per_second": 36.933,
+      "eval_spearman_cosine": 0.7855171487091146,
+      "eval_spearman_dot": 0.623924985286794,
+      "eval_spearman_euclidean": 0.7600678672581802,
+      "eval_spearman_manhattan": 0.7596066338339531,
+      "eval_steps_per_second": 36.933,
+      "step": 10250
+    },
+    {
+      "epoch": 4.807872539831303,
+      "grad_norm": 2.1630876064300537,
+      "learning_rate": 9.399015932521088e-06,
+      "loss": 0.1382,
+      "step": 10260
+    },
+    {
+      "epoch": 4.812558575445173,
+      "grad_norm": 2.035651445388794,
+      "learning_rate": 9.398430178069355e-06,
+      "loss": 0.1449,
+      "step": 10270
+    },
+    {
+      "epoch": 4.817244611059044,
+      "grad_norm": 3.047879219055176,
+      "learning_rate": 9.39784442361762e-06,
+      "loss": 0.1438,
+      "step": 10280
+    },
+    {
+      "epoch": 4.821930646672914,
+      "grad_norm": 3.29184889793396,
+      "learning_rate": 9.397258669165887e-06,
+      "loss": 0.1794,
+      "step": 10290
+    },
+    {
+      "epoch": 4.826616682286786,
+      "grad_norm": 2.301718235015869,
+      "learning_rate": 9.396672914714152e-06,
+      "loss": 0.1511,
+      "step": 10300
+    },
+    {
+      "epoch": 4.831302717900656,
+      "grad_norm": 3.2951526641845703,
+      "learning_rate": 9.396087160262419e-06,
+      "loss": 0.1624,
+      "step": 10310
+    },
+    {
+      "epoch": 4.835988753514527,
+      "grad_norm": 2.597886800765991,
+      "learning_rate": 9.395501405810686e-06,
+      "loss": 0.1464,
+      "step": 10320
+    },
+    {
+      "epoch": 4.840674789128397,
+      "grad_norm": 2.1214399337768555,
+      "learning_rate": 9.394915651358951e-06,
+      "loss": 0.1434,
+      "step": 10330
+    },
+    {
+      "epoch": 4.845360824742268,
+      "grad_norm": 2.453712224960327,
+      "learning_rate": 9.394329896907216e-06,
+      "loss": 0.145,
+      "step": 10340
+    },
+    {
+      "epoch": 4.850046860356139,
+      "grad_norm": 1.6721562147140503,
+      "learning_rate": 9.393744142455483e-06,
+      "loss": 0.1481,
+      "step": 10350
+    },
+    {
+      "epoch": 4.85473289597001,
+      "grad_norm": 3.1657016277313232,
+      "learning_rate": 9.393158388003748e-06,
+      "loss": 0.1661,
+      "step": 10360
+    },
+    {
+      "epoch": 4.85941893158388,
+      "grad_norm": 2.637096881866455,
+      "learning_rate": 9.392572633552015e-06,
+      "loss": 0.1445,
+      "step": 10370
+    },
+    {
+      "epoch": 4.8641049671977505,
+      "grad_norm": 2.9260575771331787,
+      "learning_rate": 9.391986879100282e-06,
+      "loss": 0.1446,
+      "step": 10380
+    },
+    {
+      "epoch": 4.868791002811621,
+      "grad_norm": 2.740488052368164,
+      "learning_rate": 9.391401124648548e-06,
+      "loss": 0.1233,
+      "step": 10390
+    },
+    {
+      "epoch": 4.873477038425492,
+      "grad_norm": 3.028416156768799,
+      "learning_rate": 9.390815370196814e-06,
+      "loss": 0.1496,
+      "step": 10400
+    },
+    {
+      "epoch": 4.878163074039363,
+      "grad_norm": 2.666135787963867,
+      "learning_rate": 9.39022961574508e-06,
+      "loss": 0.1509,
+      "step": 10410
+    },
+    {
+      "epoch": 4.882849109653233,
+      "grad_norm": 1.6811872720718384,
+      "learning_rate": 9.389643861293347e-06,
+      "loss": 0.1288,
+      "step": 10420
+    },
+    {
+      "epoch": 4.887535145267104,
+      "grad_norm": 3.225088357925415,
+      "learning_rate": 9.389058106841614e-06,
+      "loss": 0.1674,
+      "step": 10430
+    },
+    {
+      "epoch": 4.892221180880974,
+      "grad_norm": 2.038783311843872,
+      "learning_rate": 9.388472352389879e-06,
+      "loss": 0.1628,
+      "step": 10440
+    },
+    {
+      "epoch": 4.896907216494846,
+      "grad_norm": 2.5650861263275146,
+      "learning_rate": 9.387886597938146e-06,
+      "loss": 0.1423,
+      "step": 10450
+    },
+    {
+      "epoch": 4.901593252108716,
+      "grad_norm": 2.9860751628875732,
+      "learning_rate": 9.387300843486411e-06,
+      "loss": 0.14,
+      "step": 10460
+    },
+    {
+      "epoch": 4.906279287722587,
+      "grad_norm": 2.6722230911254883,
+      "learning_rate": 9.386715089034678e-06,
+      "loss": 0.1416,
+      "step": 10470
+    },
+    {
+      "epoch": 4.910965323336457,
+      "grad_norm": 2.631300926208496,
+      "learning_rate": 9.386129334582945e-06,
+      "loss": 0.1482,
+      "step": 10480
+    },
+    {
+      "epoch": 4.915651358950328,
+      "grad_norm": 2.792668104171753,
+      "learning_rate": 9.38554358013121e-06,
+      "loss": 0.1639,
+      "step": 10490
+    },
+    {
+      "epoch": 4.920337394564199,
+      "grad_norm": 2.3472137451171875,
+      "learning_rate": 9.384957825679475e-06,
+      "loss": 0.1382,
+      "step": 10500
+    },
+    {
+      "epoch": 4.920337394564199,
+      "eval_loss": 0.04462406784296036,
+      "eval_pearson_cosine": 0.7824275239321139,
+      "eval_pearson_dot": 0.6329557539240795,
+      "eval_pearson_euclidean": 0.7443049370608668,
+      "eval_pearson_manhattan": 0.7436570805807037,
+      "eval_runtime": 39.5855,
+      "eval_samples_per_second": 37.893,
+      "eval_spearman_cosine": 0.7871549274543737,
+      "eval_spearman_dot": 0.6424130372572389,
+      "eval_spearman_euclidean": 0.7624881768092765,
+      "eval_spearman_manhattan": 0.7619956515478402,
+      "eval_steps_per_second": 37.893,
+      "step": 10500
+    },
+    {
+      "epoch": 4.9250234301780695,
+      "grad_norm": 2.011869192123413,
+      "learning_rate": 9.384372071227742e-06,
+      "loss": 0.1682,
+      "step": 10510
+    },
+    {
+      "epoch": 4.92970946579194,
+      "grad_norm": 2.2601213455200195,
+      "learning_rate": 9.383786316776007e-06,
+      "loss": 0.1386,
+      "step": 10520
+    },
+    {
+      "epoch": 4.9343955014058105,
+      "grad_norm": 3.00738263130188,
+      "learning_rate": 9.383200562324274e-06,
+      "loss": 0.1712,
+      "step": 10530
+    },
+    {
+      "epoch": 4.939081537019681,
+      "grad_norm": 2.7528035640716553,
+      "learning_rate": 9.382614807872541e-06,
+      "loss": 0.163,
+      "step": 10540
+    },
+    {
+      "epoch": 4.943767572633552,
+      "grad_norm": 2.2604238986968994,
+      "learning_rate": 9.382029053420806e-06,
+      "loss": 0.1638,
+      "step": 10550
+    },
+    {
+      "epoch": 4.948453608247423,
+      "grad_norm": 2.3817455768585205,
+      "learning_rate": 9.381443298969073e-06,
+      "loss": 0.1478,
+      "step": 10560
+    },
+    {
+      "epoch": 4.953139643861293,
+      "grad_norm": 2.392261028289795,
+      "learning_rate": 9.380857544517338e-06,
+      "loss": 0.1521,
+      "step": 10570
+    },
+    {
+      "epoch": 4.957825679475164,
+      "grad_norm": 2.8620009422302246,
+      "learning_rate": 9.380271790065605e-06,
+      "loss": 0.1477,
+      "step": 10580
+    },
+    {
+      "epoch": 4.962511715089034,
+      "grad_norm": 2.658115863800049,
+      "learning_rate": 9.379686035613872e-06,
+      "loss": 0.1251,
+      "step": 10590
+    },
+    {
+      "epoch": 4.967197750702906,
+      "grad_norm": 2.8949685096740723,
+      "learning_rate": 9.379100281162138e-06,
+      "loss": 0.1595,
+      "step": 10600
+    },
+    {
+      "epoch": 4.971883786316776,
+      "grad_norm": 2.472933292388916,
+      "learning_rate": 9.378514526710404e-06,
+      "loss": 0.1611,
+      "step": 10610
+    },
+    {
+      "epoch": 4.976569821930647,
+      "grad_norm": 2.650047540664673,
+      "learning_rate": 9.37792877225867e-06,
+      "loss": 0.1483,
+      "step": 10620
+    },
+    {
+      "epoch": 4.981255857544517,
+      "grad_norm": 2.293938398361206,
+      "learning_rate": 9.377343017806937e-06,
+      "loss": 0.1535,
+      "step": 10630
+    },
+    {
+      "epoch": 4.985941893158388,
+      "grad_norm": 2.1445188522338867,
+      "learning_rate": 9.376757263355202e-06,
+      "loss": 0.1562,
+      "step": 10640
+    },
+    {
+      "epoch": 4.990627928772259,
+      "grad_norm": 1.898871660232544,
+      "learning_rate": 9.376171508903469e-06,
+      "loss": 0.16,
+      "step": 10650
+    },
+    {
+      "epoch": 4.9953139643861295,
+      "grad_norm": 1.8987932205200195,
+      "learning_rate": 9.375585754451734e-06,
+      "loss": 0.1348,
+      "step": 10660
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 1.9247934818267822,
+      "learning_rate": 9.375000000000001e-06,
+      "loss": 0.1357,
+      "step": 10670
+    },
+    {
+      "epoch": 5.0046860356138705,
+      "grad_norm": 2.254408836364746,
+      "learning_rate": 9.374414245548266e-06,
+      "loss": 0.0979,
+      "step": 10680
+    },
+    {
+      "epoch": 5.009372071227741,
+      "grad_norm": 2.336634874343872,
+      "learning_rate": 9.373828491096533e-06,
+      "loss": 0.1008,
+      "step": 10690
+    },
+    {
+      "epoch": 5.014058106841612,
+      "grad_norm": 2.0158193111419678,
+      "learning_rate": 9.3732427366448e-06,
+      "loss": 0.1206,
+      "step": 10700
+    },
+    {
+      "epoch": 5.018744142455483,
+      "grad_norm": 2.12335205078125,
+      "learning_rate": 9.372656982193065e-06,
+      "loss": 0.1153,
+      "step": 10710
+    },
+    {
+      "epoch": 5.023430178069353,
+      "grad_norm": 1.9908068180084229,
+      "learning_rate": 9.372071227741332e-06,
+      "loss": 0.096,
+      "step": 10720
+    },
+    {
+      "epoch": 5.028116213683224,
+      "grad_norm": 2.713801145553589,
+      "learning_rate": 9.371485473289597e-06,
+      "loss": 0.1183,
+      "step": 10730
+    },
+    {
+      "epoch": 5.032802249297094,
+      "grad_norm": 1.922958493232727,
+      "learning_rate": 9.370899718837864e-06,
+      "loss": 0.0975,
+      "step": 10740
+    },
+    {
+      "epoch": 5.037488284910966,
+      "grad_norm": 1.787152647972107,
+      "learning_rate": 9.37031396438613e-06,
+      "loss": 0.1109,
+      "step": 10750
+    },
+    {
+      "epoch": 5.037488284910966,
+      "eval_loss": 0.042590245604515076,
+      "eval_pearson_cosine": 0.7796460620464813,
+      "eval_pearson_dot": 0.6195124617279077,
+      "eval_pearson_euclidean": 0.7433733944090761,
+      "eval_pearson_manhattan": 0.7430945401829945,
+      "eval_runtime": 39.7087,
+      "eval_samples_per_second": 37.775,
+      "eval_spearman_cosine": 0.7845566035417548,
+      "eval_spearman_dot": 0.6248763613915714,
+      "eval_spearman_euclidean": 0.7601630737316083,
+      "eval_spearman_manhattan": 0.7599814027838542,
+      "eval_steps_per_second": 37.775,
+      "step": 10750
+    },
+    {
+      "epoch": 5.042174320524836,
+      "grad_norm": 2.3772122859954834,
+      "learning_rate": 9.369728209934396e-06,
+      "loss": 0.1063,
+      "step": 10760
+    },
+    {
+      "epoch": 5.046860356138707,
+      "grad_norm": 2.4249303340911865,
+      "learning_rate": 9.369142455482663e-06,
+      "loss": 0.0909,
+      "step": 10770
+    },
+    {
+      "epoch": 5.051546391752577,
+      "grad_norm": 2.354619264602661,
+      "learning_rate": 9.368556701030928e-06,
+      "loss": 0.1121,
+      "step": 10780
+    },
+    {
+      "epoch": 5.056232427366448,
+      "grad_norm": 2.3761093616485596,
+      "learning_rate": 9.367970946579195e-06,
+      "loss": 0.0962,
+      "step": 10790
+    },
+    {
+      "epoch": 5.060918462980319,
+      "grad_norm": 1.9781490564346313,
+      "learning_rate": 9.36738519212746e-06,
+      "loss": 0.1159,
+      "step": 10800
+    },
+    {
+      "epoch": 5.0656044985941895,
+      "grad_norm": 2.9498939514160156,
+      "learning_rate": 9.366799437675728e-06,
+      "loss": 0.1046,
+      "step": 10810
+    },
+    {
+      "epoch": 5.07029053420806,
+      "grad_norm": 1.618909478187561,
+      "learning_rate": 9.366213683223993e-06,
+      "loss": 0.1145,
+      "step": 10820
+    },
+    {
+      "epoch": 5.0749765698219305,
+      "grad_norm": 1.5350381135940552,
+      "learning_rate": 9.36562792877226e-06,
+      "loss": 0.125,
+      "step": 10830
+    },
+    {
+      "epoch": 5.079662605435801,
+      "grad_norm": 2.1376562118530273,
+      "learning_rate": 9.365042174320525e-06,
+      "loss": 0.11,
+      "step": 10840
+    },
+    {
+      "epoch": 5.084348641049672,
+      "grad_norm": 2.638848066329956,
+      "learning_rate": 9.364456419868792e-06,
+      "loss": 0.1257,
+      "step": 10850
+    },
+    {
+      "epoch": 5.089034676663543,
+      "grad_norm": 2.5730180740356445,
+      "learning_rate": 9.363870665417057e-06,
+      "loss": 0.1131,
+      "step": 10860
+    },
+    {
+      "epoch": 5.093720712277413,
+      "grad_norm": 1.658488392829895,
+      "learning_rate": 9.363284910965324e-06,
+      "loss": 0.1095,
+      "step": 10870
+    },
+    {
+      "epoch": 5.098406747891284,
+      "grad_norm": 2.5831501483917236,
+      "learning_rate": 9.362699156513591e-06,
+      "loss": 0.1159,
+      "step": 10880
+    },
+    {
+      "epoch": 5.103092783505154,
+      "grad_norm": 1.3760308027267456,
+      "learning_rate": 9.362113402061856e-06,
+      "loss": 0.1052,
+      "step": 10890
+    },
+    {
+      "epoch": 5.107778819119026,
+      "grad_norm": 1.529236078262329,
+      "learning_rate": 9.361527647610123e-06,
+      "loss": 0.1132,
+      "step": 10900
+    },
+    {
+      "epoch": 5.112464854732896,
+      "grad_norm": 1.9166224002838135,
+      "learning_rate": 9.360941893158388e-06,
+      "loss": 0.1142,
+      "step": 10910
+    },
+    {
+      "epoch": 5.117150890346767,
+      "grad_norm": 2.521615505218506,
+      "learning_rate": 9.360356138706655e-06,
+      "loss": 0.1222,
+      "step": 10920
+    },
+    {
+      "epoch": 5.121836925960637,
+      "grad_norm": 2.1560580730438232,
+      "learning_rate": 9.359770384254922e-06,
+      "loss": 0.1081,
+      "step": 10930
+    },
+    {
+      "epoch": 5.126522961574508,
+      "grad_norm": 1.3674089908599854,
+      "learning_rate": 9.359184629803187e-06,
+      "loss": 0.1198,
+      "step": 10940
+    },
+    {
+      "epoch": 5.131208997188379,
+      "grad_norm": 2.396967649459839,
+      "learning_rate": 9.358598875351454e-06,
+      "loss": 0.1101,
+      "step": 10950
+    },
+    {
+      "epoch": 5.1358950328022495,
+      "grad_norm": 1.6446019411087036,
+      "learning_rate": 9.35801312089972e-06,
+      "loss": 0.096,
+      "step": 10960
+    },
+    {
+      "epoch": 5.14058106841612,
+      "grad_norm": 2.565040349960327,
+      "learning_rate": 9.357427366447985e-06,
+      "loss": 0.1047,
+      "step": 10970
+    },
+    {
+      "epoch": 5.14526710402999,
+      "grad_norm": 1.8515427112579346,
+      "learning_rate": 9.356841611996252e-06,
+      "loss": 0.0955,
+      "step": 10980
+    },
+    {
+      "epoch": 5.149953139643861,
+      "grad_norm": 2.294940233230591,
+      "learning_rate": 9.356255857544518e-06,
+      "loss": 0.1212,
+      "step": 10990
+    },
+    {
+      "epoch": 5.154639175257732,
+      "grad_norm": 1.995937466621399,
+      "learning_rate": 9.355670103092784e-06,
+      "loss": 0.1009,
+      "step": 11000
+    },
+    {
+      "epoch": 5.154639175257732,
+      "eval_loss": 0.04305338114500046,
+      "eval_pearson_cosine": 0.780686355713101,
+      "eval_pearson_dot": 0.6237317182336994,
+      "eval_pearson_euclidean": 0.7427541562137776,
+      "eval_pearson_manhattan": 0.7423336637021691,
+      "eval_runtime": 40.3116,
+      "eval_samples_per_second": 37.21,
+      "eval_spearman_cosine": 0.7834710778584321,
+      "eval_spearman_dot": 0.637744309819412,
+      "eval_spearman_euclidean": 0.7591336014689473,
+      "eval_spearman_manhattan": 0.7590724893258253,
+      "eval_steps_per_second": 37.21,
+      "step": 11000
     }
   ],
   "logging_steps": 10,