Training in progress, step 4000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71d0eabfbdd37b2fae13fa797c3f0436a08906b6795d79ec3027697d278db38e
 size 598434152

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fbedc25a7e866c5375d17390d5eb67e93e519d92626a3f97c7daddf7702fcab
 size 598434152

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65be9700ffb2ead35027d047544f87600617dedade6f5c3f6c069f12bb951ba1
 size 1196955962

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff74a5fb5071ae21ddeb0a899cb40c982a667d261c8d2108985988527a0acde6
 size 1196955962

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59efe62e4ca0647678855566a69eaafc20fb9e01c9af7b6b454bf0717d7bf5f7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f9aa43992237c34da047eae3e4635545e3cbee9026436669a8ec61ef48f58c1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f7bf369a63d501e73812630c6dd5a11aa21e67b93b5316e7295ec988e3218d6
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:4dc07d6a74a610820a65e18607f99e43ef207c98dc79fcbe54bd9e13a24f2410
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.4058106841611997,
   "eval_steps": 250,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2299,6 +2299,770 @@
       "eval_spearman_manhattan": 0.7832975474858643,
       "eval_steps_per_second": 31.371,
       "step": 3000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.8744142455482662,
   "eval_steps": 250,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7832975474858643,
       "eval_steps_per_second": 31.371,
       "step": 3000
+    },
+    {
+      "epoch": 1.4104967197750704,
+      "grad_norm": 4.2792487144470215,
+      "learning_rate": 9.118439550140582e-06,
+      "loss": 0.4878,
+      "step": 3010
+    },
+    {
+      "epoch": 1.415182755388941,
+      "grad_norm": 3.8892383575439453,
+      "learning_rate": 9.115510777881913e-06,
+      "loss": 0.4676,
+      "step": 3020
+    },
+    {
+      "epoch": 1.4198687910028116,
+      "grad_norm": 5.0008745193481445,
+      "learning_rate": 9.112582005623244e-06,
+      "loss": 0.4729,
+      "step": 3030
+    },
+    {
+      "epoch": 1.4245548266166823,
+      "grad_norm": 5.607409477233887,
+      "learning_rate": 9.109653233364575e-06,
+      "loss": 0.4762,
+      "step": 3040
+    },
+    {
+      "epoch": 1.429240862230553,
+      "grad_norm": 3.0340139865875244,
+      "learning_rate": 9.106724461105905e-06,
+      "loss": 0.4438,
+      "step": 3050
+    },
+    {
+      "epoch": 1.4339268978444237,
+      "grad_norm": 4.310724258422852,
+      "learning_rate": 9.103795688847236e-06,
+      "loss": 0.4499,
+      "step": 3060
+    },
+    {
+      "epoch": 1.4386129334582942,
+      "grad_norm": 4.481917381286621,
+      "learning_rate": 9.100866916588567e-06,
+      "loss": 0.4493,
+      "step": 3070
+    },
+    {
+      "epoch": 1.443298969072165,
+      "grad_norm": 4.330621719360352,
+      "learning_rate": 9.097938144329898e-06,
+      "loss": 0.4505,
+      "step": 3080
+    },
+    {
+      "epoch": 1.4479850046860356,
+      "grad_norm": 4.335081577301025,
+      "learning_rate": 9.095009372071228e-06,
+      "loss": 0.446,
+      "step": 3090
+    },
+    {
+      "epoch": 1.4526710402999063,
+      "grad_norm": 3.0894672870635986,
+      "learning_rate": 9.092080599812559e-06,
+      "loss": 0.4404,
+      "step": 3100
+    },
+    {
+      "epoch": 1.457357075913777,
+      "grad_norm": 4.6363983154296875,
+      "learning_rate": 9.08915182755389e-06,
+      "loss": 0.5358,
+      "step": 3110
+    },
+    {
+      "epoch": 1.4620431115276475,
+      "grad_norm": 3.80387806892395,
+      "learning_rate": 9.086223055295221e-06,
+      "loss": 0.4374,
+      "step": 3120
+    },
+    {
+      "epoch": 1.4667291471415183,
+      "grad_norm": 3.276442289352417,
+      "learning_rate": 9.083294283036552e-06,
+      "loss": 0.5013,
+      "step": 3130
+    },
+    {
+      "epoch": 1.471415182755389,
+      "grad_norm": 3.843419075012207,
+      "learning_rate": 9.080365510777884e-06,
+      "loss": 0.4694,
+      "step": 3140
+    },
+    {
+      "epoch": 1.4761012183692597,
+      "grad_norm": 4.7606730461120605,
+      "learning_rate": 9.077436738519213e-06,
+      "loss": 0.4215,
+      "step": 3150
+    },
+    {
+      "epoch": 1.4807872539831304,
+      "grad_norm": 3.739225149154663,
+      "learning_rate": 9.074507966260544e-06,
+      "loss": 0.4756,
+      "step": 3160
+    },
+    {
+      "epoch": 1.4854732895970009,
+      "grad_norm": 3.36938214302063,
+      "learning_rate": 9.071579194001876e-06,
+      "loss": 0.4243,
+      "step": 3170
+    },
+    {
+      "epoch": 1.4901593252108716,
+      "grad_norm": 6.589993476867676,
+      "learning_rate": 9.068650421743205e-06,
+      "loss": 0.4698,
+      "step": 3180
+    },
+    {
+      "epoch": 1.4948453608247423,
+      "grad_norm": 3.8416695594787598,
+      "learning_rate": 9.065721649484536e-06,
+      "loss": 0.4964,
+      "step": 3190
+    },
+    {
+      "epoch": 1.499531396438613,
+      "grad_norm": 4.367741584777832,
+      "learning_rate": 9.062792877225867e-06,
+      "loss": 0.4417,
+      "step": 3200
+    },
+    {
+      "epoch": 1.5042174320524837,
+      "grad_norm": 3.500617742538452,
+      "learning_rate": 9.059864104967199e-06,
+      "loss": 0.4522,
+      "step": 3210
+    },
+    {
+      "epoch": 1.5089034676663542,
+      "grad_norm": 3.5349769592285156,
+      "learning_rate": 9.05693533270853e-06,
+      "loss": 0.4393,
+      "step": 3220
+    },
+    {
+      "epoch": 1.513589503280225,
+      "grad_norm": 3.8469526767730713,
+      "learning_rate": 9.054006560449861e-06,
+      "loss": 0.4453,
+      "step": 3230
+    },
+    {
+      "epoch": 1.5182755388940956,
+      "grad_norm": 3.209933280944824,
+      "learning_rate": 9.051077788191192e-06,
+      "loss": 0.4599,
+      "step": 3240
+    },
+    {
+      "epoch": 1.522961574507966,
+      "grad_norm": 3.7976036071777344,
+      "learning_rate": 9.048149015932522e-06,
+      "loss": 0.4373,
+      "step": 3250
+    },
+    {
+      "epoch": 1.522961574507966,
+      "eval_loss": 0.049798864871263504,
+      "eval_pearson_cosine": 0.7866421286010308,
+      "eval_pearson_dot": 0.6641640853451243,
+      "eval_pearson_euclidean": 0.7777378719378305,
+      "eval_pearson_manhattan": 0.7764827785285746,
+      "eval_runtime": 43.7509,
+      "eval_samples_per_second": 34.285,
+      "eval_spearman_cosine": 0.7870351053050699,
+      "eval_spearman_dot": 0.6708598238937284,
+      "eval_spearman_euclidean": 0.7874683707378692,
+      "eval_spearman_manhattan": 0.7865203522698128,
+      "eval_steps_per_second": 34.285,
+      "step": 3250
+    },
+    {
+      "epoch": 1.527647610121837,
+      "grad_norm": 4.851262092590332,
+      "learning_rate": 9.045220243673853e-06,
+      "loss": 0.491,
+      "step": 3260
+    },
+    {
+      "epoch": 1.5323336457357075,
+      "grad_norm": 4.183891773223877,
+      "learning_rate": 9.042291471415184e-06,
+      "loss": 0.453,
+      "step": 3270
+    },
+    {
+      "epoch": 1.5370196813495782,
+      "grad_norm": 4.280774116516113,
+      "learning_rate": 9.039362699156514e-06,
+      "loss": 0.4413,
+      "step": 3280
+    },
+    {
+      "epoch": 1.541705716963449,
+      "grad_norm": 4.118307113647461,
+      "learning_rate": 9.036433926897845e-06,
+      "loss": 0.4661,
+      "step": 3290
+    },
+    {
+      "epoch": 1.5463917525773194,
+      "grad_norm": 5.99712610244751,
+      "learning_rate": 9.033505154639176e-06,
+      "loss": 0.5205,
+      "step": 3300
+    },
+    {
+      "epoch": 1.5510777881911904,
+      "grad_norm": 4.146691799163818,
+      "learning_rate": 9.030576382380507e-06,
+      "loss": 0.428,
+      "step": 3310
+    },
+    {
+      "epoch": 1.5557638238050608,
+      "grad_norm": 3.899887800216675,
+      "learning_rate": 9.027647610121838e-06,
+      "loss": 0.4564,
+      "step": 3320
+    },
+    {
+      "epoch": 1.5604498594189316,
+      "grad_norm": 3.9663302898406982,
+      "learning_rate": 9.02471883786317e-06,
+      "loss": 0.4539,
+      "step": 3330
+    },
+    {
+      "epoch": 1.5651358950328023,
+      "grad_norm": 3.526458263397217,
+      "learning_rate": 9.021790065604499e-06,
+      "loss": 0.4844,
+      "step": 3340
+    },
+    {
+      "epoch": 1.569821930646673,
+      "grad_norm": 4.192911624908447,
+      "learning_rate": 9.01886129334583e-06,
+      "loss": 0.4278,
+      "step": 3350
+    },
+    {
+      "epoch": 1.5745079662605437,
+      "grad_norm": 4.185749530792236,
+      "learning_rate": 9.015932521087161e-06,
+      "loss": 0.4632,
+      "step": 3360
+    },
+    {
+      "epoch": 1.5791940018744142,
+      "grad_norm": 3.411773204803467,
+      "learning_rate": 9.013003748828491e-06,
+      "loss": 0.436,
+      "step": 3370
+    },
+    {
+      "epoch": 1.5838800374882849,
+      "grad_norm": 4.467881679534912,
+      "learning_rate": 9.010074976569822e-06,
+      "loss": 0.4133,
+      "step": 3380
+    },
+    {
+      "epoch": 1.5885660731021556,
+      "grad_norm": 3.77736496925354,
+      "learning_rate": 9.007146204311153e-06,
+      "loss": 0.4452,
+      "step": 3390
+    },
+    {
+      "epoch": 1.5932521087160263,
+      "grad_norm": 4.084095478057861,
+      "learning_rate": 9.004217432052485e-06,
+      "loss": 0.4605,
+      "step": 3400
+    },
+    {
+      "epoch": 1.597938144329897,
+      "grad_norm": 3.3393008708953857,
+      "learning_rate": 9.001288659793816e-06,
+      "loss": 0.4157,
+      "step": 3410
+    },
+    {
+      "epoch": 1.6026241799437675,
+      "grad_norm": 3.096881151199341,
+      "learning_rate": 8.998359887535147e-06,
+      "loss": 0.4478,
+      "step": 3420
+    },
+    {
+      "epoch": 1.6073102155576382,
+      "grad_norm": 3.0557243824005127,
+      "learning_rate": 8.995431115276478e-06,
+      "loss": 0.4452,
+      "step": 3430
+    },
+    {
+      "epoch": 1.611996251171509,
+      "grad_norm": 3.7997219562530518,
+      "learning_rate": 8.992502343017808e-06,
+      "loss": 0.4287,
+      "step": 3440
+    },
+    {
+      "epoch": 1.6166822867853796,
+      "grad_norm": 3.6995465755462646,
+      "learning_rate": 8.989573570759139e-06,
+      "loss": 0.4423,
+      "step": 3450
+    },
+    {
+      "epoch": 1.6213683223992503,
+      "grad_norm": 4.1384053230285645,
+      "learning_rate": 8.986644798500468e-06,
+      "loss": 0.4563,
+      "step": 3460
+    },
+    {
+      "epoch": 1.6260543580131208,
+      "grad_norm": 4.637014865875244,
+      "learning_rate": 8.9837160262418e-06,
+      "loss": 0.4538,
+      "step": 3470
+    },
+    {
+      "epoch": 1.6307403936269915,
+      "grad_norm": 4.30952262878418,
+      "learning_rate": 8.98078725398313e-06,
+      "loss": 0.3993,
+      "step": 3480
+    },
+    {
+      "epoch": 1.6354264292408622,
+      "grad_norm": 4.746737003326416,
+      "learning_rate": 8.977858481724462e-06,
+      "loss": 0.4274,
+      "step": 3490
+    },
+    {
+      "epoch": 1.640112464854733,
+      "grad_norm": 3.8592286109924316,
+      "learning_rate": 8.974929709465793e-06,
+      "loss": 0.4066,
+      "step": 3500
+    },
+    {
+      "epoch": 1.640112464854733,
+      "eval_loss": 0.050406068563461304,
+      "eval_pearson_cosine": 0.7840015528942317,
+      "eval_pearson_dot": 0.659932129633507,
+      "eval_pearson_euclidean": 0.7769297052026758,
+      "eval_pearson_manhattan": 0.7754185185705609,
+      "eval_runtime": 44.0859,
+      "eval_samples_per_second": 34.024,
+      "eval_spearman_cosine": 0.7845451302239834,
+      "eval_spearman_dot": 0.6667296644451466,
+      "eval_spearman_euclidean": 0.7868327314956118,
+      "eval_spearman_manhattan": 0.7856021398727839,
+      "eval_steps_per_second": 34.024,
+      "step": 3500
+    },
+    {
+      "epoch": 1.6447985004686037,
+      "grad_norm": 5.983098030090332,
+      "learning_rate": 8.972000937207124e-06,
+      "loss": 0.4451,
+      "step": 3510
+    },
+    {
+      "epoch": 1.6494845360824741,
+      "grad_norm": 4.052550315856934,
+      "learning_rate": 8.969072164948455e-06,
+      "loss": 0.4331,
+      "step": 3520
+    },
+    {
+      "epoch": 1.6541705716963448,
+      "grad_norm": 3.7970380783081055,
+      "learning_rate": 8.966143392689785e-06,
+      "loss": 0.4427,
+      "step": 3530
+    },
+    {
+      "epoch": 1.6588566073102156,
+      "grad_norm": 4.695807456970215,
+      "learning_rate": 8.963214620431116e-06,
+      "loss": 0.4522,
+      "step": 3540
+    },
+    {
+      "epoch": 1.6635426429240863,
+      "grad_norm": 4.41202974319458,
+      "learning_rate": 8.960285848172446e-06,
+      "loss": 0.4275,
+      "step": 3550
+    },
+    {
+      "epoch": 1.668228678537957,
+      "grad_norm": 5.364877223968506,
+      "learning_rate": 8.957357075913777e-06,
+      "loss": 0.4321,
+      "step": 3560
+    },
+    {
+      "epoch": 1.6729147141518275,
+      "grad_norm": 3.801132917404175,
+      "learning_rate": 8.954428303655108e-06,
+      "loss": 0.4494,
+      "step": 3570
+    },
+    {
+      "epoch": 1.6776007497656982,
+      "grad_norm": 4.197866439819336,
+      "learning_rate": 8.95149953139644e-06,
+      "loss": 0.4126,
+      "step": 3580
+    },
+    {
+      "epoch": 1.6822867853795689,
+      "grad_norm": 5.34595251083374,
+      "learning_rate": 8.94857075913777e-06,
+      "loss": 0.4757,
+      "step": 3590
+    },
+    {
+      "epoch": 1.6869728209934396,
+      "grad_norm": 4.772789478302002,
+      "learning_rate": 8.945641986879102e-06,
+      "loss": 0.4037,
+      "step": 3600
+    },
+    {
+      "epoch": 1.6916588566073103,
+      "grad_norm": 4.81839656829834,
+      "learning_rate": 8.942713214620433e-06,
+      "loss": 0.4192,
+      "step": 3610
+    },
+    {
+      "epoch": 1.6963448922211808,
+      "grad_norm": 3.470919132232666,
+      "learning_rate": 8.939784442361762e-06,
+      "loss": 0.4106,
+      "step": 3620
+    },
+    {
+      "epoch": 1.7010309278350515,
+      "grad_norm": 3.2051522731781006,
+      "learning_rate": 8.936855670103094e-06,
+      "loss": 0.4162,
+      "step": 3630
+    },
+    {
+      "epoch": 1.7057169634489222,
+      "grad_norm": 3.8122334480285645,
+      "learning_rate": 8.933926897844423e-06,
+      "loss": 0.4054,
+      "step": 3640
+    },
+    {
+      "epoch": 1.710402999062793,
+      "grad_norm": 5.07956075668335,
+      "learning_rate": 8.930998125585754e-06,
+      "loss": 0.4164,
+      "step": 3650
+    },
+    {
+      "epoch": 1.7150890346766636,
+      "grad_norm": 3.754542112350464,
+      "learning_rate": 8.928069353327085e-06,
+      "loss": 0.3703,
+      "step": 3660
+    },
+    {
+      "epoch": 1.7197750702905341,
+      "grad_norm": 3.4620890617370605,
+      "learning_rate": 8.925140581068417e-06,
+      "loss": 0.4667,
+      "step": 3670
+    },
+    {
+      "epoch": 1.7244611059044048,
+      "grad_norm": 4.179393768310547,
+      "learning_rate": 8.922211808809748e-06,
+      "loss": 0.4384,
+      "step": 3680
+    },
+    {
+      "epoch": 1.7291471415182755,
+      "grad_norm": 3.0865719318389893,
+      "learning_rate": 8.919283036551079e-06,
+      "loss": 0.4248,
+      "step": 3690
+    },
+    {
+      "epoch": 1.7338331771321462,
+      "grad_norm": 3.9282147884368896,
+      "learning_rate": 8.91635426429241e-06,
+      "loss": 0.4231,
+      "step": 3700
+    },
+    {
+      "epoch": 1.738519212746017,
+      "grad_norm": 3.9746885299682617,
+      "learning_rate": 8.91342549203374e-06,
+      "loss": 0.4152,
+      "step": 3710
+    },
+    {
+      "epoch": 1.7432052483598874,
+      "grad_norm": 3.8340625762939453,
+      "learning_rate": 8.910496719775071e-06,
+      "loss": 0.4458,
+      "step": 3720
+    },
+    {
+      "epoch": 1.7478912839737581,
+      "grad_norm": 4.861859321594238,
+      "learning_rate": 8.907567947516402e-06,
+      "loss": 0.4274,
+      "step": 3730
+    },
+    {
+      "epoch": 1.7525773195876289,
+      "grad_norm": 3.3457283973693848,
+      "learning_rate": 8.904639175257732e-06,
+      "loss": 0.4534,
+      "step": 3740
+    },
+    {
+      "epoch": 1.7572633552014996,
+      "grad_norm": 4.057953834533691,
+      "learning_rate": 8.901710402999063e-06,
+      "loss": 0.484,
+      "step": 3750
+    },
+    {
+      "epoch": 1.7572633552014996,
+      "eval_loss": 0.05240313336253166,
+      "eval_pearson_cosine": 0.7879299521989642,
+      "eval_pearson_dot": 0.6605985065084816,
+      "eval_pearson_euclidean": 0.7797438530556207,
+      "eval_pearson_manhattan": 0.778216782480726,
+      "eval_runtime": 44.9916,
+      "eval_samples_per_second": 33.34,
+      "eval_spearman_cosine": 0.7888982276270184,
+      "eval_spearman_dot": 0.6669965792210436,
+      "eval_spearman_euclidean": 0.7899037728263932,
+      "eval_spearman_manhattan": 0.7886320032383264,
+      "eval_steps_per_second": 33.34,
+      "step": 3750
+    },
+    {
+      "epoch": 1.7619493908153703,
+      "grad_norm": 3.281102418899536,
+      "learning_rate": 8.898781630740394e-06,
+      "loss": 0.4074,
+      "step": 3760
+    },
+    {
+      "epoch": 1.7666354264292408,
+      "grad_norm": 4.710203170776367,
+      "learning_rate": 8.895852858481725e-06,
+      "loss": 0.4537,
+      "step": 3770
+    },
+    {
+      "epoch": 1.7713214620431117,
+      "grad_norm": 4.636346817016602,
+      "learning_rate": 8.892924086223056e-06,
+      "loss": 0.4348,
+      "step": 3780
+    },
+    {
+      "epoch": 1.7760074976569822,
+      "grad_norm": 4.518571376800537,
+      "learning_rate": 8.889995313964388e-06,
+      "loss": 0.4515,
+      "step": 3790
+    },
+    {
+      "epoch": 1.780693533270853,
+      "grad_norm": 4.0576066970825195,
+      "learning_rate": 8.887066541705717e-06,
+      "loss": 0.4276,
+      "step": 3800
+    },
+    {
+      "epoch": 1.7853795688847236,
+      "grad_norm": 5.657445430755615,
+      "learning_rate": 8.884137769447048e-06,
+      "loss": 0.4277,
+      "step": 3810
+    },
+    {
+      "epoch": 1.790065604498594,
+      "grad_norm": 5.393405437469482,
+      "learning_rate": 8.88120899718838e-06,
+      "loss": 0.428,
+      "step": 3820
+    },
+    {
+      "epoch": 1.794751640112465,
+      "grad_norm": 4.101112365722656,
+      "learning_rate": 8.87828022492971e-06,
+      "loss": 0.4489,
+      "step": 3830
+    },
+    {
+      "epoch": 1.7994376757263355,
+      "grad_norm": 3.531888246536255,
+      "learning_rate": 8.87535145267104e-06,
+      "loss": 0.3673,
+      "step": 3840
+    },
+    {
+      "epoch": 1.8041237113402062,
+      "grad_norm": 3.4490315914154053,
+      "learning_rate": 8.872422680412371e-06,
+      "loss": 0.4059,
+      "step": 3850
+    },
+    {
+      "epoch": 1.808809746954077,
+      "grad_norm": 3.034252643585205,
+      "learning_rate": 8.869493908153702e-06,
+      "loss": 0.3832,
+      "step": 3860
+    },
+    {
+      "epoch": 1.8134957825679474,
+      "grad_norm": 4.064283847808838,
+      "learning_rate": 8.866565135895034e-06,
+      "loss": 0.4704,
+      "step": 3870
+    },
+    {
+      "epoch": 1.8181818181818183,
+      "grad_norm": 3.2689194679260254,
+      "learning_rate": 8.863636363636365e-06,
+      "loss": 0.4428,
+      "step": 3880
+    },
+    {
+      "epoch": 1.8228678537956888,
+      "grad_norm": 3.173530101776123,
+      "learning_rate": 8.860707591377694e-06,
+      "loss": 0.4283,
+      "step": 3890
+    },
+    {
+      "epoch": 1.8275538894095595,
+      "grad_norm": 3.638122081756592,
+      "learning_rate": 8.857778819119026e-06,
+      "loss": 0.4225,
+      "step": 3900
+    },
+    {
+      "epoch": 1.8322399250234302,
+      "grad_norm": 3.636679172515869,
+      "learning_rate": 8.854850046860357e-06,
+      "loss": 0.4154,
+      "step": 3910
+    },
+    {
+      "epoch": 1.8369259606373007,
+      "grad_norm": 3.810847520828247,
+      "learning_rate": 8.851921274601688e-06,
+      "loss": 0.3931,
+      "step": 3920
+    },
+    {
+      "epoch": 1.8416119962511717,
+      "grad_norm": 3.7469394207000732,
+      "learning_rate": 8.848992502343019e-06,
+      "loss": 0.4472,
+      "step": 3930
+    },
+    {
+      "epoch": 1.8462980318650422,
+      "grad_norm": 4.962492942810059,
+      "learning_rate": 8.846063730084349e-06,
+      "loss": 0.4324,
+      "step": 3940
+    },
+    {
+      "epoch": 1.8509840674789129,
+      "grad_norm": 3.4641172885894775,
+      "learning_rate": 8.84313495782568e-06,
+      "loss": 0.4234,
+      "step": 3950
+    },
+    {
+      "epoch": 1.8556701030927836,
+      "grad_norm": 3.8601555824279785,
+      "learning_rate": 8.840206185567011e-06,
+      "loss": 0.4045,
+      "step": 3960
+    },
+    {
+      "epoch": 1.860356138706654,
+      "grad_norm": 6.290759086608887,
+      "learning_rate": 8.837277413308342e-06,
+      "loss": 0.4655,
+      "step": 3970
+    },
+    {
+      "epoch": 1.865042174320525,
+      "grad_norm": 3.5882256031036377,
+      "learning_rate": 8.834348641049673e-06,
+      "loss": 0.4298,
+      "step": 3980
+    },
+    {
+      "epoch": 1.8697282099343955,
+      "grad_norm": 3.133535623550415,
+      "learning_rate": 8.831419868791003e-06,
+      "loss": 0.4508,
+      "step": 3990
+    },
+    {
+      "epoch": 1.8744142455482662,
+      "grad_norm": 3.220383644104004,
+      "learning_rate": 8.828491096532334e-06,
+      "loss": 0.4348,
+      "step": 4000
+    },
+    {
+      "epoch": 1.8744142455482662,
+      "eval_loss": 0.04981923848390579,
+      "eval_pearson_cosine": 0.790612878761543,
+      "eval_pearson_dot": 0.6612786229229286,
+      "eval_pearson_euclidean": 0.7799249806775554,
+      "eval_pearson_manhattan": 0.7784476870813819,
+      "eval_runtime": 45.9371,
+      "eval_samples_per_second": 32.653,
+      "eval_spearman_cosine": 0.7908100570922554,
+      "eval_spearman_dot": 0.6689224987064551,
+      "eval_spearman_euclidean": 0.7902520878335856,
+      "eval_spearman_manhattan": 0.7892503488739743,
+      "eval_steps_per_second": 32.653,
+      "step": 4000
     }
   ],
   "logging_steps": 10,