Training in progress, step 4000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:878397b694b0a8de341b4b8d86e9a615129650afe4a1ebc2f9f3ccfb75d0c0c8
 size 737580392

 version https://git-lfs.github.com/spec/v1
+oid sha256:34566692b409c5ac91614f85431dcd34c66b34e43f4a92470ac88cb8a7f59789
 size 737580392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0acf7430500cf883fa2666bfba6735859811567ffb5b4b4b2939205ee3547014
 size 1475248442

 version https://git-lfs.github.com/spec/v1
+oid sha256:4dde92a9190daf4d6cde776e30b6451c543ea444edee3b9afc951fa9a8b0c5c7
 size 1475248442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59efe62e4ca0647678855566a69eaafc20fb9e01c9af7b6b454bf0717d7bf5f7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f9aa43992237c34da047eae3e4635545e3cbee9026436669a8ec61ef48f58c1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4f48bf96def541f86640977b0dc57c5078e1aaca13e1c80e28041dac90f6386
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a5a37a50084edc8f378e7d4e65f501b6827a819c6aec4a25edf84ae7f0723a0
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.4058106841611997,
   "eval_steps": 250,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2299,6 +2299,770 @@
       "eval_spearman_manhattan": 0.8142678938453525,
       "eval_steps_per_second": 27.696,
       "step": 3000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.8744142455482662,
   "eval_steps": 250,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.8142678938453525,
       "eval_steps_per_second": 27.696,
       "step": 3000
+    },
+    {
+      "epoch": 1.4104967197750704,
+      "grad_norm": 2.0516934394836426,
+      "learning_rate": 1.911843955014058e-05,
+      "loss": 0.2469,
+      "step": 3010
+    },
+    {
+      "epoch": 1.415182755388941,
+      "grad_norm": 1.8646856546401978,
+      "learning_rate": 1.9115510777881914e-05,
+      "loss": 0.2434,
+      "step": 3020
+    },
+    {
+      "epoch": 1.4198687910028116,
+      "grad_norm": 1.746596097946167,
+      "learning_rate": 1.9112582005623243e-05,
+      "loss": 0.2392,
+      "step": 3030
+    },
+    {
+      "epoch": 1.4245548266166823,
+      "grad_norm": 1.7546746730804443,
+      "learning_rate": 1.9109653233364576e-05,
+      "loss": 0.2141,
+      "step": 3040
+    },
+    {
+      "epoch": 1.429240862230553,
+      "grad_norm": 1.7862520217895508,
+      "learning_rate": 1.9106724461105905e-05,
+      "loss": 0.2424,
+      "step": 3050
+    },
+    {
+      "epoch": 1.4339268978444237,
+      "grad_norm": 2.089353322982788,
+      "learning_rate": 1.910379568884724e-05,
+      "loss": 0.2493,
+      "step": 3060
+    },
+    {
+      "epoch": 1.4386129334582942,
+      "grad_norm": 1.7390618324279785,
+      "learning_rate": 1.9100866916588568e-05,
+      "loss": 0.2317,
+      "step": 3070
+    },
+    {
+      "epoch": 1.443298969072165,
+      "grad_norm": 1.9297877550125122,
+      "learning_rate": 1.90979381443299e-05,
+      "loss": 0.2335,
+      "step": 3080
+    },
+    {
+      "epoch": 1.4479850046860356,
+      "grad_norm": 1.872578740119934,
+      "learning_rate": 1.909500937207123e-05,
+      "loss": 0.222,
+      "step": 3090
+    },
+    {
+      "epoch": 1.4526710402999063,
+      "grad_norm": 1.646843433380127,
+      "learning_rate": 1.909208059981256e-05,
+      "loss": 0.2154,
+      "step": 3100
+    },
+    {
+      "epoch": 1.457357075913777,
+      "grad_norm": 1.8208719491958618,
+      "learning_rate": 1.9089151827553893e-05,
+      "loss": 0.2887,
+      "step": 3110
+    },
+    {
+      "epoch": 1.4620431115276475,
+      "grad_norm": 1.6147174835205078,
+      "learning_rate": 1.9086223055295222e-05,
+      "loss": 0.2292,
+      "step": 3120
+    },
+    {
+      "epoch": 1.4667291471415183,
+      "grad_norm": 2.147585391998291,
+      "learning_rate": 1.908329428303655e-05,
+      "loss": 0.2598,
+      "step": 3130
+    },
+    {
+      "epoch": 1.471415182755389,
+      "grad_norm": 2.17818284034729,
+      "learning_rate": 1.9080365510777884e-05,
+      "loss": 0.2177,
+      "step": 3140
+    },
+    {
+      "epoch": 1.4761012183692597,
+      "grad_norm": 1.7800393104553223,
+      "learning_rate": 1.9077436738519214e-05,
+      "loss": 0.2091,
+      "step": 3150
+    },
+    {
+      "epoch": 1.4807872539831304,
+      "grad_norm": 1.8269144296646118,
+      "learning_rate": 1.9074507966260543e-05,
+      "loss": 0.241,
+      "step": 3160
+    },
+    {
+      "epoch": 1.4854732895970009,
+      "grad_norm": 1.4544728994369507,
+      "learning_rate": 1.9071579194001876e-05,
+      "loss": 0.2481,
+      "step": 3170
+    },
+    {
+      "epoch": 1.4901593252108716,
+      "grad_norm": 2.5941991806030273,
+      "learning_rate": 1.9068650421743206e-05,
+      "loss": 0.266,
+      "step": 3180
+    },
+    {
+      "epoch": 1.4948453608247423,
+      "grad_norm": 1.9068180322647095,
+      "learning_rate": 1.906572164948454e-05,
+      "loss": 0.2546,
+      "step": 3190
+    },
+    {
+      "epoch": 1.499531396438613,
+      "grad_norm": 1.590065598487854,
+      "learning_rate": 1.9062792877225868e-05,
+      "loss": 0.2292,
+      "step": 3200
+    },
+    {
+      "epoch": 1.5042174320524837,
+      "grad_norm": 1.9283113479614258,
+      "learning_rate": 1.9059864104967198e-05,
+      "loss": 0.2485,
+      "step": 3210
+    },
+    {
+      "epoch": 1.5089034676663542,
+      "grad_norm": 2.1952388286590576,
+      "learning_rate": 1.905693533270853e-05,
+      "loss": 0.2197,
+      "step": 3220
+    },
+    {
+      "epoch": 1.513589503280225,
+      "grad_norm": 1.554611086845398,
+      "learning_rate": 1.905400656044986e-05,
+      "loss": 0.2136,
+      "step": 3230
+    },
+    {
+      "epoch": 1.5182755388940956,
+      "grad_norm": 1.5786999464035034,
+      "learning_rate": 1.9051077788191193e-05,
+      "loss": 0.2333,
+      "step": 3240
+    },
+    {
+      "epoch": 1.522961574507966,
+      "grad_norm": 2.7858917713165283,
+      "learning_rate": 1.9048149015932523e-05,
+      "loss": 0.2328,
+      "step": 3250
+    },
+    {
+      "epoch": 1.522961574507966,
+      "eval_loss": 0.04040240868926048,
+      "eval_pearson_cosine": 0.8187130517711054,
+      "eval_pearson_dot": 0.7426107734380025,
+      "eval_pearson_euclidean": 0.8069722435152613,
+      "eval_pearson_manhattan": 0.8083599378238802,
+      "eval_runtime": 3.6772,
+      "eval_samples_per_second": 407.917,
+      "eval_spearman_cosine": 0.8202782064729509,
+      "eval_spearman_dot": 0.7414284976652127,
+      "eval_spearman_euclidean": 0.8153801634076588,
+      "eval_spearman_manhattan": 0.8165145388144227,
+      "eval_steps_per_second": 25.563,
+      "step": 3250
+    },
+    {
+      "epoch": 1.527647610121837,
+      "grad_norm": 1.9804577827453613,
+      "learning_rate": 1.9045220243673855e-05,
+      "loss": 0.252,
+      "step": 3260
+    },
+    {
+      "epoch": 1.5323336457357075,
+      "grad_norm": 1.8716363906860352,
+      "learning_rate": 1.9042291471415185e-05,
+      "loss": 0.2266,
+      "step": 3270
+    },
+    {
+      "epoch": 1.5370196813495782,
+      "grad_norm": 1.834250569343567,
+      "learning_rate": 1.9039362699156518e-05,
+      "loss": 0.2314,
+      "step": 3280
+    },
+    {
+      "epoch": 1.541705716963449,
+      "grad_norm": 2.0380077362060547,
+      "learning_rate": 1.9036433926897847e-05,
+      "loss": 0.2545,
+      "step": 3290
+    },
+    {
+      "epoch": 1.5463917525773194,
+      "grad_norm": 1.8950886726379395,
+      "learning_rate": 1.9033505154639177e-05,
+      "loss": 0.2902,
+      "step": 3300
+    },
+    {
+      "epoch": 1.5510777881911904,
+      "grad_norm": 1.4216679334640503,
+      "learning_rate": 1.9030576382380506e-05,
+      "loss": 0.2344,
+      "step": 3310
+    },
+    {
+      "epoch": 1.5557638238050608,
+      "grad_norm": 1.2056218385696411,
+      "learning_rate": 1.902764761012184e-05,
+      "loss": 0.252,
+      "step": 3320
+    },
+    {
+      "epoch": 1.5604498594189316,
+      "grad_norm": 1.8112496137619019,
+      "learning_rate": 1.902471883786317e-05,
+      "loss": 0.2406,
+      "step": 3330
+    },
+    {
+      "epoch": 1.5651358950328023,
+      "grad_norm": 1.9375700950622559,
+      "learning_rate": 1.9021790065604498e-05,
+      "loss": 0.2728,
+      "step": 3340
+    },
+    {
+      "epoch": 1.569821930646673,
+      "grad_norm": 2.4203391075134277,
+      "learning_rate": 1.901886129334583e-05,
+      "loss": 0.2434,
+      "step": 3350
+    },
+    {
+      "epoch": 1.5745079662605437,
+      "grad_norm": 2.114474058151245,
+      "learning_rate": 1.901593252108716e-05,
+      "loss": 0.2535,
+      "step": 3360
+    },
+    {
+      "epoch": 1.5791940018744142,
+      "grad_norm": 1.5152201652526855,
+      "learning_rate": 1.9013003748828493e-05,
+      "loss": 0.2537,
+      "step": 3370
+    },
+    {
+      "epoch": 1.5838800374882849,
+      "grad_norm": 1.8051055669784546,
+      "learning_rate": 1.9010074976569823e-05,
+      "loss": 0.2271,
+      "step": 3380
+    },
+    {
+      "epoch": 1.5885660731021556,
+      "grad_norm": 2.005028247833252,
+      "learning_rate": 1.9007146204311156e-05,
+      "loss": 0.2508,
+      "step": 3390
+    },
+    {
+      "epoch": 1.5932521087160263,
+      "grad_norm": 1.534379005432129,
+      "learning_rate": 1.9004217432052485e-05,
+      "loss": 0.2358,
+      "step": 3400
+    },
+    {
+      "epoch": 1.597938144329897,
+      "grad_norm": 1.2152713537216187,
+      "learning_rate": 1.9001288659793815e-05,
+      "loss": 0.203,
+      "step": 3410
+    },
+    {
+      "epoch": 1.6026241799437675,
+      "grad_norm": 1.584352970123291,
+      "learning_rate": 1.8998359887535148e-05,
+      "loss": 0.2369,
+      "step": 3420
+    },
+    {
+      "epoch": 1.6073102155576382,
+      "grad_norm": 1.8603837490081787,
+      "learning_rate": 1.8995431115276477e-05,
+      "loss": 0.2576,
+      "step": 3430
+    },
+    {
+      "epoch": 1.611996251171509,
+      "grad_norm": 1.300493597984314,
+      "learning_rate": 1.899250234301781e-05,
+      "loss": 0.2048,
+      "step": 3440
+    },
+    {
+      "epoch": 1.6166822867853796,
+      "grad_norm": 1.6629600524902344,
+      "learning_rate": 1.898957357075914e-05,
+      "loss": 0.2305,
+      "step": 3450
+    },
+    {
+      "epoch": 1.6213683223992503,
+      "grad_norm": 2.555297374725342,
+      "learning_rate": 1.8986644798500473e-05,
+      "loss": 0.2487,
+      "step": 3460
+    },
+    {
+      "epoch": 1.6260543580131208,
+      "grad_norm": 2.425975799560547,
+      "learning_rate": 1.8983716026241802e-05,
+      "loss": 0.241,
+      "step": 3470
+    },
+    {
+      "epoch": 1.6307403936269915,
+      "grad_norm": 1.912858247756958,
+      "learning_rate": 1.898078725398313e-05,
+      "loss": 0.2074,
+      "step": 3480
+    },
+    {
+      "epoch": 1.6354264292408622,
+      "grad_norm": 2.066469430923462,
+      "learning_rate": 1.897785848172446e-05,
+      "loss": 0.2157,
+      "step": 3490
+    },
+    {
+      "epoch": 1.640112464854733,
+      "grad_norm": 1.5405519008636475,
+      "learning_rate": 1.8974929709465794e-05,
+      "loss": 0.2052,
+      "step": 3500
+    },
+    {
+      "epoch": 1.640112464854733,
+      "eval_loss": 0.03896905109286308,
+      "eval_pearson_cosine": 0.8147239668269464,
+      "eval_pearson_dot": 0.74259279719071,
+      "eval_pearson_euclidean": 0.803459120860885,
+      "eval_pearson_manhattan": 0.8045289290680273,
+      "eval_runtime": 3.5517,
+      "eval_samples_per_second": 422.338,
+      "eval_spearman_cosine": 0.8164243711017356,
+      "eval_spearman_dot": 0.742209739118843,
+      "eval_spearman_euclidean": 0.8121850450179654,
+      "eval_spearman_manhattan": 0.8128758362528613,
+      "eval_steps_per_second": 26.467,
+      "step": 3500
+    },
+    {
+      "epoch": 1.6447985004686037,
+      "grad_norm": 1.4605026245117188,
+      "learning_rate": 1.8972000937207123e-05,
+      "loss": 0.2329,
+      "step": 3510
+    },
+    {
+      "epoch": 1.6494845360824741,
+      "grad_norm": 1.496071457862854,
+      "learning_rate": 1.8969072164948453e-05,
+      "loss": 0.2171,
+      "step": 3520
+    },
+    {
+      "epoch": 1.6541705716963448,
+      "grad_norm": 1.5330686569213867,
+      "learning_rate": 1.8966143392689786e-05,
+      "loss": 0.235,
+      "step": 3530
+    },
+    {
+      "epoch": 1.6588566073102156,
+      "grad_norm": 1.77309250831604,
+      "learning_rate": 1.8963214620431115e-05,
+      "loss": 0.2398,
+      "step": 3540
+    },
+    {
+      "epoch": 1.6635426429240863,
+      "grad_norm": 2.6333131790161133,
+      "learning_rate": 1.8960285848172448e-05,
+      "loss": 0.2444,
+      "step": 3550
+    },
+    {
+      "epoch": 1.668228678537957,
+      "grad_norm": 1.7444895505905151,
+      "learning_rate": 1.8957357075913778e-05,
+      "loss": 0.2308,
+      "step": 3560
+    },
+    {
+      "epoch": 1.6729147141518275,
+      "grad_norm": 1.9555528163909912,
+      "learning_rate": 1.895442830365511e-05,
+      "loss": 0.2177,
+      "step": 3570
+    },
+    {
+      "epoch": 1.6776007497656982,
+      "grad_norm": 1.8581876754760742,
+      "learning_rate": 1.895149953139644e-05,
+      "loss": 0.2287,
+      "step": 3580
+    },
+    {
+      "epoch": 1.6822867853795689,
+      "grad_norm": 1.9251590967178345,
+      "learning_rate": 1.894857075913777e-05,
+      "loss": 0.2547,
+      "step": 3590
+    },
+    {
+      "epoch": 1.6869728209934396,
+      "grad_norm": 1.6071839332580566,
+      "learning_rate": 1.8945641986879102e-05,
+      "loss": 0.2409,
+      "step": 3600
+    },
+    {
+      "epoch": 1.6916588566073103,
+      "grad_norm": 1.735236406326294,
+      "learning_rate": 1.8942713214620432e-05,
+      "loss": 0.2315,
+      "step": 3610
+    },
+    {
+      "epoch": 1.6963448922211808,
+      "grad_norm": 1.5945345163345337,
+      "learning_rate": 1.8939784442361765e-05,
+      "loss": 0.2283,
+      "step": 3620
+    },
+    {
+      "epoch": 1.7010309278350515,
+      "grad_norm": 1.8697439432144165,
+      "learning_rate": 1.8936855670103094e-05,
+      "loss": 0.2382,
+      "step": 3630
+    },
+    {
+      "epoch": 1.7057169634489222,
+      "grad_norm": 1.9775031805038452,
+      "learning_rate": 1.8933926897844427e-05,
+      "loss": 0.2167,
+      "step": 3640
+    },
+    {
+      "epoch": 1.710402999062793,
+      "grad_norm": 1.7976644039154053,
+      "learning_rate": 1.8930998125585757e-05,
+      "loss": 0.2252,
+      "step": 3650
+    },
+    {
+      "epoch": 1.7150890346766636,
+      "grad_norm": 1.9334297180175781,
+      "learning_rate": 1.8928069353327086e-05,
+      "loss": 0.207,
+      "step": 3660
+    },
+    {
+      "epoch": 1.7197750702905341,
+      "grad_norm": 1.661363124847412,
+      "learning_rate": 1.892514058106842e-05,
+      "loss": 0.2531,
+      "step": 3670
+    },
+    {
+      "epoch": 1.7244611059044048,
+      "grad_norm": 2.2192280292510986,
+      "learning_rate": 1.892221180880975e-05,
+      "loss": 0.2552,
+      "step": 3680
+    },
+    {
+      "epoch": 1.7291471415182755,
+      "grad_norm": 1.9910961389541626,
+      "learning_rate": 1.8919283036551078e-05,
+      "loss": 0.2288,
+      "step": 3690
+    },
+    {
+      "epoch": 1.7338331771321462,
+      "grad_norm": 1.6120171546936035,
+      "learning_rate": 1.8916354264292408e-05,
+      "loss": 0.2122,
+      "step": 3700
+    },
+    {
+      "epoch": 1.738519212746017,
+      "grad_norm": 1.8387460708618164,
+      "learning_rate": 1.891342549203374e-05,
+      "loss": 0.2292,
+      "step": 3710
+    },
+    {
+      "epoch": 1.7432052483598874,
+      "grad_norm": 1.9124442338943481,
+      "learning_rate": 1.891049671977507e-05,
+      "loss": 0.2469,
+      "step": 3720
+    },
+    {
+      "epoch": 1.7478912839737581,
+      "grad_norm": 2.267001152038574,
+      "learning_rate": 1.8907567947516403e-05,
+      "loss": 0.2139,
+      "step": 3730
+    },
+    {
+      "epoch": 1.7525773195876289,
+      "grad_norm": 1.9495887756347656,
+      "learning_rate": 1.8904639175257732e-05,
+      "loss": 0.2476,
+      "step": 3740
+    },
+    {
+      "epoch": 1.7572633552014996,
+      "grad_norm": 1.8650192022323608,
+      "learning_rate": 1.8901710402999065e-05,
+      "loss": 0.262,
+      "step": 3750
+    },
+    {
+      "epoch": 1.7572633552014996,
+      "eval_loss": 0.04190748557448387,
+      "eval_pearson_cosine": 0.8188060652498521,
+      "eval_pearson_dot": 0.7306266271006336,
+      "eval_pearson_euclidean": 0.8067178845162717,
+      "eval_pearson_manhattan": 0.8079651581429825,
+      "eval_runtime": 3.6866,
+      "eval_samples_per_second": 406.882,
+      "eval_spearman_cosine": 0.8203796294288378,
+      "eval_spearman_dot": 0.7294293478148326,
+      "eval_spearman_euclidean": 0.8157749153170877,
+      "eval_spearman_manhattan": 0.8170299724489123,
+      "eval_steps_per_second": 25.498,
+      "step": 3750
+    },
+    {
+      "epoch": 1.7619493908153703,
+      "grad_norm": 1.78036367893219,
+      "learning_rate": 1.8898781630740395e-05,
+      "loss": 0.2441,
+      "step": 3760
+    },
+    {
+      "epoch": 1.7666354264292408,
+      "grad_norm": 2.0995302200317383,
+      "learning_rate": 1.8895852858481728e-05,
+      "loss": 0.2528,
+      "step": 3770
+    },
+    {
+      "epoch": 1.7713214620431117,
+      "grad_norm": 1.7772722244262695,
+      "learning_rate": 1.8892924086223057e-05,
+      "loss": 0.2305,
+      "step": 3780
+    },
+    {
+      "epoch": 1.7760074976569822,
+      "grad_norm": 2.158984661102295,
+      "learning_rate": 1.8889995313964387e-05,
+      "loss": 0.2374,
+      "step": 3790
+    },
+    {
+      "epoch": 1.780693533270853,
+      "grad_norm": 1.888215184211731,
+      "learning_rate": 1.888706654170572e-05,
+      "loss": 0.2458,
+      "step": 3800
+    },
+    {
+      "epoch": 1.7853795688847236,
+      "grad_norm": 2.109557867050171,
+      "learning_rate": 1.888413776944705e-05,
+      "loss": 0.2463,
+      "step": 3810
+    },
+    {
+      "epoch": 1.790065604498594,
+      "grad_norm": 1.715156078338623,
+      "learning_rate": 1.8881208997188382e-05,
+      "loss": 0.2421,
+      "step": 3820
+    },
+    {
+      "epoch": 1.794751640112465,
+      "grad_norm": 2.860567808151245,
+      "learning_rate": 1.887828022492971e-05,
+      "loss": 0.2728,
+      "step": 3830
+    },
+    {
+      "epoch": 1.7994376757263355,
+      "grad_norm": 1.527709722518921,
+      "learning_rate": 1.887535145267104e-05,
+      "loss": 0.1982,
+      "step": 3840
+    },
+    {
+      "epoch": 1.8041237113402062,
+      "grad_norm": 2.2306032180786133,
+      "learning_rate": 1.8872422680412374e-05,
+      "loss": 0.2269,
+      "step": 3850
+    },
+    {
+      "epoch": 1.808809746954077,
+      "grad_norm": 1.285987377166748,
+      "learning_rate": 1.8869493908153703e-05,
+      "loss": 0.1879,
+      "step": 3860
+    },
+    {
+      "epoch": 1.8134957825679474,
+      "grad_norm": 1.7815241813659668,
+      "learning_rate": 1.8866565135895033e-05,
+      "loss": 0.2337,
+      "step": 3870
+    },
+    {
+      "epoch": 1.8181818181818183,
+      "grad_norm": 1.5507057905197144,
+      "learning_rate": 1.8863636363636366e-05,
+      "loss": 0.2542,
+      "step": 3880
+    },
+    {
+      "epoch": 1.8228678537956888,
+      "grad_norm": 1.8540301322937012,
+      "learning_rate": 1.8860707591377695e-05,
+      "loss": 0.2668,
+      "step": 3890
+    },
+    {
+      "epoch": 1.8275538894095595,
+      "grad_norm": 1.5156047344207764,
+      "learning_rate": 1.8857778819119025e-05,
+      "loss": 0.2438,
+      "step": 3900
+    },
+    {
+      "epoch": 1.8322399250234302,
+      "grad_norm": 1.752375841140747,
+      "learning_rate": 1.8854850046860358e-05,
+      "loss": 0.2324,
+      "step": 3910
+    },
+    {
+      "epoch": 1.8369259606373007,
+      "grad_norm": 1.9103461503982544,
+      "learning_rate": 1.8851921274601687e-05,
+      "loss": 0.2049,
+      "step": 3920
+    },
+    {
+      "epoch": 1.8416119962511717,
+      "grad_norm": 2.043072462081909,
+      "learning_rate": 1.884899250234302e-05,
+      "loss": 0.2178,
+      "step": 3930
+    },
+    {
+      "epoch": 1.8462980318650422,
+      "grad_norm": 1.7910971641540527,
+      "learning_rate": 1.884606373008435e-05,
+      "loss": 0.2527,
+      "step": 3940
+    },
+    {
+      "epoch": 1.8509840674789129,
+      "grad_norm": 2.146057605743408,
+      "learning_rate": 1.8843134957825682e-05,
+      "loss": 0.2235,
+      "step": 3950
+    },
+    {
+      "epoch": 1.8556701030927836,
+      "grad_norm": 2.3780410289764404,
+      "learning_rate": 1.8840206185567012e-05,
+      "loss": 0.2122,
+      "step": 3960
+    },
+    {
+      "epoch": 1.860356138706654,
+      "grad_norm": 1.7693490982055664,
+      "learning_rate": 1.8837277413308345e-05,
+      "loss": 0.2663,
+      "step": 3970
+    },
+    {
+      "epoch": 1.865042174320525,
+      "grad_norm": 1.9694123268127441,
+      "learning_rate": 1.8834348641049674e-05,
+      "loss": 0.2357,
+      "step": 3980
+    },
+    {
+      "epoch": 1.8697282099343955,
+      "grad_norm": 1.9589118957519531,
+      "learning_rate": 1.8831419868791004e-05,
+      "loss": 0.2549,
+      "step": 3990
+    },
+    {
+      "epoch": 1.8744142455482662,
+      "grad_norm": 1.7447434663772583,
+      "learning_rate": 1.8828491096532337e-05,
+      "loss": 0.2269,
+      "step": 4000
+    },
+    {
+      "epoch": 1.8744142455482662,
+      "eval_loss": 0.03927910327911377,
+      "eval_pearson_cosine": 0.8218360838151568,
+      "eval_pearson_dot": 0.7383648469379267,
+      "eval_pearson_euclidean": 0.79845453202784,
+      "eval_pearson_manhattan": 0.8001969992210543,
+      "eval_runtime": 3.608,
+      "eval_samples_per_second": 415.741,
+      "eval_spearman_cosine": 0.8235262235943273,
+      "eval_spearman_dot": 0.7374591899505454,
+      "eval_spearman_euclidean": 0.8094068736950194,
+      "eval_spearman_manhattan": 0.8111787861762638,
+      "eval_steps_per_second": 26.053,
+      "step": 4000
     }
   ],
   "logging_steps": 10,