Training in progress, step 2000, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb537bc58a461228b496e058380dfff3de3db1fc3f2945771e96c8310f621661
 size 737580392

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f5ad69af16ab5281b26e97b01c5792b964c744a508c6bc172eddc193844ce26
 size 737580392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4202f05dcca1fa833f65010e10965eabf5ab866b8682de76c6f36e41f9427aba
 size 1475248442

 version https://git-lfs.github.com/spec/v1
+oid sha256:e599dee06fa72aa210fe2735308cf272ff913daca158dd4092f84df1fcce8fb7
 size 1475248442

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69ec6e3926fa071bede113523efa3dc6e630c3c7958c54a9ca321cf4d62ed145
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e5cd4ad571350abe2eb98424dd5c5dd650f79de5be8de2b9ff4da9d030d723b
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6127ee4f0c13500ec5038fce65af8f7beec63c137c7d4b7c157aa6303cf5879
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcff98006be86afc3f75b37d6113fdf5b62db51c94b6f68b33f555f4ac346822
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da01d1c5eb2cc3a323f97c1f590d13ccfac2a4c5b1479bd378b4e643304f5a4f
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f220fd74a6757e167d014f721e96b7e5710e8f5c97f48c9fe6d72e19ebbbd65c
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49a3f04d76c0d3acc7d3dd95a04215f368f35a451ae8cba8a2fdba38cda9ca0a
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:21565575b5db0aa139865ffb0d9df6ceb55078dc7b218f601419cc3d7b873134
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df7d2c9825dba80cb544920f8cc0c72122f96514e6cd259052a8765b034393e2
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:487a03a3b6c36091572b8fbb74add1eb3c753efe5ab0eee791c8d03f495e5c98
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a20a42d44ff48cc162224010190e898fe28598ddad8cd1896d330a3bb1d8ec3
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:98f8c6e22cfd0b3668705becc42fb2c443ef5e4cfe38d4ba5e3dfdc565094143
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18ac0dc4f09f25179860561fcea7c5c8f997aabdc46a170665f9dc5a72bc27c6
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:379eebc7ccebea3c24281c6604242d09589a64d4774ea37b6d5cf6e7bbece645
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a16fcb5411ff961b47eff7378d85105fe9837e0492d19ea5ce3b7c4b77aa3b6
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3668b553f323a1aa5806c5d8feff7c926f6116dc2b7f961e9746634c8e825c0
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc979d8a4a308942c202386cab3e9f600572bc65e2a425e5891132147d087023
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:93895b5baeef3dfbe9ac5ba0209fcc94427355308cca9131e3f76f15e4750806
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.8753514526710404,
   "eval_steps": 250,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -771,6 +771,770 @@
       "eval_spearman_manhattan": 0.7621231744319878,
       "eval_steps_per_second": 6.85,
       "step": 1000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.751640112464855,
   "eval_steps": 250,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7621231744319878,
       "eval_steps_per_second": 6.85,
       "step": 1000
+    },
+    {
+      "epoch": 1.8940955951265228,
+      "grad_norm": 0.3324965834617615,
+      "learning_rate": 0.000799408396667106,
+      "loss": 0.1491,
+      "step": 1010
+    },
+    {
+      "epoch": 1.9128397375820057,
+      "grad_norm": 0.3112243711948395,
+      "learning_rate": 0.0007994025392083644,
+      "loss": 0.1622,
+      "step": 1020
+    },
+    {
+      "epoch": 1.9315838800374883,
+      "grad_norm": 0.3381972014904022,
+      "learning_rate": 0.000799396681749623,
+      "loss": 0.1462,
+      "step": 1030
+    },
+    {
+      "epoch": 1.9503280224929709,
+      "grad_norm": 0.3424859642982483,
+      "learning_rate": 0.0007993908242908814,
+      "loss": 0.1651,
+      "step": 1040
+    },
+    {
+      "epoch": 1.9690721649484537,
+      "grad_norm": 0.42161494493484497,
+      "learning_rate": 0.0007993849668321399,
+      "loss": 0.1521,
+      "step": 1050
+    },
+    {
+      "epoch": 1.9878163074039361,
+      "grad_norm": 0.3541307747364044,
+      "learning_rate": 0.0007993791093733984,
+      "loss": 0.162,
+      "step": 1060
+    },
+    {
+      "epoch": 2.007497656982193,
+      "grad_norm": 0.22963856160640717,
+      "learning_rate": 0.0007993732519146568,
+      "loss": 0.1297,
+      "step": 1070
+    },
+    {
+      "epoch": 2.026241799437676,
+      "grad_norm": 0.28242990374565125,
+      "learning_rate": 0.0007993673944559154,
+      "loss": 0.0773,
+      "step": 1080
+    },
+    {
+      "epoch": 2.044985941893158,
+      "grad_norm": 0.3516603112220764,
+      "learning_rate": 0.0007993615369971738,
+      "loss": 0.0799,
+      "step": 1090
+    },
+    {
+      "epoch": 2.063730084348641,
+      "grad_norm": 0.3558428883552551,
+      "learning_rate": 0.0007993556795384323,
+      "loss": 0.0885,
+      "step": 1100
+    },
+    {
+      "epoch": 2.082474226804124,
+      "grad_norm": 0.3211170732975006,
+      "learning_rate": 0.0007993498220796908,
+      "loss": 0.0825,
+      "step": 1110
+    },
+    {
+      "epoch": 2.1012183692596063,
+      "grad_norm": 0.20844395458698273,
+      "learning_rate": 0.0007993439646209492,
+      "loss": 0.0763,
+      "step": 1120
+    },
+    {
+      "epoch": 2.119962511715089,
+      "grad_norm": 0.3156029284000397,
+      "learning_rate": 0.0007993381071622077,
+      "loss": 0.0797,
+      "step": 1130
+    },
+    {
+      "epoch": 2.138706654170572,
+      "grad_norm": 0.3986193835735321,
+      "learning_rate": 0.0007993322497034662,
+      "loss": 0.0852,
+      "step": 1140
+    },
+    {
+      "epoch": 2.1574507966260543,
+      "grad_norm": 0.18681703507900238,
+      "learning_rate": 0.0007993263922447247,
+      "loss": 0.0779,
+      "step": 1150
+    },
+    {
+      "epoch": 2.176194939081537,
+      "grad_norm": 0.2365262657403946,
+      "learning_rate": 0.0007993205347859831,
+      "loss": 0.0833,
+      "step": 1160
+    },
+    {
+      "epoch": 2.1949390815370196,
+      "grad_norm": 0.25459378957748413,
+      "learning_rate": 0.0007993146773272417,
+      "loss": 0.0761,
+      "step": 1170
+    },
+    {
+      "epoch": 2.2136832239925024,
+      "grad_norm": 0.39024218916893005,
+      "learning_rate": 0.0007993088198685,
+      "loss": 0.0873,
+      "step": 1180
+    },
+    {
+      "epoch": 2.2324273664479852,
+      "grad_norm": 0.3662407100200653,
+      "learning_rate": 0.0007993029624097585,
+      "loss": 0.0842,
+      "step": 1190
+    },
+    {
+      "epoch": 2.2511715089034676,
+      "grad_norm": 0.30686551332473755,
+      "learning_rate": 0.0007992971049510171,
+      "loss": 0.0845,
+      "step": 1200
+    },
+    {
+      "epoch": 2.2699156513589505,
+      "grad_norm": 0.29860755801200867,
+      "learning_rate": 0.0007992912474922755,
+      "loss": 0.0806,
+      "step": 1210
+    },
+    {
+      "epoch": 2.288659793814433,
+      "grad_norm": 0.272029310464859,
+      "learning_rate": 0.0007992853900335341,
+      "loss": 0.0849,
+      "step": 1220
+    },
+    {
+      "epoch": 2.3074039362699157,
+      "grad_norm": 0.23034346103668213,
+      "learning_rate": 0.0007992795325747924,
+      "loss": 0.0873,
+      "step": 1230
+    },
+    {
+      "epoch": 2.3261480787253985,
+      "grad_norm": 0.38400229811668396,
+      "learning_rate": 0.0007992736751160509,
+      "loss": 0.0854,
+      "step": 1240
+    },
+    {
+      "epoch": 2.344892221180881,
+      "grad_norm": 0.2619285583496094,
+      "learning_rate": 0.0007992678176573094,
+      "loss": 0.0854,
+      "step": 1250
+    },
+    {
+      "epoch": 2.344892221180881,
+      "eval_loss": 0.0549059733748436,
+      "eval_pearson_cosine": 0.7565033435821533,
+      "eval_pearson_dot": 0.7438405752182007,
+      "eval_pearson_euclidean": 0.7398021221160889,
+      "eval_pearson_manhattan": 0.7514023780822754,
+      "eval_runtime": 27.2363,
+      "eval_samples_per_second": 55.074,
+      "eval_spearman_cosine": 0.7657686934808458,
+      "eval_spearman_dot": 0.7450125999969373,
+      "eval_spearman_euclidean": 0.7411997174627442,
+      "eval_spearman_manhattan": 0.754436544283217,
+      "eval_steps_per_second": 6.903,
+      "step": 1250
+    },
+    {
+      "epoch": 2.3636363636363638,
+      "grad_norm": 0.2573038935661316,
+      "learning_rate": 0.0007992619601985679,
+      "loss": 0.0812,
+      "step": 1260
+    },
+    {
+      "epoch": 2.382380506091846,
+      "grad_norm": 0.2684009373188019,
+      "learning_rate": 0.0007992561027398263,
+      "loss": 0.0833,
+      "step": 1270
+    },
+    {
+      "epoch": 2.401124648547329,
+      "grad_norm": 0.2773861289024353,
+      "learning_rate": 0.0007992502452810849,
+      "loss": 0.0902,
+      "step": 1280
+    },
+    {
+      "epoch": 2.419868791002812,
+      "grad_norm": 0.3180435001850128,
+      "learning_rate": 0.0007992443878223433,
+      "loss": 0.0882,
+      "step": 1290
+    },
+    {
+      "epoch": 2.438612933458294,
+      "grad_norm": 0.2758583426475525,
+      "learning_rate": 0.0007992385303636017,
+      "loss": 0.0815,
+      "step": 1300
+    },
+    {
+      "epoch": 2.457357075913777,
+      "grad_norm": 0.3327929973602295,
+      "learning_rate": 0.0007992326729048603,
+      "loss": 0.0949,
+      "step": 1310
+    },
+    {
+      "epoch": 2.4761012183692594,
+      "grad_norm": 0.31645268201828003,
+      "learning_rate": 0.0007992268154461187,
+      "loss": 0.0942,
+      "step": 1320
+    },
+    {
+      "epoch": 2.4948453608247423,
+      "grad_norm": 0.2587279975414276,
+      "learning_rate": 0.0007992209579873773,
+      "loss": 0.0889,
+      "step": 1330
+    },
+    {
+      "epoch": 2.513589503280225,
+      "grad_norm": 0.29799187183380127,
+      "learning_rate": 0.0007992151005286357,
+      "loss": 0.1027,
+      "step": 1340
+    },
+    {
+      "epoch": 2.5323336457357075,
+      "grad_norm": 0.3042343258857727,
+      "learning_rate": 0.0007992092430698941,
+      "loss": 0.0947,
+      "step": 1350
+    },
+    {
+      "epoch": 2.5510777881911904,
+      "grad_norm": 0.36439308524131775,
+      "learning_rate": 0.0007992033856111527,
+      "loss": 0.0887,
+      "step": 1360
+    },
+    {
+      "epoch": 2.5698219306466727,
+      "grad_norm": 0.24675941467285156,
+      "learning_rate": 0.0007991975281524111,
+      "loss": 0.0893,
+      "step": 1370
+    },
+    {
+      "epoch": 2.5885660731021556,
+      "grad_norm": 0.3232560157775879,
+      "learning_rate": 0.0007991916706936696,
+      "loss": 0.0949,
+      "step": 1380
+    },
+    {
+      "epoch": 2.6073102155576384,
+      "grad_norm": 0.3095908463001251,
+      "learning_rate": 0.0007991858132349281,
+      "loss": 0.0893,
+      "step": 1390
+    },
+    {
+      "epoch": 2.626054358013121,
+      "grad_norm": 0.24996769428253174,
+      "learning_rate": 0.0007991799557761866,
+      "loss": 0.0918,
+      "step": 1400
+    },
+    {
+      "epoch": 2.6447985004686037,
+      "grad_norm": 0.3013332486152649,
+      "learning_rate": 0.0007991740983174449,
+      "loss": 0.0965,
+      "step": 1410
+    },
+    {
+      "epoch": 2.663542642924086,
+      "grad_norm": 0.43422290682792664,
+      "learning_rate": 0.0007991682408587035,
+      "loss": 0.1144,
+      "step": 1420
+    },
+    {
+      "epoch": 2.682286785379569,
+      "grad_norm": 0.3462458848953247,
+      "learning_rate": 0.0007991623833999619,
+      "loss": 0.1068,
+      "step": 1430
+    },
+    {
+      "epoch": 2.7010309278350517,
+      "grad_norm": 0.2752937078475952,
+      "learning_rate": 0.0007991565259412205,
+      "loss": 0.1048,
+      "step": 1440
+    },
+    {
+      "epoch": 2.719775070290534,
+      "grad_norm": 0.33038660883903503,
+      "learning_rate": 0.000799150668482479,
+      "loss": 0.1055,
+      "step": 1450
+    },
+    {
+      "epoch": 2.738519212746017,
+      "grad_norm": 0.28442054986953735,
+      "learning_rate": 0.0007991448110237373,
+      "loss": 0.1053,
+      "step": 1460
+    },
+    {
+      "epoch": 2.7572633552014993,
+      "grad_norm": 0.25279343128204346,
+      "learning_rate": 0.0007991389535649959,
+      "loss": 0.109,
+      "step": 1470
+    },
+    {
+      "epoch": 2.776007497656982,
+      "grad_norm": 0.3681808114051819,
+      "learning_rate": 0.0007991330961062543,
+      "loss": 0.1092,
+      "step": 1480
+    },
+    {
+      "epoch": 2.794751640112465,
+      "grad_norm": 0.3884279429912567,
+      "learning_rate": 0.0007991272386475128,
+      "loss": 0.1105,
+      "step": 1490
+    },
+    {
+      "epoch": 2.8134957825679474,
+      "grad_norm": 0.3542380928993225,
+      "learning_rate": 0.0007991213811887713,
+      "loss": 0.109,
+      "step": 1500
+    },
+    {
+      "epoch": 2.8134957825679474,
+      "eval_loss": 0.06194353476166725,
+      "eval_pearson_cosine": 0.7544945478439331,
+      "eval_pearson_dot": 0.7297648787498474,
+      "eval_pearson_euclidean": 0.7457708120346069,
+      "eval_pearson_manhattan": 0.7537869215011597,
+      "eval_runtime": 27.28,
+      "eval_samples_per_second": 54.985,
+      "eval_spearman_cosine": 0.7677406665753612,
+      "eval_spearman_dot": 0.7355031880736892,
+      "eval_spearman_euclidean": 0.752266788615453,
+      "eval_spearman_manhattan": 0.7620929193607933,
+      "eval_steps_per_second": 6.892,
+      "step": 1500
+    },
+    {
+      "epoch": 2.8322399250234302,
+      "grad_norm": 0.28738659620285034,
+      "learning_rate": 0.0007991155237300298,
+      "loss": 0.1043,
+      "step": 1510
+    },
+    {
+      "epoch": 2.8509840674789126,
+      "grad_norm": 0.39117714762687683,
+      "learning_rate": 0.0007991096662712882,
+      "loss": 0.0993,
+      "step": 1520
+    },
+    {
+      "epoch": 2.8697282099343955,
+      "grad_norm": 0.3144415616989136,
+      "learning_rate": 0.0007991038088125467,
+      "loss": 0.1145,
+      "step": 1530
+    },
+    {
+      "epoch": 2.8884723523898783,
+      "grad_norm": 0.28154823184013367,
+      "learning_rate": 0.0007990979513538052,
+      "loss": 0.1128,
+      "step": 1540
+    },
+    {
+      "epoch": 2.9072164948453607,
+      "grad_norm": 0.3766768276691437,
+      "learning_rate": 0.0007990920938950637,
+      "loss": 0.1033,
+      "step": 1550
+    },
+    {
+      "epoch": 2.9259606373008435,
+      "grad_norm": 0.38604792952537537,
+      "learning_rate": 0.0007990862364363222,
+      "loss": 0.1044,
+      "step": 1560
+    },
+    {
+      "epoch": 2.944704779756326,
+      "grad_norm": 0.36833906173706055,
+      "learning_rate": 0.0007990803789775806,
+      "loss": 0.1159,
+      "step": 1570
+    },
+    {
+      "epoch": 2.963448922211809,
+      "grad_norm": 0.3357650935649872,
+      "learning_rate": 0.0007990745215188391,
+      "loss": 0.1185,
+      "step": 1580
+    },
+    {
+      "epoch": 2.9821930646672916,
+      "grad_norm": 0.30260348320007324,
+      "learning_rate": 0.0007990686640600976,
+      "loss": 0.1167,
+      "step": 1590
+    },
+    {
+      "epoch": 3.0018744142455485,
+      "grad_norm": 0.28110650181770325,
+      "learning_rate": 0.000799062806601356,
+      "loss": 0.1115,
+      "step": 1600
+    },
+    {
+      "epoch": 3.020618556701031,
+      "grad_norm": 0.32038745284080505,
+      "learning_rate": 0.0007990569491426146,
+      "loss": 0.0637,
+      "step": 1610
+    },
+    {
+      "epoch": 3.0393626991565137,
+      "grad_norm": 0.29342755675315857,
+      "learning_rate": 0.000799051091683873,
+      "loss": 0.0687,
+      "step": 1620
+    },
+    {
+      "epoch": 3.058106841611996,
+      "grad_norm": 0.33964619040489197,
+      "learning_rate": 0.0007990452342251314,
+      "loss": 0.0611,
+      "step": 1630
+    },
+    {
+      "epoch": 3.076850984067479,
+      "grad_norm": 0.23580531775951385,
+      "learning_rate": 0.0007990393767663899,
+      "loss": 0.0635,
+      "step": 1640
+    },
+    {
+      "epoch": 3.0955951265229618,
+      "grad_norm": 0.2617776393890381,
+      "learning_rate": 0.0007990335193076484,
+      "loss": 0.0709,
+      "step": 1650
+    },
+    {
+      "epoch": 3.114339268978444,
+      "grad_norm": 0.25627410411834717,
+      "learning_rate": 0.0007990276618489068,
+      "loss": 0.0682,
+      "step": 1660
+    },
+    {
+      "epoch": 3.133083411433927,
+      "grad_norm": 0.21987001597881317,
+      "learning_rate": 0.0007990218043901654,
+      "loss": 0.06,
+      "step": 1670
+    },
+    {
+      "epoch": 3.1518275538894094,
+      "grad_norm": 0.2657093405723572,
+      "learning_rate": 0.0007990159469314238,
+      "loss": 0.0712,
+      "step": 1680
+    },
+    {
+      "epoch": 3.170571696344892,
+      "grad_norm": 0.23929661512374878,
+      "learning_rate": 0.0007990100894726823,
+      "loss": 0.0566,
+      "step": 1690
+    },
+    {
+      "epoch": 3.189315838800375,
+      "grad_norm": 0.23572145402431488,
+      "learning_rate": 0.0007990042320139408,
+      "loss": 0.0571,
+      "step": 1700
+    },
+    {
+      "epoch": 3.2080599812558575,
+      "grad_norm": 0.26287132501602173,
+      "learning_rate": 0.0007989983745551992,
+      "loss": 0.067,
+      "step": 1710
+    },
+    {
+      "epoch": 3.2268041237113403,
+      "grad_norm": 0.24504464864730835,
+      "learning_rate": 0.0007989925170964578,
+      "loss": 0.0637,
+      "step": 1720
+    },
+    {
+      "epoch": 3.2455482661668227,
+      "grad_norm": 0.17006747424602509,
+      "learning_rate": 0.0007989866596377162,
+      "loss": 0.0552,
+      "step": 1730
+    },
+    {
+      "epoch": 3.2642924086223055,
+      "grad_norm": 0.2752683460712433,
+      "learning_rate": 0.0007989808021789747,
+      "loss": 0.0639,
+      "step": 1740
+    },
+    {
+      "epoch": 3.2830365510777884,
+      "grad_norm": 0.2681417465209961,
+      "learning_rate": 0.0007989749447202332,
+      "loss": 0.0705,
+      "step": 1750
+    },
+    {
+      "epoch": 3.2830365510777884,
+      "eval_loss": 0.0486464686691761,
+      "eval_pearson_cosine": 0.7632350921630859,
+      "eval_pearson_dot": 0.7505504488945007,
+      "eval_pearson_euclidean": 0.7458865642547607,
+      "eval_pearson_manhattan": 0.7597954273223877,
+      "eval_runtime": 27.3673,
+      "eval_samples_per_second": 54.81,
+      "eval_spearman_cosine": 0.7679814031707208,
+      "eval_spearman_dot": 0.7517654374212466,
+      "eval_spearman_euclidean": 0.7467275015139031,
+      "eval_spearman_manhattan": 0.7607208640788498,
+      "eval_steps_per_second": 6.87,
+      "step": 1750
+    },
+    {
+      "epoch": 3.3017806935332707,
+      "grad_norm": 0.24346262216567993,
+      "learning_rate": 0.0007989690872614916,
+      "loss": 0.0658,
+      "step": 1760
+    },
+    {
+      "epoch": 3.3205248359887536,
+      "grad_norm": 0.24957306683063507,
+      "learning_rate": 0.0007989632298027502,
+      "loss": 0.0643,
+      "step": 1770
+    },
+    {
+      "epoch": 3.3392689784442364,
+      "grad_norm": 0.24416255950927734,
+      "learning_rate": 0.0007989573723440086,
+      "loss": 0.0626,
+      "step": 1780
+    },
+    {
+      "epoch": 3.358013120899719,
+      "grad_norm": 0.2224712073802948,
+      "learning_rate": 0.0007989515148852671,
+      "loss": 0.0634,
+      "step": 1790
+    },
+    {
+      "epoch": 3.3767572633552017,
+      "grad_norm": 0.27588558197021484,
+      "learning_rate": 0.0007989456574265256,
+      "loss": 0.0644,
+      "step": 1800
+    },
+    {
+      "epoch": 3.395501405810684,
+      "grad_norm": 0.26377061009407043,
+      "learning_rate": 0.000798939799967784,
+      "loss": 0.0585,
+      "step": 1810
+    },
+    {
+      "epoch": 3.414245548266167,
+      "grad_norm": 0.23178541660308838,
+      "learning_rate": 0.0007989339425090424,
+      "loss": 0.0588,
+      "step": 1820
+    },
+    {
+      "epoch": 3.4329896907216497,
+      "grad_norm": 0.1893617808818817,
+      "learning_rate": 0.000798928085050301,
+      "loss": 0.0649,
+      "step": 1830
+    },
+    {
+      "epoch": 3.451733833177132,
+      "grad_norm": 0.23445335030555725,
+      "learning_rate": 0.0007989222275915595,
+      "loss": 0.0629,
+      "step": 1840
+    },
+    {
+      "epoch": 3.470477975632615,
+      "grad_norm": 0.457109659910202,
+      "learning_rate": 0.0007989163701328179,
+      "loss": 0.0646,
+      "step": 1850
+    },
+    {
+      "epoch": 3.4892221180880973,
+      "grad_norm": 0.2316947728395462,
+      "learning_rate": 0.0007989105126740764,
+      "loss": 0.0677,
+      "step": 1860
+    },
+    {
+      "epoch": 3.50796626054358,
+      "grad_norm": 0.26950669288635254,
+      "learning_rate": 0.0007989046552153348,
+      "loss": 0.0732,
+      "step": 1870
+    },
+    {
+      "epoch": 3.526710402999063,
+      "grad_norm": 0.25258171558380127,
+      "learning_rate": 0.0007988987977565933,
+      "loss": 0.0635,
+      "step": 1880
+    },
+    {
+      "epoch": 3.5454545454545454,
+      "grad_norm": 0.2282831370830536,
+      "learning_rate": 0.0007988929402978518,
+      "loss": 0.0766,
+      "step": 1890
+    },
+    {
+      "epoch": 3.5641986879100283,
+      "grad_norm": 0.3049706220626831,
+      "learning_rate": 0.0007988870828391103,
+      "loss": 0.0766,
+      "step": 1900
+    },
+    {
+      "epoch": 3.5829428303655106,
+      "grad_norm": 0.21556228399276733,
+      "learning_rate": 0.0007988812253803688,
+      "loss": 0.0694,
+      "step": 1910
+    },
+    {
+      "epoch": 3.6016869728209935,
+      "grad_norm": 0.2859863340854645,
+      "learning_rate": 0.0007988753679216272,
+      "loss": 0.0665,
+      "step": 1920
+    },
+    {
+      "epoch": 3.6204311152764763,
+      "grad_norm": 0.22522784769535065,
+      "learning_rate": 0.0007988695104628857,
+      "loss": 0.073,
+      "step": 1930
+    },
+    {
+      "epoch": 3.6391752577319587,
+      "grad_norm": 0.3301334083080292,
+      "learning_rate": 0.0007988636530041442,
+      "loss": 0.0745,
+      "step": 1940
+    },
+    {
+      "epoch": 3.6579194001874415,
+      "grad_norm": 0.21438319981098175,
+      "learning_rate": 0.0007988577955454027,
+      "loss": 0.0713,
+      "step": 1950
+    },
+    {
+      "epoch": 3.676663542642924,
+      "grad_norm": 0.3207626938819885,
+      "learning_rate": 0.0007988519380866611,
+      "loss": 0.0759,
+      "step": 1960
+    },
+    {
+      "epoch": 3.695407685098407,
+      "grad_norm": 0.25493231415748596,
+      "learning_rate": 0.0007988460806279197,
+      "loss": 0.0722,
+      "step": 1970
+    },
+    {
+      "epoch": 3.7141518275538896,
+      "grad_norm": 0.2732018530368805,
+      "learning_rate": 0.0007988402231691781,
+      "loss": 0.0773,
+      "step": 1980
+    },
+    {
+      "epoch": 3.732895970009372,
+      "grad_norm": 0.19611899554729462,
+      "learning_rate": 0.0007988343657104365,
+      "loss": 0.0773,
+      "step": 1990
+    },
+    {
+      "epoch": 3.751640112464855,
+      "grad_norm": 0.2664394676685333,
+      "learning_rate": 0.0007988285082516951,
+      "loss": 0.072,
+      "step": 2000
+    },
+    {
+      "epoch": 3.751640112464855,
+      "eval_loss": 0.05059043690562248,
+      "eval_pearson_cosine": 0.7549334764480591,
+      "eval_pearson_dot": 0.7364022731781006,
+      "eval_pearson_euclidean": 0.7430644035339355,
+      "eval_pearson_manhattan": 0.7528964281082153,
+      "eval_runtime": 27.2774,
+      "eval_samples_per_second": 54.991,
+      "eval_spearman_cosine": 0.7612361982335023,
+      "eval_spearman_dot": 0.7370856746295986,
+      "eval_spearman_euclidean": 0.7449844586260276,
+      "eval_spearman_manhattan": 0.7551494271561938,
+      "eval_steps_per_second": 6.892,
+      "step": 2000
     }
   ],
   "logging_steps": 10,