Training in progress, step 6000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24857bc4b164a0fc3e6179ea07b38593c6c2d12e6d0172627df2d50db6fea93d
 size 737580392

 version https://git-lfs.github.com/spec/v1
+oid sha256:bea384ab228f9e4e48eb09750911bf53afac4e27ba8e57f44979634ad866b1c1
 size 737580392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd9a1d0b8c63d7b12cdde7d50236f1a919f3ab5b10dee3efa64febf5e045dd28
 size 1475248442

 version https://git-lfs.github.com/spec/v1
+oid sha256:a64a6a144fbcea9043ebf95d58cf6dc0de1643977d324340c43b19a2a87324c9
 size 1475248442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0dce7b39374d406c6e9a2e0a52c3d989921f1d308f3e0a976795e1defff56359
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e59fd29507b0a3f94de60acf1485068cfbd28d4220459a98545dc01f241293d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fed7e74ecc01b85f3fc063ed097046907474fb7f4b9c36a632434be797d10982
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:923c446f373ad2f0ffab5651c7c112ff9f6139581eac3a16834e284a234062e7
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.3430178069353325,
   "eval_steps": 250,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3827,6 +3827,770 @@
       "eval_spearman_manhattan": 0.807850996089844,
       "eval_steps_per_second": 28.467,
       "step": 5000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.8116213683223994,
   "eval_steps": 250,
+  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.807850996089844,
       "eval_steps_per_second": 28.467,
       "step": 5000
+    },
+    {
+      "epoch": 2.3477038425492034,
+      "grad_norm": 1.9489047527313232,
+      "learning_rate": 1.8532685098406748e-05,
+      "loss": 0.1478,
+      "step": 5010
+    },
+    {
+      "epoch": 2.352389878163074,
+      "grad_norm": 1.7943733930587769,
+      "learning_rate": 1.852975632614808e-05,
+      "loss": 0.1447,
+      "step": 5020
+    },
+    {
+      "epoch": 2.357075913776945,
+      "grad_norm": 1.9680578708648682,
+      "learning_rate": 1.852682755388941e-05,
+      "loss": 0.158,
+      "step": 5030
+    },
+    {
+      "epoch": 2.3617619493908153,
+      "grad_norm": 1.76882004737854,
+      "learning_rate": 1.8523898781630743e-05,
+      "loss": 0.1616,
+      "step": 5040
+    },
+    {
+      "epoch": 2.3664479850046862,
+      "grad_norm": 1.7545366287231445,
+      "learning_rate": 1.8520970009372073e-05,
+      "loss": 0.1748,
+      "step": 5050
+    },
+    {
+      "epoch": 2.3711340206185567,
+      "grad_norm": 1.8479957580566406,
+      "learning_rate": 1.8518041237113406e-05,
+      "loss": 0.1536,
+      "step": 5060
+    },
+    {
+      "epoch": 2.375820056232427,
+      "grad_norm": 2.2647321224212646,
+      "learning_rate": 1.8515112464854735e-05,
+      "loss": 0.169,
+      "step": 5070
+    },
+    {
+      "epoch": 2.380506091846298,
+      "grad_norm": 2.5361509323120117,
+      "learning_rate": 1.8512183692596065e-05,
+      "loss": 0.1664,
+      "step": 5080
+    },
+    {
+      "epoch": 2.3851921274601686,
+      "grad_norm": 1.6961290836334229,
+      "learning_rate": 1.8509254920337398e-05,
+      "loss": 0.1581,
+      "step": 5090
+    },
+    {
+      "epoch": 2.3898781630740396,
+      "grad_norm": 2.0420143604278564,
+      "learning_rate": 1.8506326148078727e-05,
+      "loss": 0.1761,
+      "step": 5100
+    },
+    {
+      "epoch": 2.39456419868791,
+      "grad_norm": 1.5825088024139404,
+      "learning_rate": 1.8503397375820057e-05,
+      "loss": 0.1462,
+      "step": 5110
+    },
+    {
+      "epoch": 2.3992502343017805,
+      "grad_norm": 1.1550185680389404,
+      "learning_rate": 1.8500468603561386e-05,
+      "loss": 0.1612,
+      "step": 5120
+    },
+    {
+      "epoch": 2.4039362699156515,
+      "grad_norm": 1.1477668285369873,
+      "learning_rate": 1.849753983130272e-05,
+      "loss": 0.168,
+      "step": 5130
+    },
+    {
+      "epoch": 2.408622305529522,
+      "grad_norm": 2.5751688480377197,
+      "learning_rate": 1.849461105904405e-05,
+      "loss": 0.1737,
+      "step": 5140
+    },
+    {
+      "epoch": 2.413308341143393,
+      "grad_norm": 0.8213298916816711,
+      "learning_rate": 1.849168228678538e-05,
+      "loss": 0.1528,
+      "step": 5150
+    },
+    {
+      "epoch": 2.4179943767572634,
+      "grad_norm": 2.1841747760772705,
+      "learning_rate": 1.848875351452671e-05,
+      "loss": 0.1658,
+      "step": 5160
+    },
+    {
+      "epoch": 2.422680412371134,
+      "grad_norm": 1.1756603717803955,
+      "learning_rate": 1.8485824742268044e-05,
+      "loss": 0.1593,
+      "step": 5170
+    },
+    {
+      "epoch": 2.427366447985005,
+      "grad_norm": 1.4406476020812988,
+      "learning_rate": 1.8482895970009373e-05,
+      "loss": 0.1725,
+      "step": 5180
+    },
+    {
+      "epoch": 2.4320524835988753,
+      "grad_norm": 1.0863920450210571,
+      "learning_rate": 1.8479967197750703e-05,
+      "loss": 0.1629,
+      "step": 5190
+    },
+    {
+      "epoch": 2.436738519212746,
+      "grad_norm": 1.736379861831665,
+      "learning_rate": 1.8477038425492036e-05,
+      "loss": 0.1452,
+      "step": 5200
+    },
+    {
+      "epoch": 2.4414245548266167,
+      "grad_norm": 1.3213779926300049,
+      "learning_rate": 1.8474109653233365e-05,
+      "loss": 0.1654,
+      "step": 5210
+    },
+    {
+      "epoch": 2.446110590440487,
+      "grad_norm": 1.8341721296310425,
+      "learning_rate": 1.8471180880974698e-05,
+      "loss": 0.149,
+      "step": 5220
+    },
+    {
+      "epoch": 2.450796626054358,
+      "grad_norm": 1.6373144388198853,
+      "learning_rate": 1.8468252108716028e-05,
+      "loss": 0.1769,
+      "step": 5230
+    },
+    {
+      "epoch": 2.4554826616682286,
+      "grad_norm": 1.9199351072311401,
+      "learning_rate": 1.846532333645736e-05,
+      "loss": 0.1848,
+      "step": 5240
+    },
+    {
+      "epoch": 2.4601686972820995,
+      "grad_norm": 1.5321757793426514,
+      "learning_rate": 1.846239456419869e-05,
+      "loss": 0.166,
+      "step": 5250
+    },
+    {
+      "epoch": 2.4601686972820995,
+      "eval_loss": 0.033459678292274475,
+      "eval_pearson_cosine": 0.81833954439713,
+      "eval_pearson_dot": 0.7450131051603677,
+      "eval_pearson_euclidean": 0.7997398913396002,
+      "eval_pearson_manhattan": 0.8015232151946456,
+      "eval_runtime": 3.3372,
+      "eval_samples_per_second": 449.478,
+      "eval_spearman_cosine": 0.818760866631701,
+      "eval_spearman_dot": 0.7445336159751238,
+      "eval_spearman_euclidean": 0.8090651280572486,
+      "eval_spearman_manhattan": 0.8107108068343578,
+      "eval_steps_per_second": 28.167,
+      "step": 5250
+    },
+    {
+      "epoch": 2.46485473289597,
+      "grad_norm": 2.2415823936462402,
+      "learning_rate": 1.845946579194002e-05,
+      "loss": 0.1606,
+      "step": 5260
+    },
+    {
+      "epoch": 2.4695407685098405,
+      "grad_norm": 0.9711971879005432,
+      "learning_rate": 1.8456537019681352e-05,
+      "loss": 0.1546,
+      "step": 5270
+    },
+    {
+      "epoch": 2.4742268041237114,
+      "grad_norm": 1.7712616920471191,
+      "learning_rate": 1.8453608247422682e-05,
+      "loss": 0.1725,
+      "step": 5280
+    },
+    {
+      "epoch": 2.478912839737582,
+      "grad_norm": 1.9109606742858887,
+      "learning_rate": 1.845067947516401e-05,
+      "loss": 0.175,
+      "step": 5290
+    },
+    {
+      "epoch": 2.483598875351453,
+      "grad_norm": 1.4726054668426514,
+      "learning_rate": 1.8447750702905344e-05,
+      "loss": 0.1432,
+      "step": 5300
+    },
+    {
+      "epoch": 2.4882849109653233,
+      "grad_norm": 1.5022660493850708,
+      "learning_rate": 1.8444821930646674e-05,
+      "loss": 0.1682,
+      "step": 5310
+    },
+    {
+      "epoch": 2.492970946579194,
+      "grad_norm": 2.4403464794158936,
+      "learning_rate": 1.8441893158388003e-05,
+      "loss": 0.1554,
+      "step": 5320
+    },
+    {
+      "epoch": 2.4976569821930648,
+      "grad_norm": 2.6438190937042236,
+      "learning_rate": 1.8438964386129336e-05,
+      "loss": 0.1874,
+      "step": 5330
+    },
+    {
+      "epoch": 2.5023430178069352,
+      "grad_norm": 1.2486696243286133,
+      "learning_rate": 1.8436035613870666e-05,
+      "loss": 0.179,
+      "step": 5340
+    },
+    {
+      "epoch": 2.5070290534208057,
+      "grad_norm": 1.551320195198059,
+      "learning_rate": 1.8433106841612e-05,
+      "loss": 0.1498,
+      "step": 5350
+    },
+    {
+      "epoch": 2.5117150890346767,
+      "grad_norm": 1.7184678316116333,
+      "learning_rate": 1.8430178069353328e-05,
+      "loss": 0.1643,
+      "step": 5360
+    },
+    {
+      "epoch": 2.5164011246485476,
+      "grad_norm": 1.7342448234558105,
+      "learning_rate": 1.842724929709466e-05,
+      "loss": 0.158,
+      "step": 5370
+    },
+    {
+      "epoch": 2.521087160262418,
+      "grad_norm": 1.900806188583374,
+      "learning_rate": 1.842432052483599e-05,
+      "loss": 0.1706,
+      "step": 5380
+    },
+    {
+      "epoch": 2.5257731958762886,
+      "grad_norm": 1.599795937538147,
+      "learning_rate": 1.842139175257732e-05,
+      "loss": 0.1878,
+      "step": 5390
+    },
+    {
+      "epoch": 2.530459231490159,
+      "grad_norm": 1.4454323053359985,
+      "learning_rate": 1.8418462980318653e-05,
+      "loss": 0.1655,
+      "step": 5400
+    },
+    {
+      "epoch": 2.53514526710403,
+      "grad_norm": 1.7434407472610474,
+      "learning_rate": 1.8415534208059982e-05,
+      "loss": 0.1503,
+      "step": 5410
+    },
+    {
+      "epoch": 2.539831302717901,
+      "grad_norm": 2.328422784805298,
+      "learning_rate": 1.8412605435801315e-05,
+      "loss": 0.1702,
+      "step": 5420
+    },
+    {
+      "epoch": 2.5445173383317714,
+      "grad_norm": 1.7260003089904785,
+      "learning_rate": 1.8409676663542645e-05,
+      "loss": 0.1624,
+      "step": 5430
+    },
+    {
+      "epoch": 2.549203373945642,
+      "grad_norm": 1.7711926698684692,
+      "learning_rate": 1.8406747891283974e-05,
+      "loss": 0.1609,
+      "step": 5440
+    },
+    {
+      "epoch": 2.5538894095595124,
+      "grad_norm": 1.963535189628601,
+      "learning_rate": 1.8403819119025307e-05,
+      "loss": 0.1881,
+      "step": 5450
+    },
+    {
+      "epoch": 2.5585754451733833,
+      "grad_norm": 1.5332142114639282,
+      "learning_rate": 1.8400890346766637e-05,
+      "loss": 0.1891,
+      "step": 5460
+    },
+    {
+      "epoch": 2.5632614807872542,
+      "grad_norm": 1.4771735668182373,
+      "learning_rate": 1.8397961574507966e-05,
+      "loss": 0.1455,
+      "step": 5470
+    },
+    {
+      "epoch": 2.5679475164011247,
+      "grad_norm": 1.3587532043457031,
+      "learning_rate": 1.83950328022493e-05,
+      "loss": 0.1579,
+      "step": 5480
+    },
+    {
+      "epoch": 2.572633552014995,
+      "grad_norm": 1.5083823204040527,
+      "learning_rate": 1.839210402999063e-05,
+      "loss": 0.1624,
+      "step": 5490
+    },
+    {
+      "epoch": 2.5773195876288657,
+      "grad_norm": 2.0399646759033203,
+      "learning_rate": 1.8389175257731958e-05,
+      "loss": 0.1572,
+      "step": 5500
+    },
+    {
+      "epoch": 2.5773195876288657,
+      "eval_loss": 0.03521975129842758,
+      "eval_pearson_cosine": 0.8123064687585853,
+      "eval_pearson_dot": 0.7368072149645286,
+      "eval_pearson_euclidean": 0.8002505346194582,
+      "eval_pearson_manhattan": 0.8020724209892114,
+      "eval_runtime": 3.2078,
+      "eval_samples_per_second": 467.604,
+      "eval_spearman_cosine": 0.8135314473340735,
+      "eval_spearman_dot": 0.7336319115548467,
+      "eval_spearman_euclidean": 0.8084064839841847,
+      "eval_spearman_manhattan": 0.8100456053831014,
+      "eval_steps_per_second": 29.303,
+      "step": 5500
+    },
+    {
+      "epoch": 2.5820056232427366,
+      "grad_norm": 1.6468899250030518,
+      "learning_rate": 1.838624648547329e-05,
+      "loss": 0.1884,
+      "step": 5510
+    },
+    {
+      "epoch": 2.5866916588566076,
+      "grad_norm": 1.9936749935150146,
+      "learning_rate": 1.838331771321462e-05,
+      "loss": 0.1692,
+      "step": 5520
+    },
+    {
+      "epoch": 2.591377694470478,
+      "grad_norm": 2.251502513885498,
+      "learning_rate": 1.8380388940955953e-05,
+      "loss": 0.1657,
+      "step": 5530
+    },
+    {
+      "epoch": 2.5960637300843485,
+      "grad_norm": 1.6334820985794067,
+      "learning_rate": 1.8377460168697283e-05,
+      "loss": 0.1692,
+      "step": 5540
+    },
+    {
+      "epoch": 2.600749765698219,
+      "grad_norm": 1.9554181098937988,
+      "learning_rate": 1.8374531396438616e-05,
+      "loss": 0.167,
+      "step": 5550
+    },
+    {
+      "epoch": 2.60543580131209,
+      "grad_norm": 1.866745114326477,
+      "learning_rate": 1.8371602624179945e-05,
+      "loss": 0.1508,
+      "step": 5560
+    },
+    {
+      "epoch": 2.610121836925961,
+      "grad_norm": 1.533691644668579,
+      "learning_rate": 1.8368673851921278e-05,
+      "loss": 0.1726,
+      "step": 5570
+    },
+    {
+      "epoch": 2.6148078725398314,
+      "grad_norm": 1.8526815176010132,
+      "learning_rate": 1.8365745079662608e-05,
+      "loss": 0.1714,
+      "step": 5580
+    },
+    {
+      "epoch": 2.619493908153702,
+      "grad_norm": 1.5112234354019165,
+      "learning_rate": 1.8362816307403937e-05,
+      "loss": 0.1424,
+      "step": 5590
+    },
+    {
+      "epoch": 2.624179943767573,
+      "grad_norm": 1.8528941869735718,
+      "learning_rate": 1.835988753514527e-05,
+      "loss": 0.1677,
+      "step": 5600
+    },
+    {
+      "epoch": 2.6288659793814433,
+      "grad_norm": 1.9312357902526855,
+      "learning_rate": 1.83569587628866e-05,
+      "loss": 0.1505,
+      "step": 5610
+    },
+    {
+      "epoch": 2.633552014995314,
+      "grad_norm": 1.429540753364563,
+      "learning_rate": 1.8354029990627932e-05,
+      "loss": 0.1559,
+      "step": 5620
+    },
+    {
+      "epoch": 2.6382380506091847,
+      "grad_norm": 1.532606840133667,
+      "learning_rate": 1.8351101218369262e-05,
+      "loss": 0.1601,
+      "step": 5630
+    },
+    {
+      "epoch": 2.642924086223055,
+      "grad_norm": 2.127380847930908,
+      "learning_rate": 1.834817244611059e-05,
+      "loss": 0.1992,
+      "step": 5640
+    },
+    {
+      "epoch": 2.647610121836926,
+      "grad_norm": 1.3522067070007324,
+      "learning_rate": 1.834524367385192e-05,
+      "loss": 0.1629,
+      "step": 5650
+    },
+    {
+      "epoch": 2.6522961574507966,
+      "grad_norm": 2.4547903537750244,
+      "learning_rate": 1.8342314901593254e-05,
+      "loss": 0.1817,
+      "step": 5660
+    },
+    {
+      "epoch": 2.6569821930646675,
+      "grad_norm": 1.7367674112319946,
+      "learning_rate": 1.8339386129334583e-05,
+      "loss": 0.1764,
+      "step": 5670
+    },
+    {
+      "epoch": 2.661668228678538,
+      "grad_norm": 1.256063461303711,
+      "learning_rate": 1.8336457357075916e-05,
+      "loss": 0.1532,
+      "step": 5680
+    },
+    {
+      "epoch": 2.6663542642924085,
+      "grad_norm": 1.6752853393554688,
+      "learning_rate": 1.8333528584817246e-05,
+      "loss": 0.2087,
+      "step": 5690
+    },
+    {
+      "epoch": 2.6710402999062794,
+      "grad_norm": 1.8749183416366577,
+      "learning_rate": 1.8330599812558575e-05,
+      "loss": 0.1722,
+      "step": 5700
+    },
+    {
+      "epoch": 2.67572633552015,
+      "grad_norm": 1.9365167617797852,
+      "learning_rate": 1.8327671040299908e-05,
+      "loss": 0.1828,
+      "step": 5710
+    },
+    {
+      "epoch": 2.680412371134021,
+      "grad_norm": 1.8167498111724854,
+      "learning_rate": 1.8324742268041237e-05,
+      "loss": 0.1566,
+      "step": 5720
+    },
+    {
+      "epoch": 2.6850984067478914,
+      "grad_norm": 1.8729602098464966,
+      "learning_rate": 1.832181349578257e-05,
+      "loss": 0.159,
+      "step": 5730
+    },
+    {
+      "epoch": 2.689784442361762,
+      "grad_norm": 1.565158724784851,
+      "learning_rate": 1.83188847235239e-05,
+      "loss": 0.1669,
+      "step": 5740
+    },
+    {
+      "epoch": 2.6944704779756328,
+      "grad_norm": 2.2538883686065674,
+      "learning_rate": 1.8315955951265233e-05,
+      "loss": 0.1353,
+      "step": 5750
+    },
+    {
+      "epoch": 2.6944704779756328,
+      "eval_loss": 0.03330089524388313,
+      "eval_pearson_cosine": 0.8210346883559136,
+      "eval_pearson_dot": 0.7463452164747508,
+      "eval_pearson_euclidean": 0.8023729858931796,
+      "eval_pearson_manhattan": 0.8045441158759452,
+      "eval_runtime": 3.2103,
+      "eval_samples_per_second": 467.241,
+      "eval_spearman_cosine": 0.8210648613938134,
+      "eval_spearman_dot": 0.7463044894785922,
+      "eval_spearman_euclidean": 0.8102763562695625,
+      "eval_spearman_manhattan": 0.8122826147618483,
+      "eval_steps_per_second": 29.28,
+      "step": 5750
+    },
+    {
+      "epoch": 2.6991565135895033,
+      "grad_norm": 1.5002834796905518,
+      "learning_rate": 1.8313027179006562e-05,
+      "loss": 0.1694,
+      "step": 5760
+    },
+    {
+      "epoch": 2.703842549203374,
+      "grad_norm": 1.4530423879623413,
+      "learning_rate": 1.8310098406747895e-05,
+      "loss": 0.1625,
+      "step": 5770
+    },
+    {
+      "epoch": 2.7085285848172447,
+      "grad_norm": 1.4987956285476685,
+      "learning_rate": 1.8307169634489225e-05,
+      "loss": 0.1881,
+      "step": 5780
+    },
+    {
+      "epoch": 2.713214620431115,
+      "grad_norm": 1.6835180521011353,
+      "learning_rate": 1.8304240862230554e-05,
+      "loss": 0.1388,
+      "step": 5790
+    },
+    {
+      "epoch": 2.717900656044986,
+      "grad_norm": 1.752693772315979,
+      "learning_rate": 1.8301312089971887e-05,
+      "loss": 0.1452,
+      "step": 5800
+    },
+    {
+      "epoch": 2.7225866916588566,
+      "grad_norm": 1.5680220127105713,
+      "learning_rate": 1.8298383317713217e-05,
+      "loss": 0.1613,
+      "step": 5810
+    },
+    {
+      "epoch": 2.7272727272727275,
+      "grad_norm": 2.067552328109741,
+      "learning_rate": 1.8295454545454546e-05,
+      "loss": 0.1458,
+      "step": 5820
+    },
+    {
+      "epoch": 2.731958762886598,
+      "grad_norm": 2.0963711738586426,
+      "learning_rate": 1.8292525773195876e-05,
+      "loss": 0.1972,
+      "step": 5830
+    },
+    {
+      "epoch": 2.7366447985004685,
+      "grad_norm": 1.5372573137283325,
+      "learning_rate": 1.828959700093721e-05,
+      "loss": 0.1657,
+      "step": 5840
+    },
+    {
+      "epoch": 2.7413308341143394,
+      "grad_norm": 2.0116796493530273,
+      "learning_rate": 1.8286668228678538e-05,
+      "loss": 0.1576,
+      "step": 5850
+    },
+    {
+      "epoch": 2.74601686972821,
+      "grad_norm": 1.3485506772994995,
+      "learning_rate": 1.828373945641987e-05,
+      "loss": 0.1503,
+      "step": 5860
+    },
+    {
+      "epoch": 2.750702905342081,
+      "grad_norm": 1.7089899778366089,
+      "learning_rate": 1.82808106841612e-05,
+      "loss": 0.1787,
+      "step": 5870
+    },
+    {
+      "epoch": 2.7553889409559513,
+      "grad_norm": 1.6269711256027222,
+      "learning_rate": 1.8277881911902533e-05,
+      "loss": 0.1879,
+      "step": 5880
+    },
+    {
+      "epoch": 2.760074976569822,
+      "grad_norm": 1.6839511394500732,
+      "learning_rate": 1.8274953139643863e-05,
+      "loss": 0.1499,
+      "step": 5890
+    },
+    {
+      "epoch": 2.7647610121836927,
+      "grad_norm": 1.829288363456726,
+      "learning_rate": 1.8272024367385192e-05,
+      "loss": 0.1776,
+      "step": 5900
+    },
+    {
+      "epoch": 2.7694470477975632,
+      "grad_norm": 1.4138745069503784,
+      "learning_rate": 1.8269095595126525e-05,
+      "loss": 0.1612,
+      "step": 5910
+    },
+    {
+      "epoch": 2.774133083411434,
+      "grad_norm": 1.4199497699737549,
+      "learning_rate": 1.8266166822867855e-05,
+      "loss": 0.1717,
+      "step": 5920
+    },
+    {
+      "epoch": 2.7788191190253047,
+      "grad_norm": 1.8683243989944458,
+      "learning_rate": 1.8263238050609187e-05,
+      "loss": 0.1701,
+      "step": 5930
+    },
+    {
+      "epoch": 2.783505154639175,
+      "grad_norm": 1.5344245433807373,
+      "learning_rate": 1.8260309278350517e-05,
+      "loss": 0.1704,
+      "step": 5940
+    },
+    {
+      "epoch": 2.788191190253046,
+      "grad_norm": 1.8963440656661987,
+      "learning_rate": 1.825738050609185e-05,
+      "loss": 0.1876,
+      "step": 5950
+    },
+    {
+      "epoch": 2.7928772258669166,
+      "grad_norm": 2.009709358215332,
+      "learning_rate": 1.825445173383318e-05,
+      "loss": 0.204,
+      "step": 5960
+    },
+    {
+      "epoch": 2.7975632614807875,
+      "grad_norm": 1.5217466354370117,
+      "learning_rate": 1.825152296157451e-05,
+      "loss": 0.1582,
+      "step": 5970
+    },
+    {
+      "epoch": 2.802249297094658,
+      "grad_norm": 1.7628065347671509,
+      "learning_rate": 1.8248594189315842e-05,
+      "loss": 0.1563,
+      "step": 5980
+    },
+    {
+      "epoch": 2.8069353327085285,
+      "grad_norm": 1.8212190866470337,
+      "learning_rate": 1.824566541705717e-05,
+      "loss": 0.1662,
+      "step": 5990
+    },
+    {
+      "epoch": 2.8116213683223994,
+      "grad_norm": 2.4741644859313965,
+      "learning_rate": 1.82427366447985e-05,
+      "loss": 0.1555,
+      "step": 6000
+    },
+    {
+      "epoch": 2.8116213683223994,
+      "eval_loss": 0.03254643455147743,
+      "eval_pearson_cosine": 0.818468145503374,
+      "eval_pearson_dot": 0.7526356355108419,
+      "eval_pearson_euclidean": 0.7938927456366471,
+      "eval_pearson_manhattan": 0.7958636725988697,
+      "eval_runtime": 3.1897,
+      "eval_samples_per_second": 470.262,
+      "eval_spearman_cosine": 0.8183439432602023,
+      "eval_spearman_dot": 0.7537522979367676,
+      "eval_spearman_euclidean": 0.8019040119245933,
+      "eval_spearman_manhattan": 0.8036153637269691,
+      "eval_steps_per_second": 29.47,
+      "step": 6000
     }
   ],
   "logging_steps": 10,