Training in progress, step 21000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a99077961d0a641c5ff38bc41aeb0e96f4e0aa881e97473db5564c741bb8ca1
 size 613004648

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2345f93cb689f8d7f41eab40d0cef18241e972878e7fb6948d71f1371719ca8
 size 613004648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b633f36fabb5fb014eb719663342186c16c8ad074853b96d787c85ceecedc06
 size 1226096954

 version https://git-lfs.github.com/spec/v1
+oid sha256:88aacbb6072c3cfcd0a072fac3b759771484a894347ed77a4b36afa5c1d0bc3b
 size 1226096954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc17503afa3bf0eafca6b72efbe6ae8cb454a3c16da90f560f71f4af87c7a4e4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:28d77b9708e785984189dd87311c593d951d08be1862b45c82e09f23e0a264bc
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f38d69aa9147d77e04cfc7d1c0433054c65fed5f88ad2cafb308669398f46b3f
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a12c30886420598486baa82bdd0616396462f1a93af3275146e2f56424c6d27
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.372071227741332,
   "eval_steps": 250,
-  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -15287,6 +15287,770 @@
       "eval_spearman_manhattan": 0.742345267890976,
       "eval_steps_per_second": 37.771,
       "step": 20000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.840674789128398,
   "eval_steps": 250,
+  "global_step": 21000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.742345267890976,
       "eval_steps_per_second": 37.771,
       "step": 20000
+    },
+    {
+      "epoch": 9.376757263355202,
+      "grad_norm": 1.831284999847412,
+      "learning_rate": 8.827905342080601e-06,
+      "loss": 0.0489,
+      "step": 20010
+    },
+    {
+      "epoch": 9.381443298969073,
+      "grad_norm": 1.498917818069458,
+      "learning_rate": 8.827319587628866e-06,
+      "loss": 0.0497,
+      "step": 20020
+    },
+    {
+      "epoch": 9.386129334582943,
+      "grad_norm": 1.7997996807098389,
+      "learning_rate": 8.826733833177133e-06,
+      "loss": 0.0543,
+      "step": 20030
+    },
+    {
+      "epoch": 9.390815370196814,
+      "grad_norm": 1.4676984548568726,
+      "learning_rate": 8.8261480787254e-06,
+      "loss": 0.0402,
+      "step": 20040
+    },
+    {
+      "epoch": 9.395501405810684,
+      "grad_norm": 1.4647475481033325,
+      "learning_rate": 8.825562324273665e-06,
+      "loss": 0.0483,
+      "step": 20050
+    },
+    {
+      "epoch": 9.400187441424555,
+      "grad_norm": 1.9055359363555908,
+      "learning_rate": 8.824976569821932e-06,
+      "loss": 0.057,
+      "step": 20060
+    },
+    {
+      "epoch": 9.404873477038425,
+      "grad_norm": 1.243730068206787,
+      "learning_rate": 8.824390815370197e-06,
+      "loss": 0.0521,
+      "step": 20070
+    },
+    {
+      "epoch": 9.409559512652296,
+      "grad_norm": 2.290194272994995,
+      "learning_rate": 8.823805060918463e-06,
+      "loss": 0.0536,
+      "step": 20080
+    },
+    {
+      "epoch": 9.414245548266166,
+      "grad_norm": 1.28463613986969,
+      "learning_rate": 8.823219306466731e-06,
+      "loss": 0.0627,
+      "step": 20090
+    },
+    {
+      "epoch": 9.418931583880038,
+      "grad_norm": 1.6804534196853638,
+      "learning_rate": 8.822633552014996e-06,
+      "loss": 0.0512,
+      "step": 20100
+    },
+    {
+      "epoch": 9.423617619493909,
+      "grad_norm": 0.8809636831283569,
+      "learning_rate": 8.822047797563262e-06,
+      "loss": 0.0429,
+      "step": 20110
+    },
+    {
+      "epoch": 9.42830365510778,
+      "grad_norm": 1.8962526321411133,
+      "learning_rate": 8.821462043111529e-06,
+      "loss": 0.0531,
+      "step": 20120
+    },
+    {
+      "epoch": 9.43298969072165,
+      "grad_norm": 1.0176962614059448,
+      "learning_rate": 8.820876288659794e-06,
+      "loss": 0.0467,
+      "step": 20130
+    },
+    {
+      "epoch": 9.43767572633552,
+      "grad_norm": 1.49270761013031,
+      "learning_rate": 8.82029053420806e-06,
+      "loss": 0.0578,
+      "step": 20140
+    },
+    {
+      "epoch": 9.44236176194939,
+      "grad_norm": 1.4182747602462769,
+      "learning_rate": 8.819704779756328e-06,
+      "loss": 0.051,
+      "step": 20150
+    },
+    {
+      "epoch": 9.447047797563261,
+      "grad_norm": 1.2575933933258057,
+      "learning_rate": 8.819119025304593e-06,
+      "loss": 0.0503,
+      "step": 20160
+    },
+    {
+      "epoch": 9.451733833177132,
+      "grad_norm": 1.8485591411590576,
+      "learning_rate": 8.81853327085286e-06,
+      "loss": 0.0578,
+      "step": 20170
+    },
+    {
+      "epoch": 9.456419868791002,
+      "grad_norm": 1.7406198978424072,
+      "learning_rate": 8.817947516401125e-06,
+      "loss": 0.0532,
+      "step": 20180
+    },
+    {
+      "epoch": 9.461105904404873,
+      "grad_norm": 1.138297438621521,
+      "learning_rate": 8.817361761949392e-06,
+      "loss": 0.0484,
+      "step": 20190
+    },
+    {
+      "epoch": 9.465791940018745,
+      "grad_norm": 1.2107694149017334,
+      "learning_rate": 8.816776007497657e-06,
+      "loss": 0.045,
+      "step": 20200
+    },
+    {
+      "epoch": 9.470477975632615,
+      "grad_norm": 1.5909892320632935,
+      "learning_rate": 8.816190253045924e-06,
+      "loss": 0.0463,
+      "step": 20210
+    },
+    {
+      "epoch": 9.475164011246486,
+      "grad_norm": 1.1377689838409424,
+      "learning_rate": 8.815604498594191e-06,
+      "loss": 0.0688,
+      "step": 20220
+    },
+    {
+      "epoch": 9.479850046860356,
+      "grad_norm": 2.0724937915802,
+      "learning_rate": 8.815018744142456e-06,
+      "loss": 0.0547,
+      "step": 20230
+    },
+    {
+      "epoch": 9.484536082474227,
+      "grad_norm": 0.9459996819496155,
+      "learning_rate": 8.814432989690721e-06,
+      "loss": 0.0482,
+      "step": 20240
+    },
+    {
+      "epoch": 9.489222118088097,
+      "grad_norm": 0.7871867418289185,
+      "learning_rate": 8.813847235238988e-06,
+      "loss": 0.0429,
+      "step": 20250
+    },
+    {
+      "epoch": 9.489222118088097,
+      "eval_loss": 0.03782571852207184,
+      "eval_pearson_cosine": 0.786819398080425,
+      "eval_pearson_dot": 0.6502888686958528,
+      "eval_pearson_euclidean": 0.7291925678539002,
+      "eval_pearson_manhattan": 0.7285750403533555,
+      "eval_runtime": 41.4193,
+      "eval_samples_per_second": 36.215,
+      "eval_spearman_cosine": 0.7882680919473954,
+      "eval_spearman_dot": 0.6683716175414093,
+      "eval_spearman_euclidean": 0.7431012804543077,
+      "eval_spearman_manhattan": 0.7425560629845656,
+      "eval_steps_per_second": 36.215,
+      "step": 20250
+    },
+    {
+      "epoch": 9.493908153701968,
+      "grad_norm": 1.718775749206543,
+      "learning_rate": 8.813261480787255e-06,
+      "loss": 0.0528,
+      "step": 20260
+    },
+    {
+      "epoch": 9.498594189315838,
+      "grad_norm": 1.860888957977295,
+      "learning_rate": 8.81267572633552e-06,
+      "loss": 0.051,
+      "step": 20270
+    },
+    {
+      "epoch": 9.503280224929709,
+      "grad_norm": 1.33186674118042,
+      "learning_rate": 8.812089971883787e-06,
+      "loss": 0.0558,
+      "step": 20280
+    },
+    {
+      "epoch": 9.50796626054358,
+      "grad_norm": 1.3585968017578125,
+      "learning_rate": 8.811504217432053e-06,
+      "loss": 0.0418,
+      "step": 20290
+    },
+    {
+      "epoch": 9.512652296157452,
+      "grad_norm": 1.2041314840316772,
+      "learning_rate": 8.81091846298032e-06,
+      "loss": 0.0661,
+      "step": 20300
+    },
+    {
+      "epoch": 9.517338331771322,
+      "grad_norm": 1.2717355489730835,
+      "learning_rate": 8.810332708528585e-06,
+      "loss": 0.0511,
+      "step": 20310
+    },
+    {
+      "epoch": 9.522024367385193,
+      "grad_norm": 0.9652617573738098,
+      "learning_rate": 8.809746954076852e-06,
+      "loss": 0.0514,
+      "step": 20320
+    },
+    {
+      "epoch": 9.526710402999063,
+      "grad_norm": 1.9312084913253784,
+      "learning_rate": 8.809161199625119e-06,
+      "loss": 0.0607,
+      "step": 20330
+    },
+    {
+      "epoch": 9.531396438612934,
+      "grad_norm": 1.669273018836975,
+      "learning_rate": 8.808575445173384e-06,
+      "loss": 0.0468,
+      "step": 20340
+    },
+    {
+      "epoch": 9.536082474226804,
+      "grad_norm": 1.204368233680725,
+      "learning_rate": 8.80798969072165e-06,
+      "loss": 0.0409,
+      "step": 20350
+    },
+    {
+      "epoch": 9.540768509840674,
+      "grad_norm": 1.2132142782211304,
+      "learning_rate": 8.807403936269916e-06,
+      "loss": 0.0448,
+      "step": 20360
+    },
+    {
+      "epoch": 9.545454545454545,
+      "grad_norm": 0.8759263157844543,
+      "learning_rate": 8.806818181818183e-06,
+      "loss": 0.0486,
+      "step": 20370
+    },
+    {
+      "epoch": 9.550140581068415,
+      "grad_norm": 0.980694591999054,
+      "learning_rate": 8.80623242736645e-06,
+      "loss": 0.04,
+      "step": 20380
+    },
+    {
+      "epoch": 9.554826616682288,
+      "grad_norm": 1.7257814407348633,
+      "learning_rate": 8.805646672914715e-06,
+      "loss": 0.0551,
+      "step": 20390
+    },
+    {
+      "epoch": 9.559512652296158,
+      "grad_norm": 0.9855765700340271,
+      "learning_rate": 8.80506091846298e-06,
+      "loss": 0.0442,
+      "step": 20400
+    },
+    {
+      "epoch": 9.564198687910029,
+      "grad_norm": 2.2688076496124268,
+      "learning_rate": 8.804475164011247e-06,
+      "loss": 0.0474,
+      "step": 20410
+    },
+    {
+      "epoch": 9.5688847235239,
+      "grad_norm": 0.8345751762390137,
+      "learning_rate": 8.803889409559512e-06,
+      "loss": 0.0507,
+      "step": 20420
+    },
+    {
+      "epoch": 9.57357075913777,
+      "grad_norm": 1.0074180364608765,
+      "learning_rate": 8.80330365510778e-06,
+      "loss": 0.0487,
+      "step": 20430
+    },
+    {
+      "epoch": 9.57825679475164,
+      "grad_norm": 1.1515982151031494,
+      "learning_rate": 8.802717900656046e-06,
+      "loss": 0.0443,
+      "step": 20440
+    },
+    {
+      "epoch": 9.58294283036551,
+      "grad_norm": 0.5248059630393982,
+      "learning_rate": 8.802132146204311e-06,
+      "loss": 0.0561,
+      "step": 20450
+    },
+    {
+      "epoch": 9.587628865979381,
+      "grad_norm": 1.2470523118972778,
+      "learning_rate": 8.801546391752578e-06,
+      "loss": 0.0469,
+      "step": 20460
+    },
+    {
+      "epoch": 9.592314901593252,
+      "grad_norm": 2.120579957962036,
+      "learning_rate": 8.800960637300844e-06,
+      "loss": 0.0513,
+      "step": 20470
+    },
+    {
+      "epoch": 9.597000937207122,
+      "grad_norm": 2.442443609237671,
+      "learning_rate": 8.80037488284911e-06,
+      "loss": 0.0635,
+      "step": 20480
+    },
+    {
+      "epoch": 9.601686972820993,
+      "grad_norm": 2.420138120651245,
+      "learning_rate": 8.799789128397377e-06,
+      "loss": 0.0626,
+      "step": 20490
+    },
+    {
+      "epoch": 9.606373008434865,
+      "grad_norm": 2.3432815074920654,
+      "learning_rate": 8.799203373945643e-06,
+      "loss": 0.0534,
+      "step": 20500
+    },
+    {
+      "epoch": 9.606373008434865,
+      "eval_loss": 0.037995509803295135,
+      "eval_pearson_cosine": 0.786149907730362,
+      "eval_pearson_dot": 0.6445644977545584,
+      "eval_pearson_euclidean": 0.7304901967314237,
+      "eval_pearson_manhattan": 0.7299852754916856,
+      "eval_runtime": 40.4167,
+      "eval_samples_per_second": 37.113,
+      "eval_spearman_cosine": 0.788096924565833,
+      "eval_spearman_dot": 0.6634744984860802,
+      "eval_spearman_euclidean": 0.7450878530420201,
+      "eval_spearman_manhattan": 0.7443460197740337,
+      "eval_steps_per_second": 37.113,
+      "step": 20500
+    },
+    {
+      "epoch": 9.611059044048735,
+      "grad_norm": 2.5431413650512695,
+      "learning_rate": 8.79861761949391e-06,
+      "loss": 0.0499,
+      "step": 20510
+    },
+    {
+      "epoch": 9.615745079662606,
+      "grad_norm": 1.4701391458511353,
+      "learning_rate": 8.798031865042175e-06,
+      "loss": 0.0528,
+      "step": 20520
+    },
+    {
+      "epoch": 9.620431115276476,
+      "grad_norm": 1.0605581998825073,
+      "learning_rate": 8.79744611059044e-06,
+      "loss": 0.0513,
+      "step": 20530
+    },
+    {
+      "epoch": 9.625117150890347,
+      "grad_norm": 1.7231255769729614,
+      "learning_rate": 8.796860356138709e-06,
+      "loss": 0.0432,
+      "step": 20540
+    },
+    {
+      "epoch": 9.629803186504217,
+      "grad_norm": 2.4519450664520264,
+      "learning_rate": 8.796274601686974e-06,
+      "loss": 0.0555,
+      "step": 20550
+    },
+    {
+      "epoch": 9.634489222118088,
+      "grad_norm": 1.7406028509140015,
+      "learning_rate": 8.795688847235239e-06,
+      "loss": 0.0547,
+      "step": 20560
+    },
+    {
+      "epoch": 9.639175257731958,
+      "grad_norm": 1.357200026512146,
+      "learning_rate": 8.795103092783506e-06,
+      "loss": 0.0548,
+      "step": 20570
+    },
+    {
+      "epoch": 9.643861293345829,
+      "grad_norm": 1.7510253190994263,
+      "learning_rate": 8.794517338331771e-06,
+      "loss": 0.0541,
+      "step": 20580
+    },
+    {
+      "epoch": 9.648547328959701,
+      "grad_norm": 2.1982178688049316,
+      "learning_rate": 8.793931583880038e-06,
+      "loss": 0.0572,
+      "step": 20590
+    },
+    {
+      "epoch": 9.653233364573572,
+      "grad_norm": 1.6132203340530396,
+      "learning_rate": 8.793345829428305e-06,
+      "loss": 0.0467,
+      "step": 20600
+    },
+    {
+      "epoch": 9.657919400187442,
+      "grad_norm": 1.165385127067566,
+      "learning_rate": 8.79276007497657e-06,
+      "loss": 0.0463,
+      "step": 20610
+    },
+    {
+      "epoch": 9.662605435801312,
+      "grad_norm": 2.306887149810791,
+      "learning_rate": 8.792174320524837e-06,
+      "loss": 0.0529,
+      "step": 20620
+    },
+    {
+      "epoch": 9.667291471415183,
+      "grad_norm": 1.740670084953308,
+      "learning_rate": 8.791588566073102e-06,
+      "loss": 0.0497,
+      "step": 20630
+    },
+    {
+      "epoch": 9.671977507029053,
+      "grad_norm": 1.0078073740005493,
+      "learning_rate": 8.79100281162137e-06,
+      "loss": 0.0495,
+      "step": 20640
+    },
+    {
+      "epoch": 9.676663542642924,
+      "grad_norm": 1.454647421836853,
+      "learning_rate": 8.790417057169636e-06,
+      "loss": 0.0477,
+      "step": 20650
+    },
+    {
+      "epoch": 9.681349578256794,
+      "grad_norm": 1.6520277261734009,
+      "learning_rate": 8.789831302717901e-06,
+      "loss": 0.0499,
+      "step": 20660
+    },
+    {
+      "epoch": 9.686035613870665,
+      "grad_norm": 2.0566940307617188,
+      "learning_rate": 8.789245548266168e-06,
+      "loss": 0.0504,
+      "step": 20670
+    },
+    {
+      "epoch": 9.690721649484535,
+      "grad_norm": 1.7212245464324951,
+      "learning_rate": 8.788659793814434e-06,
+      "loss": 0.0558,
+      "step": 20680
+    },
+    {
+      "epoch": 9.695407685098406,
+      "grad_norm": 0.9179878234863281,
+      "learning_rate": 8.788074039362699e-06,
+      "loss": 0.055,
+      "step": 20690
+    },
+    {
+      "epoch": 9.700093720712278,
+      "grad_norm": 1.1311330795288086,
+      "learning_rate": 8.787488284910966e-06,
+      "loss": 0.0555,
+      "step": 20700
+    },
+    {
+      "epoch": 9.704779756326149,
+      "grad_norm": 1.4247910976409912,
+      "learning_rate": 8.786902530459233e-06,
+      "loss": 0.0522,
+      "step": 20710
+    },
+    {
+      "epoch": 9.70946579194002,
+      "grad_norm": 2.309624195098877,
+      "learning_rate": 8.786316776007498e-06,
+      "loss": 0.0492,
+      "step": 20720
+    },
+    {
+      "epoch": 9.71415182755389,
+      "grad_norm": 0.9960254430770874,
+      "learning_rate": 8.785731021555765e-06,
+      "loss": 0.0461,
+      "step": 20730
+    },
+    {
+      "epoch": 9.71883786316776,
+      "grad_norm": 0.9048061966896057,
+      "learning_rate": 8.78514526710403e-06,
+      "loss": 0.0497,
+      "step": 20740
+    },
+    {
+      "epoch": 9.72352389878163,
+      "grad_norm": 1.7553735971450806,
+      "learning_rate": 8.784559512652297e-06,
+      "loss": 0.0531,
+      "step": 20750
+    },
+    {
+      "epoch": 9.72352389878163,
+      "eval_loss": 0.0375310480594635,
+      "eval_pearson_cosine": 0.7885717010435052,
+      "eval_pearson_dot": 0.6441669695807519,
+      "eval_pearson_euclidean": 0.7356023128188269,
+      "eval_pearson_manhattan": 0.7349906496289833,
+      "eval_runtime": 42.7003,
+      "eval_samples_per_second": 35.129,
+      "eval_spearman_cosine": 0.7894128881355192,
+      "eval_spearman_dot": 0.6634003738795025,
+      "eval_spearman_euclidean": 0.7498228606359407,
+      "eval_spearman_manhattan": 0.7492125285743606,
+      "eval_steps_per_second": 35.129,
+      "step": 20750
+    },
+    {
+      "epoch": 9.728209934395501,
+      "grad_norm": 2.050300121307373,
+      "learning_rate": 8.783973758200564e-06,
+      "loss": 0.0559,
+      "step": 20760
+    },
+    {
+      "epoch": 9.732895970009372,
+      "grad_norm": 1.7900549173355103,
+      "learning_rate": 8.783388003748829e-06,
+      "loss": 0.0468,
+      "step": 20770
+    },
+    {
+      "epoch": 9.737582005623242,
+      "grad_norm": 2.7999625205993652,
+      "learning_rate": 8.782802249297096e-06,
+      "loss": 0.0567,
+      "step": 20780
+    },
+    {
+      "epoch": 9.742268041237114,
+      "grad_norm": 1.746066927909851,
+      "learning_rate": 8.782216494845361e-06,
+      "loss": 0.0462,
+      "step": 20790
+    },
+    {
+      "epoch": 9.746954076850985,
+      "grad_norm": 1.6031302213668823,
+      "learning_rate": 8.781630740393628e-06,
+      "loss": 0.0569,
+      "step": 20800
+    },
+    {
+      "epoch": 9.751640112464855,
+      "grad_norm": 0.795835554599762,
+      "learning_rate": 8.781044985941893e-06,
+      "loss": 0.0471,
+      "step": 20810
+    },
+    {
+      "epoch": 9.756326148078726,
+      "grad_norm": 1.4143311977386475,
+      "learning_rate": 8.78045923149016e-06,
+      "loss": 0.0495,
+      "step": 20820
+    },
+    {
+      "epoch": 9.761012183692596,
+      "grad_norm": 1.2782717943191528,
+      "learning_rate": 8.779873477038427e-06,
+      "loss": 0.0594,
+      "step": 20830
+    },
+    {
+      "epoch": 9.765698219306467,
+      "grad_norm": 0.9974650144577026,
+      "learning_rate": 8.779287722586692e-06,
+      "loss": 0.0485,
+      "step": 20840
+    },
+    {
+      "epoch": 9.770384254920337,
+      "grad_norm": 1.5415414571762085,
+      "learning_rate": 8.778701968134958e-06,
+      "loss": 0.0476,
+      "step": 20850
+    },
+    {
+      "epoch": 9.775070290534208,
+      "grad_norm": 0.8162183165550232,
+      "learning_rate": 8.778116213683225e-06,
+      "loss": 0.0529,
+      "step": 20860
+    },
+    {
+      "epoch": 9.779756326148078,
+      "grad_norm": 1.532882571220398,
+      "learning_rate": 8.777530459231491e-06,
+      "loss": 0.0484,
+      "step": 20870
+    },
+    {
+      "epoch": 9.784442361761949,
+      "grad_norm": 1.609947919845581,
+      "learning_rate": 8.776944704779757e-06,
+      "loss": 0.0575,
+      "step": 20880
+    },
+    {
+      "epoch": 9.78912839737582,
+      "grad_norm": 1.7726844549179077,
+      "learning_rate": 8.776358950328024e-06,
+      "loss": 0.055,
+      "step": 20890
+    },
+    {
+      "epoch": 9.793814432989691,
+      "grad_norm": 0.7471759915351868,
+      "learning_rate": 8.775773195876289e-06,
+      "loss": 0.0439,
+      "step": 20900
+    },
+    {
+      "epoch": 9.798500468603562,
+      "grad_norm": 1.8393468856811523,
+      "learning_rate": 8.775187441424556e-06,
+      "loss": 0.0576,
+      "step": 20910
+    },
+    {
+      "epoch": 9.803186504217432,
+      "grad_norm": 1.570793867111206,
+      "learning_rate": 8.774601686972821e-06,
+      "loss": 0.0518,
+      "step": 20920
+    },
+    {
+      "epoch": 9.807872539831303,
+      "grad_norm": 2.121197462081909,
+      "learning_rate": 8.774015932521088e-06,
+      "loss": 0.0499,
+      "step": 20930
+    },
+    {
+      "epoch": 9.812558575445173,
+      "grad_norm": 1.4100779294967651,
+      "learning_rate": 8.773430178069355e-06,
+      "loss": 0.0518,
+      "step": 20940
+    },
+    {
+      "epoch": 9.817244611059044,
+      "grad_norm": 2.057370901107788,
+      "learning_rate": 8.77284442361762e-06,
+      "loss": 0.0445,
+      "step": 20950
+    },
+    {
+      "epoch": 9.821930646672914,
+      "grad_norm": 1.0159096717834473,
+      "learning_rate": 8.772258669165887e-06,
+      "loss": 0.0488,
+      "step": 20960
+    },
+    {
+      "epoch": 9.826616682286785,
+      "grad_norm": 2.1321892738342285,
+      "learning_rate": 8.771672914714152e-06,
+      "loss": 0.0435,
+      "step": 20970
+    },
+    {
+      "epoch": 9.831302717900655,
+      "grad_norm": 1.727754831314087,
+      "learning_rate": 8.771087160262419e-06,
+      "loss": 0.0506,
+      "step": 20980
+    },
+    {
+      "epoch": 9.835988753514528,
+      "grad_norm": 1.4544596672058105,
+      "learning_rate": 8.770501405810686e-06,
+      "loss": 0.0538,
+      "step": 20990
+    },
+    {
+      "epoch": 9.840674789128398,
+      "grad_norm": 1.8320542573928833,
+      "learning_rate": 8.769915651358951e-06,
+      "loss": 0.0464,
+      "step": 21000
+    },
+    {
+      "epoch": 9.840674789128398,
+      "eval_loss": 0.037997569888830185,
+      "eval_pearson_cosine": 0.7860642455644182,
+      "eval_pearson_dot": 0.6414601204917716,
+      "eval_pearson_euclidean": 0.7319623204333681,
+      "eval_pearson_manhattan": 0.731351329880491,
+      "eval_runtime": 42.4574,
+      "eval_samples_per_second": 35.33,
+      "eval_spearman_cosine": 0.7870558046080526,
+      "eval_spearman_dot": 0.6600440085619812,
+      "eval_spearman_euclidean": 0.746835302683809,
+      "eval_spearman_manhattan": 0.7463752489757238,
+      "eval_steps_per_second": 35.33,
+      "step": 21000
     }
   ],
   "logging_steps": 10,