Training in progress, step 10000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8adc247d305d9f3f48cfa3878ee63336d7fa4374add45ee01ed8dda6005ec778
 size 613004648

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad6a577dd191618d3b00fe33fe0cdf33b81a5c002fe33712258e536fcc1520a8
 size 613004648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8859d669a35bcbc93780c06ab1a65bd8bc02a7cba417a0b1747229bae278e8c4
 size 1226096954

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ffe192963611108e55a8d98be8d1dafc323965fc2794aed1bf226c3a6c17145
 size 1226096954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b9b5cbeb72cb13416d33fb3709b0d7a367e681de773132f1b73f6b02bba3582
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5e1f8a9c771c1f6fac3e948b043a309dd550a6e17ac92d5fdcc99c5e406cf1c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdb70058e5fda25192fd22654de739fc2dcf9d8d64b5fc7673d822670c95ff92
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c9a67dc102c0201a7b47ec5ea788b4d7cd182385f8b19e21244eece8e7dbf3b
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.217432052483598,
   "eval_steps": 250,
-  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6883,6 +6883,770 @@
       "eval_spearman_manhattan": 0.7624729408213863,
       "eval_steps_per_second": 37.636,
       "step": 9000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.686035613870665,
   "eval_steps": 250,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7624729408213863,
       "eval_steps_per_second": 37.636,
       "step": 9000
+    },
+    {
+      "epoch": 4.22211808809747,
+      "grad_norm": 1.666392207145691,
+      "learning_rate": 9.472235238987816e-06,
+      "loss": 0.1418,
+      "step": 9010
+    },
+    {
+      "epoch": 4.22680412371134,
+      "grad_norm": 2.7508490085601807,
+      "learning_rate": 9.471649484536083e-06,
+      "loss": 0.1448,
+      "step": 9020
+    },
+    {
+      "epoch": 4.231490159325211,
+      "grad_norm": 2.883143663406372,
+      "learning_rate": 9.471063730084349e-06,
+      "loss": 0.166,
+      "step": 9030
+    },
+    {
+      "epoch": 4.236176194939081,
+      "grad_norm": 2.5505452156066895,
+      "learning_rate": 9.470477975632615e-06,
+      "loss": 0.1417,
+      "step": 9040
+    },
+    {
+      "epoch": 4.240862230552953,
+      "grad_norm": 2.3343942165374756,
+      "learning_rate": 9.469892221180882e-06,
+      "loss": 0.1569,
+      "step": 9050
+    },
+    {
+      "epoch": 4.245548266166823,
+      "grad_norm": 2.2727818489074707,
+      "learning_rate": 9.469306466729148e-06,
+      "loss": 0.1346,
+      "step": 9060
+    },
+    {
+      "epoch": 4.250234301780694,
+      "grad_norm": 2.8398542404174805,
+      "learning_rate": 9.468720712277415e-06,
+      "loss": 0.151,
+      "step": 9070
+    },
+    {
+      "epoch": 4.254920337394564,
+      "grad_norm": 2.0750465393066406,
+      "learning_rate": 9.46813495782568e-06,
+      "loss": 0.1555,
+      "step": 9080
+    },
+    {
+      "epoch": 4.259606373008435,
+      "grad_norm": 2.1490373611450195,
+      "learning_rate": 9.467549203373947e-06,
+      "loss": 0.1719,
+      "step": 9090
+    },
+    {
+      "epoch": 4.264292408622305,
+      "grad_norm": 1.9958566427230835,
+      "learning_rate": 9.466963448922214e-06,
+      "loss": 0.1332,
+      "step": 9100
+    },
+    {
+      "epoch": 4.2689784442361765,
+      "grad_norm": 2.586869478225708,
+      "learning_rate": 9.466377694470479e-06,
+      "loss": 0.1545,
+      "step": 9110
+    },
+    {
+      "epoch": 4.273664479850047,
+      "grad_norm": 1.7282586097717285,
+      "learning_rate": 9.465791940018744e-06,
+      "loss": 0.1608,
+      "step": 9120
+    },
+    {
+      "epoch": 4.278350515463917,
+      "grad_norm": 2.7652742862701416,
+      "learning_rate": 9.465206185567011e-06,
+      "loss": 0.1319,
+      "step": 9130
+    },
+    {
+      "epoch": 4.283036551077788,
+      "grad_norm": 2.3922176361083984,
+      "learning_rate": 9.464620431115276e-06,
+      "loss": 0.1569,
+      "step": 9140
+    },
+    {
+      "epoch": 4.287722586691659,
+      "grad_norm": 2.223822832107544,
+      "learning_rate": 9.464034676663543e-06,
+      "loss": 0.1494,
+      "step": 9150
+    },
+    {
+      "epoch": 4.29240862230553,
+      "grad_norm": 2.0714290142059326,
+      "learning_rate": 9.46344892221181e-06,
+      "loss": 0.1506,
+      "step": 9160
+    },
+    {
+      "epoch": 4.2970946579194,
+      "grad_norm": 2.4368040561676025,
+      "learning_rate": 9.462863167760075e-06,
+      "loss": 0.1413,
+      "step": 9170
+    },
+    {
+      "epoch": 4.301780693533271,
+      "grad_norm": 2.760032892227173,
+      "learning_rate": 9.462277413308342e-06,
+      "loss": 0.1599,
+      "step": 9180
+    },
+    {
+      "epoch": 4.306466729147141,
+      "grad_norm": 2.8202686309814453,
+      "learning_rate": 9.461691658856607e-06,
+      "loss": 0.1444,
+      "step": 9190
+    },
+    {
+      "epoch": 4.311152764761012,
+      "grad_norm": 2.5001349449157715,
+      "learning_rate": 9.461105904404874e-06,
+      "loss": 0.1322,
+      "step": 9200
+    },
+    {
+      "epoch": 4.315838800374883,
+      "grad_norm": 2.5955960750579834,
+      "learning_rate": 9.460520149953141e-06,
+      "loss": 0.1522,
+      "step": 9210
+    },
+    {
+      "epoch": 4.320524835988754,
+      "grad_norm": 1.966848611831665,
+      "learning_rate": 9.459934395501406e-06,
+      "loss": 0.133,
+      "step": 9220
+    },
+    {
+      "epoch": 4.325210871602624,
+      "grad_norm": 2.4600915908813477,
+      "learning_rate": 9.459348641049673e-06,
+      "loss": 0.1381,
+      "step": 9230
+    },
+    {
+      "epoch": 4.329896907216495,
+      "grad_norm": 2.6355576515197754,
+      "learning_rate": 9.458762886597939e-06,
+      "loss": 0.1671,
+      "step": 9240
+    },
+    {
+      "epoch": 4.334582942830366,
+      "grad_norm": 1.9884010553359985,
+      "learning_rate": 9.458177132146204e-06,
+      "loss": 0.1565,
+      "step": 9250
+    },
+    {
+      "epoch": 4.334582942830366,
+      "eval_loss": 0.04769788682460785,
+      "eval_pearson_cosine": 0.7716762907463419,
+      "eval_pearson_dot": 0.6025868220654615,
+      "eval_pearson_euclidean": 0.7486154713041202,
+      "eval_pearson_manhattan": 0.7480947777024909,
+      "eval_runtime": 39.7245,
+      "eval_samples_per_second": 37.76,
+      "eval_spearman_cosine": 0.7767828328865971,
+      "eval_spearman_dot": 0.6102486537359278,
+      "eval_spearman_euclidean": 0.764536418480009,
+      "eval_spearman_manhattan": 0.7641318665907693,
+      "eval_steps_per_second": 37.76,
+      "step": 9250
+    },
+    {
+      "epoch": 4.339268978444236,
+      "grad_norm": 2.462095260620117,
+      "learning_rate": 9.457591377694472e-06,
+      "loss": 0.1574,
+      "step": 9260
+    },
+    {
+      "epoch": 4.343955014058107,
+      "grad_norm": 2.8646531105041504,
+      "learning_rate": 9.457005623242738e-06,
+      "loss": 0.1447,
+      "step": 9270
+    },
+    {
+      "epoch": 4.348641049671977,
+      "grad_norm": 2.456422805786133,
+      "learning_rate": 9.456419868791003e-06,
+      "loss": 0.1481,
+      "step": 9280
+    },
+    {
+      "epoch": 4.353327085285848,
+      "grad_norm": 3.1123046875,
+      "learning_rate": 9.45583411433927e-06,
+      "loss": 0.1465,
+      "step": 9290
+    },
+    {
+      "epoch": 4.358013120899718,
+      "grad_norm": 3.3074183464050293,
+      "learning_rate": 9.455248359887535e-06,
+      "loss": 0.1642,
+      "step": 9300
+    },
+    {
+      "epoch": 4.36269915651359,
+      "grad_norm": 1.6989983320236206,
+      "learning_rate": 9.454662605435802e-06,
+      "loss": 0.1282,
+      "step": 9310
+    },
+    {
+      "epoch": 4.36738519212746,
+      "grad_norm": 1.7987381219863892,
+      "learning_rate": 9.454076850984069e-06,
+      "loss": 0.1456,
+      "step": 9320
+    },
+    {
+      "epoch": 4.372071227741331,
+      "grad_norm": 1.6666337251663208,
+      "learning_rate": 9.453491096532334e-06,
+      "loss": 0.1618,
+      "step": 9330
+    },
+    {
+      "epoch": 4.376757263355201,
+      "grad_norm": 2.1631813049316406,
+      "learning_rate": 9.452905342080601e-06,
+      "loss": 0.142,
+      "step": 9340
+    },
+    {
+      "epoch": 4.381443298969073,
+      "grad_norm": 2.5329623222351074,
+      "learning_rate": 9.452319587628866e-06,
+      "loss": 0.1436,
+      "step": 9350
+    },
+    {
+      "epoch": 4.386129334582943,
+      "grad_norm": 1.9239972829818726,
+      "learning_rate": 9.451733833177133e-06,
+      "loss": 0.1361,
+      "step": 9360
+    },
+    {
+      "epoch": 4.390815370196814,
+      "grad_norm": 2.091343641281128,
+      "learning_rate": 9.4511480787254e-06,
+      "loss": 0.1525,
+      "step": 9370
+    },
+    {
+      "epoch": 4.395501405810684,
+      "grad_norm": 2.544008255004883,
+      "learning_rate": 9.450562324273665e-06,
+      "loss": 0.1454,
+      "step": 9380
+    },
+    {
+      "epoch": 4.4001874414245545,
+      "grad_norm": 2.5722694396972656,
+      "learning_rate": 9.449976569821932e-06,
+      "loss": 0.1619,
+      "step": 9390
+    },
+    {
+      "epoch": 4.404873477038425,
+      "grad_norm": 2.6824848651885986,
+      "learning_rate": 9.449390815370197e-06,
+      "loss": 0.1529,
+      "step": 9400
+    },
+    {
+      "epoch": 4.409559512652296,
+      "grad_norm": 2.406972885131836,
+      "learning_rate": 9.448805060918463e-06,
+      "loss": 0.153,
+      "step": 9410
+    },
+    {
+      "epoch": 4.414245548266167,
+      "grad_norm": 2.7198727130889893,
+      "learning_rate": 9.448219306466731e-06,
+      "loss": 0.1657,
+      "step": 9420
+    },
+    {
+      "epoch": 4.418931583880037,
+      "grad_norm": 2.511366844177246,
+      "learning_rate": 9.447633552014996e-06,
+      "loss": 0.1409,
+      "step": 9430
+    },
+    {
+      "epoch": 4.423617619493908,
+      "grad_norm": 2.4278454780578613,
+      "learning_rate": 9.447047797563262e-06,
+      "loss": 0.1392,
+      "step": 9440
+    },
+    {
+      "epoch": 4.428303655107779,
+      "grad_norm": 3.2954795360565186,
+      "learning_rate": 9.446462043111529e-06,
+      "loss": 0.142,
+      "step": 9450
+    },
+    {
+      "epoch": 4.43298969072165,
+      "grad_norm": 2.079050302505493,
+      "learning_rate": 9.445876288659794e-06,
+      "loss": 0.1444,
+      "step": 9460
+    },
+    {
+      "epoch": 4.43767572633552,
+      "grad_norm": 2.284108877182007,
+      "learning_rate": 9.44529053420806e-06,
+      "loss": 0.1549,
+      "step": 9470
+    },
+    {
+      "epoch": 4.442361761949391,
+      "grad_norm": 1.7953790426254272,
+      "learning_rate": 9.444704779756328e-06,
+      "loss": 0.1632,
+      "step": 9480
+    },
+    {
+      "epoch": 4.447047797563261,
+      "grad_norm": 2.6434693336486816,
+      "learning_rate": 9.444119025304593e-06,
+      "loss": 0.1453,
+      "step": 9490
+    },
+    {
+      "epoch": 4.451733833177133,
+      "grad_norm": 2.6489696502685547,
+      "learning_rate": 9.44353327085286e-06,
+      "loss": 0.1577,
+      "step": 9500
+    },
+    {
+      "epoch": 4.451733833177133,
+      "eval_loss": 0.0442158505320549,
+      "eval_pearson_cosine": 0.7793668842918748,
+      "eval_pearson_dot": 0.6181762937224704,
+      "eval_pearson_euclidean": 0.7443899044656206,
+      "eval_pearson_manhattan": 0.7439473885249299,
+      "eval_runtime": 39.5492,
+      "eval_samples_per_second": 37.927,
+      "eval_spearman_cosine": 0.7823666516115477,
+      "eval_spearman_dot": 0.6290855072192552,
+      "eval_spearman_euclidean": 0.7629748815703942,
+      "eval_spearman_manhattan": 0.7626889580909112,
+      "eval_steps_per_second": 37.927,
+      "step": 9500
+    },
+    {
+      "epoch": 4.456419868791003,
+      "grad_norm": 2.769876003265381,
+      "learning_rate": 9.442947516401125e-06,
+      "loss": 0.1474,
+      "step": 9510
+    },
+    {
+      "epoch": 4.4611059044048735,
+      "grad_norm": 2.8958747386932373,
+      "learning_rate": 9.442361761949392e-06,
+      "loss": 0.1479,
+      "step": 9520
+    },
+    {
+      "epoch": 4.465791940018744,
+      "grad_norm": 3.219896078109741,
+      "learning_rate": 9.441776007497657e-06,
+      "loss": 0.1621,
+      "step": 9530
+    },
+    {
+      "epoch": 4.4704779756326145,
+      "grad_norm": 2.0421993732452393,
+      "learning_rate": 9.441190253045924e-06,
+      "loss": 0.1473,
+      "step": 9540
+    },
+    {
+      "epoch": 4.475164011246486,
+      "grad_norm": 2.189121961593628,
+      "learning_rate": 9.440604498594191e-06,
+      "loss": 0.1751,
+      "step": 9550
+    },
+    {
+      "epoch": 4.479850046860356,
+      "grad_norm": 2.7012038230895996,
+      "learning_rate": 9.440018744142456e-06,
+      "loss": 0.1598,
+      "step": 9560
+    },
+    {
+      "epoch": 4.484536082474227,
+      "grad_norm": 2.8359875679016113,
+      "learning_rate": 9.439432989690721e-06,
+      "loss": 0.1217,
+      "step": 9570
+    },
+    {
+      "epoch": 4.489222118088097,
+      "grad_norm": 2.1257011890411377,
+      "learning_rate": 9.438847235238988e-06,
+      "loss": 0.1395,
+      "step": 9580
+    },
+    {
+      "epoch": 4.493908153701968,
+      "grad_norm": 2.8070883750915527,
+      "learning_rate": 9.438261480787255e-06,
+      "loss": 0.1654,
+      "step": 9590
+    },
+    {
+      "epoch": 4.498594189315839,
+      "grad_norm": 2.672773838043213,
+      "learning_rate": 9.43767572633552e-06,
+      "loss": 0.133,
+      "step": 9600
+    },
+    {
+      "epoch": 4.50328022492971,
+      "grad_norm": 2.5079360008239746,
+      "learning_rate": 9.437089971883787e-06,
+      "loss": 0.131,
+      "step": 9610
+    },
+    {
+      "epoch": 4.50796626054358,
+      "grad_norm": 3.078028678894043,
+      "learning_rate": 9.436504217432053e-06,
+      "loss": 0.1634,
+      "step": 9620
+    },
+    {
+      "epoch": 4.512652296157451,
+      "grad_norm": 2.3852665424346924,
+      "learning_rate": 9.43591846298032e-06,
+      "loss": 0.1382,
+      "step": 9630
+    },
+    {
+      "epoch": 4.517338331771321,
+      "grad_norm": 2.917783260345459,
+      "learning_rate": 9.435332708528585e-06,
+      "loss": 0.1573,
+      "step": 9640
+    },
+    {
+      "epoch": 4.5220243673851925,
+      "grad_norm": 2.0304133892059326,
+      "learning_rate": 9.434746954076852e-06,
+      "loss": 0.1261,
+      "step": 9650
+    },
+    {
+      "epoch": 4.526710402999063,
+      "grad_norm": 2.4420013427734375,
+      "learning_rate": 9.434161199625119e-06,
+      "loss": 0.1529,
+      "step": 9660
+    },
+    {
+      "epoch": 4.5313964386129335,
+      "grad_norm": 3.5100250244140625,
+      "learning_rate": 9.433575445173384e-06,
+      "loss": 0.1415,
+      "step": 9670
+    },
+    {
+      "epoch": 4.536082474226804,
+      "grad_norm": 2.250225782394409,
+      "learning_rate": 9.43298969072165e-06,
+      "loss": 0.1389,
+      "step": 9680
+    },
+    {
+      "epoch": 4.5407685098406745,
+      "grad_norm": 2.866528272628784,
+      "learning_rate": 9.432403936269916e-06,
+      "loss": 0.1366,
+      "step": 9690
+    },
+    {
+      "epoch": 4.545454545454545,
+      "grad_norm": 2.196103096008301,
+      "learning_rate": 9.431818181818183e-06,
+      "loss": 0.139,
+      "step": 9700
+    },
+    {
+      "epoch": 4.550140581068416,
+      "grad_norm": 2.383646249771118,
+      "learning_rate": 9.43123242736645e-06,
+      "loss": 0.1503,
+      "step": 9710
+    },
+    {
+      "epoch": 4.554826616682287,
+      "grad_norm": 2.5517141819000244,
+      "learning_rate": 9.430646672914715e-06,
+      "loss": 0.1588,
+      "step": 9720
+    },
+    {
+      "epoch": 4.559512652296157,
+      "grad_norm": 2.985891103744507,
+      "learning_rate": 9.43006091846298e-06,
+      "loss": 0.1476,
+      "step": 9730
+    },
+    {
+      "epoch": 4.564198687910028,
+      "grad_norm": 2.9456253051757812,
+      "learning_rate": 9.429475164011247e-06,
+      "loss": 0.1698,
+      "step": 9740
+    },
+    {
+      "epoch": 4.568884723523899,
+      "grad_norm": 2.052727699279785,
+      "learning_rate": 9.428889409559512e-06,
+      "loss": 0.1463,
+      "step": 9750
+    },
+    {
+      "epoch": 4.568884723523899,
+      "eval_loss": 0.0455799400806427,
+      "eval_pearson_cosine": 0.7764385842406938,
+      "eval_pearson_dot": 0.5941173098885884,
+      "eval_pearson_euclidean": 0.7405048981360327,
+      "eval_pearson_manhattan": 0.740129834669768,
+      "eval_runtime": 40.4889,
+      "eval_samples_per_second": 37.047,
+      "eval_spearman_cosine": 0.782117792198136,
+      "eval_spearman_dot": 0.599132023248896,
+      "eval_spearman_euclidean": 0.7603847963092804,
+      "eval_spearman_manhattan": 0.7601623940158222,
+      "eval_steps_per_second": 37.047,
+      "step": 9750
+    },
+    {
+      "epoch": 4.57357075913777,
+      "grad_norm": 2.1978442668914795,
+      "learning_rate": 9.42830365510778e-06,
+      "loss": 0.1537,
+      "step": 9760
+    },
+    {
+      "epoch": 4.57825679475164,
+      "grad_norm": 2.976311206817627,
+      "learning_rate": 9.427717900656046e-06,
+      "loss": 0.1506,
+      "step": 9770
+    },
+    {
+      "epoch": 4.582942830365511,
+      "grad_norm": 1.1756877899169922,
+      "learning_rate": 9.427132146204311e-06,
+      "loss": 0.127,
+      "step": 9780
+    },
+    {
+      "epoch": 4.587628865979381,
+      "grad_norm": 2.0622363090515137,
+      "learning_rate": 9.426546391752578e-06,
+      "loss": 0.1508,
+      "step": 9790
+    },
+    {
+      "epoch": 4.592314901593252,
+      "grad_norm": 2.6205925941467285,
+      "learning_rate": 9.425960637300844e-06,
+      "loss": 0.142,
+      "step": 9800
+    },
+    {
+      "epoch": 4.597000937207123,
+      "grad_norm": 1.8698289394378662,
+      "learning_rate": 9.42537488284911e-06,
+      "loss": 0.1375,
+      "step": 9810
+    },
+    {
+      "epoch": 4.6016869728209935,
+      "grad_norm": 1.9030426740646362,
+      "learning_rate": 9.424789128397377e-06,
+      "loss": 0.1626,
+      "step": 9820
+    },
+    {
+      "epoch": 4.606373008434864,
+      "grad_norm": 2.2842605113983154,
+      "learning_rate": 9.424203373945643e-06,
+      "loss": 0.1518,
+      "step": 9830
+    },
+    {
+      "epoch": 4.6110590440487345,
+      "grad_norm": 1.5332591533660889,
+      "learning_rate": 9.42361761949391e-06,
+      "loss": 0.1612,
+      "step": 9840
+    },
+    {
+      "epoch": 4.615745079662606,
+      "grad_norm": 2.012329339981079,
+      "learning_rate": 9.423031865042175e-06,
+      "loss": 0.159,
+      "step": 9850
+    },
+    {
+      "epoch": 4.620431115276476,
+      "grad_norm": 1.955610752105713,
+      "learning_rate": 9.42244611059044e-06,
+      "loss": 0.1672,
+      "step": 9860
+    },
+    {
+      "epoch": 4.625117150890347,
+      "grad_norm": 2.124481439590454,
+      "learning_rate": 9.421860356138709e-06,
+      "loss": 0.1325,
+      "step": 9870
+    },
+    {
+      "epoch": 4.629803186504217,
+      "grad_norm": 2.279585599899292,
+      "learning_rate": 9.421274601686974e-06,
+      "loss": 0.1611,
+      "step": 9880
+    },
+    {
+      "epoch": 4.634489222118088,
+      "grad_norm": 1.9664572477340698,
+      "learning_rate": 9.420688847235239e-06,
+      "loss": 0.1299,
+      "step": 9890
+    },
+    {
+      "epoch": 4.639175257731958,
+      "grad_norm": 2.385551691055298,
+      "learning_rate": 9.420103092783506e-06,
+      "loss": 0.1631,
+      "step": 9900
+    },
+    {
+      "epoch": 4.64386129334583,
+      "grad_norm": 1.469383955001831,
+      "learning_rate": 9.419517338331771e-06,
+      "loss": 0.1205,
+      "step": 9910
+    },
+    {
+      "epoch": 4.6485473289597,
+      "grad_norm": 2.6736183166503906,
+      "learning_rate": 9.418931583880038e-06,
+      "loss": 0.1675,
+      "step": 9920
+    },
+    {
+      "epoch": 4.653233364573571,
+      "grad_norm": 3.122366189956665,
+      "learning_rate": 9.418345829428305e-06,
+      "loss": 0.135,
+      "step": 9930
+    },
+    {
+      "epoch": 4.657919400187441,
+      "grad_norm": 2.8057267665863037,
+      "learning_rate": 9.41776007497657e-06,
+      "loss": 0.1318,
+      "step": 9940
+    },
+    {
+      "epoch": 4.6626054358013125,
+      "grad_norm": 3.2085843086242676,
+      "learning_rate": 9.417174320524837e-06,
+      "loss": 0.163,
+      "step": 9950
+    },
+    {
+      "epoch": 4.667291471415183,
+      "grad_norm": 3.1496477127075195,
+      "learning_rate": 9.416588566073102e-06,
+      "loss": 0.1655,
+      "step": 9960
+    },
+    {
+      "epoch": 4.6719775070290535,
+      "grad_norm": 2.3873279094696045,
+      "learning_rate": 9.41600281162137e-06,
+      "loss": 0.1381,
+      "step": 9970
+    },
+    {
+      "epoch": 4.676663542642924,
+      "grad_norm": 2.0492842197418213,
+      "learning_rate": 9.415417057169636e-06,
+      "loss": 0.1462,
+      "step": 9980
+    },
+    {
+      "epoch": 4.681349578256794,
+      "grad_norm": 3.0173768997192383,
+      "learning_rate": 9.414831302717901e-06,
+      "loss": 0.1711,
+      "step": 9990
+    },
+    {
+      "epoch": 4.686035613870665,
+      "grad_norm": 2.1712629795074463,
+      "learning_rate": 9.414245548266168e-06,
+      "loss": 0.16,
+      "step": 10000
+    },
+    {
+      "epoch": 4.686035613870665,
+      "eval_loss": 0.0459674596786499,
+      "eval_pearson_cosine": 0.7749308103807095,
+      "eval_pearson_dot": 0.6140435552912393,
+      "eval_pearson_euclidean": 0.7497870505171651,
+      "eval_pearson_manhattan": 0.7494772460672863,
+      "eval_runtime": 40.3087,
+      "eval_samples_per_second": 37.213,
+      "eval_spearman_cosine": 0.7793432902242333,
+      "eval_spearman_dot": 0.6191753058355182,
+      "eval_spearman_euclidean": 0.7659596686028919,
+      "eval_spearman_manhattan": 0.7658321542772971,
+      "eval_steps_per_second": 37.213,
+      "step": 10000
     }
   ],
   "logging_steps": 10,