Training in progress, step 16000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b233efdfedfad8f103bdeed119d35dcd099eba59c85ffbbf10546b2a64d3674e
 size 613004648

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2d2a0f5d2fd2db2c00ba8019c5d26c7e05ea6254b391695cc519d7dab59b225
 size 613004648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6cd415bf9e90b88d0f924f465a8f839a232fb228bedc13d8305dea0013598c0
 size 1226096954

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b5ee984e35f64350e857f17403ecda5095a0c3d2917a731f8237c213d237bae
 size 1226096954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35a846db1f952a5c57e0f96eff0e1f51f9bc69325d1c9533532221ee67d3d2cc
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2be093747f5a4a232618c3318bfffdf24560aea746cf4c11903c465c5179b6c9
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ae2d4f55a59e8b5160b468e406d78254547d58c1b3eaf0e1797452533ce3e19
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:975ed305a3fe7b4927a3b3d12f66d6b14051cd85dfe6e94defa4d7c56781b5ac
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.029053420805998,
   "eval_steps": 250,
-  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11467,6 +11467,770 @@
       "eval_spearman_manhattan": 0.7568637419859118,
       "eval_steps_per_second": 38.084,
       "step": 15000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.497656982193065,
   "eval_steps": 250,
+  "global_step": 16000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7568637419859118,
       "eval_steps_per_second": 38.084,
       "step": 15000
+    },
+    {
+      "epoch": 7.033739456419869,
+      "grad_norm": 1.905097246170044,
+      "learning_rate": 9.120782567947517e-06,
+      "loss": 0.058,
+      "step": 15010
+    },
+    {
+      "epoch": 7.038425492033739,
+      "grad_norm": 1.7693982124328613,
+      "learning_rate": 9.120196813495782e-06,
+      "loss": 0.0661,
+      "step": 15020
+    },
+    {
+      "epoch": 7.04311152764761,
+      "grad_norm": 2.130645990371704,
+      "learning_rate": 9.11961105904405e-06,
+      "loss": 0.0749,
+      "step": 15030
+    },
+    {
+      "epoch": 7.047797563261481,
+      "grad_norm": 1.778387427330017,
+      "learning_rate": 9.119025304592316e-06,
+      "loss": 0.063,
+      "step": 15040
+    },
+    {
+      "epoch": 7.052483598875352,
+      "grad_norm": 1.038841724395752,
+      "learning_rate": 9.118439550140582e-06,
+      "loss": 0.0717,
+      "step": 15050
+    },
+    {
+      "epoch": 7.057169634489222,
+      "grad_norm": 1.8356302976608276,
+      "learning_rate": 9.117853795688848e-06,
+      "loss": 0.0607,
+      "step": 15060
+    },
+    {
+      "epoch": 7.061855670103093,
+      "grad_norm": 1.5863852500915527,
+      "learning_rate": 9.117268041237114e-06,
+      "loss": 0.0609,
+      "step": 15070
+    },
+    {
+      "epoch": 7.066541705716963,
+      "grad_norm": 1.3317904472351074,
+      "learning_rate": 9.11668228678538e-06,
+      "loss": 0.0576,
+      "step": 15080
+    },
+    {
+      "epoch": 7.071227741330834,
+      "grad_norm": 2.148087978363037,
+      "learning_rate": 9.116096532333648e-06,
+      "loss": 0.0694,
+      "step": 15090
+    },
+    {
+      "epoch": 7.075913776944705,
+      "grad_norm": 1.34135901927948,
+      "learning_rate": 9.115510777881913e-06,
+      "loss": 0.063,
+      "step": 15100
+    },
+    {
+      "epoch": 7.080599812558575,
+      "grad_norm": 1.9813562631607056,
+      "learning_rate": 9.11492502343018e-06,
+      "loss": 0.0843,
+      "step": 15110
+    },
+    {
+      "epoch": 7.085285848172446,
+      "grad_norm": 1.3236151933670044,
+      "learning_rate": 9.114339268978445e-06,
+      "loss": 0.0682,
+      "step": 15120
+    },
+    {
+      "epoch": 7.089971883786316,
+      "grad_norm": 1.483312726020813,
+      "learning_rate": 9.11375351452671e-06,
+      "loss": 0.0742,
+      "step": 15130
+    },
+    {
+      "epoch": 7.094657919400188,
+      "grad_norm": 1.7315001487731934,
+      "learning_rate": 9.113167760074977e-06,
+      "loss": 0.0544,
+      "step": 15140
+    },
+    {
+      "epoch": 7.099343955014058,
+      "grad_norm": 2.530773162841797,
+      "learning_rate": 9.112582005623244e-06,
+      "loss": 0.0768,
+      "step": 15150
+    },
+    {
+      "epoch": 7.104029990627929,
+      "grad_norm": 2.089907169342041,
+      "learning_rate": 9.11199625117151e-06,
+      "loss": 0.0617,
+      "step": 15160
+    },
+    {
+      "epoch": 7.108716026241799,
+      "grad_norm": 1.7428967952728271,
+      "learning_rate": 9.111410496719776e-06,
+      "loss": 0.0763,
+      "step": 15170
+    },
+    {
+      "epoch": 7.11340206185567,
+      "grad_norm": 1.5844217538833618,
+      "learning_rate": 9.110824742268041e-06,
+      "loss": 0.0554,
+      "step": 15180
+    },
+    {
+      "epoch": 7.118088097469541,
+      "grad_norm": 1.881791353225708,
+      "learning_rate": 9.110238987816308e-06,
+      "loss": 0.0662,
+      "step": 15190
+    },
+    {
+      "epoch": 7.122774133083412,
+      "grad_norm": 1.2586263418197632,
+      "learning_rate": 9.109653233364575e-06,
+      "loss": 0.0648,
+      "step": 15200
+    },
+    {
+      "epoch": 7.127460168697282,
+      "grad_norm": 1.9210679531097412,
+      "learning_rate": 9.10906747891284e-06,
+      "loss": 0.0647,
+      "step": 15210
+    },
+    {
+      "epoch": 7.1321462043111525,
+      "grad_norm": 2.3099005222320557,
+      "learning_rate": 9.108481724461107e-06,
+      "loss": 0.0632,
+      "step": 15220
+    },
+    {
+      "epoch": 7.136832239925023,
+      "grad_norm": 2.189209222793579,
+      "learning_rate": 9.107895970009372e-06,
+      "loss": 0.0779,
+      "step": 15230
+    },
+    {
+      "epoch": 7.141518275538894,
+      "grad_norm": 1.2473788261413574,
+      "learning_rate": 9.10731021555764e-06,
+      "loss": 0.0684,
+      "step": 15240
+    },
+    {
+      "epoch": 7.146204311152765,
+      "grad_norm": 1.381177306175232,
+      "learning_rate": 9.106724461105905e-06,
+      "loss": 0.0698,
+      "step": 15250
+    },
+    {
+      "epoch": 7.146204311152765,
+      "eval_loss": 0.039560701698064804,
+      "eval_pearson_cosine": 0.7821626687438226,
+      "eval_pearson_dot": 0.6380954414398445,
+      "eval_pearson_euclidean": 0.7346215848669857,
+      "eval_pearson_manhattan": 0.7341262164749853,
+      "eval_runtime": 40.552,
+      "eval_samples_per_second": 36.99,
+      "eval_spearman_cosine": 0.7855493497996395,
+      "eval_spearman_dot": 0.6551626564215037,
+      "eval_spearman_euclidean": 0.7509105689283286,
+      "eval_spearman_manhattan": 0.7507208072274875,
+      "eval_steps_per_second": 36.99,
+      "step": 15250
+    },
+    {
+      "epoch": 7.150890346766635,
+      "grad_norm": 1.887905478477478,
+      "learning_rate": 9.106138706654172e-06,
+      "loss": 0.0744,
+      "step": 15260
+    },
+    {
+      "epoch": 7.155576382380506,
+      "grad_norm": 1.1103498935699463,
+      "learning_rate": 9.105552952202438e-06,
+      "loss": 0.0614,
+      "step": 15270
+    },
+    {
+      "epoch": 7.160262417994376,
+      "grad_norm": 1.2665252685546875,
+      "learning_rate": 9.104967197750704e-06,
+      "loss": 0.0668,
+      "step": 15280
+    },
+    {
+      "epoch": 7.164948453608248,
+      "grad_norm": 1.8980008363723755,
+      "learning_rate": 9.104381443298969e-06,
+      "loss": 0.0615,
+      "step": 15290
+    },
+    {
+      "epoch": 7.169634489222118,
+      "grad_norm": 1.789542317390442,
+      "learning_rate": 9.103795688847236e-06,
+      "loss": 0.0857,
+      "step": 15300
+    },
+    {
+      "epoch": 7.174320524835989,
+      "grad_norm": 1.84969162940979,
+      "learning_rate": 9.103209934395501e-06,
+      "loss": 0.069,
+      "step": 15310
+    },
+    {
+      "epoch": 7.179006560449859,
+      "grad_norm": 1.0945720672607422,
+      "learning_rate": 9.102624179943768e-06,
+      "loss": 0.0665,
+      "step": 15320
+    },
+    {
+      "epoch": 7.18369259606373,
+      "grad_norm": 1.3088226318359375,
+      "learning_rate": 9.102038425492035e-06,
+      "loss": 0.0747,
+      "step": 15330
+    },
+    {
+      "epoch": 7.188378631677601,
+      "grad_norm": 1.0556889772415161,
+      "learning_rate": 9.1014526710403e-06,
+      "loss": 0.0642,
+      "step": 15340
+    },
+    {
+      "epoch": 7.1930646672914715,
+      "grad_norm": 1.7667440176010132,
+      "learning_rate": 9.100866916588567e-06,
+      "loss": 0.0644,
+      "step": 15350
+    },
+    {
+      "epoch": 7.197750702905342,
+      "grad_norm": 1.3899027109146118,
+      "learning_rate": 9.100281162136832e-06,
+      "loss": 0.0712,
+      "step": 15360
+    },
+    {
+      "epoch": 7.2024367385192125,
+      "grad_norm": 1.9200291633605957,
+      "learning_rate": 9.099695407685099e-06,
+      "loss": 0.08,
+      "step": 15370
+    },
+    {
+      "epoch": 7.207122774133083,
+      "grad_norm": 2.3893768787384033,
+      "learning_rate": 9.099109653233366e-06,
+      "loss": 0.0741,
+      "step": 15380
+    },
+    {
+      "epoch": 7.211808809746954,
+      "grad_norm": 1.2158704996109009,
+      "learning_rate": 9.098523898781631e-06,
+      "loss": 0.0866,
+      "step": 15390
+    },
+    {
+      "epoch": 7.216494845360825,
+      "grad_norm": 2.252181053161621,
+      "learning_rate": 9.097938144329898e-06,
+      "loss": 0.076,
+      "step": 15400
+    },
+    {
+      "epoch": 7.221180880974695,
+      "grad_norm": 1.2606340646743774,
+      "learning_rate": 9.097352389878163e-06,
+      "loss": 0.0661,
+      "step": 15410
+    },
+    {
+      "epoch": 7.225866916588566,
+      "grad_norm": 1.1483300924301147,
+      "learning_rate": 9.096766635426429e-06,
+      "loss": 0.0776,
+      "step": 15420
+    },
+    {
+      "epoch": 7.230552952202436,
+      "grad_norm": 1.4554270505905151,
+      "learning_rate": 9.096180880974697e-06,
+      "loss": 0.0713,
+      "step": 15430
+    },
+    {
+      "epoch": 7.235238987816308,
+      "grad_norm": 1.8985337018966675,
+      "learning_rate": 9.095595126522962e-06,
+      "loss": 0.0787,
+      "step": 15440
+    },
+    {
+      "epoch": 7.239925023430178,
+      "grad_norm": 2.394465208053589,
+      "learning_rate": 9.095009372071228e-06,
+      "loss": 0.0767,
+      "step": 15450
+    },
+    {
+      "epoch": 7.244611059044049,
+      "grad_norm": 1.2314172983169556,
+      "learning_rate": 9.094423617619495e-06,
+      "loss": 0.0647,
+      "step": 15460
+    },
+    {
+      "epoch": 7.249297094657919,
+      "grad_norm": 2.137882947921753,
+      "learning_rate": 9.09383786316776e-06,
+      "loss": 0.0656,
+      "step": 15470
+    },
+    {
+      "epoch": 7.25398313027179,
+      "grad_norm": 1.7702836990356445,
+      "learning_rate": 9.093252108716027e-06,
+      "loss": 0.0576,
+      "step": 15480
+    },
+    {
+      "epoch": 7.258669165885661,
+      "grad_norm": 2.0788486003875732,
+      "learning_rate": 9.092666354264294e-06,
+      "loss": 0.0582,
+      "step": 15490
+    },
+    {
+      "epoch": 7.2633552014995315,
+      "grad_norm": 1.0218828916549683,
+      "learning_rate": 9.092080599812559e-06,
+      "loss": 0.0699,
+      "step": 15500
+    },
+    {
+      "epoch": 7.2633552014995315,
+      "eval_loss": 0.03923952579498291,
+      "eval_pearson_cosine": 0.7819686811712643,
+      "eval_pearson_dot": 0.6466329055139823,
+      "eval_pearson_euclidean": 0.732531031261928,
+      "eval_pearson_manhattan": 0.732247137892952,
+      "eval_runtime": 39.7194,
+      "eval_samples_per_second": 37.765,
+      "eval_spearman_cosine": 0.7850868672642034,
+      "eval_spearman_dot": 0.6628931528870909,
+      "eval_spearman_euclidean": 0.7501575772894145,
+      "eval_spearman_manhattan": 0.7501561306691681,
+      "eval_steps_per_second": 37.765,
+      "step": 15500
+    },
+    {
+      "epoch": 7.268041237113402,
+      "grad_norm": 0.7509507536888123,
+      "learning_rate": 9.091494845360826e-06,
+      "loss": 0.0823,
+      "step": 15510
+    },
+    {
+      "epoch": 7.2727272727272725,
+      "grad_norm": 2.109041690826416,
+      "learning_rate": 9.090909090909091e-06,
+      "loss": 0.0701,
+      "step": 15520
+    },
+    {
+      "epoch": 7.277413308341144,
+      "grad_norm": 1.6811095476150513,
+      "learning_rate": 9.090323336457358e-06,
+      "loss": 0.0726,
+      "step": 15530
+    },
+    {
+      "epoch": 7.282099343955014,
+      "grad_norm": 1.9557669162750244,
+      "learning_rate": 9.089737582005625e-06,
+      "loss": 0.0796,
+      "step": 15540
+    },
+    {
+      "epoch": 7.286785379568885,
+      "grad_norm": 1.6342480182647705,
+      "learning_rate": 9.08915182755389e-06,
+      "loss": 0.0618,
+      "step": 15550
+    },
+    {
+      "epoch": 7.291471415182755,
+      "grad_norm": 1.3443505764007568,
+      "learning_rate": 9.088566073102157e-06,
+      "loss": 0.0767,
+      "step": 15560
+    },
+    {
+      "epoch": 7.296157450796626,
+      "grad_norm": 2.0768396854400635,
+      "learning_rate": 9.087980318650422e-06,
+      "loss": 0.0699,
+      "step": 15570
+    },
+    {
+      "epoch": 7.300843486410496,
+      "grad_norm": 1.989401936531067,
+      "learning_rate": 9.087394564198687e-06,
+      "loss": 0.0706,
+      "step": 15580
+    },
+    {
+      "epoch": 7.305529522024368,
+      "grad_norm": 1.7831469774246216,
+      "learning_rate": 9.086808809746956e-06,
+      "loss": 0.0701,
+      "step": 15590
+    },
+    {
+      "epoch": 7.310215557638238,
+      "grad_norm": 2.3312692642211914,
+      "learning_rate": 9.086223055295221e-06,
+      "loss": 0.0703,
+      "step": 15600
+    },
+    {
+      "epoch": 7.314901593252109,
+      "grad_norm": 1.7669209241867065,
+      "learning_rate": 9.085637300843487e-06,
+      "loss": 0.0646,
+      "step": 15610
+    },
+    {
+      "epoch": 7.319587628865979,
+      "grad_norm": 1.880066156387329,
+      "learning_rate": 9.085051546391753e-06,
+      "loss": 0.0798,
+      "step": 15620
+    },
+    {
+      "epoch": 7.3242736644798505,
+      "grad_norm": 1.3240752220153809,
+      "learning_rate": 9.084465791940019e-06,
+      "loss": 0.0749,
+      "step": 15630
+    },
+    {
+      "epoch": 7.328959700093721,
+      "grad_norm": 1.0103267431259155,
+      "learning_rate": 9.083880037488286e-06,
+      "loss": 0.0635,
+      "step": 15640
+    },
+    {
+      "epoch": 7.3336457357075915,
+      "grad_norm": 1.4677484035491943,
+      "learning_rate": 9.083294283036552e-06,
+      "loss": 0.0705,
+      "step": 15650
+    },
+    {
+      "epoch": 7.338331771321462,
+      "grad_norm": 2.090219736099243,
+      "learning_rate": 9.082708528584818e-06,
+      "loss": 0.0693,
+      "step": 15660
+    },
+    {
+      "epoch": 7.3430178069353325,
+      "grad_norm": 2.349215030670166,
+      "learning_rate": 9.082122774133085e-06,
+      "loss": 0.0714,
+      "step": 15670
+    },
+    {
+      "epoch": 7.347703842549203,
+      "grad_norm": 0.8705586791038513,
+      "learning_rate": 9.08153701968135e-06,
+      "loss": 0.0761,
+      "step": 15680
+    },
+    {
+      "epoch": 7.352389878163074,
+      "grad_norm": 1.986405372619629,
+      "learning_rate": 9.080951265229617e-06,
+      "loss": 0.0579,
+      "step": 15690
+    },
+    {
+      "epoch": 7.357075913776945,
+      "grad_norm": 2.267803430557251,
+      "learning_rate": 9.080365510777884e-06,
+      "loss": 0.0925,
+      "step": 15700
+    },
+    {
+      "epoch": 7.361761949390815,
+      "grad_norm": 1.7816276550292969,
+      "learning_rate": 9.079779756326149e-06,
+      "loss": 0.0713,
+      "step": 15710
+    },
+    {
+      "epoch": 7.366447985004686,
+      "grad_norm": 3.1647868156433105,
+      "learning_rate": 9.079194001874416e-06,
+      "loss": 0.089,
+      "step": 15720
+    },
+    {
+      "epoch": 7.371134020618557,
+      "grad_norm": 2.082855463027954,
+      "learning_rate": 9.078608247422681e-06,
+      "loss": 0.0695,
+      "step": 15730
+    },
+    {
+      "epoch": 7.375820056232428,
+      "grad_norm": 1.4253464937210083,
+      "learning_rate": 9.078022492970946e-06,
+      "loss": 0.0681,
+      "step": 15740
+    },
+    {
+      "epoch": 7.380506091846298,
+      "grad_norm": 1.7833616733551025,
+      "learning_rate": 9.077436738519213e-06,
+      "loss": 0.0739,
+      "step": 15750
+    },
+    {
+      "epoch": 7.380506091846298,
+      "eval_loss": 0.03890243172645569,
+      "eval_pearson_cosine": 0.7865226942731169,
+      "eval_pearson_dot": 0.6411769886141485,
+      "eval_pearson_euclidean": 0.7328063007950192,
+      "eval_pearson_manhattan": 0.7322937842561661,
+      "eval_runtime": 39.8796,
+      "eval_samples_per_second": 37.613,
+      "eval_spearman_cosine": 0.7886056526857715,
+      "eval_spearman_dot": 0.6589435896491915,
+      "eval_spearman_euclidean": 0.7495362761356495,
+      "eval_spearman_manhattan": 0.7491310374131812,
+      "eval_steps_per_second": 37.613,
+      "step": 15750
+    },
+    {
+      "epoch": 7.385192127460169,
+      "grad_norm": 1.368802785873413,
+      "learning_rate": 9.07685098406748e-06,
+      "loss": 0.0634,
+      "step": 15760
+    },
+    {
+      "epoch": 7.389878163074039,
+      "grad_norm": 2.0611209869384766,
+      "learning_rate": 9.076265229615745e-06,
+      "loss": 0.0732,
+      "step": 15770
+    },
+    {
+      "epoch": 7.39456419868791,
+      "grad_norm": 1.3949185609817505,
+      "learning_rate": 9.075679475164012e-06,
+      "loss": 0.0643,
+      "step": 15780
+    },
+    {
+      "epoch": 7.399250234301781,
+      "grad_norm": 2.267596960067749,
+      "learning_rate": 9.075093720712277e-06,
+      "loss": 0.0721,
+      "step": 15790
+    },
+    {
+      "epoch": 7.4039362699156515,
+      "grad_norm": 1.2794581651687622,
+      "learning_rate": 9.074507966260544e-06,
+      "loss": 0.0718,
+      "step": 15800
+    },
+    {
+      "epoch": 7.408622305529522,
+      "grad_norm": 1.8668746948242188,
+      "learning_rate": 9.07392221180881e-06,
+      "loss": 0.0734,
+      "step": 15810
+    },
+    {
+      "epoch": 7.413308341143392,
+      "grad_norm": 2.141602039337158,
+      "learning_rate": 9.073336457357077e-06,
+      "loss": 0.0637,
+      "step": 15820
+    },
+    {
+      "epoch": 7.417994376757264,
+      "grad_norm": 1.9020168781280518,
+      "learning_rate": 9.072750702905343e-06,
+      "loss": 0.0727,
+      "step": 15830
+    },
+    {
+      "epoch": 7.422680412371134,
+      "grad_norm": 1.7302427291870117,
+      "learning_rate": 9.072164948453609e-06,
+      "loss": 0.0742,
+      "step": 15840
+    },
+    {
+      "epoch": 7.427366447985005,
+      "grad_norm": 1.6152589321136475,
+      "learning_rate": 9.071579194001876e-06,
+      "loss": 0.0764,
+      "step": 15850
+    },
+    {
+      "epoch": 7.432052483598875,
+      "grad_norm": 2.491912364959717,
+      "learning_rate": 9.07099343955014e-06,
+      "loss": 0.0746,
+      "step": 15860
+    },
+    {
+      "epoch": 7.436738519212746,
+      "grad_norm": 1.8737932443618774,
+      "learning_rate": 9.070407685098408e-06,
+      "loss": 0.0665,
+      "step": 15870
+    },
+    {
+      "epoch": 7.441424554826616,
+      "grad_norm": 2.3536882400512695,
+      "learning_rate": 9.069821930646675e-06,
+      "loss": 0.0702,
+      "step": 15880
+    },
+    {
+      "epoch": 7.446110590440488,
+      "grad_norm": 1.0954251289367676,
+      "learning_rate": 9.06923617619494e-06,
+      "loss": 0.0768,
+      "step": 15890
+    },
+    {
+      "epoch": 7.450796626054358,
+      "grad_norm": 1.973325490951538,
+      "learning_rate": 9.068650421743205e-06,
+      "loss": 0.0666,
+      "step": 15900
+    },
+    {
+      "epoch": 7.455482661668229,
+      "grad_norm": 0.6486696600914001,
+      "learning_rate": 9.068064667291472e-06,
+      "loss": 0.0813,
+      "step": 15910
+    },
+    {
+      "epoch": 7.460168697282099,
+      "grad_norm": 2.4715213775634766,
+      "learning_rate": 9.067478912839737e-06,
+      "loss": 0.0698,
+      "step": 15920
+    },
+    {
+      "epoch": 7.4648547328959705,
+      "grad_norm": 1.3833788633346558,
+      "learning_rate": 9.066893158388004e-06,
+      "loss": 0.0783,
+      "step": 15930
+    },
+    {
+      "epoch": 7.469540768509841,
+      "grad_norm": 1.5679866075515747,
+      "learning_rate": 9.066307403936271e-06,
+      "loss": 0.0675,
+      "step": 15940
+    },
+    {
+      "epoch": 7.474226804123711,
+      "grad_norm": 1.173086166381836,
+      "learning_rate": 9.065721649484536e-06,
+      "loss": 0.0705,
+      "step": 15950
+    },
+    {
+      "epoch": 7.478912839737582,
+      "grad_norm": 2.0635769367218018,
+      "learning_rate": 9.065135895032803e-06,
+      "loss": 0.0717,
+      "step": 15960
+    },
+    {
+      "epoch": 7.483598875351452,
+      "grad_norm": 2.0800647735595703,
+      "learning_rate": 9.064550140581068e-06,
+      "loss": 0.0712,
+      "step": 15970
+    },
+    {
+      "epoch": 7.488284910965323,
+      "grad_norm": 1.0860838890075684,
+      "learning_rate": 9.063964386129335e-06,
+      "loss": 0.0637,
+      "step": 15980
+    },
+    {
+      "epoch": 7.492970946579194,
+      "grad_norm": 2.794854164123535,
+      "learning_rate": 9.063378631677602e-06,
+      "loss": 0.0799,
+      "step": 15990
+    },
+    {
+      "epoch": 7.497656982193065,
+      "grad_norm": 0.8473652005195618,
+      "learning_rate": 9.062792877225867e-06,
+      "loss": 0.0745,
+      "step": 16000
+    },
+    {
+      "epoch": 7.497656982193065,
+      "eval_loss": 0.039655983448028564,
+      "eval_pearson_cosine": 0.779382095257283,
+      "eval_pearson_dot": 0.6379781011095105,
+      "eval_pearson_euclidean": 0.7372894551077778,
+      "eval_pearson_manhattan": 0.736644904985166,
+      "eval_runtime": 40.2485,
+      "eval_samples_per_second": 37.268,
+      "eval_spearman_cosine": 0.7827440097255054,
+      "eval_spearman_dot": 0.6504351353485877,
+      "eval_spearman_euclidean": 0.752448571801891,
+      "eval_spearman_manhattan": 0.7524283280152466,
+      "eval_steps_per_second": 37.268,
+      "step": 16000
     }
   ],
   "logging_steps": 10,