Training in progress, step 20000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5fd5c90298fb3b8e4b3bfc5252ca67d39257c11142359692b801557f737b7e42
 size 613004648

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a99077961d0a641c5ff38bc41aeb0e96f4e0aa881e97473db5564c741bb8ca1
 size 613004648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3dde98893d5f526a3fd3a3e2c8cc5d0c5ec7ef3827d46a4ac82be414c5ffde16
 size 1226096954

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b633f36fabb5fb014eb719663342186c16c8ad074853b96d787c85ceecedc06
 size 1226096954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a62b565b93cfaa85c1ff8e14ede1dbb6d31acf0d0ff726cbda86bec73b0dea2e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc17503afa3bf0eafca6b72efbe6ae8cb454a3c16da90f560f71f4af87c7a4e4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ad567ab1c91260dc0b589aab08ed3b669be820ef88836c60f94ca1975b277c3
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:f38d69aa9147d77e04cfc7d1c0433054c65fed5f88ad2cafb308669398f46b3f
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.903467666354265,
   "eval_steps": 250,
-  "global_step": 19000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -14523,6 +14523,770 @@
       "eval_spearman_manhattan": 0.7432616809242956,
       "eval_steps_per_second": 36.716,
       "step": 19000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.372071227741332,
   "eval_steps": 250,
+  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7432616809242956,
       "eval_steps_per_second": 36.716,
       "step": 19000
+    },
+    {
+      "epoch": 8.908153701968136,
+      "grad_norm": 1.1705414056777954,
+      "learning_rate": 8.886480787253984e-06,
+      "loss": 0.0549,
+      "step": 19010
+    },
+    {
+      "epoch": 8.912839737582006,
+      "grad_norm": 2.2512776851654053,
+      "learning_rate": 8.885895032802249e-06,
+      "loss": 0.0715,
+      "step": 19020
+    },
+    {
+      "epoch": 8.917525773195877,
+      "grad_norm": 1.7541801929473877,
+      "learning_rate": 8.885309278350516e-06,
+      "loss": 0.0657,
+      "step": 19030
+    },
+    {
+      "epoch": 8.922211808809747,
+      "grad_norm": 1.3972922563552856,
+      "learning_rate": 8.884723523898783e-06,
+      "loss": 0.0516,
+      "step": 19040
+    },
+    {
+      "epoch": 8.926897844423618,
+      "grad_norm": 0.9502004384994507,
+      "learning_rate": 8.884137769447048e-06,
+      "loss": 0.0664,
+      "step": 19050
+    },
+    {
+      "epoch": 8.931583880037488,
+      "grad_norm": 2.1048943996429443,
+      "learning_rate": 8.883552014995315e-06,
+      "loss": 0.0668,
+      "step": 19060
+    },
+    {
+      "epoch": 8.936269915651359,
+      "grad_norm": 2.441774368286133,
+      "learning_rate": 8.88296626054358e-06,
+      "loss": 0.0681,
+      "step": 19070
+    },
+    {
+      "epoch": 8.940955951265229,
+      "grad_norm": 1.6815327405929565,
+      "learning_rate": 8.882380506091847e-06,
+      "loss": 0.0583,
+      "step": 19080
+    },
+    {
+      "epoch": 8.9456419868791,
+      "grad_norm": 2.0613820552825928,
+      "learning_rate": 8.881794751640114e-06,
+      "loss": 0.0605,
+      "step": 19090
+    },
+    {
+      "epoch": 8.950328022492972,
+      "grad_norm": 2.164487838745117,
+      "learning_rate": 8.88120899718838e-06,
+      "loss": 0.0749,
+      "step": 19100
+    },
+    {
+      "epoch": 8.955014058106842,
+      "grad_norm": 1.838508129119873,
+      "learning_rate": 8.880623242736646e-06,
+      "loss": 0.0588,
+      "step": 19110
+    },
+    {
+      "epoch": 8.959700093720713,
+      "grad_norm": 2.338103771209717,
+      "learning_rate": 8.880037488284912e-06,
+      "loss": 0.06,
+      "step": 19120
+    },
+    {
+      "epoch": 8.964386129334583,
+      "grad_norm": 1.5945453643798828,
+      "learning_rate": 8.879451733833177e-06,
+      "loss": 0.062,
+      "step": 19130
+    },
+    {
+      "epoch": 8.969072164948454,
+      "grad_norm": 1.4666954278945923,
+      "learning_rate": 8.878865979381444e-06,
+      "loss": 0.0593,
+      "step": 19140
+    },
+    {
+      "epoch": 8.973758200562324,
+      "grad_norm": 2.2944576740264893,
+      "learning_rate": 8.87828022492971e-06,
+      "loss": 0.0621,
+      "step": 19150
+    },
+    {
+      "epoch": 8.978444236176195,
+      "grad_norm": 1.8283967971801758,
+      "learning_rate": 8.877694470477976e-06,
+      "loss": 0.0646,
+      "step": 19160
+    },
+    {
+      "epoch": 8.983130271790065,
+      "grad_norm": 1.3863099813461304,
+      "learning_rate": 8.877108716026243e-06,
+      "loss": 0.0524,
+      "step": 19170
+    },
+    {
+      "epoch": 8.987816307403936,
+      "grad_norm": 2.2185399532318115,
+      "learning_rate": 8.876522961574508e-06,
+      "loss": 0.0741,
+      "step": 19180
+    },
+    {
+      "epoch": 8.992502343017806,
+      "grad_norm": 1.0174760818481445,
+      "learning_rate": 8.875937207122775e-06,
+      "loss": 0.0613,
+      "step": 19190
+    },
+    {
+      "epoch": 8.997188378631678,
+      "grad_norm": 2.3824729919433594,
+      "learning_rate": 8.87535145267104e-06,
+      "loss": 0.0588,
+      "step": 19200
+    },
+    {
+      "epoch": 9.001874414245549,
+      "grad_norm": 0.5327388048171997,
+      "learning_rate": 8.874765698219307e-06,
+      "loss": 0.0531,
+      "step": 19210
+    },
+    {
+      "epoch": 9.00656044985942,
+      "grad_norm": 1.4109519720077515,
+      "learning_rate": 8.874179943767574e-06,
+      "loss": 0.0435,
+      "step": 19220
+    },
+    {
+      "epoch": 9.01124648547329,
+      "grad_norm": 1.2190899848937988,
+      "learning_rate": 8.873594189315839e-06,
+      "loss": 0.0499,
+      "step": 19230
+    },
+    {
+      "epoch": 9.01593252108716,
+      "grad_norm": 1.7541508674621582,
+      "learning_rate": 8.873008434864106e-06,
+      "loss": 0.046,
+      "step": 19240
+    },
+    {
+      "epoch": 9.02061855670103,
+      "grad_norm": 0.7862921953201294,
+      "learning_rate": 8.872422680412371e-06,
+      "loss": 0.0436,
+      "step": 19250
+    },
+    {
+      "epoch": 9.02061855670103,
+      "eval_loss": 0.03772435337305069,
+      "eval_pearson_cosine": 0.7855273741960076,
+      "eval_pearson_dot": 0.6489285063428554,
+      "eval_pearson_euclidean": 0.7292628651619779,
+      "eval_pearson_manhattan": 0.728854161244513,
+      "eval_runtime": 39.9971,
+      "eval_samples_per_second": 37.503,
+      "eval_spearman_cosine": 0.7855635384218336,
+      "eval_spearman_dot": 0.6695729920402427,
+      "eval_spearman_euclidean": 0.7464551903137364,
+      "eval_spearman_manhattan": 0.7461578348935499,
+      "eval_steps_per_second": 37.503,
+      "step": 19250
+    },
+    {
+      "epoch": 9.025304592314901,
+      "grad_norm": 1.5160027742385864,
+      "learning_rate": 8.871836925960638e-06,
+      "loss": 0.0402,
+      "step": 19260
+    },
+    {
+      "epoch": 9.029990627928772,
+      "grad_norm": 0.9218592047691345,
+      "learning_rate": 8.871251171508905e-06,
+      "loss": 0.0548,
+      "step": 19270
+    },
+    {
+      "epoch": 9.034676663542642,
+      "grad_norm": 1.078574299812317,
+      "learning_rate": 8.87066541705717e-06,
+      "loss": 0.0501,
+      "step": 19280
+    },
+    {
+      "epoch": 9.039362699156513,
+      "grad_norm": 1.2724040746688843,
+      "learning_rate": 8.870079662605436e-06,
+      "loss": 0.0455,
+      "step": 19290
+    },
+    {
+      "epoch": 9.044048734770385,
+      "grad_norm": 1.7886642217636108,
+      "learning_rate": 8.869493908153702e-06,
+      "loss": 0.0483,
+      "step": 19300
+    },
+    {
+      "epoch": 9.048734770384256,
+      "grad_norm": 2.028181552886963,
+      "learning_rate": 8.868908153701968e-06,
+      "loss": 0.0453,
+      "step": 19310
+    },
+    {
+      "epoch": 9.053420805998126,
+      "grad_norm": 1.9034656286239624,
+      "learning_rate": 8.868322399250235e-06,
+      "loss": 0.049,
+      "step": 19320
+    },
+    {
+      "epoch": 9.058106841611997,
+      "grad_norm": 1.34951651096344,
+      "learning_rate": 8.867736644798502e-06,
+      "loss": 0.0486,
+      "step": 19330
+    },
+    {
+      "epoch": 9.062792877225867,
+      "grad_norm": 2.447568655014038,
+      "learning_rate": 8.867150890346767e-06,
+      "loss": 0.0464,
+      "step": 19340
+    },
+    {
+      "epoch": 9.067478912839738,
+      "grad_norm": 0.8183003664016724,
+      "learning_rate": 8.866565135895034e-06,
+      "loss": 0.0469,
+      "step": 19350
+    },
+    {
+      "epoch": 9.072164948453608,
+      "grad_norm": 1.3520687818527222,
+      "learning_rate": 8.865979381443299e-06,
+      "loss": 0.052,
+      "step": 19360
+    },
+    {
+      "epoch": 9.076850984067478,
+      "grad_norm": 1.827717900276184,
+      "learning_rate": 8.865393626991566e-06,
+      "loss": 0.052,
+      "step": 19370
+    },
+    {
+      "epoch": 9.081537019681349,
+      "grad_norm": 1.5364701747894287,
+      "learning_rate": 8.864807872539833e-06,
+      "loss": 0.0522,
+      "step": 19380
+    },
+    {
+      "epoch": 9.08622305529522,
+      "grad_norm": 1.0967464447021484,
+      "learning_rate": 8.864222118088098e-06,
+      "loss": 0.0546,
+      "step": 19390
+    },
+    {
+      "epoch": 9.090909090909092,
+      "grad_norm": 1.141569972038269,
+      "learning_rate": 8.863636363636365e-06,
+      "loss": 0.054,
+      "step": 19400
+    },
+    {
+      "epoch": 9.095595126522962,
+      "grad_norm": 1.025898814201355,
+      "learning_rate": 8.86305060918463e-06,
+      "loss": 0.0549,
+      "step": 19410
+    },
+    {
+      "epoch": 9.100281162136833,
+      "grad_norm": 0.9598554968833923,
+      "learning_rate": 8.862464854732897e-06,
+      "loss": 0.0562,
+      "step": 19420
+    },
+    {
+      "epoch": 9.104967197750703,
+      "grad_norm": 1.6386889219284058,
+      "learning_rate": 8.861879100281164e-06,
+      "loss": 0.0447,
+      "step": 19430
+    },
+    {
+      "epoch": 9.109653233364574,
+      "grad_norm": 1.3437844514846802,
+      "learning_rate": 8.861293345829429e-06,
+      "loss": 0.0545,
+      "step": 19440
+    },
+    {
+      "epoch": 9.114339268978444,
+      "grad_norm": 0.9290686249732971,
+      "learning_rate": 8.860707591377694e-06,
+      "loss": 0.0472,
+      "step": 19450
+    },
+    {
+      "epoch": 9.119025304592315,
+      "grad_norm": 1.5257052183151245,
+      "learning_rate": 8.860121836925961e-06,
+      "loss": 0.0499,
+      "step": 19460
+    },
+    {
+      "epoch": 9.123711340206185,
+      "grad_norm": 1.8884594440460205,
+      "learning_rate": 8.859536082474226e-06,
+      "loss": 0.0607,
+      "step": 19470
+    },
+    {
+      "epoch": 9.128397375820056,
+      "grad_norm": 1.6822651624679565,
+      "learning_rate": 8.858950328022493e-06,
+      "loss": 0.0504,
+      "step": 19480
+    },
+    {
+      "epoch": 9.133083411433926,
+      "grad_norm": 1.626015067100525,
+      "learning_rate": 8.85836457357076e-06,
+      "loss": 0.0516,
+      "step": 19490
+    },
+    {
+      "epoch": 9.137769447047798,
+      "grad_norm": 1.1759178638458252,
+      "learning_rate": 8.857778819119026e-06,
+      "loss": 0.047,
+      "step": 19500
+    },
+    {
+      "epoch": 9.137769447047798,
+      "eval_loss": 0.03765318915247917,
+      "eval_pearson_cosine": 0.7869684109175026,
+      "eval_pearson_dot": 0.6458746869453549,
+      "eval_pearson_euclidean": 0.7253508328002916,
+      "eval_pearson_manhattan": 0.7249120216278655,
+      "eval_runtime": 39.8108,
+      "eval_samples_per_second": 37.678,
+      "eval_spearman_cosine": 0.7881589626771033,
+      "eval_spearman_dot": 0.6693627499015223,
+      "eval_spearman_euclidean": 0.7413480639045013,
+      "eval_spearman_manhattan": 0.7414303112939764,
+      "eval_steps_per_second": 37.678,
+      "step": 19500
+    },
+    {
+      "epoch": 9.142455482661669,
+      "grad_norm": 1.134598731994629,
+      "learning_rate": 8.857193064667292e-06,
+      "loss": 0.0531,
+      "step": 19510
+    },
+    {
+      "epoch": 9.14714151827554,
+      "grad_norm": 1.447082757949829,
+      "learning_rate": 8.856607310215558e-06,
+      "loss": 0.0531,
+      "step": 19520
+    },
+    {
+      "epoch": 9.15182755388941,
+      "grad_norm": 1.004354476928711,
+      "learning_rate": 8.856021555763825e-06,
+      "loss": 0.0511,
+      "step": 19530
+    },
+    {
+      "epoch": 9.15651358950328,
+      "grad_norm": 1.6353479623794556,
+      "learning_rate": 8.855435801312092e-06,
+      "loss": 0.0467,
+      "step": 19540
+    },
+    {
+      "epoch": 9.16119962511715,
+      "grad_norm": 1.8899836540222168,
+      "learning_rate": 8.854850046860357e-06,
+      "loss": 0.0582,
+      "step": 19550
+    },
+    {
+      "epoch": 9.165885660731021,
+      "grad_norm": 1.306091070175171,
+      "learning_rate": 8.854264292408624e-06,
+      "loss": 0.0571,
+      "step": 19560
+    },
+    {
+      "epoch": 9.170571696344892,
+      "grad_norm": 1.7783139944076538,
+      "learning_rate": 8.853678537956889e-06,
+      "loss": 0.0543,
+      "step": 19570
+    },
+    {
+      "epoch": 9.175257731958762,
+      "grad_norm": 1.1551589965820312,
+      "learning_rate": 8.853092783505156e-06,
+      "loss": 0.0626,
+      "step": 19580
+    },
+    {
+      "epoch": 9.179943767572633,
+      "grad_norm": 0.8448215126991272,
+      "learning_rate": 8.852507029053423e-06,
+      "loss": 0.0509,
+      "step": 19590
+    },
+    {
+      "epoch": 9.184629803186505,
+      "grad_norm": 1.3088339567184448,
+      "learning_rate": 8.851921274601688e-06,
+      "loss": 0.0532,
+      "step": 19600
+    },
+    {
+      "epoch": 9.189315838800376,
+      "grad_norm": 1.2790261507034302,
+      "learning_rate": 8.851335520149953e-06,
+      "loss": 0.0366,
+      "step": 19610
+    },
+    {
+      "epoch": 9.194001874414246,
+      "grad_norm": 1.4637041091918945,
+      "learning_rate": 8.85074976569822e-06,
+      "loss": 0.0476,
+      "step": 19620
+    },
+    {
+      "epoch": 9.198687910028116,
+      "grad_norm": 1.1702561378479004,
+      "learning_rate": 8.850164011246485e-06,
+      "loss": 0.0539,
+      "step": 19630
+    },
+    {
+      "epoch": 9.203373945641987,
+      "grad_norm": 1.4241745471954346,
+      "learning_rate": 8.849578256794752e-06,
+      "loss": 0.0488,
+      "step": 19640
+    },
+    {
+      "epoch": 9.208059981255857,
+      "grad_norm": 1.3767116069793701,
+      "learning_rate": 8.848992502343019e-06,
+      "loss": 0.0501,
+      "step": 19650
+    },
+    {
+      "epoch": 9.212746016869728,
+      "grad_norm": 0.946832001209259,
+      "learning_rate": 8.848406747891284e-06,
+      "loss": 0.0509,
+      "step": 19660
+    },
+    {
+      "epoch": 9.217432052483598,
+      "grad_norm": 2.132277011871338,
+      "learning_rate": 8.847820993439551e-06,
+      "loss": 0.0517,
+      "step": 19670
+    },
+    {
+      "epoch": 9.222118088097469,
+      "grad_norm": 3.003037929534912,
+      "learning_rate": 8.847235238987816e-06,
+      "loss": 0.0601,
+      "step": 19680
+    },
+    {
+      "epoch": 9.22680412371134,
+      "grad_norm": 0.8297474384307861,
+      "learning_rate": 8.846649484536083e-06,
+      "loss": 0.0381,
+      "step": 19690
+    },
+    {
+      "epoch": 9.231490159325212,
+      "grad_norm": 0.8142613768577576,
+      "learning_rate": 8.846063730084349e-06,
+      "loss": 0.0528,
+      "step": 19700
+    },
+    {
+      "epoch": 9.236176194939082,
+      "grad_norm": 1.9133763313293457,
+      "learning_rate": 8.845477975632616e-06,
+      "loss": 0.0536,
+      "step": 19710
+    },
+    {
+      "epoch": 9.240862230552953,
+      "grad_norm": 1.1931358575820923,
+      "learning_rate": 8.844892221180882e-06,
+      "loss": 0.0558,
+      "step": 19720
+    },
+    {
+      "epoch": 9.245548266166823,
+      "grad_norm": 2.3464787006378174,
+      "learning_rate": 8.844306466729148e-06,
+      "loss": 0.0505,
+      "step": 19730
+    },
+    {
+      "epoch": 9.250234301780694,
+      "grad_norm": 1.3109287023544312,
+      "learning_rate": 8.843720712277415e-06,
+      "loss": 0.0582,
+      "step": 19740
+    },
+    {
+      "epoch": 9.254920337394564,
+      "grad_norm": 1.866816520690918,
+      "learning_rate": 8.84313495782568e-06,
+      "loss": 0.0482,
+      "step": 19750
+    },
+    {
+      "epoch": 9.254920337394564,
+      "eval_loss": 0.03766845539212227,
+      "eval_pearson_cosine": 0.786280047827276,
+      "eval_pearson_dot": 0.6498320134943469,
+      "eval_pearson_euclidean": 0.7306029375409793,
+      "eval_pearson_manhattan": 0.7296493603800656,
+      "eval_runtime": 40.2507,
+      "eval_samples_per_second": 37.266,
+      "eval_spearman_cosine": 0.7871053277749581,
+      "eval_spearman_dot": 0.6689992229589644,
+      "eval_spearman_euclidean": 0.7449412319412662,
+      "eval_spearman_manhattan": 0.7442196282250385,
+      "eval_steps_per_second": 37.266,
+      "step": 19750
+    },
+    {
+      "epoch": 9.259606373008435,
+      "grad_norm": 1.386021614074707,
+      "learning_rate": 8.842549203373947e-06,
+      "loss": 0.0512,
+      "step": 19760
+    },
+    {
+      "epoch": 9.264292408622305,
+      "grad_norm": 1.7170544862747192,
+      "learning_rate": 8.841963448922212e-06,
+      "loss": 0.0567,
+      "step": 19770
+    },
+    {
+      "epoch": 9.268978444236176,
+      "grad_norm": 2.6358816623687744,
+      "learning_rate": 8.841377694470479e-06,
+      "loss": 0.0611,
+      "step": 19780
+    },
+    {
+      "epoch": 9.273664479850046,
+      "grad_norm": 1.0627405643463135,
+      "learning_rate": 8.840791940018744e-06,
+      "loss": 0.0516,
+      "step": 19790
+    },
+    {
+      "epoch": 9.278350515463918,
+      "grad_norm": 2.116197109222412,
+      "learning_rate": 8.840206185567011e-06,
+      "loss": 0.0442,
+      "step": 19800
+    },
+    {
+      "epoch": 9.283036551077789,
+      "grad_norm": 1.0570743083953857,
+      "learning_rate": 8.839620431115276e-06,
+      "loss": 0.0517,
+      "step": 19810
+    },
+    {
+      "epoch": 9.28772258669166,
+      "grad_norm": 0.9444879293441772,
+      "learning_rate": 8.839034676663543e-06,
+      "loss": 0.0427,
+      "step": 19820
+    },
+    {
+      "epoch": 9.29240862230553,
+      "grad_norm": 0.820633590221405,
+      "learning_rate": 8.83844892221181e-06,
+      "loss": 0.0505,
+      "step": 19830
+    },
+    {
+      "epoch": 9.2970946579194,
+      "grad_norm": 0.9164274334907532,
+      "learning_rate": 8.837863167760075e-06,
+      "loss": 0.0539,
+      "step": 19840
+    },
+    {
+      "epoch": 9.30178069353327,
+      "grad_norm": 1.6659798622131348,
+      "learning_rate": 8.837277413308342e-06,
+      "loss": 0.055,
+      "step": 19850
+    },
+    {
+      "epoch": 9.306466729147141,
+      "grad_norm": 1.224489450454712,
+      "learning_rate": 8.836691658856607e-06,
+      "loss": 0.0487,
+      "step": 19860
+    },
+    {
+      "epoch": 9.311152764761012,
+      "grad_norm": 1.6015446186065674,
+      "learning_rate": 8.836105904404874e-06,
+      "loss": 0.0622,
+      "step": 19870
+    },
+    {
+      "epoch": 9.315838800374882,
+      "grad_norm": 2.066589593887329,
+      "learning_rate": 8.835520149953141e-06,
+      "loss": 0.0562,
+      "step": 19880
+    },
+    {
+      "epoch": 9.320524835988753,
+      "grad_norm": 1.8341182470321655,
+      "learning_rate": 8.834934395501406e-06,
+      "loss": 0.0414,
+      "step": 19890
+    },
+    {
+      "epoch": 9.325210871602625,
+      "grad_norm": 2.1060688495635986,
+      "learning_rate": 8.834348641049673e-06,
+      "loss": 0.0423,
+      "step": 19900
+    },
+    {
+      "epoch": 9.329896907216495,
+      "grad_norm": 2.0976791381835938,
+      "learning_rate": 8.833762886597939e-06,
+      "loss": 0.0562,
+      "step": 19910
+    },
+    {
+      "epoch": 9.334582942830366,
+      "grad_norm": 1.7656900882720947,
+      "learning_rate": 8.833177132146204e-06,
+      "loss": 0.0454,
+      "step": 19920
+    },
+    {
+      "epoch": 9.339268978444236,
+      "grad_norm": 0.9391831755638123,
+      "learning_rate": 8.832591377694472e-06,
+      "loss": 0.0471,
+      "step": 19930
+    },
+    {
+      "epoch": 9.343955014058107,
+      "grad_norm": 1.8361108303070068,
+      "learning_rate": 8.832005623242738e-06,
+      "loss": 0.0521,
+      "step": 19940
+    },
+    {
+      "epoch": 9.348641049671977,
+      "grad_norm": 1.4012130498886108,
+      "learning_rate": 8.831419868791003e-06,
+      "loss": 0.0476,
+      "step": 19950
+    },
+    {
+      "epoch": 9.353327085285848,
+      "grad_norm": 1.4812968969345093,
+      "learning_rate": 8.83083411433927e-06,
+      "loss": 0.0356,
+      "step": 19960
+    },
+    {
+      "epoch": 9.358013120899718,
+      "grad_norm": 1.4447283744812012,
+      "learning_rate": 8.830248359887535e-06,
+      "loss": 0.046,
+      "step": 19970
+    },
+    {
+      "epoch": 9.362699156513589,
+      "grad_norm": 1.9198623895645142,
+      "learning_rate": 8.829662605435802e-06,
+      "loss": 0.0546,
+      "step": 19980
+    },
+    {
+      "epoch": 9.36738519212746,
+      "grad_norm": 0.8466697335243225,
+      "learning_rate": 8.829076850984069e-06,
+      "loss": 0.0481,
+      "step": 19990
+    },
+    {
+      "epoch": 9.372071227741332,
+      "grad_norm": 1.5158565044403076,
+      "learning_rate": 8.828491096532334e-06,
+      "loss": 0.0529,
+      "step": 20000
+    },
+    {
+      "epoch": 9.372071227741332,
+      "eval_loss": 0.0377335324883461,
+      "eval_pearson_cosine": 0.7872657190030239,
+      "eval_pearson_dot": 0.6489881022917316,
+      "eval_pearson_euclidean": 0.7290286852364005,
+      "eval_pearson_manhattan": 0.7285143498985862,
+      "eval_runtime": 39.7128,
+      "eval_samples_per_second": 37.771,
+      "eval_spearman_cosine": 0.7888105939241997,
+      "eval_spearman_dot": 0.6689738777456538,
+      "eval_spearman_euclidean": 0.7426040363283044,
+      "eval_spearman_manhattan": 0.742345267890976,
+      "eval_steps_per_second": 37.771,
+      "step": 20000
     }
   ],
   "logging_steps": 10,