Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f130f0adb8d87b8bc0c4b41a9b09bd360f3e7d3ca43503ce7565fee2b353a89
 size 598434152

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8108b4c7505bf31f05a0583aabbf5fe4cfe4429dc292fc208409ab6e5fcfded
 size 598434152

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12db60090dcfa369719ae13a22a583e9466513a915f60cd6e6e01eb5f889bb42
 size 1196955962

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ee29d79e39b5eeb941ba1801f2a551f0871fde9c5f8d5db87000ea005b4bca7
 size 1196955962

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34930968d5b280d50279d60ceb15eb6a032b914d70d039815be5221872d95cb7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4728e4a27ef2a8c58f14bda178d8eac76290169f611c06f23f0154a1ac41085
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9ffbd4b94e7a724dd90cd915b34618b812fc8c45b385da20eec131ccda80166
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:f83b5db90f4185c28054d91912c7daf482661e1eee0f05c8ff078fbdacbc6754
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.46860356138706655,
   "eval_steps": 250,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -771,6 +771,770 @@
       "eval_spearman_manhattan": 0.7526380381288565,
       "eval_steps_per_second": 31.325,
       "step": 1000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9372071227741331,
   "eval_steps": 250,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7526380381288565,
       "eval_steps_per_second": 31.325,
       "step": 1000
+    },
+    {
+      "epoch": 0.4732895970009372,
+      "grad_norm": 6.391997814178467,
+      "learning_rate": 9.704194001874416e-06,
+      "loss": 0.6965,
+      "step": 1010
+    },
+    {
+      "epoch": 0.47797563261480785,
+      "grad_norm": 5.345996379852295,
+      "learning_rate": 9.701265229615747e-06,
+      "loss": 0.6447,
+      "step": 1020
+    },
+    {
+      "epoch": 0.48266166822867856,
+      "grad_norm": 5.60822057723999,
+      "learning_rate": 9.698336457357076e-06,
+      "loss": 0.6854,
+      "step": 1030
+    },
+    {
+      "epoch": 0.4873477038425492,
+      "grad_norm": 6.488014221191406,
+      "learning_rate": 9.695407685098408e-06,
+      "loss": 0.7089,
+      "step": 1040
+    },
+    {
+      "epoch": 0.49203373945641987,
+      "grad_norm": 5.387355804443359,
+      "learning_rate": 9.692478912839737e-06,
+      "loss": 0.6949,
+      "step": 1050
+    },
+    {
+      "epoch": 0.4967197750702905,
+      "grad_norm": 5.179281234741211,
+      "learning_rate": 9.689550140581068e-06,
+      "loss": 0.6571,
+      "step": 1060
+    },
+    {
+      "epoch": 0.5014058106841612,
+      "grad_norm": 5.786458492279053,
+      "learning_rate": 9.6866213683224e-06,
+      "loss": 0.7154,
+      "step": 1070
+    },
+    {
+      "epoch": 0.5060918462980318,
+      "grad_norm": 6.279985427856445,
+      "learning_rate": 9.68369259606373e-06,
+      "loss": 0.6757,
+      "step": 1080
+    },
+    {
+      "epoch": 0.5107778819119025,
+      "grad_norm": 4.793182849884033,
+      "learning_rate": 9.680763823805062e-06,
+      "loss": 0.7136,
+      "step": 1090
+    },
+    {
+      "epoch": 0.5154639175257731,
+      "grad_norm": 7.646529674530029,
+      "learning_rate": 9.677835051546393e-06,
+      "loss": 0.6396,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5201499531396439,
+      "grad_norm": 5.7034912109375,
+      "learning_rate": 9.674906279287724e-06,
+      "loss": 0.665,
+      "step": 1110
+    },
+    {
+      "epoch": 0.5248359887535146,
+      "grad_norm": 6.54317045211792,
+      "learning_rate": 9.671977507029054e-06,
+      "loss": 0.6713,
+      "step": 1120
+    },
+    {
+      "epoch": 0.5295220243673852,
+      "grad_norm": 5.6496806144714355,
+      "learning_rate": 9.669048734770385e-06,
+      "loss": 0.6876,
+      "step": 1130
+    },
+    {
+      "epoch": 0.5342080599812559,
+      "grad_norm": 5.326486110687256,
+      "learning_rate": 9.666119962511716e-06,
+      "loss": 0.6951,
+      "step": 1140
+    },
+    {
+      "epoch": 0.5388940955951266,
+      "grad_norm": 5.124545574188232,
+      "learning_rate": 9.663191190253046e-06,
+      "loss": 0.6388,
+      "step": 1150
+    },
+    {
+      "epoch": 0.5435801312089972,
+      "grad_norm": 4.34152364730835,
+      "learning_rate": 9.660262417994377e-06,
+      "loss": 0.6322,
+      "step": 1160
+    },
+    {
+      "epoch": 0.5482661668228679,
+      "grad_norm": 8.722075462341309,
+      "learning_rate": 9.657333645735708e-06,
+      "loss": 0.6776,
+      "step": 1170
+    },
+    {
+      "epoch": 0.5529522024367385,
+      "grad_norm": 5.417623996734619,
+      "learning_rate": 9.65440487347704e-06,
+      "loss": 0.6492,
+      "step": 1180
+    },
+    {
+      "epoch": 0.5576382380506092,
+      "grad_norm": 4.369041919708252,
+      "learning_rate": 9.65147610121837e-06,
+      "loss": 0.6039,
+      "step": 1190
+    },
+    {
+      "epoch": 0.5623242736644799,
+      "grad_norm": 6.5720062255859375,
+      "learning_rate": 9.648547328959702e-06,
+      "loss": 0.6911,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5670103092783505,
+      "grad_norm": 7.112950325012207,
+      "learning_rate": 9.645618556701031e-06,
+      "loss": 0.6214,
+      "step": 1210
+    },
+    {
+      "epoch": 0.5716963448922212,
+      "grad_norm": 5.643182277679443,
+      "learning_rate": 9.642689784442362e-06,
+      "loss": 0.6959,
+      "step": 1220
+    },
+    {
+      "epoch": 0.5763823805060918,
+      "grad_norm": 5.078190803527832,
+      "learning_rate": 9.639761012183694e-06,
+      "loss": 0.6633,
+      "step": 1230
+    },
+    {
+      "epoch": 0.5810684161199625,
+      "grad_norm": 5.247280120849609,
+      "learning_rate": 9.636832239925025e-06,
+      "loss": 0.6415,
+      "step": 1240
+    },
+    {
+      "epoch": 0.5857544517338332,
+      "grad_norm": 5.110747814178467,
+      "learning_rate": 9.633903467666354e-06,
+      "loss": 0.6031,
+      "step": 1250
+    },
+    {
+      "epoch": 0.5857544517338332,
+      "eval_loss": 0.06345358490943909,
+      "eval_pearson_cosine": 0.7580338914962539,
+      "eval_pearson_dot": 0.6394158052533783,
+      "eval_pearson_euclidean": 0.7521759780114508,
+      "eval_pearson_manhattan": 0.7513571158009427,
+      "eval_runtime": 44.2242,
+      "eval_samples_per_second": 33.918,
+      "eval_spearman_cosine": 0.758882658229917,
+      "eval_spearman_dot": 0.6455380162932587,
+      "eval_spearman_euclidean": 0.7604619351541958,
+      "eval_spearman_manhattan": 0.7599139087493931,
+      "eval_steps_per_second": 33.918,
+      "step": 1250
+    },
+    {
+      "epoch": 0.5904404873477038,
+      "grad_norm": 6.717201232910156,
+      "learning_rate": 9.630974695407685e-06,
+      "loss": 0.6553,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5951265229615745,
+      "grad_norm": 6.948915004730225,
+      "learning_rate": 9.628045923149017e-06,
+      "loss": 0.6528,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5998125585754451,
+      "grad_norm": 5.585124969482422,
+      "learning_rate": 9.625117150890348e-06,
+      "loss": 0.6125,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6044985941893158,
+      "grad_norm": 4.020166397094727,
+      "learning_rate": 9.622188378631679e-06,
+      "loss": 0.5857,
+      "step": 1290
+    },
+    {
+      "epoch": 0.6091846298031866,
+      "grad_norm": 4.905421257019043,
+      "learning_rate": 9.619259606373008e-06,
+      "loss": 0.6128,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6138706654170571,
+      "grad_norm": 5.642446517944336,
+      "learning_rate": 9.61633083411434e-06,
+      "loss": 0.6177,
+      "step": 1310
+    },
+    {
+      "epoch": 0.6185567010309279,
+      "grad_norm": 5.623671531677246,
+      "learning_rate": 9.613402061855671e-06,
+      "loss": 0.6076,
+      "step": 1320
+    },
+    {
+      "epoch": 0.6232427366447985,
+      "grad_norm": 3.6249349117279053,
+      "learning_rate": 9.610473289597002e-06,
+      "loss": 0.5987,
+      "step": 1330
+    },
+    {
+      "epoch": 0.6279287722586692,
+      "grad_norm": 4.7242608070373535,
+      "learning_rate": 9.607544517338333e-06,
+      "loss": 0.6082,
+      "step": 1340
+    },
+    {
+      "epoch": 0.6326148078725399,
+      "grad_norm": 9.071741104125977,
+      "learning_rate": 9.604615745079663e-06,
+      "loss": 0.6369,
+      "step": 1350
+    },
+    {
+      "epoch": 0.6373008434864105,
+      "grad_norm": 5.471718788146973,
+      "learning_rate": 9.601686972820994e-06,
+      "loss": 0.6235,
+      "step": 1360
+    },
+    {
+      "epoch": 0.6419868791002812,
+      "grad_norm": 6.0755934715271,
+      "learning_rate": 9.598758200562325e-06,
+      "loss": 0.6197,
+      "step": 1370
+    },
+    {
+      "epoch": 0.6466729147141518,
+      "grad_norm": 5.650800704956055,
+      "learning_rate": 9.595829428303656e-06,
+      "loss": 0.5947,
+      "step": 1380
+    },
+    {
+      "epoch": 0.6513589503280225,
+      "grad_norm": 4.409568786621094,
+      "learning_rate": 9.592900656044986e-06,
+      "loss": 0.6632,
+      "step": 1390
+    },
+    {
+      "epoch": 0.6560449859418932,
+      "grad_norm": 6.575608730316162,
+      "learning_rate": 9.589971883786317e-06,
+      "loss": 0.5655,
+      "step": 1400
+    },
+    {
+      "epoch": 0.6607310215557638,
+      "grad_norm": 4.897518634796143,
+      "learning_rate": 9.587043111527648e-06,
+      "loss": 0.6064,
+      "step": 1410
+    },
+    {
+      "epoch": 0.6654170571696345,
+      "grad_norm": 4.505845546722412,
+      "learning_rate": 9.58411433926898e-06,
+      "loss": 0.6217,
+      "step": 1420
+    },
+    {
+      "epoch": 0.6701030927835051,
+      "grad_norm": 11.04179573059082,
+      "learning_rate": 9.58118556701031e-06,
+      "loss": 0.626,
+      "step": 1430
+    },
+    {
+      "epoch": 0.6747891283973758,
+      "grad_norm": 7.031481742858887,
+      "learning_rate": 9.578256794751642e-06,
+      "loss": 0.6644,
+      "step": 1440
+    },
+    {
+      "epoch": 0.6794751640112465,
+      "grad_norm": 5.177082061767578,
+      "learning_rate": 9.575328022492971e-06,
+      "loss": 0.5794,
+      "step": 1450
+    },
+    {
+      "epoch": 0.6841611996251171,
+      "grad_norm": 5.830789566040039,
+      "learning_rate": 9.572399250234303e-06,
+      "loss": 0.5962,
+      "step": 1460
+    },
+    {
+      "epoch": 0.6888472352389878,
+      "grad_norm": 5.322279453277588,
+      "learning_rate": 9.569470477975634e-06,
+      "loss": 0.5528,
+      "step": 1470
+    },
+    {
+      "epoch": 0.6935332708528584,
+      "grad_norm": 5.191045761108398,
+      "learning_rate": 9.566541705716965e-06,
+      "loss": 0.602,
+      "step": 1480
+    },
+    {
+      "epoch": 0.6982193064667291,
+      "grad_norm": 4.832320213317871,
+      "learning_rate": 9.563612933458294e-06,
+      "loss": 0.5732,
+      "step": 1490
+    },
+    {
+      "epoch": 0.7029053420805998,
+      "grad_norm": 5.9457926750183105,
+      "learning_rate": 9.560684161199626e-06,
+      "loss": 0.6017,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7029053420805998,
+      "eval_loss": 0.059113115072250366,
+      "eval_pearson_cosine": 0.7675747794888963,
+      "eval_pearson_dot": 0.6475892776570333,
+      "eval_pearson_euclidean": 0.7594640382486553,
+      "eval_pearson_manhattan": 0.7585029707701096,
+      "eval_runtime": 45.7613,
+      "eval_samples_per_second": 32.779,
+      "eval_spearman_cosine": 0.768339335776319,
+      "eval_spearman_dot": 0.655445685087582,
+      "eval_spearman_euclidean": 0.7680811238488432,
+      "eval_spearman_manhattan": 0.7673055147561156,
+      "eval_steps_per_second": 32.779,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7075913776944704,
+      "grad_norm": 4.822035789489746,
+      "learning_rate": 9.557755388940957e-06,
+      "loss": 0.5891,
+      "step": 1510
+    },
+    {
+      "epoch": 0.7122774133083412,
+      "grad_norm": 7.0355753898620605,
+      "learning_rate": 9.554826616682288e-06,
+      "loss": 0.6019,
+      "step": 1520
+    },
+    {
+      "epoch": 0.7169634489222118,
+      "grad_norm": 7.064100742340088,
+      "learning_rate": 9.55189784442362e-06,
+      "loss": 0.5656,
+      "step": 1530
+    },
+    {
+      "epoch": 0.7216494845360825,
+      "grad_norm": 4.629329204559326,
+      "learning_rate": 9.54896907216495e-06,
+      "loss": 0.5839,
+      "step": 1540
+    },
+    {
+      "epoch": 0.7263355201499532,
+      "grad_norm": 5.421347141265869,
+      "learning_rate": 9.54604029990628e-06,
+      "loss": 0.5684,
+      "step": 1550
+    },
+    {
+      "epoch": 0.7310215557638238,
+      "grad_norm": 4.520521640777588,
+      "learning_rate": 9.543111527647611e-06,
+      "loss": 0.5979,
+      "step": 1560
+    },
+    {
+      "epoch": 0.7357075913776945,
+      "grad_norm": 5.172377109527588,
+      "learning_rate": 9.540182755388942e-06,
+      "loss": 0.5678,
+      "step": 1570
+    },
+    {
+      "epoch": 0.7403936269915652,
+      "grad_norm": 5.090722560882568,
+      "learning_rate": 9.537253983130272e-06,
+      "loss": 0.556,
+      "step": 1580
+    },
+    {
+      "epoch": 0.7450796626054358,
+      "grad_norm": 4.6714887619018555,
+      "learning_rate": 9.534325210871603e-06,
+      "loss": 0.564,
+      "step": 1590
+    },
+    {
+      "epoch": 0.7497656982193065,
+      "grad_norm": 4.211735248565674,
+      "learning_rate": 9.531396438612934e-06,
+      "loss": 0.617,
+      "step": 1600
+    },
+    {
+      "epoch": 0.7544517338331771,
+      "grad_norm": 4.693171501159668,
+      "learning_rate": 9.528467666354265e-06,
+      "loss": 0.5657,
+      "step": 1610
+    },
+    {
+      "epoch": 0.7591377694470478,
+      "grad_norm": 6.890966892242432,
+      "learning_rate": 9.525538894095597e-06,
+      "loss": 0.5838,
+      "step": 1620
+    },
+    {
+      "epoch": 0.7638238050609185,
+      "grad_norm": 3.5127806663513184,
+      "learning_rate": 9.522610121836928e-06,
+      "loss": 0.5669,
+      "step": 1630
+    },
+    {
+      "epoch": 0.7685098406747891,
+      "grad_norm": 4.389316082000732,
+      "learning_rate": 9.519681349578259e-06,
+      "loss": 0.5669,
+      "step": 1640
+    },
+    {
+      "epoch": 0.7731958762886598,
+      "grad_norm": 4.59335470199585,
+      "learning_rate": 9.516752577319588e-06,
+      "loss": 0.604,
+      "step": 1650
+    },
+    {
+      "epoch": 0.7778819119025304,
+      "grad_norm": 5.345147132873535,
+      "learning_rate": 9.51382380506092e-06,
+      "loss": 0.6132,
+      "step": 1660
+    },
+    {
+      "epoch": 0.7825679475164011,
+      "grad_norm": 5.133398532867432,
+      "learning_rate": 9.510895032802249e-06,
+      "loss": 0.5539,
+      "step": 1670
+    },
+    {
+      "epoch": 0.7872539831302718,
+      "grad_norm": 7.907310962677002,
+      "learning_rate": 9.50796626054358e-06,
+      "loss": 0.61,
+      "step": 1680
+    },
+    {
+      "epoch": 0.7919400187441424,
+      "grad_norm": 4.504448890686035,
+      "learning_rate": 9.505037488284911e-06,
+      "loss": 0.5851,
+      "step": 1690
+    },
+    {
+      "epoch": 0.7966260543580131,
+      "grad_norm": 4.3662028312683105,
+      "learning_rate": 9.502108716026243e-06,
+      "loss": 0.5915,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8013120899718837,
+      "grad_norm": 5.221836566925049,
+      "learning_rate": 9.499179943767574e-06,
+      "loss": 0.581,
+      "step": 1710
+    },
+    {
+      "epoch": 0.8059981255857545,
+      "grad_norm": 6.357667446136475,
+      "learning_rate": 9.496251171508905e-06,
+      "loss": 0.5937,
+      "step": 1720
+    },
+    {
+      "epoch": 0.8106841611996252,
+      "grad_norm": 6.262212753295898,
+      "learning_rate": 9.493322399250236e-06,
+      "loss": 0.606,
+      "step": 1730
+    },
+    {
+      "epoch": 0.8153701968134958,
+      "grad_norm": 4.363849639892578,
+      "learning_rate": 9.490393626991566e-06,
+      "loss": 0.5524,
+      "step": 1740
+    },
+    {
+      "epoch": 0.8200562324273665,
+      "grad_norm": 5.514476299285889,
+      "learning_rate": 9.487464854732897e-06,
+      "loss": 0.5611,
+      "step": 1750
+    },
+    {
+      "epoch": 0.8200562324273665,
+      "eval_loss": 0.05879165977239609,
+      "eval_pearson_cosine": 0.7714099892705395,
+      "eval_pearson_dot": 0.6462212772089089,
+      "eval_pearson_euclidean": 0.7641084348061273,
+      "eval_pearson_manhattan": 0.7629885828620147,
+      "eval_runtime": 43.6421,
+      "eval_samples_per_second": 34.37,
+      "eval_spearman_cosine": 0.7720168259371313,
+      "eval_spearman_dot": 0.6536245076677092,
+      "eval_spearman_euclidean": 0.7726348092699838,
+      "eval_spearman_manhattan": 0.7716062900578692,
+      "eval_steps_per_second": 34.37,
+      "step": 1750
+    },
+    {
+      "epoch": 0.8247422680412371,
+      "grad_norm": 6.260695457458496,
+      "learning_rate": 9.484536082474226e-06,
+      "loss": 0.5566,
+      "step": 1760
+    },
+    {
+      "epoch": 0.8294283036551078,
+      "grad_norm": 4.187561511993408,
+      "learning_rate": 9.481607310215558e-06,
+      "loss": 0.5077,
+      "step": 1770
+    },
+    {
+      "epoch": 0.8341143392689785,
+      "grad_norm": 4.611522197723389,
+      "learning_rate": 9.478678537956889e-06,
+      "loss": 0.5449,
+      "step": 1780
+    },
+    {
+      "epoch": 0.8388003748828491,
+      "grad_norm": 12.466484069824219,
+      "learning_rate": 9.47574976569822e-06,
+      "loss": 0.5744,
+      "step": 1790
+    },
+    {
+      "epoch": 0.8434864104967198,
+      "grad_norm": 4.683777332305908,
+      "learning_rate": 9.472820993439551e-06,
+      "loss": 0.5102,
+      "step": 1800
+    },
+    {
+      "epoch": 0.8481724461105904,
+      "grad_norm": 5.541889190673828,
+      "learning_rate": 9.469892221180882e-06,
+      "loss": 0.5589,
+      "step": 1810
+    },
+    {
+      "epoch": 0.8528584817244611,
+      "grad_norm": 8.524742126464844,
+      "learning_rate": 9.466963448922214e-06,
+      "loss": 0.5872,
+      "step": 1820
+    },
+    {
+      "epoch": 0.8575445173383318,
+      "grad_norm": 7.117620944976807,
+      "learning_rate": 9.464034676663543e-06,
+      "loss": 0.5484,
+      "step": 1830
+    },
+    {
+      "epoch": 0.8622305529522024,
+      "grad_norm": 5.3457841873168945,
+      "learning_rate": 9.461105904404874e-06,
+      "loss": 0.5624,
+      "step": 1840
+    },
+    {
+      "epoch": 0.8669165885660731,
+      "grad_norm": 4.375561714172363,
+      "learning_rate": 9.458177132146204e-06,
+      "loss": 0.525,
+      "step": 1850
+    },
+    {
+      "epoch": 0.8716026241799437,
+      "grad_norm": 4.6026082038879395,
+      "learning_rate": 9.455248359887535e-06,
+      "loss": 0.5855,
+      "step": 1860
+    },
+    {
+      "epoch": 0.8762886597938144,
+      "grad_norm": 5.399001121520996,
+      "learning_rate": 9.452319587628866e-06,
+      "loss": 0.5775,
+      "step": 1870
+    },
+    {
+      "epoch": 0.8809746954076851,
+      "grad_norm": 3.9378573894500732,
+      "learning_rate": 9.449390815370197e-06,
+      "loss": 0.5068,
+      "step": 1880
+    },
+    {
+      "epoch": 0.8856607310215557,
+      "grad_norm": 5.515146255493164,
+      "learning_rate": 9.446462043111529e-06,
+      "loss": 0.5718,
+      "step": 1890
+    },
+    {
+      "epoch": 0.8903467666354264,
+      "grad_norm": 4.8671345710754395,
+      "learning_rate": 9.44353327085286e-06,
+      "loss": 0.5552,
+      "step": 1900
+    },
+    {
+      "epoch": 0.895032802249297,
+      "grad_norm": 5.388006210327148,
+      "learning_rate": 9.440604498594191e-06,
+      "loss": 0.5854,
+      "step": 1910
+    },
+    {
+      "epoch": 0.8997188378631678,
+      "grad_norm": 6.608395099639893,
+      "learning_rate": 9.43767572633552e-06,
+      "loss": 0.5459,
+      "step": 1920
+    },
+    {
+      "epoch": 0.9044048734770385,
+      "grad_norm": 4.6435160636901855,
+      "learning_rate": 9.434746954076852e-06,
+      "loss": 0.529,
+      "step": 1930
+    },
+    {
+      "epoch": 0.9090909090909091,
+      "grad_norm": 4.642300605773926,
+      "learning_rate": 9.431818181818183e-06,
+      "loss": 0.5255,
+      "step": 1940
+    },
+    {
+      "epoch": 0.9137769447047798,
+      "grad_norm": 5.40919828414917,
+      "learning_rate": 9.428889409559512e-06,
+      "loss": 0.5605,
+      "step": 1950
+    },
+    {
+      "epoch": 0.9184629803186504,
+      "grad_norm": 4.9874467849731445,
+      "learning_rate": 9.425960637300844e-06,
+      "loss": 0.5798,
+      "step": 1960
+    },
+    {
+      "epoch": 0.9231490159325211,
+      "grad_norm": 4.9304094314575195,
+      "learning_rate": 9.423031865042175e-06,
+      "loss": 0.5576,
+      "step": 1970
+    },
+    {
+      "epoch": 0.9278350515463918,
+      "grad_norm": 5.080467224121094,
+      "learning_rate": 9.420103092783506e-06,
+      "loss": 0.5221,
+      "step": 1980
+    },
+    {
+      "epoch": 0.9325210871602624,
+      "grad_norm": 5.083141326904297,
+      "learning_rate": 9.417174320524837e-06,
+      "loss": 0.6041,
+      "step": 1990
+    },
+    {
+      "epoch": 0.9372071227741331,
+      "grad_norm": 3.8194010257720947,
+      "learning_rate": 9.414245548266168e-06,
+      "loss": 0.5439,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9372071227741331,
+      "eval_loss": 0.058015577495098114,
+      "eval_pearson_cosine": 0.7772706274362164,
+      "eval_pearson_dot": 0.6518150260238968,
+      "eval_pearson_euclidean": 0.7681856098914253,
+      "eval_pearson_manhattan": 0.7668726914631314,
+      "eval_runtime": 45.6952,
+      "eval_samples_per_second": 32.826,
+      "eval_spearman_cosine": 0.7781983730395821,
+      "eval_spearman_dot": 0.6578238148510893,
+      "eval_spearman_euclidean": 0.7779674226973379,
+      "eval_spearman_manhattan": 0.7766391726420421,
+      "eval_steps_per_second": 32.826,
+      "step": 2000
     }
   ],
   "logging_steps": 10,