Training in progress, step 19000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ca95a7948bce19be5449f8781c37f0268eecbc454dcb50de5ef8e89c3d9a4e6
 size 613004648

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fd5c90298fb3b8e4b3bfc5252ca67d39257c11142359692b801557f737b7e42
 size 613004648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:667a4ed3665b904cc6a25c6508c89fb468bc4b1b80e08cd26eb7f6e936a1d8ff
 size 1226096954

 version https://git-lfs.github.com/spec/v1
+oid sha256:3dde98893d5f526a3fd3a3e2c8cc5d0c5ec7ef3827d46a4ac82be414c5ffde16
 size 1226096954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b67589c462b9c803b3450b2a56b26bd15fd2aad689878137f6e7e3b31569b4d3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a62b565b93cfaa85c1ff8e14ede1dbb6d31acf0d0ff726cbda86bec73b0dea2e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e87f5dbc951603cbe6f4d5f5d51c8e0ef8863d7cd661e58ac58827859c30521
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ad567ab1c91260dc0b589aab08ed3b669be820ef88836c60f94ca1975b277c3
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.434864104967197,
   "eval_steps": 250,
-  "global_step": 18000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -13759,6 +13759,770 @@
       "eval_spearman_manhattan": 0.7537307168421792,
       "eval_steps_per_second": 35.48,
       "step": 18000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.903467666354265,
   "eval_steps": 250,
+  "global_step": 19000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7537307168421792,
       "eval_steps_per_second": 35.48,
       "step": 18000
+    },
+    {
+      "epoch": 8.43955014058107,
+      "grad_norm": 0.9349134564399719,
+      "learning_rate": 8.945056232427367e-06,
+      "loss": 0.0479,
+      "step": 18010
+    },
+    {
+      "epoch": 8.44423617619494,
+      "grad_norm": 0.9666185975074768,
+      "learning_rate": 8.944470477975634e-06,
+      "loss": 0.0595,
+      "step": 18020
+    },
+    {
+      "epoch": 8.44892221180881,
+      "grad_norm": 2.2687034606933594,
+      "learning_rate": 8.943884723523899e-06,
+      "loss": 0.055,
+      "step": 18030
+    },
+    {
+      "epoch": 8.45360824742268,
+      "grad_norm": 1.9229964017868042,
+      "learning_rate": 8.943298969072166e-06,
+      "loss": 0.0602,
+      "step": 18040
+    },
+    {
+      "epoch": 8.458294283036551,
+      "grad_norm": 2.1603922843933105,
+      "learning_rate": 8.942713214620433e-06,
+      "loss": 0.0736,
+      "step": 18050
+    },
+    {
+      "epoch": 8.462980318650422,
+      "grad_norm": 2.0796990394592285,
+      "learning_rate": 8.942127460168698e-06,
+      "loss": 0.0569,
+      "step": 18060
+    },
+    {
+      "epoch": 8.467666354264292,
+      "grad_norm": 1.9972143173217773,
+      "learning_rate": 8.941541705716963e-06,
+      "loss": 0.0678,
+      "step": 18070
+    },
+    {
+      "epoch": 8.472352389878163,
+      "grad_norm": 0.865214467048645,
+      "learning_rate": 8.94095595126523e-06,
+      "loss": 0.0627,
+      "step": 18080
+    },
+    {
+      "epoch": 8.477038425492033,
+      "grad_norm": 2.142777442932129,
+      "learning_rate": 8.940370196813497e-06,
+      "loss": 0.0674,
+      "step": 18090
+    },
+    {
+      "epoch": 8.481724461105905,
+      "grad_norm": 1.4264150857925415,
+      "learning_rate": 8.939784442361762e-06,
+      "loss": 0.0671,
+      "step": 18100
+    },
+    {
+      "epoch": 8.486410496719776,
+      "grad_norm": 0.7674472332000732,
+      "learning_rate": 8.93919868791003e-06,
+      "loss": 0.0559,
+      "step": 18110
+    },
+    {
+      "epoch": 8.491096532333646,
+      "grad_norm": 0.81045001745224,
+      "learning_rate": 8.938612933458294e-06,
+      "loss": 0.0587,
+      "step": 18120
+    },
+    {
+      "epoch": 8.495782567947517,
+      "grad_norm": 1.4473369121551514,
+      "learning_rate": 8.938027179006561e-06,
+      "loss": 0.0613,
+      "step": 18130
+    },
+    {
+      "epoch": 8.500468603561387,
+      "grad_norm": 1.741360068321228,
+      "learning_rate": 8.937441424554827e-06,
+      "loss": 0.0638,
+      "step": 18140
+    },
+    {
+      "epoch": 8.505154639175258,
+      "grad_norm": 2.0288760662078857,
+      "learning_rate": 8.936855670103094e-06,
+      "loss": 0.0586,
+      "step": 18150
+    },
+    {
+      "epoch": 8.509840674789128,
+      "grad_norm": 2.380078077316284,
+      "learning_rate": 8.93626991565136e-06,
+      "loss": 0.0612,
+      "step": 18160
+    },
+    {
+      "epoch": 8.514526710402999,
+      "grad_norm": 1.9383304119110107,
+      "learning_rate": 8.935684161199626e-06,
+      "loss": 0.0601,
+      "step": 18170
+    },
+    {
+      "epoch": 8.51921274601687,
+      "grad_norm": 1.2531105279922485,
+      "learning_rate": 8.935098406747893e-06,
+      "loss": 0.0719,
+      "step": 18180
+    },
+    {
+      "epoch": 8.52389878163074,
+      "grad_norm": 0.9482662081718445,
+      "learning_rate": 8.934512652296158e-06,
+      "loss": 0.0546,
+      "step": 18190
+    },
+    {
+      "epoch": 8.52858481724461,
+      "grad_norm": 1.4870429039001465,
+      "learning_rate": 8.933926897844423e-06,
+      "loss": 0.0568,
+      "step": 18200
+    },
+    {
+      "epoch": 8.533270852858482,
+      "grad_norm": 1.6849005222320557,
+      "learning_rate": 8.933341143392692e-06,
+      "loss": 0.0555,
+      "step": 18210
+    },
+    {
+      "epoch": 8.537956888472353,
+      "grad_norm": 1.955870270729065,
+      "learning_rate": 8.932755388940957e-06,
+      "loss": 0.0689,
+      "step": 18220
+    },
+    {
+      "epoch": 8.542642924086223,
+      "grad_norm": 1.697548747062683,
+      "learning_rate": 8.932169634489222e-06,
+      "loss": 0.056,
+      "step": 18230
+    },
+    {
+      "epoch": 8.547328959700094,
+      "grad_norm": 1.673592209815979,
+      "learning_rate": 8.931583880037489e-06,
+      "loss": 0.0705,
+      "step": 18240
+    },
+    {
+      "epoch": 8.552014995313964,
+      "grad_norm": 1.5452814102172852,
+      "learning_rate": 8.930998125585754e-06,
+      "loss": 0.0568,
+      "step": 18250
+    },
+    {
+      "epoch": 8.552014995313964,
+      "eval_loss": 0.038943566381931305,
+      "eval_pearson_cosine": 0.7825822620756648,
+      "eval_pearson_dot": 0.6378466620068579,
+      "eval_pearson_euclidean": 0.736198412680281,
+      "eval_pearson_manhattan": 0.7358221479501772,
+      "eval_runtime": 39.5923,
+      "eval_samples_per_second": 37.886,
+      "eval_spearman_cosine": 0.7830920224286129,
+      "eval_spearman_dot": 0.6535736820096772,
+      "eval_spearman_euclidean": 0.7509264123559705,
+      "eval_spearman_manhattan": 0.7510068056516,
+      "eval_steps_per_second": 37.886,
+      "step": 18250
+    },
+    {
+      "epoch": 8.556701030927835,
+      "grad_norm": 2.1532504558563232,
+      "learning_rate": 8.930412371134021e-06,
+      "loss": 0.0737,
+      "step": 18260
+    },
+    {
+      "epoch": 8.561387066541705,
+      "grad_norm": 1.189831256866455,
+      "learning_rate": 8.929826616682288e-06,
+      "loss": 0.0641,
+      "step": 18270
+    },
+    {
+      "epoch": 8.566073102155576,
+      "grad_norm": 1.0703136920928955,
+      "learning_rate": 8.929240862230553e-06,
+      "loss": 0.0597,
+      "step": 18280
+    },
+    {
+      "epoch": 8.570759137769446,
+      "grad_norm": 1.7828891277313232,
+      "learning_rate": 8.92865510777882e-06,
+      "loss": 0.056,
+      "step": 18290
+    },
+    {
+      "epoch": 8.575445173383319,
+      "grad_norm": 1.6652967929840088,
+      "learning_rate": 8.928069353327085e-06,
+      "loss": 0.0587,
+      "step": 18300
+    },
+    {
+      "epoch": 8.580131208997189,
+      "grad_norm": 1.5879887342453003,
+      "learning_rate": 8.927483598875352e-06,
+      "loss": 0.0652,
+      "step": 18310
+    },
+    {
+      "epoch": 8.58481724461106,
+      "grad_norm": 1.400453805923462,
+      "learning_rate": 8.92689784442362e-06,
+      "loss": 0.0589,
+      "step": 18320
+    },
+    {
+      "epoch": 8.58950328022493,
+      "grad_norm": 1.2532896995544434,
+      "learning_rate": 8.926312089971884e-06,
+      "loss": 0.0538,
+      "step": 18330
+    },
+    {
+      "epoch": 8.5941893158388,
+      "grad_norm": 1.3725074529647827,
+      "learning_rate": 8.925726335520151e-06,
+      "loss": 0.0458,
+      "step": 18340
+    },
+    {
+      "epoch": 8.598875351452671,
+      "grad_norm": 0.8545303344726562,
+      "learning_rate": 8.925140581068417e-06,
+      "loss": 0.054,
+      "step": 18350
+    },
+    {
+      "epoch": 8.603561387066541,
+      "grad_norm": 2.2644894123077393,
+      "learning_rate": 8.924554826616682e-06,
+      "loss": 0.0727,
+      "step": 18360
+    },
+    {
+      "epoch": 8.608247422680412,
+      "grad_norm": 2.0160939693450928,
+      "learning_rate": 8.92396907216495e-06,
+      "loss": 0.0716,
+      "step": 18370
+    },
+    {
+      "epoch": 8.612933458294282,
+      "grad_norm": 1.2805579900741577,
+      "learning_rate": 8.923383317713216e-06,
+      "loss": 0.06,
+      "step": 18380
+    },
+    {
+      "epoch": 8.617619493908153,
+      "grad_norm": 2.359361410140991,
+      "learning_rate": 8.922797563261481e-06,
+      "loss": 0.0568,
+      "step": 18390
+    },
+    {
+      "epoch": 8.622305529522023,
+      "grad_norm": 2.423886775970459,
+      "learning_rate": 8.922211808809748e-06,
+      "loss": 0.0732,
+      "step": 18400
+    },
+    {
+      "epoch": 8.626991565135896,
+      "grad_norm": 1.2898362874984741,
+      "learning_rate": 8.921626054358013e-06,
+      "loss": 0.0566,
+      "step": 18410
+    },
+    {
+      "epoch": 8.631677600749766,
+      "grad_norm": 0.6553903818130493,
+      "learning_rate": 8.92104029990628e-06,
+      "loss": 0.0507,
+      "step": 18420
+    },
+    {
+      "epoch": 8.636363636363637,
+      "grad_norm": 1.3605937957763672,
+      "learning_rate": 8.920454545454547e-06,
+      "loss": 0.0581,
+      "step": 18430
+    },
+    {
+      "epoch": 8.641049671977507,
+      "grad_norm": 1.9910422563552856,
+      "learning_rate": 8.919868791002812e-06,
+      "loss": 0.0566,
+      "step": 18440
+    },
+    {
+      "epoch": 8.645735707591378,
+      "grad_norm": 2.0107765197753906,
+      "learning_rate": 8.919283036551079e-06,
+      "loss": 0.068,
+      "step": 18450
+    },
+    {
+      "epoch": 8.650421743205248,
+      "grad_norm": 1.168728232383728,
+      "learning_rate": 8.918697282099344e-06,
+      "loss": 0.0589,
+      "step": 18460
+    },
+    {
+      "epoch": 8.655107778819119,
+      "grad_norm": 2.3766093254089355,
+      "learning_rate": 8.918111527647611e-06,
+      "loss": 0.061,
+      "step": 18470
+    },
+    {
+      "epoch": 8.65979381443299,
+      "grad_norm": 1.6704158782958984,
+      "learning_rate": 8.917525773195878e-06,
+      "loss": 0.0629,
+      "step": 18480
+    },
+    {
+      "epoch": 8.66447985004686,
+      "grad_norm": 1.9102870225906372,
+      "learning_rate": 8.916940018744143e-06,
+      "loss": 0.0464,
+      "step": 18490
+    },
+    {
+      "epoch": 8.669165885660732,
+      "grad_norm": 2.742626428604126,
+      "learning_rate": 8.91635426429241e-06,
+      "loss": 0.0645,
+      "step": 18500
+    },
+    {
+      "epoch": 8.669165885660732,
+      "eval_loss": 0.03774439916014671,
+      "eval_pearson_cosine": 0.7887750445614863,
+      "eval_pearson_dot": 0.6513653629224123,
+      "eval_pearson_euclidean": 0.7319388075486906,
+      "eval_pearson_manhattan": 0.7314905753471947,
+      "eval_runtime": 40.5433,
+      "eval_samples_per_second": 36.998,
+      "eval_spearman_cosine": 0.7892064111202951,
+      "eval_spearman_dot": 0.6704252435211006,
+      "eval_spearman_euclidean": 0.7498699934549212,
+      "eval_spearman_manhattan": 0.7495320910792913,
+      "eval_steps_per_second": 36.998,
+      "step": 18500
+    },
+    {
+      "epoch": 8.673851921274602,
+      "grad_norm": 1.4276272058486938,
+      "learning_rate": 8.915768509840675e-06,
+      "loss": 0.0466,
+      "step": 18510
+    },
+    {
+      "epoch": 8.678537956888473,
+      "grad_norm": 1.780705451965332,
+      "learning_rate": 8.91518275538894e-06,
+      "loss": 0.073,
+      "step": 18520
+    },
+    {
+      "epoch": 8.683223992502343,
+      "grad_norm": 1.422787070274353,
+      "learning_rate": 8.914597000937208e-06,
+      "loss": 0.0662,
+      "step": 18530
+    },
+    {
+      "epoch": 8.687910028116214,
+      "grad_norm": 1.8989777565002441,
+      "learning_rate": 8.914011246485474e-06,
+      "loss": 0.053,
+      "step": 18540
+    },
+    {
+      "epoch": 8.692596063730084,
+      "grad_norm": 1.208201289176941,
+      "learning_rate": 8.91342549203374e-06,
+      "loss": 0.0557,
+      "step": 18550
+    },
+    {
+      "epoch": 8.697282099343955,
+      "grad_norm": 1.4029545783996582,
+      "learning_rate": 8.912839737582007e-06,
+      "loss": 0.0498,
+      "step": 18560
+    },
+    {
+      "epoch": 8.701968134957825,
+      "grad_norm": 1.4905900955200195,
+      "learning_rate": 8.912253983130272e-06,
+      "loss": 0.0586,
+      "step": 18570
+    },
+    {
+      "epoch": 8.706654170571696,
+      "grad_norm": 1.494296669960022,
+      "learning_rate": 8.911668228678539e-06,
+      "loss": 0.0597,
+      "step": 18580
+    },
+    {
+      "epoch": 8.711340206185566,
+      "grad_norm": 1.8540481328964233,
+      "learning_rate": 8.911082474226806e-06,
+      "loss": 0.06,
+      "step": 18590
+    },
+    {
+      "epoch": 8.716026241799437,
+      "grad_norm": 0.9429871439933777,
+      "learning_rate": 8.910496719775071e-06,
+      "loss": 0.0708,
+      "step": 18600
+    },
+    {
+      "epoch": 8.720712277413309,
+      "grad_norm": 1.333791732788086,
+      "learning_rate": 8.909910965323338e-06,
+      "loss": 0.0583,
+      "step": 18610
+    },
+    {
+      "epoch": 8.72539831302718,
+      "grad_norm": 1.1609207391738892,
+      "learning_rate": 8.909325210871603e-06,
+      "loss": 0.0499,
+      "step": 18620
+    },
+    {
+      "epoch": 8.73008434864105,
+      "grad_norm": 1.9390841722488403,
+      "learning_rate": 8.90873945641987e-06,
+      "loss": 0.0751,
+      "step": 18630
+    },
+    {
+      "epoch": 8.73477038425492,
+      "grad_norm": 1.693433165550232,
+      "learning_rate": 8.908153701968135e-06,
+      "loss": 0.0685,
+      "step": 18640
+    },
+    {
+      "epoch": 8.739456419868791,
+      "grad_norm": 1.7784210443496704,
+      "learning_rate": 8.907567947516402e-06,
+      "loss": 0.0524,
+      "step": 18650
+    },
+    {
+      "epoch": 8.744142455482661,
+      "grad_norm": 1.4945738315582275,
+      "learning_rate": 8.906982193064669e-06,
+      "loss": 0.064,
+      "step": 18660
+    },
+    {
+      "epoch": 8.748828491096532,
+      "grad_norm": 1.7549676895141602,
+      "learning_rate": 8.906396438612934e-06,
+      "loss": 0.0634,
+      "step": 18670
+    },
+    {
+      "epoch": 8.753514526710402,
+      "grad_norm": 1.1789377927780151,
+      "learning_rate": 8.9058106841612e-06,
+      "loss": 0.0597,
+      "step": 18680
+    },
+    {
+      "epoch": 8.758200562324273,
+      "grad_norm": 1.983936071395874,
+      "learning_rate": 8.905224929709466e-06,
+      "loss": 0.0614,
+      "step": 18690
+    },
+    {
+      "epoch": 8.762886597938145,
+      "grad_norm": 2.564476251602173,
+      "learning_rate": 8.904639175257732e-06,
+      "loss": 0.0711,
+      "step": 18700
+    },
+    {
+      "epoch": 8.767572633552016,
+      "grad_norm": 0.5671543478965759,
+      "learning_rate": 8.904053420805998e-06,
+      "loss": 0.0586,
+      "step": 18710
+    },
+    {
+      "epoch": 8.772258669165886,
+      "grad_norm": 1.1714857816696167,
+      "learning_rate": 8.903467666354265e-06,
+      "loss": 0.06,
+      "step": 18720
+    },
+    {
+      "epoch": 8.776944704779757,
+      "grad_norm": 1.8699477910995483,
+      "learning_rate": 8.90288191190253e-06,
+      "loss": 0.052,
+      "step": 18730
+    },
+    {
+      "epoch": 8.781630740393627,
+      "grad_norm": 1.0824236869812012,
+      "learning_rate": 8.902296157450798e-06,
+      "loss": 0.0638,
+      "step": 18740
+    },
+    {
+      "epoch": 8.786316776007498,
+      "grad_norm": 1.3703303337097168,
+      "learning_rate": 8.901710402999063e-06,
+      "loss": 0.0563,
+      "step": 18750
+    },
+    {
+      "epoch": 8.786316776007498,
+      "eval_loss": 0.037630029022693634,
+      "eval_pearson_cosine": 0.7870129329535697,
+      "eval_pearson_dot": 0.6393485188875303,
+      "eval_pearson_euclidean": 0.7289305204204517,
+      "eval_pearson_manhattan": 0.7285165698261729,
+      "eval_runtime": 40.5046,
+      "eval_samples_per_second": 37.033,
+      "eval_spearman_cosine": 0.7878034848552876,
+      "eval_spearman_dot": 0.6605642491363777,
+      "eval_spearman_euclidean": 0.7454305721470555,
+      "eval_spearman_manhattan": 0.745136975852769,
+      "eval_steps_per_second": 37.033,
+      "step": 18750
+    },
+    {
+      "epoch": 8.791002811621368,
+      "grad_norm": 1.745339035987854,
+      "learning_rate": 8.90112464854733e-06,
+      "loss": 0.0566,
+      "step": 18760
+    },
+    {
+      "epoch": 8.795688847235239,
+      "grad_norm": 1.5828258991241455,
+      "learning_rate": 8.900538894095597e-06,
+      "loss": 0.0602,
+      "step": 18770
+    },
+    {
+      "epoch": 8.800374882849109,
+      "grad_norm": 1.4292279481887817,
+      "learning_rate": 8.899953139643862e-06,
+      "loss": 0.0638,
+      "step": 18780
+    },
+    {
+      "epoch": 8.80506091846298,
+      "grad_norm": 1.956358790397644,
+      "learning_rate": 8.899367385192129e-06,
+      "loss": 0.0667,
+      "step": 18790
+    },
+    {
+      "epoch": 8.80974695407685,
+      "grad_norm": 0.9023747444152832,
+      "learning_rate": 8.898781630740394e-06,
+      "loss": 0.0662,
+      "step": 18800
+    },
+    {
+      "epoch": 8.814432989690722,
+      "grad_norm": 2.1007392406463623,
+      "learning_rate": 8.89819587628866e-06,
+      "loss": 0.0561,
+      "step": 18810
+    },
+    {
+      "epoch": 8.819119025304593,
+      "grad_norm": 2.0597100257873535,
+      "learning_rate": 8.897610121836928e-06,
+      "loss": 0.0666,
+      "step": 18820
+    },
+    {
+      "epoch": 8.823805060918463,
+      "grad_norm": 1.1200934648513794,
+      "learning_rate": 8.897024367385193e-06,
+      "loss": 0.0538,
+      "step": 18830
+    },
+    {
+      "epoch": 8.828491096532334,
+      "grad_norm": 2.032970428466797,
+      "learning_rate": 8.896438612933458e-06,
+      "loss": 0.0734,
+      "step": 18840
+    },
+    {
+      "epoch": 8.833177132146204,
+      "grad_norm": 1.5491752624511719,
+      "learning_rate": 8.895852858481725e-06,
+      "loss": 0.0638,
+      "step": 18850
+    },
+    {
+      "epoch": 8.837863167760075,
+      "grad_norm": 0.7450467348098755,
+      "learning_rate": 8.89526710402999e-06,
+      "loss": 0.0752,
+      "step": 18860
+    },
+    {
+      "epoch": 8.842549203373945,
+      "grad_norm": 1.0671043395996094,
+      "learning_rate": 8.894681349578257e-06,
+      "loss": 0.0562,
+      "step": 18870
+    },
+    {
+      "epoch": 8.847235238987816,
+      "grad_norm": 1.3302968740463257,
+      "learning_rate": 8.894095595126524e-06,
+      "loss": 0.0573,
+      "step": 18880
+    },
+    {
+      "epoch": 8.851921274601686,
+      "grad_norm": 1.423279881477356,
+      "learning_rate": 8.89350984067479e-06,
+      "loss": 0.0645,
+      "step": 18890
+    },
+    {
+      "epoch": 8.856607310215558,
+      "grad_norm": 1.1250574588775635,
+      "learning_rate": 8.892924086223056e-06,
+      "loss": 0.0616,
+      "step": 18900
+    },
+    {
+      "epoch": 8.861293345829429,
+      "grad_norm": 1.3438372611999512,
+      "learning_rate": 8.892338331771322e-06,
+      "loss": 0.0525,
+      "step": 18910
+    },
+    {
+      "epoch": 8.8659793814433,
+      "grad_norm": 1.5097957849502563,
+      "learning_rate": 8.891752577319588e-06,
+      "loss": 0.0593,
+      "step": 18920
+    },
+    {
+      "epoch": 8.87066541705717,
+      "grad_norm": 1.9522205591201782,
+      "learning_rate": 8.891166822867855e-06,
+      "loss": 0.0674,
+      "step": 18930
+    },
+    {
+      "epoch": 8.87535145267104,
+      "grad_norm": 1.1841950416564941,
+      "learning_rate": 8.89058106841612e-06,
+      "loss": 0.0641,
+      "step": 18940
+    },
+    {
+      "epoch": 8.880037488284911,
+      "grad_norm": 1.658074140548706,
+      "learning_rate": 8.889995313964388e-06,
+      "loss": 0.0737,
+      "step": 18950
+    },
+    {
+      "epoch": 8.884723523898781,
+      "grad_norm": 1.5924397706985474,
+      "learning_rate": 8.889409559512653e-06,
+      "loss": 0.07,
+      "step": 18960
+    },
+    {
+      "epoch": 8.889409559512652,
+      "grad_norm": 1.379166603088379,
+      "learning_rate": 8.888823805060918e-06,
+      "loss": 0.0689,
+      "step": 18970
+    },
+    {
+      "epoch": 8.894095595126522,
+      "grad_norm": 1.3292274475097656,
+      "learning_rate": 8.888238050609187e-06,
+      "loss": 0.0564,
+      "step": 18980
+    },
+    {
+      "epoch": 8.898781630740393,
+      "grad_norm": 1.4383434057235718,
+      "learning_rate": 8.887652296157452e-06,
+      "loss": 0.0583,
+      "step": 18990
+    },
+    {
+      "epoch": 8.903467666354265,
+      "grad_norm": 2.1288797855377197,
+      "learning_rate": 8.887066541705717e-06,
+      "loss": 0.0669,
+      "step": 19000
+    },
+    {
+      "epoch": 8.903467666354265,
+      "eval_loss": 0.03827948495745659,
+      "eval_pearson_cosine": 0.7850468616972819,
+      "eval_pearson_dot": 0.6358914679070722,
+      "eval_pearson_euclidean": 0.7244498308050709,
+      "eval_pearson_manhattan": 0.7238488356503296,
+      "eval_runtime": 40.8545,
+      "eval_samples_per_second": 36.716,
+      "eval_spearman_cosine": 0.7865593789879696,
+      "eval_spearman_dot": 0.6571265794919958,
+      "eval_spearman_euclidean": 0.7437161421017117,
+      "eval_spearman_manhattan": 0.7432616809242956,
+      "eval_steps_per_second": 36.716,
+      "step": 19000
     }
   ],
   "logging_steps": 10,