Training in progress, step 3000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +766 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e35a58b5ce20a546dab5f4b0c4e7952626f7c02d776f500c9444a2034e601e38
 size 737580392

 version https://git-lfs.github.com/spec/v1
+oid sha256:878397b694b0a8de341b4b8d86e9a615129650afe4a1ebc2f9f3ccfb75d0c0c8
 size 737580392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de7fa68514e44d305d8ade79d3385d8b8dc317b2f5506d2952862d523ee3e573
 size 1475248442

 version https://git-lfs.github.com/spec/v1
+oid sha256:0acf7430500cf883fa2666bfba6735859811567ffb5b4b4b2939205ee3547014
 size 1475248442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4728e4a27ef2a8c58f14bda178d8eac76290169f611c06f23f0154a1ac41085
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:59efe62e4ca0647678855566a69eaafc20fb9e01c9af7b6b454bf0717d7bf5f7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:042be25dc4541cbc3f89ffe5029c66c140dff258c3ff65395edeb7f31d123087
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4f48bf96def541f86640977b0dc57c5078e1aaca13e1c80e28041dac90f6386
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9372071227741331,
   "eval_steps": 250,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1535,6 +1535,770 @@
       "eval_spearman_manhattan": 0.8162459677504973,
       "eval_steps_per_second": 20.407,
       "step": 2000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.4058106841611997,
   "eval_steps": 250,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.8162459677504973,
       "eval_steps_per_second": 20.407,
       "step": 2000
+    },
+    {
+      "epoch": 0.9418931583880038,
+      "grad_norm": 1.454084873199463,
+      "learning_rate": 1.94113167760075e-05,
+      "loss": 0.274,
+      "step": 2010
+    },
+    {
+      "epoch": 0.9465791940018744,
+      "grad_norm": 2.0930581092834473,
+      "learning_rate": 1.940838800374883e-05,
+      "loss": 0.3101,
+      "step": 2020
+    },
+    {
+      "epoch": 0.9512652296157451,
+      "grad_norm": 2.347327947616577,
+      "learning_rate": 1.940545923149016e-05,
+      "loss": 0.3134,
+      "step": 2030
+    },
+    {
+      "epoch": 0.9559512652296157,
+      "grad_norm": 1.7699518203735352,
+      "learning_rate": 1.9402530459231494e-05,
+      "loss": 0.2954,
+      "step": 2040
+    },
+    {
+      "epoch": 0.9606373008434864,
+      "grad_norm": 1.983152985572815,
+      "learning_rate": 1.9399601686972823e-05,
+      "loss": 0.3267,
+      "step": 2050
+    },
+    {
+      "epoch": 0.9653233364573571,
+      "grad_norm": 2.6133322715759277,
+      "learning_rate": 1.9396672914714153e-05,
+      "loss": 0.3197,
+      "step": 2060
+    },
+    {
+      "epoch": 0.9700093720712277,
+      "grad_norm": 1.6881980895996094,
+      "learning_rate": 1.9393744142455482e-05,
+      "loss": 0.3284,
+      "step": 2070
+    },
+    {
+      "epoch": 0.9746954076850984,
+      "grad_norm": 2.0169336795806885,
+      "learning_rate": 1.9390815370196815e-05,
+      "loss": 0.3245,
+      "step": 2080
+    },
+    {
+      "epoch": 0.979381443298969,
+      "grad_norm": 1.456597924232483,
+      "learning_rate": 1.9387886597938145e-05,
+      "loss": 0.297,
+      "step": 2090
+    },
+    {
+      "epoch": 0.9840674789128397,
+      "grad_norm": 1.7516179084777832,
+      "learning_rate": 1.9384957825679474e-05,
+      "loss": 0.3043,
+      "step": 2100
+    },
+    {
+      "epoch": 0.9887535145267105,
+      "grad_norm": 1.981558084487915,
+      "learning_rate": 1.9382029053420807e-05,
+      "loss": 0.3321,
+      "step": 2110
+    },
+    {
+      "epoch": 0.993439550140581,
+      "grad_norm": 2.1244945526123047,
+      "learning_rate": 1.9379100281162137e-05,
+      "loss": 0.2638,
+      "step": 2120
+    },
+    {
+      "epoch": 0.9981255857544518,
+      "grad_norm": 2.025820016860962,
+      "learning_rate": 1.937617150890347e-05,
+      "loss": 0.3164,
+      "step": 2130
+    },
+    {
+      "epoch": 1.0028116213683225,
+      "grad_norm": 1.7136940956115723,
+      "learning_rate": 1.93732427366448e-05,
+      "loss": 0.311,
+      "step": 2140
+    },
+    {
+      "epoch": 1.007497656982193,
+      "grad_norm": 1.604434609413147,
+      "learning_rate": 1.9370313964386132e-05,
+      "loss": 0.2511,
+      "step": 2150
+    },
+    {
+      "epoch": 1.0121836925960637,
+      "grad_norm": 1.7466777563095093,
+      "learning_rate": 1.936738519212746e-05,
+      "loss": 0.2342,
+      "step": 2160
+    },
+    {
+      "epoch": 1.0168697282099344,
+      "grad_norm": 1.9601348638534546,
+      "learning_rate": 1.9364456419868794e-05,
+      "loss": 0.2419,
+      "step": 2170
+    },
+    {
+      "epoch": 1.021555763823805,
+      "grad_norm": 1.7632412910461426,
+      "learning_rate": 1.9361527647610124e-05,
+      "loss": 0.2474,
+      "step": 2180
+    },
+    {
+      "epoch": 1.0262417994376758,
+      "grad_norm": 1.8551344871520996,
+      "learning_rate": 1.9358598875351457e-05,
+      "loss": 0.2375,
+      "step": 2190
+    },
+    {
+      "epoch": 1.0309278350515463,
+      "grad_norm": 1.8569507598876953,
+      "learning_rate": 1.9355670103092786e-05,
+      "loss": 0.2226,
+      "step": 2200
+    },
+    {
+      "epoch": 1.035613870665417,
+      "grad_norm": 1.5567635297775269,
+      "learning_rate": 1.9352741330834116e-05,
+      "loss": 0.2615,
+      "step": 2210
+    },
+    {
+      "epoch": 1.0402999062792877,
+      "grad_norm": 1.6635299921035767,
+      "learning_rate": 1.934981255857545e-05,
+      "loss": 0.255,
+      "step": 2220
+    },
+    {
+      "epoch": 1.0449859418931584,
+      "grad_norm": 2.080941915512085,
+      "learning_rate": 1.9346883786316778e-05,
+      "loss": 0.2847,
+      "step": 2230
+    },
+    {
+      "epoch": 1.0496719775070291,
+      "grad_norm": 1.8611458539962769,
+      "learning_rate": 1.9343955014058108e-05,
+      "loss": 0.2395,
+      "step": 2240
+    },
+    {
+      "epoch": 1.0543580131208996,
+      "grad_norm": 1.7495652437210083,
+      "learning_rate": 1.9341026241799437e-05,
+      "loss": 0.2473,
+      "step": 2250
+    },
+    {
+      "epoch": 1.0543580131208996,
+      "eval_loss": 0.045334625989198685,
+      "eval_pearson_cosine": 0.8123685468173392,
+      "eval_pearson_dot": 0.7270518178916561,
+      "eval_pearson_euclidean": 0.8020452343241686,
+      "eval_pearson_manhattan": 0.8030795563147421,
+      "eval_runtime": 5.4133,
+      "eval_samples_per_second": 277.096,
+      "eval_spearman_cosine": 0.814265717527882,
+      "eval_spearman_dot": 0.7261387412776578,
+      "eval_spearman_euclidean": 0.809310966263978,
+      "eval_spearman_manhattan": 0.8103368464209432,
+      "eval_steps_per_second": 17.365,
+      "step": 2250
+    },
+    {
+      "epoch": 1.0590440487347703,
+      "grad_norm": 1.861383080482483,
+      "learning_rate": 1.933809746954077e-05,
+      "loss": 0.2635,
+      "step": 2260
+    },
+    {
+      "epoch": 1.063730084348641,
+      "grad_norm": 1.855754017829895,
+      "learning_rate": 1.93351686972821e-05,
+      "loss": 0.2752,
+      "step": 2270
+    },
+    {
+      "epoch": 1.0684161199625117,
+      "grad_norm": 1.7547088861465454,
+      "learning_rate": 1.9332239925023432e-05,
+      "loss": 0.2528,
+      "step": 2280
+    },
+    {
+      "epoch": 1.0731021555763824,
+      "grad_norm": 2.317349672317505,
+      "learning_rate": 1.9329311152764762e-05,
+      "loss": 0.2727,
+      "step": 2290
+    },
+    {
+      "epoch": 1.077788191190253,
+      "grad_norm": 1.69141685962677,
+      "learning_rate": 1.932638238050609e-05,
+      "loss": 0.2576,
+      "step": 2300
+    },
+    {
+      "epoch": 1.0824742268041236,
+      "grad_norm": 1.9386281967163086,
+      "learning_rate": 1.9323453608247424e-05,
+      "loss": 0.2746,
+      "step": 2310
+    },
+    {
+      "epoch": 1.0871602624179943,
+      "grad_norm": 2.079533100128174,
+      "learning_rate": 1.9320524835988754e-05,
+      "loss": 0.2145,
+      "step": 2320
+    },
+    {
+      "epoch": 1.091846298031865,
+      "grad_norm": 2.5439393520355225,
+      "learning_rate": 1.9317596063730087e-05,
+      "loss": 0.2406,
+      "step": 2330
+    },
+    {
+      "epoch": 1.0965323336457358,
+      "grad_norm": 2.132382869720459,
+      "learning_rate": 1.9314667291471416e-05,
+      "loss": 0.2158,
+      "step": 2340
+    },
+    {
+      "epoch": 1.1012183692596063,
+      "grad_norm": 2.181603193283081,
+      "learning_rate": 1.931173851921275e-05,
+      "loss": 0.2358,
+      "step": 2350
+    },
+    {
+      "epoch": 1.105904404873477,
+      "grad_norm": 2.288633108139038,
+      "learning_rate": 1.930880974695408e-05,
+      "loss": 0.2715,
+      "step": 2360
+    },
+    {
+      "epoch": 1.1105904404873477,
+      "grad_norm": 1.882150650024414,
+      "learning_rate": 1.930588097469541e-05,
+      "loss": 0.2111,
+      "step": 2370
+    },
+    {
+      "epoch": 1.1152764761012184,
+      "grad_norm": 1.695289969444275,
+      "learning_rate": 1.930295220243674e-05,
+      "loss": 0.2555,
+      "step": 2380
+    },
+    {
+      "epoch": 1.119962511715089,
+      "grad_norm": 1.945979118347168,
+      "learning_rate": 1.930002343017807e-05,
+      "loss": 0.2415,
+      "step": 2390
+    },
+    {
+      "epoch": 1.1246485473289598,
+      "grad_norm": 2.199965238571167,
+      "learning_rate": 1.9297094657919403e-05,
+      "loss": 0.2561,
+      "step": 2400
+    },
+    {
+      "epoch": 1.1293345829428303,
+      "grad_norm": 2.0236504077911377,
+      "learning_rate": 1.9294165885660733e-05,
+      "loss": 0.2458,
+      "step": 2410
+    },
+    {
+      "epoch": 1.134020618556701,
+      "grad_norm": 1.7911378145217896,
+      "learning_rate": 1.9291237113402062e-05,
+      "loss": 0.2428,
+      "step": 2420
+    },
+    {
+      "epoch": 1.1387066541705717,
+      "grad_norm": 1.8625153303146362,
+      "learning_rate": 1.9288308341143395e-05,
+      "loss": 0.2482,
+      "step": 2430
+    },
+    {
+      "epoch": 1.1433926897844424,
+      "grad_norm": 1.4607598781585693,
+      "learning_rate": 1.9285379568884725e-05,
+      "loss": 0.2383,
+      "step": 2440
+    },
+    {
+      "epoch": 1.148078725398313,
+      "grad_norm": 1.552121877670288,
+      "learning_rate": 1.9282450796626054e-05,
+      "loss": 0.2917,
+      "step": 2450
+    },
+    {
+      "epoch": 1.1527647610121836,
+      "grad_norm": 2.049769163131714,
+      "learning_rate": 1.9279522024367387e-05,
+      "loss": 0.2241,
+      "step": 2460
+    },
+    {
+      "epoch": 1.1574507966260543,
+      "grad_norm": 1.900490164756775,
+      "learning_rate": 1.9276593252108717e-05,
+      "loss": 0.2423,
+      "step": 2470
+    },
+    {
+      "epoch": 1.162136832239925,
+      "grad_norm": 1.1432183980941772,
+      "learning_rate": 1.927366447985005e-05,
+      "loss": 0.2556,
+      "step": 2480
+    },
+    {
+      "epoch": 1.1668228678537957,
+      "grad_norm": 1.8964147567749023,
+      "learning_rate": 1.927073570759138e-05,
+      "loss": 0.2258,
+      "step": 2490
+    },
+    {
+      "epoch": 1.1715089034676662,
+      "grad_norm": 1.8627080917358398,
+      "learning_rate": 1.926780693533271e-05,
+      "loss": 0.2563,
+      "step": 2500
+    },
+    {
+      "epoch": 1.1715089034676662,
+      "eval_loss": 0.04076731204986572,
+      "eval_pearson_cosine": 0.8177640807226254,
+      "eval_pearson_dot": 0.7517947588072431,
+      "eval_pearson_euclidean": 0.8032143754633552,
+      "eval_pearson_manhattan": 0.804324819579108,
+      "eval_runtime": 4.5167,
+      "eval_samples_per_second": 332.103,
+      "eval_spearman_cosine": 0.8194654831329402,
+      "eval_spearman_dot": 0.7504183673719423,
+      "eval_spearman_euclidean": 0.811997591732405,
+      "eval_spearman_manhattan": 0.8131700838529736,
+      "eval_steps_per_second": 20.812,
+      "step": 2500
+    },
+    {
+      "epoch": 1.176194939081537,
+      "grad_norm": 1.7957406044006348,
+      "learning_rate": 1.926487816307404e-05,
+      "loss": 0.2381,
+      "step": 2510
+    },
+    {
+      "epoch": 1.1808809746954076,
+      "grad_norm": 1.868900179862976,
+      "learning_rate": 1.926194939081537e-05,
+      "loss": 0.245,
+      "step": 2520
+    },
+    {
+      "epoch": 1.1855670103092784,
+      "grad_norm": 1.8972773551940918,
+      "learning_rate": 1.9259020618556704e-05,
+      "loss": 0.2346,
+      "step": 2530
+    },
+    {
+      "epoch": 1.190253045923149,
+      "grad_norm": 1.7982817888259888,
+      "learning_rate": 1.9256091846298033e-05,
+      "loss": 0.2182,
+      "step": 2540
+    },
+    {
+      "epoch": 1.1949390815370198,
+      "grad_norm": 2.066537380218506,
+      "learning_rate": 1.9253163074039366e-05,
+      "loss": 0.2396,
+      "step": 2550
+    },
+    {
+      "epoch": 1.1996251171508903,
+      "grad_norm": 2.3115556240081787,
+      "learning_rate": 1.9250234301780696e-05,
+      "loss": 0.2513,
+      "step": 2560
+    },
+    {
+      "epoch": 1.204311152764761,
+      "grad_norm": 2.140615940093994,
+      "learning_rate": 1.9247305529522025e-05,
+      "loss": 0.258,
+      "step": 2570
+    },
+    {
+      "epoch": 1.2089971883786317,
+      "grad_norm": 1.9183828830718994,
+      "learning_rate": 1.9244376757263358e-05,
+      "loss": 0.2249,
+      "step": 2580
+    },
+    {
+      "epoch": 1.2136832239925024,
+      "grad_norm": 1.9000664949417114,
+      "learning_rate": 1.9241447985004687e-05,
+      "loss": 0.2469,
+      "step": 2590
+    },
+    {
+      "epoch": 1.218369259606373,
+      "grad_norm": 2.2240567207336426,
+      "learning_rate": 1.9238519212746017e-05,
+      "loss": 0.2342,
+      "step": 2600
+    },
+    {
+      "epoch": 1.2230552952202436,
+      "grad_norm": 2.227921724319458,
+      "learning_rate": 1.923559044048735e-05,
+      "loss": 0.2867,
+      "step": 2610
+    },
+    {
+      "epoch": 1.2277413308341143,
+      "grad_norm": 1.8266960382461548,
+      "learning_rate": 1.923266166822868e-05,
+      "loss": 0.2541,
+      "step": 2620
+    },
+    {
+      "epoch": 1.232427366447985,
+      "grad_norm": 2.0011913776397705,
+      "learning_rate": 1.922973289597001e-05,
+      "loss": 0.2404,
+      "step": 2630
+    },
+    {
+      "epoch": 1.2371134020618557,
+      "grad_norm": 2.053349256515503,
+      "learning_rate": 1.9226804123711342e-05,
+      "loss": 0.2931,
+      "step": 2640
+    },
+    {
+      "epoch": 1.2417994376757264,
+      "grad_norm": 1.3468660116195679,
+      "learning_rate": 1.922387535145267e-05,
+      "loss": 0.2326,
+      "step": 2650
+    },
+    {
+      "epoch": 1.246485473289597,
+      "grad_norm": 2.1676151752471924,
+      "learning_rate": 1.9220946579194004e-05,
+      "loss": 0.2478,
+      "step": 2660
+    },
+    {
+      "epoch": 1.2511715089034676,
+      "grad_norm": 1.9708117246627808,
+      "learning_rate": 1.9218017806935334e-05,
+      "loss": 0.2281,
+      "step": 2670
+    },
+    {
+      "epoch": 1.2558575445173383,
+      "grad_norm": 1.8341456651687622,
+      "learning_rate": 1.9215089034676667e-05,
+      "loss": 0.2477,
+      "step": 2680
+    },
+    {
+      "epoch": 1.260543580131209,
+      "grad_norm": 1.9229050874710083,
+      "learning_rate": 1.9212160262417996e-05,
+      "loss": 0.2424,
+      "step": 2690
+    },
+    {
+      "epoch": 1.2652296157450795,
+      "grad_norm": 2.013848066329956,
+      "learning_rate": 1.9209231490159326e-05,
+      "loss": 0.272,
+      "step": 2700
+    },
+    {
+      "epoch": 1.2699156513589505,
+      "grad_norm": 1.684461236000061,
+      "learning_rate": 1.920630271790066e-05,
+      "loss": 0.2432,
+      "step": 2710
+    },
+    {
+      "epoch": 1.274601686972821,
+      "grad_norm": 1.300451636314392,
+      "learning_rate": 1.9203373945641988e-05,
+      "loss": 0.2006,
+      "step": 2720
+    },
+    {
+      "epoch": 1.2792877225866917,
+      "grad_norm": 1.6482150554656982,
+      "learning_rate": 1.920044517338332e-05,
+      "loss": 0.2495,
+      "step": 2730
+    },
+    {
+      "epoch": 1.2839737582005624,
+      "grad_norm": 1.7251955270767212,
+      "learning_rate": 1.919751640112465e-05,
+      "loss": 0.2469,
+      "step": 2740
+    },
+    {
+      "epoch": 1.2886597938144329,
+      "grad_norm": 2.6221530437469482,
+      "learning_rate": 1.9194587628865983e-05,
+      "loss": 0.2841,
+      "step": 2750
+    },
+    {
+      "epoch": 1.2886597938144329,
+      "eval_loss": 0.04372455179691315,
+      "eval_pearson_cosine": 0.8073759135651102,
+      "eval_pearson_dot": 0.7236907127152534,
+      "eval_pearson_euclidean": 0.8053106447795528,
+      "eval_pearson_manhattan": 0.806321043432086,
+      "eval_runtime": 3.4277,
+      "eval_samples_per_second": 437.612,
+      "eval_spearman_cosine": 0.8100379018669143,
+      "eval_spearman_dot": 0.7204492861182332,
+      "eval_spearman_euclidean": 0.8129520365277123,
+      "eval_spearman_manhattan": 0.813834648092825,
+      "eval_steps_per_second": 27.424,
+      "step": 2750
+    },
+    {
+      "epoch": 1.2933458294283038,
+      "grad_norm": 1.8232098817825317,
+      "learning_rate": 1.9191658856607313e-05,
+      "loss": 0.2717,
+      "step": 2760
+    },
+    {
+      "epoch": 1.2980318650421743,
+      "grad_norm": 1.6222856044769287,
+      "learning_rate": 1.9188730084348642e-05,
+      "loss": 0.227,
+      "step": 2770
+    },
+    {
+      "epoch": 1.302717900656045,
+      "grad_norm": 1.8859031200408936,
+      "learning_rate": 1.9185801312089972e-05,
+      "loss": 0.2428,
+      "step": 2780
+    },
+    {
+      "epoch": 1.3074039362699157,
+      "grad_norm": 1.9047764539718628,
+      "learning_rate": 1.9182872539831305e-05,
+      "loss": 0.2322,
+      "step": 2790
+    },
+    {
+      "epoch": 1.3120899718837864,
+      "grad_norm": 1.734043002128601,
+      "learning_rate": 1.9179943767572634e-05,
+      "loss": 0.2562,
+      "step": 2800
+    },
+    {
+      "epoch": 1.316776007497657,
+      "grad_norm": 1.840468406677246,
+      "learning_rate": 1.9177014995313964e-05,
+      "loss": 0.2429,
+      "step": 2810
+    },
+    {
+      "epoch": 1.3214620431115276,
+      "grad_norm": 1.6314520835876465,
+      "learning_rate": 1.9174086223055296e-05,
+      "loss": 0.232,
+      "step": 2820
+    },
+    {
+      "epoch": 1.3261480787253983,
+      "grad_norm": 1.9515080451965332,
+      "learning_rate": 1.9171157450796626e-05,
+      "loss": 0.2289,
+      "step": 2830
+    },
+    {
+      "epoch": 1.330834114339269,
+      "grad_norm": 1.7130558490753174,
+      "learning_rate": 1.916822867853796e-05,
+      "loss": 0.2349,
+      "step": 2840
+    },
+    {
+      "epoch": 1.3355201499531397,
+      "grad_norm": 2.0093345642089844,
+      "learning_rate": 1.916529990627929e-05,
+      "loss": 0.216,
+      "step": 2850
+    },
+    {
+      "epoch": 1.3402061855670104,
+      "grad_norm": 1.8628073930740356,
+      "learning_rate": 1.916237113402062e-05,
+      "loss": 0.2395,
+      "step": 2860
+    },
+    {
+      "epoch": 1.344892221180881,
+      "grad_norm": 1.8130676746368408,
+      "learning_rate": 1.915944236176195e-05,
+      "loss": 0.2283,
+      "step": 2870
+    },
+    {
+      "epoch": 1.3495782567947516,
+      "grad_norm": 1.8690656423568726,
+      "learning_rate": 1.9156513589503284e-05,
+      "loss": 0.2459,
+      "step": 2880
+    },
+    {
+      "epoch": 1.3542642924086223,
+      "grad_norm": 1.607759714126587,
+      "learning_rate": 1.9153584817244613e-05,
+      "loss": 0.2128,
+      "step": 2890
+    },
+    {
+      "epoch": 1.358950328022493,
+      "grad_norm": 1.827553629875183,
+      "learning_rate": 1.9150656044985943e-05,
+      "loss": 0.225,
+      "step": 2900
+    },
+    {
+      "epoch": 1.3636363636363638,
+      "grad_norm": 1.599199891090393,
+      "learning_rate": 1.9147727272727276e-05,
+      "loss": 0.264,
+      "step": 2910
+    },
+    {
+      "epoch": 1.3683223992502342,
+      "grad_norm": 2.0378599166870117,
+      "learning_rate": 1.9144798500468605e-05,
+      "loss": 0.2147,
+      "step": 2920
+    },
+    {
+      "epoch": 1.373008434864105,
+      "grad_norm": 2.201847791671753,
+      "learning_rate": 1.9141869728209938e-05,
+      "loss": 0.2812,
+      "step": 2930
+    },
+    {
+      "epoch": 1.3776944704779757,
+      "grad_norm": 1.5552937984466553,
+      "learning_rate": 1.9138940955951267e-05,
+      "loss": 0.2386,
+      "step": 2940
+    },
+    {
+      "epoch": 1.3823805060918464,
+      "grad_norm": 1.7810213565826416,
+      "learning_rate": 1.9136012183692597e-05,
+      "loss": 0.2596,
+      "step": 2950
+    },
+    {
+      "epoch": 1.387066541705717,
+      "grad_norm": 1.9728736877441406,
+      "learning_rate": 1.913308341143393e-05,
+      "loss": 0.2385,
+      "step": 2960
+    },
+    {
+      "epoch": 1.3917525773195876,
+      "grad_norm": 1.868575930595398,
+      "learning_rate": 1.913015463917526e-05,
+      "loss": 0.2287,
+      "step": 2970
+    },
+    {
+      "epoch": 1.3964386129334583,
+      "grad_norm": 1.4674561023712158,
+      "learning_rate": 1.912722586691659e-05,
+      "loss": 0.2619,
+      "step": 2980
+    },
+    {
+      "epoch": 1.401124648547329,
+      "grad_norm": 1.9503545761108398,
+      "learning_rate": 1.912429709465792e-05,
+      "loss": 0.2319,
+      "step": 2990
+    },
+    {
+      "epoch": 1.4058106841611997,
+      "grad_norm": 1.705707311630249,
+      "learning_rate": 1.912136832239925e-05,
+      "loss": 0.2462,
+      "step": 3000
+    },
+    {
+      "epoch": 1.4058106841611997,
+      "eval_loss": 0.04194045811891556,
+      "eval_pearson_cosine": 0.8164473390079152,
+      "eval_pearson_dot": 0.7394876158890895,
+      "eval_pearson_euclidean": 0.8038670284436478,
+      "eval_pearson_manhattan": 0.8050459887967918,
+      "eval_runtime": 3.394,
+      "eval_samples_per_second": 441.953,
+      "eval_spearman_cosine": 0.8192114591290918,
+      "eval_spearman_dot": 0.7393194455764386,
+      "eval_spearman_euclidean": 0.8132475290397445,
+      "eval_spearman_manhattan": 0.8142678938453525,
+      "eval_steps_per_second": 27.696,
+      "step": 3000
     }
   ],
   "logging_steps": 10,