Training checkpoint - Epoch 1, Step 8592

Browse files

Files changed (8) hide show

checkpoint-8592/model.safetensors +1 -1
checkpoint-8592/optimizer.pt +1 -1
checkpoint-8592/rng_state.pth +1 -1
checkpoint-8592/scaler.pt +1 -1
checkpoint-8592/scheduler.pt +1 -1
checkpoint-8592/trainer_state.json +138 -138
checkpoint-8592/training_args.bin +1 -1
checkpoint-8592/training_metrics.json +34 -34

checkpoint-8592/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89a61c487beb363b9f2ba06b81ddc3e53d6b0a2c639ee23e6952bd7780510834
 size 90864192

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d1a4111577ef4d291e80e5292f0f3c219b62e62ef9abecf13ac1d65f8f5dc4f
 size 90864192

checkpoint-8592/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ed2077cd1424a4bd6263b74c29ad763d99139dddac5cda268504b7e6a29c62a
 size 180607738

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a100d193183d7e7b094edbc47b60e62ce79dd9f643b10003c192501c3c5c5b4
 size 180607738

checkpoint-8592/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed8957d8449ae46b38d8fe19fffa1ae3f7b3df2da18808afae432603b2da24ba
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc2590fb0ec9cda487c083dd0ef28aca961dbe4136bc2c4ee0e715bcfbe0d3e7
 size 14244

checkpoint-8592/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8af7a0439d0c5b73969913ee5bf0dce610cfc36e12df7e585d423d497b4b4781
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b53a8e07ee4daabf485fd62b89cf48e6127315454b1d158f92cddba68d6165d
 size 988

checkpoint-8592/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a793324604a443d51136ef867b5388749921f4ed6b25fd241c495cebbb15b87c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a22a0371420d37f26bb457170020470f80c985620cede98e6725eac95d9b56d3
 size 1064

checkpoint-8592/trainer_state.json CHANGED Viewed

@@ -11,281 +11,281 @@
   "log_history": [
     {
       "epoch": 0.00011638733705772812,
-      "grad_norm": Infinity,
       "learning_rate": 0.0,
-      "loss": 9.4531,
       "step": 1
     },
     {
       "epoch": 0.05819366852886406,
-      "grad_norm": 6.4754815101623535,
-      "learning_rate": 1.7390292166220463e-06,
-      "loss": 6.7666,
       "step": 500
     },
     {
       "epoch": 0.05819366852886406,
-      "eval_cosine_accuracy": 0.9417916536331177,
-      "eval_loss": 4.736684322357178,
-      "eval_runtime": 26.7399,
-      "eval_samples_per_second": 354.003,
-      "eval_steps_per_second": 1.384,
       "step": 500
     },
     {
       "epoch": 0.11638733705772812,
-      "grad_norm": 5.042841911315918,
-      "learning_rate": 3.4850424863228964e-06,
-      "loss": 4.0612,
       "step": 1000
     },
     {
       "epoch": 0.11638733705772812,
-      "eval_cosine_accuracy": 0.9421085715293884,
-      "eval_loss": 4.456507682800293,
-      "eval_runtime": 27.0721,
-      "eval_samples_per_second": 349.659,
-      "eval_steps_per_second": 1.367,
       "step": 1000
     },
     {
       "epoch": 0.17458100558659218,
-      "grad_norm": 4.396075248718262,
-      "learning_rate": 5.2310557560237455e-06,
-      "loss": 3.8306,
       "step": 1500
     },
     {
       "epoch": 0.17458100558659218,
-      "eval_cosine_accuracy": 0.9389393329620361,
-      "eval_loss": 4.417118072509766,
-      "eval_runtime": 29.5299,
-      "eval_samples_per_second": 320.556,
-      "eval_steps_per_second": 1.253,
       "step": 1500
     },
     {
       "epoch": 0.23277467411545624,
-      "grad_norm": 4.9983229637146,
-      "learning_rate": 6.9770690257245955e-06,
-      "loss": 3.7166,
       "step": 2000
     },
     {
       "epoch": 0.23277467411545624,
-      "eval_cosine_accuracy": 0.9376716613769531,
-      "eval_loss": 4.384617805480957,
-      "eval_runtime": 27.1288,
-      "eval_samples_per_second": 348.928,
-      "eval_steps_per_second": 1.364,
       "step": 2000
     },
     {
       "epoch": 0.2909683426443203,
-      "grad_norm": 5.1397552490234375,
-      "learning_rate": 8.723082295425445e-06,
-      "loss": 3.5906,
       "step": 2500
     },
     {
       "epoch": 0.2909683426443203,
-      "eval_cosine_accuracy": 0.929537296295166,
-      "eval_loss": 4.382342338562012,
-      "eval_runtime": 27.2377,
-      "eval_samples_per_second": 347.534,
-      "eval_steps_per_second": 1.358,
       "step": 2500
     },
     {
       "epoch": 0.34916201117318435,
-      "grad_norm": 5.401367664337158,
-      "learning_rate": 1.0469095565126295e-05,
-      "loss": 3.504,
       "step": 3000
     },
     {
       "epoch": 0.34916201117318435,
-      "eval_cosine_accuracy": 0.9236213564872742,
-      "eval_loss": 4.398530006408691,
-      "eval_runtime": 27.2096,
-      "eval_samples_per_second": 347.891,
-      "eval_steps_per_second": 1.36,
       "step": 3000
     },
     {
       "epoch": 0.4073556797020484,
-      "grad_norm": 5.506592273712158,
-      "learning_rate": 1.2215108834827144e-05,
-      "loss": 3.4064,
       "step": 3500
     },
     {
       "epoch": 0.4073556797020484,
-      "eval_cosine_accuracy": 0.9207690954208374,
-      "eval_loss": 4.428633689880371,
-      "eval_runtime": 27.2549,
-      "eval_samples_per_second": 347.314,
-      "eval_steps_per_second": 1.358,
       "step": 3500
     },
     {
       "epoch": 0.4655493482309125,
-      "grad_norm": 6.144413471221924,
-      "learning_rate": 1.3961122104527995e-05,
-      "loss": 3.3219,
       "step": 4000
     },
     {
       "epoch": 0.4655493482309125,
-      "eval_cosine_accuracy": 0.9240439534187317,
-      "eval_loss": 4.413504600524902,
-      "eval_runtime": 27.1733,
-      "eval_samples_per_second": 348.357,
-      "eval_steps_per_second": 1.362,
       "step": 4000
     },
     {
       "epoch": 0.5237430167597765,
-      "grad_norm": 6.7739691734313965,
-      "learning_rate": 1.570364334768944e-05,
-      "loss": 3.2308,
       "step": 4500
     },
     {
       "epoch": 0.5237430167597765,
-      "eval_cosine_accuracy": 0.9183393120765686,
-      "eval_loss": 4.584815979003906,
-      "eval_runtime": 27.4916,
-      "eval_samples_per_second": 344.324,
-      "eval_steps_per_second": 1.346,
       "step": 4500
     },
     {
       "epoch": 0.5819366852886406,
-      "grad_norm": 7.5280914306640625,
-      "learning_rate": 1.7449656617390294e-05,
-      "loss": 3.1167,
       "step": 5000
     },
     {
       "epoch": 0.5819366852886406,
-      "eval_cosine_accuracy": 0.9231988191604614,
-      "eval_loss": 4.731673240661621,
-      "eval_runtime": 27.9733,
-      "eval_samples_per_second": 338.394,
-      "eval_steps_per_second": 1.323,
       "step": 5000
     },
     {
       "epoch": 0.6401303538175046,
-      "grad_norm": 8.379385948181152,
-      "learning_rate": 1.919217786055174e-05,
-      "loss": 3.0155,
       "step": 5500
     },
     {
       "epoch": 0.6401303538175046,
-      "eval_cosine_accuracy": 0.9202408790588379,
-      "eval_loss": 4.590743064880371,
-      "eval_runtime": 30.4387,
-      "eval_samples_per_second": 310.985,
-      "eval_steps_per_second": 1.216,
       "step": 5500
     },
     {
       "epoch": 0.6983240223463687,
-      "grad_norm": 7.9107985496521,
-      "learning_rate": 2.093819113025259e-05,
-      "loss": 2.928,
       "step": 6000
     },
     {
       "epoch": 0.6983240223463687,
-      "eval_cosine_accuracy": 0.9188675284385681,
-      "eval_loss": 4.662985324859619,
-      "eval_runtime": 27.6404,
-      "eval_samples_per_second": 342.469,
-      "eval_steps_per_second": 1.339,
       "step": 6000
     },
     {
       "epoch": 0.7565176908752328,
-      "grad_norm": 8.108757972717285,
-      "learning_rate": 2.268420439995344e-05,
-      "loss": 2.8455,
       "step": 6500
     },
     {
       "epoch": 0.7565176908752328,
-      "eval_cosine_accuracy": 0.9199239611625671,
-      "eval_loss": 4.784646511077881,
-      "eval_runtime": 27.3827,
-      "eval_samples_per_second": 345.693,
-      "eval_steps_per_second": 1.351,
       "step": 6500
     },
     {
       "epoch": 0.8147113594040968,
-      "grad_norm": 8.092316627502441,
-      "learning_rate": 2.443021766965429e-05,
-      "loss": 2.7847,
       "step": 7000
     },
     {
       "epoch": 0.8147113594040968,
-      "eval_cosine_accuracy": 0.9054510593414307,
-      "eval_loss": 4.925645351409912,
-      "eval_runtime": 27.6051,
-      "eval_samples_per_second": 342.908,
-      "eval_steps_per_second": 1.34,
       "step": 7000
     },
     {
       "epoch": 0.8729050279329609,
-      "grad_norm": 8.676020622253418,
-      "learning_rate": 2.617623093935514e-05,
-      "loss": 2.7228,
       "step": 7500
     },
     {
       "epoch": 0.8729050279329609,
-      "eval_cosine_accuracy": 0.9056623578071594,
-      "eval_loss": 4.843690395355225,
-      "eval_runtime": 27.3545,
-      "eval_samples_per_second": 346.049,
-      "eval_steps_per_second": 1.353,
       "step": 7500
     },
     {
       "epoch": 0.931098696461825,
-      "grad_norm": 9.083893775939941,
-      "learning_rate": 2.791875218251659e-05,
-      "loss": 2.6738,
       "step": 8000
     },
     {
       "epoch": 0.931098696461825,
-      "eval_cosine_accuracy": 0.907247006893158,
-      "eval_loss": 4.833749771118164,
-      "eval_runtime": 27.6952,
-      "eval_samples_per_second": 341.791,
-      "eval_steps_per_second": 1.336,
       "step": 8000
     },
     {
       "epoch": 0.9892923649906891,
-      "grad_norm": 7.430295944213867,
-      "learning_rate": 2.9664765452217438e-05,
-      "loss": 2.6174,
       "step": 8500
     },
     {
       "epoch": 0.9892923649906891,
-      "eval_cosine_accuracy": 0.9006972312927246,
-      "eval_loss": 4.809013366699219,
-      "eval_runtime": 27.7002,
-      "eval_samples_per_second": 341.731,
-      "eval_steps_per_second": 1.336,
       "step": 8500
     }
   ],

   "log_history": [
     {
       "epoch": 0.00011638733705772812,
+      "grad_norm": 8.116299629211426,
       "learning_rate": 0.0,
+      "loss": 2.7266,
       "step": 1
     },
     {
       "epoch": 0.05819366852886406,
+      "grad_norm": 57.76313781738281,
+      "learning_rate": 1.732045163543243e-06,
+      "loss": 3.7373,
       "step": 500
     },
     {
       "epoch": 0.05819366852886406,
+      "eval_cosine_accuracy": 0.9404736757278442,
+      "eval_loss": 2.536726713180542,
+      "eval_runtime": 26.2292,
+      "eval_samples_per_second": 360.59,
+      "eval_steps_per_second": 1.411,
       "step": 500
     },
     {
       "epoch": 0.11638733705772812,
+      "grad_norm": 5.569820880889893,
+      "learning_rate": 3.4780584332440925e-06,
+      "loss": 2.8655,
       "step": 1000
     },
     {
       "epoch": 0.11638733705772812,
+      "eval_cosine_accuracy": 0.9364559054374695,
+      "eval_loss": 2.6046745777130127,
+      "eval_runtime": 26.7465,
+      "eval_samples_per_second": 353.617,
+      "eval_steps_per_second": 1.383,
       "step": 1000
     },
     {
       "epoch": 0.17458100558659218,
+      "grad_norm": 5.892590045928955,
+      "learning_rate": 5.224071702944943e-06,
+      "loss": 2.3859,
       "step": 1500
     },
     {
       "epoch": 0.17458100558659218,
+      "eval_cosine_accuracy": 0.9412137866020203,
+      "eval_loss": 2.540637969970703,
+      "eval_runtime": 26.8122,
+      "eval_samples_per_second": 352.75,
+      "eval_steps_per_second": 1.38,
       "step": 1500
     },
     {
       "epoch": 0.23277467411545624,
+      "grad_norm": 41.33493423461914,
+      "learning_rate": 6.970084972645793e-06,
+      "loss": 2.1884,
       "step": 2000
     },
     {
       "epoch": 0.23277467411545624,
+      "eval_cosine_accuracy": 0.9451258182525635,
+      "eval_loss": 2.5318424701690674,
+      "eval_runtime": 26.0188,
+      "eval_samples_per_second": 363.506,
+      "eval_steps_per_second": 1.422,
       "step": 2000
     },
     {
       "epoch": 0.2909683426443203,
+      "grad_norm": 15.76939582824707,
+      "learning_rate": 8.71260621580724e-06,
+      "loss": 1.9576,
       "step": 2500
     },
     {
       "epoch": 0.2909683426443203,
+      "eval_cosine_accuracy": 0.9467117786407471,
+      "eval_loss": 2.474266767501831,
+      "eval_runtime": 26.2939,
+      "eval_samples_per_second": 359.703,
+      "eval_steps_per_second": 1.407,
       "step": 2500
     },
     {
       "epoch": 0.34916201117318435,
+      "grad_norm": 7.4116950035095215,
+      "learning_rate": 1.045861948550809e-05,
+      "loss": 1.8211,
       "step": 3000
     },
     {
       "epoch": 0.34916201117318435,
+      "eval_cosine_accuracy": 0.9435398578643799,
+      "eval_loss": 2.547072649002075,
+      "eval_runtime": 26.1008,
+      "eval_samples_per_second": 362.365,
+      "eval_steps_per_second": 1.418,
       "step": 3000
     },
     {
       "epoch": 0.4073556797020484,
+      "grad_norm": 25.99747657775879,
+      "learning_rate": 1.2204632755208939e-05,
+      "loss": 1.6603,
       "step": 3500
     },
     {
       "epoch": 0.4073556797020484,
+      "eval_cosine_accuracy": 0.9489321112632751,
+      "eval_loss": 2.472174644470215,
+      "eval_runtime": 27.1444,
+      "eval_samples_per_second": 348.433,
+      "eval_steps_per_second": 1.363,
       "step": 3500
     },
     {
       "epoch": 0.4655493482309125,
+      "grad_norm": 5.763104438781738,
+      "learning_rate": 1.395064602490979e-05,
+      "loss": 1.596,
       "step": 4000
     },
     {
       "epoch": 0.4655493482309125,
+      "eval_cosine_accuracy": 0.9438570737838745,
+      "eval_loss": 2.5426251888275146,
+      "eval_runtime": 28.2718,
+      "eval_samples_per_second": 334.538,
+      "eval_steps_per_second": 1.309,
       "step": 4000
     },
     {
       "epoch": 0.5237430167597765,
+      "grad_norm": 4.893315315246582,
+      "learning_rate": 1.5693167268071237e-05,
+      "loss": 1.5379,
       "step": 4500
     },
     {
       "epoch": 0.5237430167597765,
+      "eval_cosine_accuracy": 0.9473461508750916,
+      "eval_loss": 2.4768149852752686,
+      "eval_runtime": 28.2378,
+      "eval_samples_per_second": 334.941,
+      "eval_steps_per_second": 1.31,
       "step": 4500
     },
     {
       "epoch": 0.5819366852886406,
+      "grad_norm": 43.368614196777344,
+      "learning_rate": 1.7439180537772086e-05,
+      "loss": 1.5397,
       "step": 5000
     },
     {
       "epoch": 0.5819366852886406,
+      "eval_cosine_accuracy": 0.9487206339836121,
+      "eval_loss": 2.4771170616149902,
+      "eval_runtime": 28.4116,
+      "eval_samples_per_second": 332.892,
+      "eval_steps_per_second": 1.302,
       "step": 5000
     },
     {
       "epoch": 0.6401303538175046,
+      "grad_norm": 0.21546457707881927,
+      "learning_rate": 1.9185193807472936e-05,
+      "loss": 1.381,
       "step": 5500
     },
     {
       "epoch": 0.6401303538175046,
+      "eval_cosine_accuracy": 0.9412137866020203,
+      "eval_loss": 2.6126925945281982,
+      "eval_runtime": 28.5708,
+      "eval_samples_per_second": 331.037,
+      "eval_steps_per_second": 1.295,
       "step": 5500
     },
     {
       "epoch": 0.6983240223463687,
+      "grad_norm": 27.70214080810547,
+      "learning_rate": 2.0931207077173788e-05,
+      "loss": 1.4407,
       "step": 6000
     },
     {
       "epoch": 0.6983240223463687,
+      "eval_cosine_accuracy": 0.9492493271827698,
+      "eval_loss": 2.457711935043335,
+      "eval_runtime": 28.3495,
+      "eval_samples_per_second": 333.621,
+      "eval_steps_per_second": 1.305,
       "step": 6000
     },
     {
       "epoch": 0.7565176908752328,
+      "grad_norm": 0.6600456237792969,
+      "learning_rate": 2.2677220346874637e-05,
+      "loss": 1.3692,
       "step": 6500
     },
     {
       "epoch": 0.7565176908752328,
+      "eval_cosine_accuracy": 0.9438570737838745,
+      "eval_loss": 2.48168683052063,
+      "eval_runtime": 28.3758,
+      "eval_samples_per_second": 333.313,
+      "eval_steps_per_second": 1.304,
       "step": 6500
     },
     {
       "epoch": 0.8147113594040968,
+      "grad_norm": 15.486236572265625,
+      "learning_rate": 2.4419741590036085e-05,
+      "loss": 1.2731,
       "step": 7000
     },
     {
       "epoch": 0.8147113594040968,
+      "eval_cosine_accuracy": 0.943751335144043,
+      "eval_loss": 2.5139832496643066,
+      "eval_runtime": 28.0964,
+      "eval_samples_per_second": 336.627,
+      "eval_steps_per_second": 1.317,
       "step": 7000
     },
     {
       "epoch": 0.8729050279329609,
+      "grad_norm": 13.570350646972656,
+      "learning_rate": 2.6165754859736934e-05,
+      "loss": 1.223,
       "step": 7500
     },
     {
       "epoch": 0.8729050279329609,
+      "eval_cosine_accuracy": 0.9494607448577881,
+      "eval_loss": 2.4431588649749756,
+      "eval_runtime": 28.2933,
+      "eval_samples_per_second": 334.285,
+      "eval_steps_per_second": 1.308,
       "step": 7500
     },
     {
       "epoch": 0.931098696461825,
+      "grad_norm": 4.8542633056640625,
+      "learning_rate": 2.7911768129437783e-05,
+      "loss": 1.1982,
       "step": 8000
     },
     {
       "epoch": 0.931098696461825,
+      "eval_cosine_accuracy": 0.9420596361160278,
+      "eval_loss": 2.5187907218933105,
+      "eval_runtime": 28.0669,
+      "eval_samples_per_second": 336.98,
+      "eval_steps_per_second": 1.318,
       "step": 8000
     },
     {
       "epoch": 0.9892923649906891,
+      "grad_norm": 36.649906158447266,
+      "learning_rate": 2.9657781399138632e-05,
+      "loss": 1.1693,
       "step": 8500
     },
     {
       "epoch": 0.9892923649906891,
+      "eval_cosine_accuracy": 0.9469232559204102,
+      "eval_loss": 2.4668424129486084,
+      "eval_runtime": 28.3845,
+      "eval_samples_per_second": 333.21,
+      "eval_steps_per_second": 1.304,
       "step": 8500
     }
   ],

checkpoint-8592/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2efd1e792aece673d4f9c02b27251769a72b304f7949f137f2a4d2582ff9c2ea
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb5dbf286f9bcff890fd932c91238ff7e047b1e1b1921ecabbd4cf0142ff6086
 size 5688

checkpoint-8592/training_metrics.json CHANGED Viewed

@@ -3,104 +3,104 @@
     {
       "epoch": 0.05819366852886406,
       "global_step": 500,
-      "eval_loss": 4.736684322357178,
-      "eval_cosine_accuracy": 0.9417916536331177
     },
     {
       "epoch": 0.11638733705772812,
       "global_step": 1000,
-      "eval_loss": 4.456507682800293,
-      "eval_cosine_accuracy": 0.9421085715293884
     },
     {
       "epoch": 0.17458100558659218,
       "global_step": 1500,
-      "eval_loss": 4.417118072509766,
-      "eval_cosine_accuracy": 0.9389393329620361
     },
     {
       "epoch": 0.23277467411545624,
       "global_step": 2000,
-      "eval_loss": 4.384617805480957,
-      "eval_cosine_accuracy": 0.9376716613769531
     },
     {
       "epoch": 0.2909683426443203,
       "global_step": 2500,
-      "eval_loss": 4.382342338562012,
-      "eval_cosine_accuracy": 0.929537296295166
     },
     {
       "epoch": 0.34916201117318435,
       "global_step": 3000,
-      "eval_loss": 4.398530006408691,
-      "eval_cosine_accuracy": 0.9236213564872742
     },
     {
       "epoch": 0.4073556797020484,
       "global_step": 3500,
-      "eval_loss": 4.428633689880371,
-      "eval_cosine_accuracy": 0.9207690954208374
     },
     {
       "epoch": 0.4655493482309125,
       "global_step": 4000,
-      "eval_loss": 4.413504600524902,
-      "eval_cosine_accuracy": 0.9240439534187317
     },
     {
       "epoch": 0.5237430167597765,
       "global_step": 4500,
-      "eval_loss": 4.584815979003906,
-      "eval_cosine_accuracy": 0.9183393120765686
     },
     {
       "epoch": 0.5819366852886406,
       "global_step": 5000,
-      "eval_loss": 4.731673240661621,
-      "eval_cosine_accuracy": 0.9231988191604614
     },
     {
       "epoch": 0.6401303538175046,
       "global_step": 5500,
-      "eval_loss": 4.590743064880371,
-      "eval_cosine_accuracy": 0.9202408790588379
     },
     {
       "epoch": 0.6983240223463687,
       "global_step": 6000,
-      "eval_loss": 4.662985324859619,
-      "eval_cosine_accuracy": 0.9188675284385681
     },
     {
       "epoch": 0.7565176908752328,
       "global_step": 6500,
-      "eval_loss": 4.784646511077881,
-      "eval_cosine_accuracy": 0.9199239611625671
     },
     {
       "epoch": 0.8147113594040968,
       "global_step": 7000,
-      "eval_loss": 4.925645351409912,
-      "eval_cosine_accuracy": 0.9054510593414307
     },
     {
       "epoch": 0.8729050279329609,
       "global_step": 7500,
-      "eval_loss": 4.843690395355225,
-      "eval_cosine_accuracy": 0.9056623578071594
     },
     {
       "epoch": 0.931098696461825,
       "global_step": 8000,
-      "eval_loss": 4.833749771118164,
-      "eval_cosine_accuracy": 0.907247006893158
     },
     {
       "epoch": 0.9892923649906891,
       "global_step": 8500,
-      "eval_loss": 4.809013366699219,
-      "eval_cosine_accuracy": 0.9006972312927246
     }
   ],
   "current_epoch": 1,

     {
       "epoch": 0.05819366852886406,
       "global_step": 500,
+      "eval_loss": 2.536726713180542,
+      "eval_cosine_accuracy": 0.9404736757278442
     },
     {
       "epoch": 0.11638733705772812,
       "global_step": 1000,
+      "eval_loss": 2.6046745777130127,
+      "eval_cosine_accuracy": 0.9364559054374695
     },
     {
       "epoch": 0.17458100558659218,
       "global_step": 1500,
+      "eval_loss": 2.540637969970703,
+      "eval_cosine_accuracy": 0.9412137866020203
     },
     {
       "epoch": 0.23277467411545624,
       "global_step": 2000,
+      "eval_loss": 2.5318424701690674,
+      "eval_cosine_accuracy": 0.9451258182525635
     },
     {
       "epoch": 0.2909683426443203,
       "global_step": 2500,
+      "eval_loss": 2.474266767501831,
+      "eval_cosine_accuracy": 0.9467117786407471
     },
     {
       "epoch": 0.34916201117318435,
       "global_step": 3000,
+      "eval_loss": 2.547072649002075,
+      "eval_cosine_accuracy": 0.9435398578643799
     },
     {
       "epoch": 0.4073556797020484,
       "global_step": 3500,
+      "eval_loss": 2.472174644470215,
+      "eval_cosine_accuracy": 0.9489321112632751
     },
     {
       "epoch": 0.4655493482309125,
       "global_step": 4000,
+      "eval_loss": 2.5426251888275146,
+      "eval_cosine_accuracy": 0.9438570737838745
     },
     {
       "epoch": 0.5237430167597765,
       "global_step": 4500,
+      "eval_loss": 2.4768149852752686,
+      "eval_cosine_accuracy": 0.9473461508750916
     },
     {
       "epoch": 0.5819366852886406,
       "global_step": 5000,
+      "eval_loss": 2.4771170616149902,
+      "eval_cosine_accuracy": 0.9487206339836121
     },
     {
       "epoch": 0.6401303538175046,
       "global_step": 5500,
+      "eval_loss": 2.6126925945281982,
+      "eval_cosine_accuracy": 0.9412137866020203
     },
     {
       "epoch": 0.6983240223463687,
       "global_step": 6000,
+      "eval_loss": 2.457711935043335,
+      "eval_cosine_accuracy": 0.9492493271827698
     },
     {
       "epoch": 0.7565176908752328,
       "global_step": 6500,
+      "eval_loss": 2.48168683052063,
+      "eval_cosine_accuracy": 0.9438570737838745
     },
     {
       "epoch": 0.8147113594040968,
       "global_step": 7000,
+      "eval_loss": 2.5139832496643066,
+      "eval_cosine_accuracy": 0.943751335144043
     },
     {
       "epoch": 0.8729050279329609,
       "global_step": 7500,
+      "eval_loss": 2.4431588649749756,
+      "eval_cosine_accuracy": 0.9494607448577881
     },
     {
       "epoch": 0.931098696461825,
       "global_step": 8000,
+      "eval_loss": 2.5187907218933105,
+      "eval_cosine_accuracy": 0.9420596361160278
     },
     {
       "epoch": 0.9892923649906891,
       "global_step": 8500,
+      "eval_loss": 2.4668424129486084,
+      "eval_cosine_accuracy": 0.9469232559204102
     }
   ],
   "current_epoch": 1,