Push best model used for final benchmarks

Browse files

Files changed (7) hide show

checkpoint-1648/model.safetensors +1 -1
checkpoint-1648/optimizer.pt +1 -1
checkpoint-1648/scheduler.pt +1 -1
checkpoint-1648/trainer_state.json +108 -108
checkpoint-1648/training_args.bin +1 -1
model.safetensors +1 -1
training_args.bin +1 -1

checkpoint-1648/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86ab942e305f61190437f2f888d80b07fe269a89c0e402f03e3cc2d723de3d5a
 size 435722224

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d0c3d44295b444882ec4ed1a8d61066ac9637e47262c52d91cd60b8212b07d5
 size 435722224

checkpoint-1648/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76975878bb8a2a9a02571bcb3b464a5514ca10400a2ce176c2c7e271ad0c9173
 size 871568779

 version https://git-lfs.github.com/spec/v1
+oid sha256:78a47822beb1e21616d3295a07135695d815b77d2d5a0dfa3ca24b96a1b68eb7
 size 871568779

checkpoint-1648/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:feb7d2bdde73ade7e73c1f77a5a57bf1e043fbc3604462498f583e066f26654e
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:db5d8d9d4bad86de0a2e5d55b08b70345344466be951bfd2a614c6f8d29c9696
 size 1465

checkpoint-1648/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 1648,
-  "best_metric": 0.8395802098950524,
   "best_model_checkpoint": "outputs/final-run/checkpoint-1648",
   "epoch": 2.0,
   "eval_steps": 500,
@@ -11,251 +11,251 @@
   "log_history": [
     {
       "epoch": 0.06071645415907711,
-      "grad_norm": 2.600313901901245,
-      "learning_rate": 4.99956375057862e-05,
-      "loss": 0.5421,
       "step": 50
     },
     {
       "epoch": 0.12143290831815422,
-      "grad_norm": 4.4589996337890625,
-      "learning_rate": 4.9982193680450675e-05,
-      "loss": 0.4591,
       "step": 100
     },
     {
       "epoch": 0.18214936247723132,
-      "grad_norm": 3.589561700820923,
-      "learning_rate": 4.995967159233452e-05,
-      "loss": 0.4624,
       "step": 150
     },
     {
       "epoch": 0.24286581663630843,
-      "grad_norm": 3.8662524223327637,
-      "learning_rate": 4.9928079425724366e-05,
-      "loss": 0.4368,
       "step": 200
     },
     {
       "epoch": 0.3035822707953855,
-      "grad_norm": 3.3014440536499023,
-      "learning_rate": 4.9887428660876684e-05,
-      "loss": 0.4216,
       "step": 250
     },
     {
       "epoch": 0.36429872495446264,
-      "grad_norm": 4.009673118591309,
-      "learning_rate": 4.983773406984593e-05,
-      "loss": 0.4185,
       "step": 300
     },
     {
       "epoch": 0.42501517911353975,
-      "grad_norm": 2.8996083736419678,
-      "learning_rate": 4.977901371111655e-05,
-      "loss": 0.4314,
       "step": 350
     },
     {
       "epoch": 0.48573163327261687,
-      "grad_norm": 2.7338497638702393,
-      "learning_rate": 4.9711288923040744e-05,
-      "loss": 0.4178,
       "step": 400
     },
     {
       "epoch": 0.546448087431694,
-      "grad_norm": 6.64998197555542,
-      "learning_rate": 4.963458431608428e-05,
-      "loss": 0.4043,
       "step": 450
     },
     {
       "epoch": 0.607164541590771,
-      "grad_norm": 3.944136142730713,
-      "learning_rate": 4.954892776388339e-05,
-      "loss": 0.3994,
       "step": 500
     },
     {
       "epoch": 0.6678809957498482,
-      "grad_norm": 3.0580732822418213,
-      "learning_rate": 4.945435039311571e-05,
-      "loss": 0.4064,
       "step": 550
     },
     {
       "epoch": 0.7285974499089253,
-      "grad_norm": 3.159543991088867,
-      "learning_rate": 4.9350886572189245e-05,
-      "loss": 0.3915,
       "step": 600
     },
     {
       "epoch": 0.7893139040680024,
-      "grad_norm": 4.5329179763793945,
-      "learning_rate": 4.923857389875321e-05,
-      "loss": 0.4053,
       "step": 650
     },
     {
       "epoch": 0.8500303582270795,
-      "grad_norm": 2.710742950439453,
-      "learning_rate": 4.9117453186035456e-05,
-      "loss": 0.4077,
       "step": 700
     },
     {
       "epoch": 0.9107468123861566,
-      "grad_norm": 2.4520299434661865,
-      "learning_rate": 4.89875684480114e-05,
       "loss": 0.3926,
       "step": 750
     },
     {
       "epoch": 0.9714632665452337,
-      "grad_norm": 3.0056350231170654,
-      "learning_rate": 4.8848966883409766e-05,
-      "loss": 0.4075,
       "step": 800
     },
     {
       "epoch": 1.0,
-      "eval_f1": 0.8390133073677377,
-      "eval_loss": 0.3913111984729767,
-      "eval_runtime": 7.8737,
-      "eval_samples_per_second": 743.364,
-      "eval_steps_per_second": 23.242,
       "step": 824
     },
     {
       "epoch": 1.03157255616272,
-      "grad_norm": 2.6414787769317627,
-      "learning_rate": 4.870169885856114e-05,
-      "loss": 0.3441,
       "step": 850
     },
     {
       "epoch": 1.0922890103217973,
-      "grad_norm": 2.945089340209961,
-      "learning_rate": 4.854581788909532e-05,
-      "loss": 0.293,
       "step": 900
     },
     {
       "epoch": 1.1530054644808743,
-      "grad_norm": 2.7380082607269287,
-      "learning_rate": 4.8381380620494354e-05,
-      "loss": 0.3113,
       "step": 950
     },
     {
       "epoch": 1.2137219186399515,
-      "grad_norm": 2.1502432823181152,
-      "learning_rate": 4.820844680750814e-05,
-      "loss": 0.3012,
       "step": 1000
     },
     {
       "epoch": 1.2744383727990285,
-      "grad_norm": 4.072315692901611,
-      "learning_rate": 4.802707929244018e-05,
-      "loss": 0.3268,
       "step": 1050
     },
     {
       "epoch": 1.3351548269581057,
-      "grad_norm": 2.6730897426605225,
-      "learning_rate": 4.783734398231141e-05,
-      "loss": 0.3096,
       "step": 1100
     },
     {
       "epoch": 1.3958712811171827,
-      "grad_norm": 4.062625885009766,
-      "learning_rate": 4.7639309824910264e-05,
-      "loss": 0.3139,
       "step": 1150
     },
     {
       "epoch": 1.4565877352762597,
-      "grad_norm": 2.571014165878296,
-      "learning_rate": 4.7433048783737735e-05,
-      "loss": 0.3133,
       "step": 1200
     },
     {
       "epoch": 1.517304189435337,
-      "grad_norm": 3.062384843826294,
-      "learning_rate": 4.7218635811856704e-05,
-      "loss": 0.3308,
       "step": 1250
     },
     {
       "epoch": 1.5780206435944142,
-      "grad_norm": 2.8530075550079346,
-      "learning_rate": 4.6996148824654696e-05,
-      "loss": 0.3231,
       "step": 1300
     },
     {
       "epoch": 1.6387370977534912,
-      "grad_norm": 2.6381242275238037,
-      "learning_rate": 4.676566867153034e-05,
-      "loss": 0.3301,
       "step": 1350
     },
     {
       "epoch": 1.6994535519125682,
-      "grad_norm": 2.3721017837524414,
-      "learning_rate": 4.65272791065135e-05,
-      "loss": 0.3321,
       "step": 1400
     },
     {
       "epoch": 1.7601700060716454,
-      "grad_norm": 3.9964609146118164,
-      "learning_rate": 4.628106675782998e-05,
-      "loss": 0.3264,
       "step": 1450
     },
     {
       "epoch": 1.8208864602307226,
-      "grad_norm": 3.1896886825561523,
-      "learning_rate": 4.602712109642177e-05,
-      "loss": 0.3328,
       "step": 1500
     },
     {
       "epoch": 1.8816029143897997,
-      "grad_norm": 2.351513385772705,
-      "learning_rate": 4.5765534403434204e-05,
-      "loss": 0.3185,
       "step": 1550
     },
     {
       "epoch": 1.9423193685488767,
-      "grad_norm": 6.150663375854492,
-      "learning_rate": 4.549640173668204e-05,
-      "loss": 0.322,
       "step": 1600
     },
     {
       "epoch": 2.0,
-      "eval_f1": 0.8395802098950524,
-      "eval_loss": 0.4083537757396698,
-      "eval_runtime": 7.8739,
-      "eval_samples_per_second": 743.34,
-      "eval_steps_per_second": 23.241,
       "step": 1648
     }
   ],
   "logging_steps": 50,
-  "max_steps": 8240,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {

 {
   "best_global_step": 1648,
+  "best_metric": 0.8455604792384703,
   "best_model_checkpoint": "outputs/final-run/checkpoint-1648",
   "epoch": 2.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.06071645415907711,
+      "grad_norm": 3.4753293991088867,
+      "learning_rate": 4.9993183714305955e-05,
+      "loss": 0.5491,
       "step": 50
     },
     {
       "epoch": 0.12143290831815422,
+      "grad_norm": 6.545201301574707,
+      "learning_rate": 4.997217948372208e-05,
+      "loss": 0.4501,
       "step": 100
     },
     {
       "epoch": 0.18214936247723132,
+      "grad_norm": 3.1810355186462402,
+      "learning_rate": 4.993699639509482e-05,
+      "loss": 0.4563,
       "step": 150
     },
     {
       "epoch": 0.24286581663630843,
+      "grad_norm": 4.675663471221924,
+      "learning_rate": 4.9887654424895166e-05,
+      "loss": 0.4388,
       "step": 200
     },
     {
       "epoch": 0.3035822707953855,
+      "grad_norm": 3.568342447280884,
+      "learning_rate": 4.982418158881122e-05,
+      "loss": 0.4243,
       "step": 250
     },
     {
       "epoch": 0.36429872495446264,
+      "grad_norm": 4.863748550415039,
+      "learning_rate": 4.974661392584119e-05,
+      "loss": 0.4231,
       "step": 300
     },
     {
       "epoch": 0.42501517911353975,
+      "grad_norm": 2.679159641265869,
+      "learning_rate": 4.965499547783105e-05,
+      "loss": 0.4259,
       "step": 350
     },
     {
       "epoch": 0.48573163327261687,
+      "grad_norm": 2.305194854736328,
+      "learning_rate": 4.954937826446812e-05,
+      "loss": 0.4091,
       "step": 400
     },
     {
       "epoch": 0.546448087431694,
+      "grad_norm": 6.192315578460693,
+      "learning_rate": 4.942982225374503e-05,
+      "loss": 0.4013,
       "step": 450
     },
     {
       "epoch": 0.607164541590771,
+      "grad_norm": 3.520240068435669,
+      "learning_rate": 4.9296395327910704e-05,
+      "loss": 0.4065,
       "step": 500
     },
     {
       "epoch": 0.6678809957498482,
+      "grad_norm": 3.2191152572631836,
+      "learning_rate": 4.914917324492781e-05,
+      "loss": 0.3986,
       "step": 550
     },
     {
       "epoch": 0.7285974499089253,
+      "grad_norm": 2.3364710807800293,
+      "learning_rate": 4.8988239595458375e-05,
+      "loss": 0.3958,
       "step": 600
     },
     {
       "epoch": 0.7893139040680024,
+      "grad_norm": 3.812765121459961,
+      "learning_rate": 4.881368575540219e-05,
+      "loss": 0.3984,
       "step": 650
     },
     {
       "epoch": 0.8500303582270795,
+      "grad_norm": 2.674964666366577,
+      "learning_rate": 4.8625610834014855e-05,
+      "loss": 0.4113,
       "step": 700
     },
     {
       "epoch": 0.9107468123861566,
+      "grad_norm": 1.985715389251709,
+      "learning_rate": 4.8424121617634884e-05,
       "loss": 0.3926,
       "step": 750
     },
     {
       "epoch": 0.9714632665452337,
+      "grad_norm": 2.5065205097198486,
+      "learning_rate": 4.820933250905191e-05,
+      "loss": 0.4014,
       "step": 800
     },
     {
       "epoch": 1.0,
+      "eval_f1": 0.837057576251835,
+      "eval_loss": 0.3876318335533142,
+      "eval_runtime": 7.9624,
+      "eval_samples_per_second": 735.081,
+      "eval_steps_per_second": 22.983,
       "step": 824
     },
     {
       "epoch": 1.03157255616272,
+      "grad_norm": 2.5298709869384766,
+      "learning_rate": 4.798136546255038e-05,
+      "loss": 0.3394,
       "step": 850
     },
     {
       "epoch": 1.0922890103217973,
+      "grad_norm": 3.7168054580688477,
+      "learning_rate": 4.774034991466558e-05,
+      "loss": 0.3,
       "step": 900
     },
     {
       "epoch": 1.1530054644808743,
+      "grad_norm": 3.277371883392334,
+      "learning_rate": 4.7486422710691366e-05,
+      "loss": 0.3123,
       "step": 950
     },
     {
       "epoch": 1.2137219186399515,
+      "grad_norm": 2.1234121322631836,
+      "learning_rate": 4.7219728026981314e-05,
+      "loss": 0.3003,
       "step": 1000
     },
     {
       "epoch": 1.2744383727990285,
+      "grad_norm": 3.3195674419403076,
+      "learning_rate": 4.694041728908733e-05,
+      "loss": 0.3238,
       "step": 1050
     },
     {
       "epoch": 1.3351548269581057,
+      "grad_norm": 3.5936930179595947,
+      "learning_rate": 4.66486490857824e-05,
+      "loss": 0.3151,
       "step": 1100
     },
     {
       "epoch": 1.3958712811171827,
+      "grad_norm": 3.6757988929748535,
+      "learning_rate": 4.6344589079016e-05,
+      "loss": 0.3123,
       "step": 1150
     },
     {
       "epoch": 1.4565877352762597,
+      "grad_norm": 5.673912048339844,
+      "learning_rate": 4.6028409909853585e-05,
+      "loss": 0.3232,
       "step": 1200
     },
     {
       "epoch": 1.517304189435337,
+      "grad_norm": 2.754713296890259,
+      "learning_rate": 4.570029110045335e-05,
+      "loss": 0.3303,
       "step": 1250
     },
     {
       "epoch": 1.5780206435944142,
+      "grad_norm": 2.9985156059265137,
+      "learning_rate": 4.536041895213605e-05,
+      "loss": 0.3259,
       "step": 1300
     },
     {
       "epoch": 1.6387370977534912,
+      "grad_norm": 2.9103963375091553,
+      "learning_rate": 4.500898643960567e-05,
+      "loss": 0.3346,
       "step": 1350
     },
     {
       "epoch": 1.6994535519125682,
+      "grad_norm": 3.4398272037506104,
+      "learning_rate": 4.4646193101381076e-05,
+      "loss": 0.3293,
       "step": 1400
     },
     {
       "epoch": 1.7601700060716454,
+      "grad_norm": 4.817779541015625,
+      "learning_rate": 4.427224492650079e-05,
+      "loss": 0.332,
       "step": 1450
     },
     {
       "epoch": 1.8208864602307226,
+      "grad_norm": 3.6065807342529297,
+      "learning_rate": 4.3887354237565295e-05,
+      "loss": 0.3382,
       "step": 1500
     },
     {
       "epoch": 1.8816029143897997,
+      "grad_norm": 2.9802093505859375,
+      "learning_rate": 4.349173957018313e-05,
+      "loss": 0.3156,
       "step": 1550
     },
     {
       "epoch": 1.9423193685488767,
+      "grad_norm": 3.462924003601074,
+      "learning_rate": 4.308562554888948e-05,
+      "loss": 0.3222,
       "step": 1600
     },
     {
       "epoch": 2.0,
+      "eval_f1": 0.8455604792384703,
+      "eval_loss": 0.393000990152359,
+      "eval_runtime": 7.9543,
+      "eval_samples_per_second": 735.824,
+      "eval_steps_per_second": 23.006,
       "step": 1648
     }
   ],
   "logging_steps": 50,
+  "max_steps": 6592,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {

checkpoint-1648/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e5624c1d30b611ca76a53ce896f111af2d2aaa730e1008205e8270c5a108248
 size 5841

 version https://git-lfs.github.com/spec/v1
+oid sha256:b0221b0985a092f694f3db06f567abeb34e42c7cba58b22c6934141de4b2245c
 size 5841

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69dd3bf148c59aaf31fc10c1cb18c0183dd902cf46015a867b2230f0a62f2e3a
 size 435722224

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d0c3d44295b444882ec4ed1a8d61066ac9637e47262c52d91cd60b8212b07d5
 size 435722224

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f88b0df8840444e7236f1853ca7948048e7723185bbb9834773b915cc6955be
 size 5841

 version https://git-lfs.github.com/spec/v1
+oid sha256:b0221b0985a092f694f3db06f567abeb34e42c7cba58b22c6934141de4b2245c
 size 5841