Training in progress, step 1908

Browse files

Files changed (8) hide show

model.safetensors +1 -1
run-0/checkpoint-1908/config.json +1 -1
run-0/checkpoint-1908/model.safetensors +1 -1
run-0/checkpoint-1908/optimizer.pt +1 -1
run-0/checkpoint-1908/rng_state.pth +1 -1
run-0/checkpoint-1908/trainer_state.json +66 -45
run-0/checkpoint-1908/training_args.bin +1 -1
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:518331da269c662ee8830603381cbda2d35ec5ecdd797b4d2687723047940dab
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae6703ccdf17348312313e50fadfbcd524f63c2c308cf6108eea38721f3dcc4b
 size 268290900

run-0/checkpoint-1908/config.json CHANGED Viewed

@@ -325,6 +325,6 @@
   "seq_classif_dropout": 0.2,
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
-  "transformers_version": "4.57.0",
   "vocab_size": 30522
 }

   "seq_classif_dropout": 0.2,
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
+  "transformers_version": "4.57.1",
   "vocab_size": 30522
 }

run-0/checkpoint-1908/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa1ae5e2c4fd0dbdc858eb943503d5d02d6bdcd7cf73efb5f11d893bfd0fe90b
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae6703ccdf17348312313e50fadfbcd524f63c2c308cf6108eea38721f3dcc4b
 size 268290900

run-0/checkpoint-1908/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dff0a9409988dc578fad267022fc1473bd315a7d1f3baef1e34ae7138fd8c74e
 size 536645835

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f749146330a15d2c3dab070f988f3cde7e87b636f5278eaa8ed6a374e0a9f71
 size 536645835

run-0/checkpoint-1908/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41515894a907f055957ca1bcf7cd465bce98c3eb7dbcbbe063af0c31a41d495d
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:57c5c828e912fe4f6472cbb9b4d4e6ff70cfdd888b55d7a6b18a985c7d794d58
 size 14645

run-0/checkpoint-1908/trainer_state.json CHANGED Viewed

@@ -9,78 +9,99 @@
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.69,
-      "eval_loss": 0.20655198395252228,
-      "eval_runtime": 1.0895,
-      "eval_samples_per_second": 2845.214,
-      "eval_steps_per_second": 59.658,
       "step": 318
     },
     {
-      "epoch": 1.5723270440251573,
-      "grad_norm": 0.6757088303565979,
-      "learning_rate": 1.4769392033542977e-05,
-      "loss": 0.394,
-      "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8238709677419355,
-      "eval_loss": 0.054807424545288086,
-      "eval_runtime": 1.1062,
-      "eval_samples_per_second": 2802.484,
-      "eval_steps_per_second": 58.762,
       "step": 636
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8574193548387097,
-      "eval_loss": 0.020307132974267006,
-      "eval_runtime": 1.0941,
-      "eval_samples_per_second": 2833.344,
-      "eval_steps_per_second": 59.409,
       "step": 954
     },
     {
-      "epoch": 3.1446540880503147,
-      "grad_norm": 0.37207934260368347,
-      "learning_rate": 9.528301886792455e-06,
-      "loss": 0.0889,
-      "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8745161290322581,
-      "eval_loss": 0.011259685270488262,
-      "eval_runtime": 1.0904,
-      "eval_samples_per_second": 2842.954,
-      "eval_steps_per_second": 59.61,
       "step": 1272
     },
     {
-      "epoch": 4.716981132075472,
-      "grad_norm": 0.2620565891265869,
-      "learning_rate": 4.287211740041929e-06,
-      "loss": 0.0498,
-      "step": 1500
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.8835483870967742,
-      "eval_loss": 0.008391091600060463,
-      "eval_runtime": 1.1151,
-      "eval_samples_per_second": 2780.007,
-      "eval_steps_per_second": 58.29,
       "step": 1590
     }
   ],
-  "logging_steps": 500,
   "max_steps": 1908,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 6,
-  "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -93,12 +114,12 @@
       "attributes": {}
     }
   },
-  "total_flos": 391368939443328.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.8970714832139004,
     "num_train_epochs": 6,
-    "temperature": 3
   }
 }

   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.9968553459119497,
+      "grad_norm": 8.542065620422363,
+      "learning_rate": 1.668763102725367e-05,
+      "loss": 19.3867,
+      "step": 317
+    },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.0070967741935483875,
+      "eval_loss": 15.982450485229492,
+      "eval_runtime": 7.4965,
+      "eval_samples_per_second": 413.525,
+      "eval_steps_per_second": 8.671,
       "step": 318
     },
     {
+      "epoch": 1.9937106918238994,
+      "grad_norm": 15.621566772460938,
+      "learning_rate": 1.3364779874213839e-05,
+      "loss": 14.5452,
+      "step": 634
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.004838709677419355,
+      "eval_loss": 13.407492637634277,
+      "eval_runtime": 7.6188,
+      "eval_samples_per_second": 406.887,
+      "eval_steps_per_second": 8.532,
       "step": 636
     },
+    {
+      "epoch": 2.990566037735849,
+      "grad_norm": 26.90778350830078,
+      "learning_rate": 1.0041928721174005e-05,
+      "loss": 12.1177,
+      "step": 951
+    },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.003870967741935484,
+      "eval_loss": 11.682502746582031,
+      "eval_runtime": 7.556,
+      "eval_samples_per_second": 410.27,
+      "eval_steps_per_second": 8.602,
       "step": 954
     },
     {
+      "epoch": 3.9874213836477987,
+      "grad_norm": 22.79652976989746,
+      "learning_rate": 6.719077568134172e-06,
+      "loss": 10.4838,
+      "step": 1268
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.004193548387096774,
+      "eval_loss": 10.62924861907959,
+      "eval_runtime": 7.5805,
+      "eval_samples_per_second": 408.945,
+      "eval_steps_per_second": 8.575,
       "step": 1272
     },
     {
+      "epoch": 4.984276729559748,
+      "grad_norm": 33.079402923583984,
+      "learning_rate": 3.3962264150943395e-06,
+      "loss": 9.5574,
+      "step": 1585
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.004516129032258065,
+      "eval_loss": 10.126119613647461,
+      "eval_runtime": 7.5983,
+      "eval_samples_per_second": 407.986,
+      "eval_steps_per_second": 8.555,
       "step": 1590
+    },
+    {
+      "epoch": 5.981132075471698,
+      "grad_norm": 33.83201217651367,
+      "learning_rate": 7.337526205450734e-08,
+      "loss": 9.0404,
+      "step": 1902
     }
   ],
+  "logging_steps": 317,
   "max_steps": 1908,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 6,
+  "save_steps": 1000000000.0,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 495439677408900.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.807815004222285,
     "num_train_epochs": 6,
+    "temperature": 4
   }
 }

run-0/checkpoint-1908/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3c42abe9309d4e02d824bbbc39bab4b3e2453bce489d5394f8d3bb9943956d8
 size 5841

 version https://git-lfs.github.com/spec/v1
+oid sha256:204994af76901ff236c7a1bf65cfa8e9d7882677ca49f5ac718276495bae9a6b
 size 5841

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7593fed01b1106bf27d4c4add3956e6289406e36eb30a57ac51ad6262116582c
 size 5841

 version https://git-lfs.github.com/spec/v1
+oid sha256:204994af76901ff236c7a1bf65cfa8e9d7882677ca49f5ac718276495bae9a6b
 size 5841