Training in progress, step 150, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +47 -4

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9295ebc05734a85b5f43993ee4c64b21a5c9bb19c7285c3147224043523c975
 size 4995335576

 version https://git-lfs.github.com/spec/v1
+oid sha256:0eec55da26257e6bdd7e6c8e36ecffb5a79021aeb51150dc5b63a96d4ddfa618
 size 4995335576

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ffe78de4e4b316205c289b24c407040958c5034fa1409b39c7d297f171b1f7ca
 size 1857639032

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5618717dfd829dd7d8596a68eaff8f83a9c2c913dcbefd2a76b79925f393192
 size 1857639032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a00bef7af234902ab8346a2c39aaeeccbe3fbcabcb95b900800eda4225fe706
 size 13706103974

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8ae689a4a2512f4173eeb1a100be1c1ac54ba038fbc329032c57fb26365379e
 size 13706103974

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f37c40ce327861a7ca13b719d3aa37510a143368b6e74358bdb14becb3899e1e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ecefbb3f17bb76b6655eb0157c98b5287c17fa4b4c72a6b9068b0823ce9fd18d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01bc98a8690d286a0c5c6c74f6f325ac33ceb1fd4ad50ba634b85c5c1612f447
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:76d2b2a58cb1fef054c26ee40b50f34fb3a71e56ece66a18947891aede843123
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 1,
   "best_metric": 1.4945952892303467,
   "best_model_checkpoint": null,
-  "epoch": 0.006246096189881324,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -102,6 +102,49 @@
       "eval_samples_per_second": 15.76,
       "eval_steps_per_second": 15.76,
       "step": 100
     }
   ],
   "logging_steps": 10,
@@ -116,7 +159,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
@@ -130,7 +173,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4084621639680000.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 1,
   "best_metric": 1.4945952892303467,
   "best_model_checkpoint": null,
+  "epoch": 0.009369144284821987,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.76,
       "eval_steps_per_second": 15.76,
       "step": 100
+    },
+    {
+      "epoch": 0.006870705808869456,
+      "grad_norm": 29.75,
+      "learning_rate": 0.048776412907378844,
+      "loss": 16.5617,
+      "step": 110
+    },
+    {
+      "epoch": 0.007495315427857589,
+      "grad_norm": 29.75,
+      "learning_rate": 0.04851933072501756,
+      "loss": 11.0683,
+      "step": 120
+    },
+    {
+      "epoch": 0.008119925046845722,
+      "grad_norm": 41.5,
+      "learning_rate": 0.048238566570264485,
+      "loss": 9.7898,
+      "step": 130
+    },
+    {
+      "epoch": 0.008744534665833853,
+      "grad_norm": 26.75,
+      "learning_rate": 0.047934403148824085,
+      "loss": 9.437,
+      "step": 140
+    },
+    {
+      "epoch": 0.009369144284821987,
+      "grad_norm": 14.1875,
+      "learning_rate": 0.047607146727478934,
+      "loss": 8.8562,
+      "step": 150
+    },
+    {
+      "epoch": 0.009369144284821987,
+      "eval_loss": 10.050978660583496,
+      "eval_runtime": 54.8139,
+      "eval_samples_per_second": 15.379,
+      "eval_steps_per_second": 15.379,
+      "step": 150
     }
   ],
   "logging_steps": 10,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 3
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 6126932459520000.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null