Training in progress, step 200, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +47 -4

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfa17f31bad6f2f516b55fc5b26c3f0332bc8434cfdc669afe2a257fd5d49d26
 size 4995335576

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f5f9255725605487651553474d42729c3791d88527cbfe70be08f227ba93d02
 size 4995335576

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eebc5675b2520100d7f6c4e7ae79cdf86ed8a10ff60e9eea536fab023e69d535
 size 1857639032

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba1692113682075d05c8538281ed10f16cc53750332b8d944f63354f6a35b874
 size 1857639032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6625b6e9d9d8512c25cd93e8dfa0ed45c6ad5f2b482019b1b579968a9acf0a9f
 size 13706103974

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf62cd19bf8959d6d09d9c8c80713365bfb839ba7535e2750b045e9490e8abdc
 size 13706103974

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ecefbb3f17bb76b6655eb0157c98b5287c17fa4b4c72a6b9068b0823ce9fd18d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:95b6047bd8cc6f4cdf7c46dea47edb8e542435510070c6cd1e0a7d9ccf5fd7da
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76d2b2a58cb1fef054c26ee40b50f34fb3a71e56ece66a18947891aede843123
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:95d2a50364bc7f3078838455f012433d9b89075114f0547db53c7e328906dec9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 1,
   "best_metric": 1.4945952892303467,
   "best_model_checkpoint": null,
-  "epoch": 0.009369144284821987,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -145,6 +145,49 @@
       "eval_samples_per_second": 15.141,
       "eval_steps_per_second": 15.141,
       "step": 150
     }
   ],
   "logging_steps": 10,
@@ -159,7 +202,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 3
       }
     },
     "TrainerControl": {
@@ -173,7 +216,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6126932459520000.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 1,
   "best_metric": 1.4945952892303467,
   "best_model_checkpoint": null,
+  "epoch": 0.012492192379762648,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.141,
       "eval_steps_per_second": 15.141,
       "step": 150
+    },
+    {
+      "epoch": 0.009993753903810118,
+      "grad_norm": 154.0,
+      "learning_rate": 0.04725712682570498,
+      "loss": 13.3082,
+      "step": 160
+    },
+    {
+      "epoch": 0.010618363522798251,
+      "grad_norm": 1224.0,
+      "learning_rate": 0.046884695883873395,
+      "loss": 13.503,
+      "step": 170
+    },
+    {
+      "epoch": 0.011242973141786383,
+      "grad_norm": 122.0,
+      "learning_rate": 0.04649022890837298,
+      "loss": 13.4923,
+      "step": 180
+    },
+    {
+      "epoch": 0.011867582760774516,
+      "grad_norm": 103.0,
+      "learning_rate": 0.046074123094010544,
+      "loss": 10.8538,
+      "step": 190
+    },
+    {
+      "epoch": 0.012492192379762648,
+      "grad_norm": 39.75,
+      "learning_rate": 0.04563679742406935,
+      "loss": 13.9073,
+      "step": 200
+    },
+    {
+      "epoch": 0.012492192379762648,
+      "eval_loss": 12.213621139526367,
+      "eval_runtime": 52.8292,
+      "eval_samples_per_second": 15.957,
+      "eval_steps_per_second": 15.957,
+      "step": 200
     }
   ],
   "logging_steps": 10,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 4
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 8169243279360000.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null