Training in progress, step 200, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +46 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfb6c282582daa46607f42fb293fdbf3819e8d75d52dd0d1b623400802d28b35
 size 250490408

 version https://git-lfs.github.com/spec/v1
+oid sha256:c27d9594ab02f9adc827e9cc100409e429b6fa6e5da458f22196243beabd0e12
 size 250490408

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cfedfce98860d74e92fcd3e31dca7238b9b93ac3bee488a9a090a1706464f3a0
 size 255265850

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3184cf8f88bad2cfb5a68fc4094b566ab6b6cce219f98681e60f0f6402fd93e
 size 255265850

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b63e3edd0c0cc48f086057ce6e75022d83d87a3b00734c15ba24422849770cd
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e44ef27abe50e5bba1d9636856695c0706b4a69481203dbe05866fc8428b12b
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:186e88827d2475291b71f4a0a4127f7fbf5706df899ca40fe1878eb7c8301c05
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:c36c84de099f12bcc525eb47423becd04c47e16e865404a5529083e8a6215c3a
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb0e11d33e42a9adcc5c976e37e059307e91eb6ae74c969ff1b3eb2f755782d6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cd11d413bc67bf01de9a1a006e9e7655be307353028b25f5b3c299e5b6b7a44
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 12.5,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -144,6 +144,49 @@
       "eval_samples_per_second": 147.399,
       "eval_steps_per_second": 2.357,
       "step": 150
     }
   ],
   "logging_steps": 10,
@@ -163,7 +206,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9728424859926528.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 16.666666666666668,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 147.399,
       "eval_steps_per_second": 2.357,
       "step": 150
+    },
+    {
+      "epoch": 13.333333333333334,
+      "grad_norm": 4.0,
+      "learning_rate": 0.00017541066097768963,
+      "loss": 3.6203,
+      "step": 160
+    },
+    {
+      "epoch": 14.166666666666666,
+      "grad_norm": 4.21875,
+      "learning_rate": 0.00017167825131684513,
+      "loss": 3.533,
+      "step": 170
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 4.59375,
+      "learning_rate": 0.00016772815716257412,
+      "loss": 3.4567,
+      "step": 180
+    },
+    {
+      "epoch": 15.833333333333334,
+      "grad_norm": 5.125,
+      "learning_rate": 0.00016357237482099684,
+      "loss": 3.3726,
+      "step": 190
+    },
+    {
+      "epoch": 16.666666666666668,
+      "grad_norm": 4.03125,
+      "learning_rate": 0.00015922352526649803,
+      "loss": 3.3007,
+      "step": 200
+    },
+    {
+      "epoch": 16.666666666666668,
+      "eval_loss": 3.2971582412719727,
+      "eval_runtime": 10.605,
+      "eval_samples_per_second": 141.537,
+      "eval_steps_per_second": 2.263,
+      "step": 200
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.2971581575790592e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null