Training in progress, step 25000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +103 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:077c4e17d5d6659383f86009d5ba0492ce1a7fb2300e1f9721574b2a12b23519
 size 893438545

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0d203a8c7bacd9049d0a9a6ba66771bad7db3da1b0e849bcf26a2083ccab635
 size 893438545

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f93686a66224f35c3db268b2af688ad304cc6ecd7a83f195fac8d19065d16100
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:83bcb89c6daff571003c7df9aae49dc4a313a7404638fcb7d95f82b950d2e5af
 size 449471589

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57142c5a60897ef91d5d8c936729fa6ceded5442a5d10db587b6b7e76f18ca4a
 size 15523

 version https://git-lfs.github.com/spec/v1
+oid sha256:3271ed48861b853ff2a93ab2d113124282a36f76af112eacd53eeaa11994564a
 size 15523

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87d518c8dc6f08eacade9bd6abba5d643113786a574d03ca28503afbbe7268e3
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:865ba51ccd1f35f320c7110ccb893ffd337376d4652e722731792c01668ba190
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6828d085699bdbc936d5bbc612e9724cd129de0bf65d2e3da37a24ed4eacca1
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:3041a56ac9f847b3d8ba49ecd2e74fdd80acf3c5d07444653f5e498839336c44
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.701258931609391,
-  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -406,11 +406,111 @@
       "eval_samples_per_second": 32.434,
       "eval_steps_per_second": 1.038,
       "step": 20000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 86,
-  "total_flos": 9.200497816914238e+20,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.1265736645117386,
+  "global_step": 25000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 32.434,
       "eval_steps_per_second": 1.038,
       "step": 20000
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4313,
+      "step": 20500
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4296,
+      "step": 21000
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 0.39878711104393005,
+      "eval_runtime": 16.1844,
+      "eval_samples_per_second": 30.894,
+      "eval_steps_per_second": 0.989,
+      "step": 21000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4288,
+      "step": 21500
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4278,
+      "step": 22000
+    },
+    {
+      "epoch": 1.87,
+      "eval_loss": 0.3984658718109131,
+      "eval_runtime": 17.0912,
+      "eval_samples_per_second": 29.255,
+      "eval_steps_per_second": 0.936,
+      "step": 22000
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4278,
+      "step": 22500
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4276,
+      "step": 23000
+    },
+    {
+      "epoch": 1.96,
+      "eval_loss": 0.3981262743473053,
+      "eval_runtime": 16.5906,
+      "eval_samples_per_second": 30.138,
+      "eval_steps_per_second": 0.964,
+      "step": 23000
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.428,
+      "step": 23500
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4264,
+      "step": 24000
+    },
+    {
+      "epoch": 2.04,
+      "eval_loss": 0.39774054288864136,
+      "eval_runtime": 24.4452,
+      "eval_samples_per_second": 20.454,
+      "eval_steps_per_second": 0.655,
+      "step": 24000
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.427,
+      "step": 24500
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.4267,
+      "step": 25000
+    },
+    {
+      "epoch": 2.13,
+      "eval_loss": 0.3962687849998474,
+      "eval_runtime": 16.5048,
+      "eval_samples_per_second": 30.294,
+      "eval_steps_per_second": 0.969,
+      "step": 25000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 86,
+  "total_flos": 1.1500501101744764e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f93686a66224f35c3db268b2af688ad304cc6ecd7a83f195fac8d19065d16100
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:83bcb89c6daff571003c7df9aae49dc4a313a7404638fcb7d95f82b950d2e5af
 size 449471589