Training in progress, step 21000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +84 -6

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:577e79f060d5a963f3cc3b4b34f8a7dd570497cde46b54c16168d2da07cf5ef7
 size 308136760

 version https://git-lfs.github.com/spec/v1
+oid sha256:2135ef466dfb3e2d5d3572e292dd4324ec591f57d775172ef8b6840f75dda4e8
 size 308136760

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7847e554bd29f7803bb720457749f96de17d2b67c9cd349261abd77a59ce34e
 size 615918027

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe53cb029e96cca574386603a28d4ac8e28031f8553b1bac9f9faad9460286ab
 size 615918027

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:447ada4c90322dccefeca75496b1425410ec29eaffe6caf9584c9a488c113263
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:7733a2f92829c6f2affe6fd0ac9e139536c282e141c026aa754b405cc7953510
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53bd263440b7410128d68768fe66b30a197c8b545827e425eb9c838fa3f9f999
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:42c3ceb1cd051682bc26b7265f7ab65390e13753ebfee8b08559c90f7024d3cf
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76059481ee20fa0728a23bc290f1f2838e40eb8c9fd187e27811a2ba0a738bd3
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:6825e6420671b3b2ba9ae06d59973a9cb825625a5cc4a35c14b31b038dd1ca67
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 20000,
-  "best_metric": 0.3491455018520355,
-  "best_model_checkpoint": "./en-wal-checkpoints/checkpoint-20000",
-  "epoch": 2.7925160569673277,
   "eval_steps": 1000,
-  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1568,6 +1568,84 @@
       "eval_samples_per_second": 359.865,
       "eval_steps_per_second": 22.495,
       "step": 20000
     }
   ],
   "logging_steps": 100,
@@ -1587,7 +1665,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.084645982601216e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 21000,
+  "best_metric": 0.3484770655632019,
+  "best_model_checkpoint": "./en-wal-checkpoints/checkpoint-21000",
+  "epoch": 2.932141859815694,
   "eval_steps": 1000,
+  "global_step": 21000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 359.865,
       "eval_steps_per_second": 22.495,
       "step": 20000
+    },
+    {
+      "epoch": 2.806478637252164,
+      "grad_norm": 1.2699772119522095,
+      "learning_rate": 1.2910732570045612e-06,
+      "loss": 0.3734,
+      "step": 20100
+    },
+    {
+      "epoch": 2.8204412175370006,
+      "grad_norm": 1.3147704601287842,
+      "learning_rate": 1.1979893884389836e-06,
+      "loss": 0.3733,
+      "step": 20200
+    },
+    {
+      "epoch": 2.8344037978218375,
+      "grad_norm": 1.1118375062942505,
+      "learning_rate": 1.104905519873406e-06,
+      "loss": 0.3726,
+      "step": 20300
+    },
+    {
+      "epoch": 2.8483663781066744,
+      "grad_norm": 1.2976515293121338,
+      "learning_rate": 1.0118216513078284e-06,
+      "loss": 0.3748,
+      "step": 20400
+    },
+    {
+      "epoch": 2.862328958391511,
+      "grad_norm": 1.276545763015747,
+      "learning_rate": 9.187377827422509e-07,
+      "loss": 0.3701,
+      "step": 20500
+    },
+    {
+      "epoch": 2.8762915386763472,
+      "grad_norm": 1.0961774587631226,
+      "learning_rate": 8.256539141766733e-07,
+      "loss": 0.3764,
+      "step": 20600
+    },
+    {
+      "epoch": 2.890254118961184,
+      "grad_norm": 0.902900755405426,
+      "learning_rate": 7.325700456110957e-07,
+      "loss": 0.3648,
+      "step": 20700
+    },
+    {
+      "epoch": 2.9042166992460205,
+      "grad_norm": 1.2065845727920532,
+      "learning_rate": 6.394861770455181e-07,
+      "loss": 0.3549,
+      "step": 20800
+    },
+    {
+      "epoch": 2.9181792795308574,
+      "grad_norm": 1.2781444787979126,
+      "learning_rate": 5.464023084799405e-07,
+      "loss": 0.3803,
+      "step": 20900
+    },
+    {
+      "epoch": 2.932141859815694,
+      "grad_norm": 1.297359585762024,
+      "learning_rate": 4.533184399143629e-07,
+      "loss": 0.368,
+      "step": 21000
+    },
+    {
+      "epoch": 2.932141859815694,
+      "eval_loss": 0.3484770655632019,
+      "eval_runtime": 16.7265,
+      "eval_samples_per_second": 360.567,
+      "eval_steps_per_second": 22.539,
+      "step": 21000
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 1.138883366486016e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null