Training in progress, epoch 7, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +78 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5c3b0654a55323c3fcee30e714ee2d676246a3bfc98cc5f49a21c0197bf7658
 size 2682482800

 version https://git-lfs.github.com/spec/v1
+oid sha256:a62b0ae2bece445149d95dac8be318a1e3cf663dc984da1c6c1763a330dde2ae
 size 2682482800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ebc195ac9c4196031197946a0392714b3efeebd00756085187f31f1fca6860db
 size 5365108834

 version https://git-lfs.github.com/spec/v1
+oid sha256:db3b73b9e39e57f14acc8da4a5a2ee7f1b952789fcd7ddf666c5f54ad92c0646
 size 5365108834

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d98d2e99b55542cf6b1c45f3a424a53b2fc65122f42198a9dbcf07ba8693c50
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:21dfc6c263d5ad0f8ba77e03600244b9f2781e61ae66cba4cff3c2ce6c58574f
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13dc37c47f5922c1d1c30342794206ae261a0947af887e4fc89421ae169d8074
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6359143556c6c392e65dff6e223cd73982950d740ede67b2be0a429a6648f6d5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.999195864445721,
   "eval_steps": 50,
-  "global_step": 1904,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -577,6 +577,81 @@
       "eval_samples_per_second": 41.593,
       "eval_steps_per_second": 20.797,
       "step": 1900
     }
   ],
   "logging_steps": 50,
@@ -596,7 +671,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.912264077125878e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.999080987937967,
   "eval_steps": 50,
+  "global_step": 2176,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.593,
       "eval_steps_per_second": 20.797,
       "step": 1900
+    },
+    {
+      "epoch": 7.168294083859851,
+      "grad_norm": 46.392173767089844,
+      "learning_rate": 2.8308823529411766e-05,
+      "loss": 0.8475,
+      "step": 1950
+    },
+    {
+      "epoch": 7.168294083859851,
+      "eval_loss": 1.2355010509490967,
+      "eval_runtime": 116.0581,
+      "eval_samples_per_second": 41.583,
+      "eval_steps_per_second": 20.791,
+      "step": 1950
+    },
+    {
+      "epoch": 7.352096496266514,
+      "grad_norm": 64.82035827636719,
+      "learning_rate": 2.647058823529412e-05,
+      "loss": 0.8496,
+      "step": 2000
+    },
+    {
+      "epoch": 7.352096496266514,
+      "eval_loss": 1.2320975065231323,
+      "eval_runtime": 115.9151,
+      "eval_samples_per_second": 41.634,
+      "eval_steps_per_second": 20.817,
+      "step": 2000
+    },
+    {
+      "epoch": 7.535898908673176,
+      "grad_norm": 46.27527618408203,
+      "learning_rate": 2.4632352941176472e-05,
+      "loss": 0.8452,
+      "step": 2050
+    },
+    {
+      "epoch": 7.535898908673176,
+      "eval_loss": 1.2323057651519775,
+      "eval_runtime": 115.981,
+      "eval_samples_per_second": 41.61,
+      "eval_steps_per_second": 20.805,
+      "step": 2050
+    },
+    {
+      "epoch": 7.719701321079839,
+      "grad_norm": 52.665435791015625,
+      "learning_rate": 2.2794117647058825e-05,
+      "loss": 0.8423,
+      "step": 2100
+    },
+    {
+      "epoch": 7.719701321079839,
+      "eval_loss": 1.2322068214416504,
+      "eval_runtime": 115.9188,
+      "eval_samples_per_second": 41.633,
+      "eval_steps_per_second": 20.816,
+      "step": 2100
+    },
+    {
+      "epoch": 7.903503733486502,
+      "grad_norm": 74.63914489746094,
+      "learning_rate": 2.0955882352941178e-05,
+      "loss": 0.8421,
+      "step": 2150
+    },
+    {
+      "epoch": 7.903503733486502,
+      "eval_loss": 1.2284280061721802,
+      "eval_runtime": 115.8808,
+      "eval_samples_per_second": 41.646,
+      "eval_steps_per_second": 20.823,
+      "step": 2150
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.614783797825372e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null