Training in progress, epoch 7, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +77 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4eb42c1b016e02049b8915fc6c4bd8e40713ecb1bf12ad42b9d3e8939f0a8b73
 size 2610104820

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c465399234deee9d04960eeb7dcc2195d9e15c74536a227ceb6fdca4e20454c
 size 2610104820

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77d07cd9696454e9c441a6f24d914750ff9ecd0f2d8ba9601295dcb1152b2704
 size 5210004271

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b0b1fa3f35f2a0e7d8a2627c44dca4f4d2cad1ccbe1376157aa9063a6d9e5f3
 size 5210004271

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15a9ca8e9630b65f3d22543e10ee333ae6f602385a9988471ec0251618f4f6a6
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e2f5546fc83506789b1d0adb53d6b6a28f107b064c7f808a5d419eeca20b8cf
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:982ed52dbedaa8b58e4675dd9e14089cf4920fc60a888f8c18ae8fefed68e39a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:68f472c819beed817ac9f811e783cb3b4e6768b75b8d75dac6c446449f746786
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.997206530510894,
   "eval_steps": 50,
-  "global_step": 1757,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -532,6 +532,81 @@
       "eval_samples_per_second": 31.408,
       "eval_steps_per_second": 15.704,
       "step": 1750
     }
   ],
   "logging_steps": 50,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.997206530510894,
   "eval_steps": 50,
+  "global_step": 2008,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 31.408,
       "eval_steps_per_second": 15.704,
       "step": 1750
+    },
+    {
+      "epoch": 7.1708361785337384,
+      "grad_norm": 0.16648398339748383,
+      "learning_rate": 2.8286852589641438e-05,
+      "loss": 0.0147,
+      "step": 1800
+    },
+    {
+      "epoch": 7.1708361785337384,
+      "eval_loss": 0.049295973032712936,
+      "eval_runtime": 26.9925,
+      "eval_samples_per_second": 31.416,
+      "eval_steps_per_second": 15.708,
+      "step": 1800
+    },
+    {
+      "epoch": 7.369482897759017,
+      "grad_norm": 0.18032623827457428,
+      "learning_rate": 2.6294820717131475e-05,
+      "loss": 0.0137,
+      "step": 1850
+    },
+    {
+      "epoch": 7.369482897759017,
+      "eval_loss": 0.04836704209446907,
+      "eval_runtime": 27.0294,
+      "eval_samples_per_second": 31.373,
+      "eval_steps_per_second": 15.687,
+      "step": 1850
+    },
+    {
+      "epoch": 7.568129616984295,
+      "grad_norm": 0.15208186209201813,
+      "learning_rate": 2.4302788844621517e-05,
+      "loss": 0.0136,
+      "step": 1900
+    },
+    {
+      "epoch": 7.568129616984295,
+      "eval_loss": 0.04785418510437012,
+      "eval_runtime": 27.0012,
+      "eval_samples_per_second": 31.406,
+      "eval_steps_per_second": 15.703,
+      "step": 1900
+    },
+    {
+      "epoch": 7.766776336209572,
+      "grad_norm": 0.14509941637516022,
+      "learning_rate": 2.2310756972111554e-05,
+      "loss": 0.0139,
+      "step": 1950
+    },
+    {
+      "epoch": 7.766776336209572,
+      "eval_loss": 0.04705703631043434,
+      "eval_runtime": 27.0106,
+      "eval_samples_per_second": 31.395,
+      "eval_steps_per_second": 15.698,
+      "step": 1950
+    },
+    {
+      "epoch": 7.96542305543485,
+      "grad_norm": 0.14901742339134216,
+      "learning_rate": 2.0318725099601595e-05,
+      "loss": 0.0131,
+      "step": 2000
+    },
+    {
+      "epoch": 7.96542305543485,
+      "eval_loss": 0.04676016792654991,
+      "eval_runtime": 27.0142,
+      "eval_samples_per_second": 31.391,
+      "eval_steps_per_second": 15.695,
+      "step": 2000
     }
   ],
   "logging_steps": 50,