Training in progress, step 2700, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c88db1333f5ed8a9c0ff0459f14879ebf7617fb770c07db8372de8d4743d28e
 size 676264504

 version https://git-lfs.github.com/spec/v1
+oid sha256:c393ddf30ac6460737104f4d2745ea8242503edafcb67bec75c33d2824d1f5d7
 size 676264504

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e66a49968d29fdbbfe4edd3b2b7407ceac7b90ecf6cfddb3d526afcdd2d8b98b
 size 1274083770

 version https://git-lfs.github.com/spec/v1
+oid sha256:e98b29c362e755d979244b4e208a8a66c23be4d6ed7b48312a10de0123f98f74
 size 1274083770

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3dd6222f0c699c537056f765320e14a81115abae3ade22fd8035e8e200f47007
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:63c0140fc143ef9af84d50f32dfbe3d22386c0a90be84aa48736592e7040518e
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:993cde09f9ab221e14600f36e616bed6bfd66828a4b3ca55574b06efb8b5baa9
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:19994e30e16381567f2412578e95061bd82c7d292508d95caf108c1a628ea6fc
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.0004596015496645123,
   "best_model_checkpoint": "./output/checkpoint-1800",
-  "epoch": 2.954808806488992,
   "eval_steps": 150,
-  "global_step": 2550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1928,6 +1928,119 @@
       "eval_samples_per_second": 11.144,
       "eval_steps_per_second": 11.144,
       "step": 2550
     }
   ],
   "logging_steps": 10,
@@ -1947,7 +2060,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0534904848584704e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.0004596015496645123,
   "best_model_checkpoint": "./output/checkpoint-1800",
+  "epoch": 3.1286210892236386,
   "eval_steps": 150,
+  "global_step": 2700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.144,
       "eval_steps_per_second": 11.144,
       "step": 2550
+    },
+    {
+      "epoch": 2.966396292004635,
+      "grad_norm": 0.0019562735687941313,
+      "learning_rate": 2.1858949867611754e-05,
+      "loss": 0.0035,
+      "step": 2560
+    },
+    {
+      "epoch": 2.977983777520278,
+      "grad_norm": 0.08442725241184235,
+      "learning_rate": 2.1717905533241997e-05,
+      "loss": 0.0001,
+      "step": 2570
+    },
+    {
+      "epoch": 2.9895712630359212,
+      "grad_norm": 0.012547359801828861,
+      "learning_rate": 2.157687279467088e-05,
+      "loss": 0.0071,
+      "step": 2580
+    },
+    {
+      "epoch": 3.0011587485515645,
+      "grad_norm": 0.0036566180642694235,
+      "learning_rate": 2.14358574492019e-05,
+      "loss": 0.0001,
+      "step": 2590
+    },
+    {
+      "epoch": 3.0127462340672073,
+      "grad_norm": 0.003990466240793467,
+      "learning_rate": 2.1294865293423586e-05,
+      "loss": 0.0001,
+      "step": 2600
+    },
+    {
+      "epoch": 3.0243337195828506,
+      "grad_norm": 0.006470364052802324,
+      "learning_rate": 2.1153902122971233e-05,
+      "loss": 0.0001,
+      "step": 2610
+    },
+    {
+      "epoch": 3.035921205098494,
+      "grad_norm": 17.235862731933594,
+      "learning_rate": 2.101297373228868e-05,
+      "loss": 0.0062,
+      "step": 2620
+    },
+    {
+      "epoch": 3.0475086906141367,
+      "grad_norm": 0.003931706305593252,
+      "learning_rate": 2.087208591439006e-05,
+      "loss": 0.0001,
+      "step": 2630
+    },
+    {
+      "epoch": 3.05909617612978,
+      "grad_norm": 0.016153201460838318,
+      "learning_rate": 2.0731244460621764e-05,
+      "loss": 0.0001,
+      "step": 2640
+    },
+    {
+      "epoch": 3.0706836616454227,
+      "grad_norm": 0.02430218830704689,
+      "learning_rate": 2.0590455160424316e-05,
+      "loss": 0.0015,
+      "step": 2650
+    },
+    {
+      "epoch": 3.082271147161066,
+      "grad_norm": 0.01603887602686882,
+      "learning_rate": 2.044972380109441e-05,
+      "loss": 0.0004,
+      "step": 2660
+    },
+    {
+      "epoch": 3.0938586326767092,
+      "grad_norm": 0.0475073866546154,
+      "learning_rate": 2.030905616754704e-05,
+      "loss": 0.0001,
+      "step": 2670
+    },
+    {
+      "epoch": 3.105446118192352,
+      "grad_norm": 0.004527157172560692,
+      "learning_rate": 2.0168458042077636e-05,
+      "loss": 0.0001,
+      "step": 2680
+    },
+    {
+      "epoch": 3.1170336037079953,
+      "grad_norm": 0.003917761612683535,
+      "learning_rate": 2.0027935204124465e-05,
+      "loss": 0.0001,
+      "step": 2690
+    },
+    {
+      "epoch": 3.1286210892236386,
+      "grad_norm": 0.0348745621740818,
+      "learning_rate": 1.9887493430031e-05,
+      "loss": 0.0001,
+      "step": 2700
+    },
+    {
+      "epoch": 3.1286210892236386,
+      "eval_loss": 0.0028791166841983795,
+      "eval_runtime": 45.6443,
+      "eval_samples_per_second": 10.954,
+      "eval_steps_per_second": 10.954,
+      "step": 2700
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.1743560581808128e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null