Training in progress, step 2250, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +109 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f413611c4d62c42b34cb3c35bf307f1f004d85a195b49625f53cb045532d3640
 size 3237818848

 version https://git-lfs.github.com/spec/v1
+oid sha256:806718b1eb03b182c4243b5852d730ab0623fae273359ceac4fe27a42cd0a775
 size 3237818848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3f4fe7007d84dd8d6957cbfe09cbddc20609770c2a83ca6a81bf721da4dd27d
 size 2062251569

 version https://git-lfs.github.com/spec/v1
+oid sha256:db7a8720fe6eca8fdfeb84875333805ad66f043fc4a4f42dec7e8bfbf28079eb
 size 2062251569

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e677751a73856bc26d9944f5cb47e64e748585d8eec5698550c17847fccdcc5
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bcd869f950beffeea433b31c1771e6c791cdf18f5aa8f339dfd15edc2ed1949
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f13dd54935d4d1876d05824ed5aab8e787b691f2aec583b5a7e328fd2bead633
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:a918540d48e856372c74bc697e7d28a86a7fdf24471d9a4adf2ffeeae4217207
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ecb7b6032736995012c1953174826b2661afb8ec0cbb267bc342afa03a626fe2
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:867aa6395462cd9ef6621775b2ee589702b29a904be428c06029ad86f199f393
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9333333333333333,
   "eval_steps": 300,
-  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1490,6 +1490,111 @@
       "learning_rate": 2.3952935202260608e-06,
       "loss": 0.8618,
       "step": 2100
     }
   ],
   "logging_steps": 10,
@@ -1504,12 +1609,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5.7286358728704e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 300,
+  "global_step": 2250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.3952935202260608e-06,
       "loss": 0.8618,
       "step": 2100
+    },
+    {
+      "epoch": 0.9377777777777778,
+      "grad_norm": 7.140369892120361,
+      "learning_rate": 2.095372194305578e-06,
+      "loss": 0.8829,
+      "step": 2110
+    },
+    {
+      "epoch": 0.9422222222222222,
+      "grad_norm": 8.534485816955566,
+      "learning_rate": 1.815306541298023e-06,
+      "loss": 0.8757,
+      "step": 2120
+    },
+    {
+      "epoch": 0.9466666666666667,
+      "grad_norm": 10.03408145904541,
+      "learning_rate": 1.55515336027533e-06,
+      "loss": 0.8699,
+      "step": 2130
+    },
+    {
+      "epoch": 0.9511111111111111,
+      "grad_norm": 10.744848251342773,
+      "learning_rate": 1.3149654119351874e-06,
+      "loss": 0.9025,
+      "step": 2140
+    },
+    {
+      "epoch": 0.9555555555555556,
+      "grad_norm": 12.541043281555176,
+      "learning_rate": 1.0947914079008193e-06,
+      "loss": 0.9111,
+      "step": 2150
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 9.694021224975586,
+      "learning_rate": 8.946760008419208e-07,
+      "loss": 0.8739,
+      "step": 2160
+    },
+    {
+      "epoch": 0.9644444444444444,
+      "grad_norm": 8.234989166259766,
+      "learning_rate": 7.146597754188578e-07,
+      "loss": 0.8864,
+      "step": 2170
+    },
+    {
+      "epoch": 0.9688888888888889,
+      "grad_norm": 8.109750747680664,
+      "learning_rate": 5.547792400518171e-07,
+      "loss": 0.8951,
+      "step": 2180
+    },
+    {
+      "epoch": 0.9733333333333334,
+      "grad_norm": 5.8855180740356445,
+      "learning_rate": 4.150668195166962e-07,
+      "loss": 0.9224,
+      "step": 2190
+    },
+    {
+      "epoch": 0.9777777777777777,
+      "grad_norm": 6.274494171142578,
+      "learning_rate": 2.955508483691416e-07,
+      "loss": 0.867,
+      "step": 2200
+    },
+    {
+      "epoch": 0.9822222222222222,
+      "grad_norm": 9.63640022277832,
+      "learning_rate": 1.9625556519811128e-07,
+      "loss": 0.8781,
+      "step": 2210
+    },
+    {
+      "epoch": 0.9866666666666667,
+      "grad_norm": 8.013216018676758,
+      "learning_rate": 1.1720110771015202e-07,
+      "loss": 0.9555,
+      "step": 2220
+    },
+    {
+      "epoch": 0.9911111111111112,
+      "grad_norm": 11.773499488830566,
+      "learning_rate": 5.840350864533273e-08,
+      "loss": 0.8768,
+      "step": 2230
+    },
+    {
+      "epoch": 0.9955555555555555,
+      "grad_norm": 6.226689338684082,
+      "learning_rate": 1.9874692525745365e-08,
+      "loss": 0.8743,
+      "step": 2240
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 6.99469518661499,
+      "learning_rate": 1.6224732370728746e-09,
+      "loss": 0.8964,
+      "step": 2250
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.137653654388736e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null