Training in progress, step 330, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +73 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2e4c22cf9e06580af30dce4f279974ede0ee3634a0dd139bd26cb4e25b25ed7
 size 936503576

 version https://git-lfs.github.com/spec/v1
+oid sha256:abc4c68f91f44c0bb1e9b3e7b76a52ad4e9ad5225330739244f161460684cdba
 size 936503576

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7344bdd1e274ca01246f02556985f7a2cd03b4f3e5340ec3a06f3c587c4caa39
 size 936544523

 version https://git-lfs.github.com/spec/v1
+oid sha256:142a1a99ba0620bdcfcc4c55495012f4704ec0a05f7b9a8582d625e5b6f01518
 size 936544523

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d97c0d3c8cfa82dd1ce5510efad605477e606178221dbf394aa018e5e13a0c32
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:cba2e79d569d575b26dc3bead628a624c8d773702ed84eab62f3bad875bc1769
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0014225415037597328,
   "eval_steps": 500,
-  "global_step": 320,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2248,6 +2248,76 @@
       "learning_rate": 1.9999998449395407e-05,
       "loss": 4.2385,
       "step": 320
     }
   ],
   "logging_steps": 1,
@@ -2267,7 +2337,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.26679523524608e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0014669959257522245,
   "eval_steps": 500,
+  "global_step": 330,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.9999998449395407e-05,
       "loss": 4.2385,
       "step": 320
+    },
+    {
+      "epoch": 0.0014269869459589818,
+      "grad_norm": 15.1875,
+      "learning_rate": 1.999999843965851e-05,
+      "loss": 4.104,
+      "step": 321
+    },
+    {
+      "epoch": 0.001431432388158231,
+      "grad_norm": 12.3125,
+      "learning_rate": 1.999999842989114e-05,
+      "loss": 4.3166,
+      "step": 322
+    },
+    {
+      "epoch": 0.0014358778303574802,
+      "grad_norm": 8.5,
+      "learning_rate": 1.9999998420093294e-05,
+      "loss": 4.5187,
+      "step": 323
+    },
+    {
+      "epoch": 0.0014403232725567294,
+      "grad_norm": 9.5,
+      "learning_rate": 1.9999998410264968e-05,
+      "loss": 4.2137,
+      "step": 324
+    },
+    {
+      "epoch": 0.0014447687147559785,
+      "grad_norm": 13.75,
+      "learning_rate": 1.9999998400406172e-05,
+      "loss": 4.2093,
+      "step": 325
+    },
+    {
+      "epoch": 0.0014492141569552278,
+      "grad_norm": 9.8125,
+      "learning_rate": 1.99999983905169e-05,
+      "loss": 4.3445,
+      "step": 326
+    },
+    {
+      "epoch": 0.0014536595991544768,
+      "grad_norm": 13.25,
+      "learning_rate": 1.999999838059715e-05,
+      "loss": 4.0465,
+      "step": 327
+    },
+    {
+      "epoch": 0.0014581050413537261,
+      "grad_norm": 14.0,
+      "learning_rate": 1.9999998370646926e-05,
+      "loss": 4.1375,
+      "step": 328
+    },
+    {
+      "epoch": 0.0014625504835529752,
+      "grad_norm": 9.25,
+      "learning_rate": 1.9999998360666225e-05,
+      "loss": 4.3918,
+      "step": 329
+    },
+    {
+      "epoch": 0.0014669959257522245,
+      "grad_norm": 12.25,
+      "learning_rate": 1.999999835065505e-05,
+      "loss": 4.0845,
+      "step": 330
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.30638258634752e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null