Training in progress, step 1700, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +73 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:261060049a7dda557484b2457355c565a4a3dec4bad82ebd69d3da19bb63baea
 size 3826461296

 version https://git-lfs.github.com/spec/v1
+oid sha256:3919cab12afb691f8e2bde9aed0bdad3628d6f1a5ecae97beb9b67f52859024e
 size 3826461296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd5a824004382fafc96a45aa34398b26619eb1ad1e0bae9e057d7991c60713ca
 size 2479955235

 version https://git-lfs.github.com/spec/v1
+oid sha256:65cec01b065a22732babc2be6945a5935ab48f5f41fd2fba8b539e6256b0dfa7
 size 2479955235

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66ee06c65c8a9fafa99e46b2c6a4e28ded33e6954d7a37d2b23e4b02c9c3171d
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:da57c8097b451ef1168f1b0191d0689aff1a3bd0997413b1e9eeee0934b0b53c
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c656881e8cfeb75270ca3557627f44c2ff0c812b9a941b53a9228574ee283934
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d5ccf396d48a7891c1332094feb71b5d5d1edce123ef8038fc290770c5e3a02
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.64,
   "eval_steps": 500,
-  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1128,6 +1128,76 @@
       "learning_rate": 1.8167202572347267e-05,
       "loss": 0.3986,
       "step": 1600
     }
   ],
   "logging_steps": 10,
@@ -1147,7 +1217,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.8862224942546944e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.68,
   "eval_steps": 500,
+  "global_step": 1700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.8167202572347267e-05,
       "loss": 0.3986,
       "step": 1600
+    },
+    {
+      "epoch": 0.644,
+      "grad_norm": 13.649085998535156,
+      "learning_rate": 1.796623794212219e-05,
+      "loss": 0.4337,
+      "step": 1610
+    },
+    {
+      "epoch": 0.648,
+      "grad_norm": 7.645134449005127,
+      "learning_rate": 1.7765273311897108e-05,
+      "loss": 0.3901,
+      "step": 1620
+    },
+    {
+      "epoch": 0.652,
+      "grad_norm": 11.727263450622559,
+      "learning_rate": 1.7564308681672027e-05,
+      "loss": 0.3545,
+      "step": 1630
+    },
+    {
+      "epoch": 0.656,
+      "grad_norm": 6.705881595611572,
+      "learning_rate": 1.736334405144695e-05,
+      "loss": 0.3471,
+      "step": 1640
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 12.363304138183594,
+      "learning_rate": 1.7162379421221868e-05,
+      "loss": 0.4351,
+      "step": 1650
+    },
+    {
+      "epoch": 0.664,
+      "grad_norm": 20.208723068237305,
+      "learning_rate": 1.6961414790996786e-05,
+      "loss": 0.4284,
+      "step": 1660
+    },
+    {
+      "epoch": 0.668,
+      "grad_norm": 10.82363224029541,
+      "learning_rate": 1.6760450160771705e-05,
+      "loss": 0.3369,
+      "step": 1670
+    },
+    {
+      "epoch": 0.672,
+      "grad_norm": 9.544486045837402,
+      "learning_rate": 1.6559485530546627e-05,
+      "loss": 0.4059,
+      "step": 1680
+    },
+    {
+      "epoch": 0.676,
+      "grad_norm": 8.426627159118652,
+      "learning_rate": 1.6358520900321546e-05,
+      "loss": 0.4494,
+      "step": 1690
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 8.424084663391113,
+      "learning_rate": 1.6157556270096464e-05,
+      "loss": 0.4807,
+      "step": 1700
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.0652319992449024e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null