Training in progress, step 750, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +178 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e062c064398a956fac974a79f09e1c9659956a9fdf96df5c70aa72db86396863
 size 3809184360

 version https://git-lfs.github.com/spec/v1
+oid sha256:56df8a1ec29b8cbb0c42a5264c1932a6249f0599e86f80aff848eb9853130cc0
 size 3809184360

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45f3f458d13720e9a7d4cd7e4225dcd1cc7c188cc14bfe1f5cdf1c81c33315ba
 size 2457459557

 version https://git-lfs.github.com/spec/v1
+oid sha256:25722e7bf5fd0346d0d888862ebc90ce085ec4c8463a3f71bd2676c7fe82bedb
 size 2457459557

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81d4f4b1fec8227486261e0ca0332075e5277c747f156631e8baf30d09642001
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdb8b30fd18ca6a24d25d627bd2e13a1e8f8cc7de78183781c4d89f29175eee0
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b05714b3f7fdb6eaa769e652ab97d810715e0b9a1f62855693cf5929568c9e83
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8b125c082de6f20d827ac9ce3a7228054a763972dd6779dfe18031391e49829
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -358,6 +358,181 @@
       "learning_rate": 4.042338709677419e-05,
       "loss": 0.9574,
       "step": 500
     }
   ],
   "logging_steps": 10,
@@ -377,7 +552,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9036323224934400.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3,
   "eval_steps": 500,
+  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.042338709677419e-05,
       "loss": 0.9574,
       "step": 500
+    },
+    {
+      "epoch": 0.204,
+      "grad_norm": 21.463293075561523,
+      "learning_rate": 4.022177419354839e-05,
+      "loss": 0.9361,
+      "step": 510
+    },
+    {
+      "epoch": 0.208,
+      "grad_norm": 18.652297973632812,
+      "learning_rate": 4.002016129032258e-05,
+      "loss": 0.8447,
+      "step": 520
+    },
+    {
+      "epoch": 0.212,
+      "grad_norm": 20.645477294921875,
+      "learning_rate": 3.981854838709678e-05,
+      "loss": 1.1835,
+      "step": 530
+    },
+    {
+      "epoch": 0.216,
+      "grad_norm": 34.288246154785156,
+      "learning_rate": 3.961693548387097e-05,
+      "loss": 0.9498,
+      "step": 540
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 20.84208106994629,
+      "learning_rate": 3.941532258064517e-05,
+      "loss": 0.815,
+      "step": 550
+    },
+    {
+      "epoch": 0.224,
+      "grad_norm": 20.82636070251465,
+      "learning_rate": 3.9213709677419355e-05,
+      "loss": 0.9922,
+      "step": 560
+    },
+    {
+      "epoch": 0.228,
+      "grad_norm": 22.959444046020508,
+      "learning_rate": 3.901209677419355e-05,
+      "loss": 0.8921,
+      "step": 570
+    },
+    {
+      "epoch": 0.232,
+      "grad_norm": 17.115203857421875,
+      "learning_rate": 3.8810483870967744e-05,
+      "loss": 0.992,
+      "step": 580
+    },
+    {
+      "epoch": 0.236,
+      "grad_norm": 46.51063919067383,
+      "learning_rate": 3.860887096774194e-05,
+      "loss": 1.0348,
+      "step": 590
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 11.92985725402832,
+      "learning_rate": 3.8407258064516134e-05,
+      "loss": 0.8958,
+      "step": 600
+    },
+    {
+      "epoch": 0.244,
+      "grad_norm": 21.362239837646484,
+      "learning_rate": 3.820564516129033e-05,
+      "loss": 0.902,
+      "step": 610
+    },
+    {
+      "epoch": 0.248,
+      "grad_norm": 23.70836639404297,
+      "learning_rate": 3.800403225806452e-05,
+      "loss": 1.1867,
+      "step": 620
+    },
+    {
+      "epoch": 0.252,
+      "grad_norm": 13.512877464294434,
+      "learning_rate": 3.780241935483871e-05,
+      "loss": 1.1404,
+      "step": 630
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 26.752376556396484,
+      "learning_rate": 3.7600806451612906e-05,
+      "loss": 0.8339,
+      "step": 640
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 21.153675079345703,
+      "learning_rate": 3.7399193548387094e-05,
+      "loss": 0.9203,
+      "step": 650
+    },
+    {
+      "epoch": 0.264,
+      "grad_norm": 19.008054733276367,
+      "learning_rate": 3.719758064516129e-05,
+      "loss": 1.029,
+      "step": 660
+    },
+    {
+      "epoch": 0.268,
+      "grad_norm": 16.564945220947266,
+      "learning_rate": 3.6995967741935484e-05,
+      "loss": 0.9101,
+      "step": 670
+    },
+    {
+      "epoch": 0.272,
+      "grad_norm": 17.936182022094727,
+      "learning_rate": 3.679435483870968e-05,
+      "loss": 0.8259,
+      "step": 680
+    },
+    {
+      "epoch": 0.276,
+      "grad_norm": 28.142871856689453,
+      "learning_rate": 3.659274193548387e-05,
+      "loss": 0.8789,
+      "step": 690
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 22.677753448486328,
+      "learning_rate": 3.639112903225806e-05,
+      "loss": 0.7686,
+      "step": 700
+    },
+    {
+      "epoch": 0.284,
+      "grad_norm": 24.73027801513672,
+      "learning_rate": 3.6189516129032256e-05,
+      "loss": 0.8722,
+      "step": 710
+    },
+    {
+      "epoch": 0.288,
+      "grad_norm": 17.17127227783203,
+      "learning_rate": 3.598790322580645e-05,
+      "loss": 0.9406,
+      "step": 720
+    },
+    {
+      "epoch": 0.292,
+      "grad_norm": 21.88510513305664,
+      "learning_rate": 3.5786290322580645e-05,
+      "loss": 0.9067,
+      "step": 730
+    },
+    {
+      "epoch": 0.296,
+      "grad_norm": 16.742895126342773,
+      "learning_rate": 3.558467741935484e-05,
+      "loss": 0.756,
+      "step": 740
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 18.23801040649414,
+      "learning_rate": 3.5383064516129035e-05,
+      "loss": 0.8895,
+      "step": 750
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.3535660950272e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null