Training in progress, step 500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +178 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8123be51ad98480825d2aa361e56c755cf0dc6e020205917ceed574c4ae39f89
 size 3809184360

 version https://git-lfs.github.com/spec/v1
+oid sha256:e062c064398a956fac974a79f09e1c9659956a9fdf96df5c70aa72db86396863
 size 3809184360

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea95dc19f159c03247df4100c2ddfb737ed3834a1ab387bcd4b1cd06eb816c19
-size 2457458917

 version https://git-lfs.github.com/spec/v1
+oid sha256:45f3f458d13720e9a7d4cd7e4225dcd1cc7c188cc14bfe1f5cdf1c81c33315ba
+size 2457459557

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e5323bfb1fda121bfdfa4891bfab6888dd68e61e60302d177fa061000384bd8
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:81d4f4b1fec8227486261e0ca0332075e5277c747f156631e8baf30d09642001
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22a563685e8553d4bb36da2a1e276a977d883dcf7c13f91e157ed2e26e002108
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:b05714b3f7fdb6eaa769e652ab97d810715e0b9a1f62855693cf5929568c9e83
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.1,
   "eval_steps": 500,
-  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -183,6 +183,181 @@
       "learning_rate": 4.546370967741936e-05,
       "loss": 1.262,
       "step": 250
     }
   ],
   "logging_steps": 10,
@@ -202,7 +377,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4520071282176000.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2,
   "eval_steps": 500,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.546370967741936e-05,
       "loss": 1.262,
       "step": 250
+    },
+    {
+      "epoch": 0.104,
+      "grad_norm": 33.3493537902832,
+      "learning_rate": 4.526209677419355e-05,
+      "loss": 1.2206,
+      "step": 260
+    },
+    {
+      "epoch": 0.108,
+      "grad_norm": 21.672395706176758,
+      "learning_rate": 4.506048387096775e-05,
+      "loss": 1.1687,
+      "step": 270
+    },
+    {
+      "epoch": 0.112,
+      "grad_norm": 70.3603286743164,
+      "learning_rate": 4.485887096774194e-05,
+      "loss": 1.2836,
+      "step": 280
+    },
+    {
+      "epoch": 0.116,
+      "grad_norm": 32.152740478515625,
+      "learning_rate": 4.465725806451613e-05,
+      "loss": 1.3799,
+      "step": 290
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 25.037168502807617,
+      "learning_rate": 4.4455645161290325e-05,
+      "loss": 1.5239,
+      "step": 300
+    },
+    {
+      "epoch": 0.124,
+      "grad_norm": 19.55396842956543,
+      "learning_rate": 4.425403225806452e-05,
+      "loss": 1.1581,
+      "step": 310
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 21.596759796142578,
+      "learning_rate": 4.4052419354838714e-05,
+      "loss": 1.314,
+      "step": 320
+    },
+    {
+      "epoch": 0.132,
+      "grad_norm": 15.211933135986328,
+      "learning_rate": 4.385080645161291e-05,
+      "loss": 1.1852,
+      "step": 330
+    },
+    {
+      "epoch": 0.136,
+      "grad_norm": 24.59844970703125,
+      "learning_rate": 4.36491935483871e-05,
+      "loss": 1.1092,
+      "step": 340
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 23.929607391357422,
+      "learning_rate": 4.344758064516129e-05,
+      "loss": 0.98,
+      "step": 350
+    },
+    {
+      "epoch": 0.144,
+      "grad_norm": 22.07075309753418,
+      "learning_rate": 4.3245967741935486e-05,
+      "loss": 1.2239,
+      "step": 360
+    },
+    {
+      "epoch": 0.148,
+      "grad_norm": 18.487125396728516,
+      "learning_rate": 4.3044354838709674e-05,
+      "loss": 1.3897,
+      "step": 370
+    },
+    {
+      "epoch": 0.152,
+      "grad_norm": 30.2105712890625,
+      "learning_rate": 4.284274193548387e-05,
+      "loss": 1.0571,
+      "step": 380
+    },
+    {
+      "epoch": 0.156,
+      "grad_norm": 29.202199935913086,
+      "learning_rate": 4.2641129032258064e-05,
+      "loss": 1.1788,
+      "step": 390
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 19.897415161132812,
+      "learning_rate": 4.243951612903226e-05,
+      "loss": 0.9951,
+      "step": 400
+    },
+    {
+      "epoch": 0.164,
+      "grad_norm": 14.207056999206543,
+      "learning_rate": 4.2237903225806454e-05,
+      "loss": 1.287,
+      "step": 410
+    },
+    {
+      "epoch": 0.168,
+      "grad_norm": 20.537015914916992,
+      "learning_rate": 4.203629032258065e-05,
+      "loss": 1.1353,
+      "step": 420
+    },
+    {
+      "epoch": 0.172,
+      "grad_norm": 18.372892379760742,
+      "learning_rate": 4.1834677419354836e-05,
+      "loss": 1.0423,
+      "step": 430
+    },
+    {
+      "epoch": 0.176,
+      "grad_norm": 37.1649284362793,
+      "learning_rate": 4.163306451612903e-05,
+      "loss": 0.95,
+      "step": 440
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 16.673492431640625,
+      "learning_rate": 4.1431451612903226e-05,
+      "loss": 0.9634,
+      "step": 450
+    },
+    {
+      "epoch": 0.184,
+      "grad_norm": 21.696840286254883,
+      "learning_rate": 4.122983870967742e-05,
+      "loss": 1.2075,
+      "step": 460
+    },
+    {
+      "epoch": 0.188,
+      "grad_norm": 18.72450065612793,
+      "learning_rate": 4.1028225806451615e-05,
+      "loss": 1.0212,
+      "step": 470
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 25.213973999023438,
+      "learning_rate": 4.082661290322581e-05,
+      "loss": 0.9902,
+      "step": 480
+    },
+    {
+      "epoch": 0.196,
+      "grad_norm": 22.240453720092773,
+      "learning_rate": 4.0625000000000005e-05,
+      "loss": 0.9929,
+      "step": 490
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 18.012147903442383,
+      "learning_rate": 4.042338709677419e-05,
+      "loss": 0.9574,
+      "step": 500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 9036323224934400.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null