Training in progress, step 2400, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a11ea4246169d4ba1b9cdfd1ec7ef840b6b697d514813efd0057d57657a9241f
 size 2558403928

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed21612abd96e9f3180e59a523332882fb8b7e33bf01c2e16df3203238ea60a4
 size 2558403928

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8bff2dd91c1612009877ee3b54bb35e744dcc95587bcbfa8944d30b0c5da6f76
 size 1313638993

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bf19ccf0e0d82bcdae677e010373be8ed4cd7f9ff952f45ada24714cfe7fae7
 size 1313638993

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f78d4bac68df9071c97615b2e87cf8d0471f01b17ef6d500cfcd39134f131824
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e44c6b7e3801cf2cadd741e677cb1212309bde8f6d206a1348cce5d738d15c3
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc99556bf27209385963813e3570510732839e6002d61d657266050e280a33eb
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:7da7c5085795b13d2bf0030671cbddb9f62ae43221bf1424a3830d4cf8c19012
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d4ff6faba9116c06367ce60af1ab0ce82d05c5571557409e66e7e9ab509c55a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ae14ab968b2e9bd5cc3fce1b0eaa2a5d11fdc6bd9129e17f4ebc5e3b9704808
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.84,
   "eval_steps": 500,
-  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1485,6 +1485,216 @@
       "learning_rate": 3.23278126679408e-06,
       "loss": 2.9846,
       "step": 2100
     }
   ],
   "logging_steps": 10,
@@ -1504,7 +1714,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.87292665741312e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.96,
   "eval_steps": 500,
+  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 3.23278126679408e-06,
       "loss": 2.9846,
       "step": 2100
+    },
+    {
+      "epoch": 0.844,
+      "grad_norm": 9.084943771362305,
+      "learning_rate": 3.0769074037237583e-06,
+      "loss": 2.9903,
+      "step": 2110
+    },
+    {
+      "epoch": 0.848,
+      "grad_norm": 6.5540595054626465,
+      "learning_rate": 2.9246381934887684e-06,
+      "loss": 3.2851,
+      "step": 2120
+    },
+    {
+      "epoch": 0.852,
+      "grad_norm": 7.740701675415039,
+      "learning_rate": 2.7759986725951703e-06,
+      "loss": 2.9797,
+      "step": 2130
+    },
+    {
+      "epoch": 0.856,
+      "grad_norm": 10.074856758117676,
+      "learning_rate": 2.6310132807458894e-06,
+      "loss": 3.1325,
+      "step": 2140
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 10.44127368927002,
+      "learning_rate": 2.4897058568223137e-06,
+      "loss": 3.0159,
+      "step": 2150
+    },
+    {
+      "epoch": 0.864,
+      "grad_norm": 9.894632339477539,
+      "learning_rate": 2.3520996349645995e-06,
+      "loss": 2.8015,
+      "step": 2160
+    },
+    {
+      "epoch": 0.868,
+      "grad_norm": 9.043245315551758,
+      "learning_rate": 2.218217240751491e-06,
+      "loss": 3.4477,
+      "step": 2170
+    },
+    {
+      "epoch": 0.872,
+      "grad_norm": 9.901315689086914,
+      "learning_rate": 2.088080687480151e-06,
+      "loss": 3.3157,
+      "step": 2180
+    },
+    {
+      "epoch": 0.876,
+      "grad_norm": 8.202696800231934,
+      "learning_rate": 1.961711372546657e-06,
+      "loss": 2.9467,
+      "step": 2190
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 8.691917419433594,
+      "learning_rate": 1.8391300739278139e-06,
+      "loss": 2.9079,
+      "step": 2200
+    },
+    {
+      "epoch": 0.884,
+      "grad_norm": 13.363630294799805,
+      "learning_rate": 1.7203569467647674e-06,
+      "loss": 3.2583,
+      "step": 2210
+    },
+    {
+      "epoch": 0.888,
+      "grad_norm": 11.732659339904785,
+      "learning_rate": 1.6054115200490493e-06,
+      "loss": 3.0431,
+      "step": 2220
+    },
+    {
+      "epoch": 0.892,
+      "grad_norm": 7.8193230628967285,
+      "learning_rate": 1.4943126934115536e-06,
+      "loss": 3.1155,
+      "step": 2230
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 6.232199192047119,
+      "learning_rate": 1.3870787340150376e-06,
+      "loss": 3.2006,
+      "step": 2240
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 5.650846004486084,
+      "learning_rate": 1.2837272735505668e-06,
+      "loss": 2.8882,
+      "step": 2250
+    },
+    {
+      "epoch": 0.904,
+      "grad_norm": 7.191598892211914,
+      "learning_rate": 1.1842753053384559e-06,
+      "loss": 3.0833,
+      "step": 2260
+    },
+    {
+      "epoch": 0.908,
+      "grad_norm": 8.854833602905273,
+      "learning_rate": 1.0887391815342124e-06,
+      "loss": 3.3196,
+      "step": 2270
+    },
+    {
+      "epoch": 0.912,
+      "grad_norm": 13.160386085510254,
+      "learning_rate": 9.971346104398455e-07,
+      "loss": 3.564,
+      "step": 2280
+    },
+    {
+      "epoch": 0.916,
+      "grad_norm": 8.540671348571777,
+      "learning_rate": 9.09476653921082e-07,
+      "loss": 3.1383,
+      "step": 2290
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 12.331473350524902,
+      "learning_rate": 8.257797249308419e-07,
+      "loss": 3.259,
+      "step": 2300
+    },
+    {
+      "epoch": 0.924,
+      "grad_norm": 7.576813697814941,
+      "learning_rate": 7.460575851394341e-07,
+      "loss": 2.8659,
+      "step": 2310
+    },
+    {
+      "epoch": 0.928,
+      "grad_norm": 6.937955379486084,
+      "learning_rate": 6.703233426718136e-07,
+      "loss": 2.9416,
+      "step": 2320
+    },
+    {
+      "epoch": 0.932,
+      "grad_norm": 7.9867777824401855,
+      "learning_rate": 5.985894499523193e-07,
+      "loss": 3.0008,
+      "step": 2330
+    },
+    {
+      "epoch": 0.936,
+      "grad_norm": 10.474209785461426,
+      "learning_rate": 5.308677016572145e-07,
+      "loss": 3.6042,
+      "step": 2340
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 6.954331398010254,
+      "learning_rate": 4.6716923277536627e-07,
+      "loss": 2.696,
+      "step": 2350
+    },
+    {
+      "epoch": 0.944,
+      "grad_norm": 6.555063247680664,
+      "learning_rate": 4.075045167774072e-07,
+      "loss": 3.2311,
+      "step": 2360
+    },
+    {
+      "epoch": 0.948,
+      "grad_norm": 7.122920513153076,
+      "learning_rate": 3.518833638936514e-07,
+      "loss": 3.1349,
+      "step": 2370
+    },
+    {
+      "epoch": 0.952,
+      "grad_norm": 10.269899368286133,
+      "learning_rate": 3.003149195010907e-07,
+      "loss": 2.9381,
+      "step": 2380
+    },
+    {
+      "epoch": 0.956,
+      "grad_norm": 8.958882331848145,
+      "learning_rate": 2.528076626196585e-07,
+      "loss": 3.0804,
+      "step": 2390
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 11.036646842956543,
+      "learning_rate": 2.0936940451811437e-07,
+      "loss": 3.0191,
+      "step": 2400
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.128334475132928e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null