Training in progress, step 50000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d2189cc3a98b2403601c139a530c8e21835cb6237e1f4942ace6213b73fce5f
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c9956ceaa01a8262c17e82fea9ac349503f1643baa686fe83baf73d6c182cfd
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec0537d11321458817927ebac3e783711d3aa86865e3823d0bc93d1e41dfc5d1
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9a8f8b0ff9c7ab62e432b714de9517f6859e2ebcb731ff15954b08eab3fa5fd
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02dd1579b4e4c484590ab9c87fcdb4df0578497bcab5d7d028a086e5a9506abe
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:08d6a67f7616cccd33f77a5e076df0611e7b35eb8ba28bbeb4122e81eca5afa0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85feca9ffa4367dad07b4142308894db505807fd169bd3aedff12898c8f097e0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:66168c288d1955c1c664cfa64be79d9023fb79ca5529a1e6b201d572885b2dfe
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.23373123293225373,
   "eval_steps": 500,
-  "global_step": 49000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8730,11 +8730,189 @@
       "eval_steps_per_second": 23.197,
       "num_input_tokens_seen": 12845051456,
       "step": 49000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 12845051456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -8749,7 +8927,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.4361766321822106e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.23850125809413644,
   "eval_steps": 500,
+  "global_step": 50000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.197,
       "num_input_tokens_seen": 12845051456,
       "step": 49000
+    },
+    {
+      "epoch": 0.23396973419034786,
+      "grad_norm": 0.209337517619133,
+      "learning_rate": 0.001,
+      "loss": 2.6348,
+      "num_input_tokens_seen": 12858158656,
+      "step": 49050
+    },
+    {
+      "epoch": 0.234208235448442,
+      "grad_norm": 0.1974038928747177,
+      "learning_rate": 0.001,
+      "loss": 2.6158,
+      "num_input_tokens_seen": 12871265856,
+      "step": 49100
+    },
+    {
+      "epoch": 0.23444673670653612,
+      "grad_norm": 0.28099164366722107,
+      "learning_rate": 0.001,
+      "loss": 2.6101,
+      "num_input_tokens_seen": 12884373056,
+      "step": 49150
+    },
+    {
+      "epoch": 0.23468523796463026,
+      "grad_norm": 0.2172873318195343,
+      "learning_rate": 0.001,
+      "loss": 2.596,
+      "num_input_tokens_seen": 12897480256,
+      "step": 49200
+    },
+    {
+      "epoch": 0.2349237392227244,
+      "grad_norm": 0.2120896875858307,
+      "learning_rate": 0.001,
+      "loss": 2.5994,
+      "num_input_tokens_seen": 12910587456,
+      "step": 49250
+    },
+    {
+      "epoch": 0.23516224048081855,
+      "grad_norm": 0.20109935104846954,
+      "learning_rate": 0.001,
+      "loss": 2.6101,
+      "num_input_tokens_seen": 12923694656,
+      "step": 49300
+    },
+    {
+      "epoch": 0.23540074173891268,
+      "grad_norm": 0.20735585689544678,
+      "learning_rate": 0.001,
+      "loss": 2.6142,
+      "num_input_tokens_seen": 12936801856,
+      "step": 49350
+    },
+    {
+      "epoch": 0.2356392429970068,
+      "grad_norm": 0.21295137703418732,
+      "learning_rate": 0.001,
+      "loss": 2.6226,
+      "num_input_tokens_seen": 12949909056,
+      "step": 49400
+    },
+    {
+      "epoch": 0.23587774425510094,
+      "grad_norm": 0.20560845732688904,
+      "learning_rate": 0.001,
+      "loss": 2.6027,
+      "num_input_tokens_seen": 12963016256,
+      "step": 49450
+    },
+    {
+      "epoch": 0.23611624551319507,
+      "grad_norm": 0.33747321367263794,
+      "learning_rate": 0.001,
+      "loss": 2.6231,
+      "num_input_tokens_seen": 12976123456,
+      "step": 49500
+    },
+    {
+      "epoch": 0.23611624551319507,
+      "eval_loss": 2.5008058547973633,
+      "eval_runtime": 54.2104,
+      "eval_samples_per_second": 92.233,
+      "eval_steps_per_second": 23.058,
+      "num_input_tokens_seen": 12976123456,
+      "step": 49500
+    },
+    {
+      "epoch": 0.23635474677128923,
+      "grad_norm": 0.24593485891819,
+      "learning_rate": 0.001,
+      "loss": 2.6336,
+      "num_input_tokens_seen": 12989230656,
+      "step": 49550
+    },
+    {
+      "epoch": 0.23659324802938336,
+      "grad_norm": 0.25253933668136597,
+      "learning_rate": 0.001,
+      "loss": 2.643,
+      "num_input_tokens_seen": 13002337856,
+      "step": 49600
+    },
+    {
+      "epoch": 0.2368317492874775,
+      "grad_norm": 0.24231670796871185,
+      "learning_rate": 0.001,
+      "loss": 2.6074,
+      "num_input_tokens_seen": 13015445056,
+      "step": 49650
+    },
+    {
+      "epoch": 0.23707025054557163,
+      "grad_norm": 0.2178962677717209,
+      "learning_rate": 0.001,
+      "loss": 2.6184,
+      "num_input_tokens_seen": 13028552256,
+      "step": 49700
+    },
+    {
+      "epoch": 0.23730875180366576,
+      "grad_norm": 0.2651260793209076,
+      "learning_rate": 0.001,
+      "loss": 2.6335,
+      "num_input_tokens_seen": 13041659456,
+      "step": 49750
+    },
+    {
+      "epoch": 0.2375472530617599,
+      "grad_norm": 0.1909639537334442,
+      "learning_rate": 0.001,
+      "loss": 2.61,
+      "num_input_tokens_seen": 13054766656,
+      "step": 49800
+    },
+    {
+      "epoch": 0.23778575431985405,
+      "grad_norm": 0.21107855439186096,
+      "learning_rate": 0.001,
+      "loss": 2.6333,
+      "num_input_tokens_seen": 13067873856,
+      "step": 49850
+    },
+    {
+      "epoch": 0.23802425557794818,
+      "grad_norm": 0.19366736710071564,
+      "learning_rate": 0.001,
+      "loss": 2.6068,
+      "num_input_tokens_seen": 13080981056,
+      "step": 49900
+    },
+    {
+      "epoch": 0.2382627568360423,
+      "grad_norm": 0.2851523458957672,
+      "learning_rate": 0.001,
+      "loss": 2.6183,
+      "num_input_tokens_seen": 13094088256,
+      "step": 49950
+    },
+    {
+      "epoch": 0.23850125809413644,
+      "grad_norm": 0.23617912828922272,
+      "learning_rate": 0.001,
+      "loss": 2.617,
+      "num_input_tokens_seen": 13107195456,
+      "step": 50000
+    },
+    {
+      "epoch": 0.23850125809413644,
+      "eval_loss": 2.497406005859375,
+      "eval_runtime": 53.6538,
+      "eval_samples_per_second": 93.19,
+      "eval_steps_per_second": 23.298,
+      "num_input_tokens_seen": 13107195456,
+      "step": 50000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 13107195456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.5063027107076506e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null