Training in progress, step 16000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdf1b0f1f31678e02e392db01936d097de602c17608d494f22362854ea1faea3
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:314ace06359dc0a1588628e331e678c1756658b1e5b55ebfc40ace3ca7f19975
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e719c4342dca47d074b491692ded6689afd8a826c27c44b36fe769c38219ad92
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:145b83ea857b82f412f448a97a8f9f5c98bbb7dffd2fbc6b5c490420cb05fd6d
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed76fec8b31c184dac30ebd8181dfe95aa10c557692428e198df8bc24024a3d1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:37104b59ca9cf24df14fa2064ba3c6de266e9640e43d473d5abb1378b6567288
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2f83db9058ff0e3a2778afbea4452d3483a420d1f349a8a276a60ee0edb90fc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fdb7ab6d17f71d52f24a53832c179d2b096c87d3e016344e7361ae053671325
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3294906486435282,
   "eval_steps": 500,
-  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2678,11 +2678,189 @@
       "eval_steps_per_second": 18.968,
       "num_input_tokens_seen": 15728640000,
       "step": 15000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 15728640000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -2697,7 +2875,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.95757573947392e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3514566918864301,
   "eval_steps": 500,
+  "global_step": 16000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.968,
       "num_input_tokens_seen": 15728640000,
       "step": 15000
+    },
+    {
+      "epoch": 0.3305889508056733,
+      "grad_norm": 0.11965218186378479,
+      "learning_rate": 0.001,
+      "loss": 2.7443,
+      "num_input_tokens_seen": 15781068800,
+      "step": 15050
+    },
+    {
+      "epoch": 0.33168725296781837,
+      "grad_norm": 0.14668309688568115,
+      "learning_rate": 0.001,
+      "loss": 2.7496,
+      "num_input_tokens_seen": 15833497600,
+      "step": 15100
+    },
+    {
+      "epoch": 0.3327855551299635,
+      "grad_norm": 0.12492749840021133,
+      "learning_rate": 0.001,
+      "loss": 2.7485,
+      "num_input_tokens_seen": 15885926400,
+      "step": 15150
+    },
+    {
+      "epoch": 0.33388385729210857,
+      "grad_norm": 0.1333470493555069,
+      "learning_rate": 0.001,
+      "loss": 2.7511,
+      "num_input_tokens_seen": 15938355200,
+      "step": 15200
+    },
+    {
+      "epoch": 0.33498215945425364,
+      "grad_norm": 0.14136457443237305,
+      "learning_rate": 0.001,
+      "loss": 2.74,
+      "num_input_tokens_seen": 15990784000,
+      "step": 15250
+    },
+    {
+      "epoch": 0.33608046161639876,
+      "grad_norm": 0.14975622296333313,
+      "learning_rate": 0.001,
+      "loss": 2.7543,
+      "num_input_tokens_seen": 16043212800,
+      "step": 15300
+    },
+    {
+      "epoch": 0.33717876377854383,
+      "grad_norm": 0.1193549856543541,
+      "learning_rate": 0.001,
+      "loss": 2.7497,
+      "num_input_tokens_seen": 16095641600,
+      "step": 15350
+    },
+    {
+      "epoch": 0.33827706594068896,
+      "grad_norm": 0.1429223120212555,
+      "learning_rate": 0.001,
+      "loss": 2.7463,
+      "num_input_tokens_seen": 16148070400,
+      "step": 15400
+    },
+    {
+      "epoch": 0.33937536810283403,
+      "grad_norm": 0.16827304661273956,
+      "learning_rate": 0.001,
+      "loss": 2.7415,
+      "num_input_tokens_seen": 16200499200,
+      "step": 15450
+    },
+    {
+      "epoch": 0.3404736702649791,
+      "grad_norm": 0.13952937722206116,
+      "learning_rate": 0.001,
+      "loss": 2.7388,
+      "num_input_tokens_seen": 16252928000,
+      "step": 15500
+    },
+    {
+      "epoch": 0.3404736702649791,
+      "eval_loss": 2.6472089290618896,
+      "eval_runtime": 65.4943,
+      "eval_samples_per_second": 76.343,
+      "eval_steps_per_second": 19.086,
+      "num_input_tokens_seen": 16252928000,
+      "step": 15500
+    },
+    {
+      "epoch": 0.3415719724271242,
+      "grad_norm": 0.13359376788139343,
+      "learning_rate": 0.001,
+      "loss": 2.7522,
+      "num_input_tokens_seen": 16305356800,
+      "step": 15550
+    },
+    {
+      "epoch": 0.3426702745892693,
+      "grad_norm": 0.13101224601268768,
+      "learning_rate": 0.001,
+      "loss": 2.7483,
+      "num_input_tokens_seen": 16357785600,
+      "step": 15600
+    },
+    {
+      "epoch": 0.3437685767514144,
+      "grad_norm": 0.14006133377552032,
+      "learning_rate": 0.001,
+      "loss": 2.7439,
+      "num_input_tokens_seen": 16410214400,
+      "step": 15650
+    },
+    {
+      "epoch": 0.3448668789135595,
+      "grad_norm": 0.15062059462070465,
+      "learning_rate": 0.001,
+      "loss": 2.7454,
+      "num_input_tokens_seen": 16462643200,
+      "step": 15700
+    },
+    {
+      "epoch": 0.3459651810757046,
+      "grad_norm": 0.13822610676288605,
+      "learning_rate": 0.001,
+      "loss": 2.74,
+      "num_input_tokens_seen": 16515072000,
+      "step": 15750
+    },
+    {
+      "epoch": 0.3470634832378497,
+      "grad_norm": 0.1368207335472107,
+      "learning_rate": 0.001,
+      "loss": 2.745,
+      "num_input_tokens_seen": 16567500800,
+      "step": 15800
+    },
+    {
+      "epoch": 0.34816178539999476,
+      "grad_norm": 0.14573991298675537,
+      "learning_rate": 0.001,
+      "loss": 2.742,
+      "num_input_tokens_seen": 16619929600,
+      "step": 15850
+    },
+    {
+      "epoch": 0.3492600875621399,
+      "grad_norm": 12.025542259216309,
+      "learning_rate": 0.001,
+      "loss": 3.3278,
+      "num_input_tokens_seen": 16672358400,
+      "step": 15900
+    },
+    {
+      "epoch": 0.35035838972428496,
+      "grad_norm": 0.15699023008346558,
+      "learning_rate": 0.001,
+      "loss": 4.04,
+      "num_input_tokens_seen": 16724787200,
+      "step": 15950
+    },
+    {
+      "epoch": 0.3514566918864301,
+      "grad_norm": 0.13041897118091583,
+      "learning_rate": 0.001,
+      "loss": 2.8233,
+      "num_input_tokens_seen": 16777216000,
+      "step": 16000
+    },
+    {
+      "epoch": 0.3514566918864301,
+      "eval_loss": 2.689638614654541,
+      "eval_runtime": 66.0949,
+      "eval_samples_per_second": 75.649,
+      "eval_steps_per_second": 18.912,
+      "num_input_tokens_seen": 16777216000,
+      "step": 16000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 16777216000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 9.554747455438848e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null