Training in progress, step 134000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92ad31cc8051a774ff84bf50a2f043b12568d60c659ab713450ad489e60ff067
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d56ac5cac24a22412473f2135127ddabb38b319ea83b674e986a42239b250e9
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f98fbf6f84fc645d4e9351e4872ab3409232339169c895981f2ca6168553f54
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4d6a881e9f26105deee08c944e754ddbf4c77f455ab89089e93e0141d4bbc5a
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eda9968c0f9e110957e79edd3603196e5c46bdd8acc1a9a916fa49100e905254
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:24b5f8b02f183c01b91dfb927bcee2fd08e29422009a0f8c863f42c2374d464d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c40f5e3cc10bc35190c452a89f96d672b73ffd5edfe6d4e72f9d0b88f5a7c9a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f96155b98d632c68f19e59b549aa9343e95b0d1b8978f18da42e6a70e5498d0e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2688290780733869,
   "eval_steps": 500,
-  "global_step": 133000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -23682,11 +23682,189 @@
       "eval_steps_per_second": 15.141,
       "num_input_tokens_seen": 69719047840,
       "step": 133000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 69719047840,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -23701,7 +23879,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2338999792247398e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2783691283971523,
   "eval_steps": 500,
+  "global_step": 134000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.141,
       "num_input_tokens_seen": 69719047840,
       "step": 133000
+    },
+    {
+      "epoch": 1.269306080589575,
+      "grad_norm": 0.12358897924423218,
+      "learning_rate": 0.00014446875342055988,
+      "loss": 2.0342,
+      "num_input_tokens_seen": 69745262240,
+      "step": 133050
+    },
+    {
+      "epoch": 1.2697830831057635,
+      "grad_norm": 0.12031599134206772,
+      "learning_rate": 0.00014250208666766236,
+      "loss": 2.0402,
+      "num_input_tokens_seen": 69771476640,
+      "step": 133100
+    },
+    {
+      "epoch": 1.2702600856219517,
+      "grad_norm": 0.12011140584945679,
+      "learning_rate": 0.00014054667104271496,
+      "loss": 2.0358,
+      "num_input_tokens_seen": 69797691040,
+      "step": 133150
+    },
+    {
+      "epoch": 1.27073708813814,
+      "grad_norm": 0.12352379411458969,
+      "learning_rate": 0.00013860256808630427,
+      "loss": 2.043,
+      "num_input_tokens_seen": 69823902816,
+      "step": 133200
+    },
+    {
+      "epoch": 1.271214090654328,
+      "grad_norm": 0.1257781833410263,
+      "learning_rate": 0.00013666983898298656,
+      "loss": 2.0464,
+      "num_input_tokens_seen": 69850112224,
+      "step": 133250
+    },
+    {
+      "epoch": 1.2716910931705165,
+      "grad_norm": 0.12694838643074036,
+      "learning_rate": 0.00013474854455936125,
+      "loss": 2.0401,
+      "num_input_tokens_seen": 69876325568,
+      "step": 133300
+    },
+    {
+      "epoch": 1.2721680956867047,
+      "grad_norm": 0.12634819746017456,
+      "learning_rate": 0.00013283874528215734,
+      "loss": 2.0339,
+      "num_input_tokens_seen": 69902536928,
+      "step": 133350
+    },
+    {
+      "epoch": 1.272645098202893,
+      "grad_norm": 0.12307710945606232,
+      "learning_rate": 0.00013094050125632973,
+      "loss": 2.0277,
+      "num_input_tokens_seen": 69928748288,
+      "step": 133400
+    },
+    {
+      "epoch": 1.2731221007190814,
+      "grad_norm": 0.12187953293323517,
+      "learning_rate": 0.00012905387222316822,
+      "loss": 2.0402,
+      "num_input_tokens_seen": 69954953888,
+      "step": 133450
+    },
+    {
+      "epoch": 1.2735991032352696,
+      "grad_norm": 0.12032655626535416,
+      "learning_rate": 0.0001271789175584172,
+      "loss": 2.0419,
+      "num_input_tokens_seen": 69981165632,
+      "step": 133500
+    },
+    {
+      "epoch": 1.2735991032352696,
+      "eval_loss": 1.9568681716918945,
+      "eval_runtime": 82.7406,
+      "eval_samples_per_second": 60.43,
+      "eval_steps_per_second": 15.107,
+      "num_input_tokens_seen": 69981165632,
+      "step": 133500
+    },
+    {
+      "epoch": 1.2740761057514578,
+      "grad_norm": 0.12817110121250153,
+      "learning_rate": 0.00012531569627040635,
+      "loss": 2.034,
+      "num_input_tokens_seen": 70007368800,
+      "step": 133550
+    },
+    {
+      "epoch": 1.274553108267646,
+      "grad_norm": 0.13095012307167053,
+      "learning_rate": 0.00012346426699819457,
+      "loss": 2.0346,
+      "num_input_tokens_seen": 70033578048,
+      "step": 133600
+    },
+    {
+      "epoch": 1.2750301107838344,
+      "grad_norm": 0.12582357227802277,
+      "learning_rate": 0.00012162468800972342,
+      "loss": 2.0398,
+      "num_input_tokens_seen": 70059792448,
+      "step": 133650
+    },
+    {
+      "epoch": 1.2755071133000226,
+      "grad_norm": 0.11612017452716827,
+      "learning_rate": 0.00011979701719998454,
+      "loss": 2.0341,
+      "num_input_tokens_seen": 70086003648,
+      "step": 133700
+    },
+    {
+      "epoch": 1.2759841158162109,
+      "grad_norm": 0.12256049364805222,
+      "learning_rate": 0.00011798131208919626,
+      "loss": 2.029,
+      "num_input_tokens_seen": 70112204096,
+      "step": 133750
+    },
+    {
+      "epoch": 1.2764611183323993,
+      "grad_norm": 0.11747635900974274,
+      "learning_rate": 0.00011617762982099444,
+      "loss": 2.0355,
+      "num_input_tokens_seen": 70138411104,
+      "step": 133800
+    },
+    {
+      "epoch": 1.2769381208485875,
+      "grad_norm": 0.12225272506475449,
+      "learning_rate": 0.00011438602716063329,
+      "loss": 2.042,
+      "num_input_tokens_seen": 70164623328,
+      "step": 133850
+    },
+    {
+      "epoch": 1.2774151233647757,
+      "grad_norm": 0.1293225735425949,
+      "learning_rate": 0.00011260656049319957,
+      "loss": 2.0367,
+      "num_input_tokens_seen": 70190833888,
+      "step": 133900
+    },
+    {
+      "epoch": 1.277892125880964,
+      "grad_norm": 0.12261593341827393,
+      "learning_rate": 0.0001108392858218371,
+      "loss": 2.0444,
+      "num_input_tokens_seen": 70217043648,
+      "step": 133950
+    },
+    {
+      "epoch": 1.2783691283971523,
+      "grad_norm": 0.11957214772701263,
+      "learning_rate": 0.0001090842587659851,
+      "loss": 2.0345,
+      "num_input_tokens_seen": 70243253472,
+      "step": 134000
+    },
+    {
+      "epoch": 1.2783691283971523,
+      "eval_loss": 1.955412745475769,
+      "eval_runtime": 82.5981,
+      "eval_samples_per_second": 60.534,
+      "eval_steps_per_second": 15.134,
+      "num_input_tokens_seen": 70243253472,
+      "step": 134000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 70243253472,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.243177462760067e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null