Training in progress, step 57000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3d360be7fe2543c78a1f7ac85877b8ebcc55a8fc7ce7ea8871241b28859be01
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:16b35a6c5a2893347ac39200ce6524a1890f21615a98cf260909a1625f36f1c5
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c586225c37191bdb386336c5aa7eba4c313537c276b8b87dd7fefbcb4a3ca975
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b96c4f49154280d995e547e25a75aad825b4ac333aa881c2f7edaa3460a4415
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f1d7953b9adf97d81c8d5df7c90f2cd3786e196584c751d3c25ee459604bb2b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b80a94302b027aba469e721f259f7cea336e0f08145beaf0eef00eec23f3459c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56641b065a04f5f757422df636842a91ff2acd7d071b6672db512bd44af71813
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d03f04e05cd70ad1a826e9dcf44af396ac68835a057941493a30d6d09cfeca51
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.37668393695252606,
   "eval_steps": 500,
-  "global_step": 56000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9976,11 +9976,189 @@
       "eval_steps_per_second": 23.522,
       "num_input_tokens_seen": 14680064000,
       "step": 56000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
-  "num_input_tokens_seen": 14680064000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -9995,7 +10173,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.92706039742464e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.38341043582667833,
   "eval_steps": 500,
+  "global_step": 57000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.522,
       "num_input_tokens_seen": 14680064000,
       "step": 56000
+    },
+    {
+      "epoch": 0.37702026189623367,
+      "grad_norm": 0.2067674696445465,
+      "learning_rate": 0.0007385793801298042,
+      "loss": 3.05,
+      "num_input_tokens_seen": 14693171200,
+      "step": 56050
+    },
+    {
+      "epoch": 0.3773565868399413,
+      "grad_norm": 0.20803235471248627,
+      "learning_rate": 0.0007269952498697733,
+      "loss": 3.0451,
+      "num_input_tokens_seen": 14706278400,
+      "step": 56100
+    },
+    {
+      "epoch": 0.3776929117836489,
+      "grad_norm": 0.2035783976316452,
+      "learning_rate": 0.0007152555484041476,
+      "loss": 3.0281,
+      "num_input_tokens_seen": 14719385600,
+      "step": 56150
+    },
+    {
+      "epoch": 0.3780292367273565,
+      "grad_norm": 0.21911849081516266,
+      "learning_rate": 0.0007033683215379002,
+      "loss": 3.0312,
+      "num_input_tokens_seen": 14732492800,
+      "step": 56200
+    },
+    {
+      "epoch": 0.3783655616710641,
+      "grad_norm": 0.2263978123664856,
+      "learning_rate": 0.000691341716182545,
+      "loss": 3.0237,
+      "num_input_tokens_seen": 14745600000,
+      "step": 56250
+    },
+    {
+      "epoch": 0.3787018866147717,
+      "grad_norm": 0.20394045114517212,
+      "learning_rate": 0.0006791839747726501,
+      "loss": 3.0271,
+      "num_input_tokens_seen": 14758707200,
+      "step": 56300
+    },
+    {
+      "epoch": 0.37903821155847933,
+      "grad_norm": 0.1954122930765152,
+      "learning_rate": 0.0006669034296168854,
+      "loss": 3.0368,
+      "num_input_tokens_seen": 14771814400,
+      "step": 56350
+    },
+    {
+      "epoch": 0.37937453650218694,
+      "grad_norm": 0.2434541881084442,
+      "learning_rate": 0.0006545084971874737,
+      "loss": 3.0268,
+      "num_input_tokens_seen": 14784921600,
+      "step": 56400
+    },
+    {
+      "epoch": 0.37971086144589455,
+      "grad_norm": 0.19820261001586914,
+      "learning_rate": 0.0006420076723519614,
+      "loss": 3.0193,
+      "num_input_tokens_seen": 14798028800,
+      "step": 56450
+    },
+    {
+      "epoch": 0.38004718638960217,
+      "grad_norm": 0.18117697536945343,
+      "learning_rate": 0.0006294095225512603,
+      "loss": 3.0241,
+      "num_input_tokens_seen": 14811136000,
+      "step": 56500
+    },
+    {
+      "epoch": 0.38004718638960217,
+      "eval_loss": 2.920185089111328,
+      "eval_runtime": 53.8805,
+      "eval_samples_per_second": 92.798,
+      "eval_steps_per_second": 23.199,
+      "num_input_tokens_seen": 14811136000,
+      "step": 56500
+    },
+    {
+      "epoch": 0.3803835113333098,
+      "grad_norm": 0.20303522050380707,
+      "learning_rate": 0.0006167226819279528,
+      "loss": 3.0133,
+      "num_input_tokens_seen": 14824243200,
+      "step": 56550
+    },
+    {
+      "epoch": 0.3807198362770174,
+      "grad_norm": 0.19498929381370544,
+      "learning_rate": 0.0006039558454088796,
+      "loss": 3.0241,
+      "num_input_tokens_seen": 14837350400,
+      "step": 56600
+    },
+    {
+      "epoch": 0.381056161220725,
+      "grad_norm": 0.21773076057434082,
+      "learning_rate": 0.0005911177627460738,
+      "loss": 3.0235,
+      "num_input_tokens_seen": 14850457600,
+      "step": 56650
+    },
+    {
+      "epoch": 0.3813924861644326,
+      "grad_norm": 0.19796748459339142,
+      "learning_rate": 0.0005782172325201155,
+      "loss": 3.019,
+      "num_input_tokens_seen": 14863564800,
+      "step": 56700
+    },
+    {
+      "epoch": 0.3817288111081402,
+      "grad_norm": 0.18569409847259521,
+      "learning_rate": 0.000565263096110026,
+      "loss": 3.0189,
+      "num_input_tokens_seen": 14876672000,
+      "step": 56750
+    },
+    {
+      "epoch": 0.38206513605184783,
+      "grad_norm": 0.27358362078666687,
+      "learning_rate": 0.0005522642316338268,
+      "loss": 3.0107,
+      "num_input_tokens_seen": 14889779200,
+      "step": 56800
+    },
+    {
+      "epoch": 0.38240146099555544,
+      "grad_norm": 0.2143600583076477,
+      "learning_rate": 0.0005392295478639225,
+      "loss": 3.0139,
+      "num_input_tokens_seen": 14902886400,
+      "step": 56850
+    },
+    {
+      "epoch": 0.38273778593926305,
+      "grad_norm": 0.18786349892616272,
+      "learning_rate": 0.000526167978121472,
+      "loss": 3.0187,
+      "num_input_tokens_seen": 14915993600,
+      "step": 56900
+    },
+    {
+      "epoch": 0.38307411088297066,
+      "grad_norm": 0.1809261441230774,
+      "learning_rate": 0.0005130884741539367,
+      "loss": 3.0197,
+      "num_input_tokens_seen": 14929100800,
+      "step": 56950
+    },
+    {
+      "epoch": 0.38341043582667833,
+      "grad_norm": 0.1926116794347763,
+      "learning_rate": 0.0005,
+      "loss": 3.0101,
+      "num_input_tokens_seen": 14942208000,
+      "step": 57000
+    },
+    {
+      "epoch": 0.38341043582667833,
+      "eval_loss": 2.912503242492676,
+      "eval_runtime": 52.7455,
+      "eval_samples_per_second": 94.795,
+      "eval_steps_per_second": 23.699,
+      "num_input_tokens_seen": 14942208000,
+      "step": 57000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
+  "num_input_tokens_seen": 14942208000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.99718647595008e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null