Training in progress, step 59000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fbbcf8e4efabf5866400ce20d5f64dfe9bcdba3c76105321e75b94424bbdf9a
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:59a706f60964ffe8cd2b221f9a7465c0f56181a98072bee3057047cce8e408cf
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee28446b68e061d51e2acb6d49ad965661e91bf2d3291a5dc5003af4c9992cc6
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ef2119eabf69c54d09db0a76c3313d847c900937c3e2edb463f3eba3b1000af
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec1bfb0db1c21e8b4cd52af95928aa8366b624cdfe8a7ae4baa053e84325dfb8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfe4fcebd5141fdf7604535ed8dc60cda464d7e4d084d78ec5c9b7105325f9b5
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e04abc75ac3354daa3070b9f9eb5e8a95eba4855d092af143aa714bd01a0140a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e5b084cf754d7494e17fb8efe3747874197d5052ad1bcb013283a3027835137
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.39013693470083055,
   "eval_steps": 500,
-  "global_step": 58000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10332,11 +10332,189 @@
       "eval_steps_per_second": 23.346,
       "num_input_tokens_seen": 15204352000,
       "step": 58000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
-  "num_input_tokens_seen": 15204352000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -10351,7 +10529,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.06731255447552e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3968634335749828,
   "eval_steps": 500,
+  "global_step": 59000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.346,
       "num_input_tokens_seen": 15204352000,
       "step": 58000
+    },
+    {
+      "epoch": 0.39047325964453816,
+      "grad_norm": 0.1577194780111313,
+      "learning_rate": 0.00023875071764202561,
+      "loss": 2.9866,
+      "num_input_tokens_seen": 15217459200,
+      "step": 58050
+    },
+    {
+      "epoch": 0.3908095845882458,
+      "grad_norm": 0.1869671791791916,
+      "learning_rate": 0.00022768048249248646,
+      "loss": 2.9973,
+      "num_input_tokens_seen": 15230566400,
+      "step": 58100
+    },
+    {
+      "epoch": 0.3911459095319534,
+      "grad_norm": 0.1568073183298111,
+      "learning_rate": 0.0002167968815375837,
+      "loss": 3.0012,
+      "num_input_tokens_seen": 15243673600,
+      "step": 58150
+    },
+    {
+      "epoch": 0.391482234475661,
+      "grad_norm": 0.15343065559864044,
+      "learning_rate": 0.00020610737385376348,
+      "loss": 2.988,
+      "num_input_tokens_seen": 15256780800,
+      "step": 58200
+    },
+    {
+      "epoch": 0.3918185594193686,
+      "grad_norm": 0.22413235902786255,
+      "learning_rate": 0.00019561928549563967,
+      "loss": 2.993,
+      "num_input_tokens_seen": 15269888000,
+      "step": 58250
+    },
+    {
+      "epoch": 0.3921548843630762,
+      "grad_norm": 0.1807044893503189,
+      "learning_rate": 0.00018533980447508135,
+      "loss": 2.9905,
+      "num_input_tokens_seen": 15282995200,
+      "step": 58300
+    },
+    {
+      "epoch": 0.39249120930678383,
+      "grad_norm": 0.1571112871170044,
+      "learning_rate": 0.00017527597583490823,
+      "loss": 2.9983,
+      "num_input_tokens_seen": 15296102400,
+      "step": 58350
+    },
+    {
+      "epoch": 0.39282753425049144,
+      "grad_norm": 0.16821637749671936,
+      "learning_rate": 0.00016543469682057105,
+      "loss": 2.9966,
+      "num_input_tokens_seen": 15309209600,
+      "step": 58400
+    },
+    {
+      "epoch": 0.39316385919419905,
+      "grad_norm": 0.1497010737657547,
+      "learning_rate": 0.00015582271215312294,
+      "loss": 2.9814,
+      "num_input_tokens_seen": 15322316800,
+      "step": 58450
+    },
+    {
+      "epoch": 0.39350018413790666,
+      "grad_norm": 0.15679225325584412,
+      "learning_rate": 0.00014644660940672628,
+      "loss": 2.9876,
+      "num_input_tokens_seen": 15335424000,
+      "step": 58500
+    },
+    {
+      "epoch": 0.39350018413790666,
+      "eval_loss": 2.8887994289398193,
+      "eval_runtime": 53.8449,
+      "eval_samples_per_second": 92.859,
+      "eval_steps_per_second": 23.215,
+      "num_input_tokens_seen": 15335424000,
+      "step": 58500
+    },
+    {
+      "epoch": 0.39383650908161427,
+      "grad_norm": 0.15169823169708252,
+      "learning_rate": 0.0001373128144938563,
+      "loss": 2.9875,
+      "num_input_tokens_seen": 15348531200,
+      "step": 58550
+    },
+    {
+      "epoch": 0.3941728340253219,
+      "grad_norm": 0.1635347604751587,
+      "learning_rate": 0.00012842758726130281,
+      "loss": 2.9898,
+      "num_input_tokens_seen": 15361638400,
+      "step": 58600
+    },
+    {
+      "epoch": 0.3945091589690295,
+      "grad_norm": 0.15156348049640656,
+      "learning_rate": 0.00011979701719998454,
+      "loss": 2.9977,
+      "num_input_tokens_seen": 15374745600,
+      "step": 58650
+    },
+    {
+      "epoch": 0.3948454839127371,
+      "grad_norm": 0.15710316598415375,
+      "learning_rate": 0.00011142701927151455,
+      "loss": 2.981,
+      "num_input_tokens_seen": 15387852800,
+      "step": 58700
+    },
+    {
+      "epoch": 0.3951818088564447,
+      "grad_norm": 0.2838917374610901,
+      "learning_rate": 0.00010332332985438247,
+      "loss": 2.9909,
+      "num_input_tokens_seen": 15400960000,
+      "step": 58750
+    },
+    {
+      "epoch": 0.3955181338001524,
+      "grad_norm": 0.1509639173746109,
+      "learning_rate": 9.549150281252633e-05,
+      "loss": 2.9851,
+      "num_input_tokens_seen": 15414067200,
+      "step": 58800
+    },
+    {
+      "epoch": 0.39585445874386,
+      "grad_norm": 0.1501421183347702,
+      "learning_rate": 8.793690568899215e-05,
+      "loss": 2.9931,
+      "num_input_tokens_seen": 15427174400,
+      "step": 58850
+    },
+    {
+      "epoch": 0.3961907836875676,
+      "grad_norm": 0.14904147386550903,
+      "learning_rate": 8.066471602728804e-05,
+      "loss": 2.9862,
+      "num_input_tokens_seen": 15440281600,
+      "step": 58900
+    },
+    {
+      "epoch": 0.3965271086312752,
+      "grad_norm": 0.15182824432849884,
+      "learning_rate": 7.367991782295391e-05,
+      "loss": 2.9882,
+      "num_input_tokens_seen": 15453388800,
+      "step": 58950
+    },
+    {
+      "epoch": 0.3968634335749828,
+      "grad_norm": 0.14710576832294464,
+      "learning_rate": 6.698729810778065e-05,
+      "loss": 2.9856,
+      "num_input_tokens_seen": 15466496000,
+      "step": 59000
+    },
+    {
+      "epoch": 0.3968634335749828,
+      "eval_loss": 2.8845956325531006,
+      "eval_runtime": 53.5429,
+      "eval_samples_per_second": 93.383,
+      "eval_steps_per_second": 23.346,
+      "num_input_tokens_seen": 15466496000,
+      "step": 59000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
+  "num_input_tokens_seen": 15466496000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.13743863300096e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null