Training in progress, step 159000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:416215f0149ccdc8795d454a743c8eca2679e864ee093c2c92b9a7dc89d715bb
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae4822495b17518f3a55422be75e8f39fa5ce0b3a594c8d20dc409f424fc55f1
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f007001464c0735c2a1e81f89ec3fb177e1babb5501510e4e9c8bbe36278a009
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:a748f752d89b80e6b8bbdf3f3863033a42fa4fd7d76ff87d364cfe1c8a3f1531
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09a1e45eb7b9bd5bee8831d08f28097d6e76d93bacd9f185db082ca81501cddf
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c359d76fc12146bca34b3d81bea11d1cbc59763f4362e664b11294254a3637f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30aae8d205cf2e798817f5244eb6202efaefc5672b52769c357c6911e1e312c2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcf0ec0a64c804385e2c0458be72943b2083978ccaa5abb266ef0e69fa674231
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.4706886977079106,
   "eval_steps": 500,
-  "global_step": 158000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -28132,11 +28132,189 @@
       "eval_steps_per_second": 15.499,
       "num_input_tokens_seen": 92262378048,
       "step": 158000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 92262378048,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -28151,7 +28329,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.632875804872041e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.492654756029168,
   "eval_steps": 500,
+  "global_step": 159000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.499,
       "num_input_tokens_seen": 92262378048,
       "step": 158000
+    },
+    {
+      "epoch": 3.4717870006239733,
+      "grad_norm": 0.09290427714586258,
+      "learning_rate": 0.0001,
+      "loss": 2.3419,
+      "num_input_tokens_seen": 92314806848,
+      "step": 158050
+    },
+    {
+      "epoch": 3.4728853035400364,
+      "grad_norm": 0.09033751487731934,
+      "learning_rate": 0.0001,
+      "loss": 2.344,
+      "num_input_tokens_seen": 92367235648,
+      "step": 158100
+    },
+    {
+      "epoch": 3.473983606456099,
+      "grad_norm": 0.0893242284655571,
+      "learning_rate": 0.0001,
+      "loss": 2.342,
+      "num_input_tokens_seen": 92419664448,
+      "step": 158150
+    },
+    {
+      "epoch": 3.475081909372162,
+      "grad_norm": 0.09877942502498627,
+      "learning_rate": 0.0001,
+      "loss": 2.3459,
+      "num_input_tokens_seen": 92472093248,
+      "step": 158200
+    },
+    {
+      "epoch": 3.476180212288225,
+      "grad_norm": 0.09732919931411743,
+      "learning_rate": 0.0001,
+      "loss": 2.3476,
+      "num_input_tokens_seen": 92524522048,
+      "step": 158250
+    },
+    {
+      "epoch": 3.4772785152042878,
+      "grad_norm": 0.08927954733371735,
+      "learning_rate": 0.0001,
+      "loss": 2.349,
+      "num_input_tokens_seen": 92576950848,
+      "step": 158300
+    },
+    {
+      "epoch": 3.4783768181203505,
+      "grad_norm": 0.09306230396032333,
+      "learning_rate": 0.0001,
+      "loss": 2.3396,
+      "num_input_tokens_seen": 92629379648,
+      "step": 158350
+    },
+    {
+      "epoch": 3.4794751210364137,
+      "grad_norm": 0.09522947669029236,
+      "learning_rate": 0.0001,
+      "loss": 2.3394,
+      "num_input_tokens_seen": 92681808448,
+      "step": 158400
+    },
+    {
+      "epoch": 3.4805734239524764,
+      "grad_norm": 0.09624941647052765,
+      "learning_rate": 0.0001,
+      "loss": 2.3475,
+      "num_input_tokens_seen": 92734237248,
+      "step": 158450
+    },
+    {
+      "epoch": 3.481671726868539,
+      "grad_norm": 0.09459653496742249,
+      "learning_rate": 0.0001,
+      "loss": 2.3431,
+      "num_input_tokens_seen": 92786665216,
+      "step": 158500
+    },
+    {
+      "epoch": 3.481671726868539,
+      "eval_loss": 2.257422685623169,
+      "eval_runtime": 80.6973,
+      "eval_samples_per_second": 61.96,
+      "eval_steps_per_second": 15.49,
+      "num_input_tokens_seen": 92786665216,
+      "step": 158500
+    },
+    {
+      "epoch": 3.4827700297846023,
+      "grad_norm": 0.09564249962568283,
+      "learning_rate": 0.0001,
+      "loss": 2.341,
+      "num_input_tokens_seen": 92839093024,
+      "step": 158550
+    },
+    {
+      "epoch": 3.483868332700665,
+      "grad_norm": 0.10864699631929398,
+      "learning_rate": 0.0001,
+      "loss": 2.3405,
+      "num_input_tokens_seen": 92891521824,
+      "step": 158600
+    },
+    {
+      "epoch": 3.484966635616728,
+      "grad_norm": 0.09777586907148361,
+      "learning_rate": 0.0001,
+      "loss": 2.3445,
+      "num_input_tokens_seen": 92943950624,
+      "step": 158650
+    },
+    {
+      "epoch": 3.486064938532791,
+      "grad_norm": 0.09032690525054932,
+      "learning_rate": 0.0001,
+      "loss": 2.3423,
+      "num_input_tokens_seen": 92996375712,
+      "step": 158700
+    },
+    {
+      "epoch": 3.4871632414488536,
+      "grad_norm": 0.09027489274740219,
+      "learning_rate": 0.0001,
+      "loss": 2.3412,
+      "num_input_tokens_seen": 93048803136,
+      "step": 158750
+    },
+    {
+      "epoch": 3.4882615443649168,
+      "grad_norm": 0.09923077374696732,
+      "learning_rate": 0.0001,
+      "loss": 2.3455,
+      "num_input_tokens_seen": 93101231936,
+      "step": 158800
+    },
+    {
+      "epoch": 3.4893598472809795,
+      "grad_norm": 0.10047315806150436,
+      "learning_rate": 0.0001,
+      "loss": 2.3416,
+      "num_input_tokens_seen": 93153660736,
+      "step": 158850
+    },
+    {
+      "epoch": 3.4904581501970426,
+      "grad_norm": 0.0912187322974205,
+      "learning_rate": 0.0001,
+      "loss": 2.3437,
+      "num_input_tokens_seen": 93206089536,
+      "step": 158900
+    },
+    {
+      "epoch": 3.4915564531131054,
+      "grad_norm": 0.09997432678937912,
+      "learning_rate": 0.0001,
+      "loss": 2.341,
+      "num_input_tokens_seen": 93258518336,
+      "step": 158950
+    },
+    {
+      "epoch": 3.492654756029168,
+      "grad_norm": 0.09082050621509552,
+      "learning_rate": 0.0001,
+      "loss": 2.3338,
+      "num_input_tokens_seen": 93310947136,
+      "step": 159000
+    },
+    {
+      "epoch": 3.492654756029168,
+      "eval_loss": 2.2572686672210693,
+      "eval_runtime": 80.2123,
+      "eval_samples_per_second": 62.335,
+      "eval_steps_per_second": 15.584,
+      "num_input_tokens_seen": 93310947136,
+      "step": 159000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 93310947136,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.651433565139625e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null