Training in progress, step 65000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:567849b3336c60bd2ca86c0e32d8fa276a554db52049aae022ae3912ae149f08
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:97f833e77e28bcce2d00fc8f583d642be803be2e4268c16065f001da61ccfb12
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe74b2d737ce2dc3386b2964624b6ffd7d46aa98c026d78df24bca83b7a5f473
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6fb466dd570b07209b2b66d3759663a3b462b568c13bb8f7963bf1191bda0a0
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f03ef68c121377c551657263f23acf972b60bf546b00ad9803912e5c78e5ecd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5abe0ab18889dbab668e6d9fae1d62109a3226e616d0e681a91c9a668ea4330
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a987661a10dd2abc0dca231a45c2e361e0f28b82da18aba64a79545986bd62dc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:83439c671f875b1f809ad8f03d85b4a006312176c0266e869dc1f2efa804bb73
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.43049592794574404,
   "eval_steps": 500,
-  "global_step": 64000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11400,11 +11400,189 @@
       "eval_steps_per_second": 23.518,
       "num_input_tokens_seen": 16777216000,
       "step": 64000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 16777216000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -11419,7 +11597,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.48806902562816e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4372224268198963,
   "eval_steps": 500,
+  "global_step": 65000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.518,
       "num_input_tokens_seen": 16777216000,
       "step": 64000
+    },
+    {
+      "epoch": 0.43083225288945165,
+      "grad_norm": 0.15883377194404602,
+      "learning_rate": 0.000304132494574022,
+      "loss": 2.9851,
+      "num_input_tokens_seen": 16790323200,
+      "step": 64050
+    },
+    {
+      "epoch": 0.43116857783315926,
+      "grad_norm": 0.176467627286911,
+      "learning_rate": 0.00029962558344842963,
+      "loss": 2.9865,
+      "num_input_tokens_seen": 16803430400,
+      "step": 64100
+    },
+    {
+      "epoch": 0.43150490277686687,
+      "grad_norm": 0.16392388939857483,
+      "learning_rate": 0.00029513798482615227,
+      "loss": 2.9788,
+      "num_input_tokens_seen": 16816537600,
+      "step": 64150
+    },
+    {
+      "epoch": 0.4318412277205745,
+      "grad_norm": 0.15614169836044312,
+      "learning_rate": 0.0002906701312312861,
+      "loss": 2.9769,
+      "num_input_tokens_seen": 16829644800,
+      "step": 64200
+    },
+    {
+      "epoch": 0.43217755266428215,
+      "grad_norm": 0.16225555539131165,
+      "learning_rate": 0.00028622245328485907,
+      "loss": 2.9881,
+      "num_input_tokens_seen": 16842752000,
+      "step": 64250
+    },
+    {
+      "epoch": 0.43251387760798976,
+      "grad_norm": 0.16419048607349396,
+      "learning_rate": 0.0002817953796633289,
+      "loss": 2.99,
+      "num_input_tokens_seen": 16855859200,
+      "step": 64300
+    },
+    {
+      "epoch": 0.43285020255169737,
+      "grad_norm": 0.16654469072818756,
+      "learning_rate": 0.000277389337057266,
+      "loss": 2.9919,
+      "num_input_tokens_seen": 16868966400,
+      "step": 64350
+    },
+    {
+      "epoch": 0.433186527495405,
+      "grad_norm": 0.1688661277294159,
+      "learning_rate": 0.00027300475013022663,
+      "loss": 2.9844,
+      "num_input_tokens_seen": 16882073600,
+      "step": 64400
+    },
+    {
+      "epoch": 0.4335228524391126,
+      "grad_norm": 0.162180095911026,
+      "learning_rate": 0.000268642041477825,
+      "loss": 2.9847,
+      "num_input_tokens_seen": 16895180800,
+      "step": 64450
+    },
+    {
+      "epoch": 0.4338591773828202,
+      "grad_norm": 0.18244421482086182,
+      "learning_rate": 0.00026430163158700117,
+      "loss": 2.9789,
+      "num_input_tokens_seen": 16908288000,
+      "step": 64500
+    },
+    {
+      "epoch": 0.4338591773828202,
+      "eval_loss": 2.8813860416412354,
+      "eval_runtime": 53.1806,
+      "eval_samples_per_second": 94.019,
+      "eval_steps_per_second": 23.505,
+      "num_input_tokens_seen": 16908288000,
+      "step": 64500
+    },
+    {
+      "epoch": 0.4341955023265278,
+      "grad_norm": 0.15887753665447235,
+      "learning_rate": 0.00025998393879549445,
+      "loss": 2.9723,
+      "num_input_tokens_seen": 16921395200,
+      "step": 64550
+    },
+    {
+      "epoch": 0.4345318272702354,
+      "grad_norm": 0.17573221027851105,
+      "learning_rate": 0.0002556893792515227,
+      "loss": 2.99,
+      "num_input_tokens_seen": 16934502400,
+      "step": 64600
+    },
+    {
+      "epoch": 0.43486815221394304,
+      "grad_norm": 0.1790430247783661,
+      "learning_rate": 0.0002514183668736727,
+      "loss": 2.9887,
+      "num_input_tokens_seen": 16947609600,
+      "step": 64650
+    },
+    {
+      "epoch": 0.43520447715765065,
+      "grad_norm": 0.16031622886657715,
+      "learning_rate": 0.0002471713133110078,
+      "loss": 2.9835,
+      "num_input_tokens_seen": 16960716800,
+      "step": 64700
+    },
+    {
+      "epoch": 0.43554080210135826,
+      "grad_norm": 0.1702345311641693,
+      "learning_rate": 0.0002429486279033892,
+      "loss": 2.9862,
+      "num_input_tokens_seen": 16973824000,
+      "step": 64750
+    },
+    {
+      "epoch": 0.43587712704506587,
+      "grad_norm": 0.16080138087272644,
+      "learning_rate": 0.00023875071764202561,
+      "loss": 2.9785,
+      "num_input_tokens_seen": 16986931200,
+      "step": 64800
+    },
+    {
+      "epoch": 0.4362134519887735,
+      "grad_norm": 0.17694465816020966,
+      "learning_rate": 0.0002345779871302453,
+      "loss": 2.9962,
+      "num_input_tokens_seen": 17000038400,
+      "step": 64850
+    },
+    {
+      "epoch": 0.4365497769324811,
+      "grad_norm": 0.15310978889465332,
+      "learning_rate": 0.00023043083854449987,
+      "loss": 2.98,
+      "num_input_tokens_seen": 17013145600,
+      "step": 64900
+    },
+    {
+      "epoch": 0.4368861018761887,
+      "grad_norm": 0.15505504608154297,
+      "learning_rate": 0.0002263096715956019,
+      "loss": 2.9825,
+      "num_input_tokens_seen": 17026252800,
+      "step": 64950
+    },
+    {
+      "epoch": 0.4372224268198963,
+      "grad_norm": 0.15211448073387146,
+      "learning_rate": 0.00022221488349019903,
+      "loss": 2.9876,
+      "num_input_tokens_seen": 17039360000,
+      "step": 65000
+    },
+    {
+      "epoch": 0.4372224268198963,
+      "eval_loss": 2.8792829513549805,
+      "eval_runtime": 53.0249,
+      "eval_samples_per_second": 94.295,
+      "eval_steps_per_second": 23.574,
+      "num_input_tokens_seen": 17039360000,
+      "step": 65000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 17039360000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.5581951041536e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null