Training in progress, step 15000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67b3b35db2c19f35fe025798e859f89450cb9547846af5202deac481cd7c5f41
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:fdf1b0f1f31678e02e392db01936d097de602c17608d494f22362854ea1faea3
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6db4391958de2af60b776a710ac499c24b4612827a08c4c3d9596c220966f1b3
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:e719c4342dca47d074b491692ded6689afd8a826c27c44b36fe769c38219ad92
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:703a2c772f49bb55a4740bd10b6f1adb07416bc938539fda0388f46713083aaa
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed76fec8b31c184dac30ebd8181dfe95aa10c557692428e198df8bc24024a3d1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3982f421b6a562fab23a5b9409962e3a2e613661137ac332f25f7e679b9669f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2f83db9058ff0e3a2778afbea4452d3483a420d1f349a8a276a60ee0edb90fc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3075246054006263,
   "eval_steps": 500,
-  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2500,11 +2500,189 @@
       "eval_steps_per_second": 19.149,
       "num_input_tokens_seen": 14680064000,
       "step": 14000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 14680064000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -2519,7 +2697,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.360404023508992e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3294906486435282,
   "eval_steps": 500,
+  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 19.149,
       "num_input_tokens_seen": 14680064000,
       "step": 14000
+    },
+    {
+      "epoch": 0.3086229075627714,
+      "grad_norm": 0.13326038420200348,
+      "learning_rate": 0.001,
+      "loss": 2.7622,
+      "num_input_tokens_seen": 14732492800,
+      "step": 14050
+    },
+    {
+      "epoch": 0.3097212097249165,
+      "grad_norm": 0.14305976033210754,
+      "learning_rate": 0.001,
+      "loss": 2.7597,
+      "num_input_tokens_seen": 14784921600,
+      "step": 14100
+    },
+    {
+      "epoch": 0.3108195118870616,
+      "grad_norm": 0.1182415783405304,
+      "learning_rate": 0.001,
+      "loss": 2.758,
+      "num_input_tokens_seen": 14837350400,
+      "step": 14150
+    },
+    {
+      "epoch": 0.3119178140492067,
+      "grad_norm": 0.12919387221336365,
+      "learning_rate": 0.001,
+      "loss": 2.759,
+      "num_input_tokens_seen": 14889779200,
+      "step": 14200
+    },
+    {
+      "epoch": 0.3130161162113518,
+      "grad_norm": 0.1420537382364273,
+      "learning_rate": 0.001,
+      "loss": 2.7519,
+      "num_input_tokens_seen": 14942208000,
+      "step": 14250
+    },
+    {
+      "epoch": 0.31411441837349685,
+      "grad_norm": 0.14349806308746338,
+      "learning_rate": 0.001,
+      "loss": 2.7653,
+      "num_input_tokens_seen": 14994636800,
+      "step": 14300
+    },
+    {
+      "epoch": 0.315212720535642,
+      "grad_norm": 0.16453324258327484,
+      "learning_rate": 0.001,
+      "loss": 2.7642,
+      "num_input_tokens_seen": 15047065600,
+      "step": 14350
+    },
+    {
+      "epoch": 0.31631102269778705,
+      "grad_norm": 0.11806487292051315,
+      "learning_rate": 0.001,
+      "loss": 2.7605,
+      "num_input_tokens_seen": 15099494400,
+      "step": 14400
+    },
+    {
+      "epoch": 0.3174093248599322,
+      "grad_norm": 0.12850746512413025,
+      "learning_rate": 0.001,
+      "loss": 2.7539,
+      "num_input_tokens_seen": 15151923200,
+      "step": 14450
+    },
+    {
+      "epoch": 0.31850762702207724,
+      "grad_norm": 0.1480904221534729,
+      "learning_rate": 0.001,
+      "loss": 2.7574,
+      "num_input_tokens_seen": 15204352000,
+      "step": 14500
+    },
+    {
+      "epoch": 0.31850762702207724,
+      "eval_loss": 2.6607398986816406,
+      "eval_runtime": 65.6281,
+      "eval_samples_per_second": 76.187,
+      "eval_steps_per_second": 19.047,
+      "num_input_tokens_seen": 15204352000,
+      "step": 14500
+    },
+    {
+      "epoch": 0.3196059291842223,
+      "grad_norm": 0.13606210052967072,
+      "learning_rate": 0.001,
+      "loss": 2.763,
+      "num_input_tokens_seen": 15256780800,
+      "step": 14550
+    },
+    {
+      "epoch": 0.32070423134636744,
+      "grad_norm": 0.12546846270561218,
+      "learning_rate": 0.001,
+      "loss": 2.7556,
+      "num_input_tokens_seen": 15309209600,
+      "step": 14600
+    },
+    {
+      "epoch": 0.3218025335085125,
+      "grad_norm": 0.1267230361700058,
+      "learning_rate": 0.001,
+      "loss": 2.7617,
+      "num_input_tokens_seen": 15361638400,
+      "step": 14650
+    },
+    {
+      "epoch": 0.32290083567065764,
+      "grad_norm": 0.13812699913978577,
+      "learning_rate": 0.001,
+      "loss": 2.7533,
+      "num_input_tokens_seen": 15414067200,
+      "step": 14700
+    },
+    {
+      "epoch": 0.3239991378328027,
+      "grad_norm": 0.12577973306179047,
+      "learning_rate": 0.001,
+      "loss": 2.7519,
+      "num_input_tokens_seen": 15466496000,
+      "step": 14750
+    },
+    {
+      "epoch": 0.32509743999494783,
+      "grad_norm": 0.14296036958694458,
+      "learning_rate": 0.001,
+      "loss": 2.7479,
+      "num_input_tokens_seen": 15518924800,
+      "step": 14800
+    },
+    {
+      "epoch": 0.3261957421570929,
+      "grad_norm": 0.12737593054771423,
+      "learning_rate": 0.001,
+      "loss": 2.7546,
+      "num_input_tokens_seen": 15571353600,
+      "step": 14850
+    },
+    {
+      "epoch": 0.327294044319238,
+      "grad_norm": 0.1349722445011139,
+      "learning_rate": 0.001,
+      "loss": 2.7477,
+      "num_input_tokens_seen": 15623782400,
+      "step": 14900
+    },
+    {
+      "epoch": 0.3283923464813831,
+      "grad_norm": 0.12827487289905548,
+      "learning_rate": 0.001,
+      "loss": 2.7492,
+      "num_input_tokens_seen": 15676211200,
+      "step": 14950
+    },
+    {
+      "epoch": 0.3294906486435282,
+      "grad_norm": 0.13282813131809235,
+      "learning_rate": 0.001,
+      "loss": 2.7466,
+      "num_input_tokens_seen": 15728640000,
+      "step": 15000
+    },
+    {
+      "epoch": 0.3294906486435282,
+      "eval_loss": 2.6524744033813477,
+      "eval_runtime": 65.8996,
+      "eval_samples_per_second": 75.873,
+      "eval_steps_per_second": 18.968,
+      "num_input_tokens_seen": 15728640000,
+      "step": 15000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 15728640000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 8.95757573947392e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null