Training in progress, step 28000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5b523d0237ff4825791520de6c6899e7d737f3dbfe8441d833895f1e2466285
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:598ec2e422397aad641d528881e643db9612147d6333b5c66a69998965ce9656
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:149a5f50fc47d3d0a29e92a6c18a1d78db3365d41cfd7f18ae74185f9b0fbc4e
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:593d98fe7868eb09c1f3193111558b84e18bf0affb6cefd648708d4d1cba6ae6
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d1d738e0f013e71559a982b5bed46734a8c7b8ac496ca76379bed24380a52a1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2954868f3cacffad4686728c7094ccb6fc0d9e0b5adf1b06d98602d6248bf938
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5585e9833c9684d1dabff9cec651205ae9bf4f81ab2bb2b589702ce44919fbb3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:06d5fef101c9d39d51795e2426ebd97ece14c40eab5611cbd021ffd2d11b16ce
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5930831675583508,
   "eval_steps": 500,
-  "global_step": 27000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4814,11 +4814,189 @@
       "eval_steps_per_second": 18.877,
       "num_input_tokens_seen": 28311548160,
       "step": 27000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 28311548160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -4833,7 +5011,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6123634144144916e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6150492108012526,
   "eval_steps": 500,
+  "global_step": 28000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.877,
       "num_input_tokens_seen": 28311548160,
       "step": 27000
+    },
+    {
+      "epoch": 0.5941814697204958,
+      "grad_norm": 0.15350718796253204,
+      "learning_rate": 0.001,
+      "loss": 2.6787,
+      "num_input_tokens_seen": 28363976960,
+      "step": 27050
+    },
+    {
+      "epoch": 0.5952797718826409,
+      "grad_norm": 0.1393333077430725,
+      "learning_rate": 0.001,
+      "loss": 2.6759,
+      "num_input_tokens_seen": 28416405760,
+      "step": 27100
+    },
+    {
+      "epoch": 0.596378074044786,
+      "grad_norm": 0.1485709846019745,
+      "learning_rate": 0.001,
+      "loss": 2.6772,
+      "num_input_tokens_seen": 28468834560,
+      "step": 27150
+    },
+    {
+      "epoch": 0.5974763762069311,
+      "grad_norm": 0.13909003138542175,
+      "learning_rate": 0.001,
+      "loss": 2.6729,
+      "num_input_tokens_seen": 28521263360,
+      "step": 27200
+    },
+    {
+      "epoch": 0.5985746783690762,
+      "grad_norm": 0.15117496252059937,
+      "learning_rate": 0.001,
+      "loss": 2.6704,
+      "num_input_tokens_seen": 28573692160,
+      "step": 27250
+    },
+    {
+      "epoch": 0.5996729805312213,
+      "grad_norm": 0.14054876565933228,
+      "learning_rate": 0.001,
+      "loss": 2.6748,
+      "num_input_tokens_seen": 28626120960,
+      "step": 27300
+    },
+    {
+      "epoch": 0.6007712826933664,
+      "grad_norm": 0.15437620878219604,
+      "learning_rate": 0.001,
+      "loss": 2.6778,
+      "num_input_tokens_seen": 28678549760,
+      "step": 27350
+    },
+    {
+      "epoch": 0.6018695848555115,
+      "grad_norm": 0.15858007967472076,
+      "learning_rate": 0.001,
+      "loss": 2.6763,
+      "num_input_tokens_seen": 28730978560,
+      "step": 27400
+    },
+    {
+      "epoch": 0.6029678870176566,
+      "grad_norm": 0.14459487795829773,
+      "learning_rate": 0.001,
+      "loss": 2.6726,
+      "num_input_tokens_seen": 28783407360,
+      "step": 27450
+    },
+    {
+      "epoch": 0.6040661891798017,
+      "grad_norm": 0.17691345512866974,
+      "learning_rate": 0.001,
+      "loss": 2.678,
+      "num_input_tokens_seen": 28835836160,
+      "step": 27500
+    },
+    {
+      "epoch": 0.6040661891798017,
+      "eval_loss": 2.576051950454712,
+      "eval_runtime": 66.9387,
+      "eval_samples_per_second": 74.695,
+      "eval_steps_per_second": 18.674,
+      "num_input_tokens_seen": 28835836160,
+      "step": 27500
+    },
+    {
+      "epoch": 0.6051644913419467,
+      "grad_norm": 0.16200922429561615,
+      "learning_rate": 0.001,
+      "loss": 2.6763,
+      "num_input_tokens_seen": 28888264960,
+      "step": 27550
+    },
+    {
+      "epoch": 0.6062627935040918,
+      "grad_norm": 0.14567038416862488,
+      "learning_rate": 0.001,
+      "loss": 2.6795,
+      "num_input_tokens_seen": 28940693760,
+      "step": 27600
+    },
+    {
+      "epoch": 0.607361095666237,
+      "grad_norm": 0.16075611114501953,
+      "learning_rate": 0.001,
+      "loss": 2.6746,
+      "num_input_tokens_seen": 28993122560,
+      "step": 27650
+    },
+    {
+      "epoch": 0.6084593978283821,
+      "grad_norm": 0.1386987417936325,
+      "learning_rate": 0.001,
+      "loss": 2.6771,
+      "num_input_tokens_seen": 29045551360,
+      "step": 27700
+    },
+    {
+      "epoch": 0.6095576999905271,
+      "grad_norm": 0.14672614634037018,
+      "learning_rate": 0.001,
+      "loss": 2.6792,
+      "num_input_tokens_seen": 29097980160,
+      "step": 27750
+    },
+    {
+      "epoch": 0.6106560021526722,
+      "grad_norm": 0.22614523768424988,
+      "learning_rate": 0.001,
+      "loss": 2.6728,
+      "num_input_tokens_seen": 29150408960,
+      "step": 27800
+    },
+    {
+      "epoch": 0.6117543043148174,
+      "grad_norm": 0.15554341673851013,
+      "learning_rate": 0.001,
+      "loss": 2.676,
+      "num_input_tokens_seen": 29202837760,
+      "step": 27850
+    },
+    {
+      "epoch": 0.6128526064769624,
+      "grad_norm": 0.17181837558746338,
+      "learning_rate": 0.001,
+      "loss": 2.6811,
+      "num_input_tokens_seen": 29255266560,
+      "step": 27900
+    },
+    {
+      "epoch": 0.6139509086391075,
+      "grad_norm": 0.15763437747955322,
+      "learning_rate": 0.001,
+      "loss": 2.6797,
+      "num_input_tokens_seen": 29307695360,
+      "step": 27950
+    },
+    {
+      "epoch": 0.6150492108012526,
+      "grad_norm": 0.14721135795116425,
+      "learning_rate": 0.001,
+      "loss": 2.6762,
+      "num_input_tokens_seen": 29360124160,
+      "step": 28000
+    },
+    {
+      "epoch": 0.6150492108012526,
+      "eval_loss": 2.5763511657714844,
+      "eval_runtime": 66.3236,
+      "eval_samples_per_second": 75.388,
+      "eval_steps_per_second": 18.847,
+      "num_input_tokens_seen": 29360124160,
+      "step": 28000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 29360124160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.6720805860109844e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null