Training in progress, step 25000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54c2b1dc0ce252890792fa50a7ced2b1884b184496f8709b1df62b942e4f6173
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca1305d807a0d62209066bee9cbe48b75438f197b4d11307eb4ba5e592a11386
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6caaef1143ab01dc77c2601e1c5bde16b77c55e497c5f13366c2442c28ab6fac
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed4d9687ffe945b21f6759ab92e79d3a46252bbf5731184d996dc881364e21e9
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4eb9e5f9b752984653e9c2f4587df901a2cc5f64a95a0121fadf8e7c7c268621
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a59157d1ca64ffae44fbe8134d666bfe8e12822f27ca50fb6e1f0b29f58d3b64
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06f0f3181677433703f6860ec173100c1f71e33282413595313e7174a82f6998
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8c565830d05eccabcd7df396792d29e3638ccbd6988e240ff15902ef690b7e6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5271850378296451,
   "eval_steps": 500,
-  "global_step": 24000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4280,11 +4280,189 @@
       "eval_steps_per_second": 18.684,
       "num_input_tokens_seen": 25165820160,
       "step": 24000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 25165820160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -4299,7 +4477,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4332118996250132e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.549151081072547,
   "eval_steps": 500,
+  "global_step": 25000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.684,
       "num_input_tokens_seen": 25165820160,
       "step": 24000
+    },
+    {
+      "epoch": 0.5282833399917902,
+      "grad_norm": 0.14083649218082428,
+      "learning_rate": 0.001,
+      "loss": 2.6851,
+      "num_input_tokens_seen": 25218248960,
+      "step": 24050
+    },
+    {
+      "epoch": 0.5293816421539352,
+      "grad_norm": 0.13934968411922455,
+      "learning_rate": 0.001,
+      "loss": 2.6863,
+      "num_input_tokens_seen": 25270677760,
+      "step": 24100
+    },
+    {
+      "epoch": 0.5304799443160804,
+      "grad_norm": 0.15416787564754486,
+      "learning_rate": 0.001,
+      "loss": 2.6894,
+      "num_input_tokens_seen": 25323106560,
+      "step": 24150
+    },
+    {
+      "epoch": 0.5315782464782255,
+      "grad_norm": 0.17290246486663818,
+      "learning_rate": 0.001,
+      "loss": 2.6907,
+      "num_input_tokens_seen": 25375535360,
+      "step": 24200
+    },
+    {
+      "epoch": 0.5326765486403706,
+      "grad_norm": 0.14260552823543549,
+      "learning_rate": 0.001,
+      "loss": 2.6832,
+      "num_input_tokens_seen": 25427964160,
+      "step": 24250
+    },
+    {
+      "epoch": 0.5337748508025156,
+      "grad_norm": 0.14795690774917603,
+      "learning_rate": 0.001,
+      "loss": 2.6895,
+      "num_input_tokens_seen": 25480392960,
+      "step": 24300
+    },
+    {
+      "epoch": 0.5348731529646608,
+      "grad_norm": 0.15009699761867523,
+      "learning_rate": 0.001,
+      "loss": 2.6819,
+      "num_input_tokens_seen": 25532821760,
+      "step": 24350
+    },
+    {
+      "epoch": 0.5359714551268059,
+      "grad_norm": 0.15425953269004822,
+      "learning_rate": 0.001,
+      "loss": 2.6874,
+      "num_input_tokens_seen": 25585250560,
+      "step": 24400
+    },
+    {
+      "epoch": 0.5370697572889509,
+      "grad_norm": 0.14639410376548767,
+      "learning_rate": 0.001,
+      "loss": 2.6878,
+      "num_input_tokens_seen": 25637679360,
+      "step": 24450
+    },
+    {
+      "epoch": 0.538168059451096,
+      "grad_norm": 0.14785613119602203,
+      "learning_rate": 0.001,
+      "loss": 2.6841,
+      "num_input_tokens_seen": 25690108160,
+      "step": 24500
+    },
+    {
+      "epoch": 0.538168059451096,
+      "eval_loss": 2.5875706672668457,
+      "eval_runtime": 66.9296,
+      "eval_samples_per_second": 74.705,
+      "eval_steps_per_second": 18.676,
+      "num_input_tokens_seen": 25690108160,
+      "step": 24500
+    },
+    {
+      "epoch": 0.5392663616132412,
+      "grad_norm": 0.14224180579185486,
+      "learning_rate": 0.001,
+      "loss": 2.6876,
+      "num_input_tokens_seen": 25742536960,
+      "step": 24550
+    },
+    {
+      "epoch": 0.5403646637753863,
+      "grad_norm": 0.14881493151187897,
+      "learning_rate": 0.001,
+      "loss": 2.6827,
+      "num_input_tokens_seen": 25794965760,
+      "step": 24600
+    },
+    {
+      "epoch": 0.5414629659375313,
+      "grad_norm": 0.17951786518096924,
+      "learning_rate": 0.001,
+      "loss": 2.688,
+      "num_input_tokens_seen": 25847394560,
+      "step": 24650
+    },
+    {
+      "epoch": 0.5425612680996764,
+      "grad_norm": 0.1400926560163498,
+      "learning_rate": 0.001,
+      "loss": 2.6945,
+      "num_input_tokens_seen": 25899823360,
+      "step": 24700
+    },
+    {
+      "epoch": 0.5436595702618215,
+      "grad_norm": 0.1421627402305603,
+      "learning_rate": 0.001,
+      "loss": 2.6852,
+      "num_input_tokens_seen": 25952252160,
+      "step": 24750
+    },
+    {
+      "epoch": 0.5447578724239666,
+      "grad_norm": 0.1617737114429474,
+      "learning_rate": 0.001,
+      "loss": 2.686,
+      "num_input_tokens_seen": 26004680960,
+      "step": 24800
+    },
+    {
+      "epoch": 0.5458561745861117,
+      "grad_norm": 0.1523471176624298,
+      "learning_rate": 0.001,
+      "loss": 2.6945,
+      "num_input_tokens_seen": 26057109760,
+      "step": 24850
+    },
+    {
+      "epoch": 0.5469544767482568,
+      "grad_norm": 0.13078247010707855,
+      "learning_rate": 0.001,
+      "loss": 2.6829,
+      "num_input_tokens_seen": 26109538560,
+      "step": 24900
+    },
+    {
+      "epoch": 0.5480527789104018,
+      "grad_norm": 0.14831651747226715,
+      "learning_rate": 0.001,
+      "loss": 2.6898,
+      "num_input_tokens_seen": 26161967360,
+      "step": 24950
+    },
+    {
+      "epoch": 0.549151081072547,
+      "grad_norm": 0.1782410740852356,
+      "learning_rate": 0.001,
+      "loss": 2.6871,
+      "num_input_tokens_seen": 26214396160,
+      "step": 25000
+    },
+    {
+      "epoch": 0.549151081072547,
+      "eval_loss": 2.5877788066864014,
+      "eval_runtime": 67.2223,
+      "eval_samples_per_second": 74.38,
+      "eval_steps_per_second": 18.595,
+      "num_input_tokens_seen": 26214396160,
+      "step": 25000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 26214396160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.492929071221506e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null