Training in progress, step 49000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0699f2befd5f5fe39f37d9992ad71298c6e825af92f8b9997d530b9228219782
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1fa5e14e336776a0794b601efbdc3db24765810ef38e2b37883f1ad39a38e15
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6975052cf62584f01dc0b92d80322e1defc71e0703e038bfa5340c5530e8e1a
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:51be2ef186eec1ebc97ea07dde4acfe4cb7904323be165f365952918c5ff93ee
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f916f32ed5bd769a4257bf59e71aa59f0b4e6ba66e2f6069ff1d46ad7cda2db
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2815e20f41b0ab873453c57ac2dfc7d374a540c5d47a47423caeebea8ab88de
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de67d78be185ea67aa4ca20dcc37ca7f9d17d76246f8cfa3148b96b4fc56902c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:85feca9ffa4367dad07b4142308894db505807fd169bd3aedff12898c8f097e0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.457922415540742,
   "eval_steps": 500,
-  "global_step": 48000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8552,11 +8552,189 @@
       "eval_steps_per_second": 15.249,
       "num_input_tokens_seen": 25161718656,
       "step": 48000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 25161718656,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -8571,7 +8749,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.4531652523637146e+19,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.46746246586450746,
   "eval_steps": 500,
+  "global_step": 49000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.249,
       "num_input_tokens_seen": 25161718656,
       "step": 48000
+    },
+    {
+      "epoch": 0.45839941805693024,
+      "grad_norm": 0.13940733671188354,
+      "learning_rate": 0.001,
+      "loss": 2.174,
+      "num_input_tokens_seen": 25187922848,
+      "step": 48050
+    },
+    {
+      "epoch": 0.4588764205731185,
+      "grad_norm": 0.16502974927425385,
+      "learning_rate": 0.001,
+      "loss": 2.1807,
+      "num_input_tokens_seen": 25214132864,
+      "step": 48100
+    },
+    {
+      "epoch": 0.4593534230893068,
+      "grad_norm": 0.15250737965106964,
+      "learning_rate": 0.001,
+      "loss": 2.1831,
+      "num_input_tokens_seen": 25240339520,
+      "step": 48150
+    },
+    {
+      "epoch": 0.4598304256054951,
+      "grad_norm": 0.14336740970611572,
+      "learning_rate": 0.001,
+      "loss": 2.175,
+      "num_input_tokens_seen": 25266553920,
+      "step": 48200
+    },
+    {
+      "epoch": 0.46030742812168335,
+      "grad_norm": 0.1376286745071411,
+      "learning_rate": 0.001,
+      "loss": 2.1733,
+      "num_input_tokens_seen": 25292766560,
+      "step": 48250
+    },
+    {
+      "epoch": 0.4607844306378716,
+      "grad_norm": 0.1339864432811737,
+      "learning_rate": 0.001,
+      "loss": 2.1667,
+      "num_input_tokens_seen": 25318970496,
+      "step": 48300
+    },
+    {
+      "epoch": 0.4612614331540599,
+      "grad_norm": 0.14675366878509521,
+      "learning_rate": 0.001,
+      "loss": 2.1784,
+      "num_input_tokens_seen": 25345180512,
+      "step": 48350
+    },
+    {
+      "epoch": 0.46173843567024814,
+      "grad_norm": 0.14352139830589294,
+      "learning_rate": 0.001,
+      "loss": 2.1915,
+      "num_input_tokens_seen": 25371386368,
+      "step": 48400
+    },
+    {
+      "epoch": 0.46221543818643646,
+      "grad_norm": 0.14589083194732666,
+      "learning_rate": 0.001,
+      "loss": 2.1692,
+      "num_input_tokens_seen": 25397588192,
+      "step": 48450
+    },
+    {
+      "epoch": 0.4626924407026247,
+      "grad_norm": 0.1392335146665573,
+      "learning_rate": 0.001,
+      "loss": 2.1811,
+      "num_input_tokens_seen": 25423801984,
+      "step": 48500
+    },
+    {
+      "epoch": 0.4626924407026247,
+      "eval_loss": 2.0870039463043213,
+      "eval_runtime": 82.4574,
+      "eval_samples_per_second": 60.637,
+      "eval_steps_per_second": 15.159,
+      "num_input_tokens_seen": 25423801984,
+      "step": 48500
+    },
+    {
+      "epoch": 0.463169443218813,
+      "grad_norm": 0.14096789062023163,
+      "learning_rate": 0.001,
+      "loss": 2.1822,
+      "num_input_tokens_seen": 25450016384,
+      "step": 48550
+    },
+    {
+      "epoch": 0.46364644573500124,
+      "grad_norm": 0.13657501339912415,
+      "learning_rate": 0.001,
+      "loss": 2.1633,
+      "num_input_tokens_seen": 25476223712,
+      "step": 48600
+    },
+    {
+      "epoch": 0.4641234482511895,
+      "grad_norm": 0.1375761330127716,
+      "learning_rate": 0.001,
+      "loss": 2.1601,
+      "num_input_tokens_seen": 25502435136,
+      "step": 48650
+    },
+    {
+      "epoch": 0.46460045076737777,
+      "grad_norm": 0.13810068368911743,
+      "learning_rate": 0.001,
+      "loss": 2.1651,
+      "num_input_tokens_seen": 25528648192,
+      "step": 48700
+    },
+    {
+      "epoch": 0.4650774532835661,
+      "grad_norm": 0.1375926285982132,
+      "learning_rate": 0.001,
+      "loss": 2.1766,
+      "num_input_tokens_seen": 25554860256,
+      "step": 48750
+    },
+    {
+      "epoch": 0.46555445579975435,
+      "grad_norm": 0.14654815196990967,
+      "learning_rate": 0.001,
+      "loss": 2.1634,
+      "num_input_tokens_seen": 25581068864,
+      "step": 48800
+    },
+    {
+      "epoch": 0.4660314583159426,
+      "grad_norm": 0.1339625120162964,
+      "learning_rate": 0.001,
+      "loss": 2.1681,
+      "num_input_tokens_seen": 25607278112,
+      "step": 48850
+    },
+    {
+      "epoch": 0.4665084608321309,
+      "grad_norm": 0.13390694558620453,
+      "learning_rate": 0.001,
+      "loss": 2.1789,
+      "num_input_tokens_seen": 25633491968,
+      "step": 48900
+    },
+    {
+      "epoch": 0.46698546334831914,
+      "grad_norm": 0.14397822320461273,
+      "learning_rate": 0.001,
+      "loss": 2.1525,
+      "num_input_tokens_seen": 25659705568,
+      "step": 48950
+    },
+    {
+      "epoch": 0.46746246586450746,
+      "grad_norm": 0.12739968299865723,
+      "learning_rate": 0.001,
+      "loss": 2.1621,
+      "num_input_tokens_seen": 25685912544,
+      "step": 49000
+    },
+    {
+      "epoch": 0.46746246586450746,
+      "eval_loss": 2.0851972103118896,
+      "eval_runtime": 82.4678,
+      "eval_samples_per_second": 60.63,
+      "eval_steps_per_second": 15.157,
+      "num_input_tokens_seen": 25685912544,
+      "step": 49000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 25685912544,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.5459380092431974e+19,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null