Training in progress, step 31000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9965fcf14e783e7e1d55074ea2afa9a825c414e7bb1e05e788c2b6e78b01e868
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:99efb4f925ebae40cd6f793929b87a0ccac0e7b97e6def05084db3705337b811
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e44a1859e7ded3de3d773c5abac76c0fc5f7c6f4fc38577dfe331b1a4c391ab7
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:aba48d7345e1335acdd811f72ad9602a930b00d7d91d9a11216fc53d7f15cb25
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc95bdc35ebe00877717681894afcd7d44f457b0583fea8b14d22f39dd179eb8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:17ffd9dd4a600ef00ffe7371c71cf7eaaf39e90e97468b4a36b4cc557b2fc5d1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d0c8a94ae7b3402d9f6c538decfc8292fd64108bb86fd10da3f27734428bf0b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:277f21680b959b596662b48a96a00aaa486d9a86675c2da90af20e0783552321
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6589812972870563,
   "eval_steps": 500,
-  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5348,11 +5348,189 @@
       "eval_steps_per_second": 18.914,
       "num_input_tokens_seen": 31457276160,
       "step": 30000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 31457276160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -5367,7 +5545,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.79151492920397e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6809473405299582,
   "eval_steps": 500,
+  "global_step": 31000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.914,
       "num_input_tokens_seen": 31457276160,
       "step": 30000
+    },
+    {
+      "epoch": 0.6600795994492015,
+      "grad_norm": 0.14465224742889404,
+      "learning_rate": 0.001,
+      "loss": 2.6657,
+      "num_input_tokens_seen": 31509704960,
+      "step": 30050
+    },
+    {
+      "epoch": 0.6611779016113466,
+      "grad_norm": 0.16096332669258118,
+      "learning_rate": 0.001,
+      "loss": 2.6612,
+      "num_input_tokens_seen": 31562133760,
+      "step": 30100
+    },
+    {
+      "epoch": 0.6622762037734916,
+      "grad_norm": 0.1434296816587448,
+      "learning_rate": 0.001,
+      "loss": 2.6695,
+      "num_input_tokens_seen": 31614562560,
+      "step": 30150
+    },
+    {
+      "epoch": 0.6633745059356367,
+      "grad_norm": 0.13844367861747742,
+      "learning_rate": 0.001,
+      "loss": 2.6649,
+      "num_input_tokens_seen": 31666991360,
+      "step": 30200
+    },
+    {
+      "epoch": 0.6644728080977819,
+      "grad_norm": 0.1579446643590927,
+      "learning_rate": 0.001,
+      "loss": 2.6701,
+      "num_input_tokens_seen": 31719420160,
+      "step": 30250
+    },
+    {
+      "epoch": 0.665571110259927,
+      "grad_norm": 0.1585385501384735,
+      "learning_rate": 0.001,
+      "loss": 2.665,
+      "num_input_tokens_seen": 31771848960,
+      "step": 30300
+    },
+    {
+      "epoch": 0.666669412422072,
+      "grad_norm": 0.18768636882305145,
+      "learning_rate": 0.001,
+      "loss": 2.6708,
+      "num_input_tokens_seen": 31824277760,
+      "step": 30350
+    },
+    {
+      "epoch": 0.6677677145842171,
+      "grad_norm": 0.13027966022491455,
+      "learning_rate": 0.001,
+      "loss": 2.6657,
+      "num_input_tokens_seen": 31876706560,
+      "step": 30400
+    },
+    {
+      "epoch": 0.6688660167463623,
+      "grad_norm": 0.13473722338676453,
+      "learning_rate": 0.001,
+      "loss": 2.6658,
+      "num_input_tokens_seen": 31929135360,
+      "step": 30450
+    },
+    {
+      "epoch": 0.6699643189085073,
+      "grad_norm": 0.14617317914962769,
+      "learning_rate": 0.001,
+      "loss": 2.664,
+      "num_input_tokens_seen": 31981564160,
+      "step": 30500
+    },
+    {
+      "epoch": 0.6699643189085073,
+      "eval_loss": 2.5658769607543945,
+      "eval_runtime": 67.5011,
+      "eval_samples_per_second": 74.073,
+      "eval_steps_per_second": 18.518,
+      "num_input_tokens_seen": 31981564160,
+      "step": 30500
+    },
+    {
+      "epoch": 0.6710626210706524,
+      "grad_norm": 0.14581717550754547,
+      "learning_rate": 0.001,
+      "loss": 2.6654,
+      "num_input_tokens_seen": 32033992960,
+      "step": 30550
+    },
+    {
+      "epoch": 0.6721609232327975,
+      "grad_norm": 0.12281567603349686,
+      "learning_rate": 0.001,
+      "loss": 2.6649,
+      "num_input_tokens_seen": 32086421760,
+      "step": 30600
+    },
+    {
+      "epoch": 0.6732592253949425,
+      "grad_norm": 0.14368072152137756,
+      "learning_rate": 0.001,
+      "loss": 2.6605,
+      "num_input_tokens_seen": 32138850560,
+      "step": 30650
+    },
+    {
+      "epoch": 0.6743575275570877,
+      "grad_norm": 0.14596907794475555,
+      "learning_rate": 0.001,
+      "loss": 2.6651,
+      "num_input_tokens_seen": 32191279360,
+      "step": 30700
+    },
+    {
+      "epoch": 0.6754558297192328,
+      "grad_norm": 0.15414392948150635,
+      "learning_rate": 0.001,
+      "loss": 2.6696,
+      "num_input_tokens_seen": 32243708160,
+      "step": 30750
+    },
+    {
+      "epoch": 0.6765541318813779,
+      "grad_norm": 0.14875884354114532,
+      "learning_rate": 0.001,
+      "loss": 2.6662,
+      "num_input_tokens_seen": 32296136960,
+      "step": 30800
+    },
+    {
+      "epoch": 0.6776524340435229,
+      "grad_norm": 0.13774773478507996,
+      "learning_rate": 0.001,
+      "loss": 2.6649,
+      "num_input_tokens_seen": 32348565760,
+      "step": 30850
+    },
+    {
+      "epoch": 0.6787507362056681,
+      "grad_norm": 0.1647578626871109,
+      "learning_rate": 0.001,
+      "loss": 2.6693,
+      "num_input_tokens_seen": 32400994560,
+      "step": 30900
+    },
+    {
+      "epoch": 0.6798490383678132,
+      "grad_norm": 0.1620490700006485,
+      "learning_rate": 0.001,
+      "loss": 2.6726,
+      "num_input_tokens_seen": 32453423360,
+      "step": 30950
+    },
+    {
+      "epoch": 0.6809473405299582,
+      "grad_norm": 0.14238062500953674,
+      "learning_rate": 0.001,
+      "loss": 2.6681,
+      "num_input_tokens_seen": 32505852160,
+      "step": 31000
+    },
+    {
+      "epoch": 0.6809473405299582,
+      "eval_loss": 2.5645763874053955,
+      "eval_runtime": 65.7725,
+      "eval_samples_per_second": 76.02,
+      "eval_steps_per_second": 19.005,
+      "num_input_tokens_seen": 32505852160,
+      "step": 31000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 32505852160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.851232100800463e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null