Training in progress, step 48000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f4e08ed2a6d62d28d840192a090317a05ca939879ecf26aa2b319d9c763f735
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:83040a9f33c98136e5fdace56390e4f45897e63e4e108ccbd4b366bd299ccd64
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b2e15feb0f7f3fe2709a8b7d31a3a5c543a260dee03048851f465de58a0a6ac
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:437a042365907c8955a2fc7d892d047bacaeaffa159edfba16e54b9aa6d50132
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef6d6c68b31cc97d3a7886b7338b6c21c45d7ba1c6c1b89db7e0a3456d53ecda
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3179ff7b9a01d9e9850f6d8ae042cb4934a5fc48309149cb50bc43cd37884f1d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30a691323d967d54c1c0f6fb771a9863c3def8ea94c66492bb5dbdffa3e83798
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:de67d78be185ea67aa4ca20dcc37ca7f9d17d76246f8cfa3148b96b4fc56902c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.22419118260848825,
   "eval_steps": 500,
-  "global_step": 47000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8374,11 +8374,189 @@
       "eval_steps_per_second": 24.428,
       "num_input_tokens_seen": 12320763456,
       "step": 47000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 12320763456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -8393,7 +8571,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.2959244751313306e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.228961207770371,
   "eval_steps": 500,
+  "global_step": 48000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 24.428,
       "num_input_tokens_seen": 12320763456,
       "step": 47000
+    },
+    {
+      "epoch": 0.2244296838665824,
+      "grad_norm": 0.18894509971141815,
+      "learning_rate": 0.001,
+      "loss": 2.6069,
+      "num_input_tokens_seen": 12333870656,
+      "step": 47050
+    },
+    {
+      "epoch": 0.22466818512467654,
+      "grad_norm": 0.23441652953624725,
+      "learning_rate": 0.001,
+      "loss": 2.6092,
+      "num_input_tokens_seen": 12346977856,
+      "step": 47100
+    },
+    {
+      "epoch": 0.22490668638277067,
+      "grad_norm": 0.20195326209068298,
+      "learning_rate": 0.001,
+      "loss": 2.6135,
+      "num_input_tokens_seen": 12360085056,
+      "step": 47150
+    },
+    {
+      "epoch": 0.2251451876408648,
+      "grad_norm": 0.22025838494300842,
+      "learning_rate": 0.001,
+      "loss": 2.6034,
+      "num_input_tokens_seen": 12373192256,
+      "step": 47200
+    },
+    {
+      "epoch": 0.22538368889895893,
+      "grad_norm": 0.19111979007720947,
+      "learning_rate": 0.001,
+      "loss": 2.6151,
+      "num_input_tokens_seen": 12386299456,
+      "step": 47250
+    },
+    {
+      "epoch": 0.22562219015705307,
+      "grad_norm": 0.2010103464126587,
+      "learning_rate": 0.001,
+      "loss": 2.6031,
+      "num_input_tokens_seen": 12399406656,
+      "step": 47300
+    },
+    {
+      "epoch": 0.22586069141514722,
+      "grad_norm": 0.21569807827472687,
+      "learning_rate": 0.001,
+      "loss": 2.6012,
+      "num_input_tokens_seen": 12412513856,
+      "step": 47350
+    },
+    {
+      "epoch": 0.22609919267324136,
+      "grad_norm": 0.18600653111934662,
+      "learning_rate": 0.001,
+      "loss": 2.6087,
+      "num_input_tokens_seen": 12425621056,
+      "step": 47400
+    },
+    {
+      "epoch": 0.2263376939313355,
+      "grad_norm": 0.19476164877414703,
+      "learning_rate": 0.001,
+      "loss": 2.6179,
+      "num_input_tokens_seen": 12438728256,
+      "step": 47450
+    },
+    {
+      "epoch": 0.22657619518942962,
+      "grad_norm": 0.19705821573734283,
+      "learning_rate": 0.001,
+      "loss": 2.5983,
+      "num_input_tokens_seen": 12451835456,
+      "step": 47500
+    },
+    {
+      "epoch": 0.22657619518942962,
+      "eval_loss": 2.495936393737793,
+      "eval_runtime": 51.8116,
+      "eval_samples_per_second": 96.504,
+      "eval_steps_per_second": 24.126,
+      "num_input_tokens_seen": 12451835456,
+      "step": 47500
+    },
+    {
+      "epoch": 0.22681469644752375,
+      "grad_norm": 0.23161695897579193,
+      "learning_rate": 0.001,
+      "loss": 2.5974,
+      "num_input_tokens_seen": 12464942656,
+      "step": 47550
+    },
+    {
+      "epoch": 0.2270531977056179,
+      "grad_norm": 0.2022540420293808,
+      "learning_rate": 0.001,
+      "loss": 2.6251,
+      "num_input_tokens_seen": 12478049856,
+      "step": 47600
+    },
+    {
+      "epoch": 0.22729169896371204,
+      "grad_norm": 1.0341856479644775,
+      "learning_rate": 0.001,
+      "loss": 2.5831,
+      "num_input_tokens_seen": 12491157056,
+      "step": 47650
+    },
+    {
+      "epoch": 0.22753020022180617,
+      "grad_norm": 0.3812394440174103,
+      "learning_rate": 0.001,
+      "loss": 2.6407,
+      "num_input_tokens_seen": 12504264256,
+      "step": 47700
+    },
+    {
+      "epoch": 0.2277687014799003,
+      "grad_norm": 0.27030590176582336,
+      "learning_rate": 0.001,
+      "loss": 2.6327,
+      "num_input_tokens_seen": 12517371456,
+      "step": 47750
+    },
+    {
+      "epoch": 0.22800720273799444,
+      "grad_norm": 1.3918724060058594,
+      "learning_rate": 0.001,
+      "loss": 2.6344,
+      "num_input_tokens_seen": 12530478656,
+      "step": 47800
+    },
+    {
+      "epoch": 0.22824570399608857,
+      "grad_norm": 0.22610582411289215,
+      "learning_rate": 0.001,
+      "loss": 2.6444,
+      "num_input_tokens_seen": 12543585856,
+      "step": 47850
+    },
+    {
+      "epoch": 0.22848420525418273,
+      "grad_norm": 0.21421480178833008,
+      "learning_rate": 0.001,
+      "loss": 2.6169,
+      "num_input_tokens_seen": 12556693056,
+      "step": 47900
+    },
+    {
+      "epoch": 0.22872270651227686,
+      "grad_norm": 0.20389467477798462,
+      "learning_rate": 0.001,
+      "loss": 2.6158,
+      "num_input_tokens_seen": 12569800256,
+      "step": 47950
+    },
+    {
+      "epoch": 0.228961207770371,
+      "grad_norm": 0.2265746295452118,
+      "learning_rate": 0.001,
+      "loss": 2.6101,
+      "num_input_tokens_seen": 12582907456,
+      "step": 48000
+    },
+    {
+      "epoch": 0.228961207770371,
+      "eval_loss": 2.4971351623535156,
+      "eval_runtime": 54.0453,
+      "eval_samples_per_second": 92.515,
+      "eval_steps_per_second": 23.129,
+      "num_input_tokens_seen": 12582907456,
+      "step": 48000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 12582907456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.3660505536567706e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null