Training in progress, step 58000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16b35a6c5a2893347ac39200ce6524a1890f21615a98cf260909a1625f36f1c5
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fbbcf8e4efabf5866400ce20d5f64dfe9bcdba3c76105321e75b94424bbdf9a
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b96c4f49154280d995e547e25a75aad825b4ac333aa881c2f7edaa3460a4415
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee28446b68e061d51e2acb6d49ad965661e91bf2d3291a5dc5003af4c9992cc6
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b80a94302b027aba469e721f259f7cea336e0f08145beaf0eef00eec23f3459c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec1bfb0db1c21e8b4cd52af95928aa8366b624cdfe8a7ae4baa053e84325dfb8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d03f04e05cd70ad1a826e9dcf44af396ac68835a057941493a30d6d09cfeca51
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e04abc75ac3354daa3070b9f9eb5e8a95eba4855d092af143aa714bd01a0140a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.38341043582667833,
   "eval_steps": 500,
-  "global_step": 57000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10154,11 +10154,189 @@
       "eval_steps_per_second": 23.699,
       "num_input_tokens_seen": 14942208000,
       "step": 57000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
-  "num_input_tokens_seen": 14942208000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -10173,7 +10351,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.99718647595008e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.39013693470083055,
   "eval_steps": 500,
+  "global_step": 58000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.699,
       "num_input_tokens_seen": 14942208000,
       "step": 57000
+    },
+    {
+      "epoch": 0.38374676077038594,
+      "grad_norm": 0.255500853061676,
+      "learning_rate": 0.0004869115258460635,
+      "loss": 3.0102,
+      "num_input_tokens_seen": 14955315200,
+      "step": 57050
+    },
+    {
+      "epoch": 0.38408308571409355,
+      "grad_norm": 0.18287675082683563,
+      "learning_rate": 0.0004738320218785281,
+      "loss": 3.0074,
+      "num_input_tokens_seen": 14968422400,
+      "step": 57100
+    },
+    {
+      "epoch": 0.38441941065780116,
+      "grad_norm": 0.1864452064037323,
+      "learning_rate": 0.0004607704521360776,
+      "loss": 3.0181,
+      "num_input_tokens_seen": 14981529600,
+      "step": 57150
+    },
+    {
+      "epoch": 0.3847557356015088,
+      "grad_norm": 0.17273065447807312,
+      "learning_rate": 0.00044773576836617336,
+      "loss": 3.0077,
+      "num_input_tokens_seen": 14994636800,
+      "step": 57200
+    },
+    {
+      "epoch": 0.3850920605452164,
+      "grad_norm": 0.17590677738189697,
+      "learning_rate": 0.00043473690388997434,
+      "loss": 3.0118,
+      "num_input_tokens_seen": 15007744000,
+      "step": 57250
+    },
+    {
+      "epoch": 0.385428385488924,
+      "grad_norm": 0.16380582749843597,
+      "learning_rate": 0.0004217827674798845,
+      "loss": 3.0074,
+      "num_input_tokens_seen": 15020851200,
+      "step": 57300
+    },
+    {
+      "epoch": 0.3857647104326316,
+      "grad_norm": 0.19464251399040222,
+      "learning_rate": 0.00040888223725392626,
+      "loss": 3.0126,
+      "num_input_tokens_seen": 15033958400,
+      "step": 57350
+    },
+    {
+      "epoch": 0.3861010353763392,
+      "grad_norm": 0.17150136828422546,
+      "learning_rate": 0.0003960441545911204,
+      "loss": 3.0049,
+      "num_input_tokens_seen": 15047065600,
+      "step": 57400
+    },
+    {
+      "epoch": 0.38643736032004683,
+      "grad_norm": 0.1877928376197815,
+      "learning_rate": 0.00038327731807204744,
+      "loss": 3.0089,
+      "num_input_tokens_seen": 15060172800,
+      "step": 57450
+    },
+    {
+      "epoch": 0.38677368526375444,
+      "grad_norm": 0.2605326771736145,
+      "learning_rate": 0.0003705904774487396,
+      "loss": 3.0115,
+      "num_input_tokens_seen": 15073280000,
+      "step": 57500
+    },
+    {
+      "epoch": 0.38677368526375444,
+      "eval_loss": 2.9029135704040527,
+      "eval_runtime": 53.9097,
+      "eval_samples_per_second": 92.748,
+      "eval_steps_per_second": 23.187,
+      "num_input_tokens_seen": 15073280000,
+      "step": 57500
+    },
+    {
+      "epoch": 0.38711001020746205,
+      "grad_norm": 0.21006393432617188,
+      "learning_rate": 0.0003579923276480387,
+      "loss": 3.0044,
+      "num_input_tokens_seen": 15086387200,
+      "step": 57550
+    },
+    {
+      "epoch": 0.38744633515116966,
+      "grad_norm": 0.1743878722190857,
+      "learning_rate": 0.00034549150281252633,
+      "loss": 3.0114,
+      "num_input_tokens_seen": 15099494400,
+      "step": 57600
+    },
+    {
+      "epoch": 0.3877826600948773,
+      "grad_norm": 0.16699257493019104,
+      "learning_rate": 0.00033309657038311456,
+      "loss": 3.0041,
+      "num_input_tokens_seen": 15112601600,
+      "step": 57650
+    },
+    {
+      "epoch": 0.3881189850385849,
+      "grad_norm": 0.17115868628025055,
+      "learning_rate": 0.00032081602522734986,
+      "loss": 3.0051,
+      "num_input_tokens_seen": 15125708800,
+      "step": 57700
+    },
+    {
+      "epoch": 0.3884553099822925,
+      "grad_norm": 0.16885310411453247,
+      "learning_rate": 0.0003086582838174551,
+      "loss": 2.9969,
+      "num_input_tokens_seen": 15138816000,
+      "step": 57750
+    },
+    {
+      "epoch": 0.3887916349260001,
+      "grad_norm": 0.17101123929023743,
+      "learning_rate": 0.0002966316784621,
+      "loss": 2.9947,
+      "num_input_tokens_seen": 15151923200,
+      "step": 57800
+    },
+    {
+      "epoch": 0.3891279598697077,
+      "grad_norm": 0.1529199331998825,
+      "learning_rate": 0.0002847444515958523,
+      "loss": 3.0019,
+      "num_input_tokens_seen": 15165030400,
+      "step": 57850
+    },
+    {
+      "epoch": 0.38946428481341533,
+      "grad_norm": 0.16087768971920013,
+      "learning_rate": 0.00027300475013022663,
+      "loss": 2.9947,
+      "num_input_tokens_seen": 15178137600,
+      "step": 57900
+    },
+    {
+      "epoch": 0.38980060975712294,
+      "grad_norm": 0.16023555397987366,
+      "learning_rate": 0.00026142061987019576,
+      "loss": 3.0022,
+      "num_input_tokens_seen": 15191244800,
+      "step": 57950
+    },
+    {
+      "epoch": 0.39013693470083055,
+      "grad_norm": 0.16161410510540009,
+      "learning_rate": 0.0002500000000000001,
+      "loss": 2.9931,
+      "num_input_tokens_seen": 15204352000,
+      "step": 58000
+    },
+    {
+      "epoch": 0.39013693470083055,
+      "eval_loss": 2.8950610160827637,
+      "eval_runtime": 53.5434,
+      "eval_samples_per_second": 93.382,
+      "eval_steps_per_second": 23.346,
+      "num_input_tokens_seen": 15204352000,
+      "step": 58000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
+  "num_input_tokens_seen": 15204352000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.06731255447552e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null