Training in progress, step 56000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62e4ec5f596aeddac39f75a6501f66ecd7eb297d85fd39f281237c384adec887
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3d360be7fe2543c78a1f7ac85877b8ebcc55a8fc7ce7ea8871241b28859be01
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6aa82a32a09e79af011cf35188194304359148308b76399c6d5815593f337709
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:c586225c37191bdb386336c5aa7eba4c313537c276b8b87dd7fefbcb4a3ca975
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a5eacfa99e53a8a1de73851121ef39f03223e9cc67398ac06a0e84e6dbf4ae3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f1d7953b9adf97d81c8d5df7c90f2cd3786e196584c751d3c25ee459604bb2b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5df6e1f8ed049732a2e5d49c46b32207c644d0cb43e6b3e615ea32a67128cbab
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:56641b065a04f5f757422df636842a91ff2acd7d071b6672db512bd44af71813
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3699574380783738,
   "eval_steps": 500,
-  "global_step": 55000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9798,11 +9798,189 @@
       "eval_steps_per_second": 23.6,
       "num_input_tokens_seen": 14417920000,
       "step": 55000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
-  "num_input_tokens_seen": 14417920000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -9817,7 +9995,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.8569343188992e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.37668393695252606,
   "eval_steps": 500,
+  "global_step": 56000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.6,
       "num_input_tokens_seen": 14417920000,
       "step": 55000
+    },
+    {
+      "epoch": 0.3702937630220814,
+      "grad_norm": 0.2545956075191498,
+      "learning_rate": 0.0009263200821770461,
+      "loss": 3.0397,
+      "num_input_tokens_seen": 14431027200,
+      "step": 55050
+    },
+    {
+      "epoch": 0.370630087965789,
+      "grad_norm": 0.26363736391067505,
+      "learning_rate": 0.0009193352839727121,
+      "loss": 3.0554,
+      "num_input_tokens_seen": 14444134400,
+      "step": 55100
+    },
+    {
+      "epoch": 0.3709664129094966,
+      "grad_norm": 0.2228112667798996,
+      "learning_rate": 0.0009120630943110077,
+      "loss": 3.0482,
+      "num_input_tokens_seen": 14457241600,
+      "step": 55150
+    },
+    {
+      "epoch": 0.3713027378532043,
+      "grad_norm": 0.2184106856584549,
+      "learning_rate": 0.0009045084971874737,
+      "loss": 3.0368,
+      "num_input_tokens_seen": 14470348800,
+      "step": 55200
+    },
+    {
+      "epoch": 0.3716390627969119,
+      "grad_norm": 0.5658212900161743,
+      "learning_rate": 0.0008966766701456176,
+      "loss": 3.0541,
+      "num_input_tokens_seen": 14483456000,
+      "step": 55250
+    },
+    {
+      "epoch": 0.3719753877406195,
+      "grad_norm": 0.31839439272880554,
+      "learning_rate": 0.0008885729807284854,
+      "loss": 3.0516,
+      "num_input_tokens_seen": 14496563200,
+      "step": 55300
+    },
+    {
+      "epoch": 0.3723117126843271,
+      "grad_norm": 0.2521055042743683,
+      "learning_rate": 0.0008802029828000156,
+      "loss": 3.049,
+      "num_input_tokens_seen": 14509670400,
+      "step": 55350
+    },
+    {
+      "epoch": 0.3726480376280347,
+      "grad_norm": 0.23797062039375305,
+      "learning_rate": 0.0008715724127386971,
+      "loss": 3.0393,
+      "num_input_tokens_seen": 14522777600,
+      "step": 55400
+    },
+    {
+      "epoch": 0.37298436257174233,
+      "grad_norm": 0.26673102378845215,
+      "learning_rate": 0.0008626871855061438,
+      "loss": 3.0535,
+      "num_input_tokens_seen": 14535884800,
+      "step": 55450
+    },
+    {
+      "epoch": 0.37332068751544994,
+      "grad_norm": 0.37754055857658386,
+      "learning_rate": 0.0008535533905932737,
+      "loss": 3.0432,
+      "num_input_tokens_seen": 14548992000,
+      "step": 55500
+    },
+    {
+      "epoch": 0.37332068751544994,
+      "eval_loss": 2.9362170696258545,
+      "eval_runtime": 53.4795,
+      "eval_samples_per_second": 93.494,
+      "eval_steps_per_second": 23.373,
+      "num_input_tokens_seen": 14548992000,
+      "step": 55500
+    },
+    {
+      "epoch": 0.37365701245915756,
+      "grad_norm": 0.2160724252462387,
+      "learning_rate": 0.000844177287846877,
+      "loss": 3.0378,
+      "num_input_tokens_seen": 14562099200,
+      "step": 55550
+    },
+    {
+      "epoch": 0.37399333740286517,
+      "grad_norm": 0.22323860228061676,
+      "learning_rate": 0.0008345653031794292,
+      "loss": 3.0419,
+      "num_input_tokens_seen": 14575206400,
+      "step": 55600
+    },
+    {
+      "epoch": 0.3743296623465728,
+      "grad_norm": 0.19688346982002258,
+      "learning_rate": 0.0008247240241650918,
+      "loss": 3.0297,
+      "num_input_tokens_seen": 14588313600,
+      "step": 55650
+    },
+    {
+      "epoch": 0.3746659872902804,
+      "grad_norm": 0.1972673088312149,
+      "learning_rate": 0.0008146601955249188,
+      "loss": 3.0405,
+      "num_input_tokens_seen": 14601420800,
+      "step": 55700
+    },
+    {
+      "epoch": 0.375002312233988,
+      "grad_norm": 0.44073277711868286,
+      "learning_rate": 0.0008043807145043603,
+      "loss": 3.0343,
+      "num_input_tokens_seen": 14614528000,
+      "step": 55750
+    },
+    {
+      "epoch": 0.3753386371776956,
+      "grad_norm": 0.22042399644851685,
+      "learning_rate": 0.0007938926261462366,
+      "loss": 3.0337,
+      "num_input_tokens_seen": 14627635200,
+      "step": 55800
+    },
+    {
+      "epoch": 0.3756749621214032,
+      "grad_norm": 0.2954588234424591,
+      "learning_rate": 0.0007832031184624164,
+      "loss": 3.0334,
+      "num_input_tokens_seen": 14640742400,
+      "step": 55850
+    },
+    {
+      "epoch": 0.37601128706511083,
+      "grad_norm": 0.5062097907066345,
+      "learning_rate": 0.0007723195175075137,
+      "loss": 3.0385,
+      "num_input_tokens_seen": 14653849600,
+      "step": 55900
+    },
+    {
+      "epoch": 0.37634761200881844,
+      "grad_norm": 0.30344095826148987,
+      "learning_rate": 0.0007612492823579744,
+      "loss": 3.04,
+      "num_input_tokens_seen": 14666956800,
+      "step": 55950
+    },
+    {
+      "epoch": 0.37668393695252606,
+      "grad_norm": 0.21088473498821259,
+      "learning_rate": 0.00075,
+      "loss": 3.0364,
+      "num_input_tokens_seen": 14680064000,
+      "step": 56000
+    },
+    {
+      "epoch": 0.37668393695252606,
+      "eval_loss": 2.9313743114471436,
+      "eval_runtime": 53.142,
+      "eval_samples_per_second": 94.088,
+      "eval_steps_per_second": 23.522,
+      "num_input_tokens_seen": 14680064000,
+      "step": 56000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
+  "num_input_tokens_seen": 14680064000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.92706039742464e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null