Training in progress, step 65000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4464ecdd36ba9fcbb768fb530bac7125d2ebc3403bceccb2b1857ab10495094
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ad9801ec7b3ea03c8febaf16be0cca903ae6c5e7ba16db1d0ab836be5805c8b
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca3203148d8c928e5e1184f1534f1177f73f6ec7ebdc7acfe3b62c2af0779f9d
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcaa21f2d1112b5786bb6cb8a7af07df0a486ccdc4e343d067ea09aba3ebc0cf
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f03ef68c121377c551657263f23acf972b60bf546b00ad9803912e5c78e5ecd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5abe0ab18889dbab668e6d9fae1d62109a3226e616d0e681a91c9a668ea4330
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a5e9561ab6074dc857170aae9d2b27d70afb0686bb61ba701f52af71ad4d4a9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b166fab474c8d8470da4ff5d475f9ae65d65d8dd07f0e702e6e8c799bab73616
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.30528161036049467,
   "eval_steps": 500,
-  "global_step": 64000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11400,11 +11400,189 @@
       "eval_steps_per_second": 23.473,
       "num_input_tokens_seen": 16777211456,
       "step": 64000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 16777211456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -11419,7 +11597,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.4880678100638106e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.31005163552237736,
   "eval_steps": 500,
+  "global_step": 65000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.473,
       "num_input_tokens_seen": 16777211456,
       "step": 64000
+    },
+    {
+      "epoch": 0.3055201116185888,
+      "grad_norm": 0.1703004688024521,
+      "learning_rate": 0.00038327731807204744,
+      "loss": 2.5506,
+      "num_input_tokens_seen": 16790318656,
+      "step": 64050
+    },
+    {
+      "epoch": 0.30575861287668293,
+      "grad_norm": 0.19769616425037384,
+      "learning_rate": 0.00037782979693105293,
+      "loss": 2.542,
+      "num_input_tokens_seen": 16803425856,
+      "step": 64100
+    },
+    {
+      "epoch": 0.30599711413477704,
+      "grad_norm": 0.20674961805343628,
+      "learning_rate": 0.00037239765536817873,
+      "loss": 2.539,
+      "num_input_tokens_seen": 16816533056,
+      "step": 64150
+    },
+    {
+      "epoch": 0.3062356153928712,
+      "grad_norm": 0.19121839106082916,
+      "learning_rate": 0.0003669815772166625,
+      "loss": 2.5573,
+      "num_input_tokens_seen": 16829640256,
+      "step": 64200
+    },
+    {
+      "epoch": 0.30647411665096536,
+      "grad_norm": 0.1734025925397873,
+      "learning_rate": 0.00036158224428757535,
+      "loss": 2.5416,
+      "num_input_tokens_seen": 16842747456,
+      "step": 64250
+    },
+    {
+      "epoch": 0.30671261790905946,
+      "grad_norm": 0.1857634037733078,
+      "learning_rate": 0.0003562003362839914,
+      "loss": 2.5652,
+      "num_input_tokens_seen": 16855854656,
+      "step": 64300
+    },
+    {
+      "epoch": 0.3069511191671536,
+      "grad_norm": 0.17733143270015717,
+      "learning_rate": 0.000350836530715422,
+      "loss": 2.5299,
+      "num_input_tokens_seen": 16868961856,
+      "step": 64350
+    },
+    {
+      "epoch": 0.3071896204252477,
+      "grad_norm": 0.18323005735874176,
+      "learning_rate": 0.00034549150281252633,
+      "loss": 2.5691,
+      "num_input_tokens_seen": 16882069056,
+      "step": 64400
+    },
+    {
+      "epoch": 0.3074281216833419,
+      "grad_norm": 0.18570365011692047,
+      "learning_rate": 0.00034016592544210936,
+      "loss": 2.5436,
+      "num_input_tokens_seen": 16895176256,
+      "step": 64450
+    },
+    {
+      "epoch": 0.30766662294143604,
+      "grad_norm": 0.18571798503398895,
+      "learning_rate": 0.00033486046902241664,
+      "loss": 2.5382,
+      "num_input_tokens_seen": 16908283456,
+      "step": 64500
+    },
+    {
+      "epoch": 0.30766662294143604,
+      "eval_loss": 2.4323015213012695,
+      "eval_runtime": 53.7237,
+      "eval_samples_per_second": 93.069,
+      "eval_steps_per_second": 23.267,
+      "num_input_tokens_seen": 16908283456,
+      "step": 64500
+    },
+    {
+      "epoch": 0.30790512419953014,
+      "grad_norm": 0.1829528957605362,
+      "learning_rate": 0.0003295758014387375,
+      "loss": 2.5453,
+      "num_input_tokens_seen": 16921390656,
+      "step": 64550
+    },
+    {
+      "epoch": 0.3081436254576243,
+      "grad_norm": 0.1703086644411087,
+      "learning_rate": 0.0003243125879593286,
+      "loss": 2.5441,
+      "num_input_tokens_seen": 16934497856,
+      "step": 64600
+    },
+    {
+      "epoch": 0.3083821267157184,
+      "grad_norm": 0.17826180160045624,
+      "learning_rate": 0.000319071491151664,
+      "loss": 2.545,
+      "num_input_tokens_seen": 16947605056,
+      "step": 64650
+    },
+    {
+      "epoch": 0.30862062797381257,
+      "grad_norm": 0.17889030277729034,
+      "learning_rate": 0.00031385317079902743,
+      "loss": 2.5405,
+      "num_input_tokens_seen": 16960712256,
+      "step": 64700
+    },
+    {
+      "epoch": 0.30885912923190667,
+      "grad_norm": 0.1711336225271225,
+      "learning_rate": 0.0003086582838174551,
+      "loss": 2.5222,
+      "num_input_tokens_seen": 16973819456,
+      "step": 64750
+    },
+    {
+      "epoch": 0.30909763049000083,
+      "grad_norm": 0.17962214350700378,
+      "learning_rate": 0.0003034874841730382,
+      "loss": 2.5376,
+      "num_input_tokens_seen": 16986926656,
+      "step": 64800
+    },
+    {
+      "epoch": 0.309336131748095,
+      "grad_norm": 0.1699627935886383,
+      "learning_rate": 0.0002983414227995975,
+      "loss": 2.5616,
+      "num_input_tokens_seen": 17000033856,
+      "step": 64850
+    },
+    {
+      "epoch": 0.3095746330061891,
+      "grad_norm": 0.18442535400390625,
+      "learning_rate": 0.00029322074751673977,
+      "loss": 2.5377,
+      "num_input_tokens_seen": 17013141056,
+      "step": 64900
+    },
+    {
+      "epoch": 0.30981313426428325,
+      "grad_norm": 0.17972196638584137,
+      "learning_rate": 0.0002881261029483057,
+      "loss": 2.5474,
+      "num_input_tokens_seen": 17026248256,
+      "step": 64950
+    },
+    {
+      "epoch": 0.31005163552237736,
+      "grad_norm": 0.1810217946767807,
+      "learning_rate": 0.00028305813044122096,
+      "loss": 2.5286,
+      "num_input_tokens_seen": 17039355456,
+      "step": 65000
+    },
+    {
+      "epoch": 0.31005163552237736,
+      "eval_loss": 2.4292306900024414,
+      "eval_runtime": 53.3956,
+      "eval_samples_per_second": 93.641,
+      "eval_steps_per_second": 23.41,
+      "num_input_tokens_seen": 17039355456,
+      "step": 65000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 17039355456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.5581938885892506e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null