Training in progress, step 22000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +360 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0634cd3b48faa896331e649d644ee85a0e0af72246ab7393a66a3c2518bb02e
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:b81985a8a1ebad5f960997d908e43f8d285835abd4645a1ad5e8d86d7a91e976
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:611dbdaa20f4f869458e449fe2e70d417e2df56bd8ff59602f5187369567bda1
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e989ff28ea16b1edbb8530fe11c0f4057d65c6350ad0a17cbf0a4960b2cb6ea
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd42aefaf8cffc05ebd908742fc863dc5486d9c9296568766959af6a5b7610ad
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ec14043d0cb9b7579fdf9075af0f9a31a2393b8ca68497f0e5375a4fe1a3cf9
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6662ae68d38995d5846f13e724946a2acb1395046b7d08977dde3dab733945c0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ce6ab6f335eafbbff78f85b703b750b35d8b96e0da89ad49a445d3e07ab4df8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.43932086485803756,
   "eval_steps": 500,
-  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3568,11 +3568,367 @@
       "eval_steps_per_second": 18.841,
       "num_input_tokens_seen": 20971520000,
       "step": 20000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 20971520000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -3587,7 +3943,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.194343431929856e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.48325295134384133,
   "eval_steps": 500,
+  "global_step": 22000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.841,
       "num_input_tokens_seen": 20971520000,
       "step": 20000
+    },
+    {
+      "epoch": 0.4404191670201827,
+      "grad_norm": 0.14489957690238953,
+      "learning_rate": 0.001,
+      "loss": 2.7139,
+      "num_input_tokens_seen": 21023948800,
+      "step": 20050
+    },
+    {
+      "epoch": 0.44151746918232776,
+      "grad_norm": 0.13994646072387695,
+      "learning_rate": 0.001,
+      "loss": 2.7091,
+      "num_input_tokens_seen": 21076377600,
+      "step": 20100
+    },
+    {
+      "epoch": 0.4426157713444729,
+      "grad_norm": 0.17211903631687164,
+      "learning_rate": 0.001,
+      "loss": 2.7176,
+      "num_input_tokens_seen": 21128806400,
+      "step": 20150
+    },
+    {
+      "epoch": 0.44371407350661796,
+      "grad_norm": 0.16364862024784088,
+      "learning_rate": 0.001,
+      "loss": 2.7181,
+      "num_input_tokens_seen": 21181235200,
+      "step": 20200
+    },
+    {
+      "epoch": 0.444812375668763,
+      "grad_norm": 0.14166216552257538,
+      "learning_rate": 0.001,
+      "loss": 2.7127,
+      "num_input_tokens_seen": 21233664000,
+      "step": 20250
+    },
+    {
+      "epoch": 0.44591067783090815,
+      "grad_norm": 0.12995755672454834,
+      "learning_rate": 0.001,
+      "loss": 2.7085,
+      "num_input_tokens_seen": 21286092800,
+      "step": 20300
+    },
+    {
+      "epoch": 0.4470089799930532,
+      "grad_norm": 0.15717202425003052,
+      "learning_rate": 0.001,
+      "loss": 2.7071,
+      "num_input_tokens_seen": 21338521600,
+      "step": 20350
+    },
+    {
+      "epoch": 0.44810728215519835,
+      "grad_norm": 0.13354860246181488,
+      "learning_rate": 0.001,
+      "loss": 2.7094,
+      "num_input_tokens_seen": 21390950400,
+      "step": 20400
+    },
+    {
+      "epoch": 0.4492055843173434,
+      "grad_norm": 0.16004188358783722,
+      "learning_rate": 0.001,
+      "loss": 2.7109,
+      "num_input_tokens_seen": 21443379200,
+      "step": 20450
+    },
+    {
+      "epoch": 0.45030388647948855,
+      "grad_norm": 0.148077592253685,
+      "learning_rate": 0.001,
+      "loss": 2.7058,
+      "num_input_tokens_seen": 21495808000,
+      "step": 20500
+    },
+    {
+      "epoch": 0.45030388647948855,
+      "eval_loss": 2.6089115142822266,
+      "eval_runtime": 65.5589,
+      "eval_samples_per_second": 76.267,
+      "eval_steps_per_second": 19.067,
+      "num_input_tokens_seen": 21495808000,
+      "step": 20500
+    },
+    {
+      "epoch": 0.4514021886416336,
+      "grad_norm": 0.16992634534835815,
+      "learning_rate": 0.001,
+      "loss": 2.7026,
+      "num_input_tokens_seen": 21548236800,
+      "step": 20550
+    },
+    {
+      "epoch": 0.4525004908037787,
+      "grad_norm": 0.14876551926136017,
+      "learning_rate": 0.001,
+      "loss": 2.7105,
+      "num_input_tokens_seen": 21600665600,
+      "step": 20600
+    },
+    {
+      "epoch": 0.4535987929659238,
+      "grad_norm": 0.16025613248348236,
+      "learning_rate": 0.001,
+      "loss": 2.707,
+      "num_input_tokens_seen": 21653094400,
+      "step": 20650
+    },
+    {
+      "epoch": 0.4546970951280689,
+      "grad_norm": 0.14609012007713318,
+      "learning_rate": 0.001,
+      "loss": 2.7086,
+      "num_input_tokens_seen": 21705523200,
+      "step": 20700
+    },
+    {
+      "epoch": 0.455795397290214,
+      "grad_norm": 0.14725832641124725,
+      "learning_rate": 0.001,
+      "loss": 2.7075,
+      "num_input_tokens_seen": 21757952000,
+      "step": 20750
+    },
+    {
+      "epoch": 0.4568936994523591,
+      "grad_norm": 0.1736454963684082,
+      "learning_rate": 0.001,
+      "loss": 2.7033,
+      "num_input_tokens_seen": 21810380800,
+      "step": 20800
+    },
+    {
+      "epoch": 0.45799200161450415,
+      "grad_norm": 0.14904257655143738,
+      "learning_rate": 0.001,
+      "loss": 2.7012,
+      "num_input_tokens_seen": 21862809600,
+      "step": 20850
+    },
+    {
+      "epoch": 0.4590903037766493,
+      "grad_norm": 0.14407765865325928,
+      "learning_rate": 0.001,
+      "loss": 2.7055,
+      "num_input_tokens_seen": 21915238400,
+      "step": 20900
+    },
+    {
+      "epoch": 0.46018860593879435,
+      "grad_norm": 0.13943473994731903,
+      "learning_rate": 0.001,
+      "loss": 2.6999,
+      "num_input_tokens_seen": 21967667200,
+      "step": 20950
+    },
+    {
+      "epoch": 0.4612869081009395,
+      "grad_norm": 0.1592896729707718,
+      "learning_rate": 0.001,
+      "loss": 2.7072,
+      "num_input_tokens_seen": 22020096000,
+      "step": 21000
+    },
+    {
+      "epoch": 0.4612869081009395,
+      "eval_loss": 2.605719566345215,
+      "eval_runtime": 65.6879,
+      "eval_samples_per_second": 76.117,
+      "eval_steps_per_second": 19.029,
+      "num_input_tokens_seen": 22020096000,
+      "step": 21000
+    },
+    {
+      "epoch": 0.46238521026308455,
+      "grad_norm": 0.1428702473640442,
+      "learning_rate": 0.001,
+      "loss": 2.7042,
+      "num_input_tokens_seen": 22072524800,
+      "step": 21050
+    },
+    {
+      "epoch": 0.46348351242522967,
+      "grad_norm": 0.13529072701931,
+      "learning_rate": 0.001,
+      "loss": 2.7093,
+      "num_input_tokens_seen": 22124953600,
+      "step": 21100
+    },
+    {
+      "epoch": 0.46458181458737474,
+      "grad_norm": 0.17529748380184174,
+      "learning_rate": 0.001,
+      "loss": 2.713,
+      "num_input_tokens_seen": 22177382400,
+      "step": 21150
+    },
+    {
+      "epoch": 0.4656801167495198,
+      "grad_norm": 0.1479254513978958,
+      "learning_rate": 0.001,
+      "loss": 2.6984,
+      "num_input_tokens_seen": 22229811200,
+      "step": 21200
+    },
+    {
+      "epoch": 0.46677841891166494,
+      "grad_norm": 0.15110637247562408,
+      "learning_rate": 0.001,
+      "loss": 2.7128,
+      "num_input_tokens_seen": 22282240000,
+      "step": 21250
+    },
+    {
+      "epoch": 0.46787672107381,
+      "grad_norm": 0.13746944069862366,
+      "learning_rate": 0.001,
+      "loss": 2.7036,
+      "num_input_tokens_seen": 22334668800,
+      "step": 21300
+    },
+    {
+      "epoch": 0.46897502323595514,
+      "grad_norm": 0.17940136790275574,
+      "learning_rate": 0.001,
+      "loss": 2.7048,
+      "num_input_tokens_seen": 22387097600,
+      "step": 21350
+    },
+    {
+      "epoch": 0.4700733253981002,
+      "grad_norm": 0.14203256368637085,
+      "learning_rate": 0.001,
+      "loss": 2.6997,
+      "num_input_tokens_seen": 22439526400,
+      "step": 21400
+    },
+    {
+      "epoch": 0.47117162756024533,
+      "grad_norm": 0.14260704815387726,
+      "learning_rate": 0.001,
+      "loss": 2.7092,
+      "num_input_tokens_seen": 22491955200,
+      "step": 21450
+    },
+    {
+      "epoch": 0.4722699297223904,
+      "grad_norm": 0.16455897688865662,
+      "learning_rate": 0.001,
+      "loss": 2.6969,
+      "num_input_tokens_seen": 22544384000,
+      "step": 21500
+    },
+    {
+      "epoch": 0.4722699297223904,
+      "eval_loss": 2.60367751121521,
+      "eval_runtime": 65.4304,
+      "eval_samples_per_second": 76.417,
+      "eval_steps_per_second": 19.104,
+      "num_input_tokens_seen": 22544384000,
+      "step": 21500
+    },
+    {
+      "epoch": 0.4733682318845355,
+      "grad_norm": 0.1529170274734497,
+      "learning_rate": 0.001,
+      "loss": 2.7003,
+      "num_input_tokens_seen": 22596812800,
+      "step": 21550
+    },
+    {
+      "epoch": 0.4744665340466806,
+      "grad_norm": 0.1921636164188385,
+      "learning_rate": 0.001,
+      "loss": 2.7014,
+      "num_input_tokens_seen": 22649241600,
+      "step": 21600
+    },
+    {
+      "epoch": 0.47556483620882567,
+      "grad_norm": 0.16029173135757446,
+      "learning_rate": 0.001,
+      "loss": 2.7028,
+      "num_input_tokens_seen": 22701670400,
+      "step": 21650
+    },
+    {
+      "epoch": 0.4766631383709708,
+      "grad_norm": 0.14740578830242157,
+      "learning_rate": 0.001,
+      "loss": 2.7019,
+      "num_input_tokens_seen": 22754099200,
+      "step": 21700
+    },
+    {
+      "epoch": 0.47776144053311587,
+      "grad_norm": 0.1734548658132553,
+      "learning_rate": 0.001,
+      "loss": 2.6985,
+      "num_input_tokens_seen": 22806528000,
+      "step": 21750
+    },
+    {
+      "epoch": 0.47885974269526094,
+      "grad_norm": 0.15502890944480896,
+      "learning_rate": 0.001,
+      "loss": 2.6973,
+      "num_input_tokens_seen": 22858956800,
+      "step": 21800
+    },
+    {
+      "epoch": 0.47995804485740606,
+      "grad_norm": 0.16783900558948517,
+      "learning_rate": 0.001,
+      "loss": 2.7003,
+      "num_input_tokens_seen": 22911385600,
+      "step": 21850
+    },
+    {
+      "epoch": 0.48105634701955113,
+      "grad_norm": 0.14911381900310516,
+      "learning_rate": 0.001,
+      "loss": 2.6992,
+      "num_input_tokens_seen": 22963814400,
+      "step": 21900
+    },
+    {
+      "epoch": 0.48215464918169626,
+      "grad_norm": 0.15027394890785217,
+      "learning_rate": 0.001,
+      "loss": 2.6957,
+      "num_input_tokens_seen": 23016243200,
+      "step": 21950
+    },
+    {
+      "epoch": 0.48325295134384133,
+      "grad_norm": 0.1261301189661026,
+      "learning_rate": 0.001,
+      "loss": 2.7064,
+      "num_input_tokens_seen": 23068672000,
+      "step": 22000
+    },
+    {
+      "epoch": 0.48325295134384133,
+      "eval_loss": 2.6012015342712402,
+      "eval_runtime": 64.9701,
+      "eval_samples_per_second": 76.958,
+      "eval_steps_per_second": 19.24,
+      "num_input_tokens_seen": 23068672000,
+      "step": 22000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 23068672000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.3137777751228416e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null