Training in progress, step 62000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ff3677e2a6c68c6a9bc84018c91a9abb1bcf7c14c1b566d1f4d545783476a72
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbbf7b607c85a5d696bff54af0adb9f239d76d76446306b0d75e85fb86338432
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95defb77fd9d966f9fb370451c779ea88fb6409a7bea604ae57a6a4ab86f381e
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:3561f0a9213e3ac9e43eff9c9d946a42b171ff83db0a3806965305d6e1bbe28a
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8ee7735caca4437694ef1fa1c7821cadab81eb5dba9c8318224d8baee7f9384
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b604bf86b8b70beb6e4043604c61f8577f1fbe75a9d1e20249b5622ec5aa2654
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80725391fd9590c70c1e5ba84487c80bcb26eb7012140d59e753f7bdbcc81863
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:68dfbb60d9dcf18c45914087cca91dc6c214da7f11269c4a414921902f313d06
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4103164313232873,
   "eval_steps": 500,
-  "global_step": 61000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10866,11 +10866,189 @@
       "eval_steps_per_second": 23.996,
       "num_input_tokens_seen": 15990784000,
       "step": 61000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 15990784000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -10885,7 +11063,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.27769079005184e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.41704293019743954,
   "eval_steps": 500,
+  "global_step": 62000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.996,
       "num_input_tokens_seen": 15990784000,
       "step": 61000
+    },
+    {
+      "epoch": 0.41065275626699493,
+      "grad_norm": 0.3535885810852051,
+      "learning_rate": 0.0005927261190557954,
+      "loss": 3.0102,
+      "num_input_tokens_seen": 16003891200,
+      "step": 61050
+    },
+    {
+      "epoch": 0.41098908121070254,
+      "grad_norm": 0.2633107304573059,
+      "learning_rate": 0.0005878981399671774,
+      "loss": 3.0424,
+      "num_input_tokens_seen": 16016998400,
+      "step": 61100
+    },
+    {
+      "epoch": 0.41132540615441016,
+      "grad_norm": 0.3054018020629883,
+      "learning_rate": 0.0005830616890728827,
+      "loss": 3.0233,
+      "num_input_tokens_seen": 16030105600,
+      "step": 61150
+    },
+    {
+      "epoch": 0.41166173109811777,
+      "grad_norm": 0.21453993022441864,
+      "learning_rate": 0.0005782172325201155,
+      "loss": 3.018,
+      "num_input_tokens_seen": 16043212800,
+      "step": 61200
+    },
+    {
+      "epoch": 0.4119980560418254,
+      "grad_norm": 0.27815598249435425,
+      "learning_rate": 0.0005733652372276809,
+      "loss": 3.0254,
+      "num_input_tokens_seen": 16056320000,
+      "step": 61250
+    },
+    {
+      "epoch": 0.412334380985533,
+      "grad_norm": 0.20687313377857208,
+      "learning_rate": 0.0005685061708409841,
+      "loss": 3.0165,
+      "num_input_tokens_seen": 16069427200,
+      "step": 61300
+    },
+    {
+      "epoch": 0.4126707059292406,
+      "grad_norm": 0.1985252946615219,
+      "learning_rate": 0.0005636405016869566,
+      "loss": 3.0164,
+      "num_input_tokens_seen": 16082534400,
+      "step": 61350
+    },
+    {
+      "epoch": 0.4130070308729482,
+      "grad_norm": 0.26703181862831116,
+      "learning_rate": 0.0005587686987289189,
+      "loss": 3.0001,
+      "num_input_tokens_seen": 16095641600,
+      "step": 61400
+    },
+    {
+      "epoch": 0.4133433558166558,
+      "grad_norm": 0.1948036104440689,
+      "learning_rate": 0.0005538912315213797,
+      "loss": 3.0058,
+      "num_input_tokens_seen": 16108748800,
+      "step": 61450
+    },
+    {
+      "epoch": 0.41367968076036343,
+      "grad_norm": 0.20653308928012848,
+      "learning_rate": 0.0005490085701647804,
+      "loss": 3.0115,
+      "num_input_tokens_seen": 16121856000,
+      "step": 61500
+    },
+    {
+      "epoch": 0.41367968076036343,
+      "eval_loss": 2.9048781394958496,
+      "eval_runtime": 53.8207,
+      "eval_samples_per_second": 92.901,
+      "eval_steps_per_second": 23.225,
+      "num_input_tokens_seen": 16121856000,
+      "step": 61500
+    },
+    {
+      "epoch": 0.41401600570407104,
+      "grad_norm": 0.19605295360088348,
+      "learning_rate": 0.0005441211852601849,
+      "loss": 3.0225,
+      "num_input_tokens_seen": 16134963200,
+      "step": 61550
+    },
+    {
+      "epoch": 0.41435233064777865,
+      "grad_norm": 0.17526155710220337,
+      "learning_rate": 0.0005392295478639225,
+      "loss": 3.0117,
+      "num_input_tokens_seen": 16148070400,
+      "step": 61600
+    },
+    {
+      "epoch": 0.41468865559148627,
+      "grad_norm": 0.17657403647899628,
+      "learning_rate": 0.0005343341294421868,
+      "loss": 3.0107,
+      "num_input_tokens_seen": 16161177600,
+      "step": 61650
+    },
+    {
+      "epoch": 0.4150249805351939,
+      "grad_norm": 0.18658681213855743,
+      "learning_rate": 0.0005294354018255945,
+      "loss": 3.0085,
+      "num_input_tokens_seen": 16174284800,
+      "step": 61700
+    },
+    {
+      "epoch": 0.4153613054789015,
+      "grad_norm": 0.24781519174575806,
+      "learning_rate": 0.0005245338371637091,
+      "loss": 2.9939,
+      "num_input_tokens_seen": 16187392000,
+      "step": 61750
+    },
+    {
+      "epoch": 0.4156976304226091,
+      "grad_norm": 0.20824941992759705,
+      "learning_rate": 0.0005196299078795343,
+      "loss": 3.0038,
+      "num_input_tokens_seen": 16200499200,
+      "step": 61800
+    },
+    {
+      "epoch": 0.4160339553663167,
+      "grad_norm": 0.38262441754341125,
+      "learning_rate": 0.0005147240866239817,
+      "loss": 3.0141,
+      "num_input_tokens_seen": 16213606400,
+      "step": 61850
+    },
+    {
+      "epoch": 0.4163702803100243,
+      "grad_norm": 0.200628861784935,
+      "learning_rate": 0.0005098168462303141,
+      "loss": 3.0187,
+      "num_input_tokens_seen": 16226713600,
+      "step": 61900
+    },
+    {
+      "epoch": 0.41670660525373193,
+      "grad_norm": 0.18858259916305542,
+      "learning_rate": 0.000504908659668575,
+      "loss": 3.0049,
+      "num_input_tokens_seen": 16239820800,
+      "step": 61950
+    },
+    {
+      "epoch": 0.41704293019743954,
+      "grad_norm": 0.19025108218193054,
+      "learning_rate": 0.0005,
+      "loss": 3.0079,
+      "num_input_tokens_seen": 16252928000,
+      "step": 62000
+    },
+    {
+      "epoch": 0.41704293019743954,
+      "eval_loss": 2.9012608528137207,
+      "eval_runtime": 52.7052,
+      "eval_samples_per_second": 94.867,
+      "eval_steps_per_second": 23.717,
+      "num_input_tokens_seen": 16252928000,
+      "step": 62000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 16252928000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.34781686857728e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null