Training in progress, step 55000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7005ee4ac699efbe46e787cdaab363f958cca84ce68e125ca53c53198e13eeac
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:62e4ec5f596aeddac39f75a6501f66ecd7eb297d85fd39f281237c384adec887
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5151b63ca0c165877166c8eeb6faa3b784251ae57745f30c89f3dbaf08defd7
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:6aa82a32a09e79af011cf35188194304359148308b76399c6d5815593f337709
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e516d1931a63763a7fdfb84f01f54aaada25beb218520b62969ba08ff897cee4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a5eacfa99e53a8a1de73851121ef39f03223e9cc67398ac06a0e84e6dbf4ae3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b89459823d581d70469027e8df5427d5b9a07aadbd42c55eac43368b994e74e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5df6e1f8ed049732a2e5d49c46b32207c644d0cb43e6b3e615ea32a67128cbab
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.36323093920422156,
   "eval_steps": 500,
-  "global_step": 54000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9620,11 +9620,189 @@
       "eval_steps_per_second": 23.494,
       "num_input_tokens_seen": 14155776000,
       "step": 54000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
-  "num_input_tokens_seen": 14155776000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -9639,7 +9817,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.78680824037376e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3699574380783738,
   "eval_steps": 500,
+  "global_step": 55000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.494,
       "num_input_tokens_seen": 14155776000,
       "step": 54000
+    },
+    {
+      "epoch": 0.36356726414792917,
+      "grad_norm": 0.2197147160768509,
+      "learning_rate": 0.0009998286624877785,
+      "loss": 3.0502,
+      "num_input_tokens_seen": 14168883200,
+      "step": 54050
+    },
+    {
+      "epoch": 0.3639035890916368,
+      "grad_norm": 0.22259306907653809,
+      "learning_rate": 0.0009993147673772868,
+      "loss": 3.0433,
+      "num_input_tokens_seen": 14181990400,
+      "step": 54100
+    },
+    {
+      "epoch": 0.3642399140353444,
+      "grad_norm": 0.19341766834259033,
+      "learning_rate": 0.000998458666866564,
+      "loss": 3.0486,
+      "num_input_tokens_seen": 14195097600,
+      "step": 54150
+    },
+    {
+      "epoch": 0.364576238979052,
+      "grad_norm": 0.2313617616891861,
+      "learning_rate": 0.0009972609476841367,
+      "loss": 3.0446,
+      "num_input_tokens_seen": 14208204800,
+      "step": 54200
+    },
+    {
+      "epoch": 0.3649125639227596,
+      "grad_norm": 0.1925128698348999,
+      "learning_rate": 0.0009957224306869053,
+      "loss": 3.0528,
+      "num_input_tokens_seen": 14221312000,
+      "step": 54250
+    },
+    {
+      "epoch": 0.3652488888664672,
+      "grad_norm": 0.2100643515586853,
+      "learning_rate": 0.0009938441702975688,
+      "loss": 3.0453,
+      "num_input_tokens_seen": 14234419200,
+      "step": 54300
+    },
+    {
+      "epoch": 0.36558521381017484,
+      "grad_norm": 0.46658360958099365,
+      "learning_rate": 0.0009916274537819774,
+      "loss": 3.0464,
+      "num_input_tokens_seen": 14247526400,
+      "step": 54350
+    },
+    {
+      "epoch": 0.36592153875388245,
+      "grad_norm": 0.19623732566833496,
+      "learning_rate": 0.0009890738003669028,
+      "loss": 3.0427,
+      "num_input_tokens_seen": 14260633600,
+      "step": 54400
+    },
+    {
+      "epoch": 0.36625786369759006,
+      "grad_norm": 0.24941138923168182,
+      "learning_rate": 0.0009861849601988384,
+      "loss": 3.0528,
+      "num_input_tokens_seen": 14273740800,
+      "step": 54450
+    },
+    {
+      "epoch": 0.36659418864129767,
+      "grad_norm": 0.22141198813915253,
+      "learning_rate": 0.0009829629131445341,
+      "loss": 3.0523,
+      "num_input_tokens_seen": 14286848000,
+      "step": 54500
+    },
+    {
+      "epoch": 0.36659418864129767,
+      "eval_loss": 2.9419288635253906,
+      "eval_runtime": 53.6937,
+      "eval_samples_per_second": 93.121,
+      "eval_steps_per_second": 23.28,
+      "num_input_tokens_seen": 14286848000,
+      "step": 54500
+    },
+    {
+      "epoch": 0.3669305135850053,
+      "grad_norm": 0.2028401494026184,
+      "learning_rate": 0.0009794098674340967,
+      "loss": 3.0403,
+      "num_input_tokens_seen": 14299955200,
+      "step": 54550
+    },
+    {
+      "epoch": 0.3672668385287129,
+      "grad_norm": 0.20509253442287445,
+      "learning_rate": 0.0009755282581475768,
+      "loss": 3.0543,
+      "num_input_tokens_seen": 14313062400,
+      "step": 54600
+    },
+    {
+      "epoch": 0.3676031634724205,
+      "grad_norm": 1.2793521881103516,
+      "learning_rate": 0.0009713207455460893,
+      "loss": 3.0718,
+      "num_input_tokens_seen": 14326169600,
+      "step": 54650
+    },
+    {
+      "epoch": 0.3679394884161281,
+      "grad_norm": 1.1210218667984009,
+      "learning_rate": 0.0009667902132486009,
+      "loss": 3.0706,
+      "num_input_tokens_seen": 14339276800,
+      "step": 54700
+    },
+    {
+      "epoch": 0.3682758133598357,
+      "grad_norm": 0.5492864847183228,
+      "learning_rate": 0.0009619397662556434,
+      "loss": 3.0793,
+      "num_input_tokens_seen": 14352384000,
+      "step": 54750
+    },
+    {
+      "epoch": 0.36861213830354334,
+      "grad_norm": 0.34732338786125183,
+      "learning_rate": 0.0009567727288213005,
+      "loss": 3.0662,
+      "num_input_tokens_seen": 14365491200,
+      "step": 54800
+    },
+    {
+      "epoch": 0.36894846324725095,
+      "grad_norm": 0.2698073983192444,
+      "learning_rate": 0.0009512926421749304,
+      "loss": 3.0682,
+      "num_input_tokens_seen": 14378598400,
+      "step": 54850
+    },
+    {
+      "epoch": 0.36928478819095856,
+      "grad_norm": 0.593543529510498,
+      "learning_rate": 0.0009455032620941839,
+      "loss": 3.0507,
+      "num_input_tokens_seen": 14391705600,
+      "step": 54900
+    },
+    {
+      "epoch": 0.36962111313466617,
+      "grad_norm": 0.28389155864715576,
+      "learning_rate": 0.0009394085563309827,
+      "loss": 3.0593,
+      "num_input_tokens_seen": 14404812800,
+      "step": 54950
+    },
+    {
+      "epoch": 0.3699574380783738,
+      "grad_norm": 0.2569947838783264,
+      "learning_rate": 0.0009330127018922195,
+      "loss": 3.0524,
+      "num_input_tokens_seen": 14417920000,
+      "step": 55000
+    },
+    {
+      "epoch": 0.3699574380783738,
+      "eval_loss": 2.9468750953674316,
+      "eval_runtime": 52.9661,
+      "eval_samples_per_second": 94.4,
+      "eval_steps_per_second": 23.6,
+      "num_input_tokens_seen": 14417920000,
+      "step": 55000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
+  "num_input_tokens_seen": 14417920000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.8569343188992e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null