Training in progress, step 9000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d922a368949a5441e9d489b35470030cb4c615391e10cc7551d311fbbe8f4950
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:40de222a643a29f7d83ca57461447e94369db28dfe02ce1ea8dc42c4841ff5b0
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:289467f36f723eb875d041ff89803400a785f51c542f023d361eafe581c907c6
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:17390b38b97f3c88d7498ab8a8662e59b4ff06eff339b6bdbd74ab3397b0fd3a
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6cbeff8537e701321b2075efc2eebe11299a3bd7caeea31b1272c71b85f04f18
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:060f0503489879d8dfb53b047f548ca4611036feac0d8375d9686aebe8f546f0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c0af51cb41f8d18ef1a20793cfc25e481d976840ad64e5c8a2edb4c4b13f606
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a106eb944d9a54ad09b68ad887887e7f10d1565ba0db56d5847127b57e2c1043
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.17572834594321504,
   "eval_steps": 500,
-  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1432,11 +1432,189 @@
       "eval_steps_per_second": 19.081,
       "num_input_tokens_seen": 8388608000,
       "step": 8000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 8388608000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -1451,7 +1629,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.777373727719424e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.1976943891861169,
   "eval_steps": 500,
+  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 19.081,
       "num_input_tokens_seen": 8388608000,
       "step": 8000
+    },
+    {
+      "epoch": 0.17682664810536014,
+      "grad_norm": 0.12299258261919022,
+      "learning_rate": 0.001,
+      "loss": 2.8626,
+      "num_input_tokens_seen": 8441036800,
+      "step": 8050
+    },
+    {
+      "epoch": 0.1779249502675052,
+      "grad_norm": 0.11638012528419495,
+      "learning_rate": 0.001,
+      "loss": 2.864,
+      "num_input_tokens_seen": 8493465600,
+      "step": 8100
+    },
+    {
+      "epoch": 0.1790232524296503,
+      "grad_norm": 0.10978250205516815,
+      "learning_rate": 0.001,
+      "loss": 2.8589,
+      "num_input_tokens_seen": 8545894400,
+      "step": 8150
+    },
+    {
+      "epoch": 0.1801215545917954,
+      "grad_norm": 0.11229872703552246,
+      "learning_rate": 0.001,
+      "loss": 2.8671,
+      "num_input_tokens_seen": 8598323200,
+      "step": 8200
+    },
+    {
+      "epoch": 0.1812198567539405,
+      "grad_norm": 0.13177119195461273,
+      "learning_rate": 0.001,
+      "loss": 2.8524,
+      "num_input_tokens_seen": 8650752000,
+      "step": 8250
+    },
+    {
+      "epoch": 0.1823181589160856,
+      "grad_norm": 0.11021032929420471,
+      "learning_rate": 0.001,
+      "loss": 2.8552,
+      "num_input_tokens_seen": 8703180800,
+      "step": 8300
+    },
+    {
+      "epoch": 0.1834164610782307,
+      "grad_norm": 0.11381058394908905,
+      "learning_rate": 0.001,
+      "loss": 2.8529,
+      "num_input_tokens_seen": 8755609600,
+      "step": 8350
+    },
+    {
+      "epoch": 0.18451476324037577,
+      "grad_norm": 0.10889217257499695,
+      "learning_rate": 0.001,
+      "loss": 2.8581,
+      "num_input_tokens_seen": 8808038400,
+      "step": 8400
+    },
+    {
+      "epoch": 0.18561306540252087,
+      "grad_norm": 0.13519708812236786,
+      "learning_rate": 0.001,
+      "loss": 2.8518,
+      "num_input_tokens_seen": 8860467200,
+      "step": 8450
+    },
+    {
+      "epoch": 0.18671136756466597,
+      "grad_norm": 0.1265636533498764,
+      "learning_rate": 0.001,
+      "loss": 2.8452,
+      "num_input_tokens_seen": 8912896000,
+      "step": 8500
+    },
+    {
+      "epoch": 0.18671136756466597,
+      "eval_loss": 2.754452705383301,
+      "eval_runtime": 65.4439,
+      "eval_samples_per_second": 76.401,
+      "eval_steps_per_second": 19.1,
+      "num_input_tokens_seen": 8912896000,
+      "step": 8500
+    },
+    {
+      "epoch": 0.18780966972681107,
+      "grad_norm": 0.12250006198883057,
+      "learning_rate": 0.001,
+      "loss": 2.8506,
+      "num_input_tokens_seen": 8965324800,
+      "step": 8550
+    },
+    {
+      "epoch": 0.18890797188895617,
+      "grad_norm": 0.1371607929468155,
+      "learning_rate": 0.001,
+      "loss": 2.8472,
+      "num_input_tokens_seen": 9017753600,
+      "step": 8600
+    },
+    {
+      "epoch": 0.19000627405110126,
+      "grad_norm": 0.11844755709171295,
+      "learning_rate": 0.001,
+      "loss": 2.8492,
+      "num_input_tokens_seen": 9070182400,
+      "step": 8650
+    },
+    {
+      "epoch": 0.19110457621324634,
+      "grad_norm": 0.38294216990470886,
+      "learning_rate": 0.001,
+      "loss": 6.3226,
+      "num_input_tokens_seen": 9122611200,
+      "step": 8700
+    },
+    {
+      "epoch": 0.19220287837539143,
+      "grad_norm": 0.44077590107917786,
+      "learning_rate": 0.001,
+      "loss": 6.7001,
+      "num_input_tokens_seen": 9175040000,
+      "step": 8750
+    },
+    {
+      "epoch": 0.19330118053753653,
+      "grad_norm": 0.4238772392272949,
+      "learning_rate": 0.001,
+      "loss": 5.8714,
+      "num_input_tokens_seen": 9227468800,
+      "step": 8800
+    },
+    {
+      "epoch": 0.19439948269968163,
+      "grad_norm": 0.2830688953399658,
+      "learning_rate": 0.001,
+      "loss": 4.8951,
+      "num_input_tokens_seen": 9279897600,
+      "step": 8850
+    },
+    {
+      "epoch": 0.19549778486182673,
+      "grad_norm": 0.2485039383172989,
+      "learning_rate": 0.001,
+      "loss": 3.928,
+      "num_input_tokens_seen": 9332326400,
+      "step": 8900
+    },
+    {
+      "epoch": 0.19659608702397183,
+      "grad_norm": 0.20515842735767365,
+      "learning_rate": 0.001,
+      "loss": 3.4277,
+      "num_input_tokens_seen": 9384755200,
+      "step": 8950
+    },
+    {
+      "epoch": 0.1976943891861169,
+      "grad_norm": 0.13605651259422302,
+      "learning_rate": 0.001,
+      "loss": 3.2263,
+      "num_input_tokens_seen": 9437184000,
+      "step": 9000
+    },
+    {
+      "epoch": 0.1976943891861169,
+      "eval_loss": 3.014314889907837,
+      "eval_runtime": 65.8851,
+      "eval_samples_per_second": 75.89,
+      "eval_steps_per_second": 18.972,
+      "num_input_tokens_seen": 9437184000,
+      "step": 9000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 9437184000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 5.374545443684352e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null