Training in progress, step 6000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37296df7790e03d83312df3152295ea5675574fc24606e23051f92ba2a8785cd
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:f12e4b4cd151eaa16ec86c3f95ae395991c7622f58c2e7d2e74c474e3b36e760
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddcb0501b4cfee967f8db5bb4fa8fb92b655ff610b064b96b43d66b2ba0fdac4
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:37d9c729674e95fb1e29d44967d84df6c7f3c27e76670f3f7d480a455ded0987
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4c247dc7c4172df7c1d104b1da0eaec0df0b665cbc24707f3227675351f1df9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f55de071972b9763cbcf2a8de91813bfc16f9cfb1e09299e92ce7c238a6f40c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ad5c996b0875772675f1bc75e15a0dbeb09c5ba7146d169befa6908149e4159
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fae5b4037609f8d0983c46601237411cdbc2481ef3d858df1d7dd4ab2f6d6072
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.10983021621450939,
   "eval_steps": 500,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -898,11 +898,189 @@
       "eval_steps_per_second": 19.021,
       "num_input_tokens_seen": 5242880000,
       "step": 5000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 5242880000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -917,7 +1095,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.98585857982464e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.13179625945741127,
   "eval_steps": 500,
+  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 19.021,
       "num_input_tokens_seen": 5242880000,
       "step": 5000
+    },
+    {
+      "epoch": 0.11092851837665449,
+      "grad_norm": 0.15302155911922455,
+      "learning_rate": 0.001,
+      "loss": 3.0037,
+      "num_input_tokens_seen": 5295308800,
+      "step": 5050
+    },
+    {
+      "epoch": 0.11202682053879959,
+      "grad_norm": 0.1474563181400299,
+      "learning_rate": 0.001,
+      "loss": 3.0063,
+      "num_input_tokens_seen": 5347737600,
+      "step": 5100
+    },
+    {
+      "epoch": 0.11312512270094467,
+      "grad_norm": 0.14318443834781647,
+      "learning_rate": 0.001,
+      "loss": 3.0011,
+      "num_input_tokens_seen": 5400166400,
+      "step": 5150
+    },
+    {
+      "epoch": 0.11422342486308977,
+      "grad_norm": 0.1521013379096985,
+      "learning_rate": 0.001,
+      "loss": 2.9946,
+      "num_input_tokens_seen": 5452595200,
+      "step": 5200
+    },
+    {
+      "epoch": 0.11532172702523487,
+      "grad_norm": 0.14434175193309784,
+      "learning_rate": 0.001,
+      "loss": 2.9909,
+      "num_input_tokens_seen": 5505024000,
+      "step": 5250
+    },
+    {
+      "epoch": 0.11642002918737995,
+      "grad_norm": 0.16284991800785065,
+      "learning_rate": 0.001,
+      "loss": 2.9846,
+      "num_input_tokens_seen": 5557452800,
+      "step": 5300
+    },
+    {
+      "epoch": 0.11751833134952505,
+      "grad_norm": 0.15281164646148682,
+      "learning_rate": 0.001,
+      "loss": 2.9843,
+      "num_input_tokens_seen": 5609881600,
+      "step": 5350
+    },
+    {
+      "epoch": 0.11861663351167015,
+      "grad_norm": 0.1227719634771347,
+      "learning_rate": 0.001,
+      "loss": 2.9778,
+      "num_input_tokens_seen": 5662310400,
+      "step": 5400
+    },
+    {
+      "epoch": 0.11971493567381523,
+      "grad_norm": 0.1346055269241333,
+      "learning_rate": 0.001,
+      "loss": 2.9745,
+      "num_input_tokens_seen": 5714739200,
+      "step": 5450
+    },
+    {
+      "epoch": 0.12081323783596033,
+      "grad_norm": 0.15828204154968262,
+      "learning_rate": 0.001,
+      "loss": 2.9723,
+      "num_input_tokens_seen": 5767168000,
+      "step": 5500
+    },
+    {
+      "epoch": 0.12081323783596033,
+      "eval_loss": 2.8801000118255615,
+      "eval_runtime": 65.3935,
+      "eval_samples_per_second": 76.46,
+      "eval_steps_per_second": 19.115,
+      "num_input_tokens_seen": 5767168000,
+      "step": 5500
+    },
+    {
+      "epoch": 0.12191153999810543,
+      "grad_norm": 0.1391400694847107,
+      "learning_rate": 0.001,
+      "loss": 2.9609,
+      "num_input_tokens_seen": 5819596800,
+      "step": 5550
+    },
+    {
+      "epoch": 0.12300984216025053,
+      "grad_norm": 0.14347107708454132,
+      "learning_rate": 0.001,
+      "loss": 2.9697,
+      "num_input_tokens_seen": 5872025600,
+      "step": 5600
+    },
+    {
+      "epoch": 0.12410814432239561,
+      "grad_norm": 0.13779127597808838,
+      "learning_rate": 0.001,
+      "loss": 2.9609,
+      "num_input_tokens_seen": 5924454400,
+      "step": 5650
+    },
+    {
+      "epoch": 0.1252064464845407,
+      "grad_norm": 0.13017955422401428,
+      "learning_rate": 0.001,
+      "loss": 2.9545,
+      "num_input_tokens_seen": 5976883200,
+      "step": 5700
+    },
+    {
+      "epoch": 0.1263047486466858,
+      "grad_norm": 0.12697578966617584,
+      "learning_rate": 0.001,
+      "loss": 2.9563,
+      "num_input_tokens_seen": 6029312000,
+      "step": 5750
+    },
+    {
+      "epoch": 0.1274030508088309,
+      "grad_norm": 0.15175020694732666,
+      "learning_rate": 0.001,
+      "loss": 2.9502,
+      "num_input_tokens_seen": 6081740800,
+      "step": 5800
+    },
+    {
+      "epoch": 0.12850135297097598,
+      "grad_norm": 0.1209852397441864,
+      "learning_rate": 0.001,
+      "loss": 2.9516,
+      "num_input_tokens_seen": 6134169600,
+      "step": 5850
+    },
+    {
+      "epoch": 0.12959965513312108,
+      "grad_norm": 0.16521666944026947,
+      "learning_rate": 0.001,
+      "loss": 2.9528,
+      "num_input_tokens_seen": 6186598400,
+      "step": 5900
+    },
+    {
+      "epoch": 0.13069795729526618,
+      "grad_norm": 0.12271756678819656,
+      "learning_rate": 0.001,
+      "loss": 2.9382,
+      "num_input_tokens_seen": 6239027200,
+      "step": 5950
+    },
+    {
+      "epoch": 0.13179625945741127,
+      "grad_norm": 0.1376461535692215,
+      "learning_rate": 0.001,
+      "loss": 2.9464,
+      "num_input_tokens_seen": 6291456000,
+      "step": 6000
+    },
+    {
+      "epoch": 0.13179625945741127,
+      "eval_loss": 2.84769606590271,
+      "eval_runtime": 65.8814,
+      "eval_samples_per_second": 75.894,
+      "eval_steps_per_second": 18.973,
+      "num_input_tokens_seen": 6291456000,
+      "step": 6000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 6291456000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.583030295789568e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null