Training in progress, step 45000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9605858ca8b64eb89cb8c33fd56e7ec671551b1e5005f2598e074ca5b397cafd
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3ffbf5a816a6aa824466bdde4390b737dfef3183acb26f39844f7b4017bf30d
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2584fadfe92de84830b6f68a11ff9f4508f42d733151a8e29faa8885164fa9e
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6b19fbbf1f84052b99affd1a4abf045aa0dc4dae5e3396c29093fc71d96182f
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c93fe38009a049e639e4ec9c47956d4822c559f5ecfd6d8454c217a91259ec7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2efdaece0c1a392cf0dde4c3fd595f174e50c13358c4a6e5301669f684c3b3b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5356afb30d3aa5783dfb45e83d3ec8fbfdbc01397770efc134aa996a2dcb7311
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4373b3ab47408a8ab65ab61c7aee7bfdf3c940344f36a198973da2bfc9da86a8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.20988110712284008,
   "eval_steps": 500,
-  "global_step": 44000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7840,11 +7840,189 @@
       "eval_steps_per_second": 24.302,
       "num_input_tokens_seen": 11534331456,
       "step": 44000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 11534331456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -7859,7 +8037,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.0855462395550106e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2146511322847228,
   "eval_steps": 500,
+  "global_step": 45000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 24.302,
       "num_input_tokens_seen": 11534331456,
       "step": 44000
+    },
+    {
+      "epoch": 0.21011960838093421,
+      "grad_norm": 0.19737008213996887,
+      "learning_rate": 0.001,
+      "loss": 2.6272,
+      "num_input_tokens_seen": 11547438656,
+      "step": 44050
+    },
+    {
+      "epoch": 0.21035810963902835,
+      "grad_norm": 0.1984977424144745,
+      "learning_rate": 0.001,
+      "loss": 2.6417,
+      "num_input_tokens_seen": 11560545856,
+      "step": 44100
+    },
+    {
+      "epoch": 0.21059661089712248,
+      "grad_norm": 0.19575904309749603,
+      "learning_rate": 0.001,
+      "loss": 2.6277,
+      "num_input_tokens_seen": 11573653056,
+      "step": 44150
+    },
+    {
+      "epoch": 0.2108351121552166,
+      "grad_norm": 0.19875651597976685,
+      "learning_rate": 0.001,
+      "loss": 2.6362,
+      "num_input_tokens_seen": 11586760256,
+      "step": 44200
+    },
+    {
+      "epoch": 0.21107361341331077,
+      "grad_norm": 0.20936185121536255,
+      "learning_rate": 0.001,
+      "loss": 2.6217,
+      "num_input_tokens_seen": 11599867456,
+      "step": 44250
+    },
+    {
+      "epoch": 0.2113121146714049,
+      "grad_norm": 0.19474463164806366,
+      "learning_rate": 0.001,
+      "loss": 2.6235,
+      "num_input_tokens_seen": 11612974656,
+      "step": 44300
+    },
+    {
+      "epoch": 0.21155061592949903,
+      "grad_norm": 0.20833207666873932,
+      "learning_rate": 0.001,
+      "loss": 2.6,
+      "num_input_tokens_seen": 11626081856,
+      "step": 44350
+    },
+    {
+      "epoch": 0.21178911718759316,
+      "grad_norm": 0.19269512593746185,
+      "learning_rate": 0.001,
+      "loss": 2.6211,
+      "num_input_tokens_seen": 11639189056,
+      "step": 44400
+    },
+    {
+      "epoch": 0.2120276184456873,
+      "grad_norm": 0.21018226444721222,
+      "learning_rate": 0.001,
+      "loss": 2.6294,
+      "num_input_tokens_seen": 11652296256,
+      "step": 44450
+    },
+    {
+      "epoch": 0.21226611970378143,
+      "grad_norm": 0.19836543500423431,
+      "learning_rate": 0.001,
+      "loss": 2.6051,
+      "num_input_tokens_seen": 11665403456,
+      "step": 44500
+    },
+    {
+      "epoch": 0.21226611970378143,
+      "eval_loss": 2.499817132949829,
+      "eval_runtime": 50.9003,
+      "eval_samples_per_second": 98.231,
+      "eval_steps_per_second": 24.558,
+      "num_input_tokens_seen": 11665403456,
+      "step": 44500
+    },
+    {
+      "epoch": 0.21250462096187558,
+      "grad_norm": 0.18411967158317566,
+      "learning_rate": 0.001,
+      "loss": 2.6228,
+      "num_input_tokens_seen": 11678510656,
+      "step": 44550
+    },
+    {
+      "epoch": 0.21274312221996972,
+      "grad_norm": 0.19387467205524445,
+      "learning_rate": 0.001,
+      "loss": 2.5902,
+      "num_input_tokens_seen": 11691617856,
+      "step": 44600
+    },
+    {
+      "epoch": 0.21298162347806385,
+      "grad_norm": 0.22076952457427979,
+      "learning_rate": 0.001,
+      "loss": 2.613,
+      "num_input_tokens_seen": 11704725056,
+      "step": 44650
+    },
+    {
+      "epoch": 0.21322012473615798,
+      "grad_norm": 0.33861082792282104,
+      "learning_rate": 0.001,
+      "loss": 2.6142,
+      "num_input_tokens_seen": 11717832256,
+      "step": 44700
+    },
+    {
+      "epoch": 0.2134586259942521,
+      "grad_norm": 0.20097902417182922,
+      "learning_rate": 0.001,
+      "loss": 2.6549,
+      "num_input_tokens_seen": 11730939456,
+      "step": 44750
+    },
+    {
+      "epoch": 0.21369712725234627,
+      "grad_norm": 0.24534635245800018,
+      "learning_rate": 0.001,
+      "loss": 2.6293,
+      "num_input_tokens_seen": 11744046656,
+      "step": 44800
+    },
+    {
+      "epoch": 0.2139356285104404,
+      "grad_norm": 0.2439020723104477,
+      "learning_rate": 0.001,
+      "loss": 2.635,
+      "num_input_tokens_seen": 11757153856,
+      "step": 44850
+    },
+    {
+      "epoch": 0.21417412976853453,
+      "grad_norm": 0.24259154498577118,
+      "learning_rate": 0.001,
+      "loss": 2.6232,
+      "num_input_tokens_seen": 11770261056,
+      "step": 44900
+    },
+    {
+      "epoch": 0.21441263102662866,
+      "grad_norm": 0.23554636538028717,
+      "learning_rate": 0.001,
+      "loss": 2.6061,
+      "num_input_tokens_seen": 11783368256,
+      "step": 44950
+    },
+    {
+      "epoch": 0.2146511322847228,
+      "grad_norm": 0.20377275347709656,
+      "learning_rate": 0.001,
+      "loss": 2.6156,
+      "num_input_tokens_seen": 11796475456,
+      "step": 45000
+    },
+    {
+      "epoch": 0.2146511322847228,
+      "eval_loss": 2.503781318664551,
+      "eval_runtime": 51.1656,
+      "eval_samples_per_second": 97.722,
+      "eval_steps_per_second": 24.43,
+      "num_input_tokens_seen": 11796475456,
+      "step": 45000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 11796475456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.1556723180804506e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null