Training in progress, step 20000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50692c69fe3ea90614dc625956890e6dd059a4900ffb733cb441c9d9b0be1ed6
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0634cd3b48faa896331e649d644ee85a0e0af72246ab7393a66a3c2518bb02e
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f34ad85e7a64410399bc0984c1c1c25765a6659574c5d382b0c132a27be2f0f8
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:611dbdaa20f4f869458e449fe2e70d417e2df56bd8ff59602f5187369567bda1
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09184de0af072dcf6f15e331e61deb81a6900d407b5c7ebcb519d56082f36e97
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd42aefaf8cffc05ebd908742fc863dc5486d9c9296568766959af6a5b7610ad
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02c3d80aaacee80212417a329afbc88c74b35bad8004900a2301b44b629b4ab7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6662ae68d38995d5846f13e724946a2acb1395046b7d08977dde3dab733945c0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4173548216151357,
   "eval_steps": 500,
-  "global_step": 19000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3390,11 +3390,189 @@
       "eval_steps_per_second": 19.01,
       "num_input_tokens_seen": 19922944000,
       "step": 19000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 19922944000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -3409,7 +3587,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1346262603333632e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.43932086485803756,
   "eval_steps": 500,
+  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 19.01,
       "num_input_tokens_seen": 19922944000,
       "step": 19000
+    },
+    {
+      "epoch": 0.4184531237772808,
+      "grad_norm": 0.12389284372329712,
+      "learning_rate": 0.001,
+      "loss": 2.7222,
+      "num_input_tokens_seen": 19975372800,
+      "step": 19050
+    },
+    {
+      "epoch": 0.4195514259394259,
+      "grad_norm": 0.14157339930534363,
+      "learning_rate": 0.001,
+      "loss": 2.7178,
+      "num_input_tokens_seen": 20027801600,
+      "step": 19100
+    },
+    {
+      "epoch": 0.420649728101571,
+      "grad_norm": 0.1490466445684433,
+      "learning_rate": 0.001,
+      "loss": 2.7185,
+      "num_input_tokens_seen": 20080230400,
+      "step": 19150
+    },
+    {
+      "epoch": 0.4217480302637161,
+      "grad_norm": 0.14112494885921478,
+      "learning_rate": 0.001,
+      "loss": 2.7166,
+      "num_input_tokens_seen": 20132659200,
+      "step": 19200
+    },
+    {
+      "epoch": 0.42284633242586117,
+      "grad_norm": 0.13986504077911377,
+      "learning_rate": 0.001,
+      "loss": 2.7201,
+      "num_input_tokens_seen": 20185088000,
+      "step": 19250
+    },
+    {
+      "epoch": 0.42394463458800624,
+      "grad_norm": 0.14087803661823273,
+      "learning_rate": 0.001,
+      "loss": 2.7175,
+      "num_input_tokens_seen": 20237516800,
+      "step": 19300
+    },
+    {
+      "epoch": 0.42504293675015137,
+      "grad_norm": 0.165438711643219,
+      "learning_rate": 0.001,
+      "loss": 2.7155,
+      "num_input_tokens_seen": 20289945600,
+      "step": 19350
+    },
+    {
+      "epoch": 0.42614123891229644,
+      "grad_norm": 0.132109135389328,
+      "learning_rate": 0.001,
+      "loss": 2.7116,
+      "num_input_tokens_seen": 20342374400,
+      "step": 19400
+    },
+    {
+      "epoch": 0.42723954107444156,
+      "grad_norm": 0.1372772753238678,
+      "learning_rate": 0.001,
+      "loss": 2.7137,
+      "num_input_tokens_seen": 20394803200,
+      "step": 19450
+    },
+    {
+      "epoch": 0.42833784323658664,
+      "grad_norm": 0.1470147669315338,
+      "learning_rate": 0.001,
+      "loss": 2.7081,
+      "num_input_tokens_seen": 20447232000,
+      "step": 19500
+    },
+    {
+      "epoch": 0.42833784323658664,
+      "eval_loss": 2.615947961807251,
+      "eval_runtime": 65.588,
+      "eval_samples_per_second": 76.233,
+      "eval_steps_per_second": 19.058,
+      "num_input_tokens_seen": 20447232000,
+      "step": 19500
+    },
+    {
+      "epoch": 0.42943614539873176,
+      "grad_norm": 0.15671676397323608,
+      "learning_rate": 0.001,
+      "loss": 2.7176,
+      "num_input_tokens_seen": 20499660800,
+      "step": 19550
+    },
+    {
+      "epoch": 0.43053444756087683,
+      "grad_norm": 0.13104794919490814,
+      "learning_rate": 0.001,
+      "loss": 2.7108,
+      "num_input_tokens_seen": 20552089600,
+      "step": 19600
+    },
+    {
+      "epoch": 0.4316327497230219,
+      "grad_norm": 0.14532406628131866,
+      "learning_rate": 0.001,
+      "loss": 2.7087,
+      "num_input_tokens_seen": 20604518400,
+      "step": 19650
+    },
+    {
+      "epoch": 0.43273105188516703,
+      "grad_norm": 0.16199354827404022,
+      "learning_rate": 0.001,
+      "loss": 2.7178,
+      "num_input_tokens_seen": 20656947200,
+      "step": 19700
+    },
+    {
+      "epoch": 0.4338293540473121,
+      "grad_norm": 0.13537316024303436,
+      "learning_rate": 0.001,
+      "loss": 2.7124,
+      "num_input_tokens_seen": 20709376000,
+      "step": 19750
+    },
+    {
+      "epoch": 0.4349276562094572,
+      "grad_norm": 0.15098537504673004,
+      "learning_rate": 0.001,
+      "loss": 2.7119,
+      "num_input_tokens_seen": 20761804800,
+      "step": 19800
+    },
+    {
+      "epoch": 0.4360259583716023,
+      "grad_norm": 0.21563659608364105,
+      "learning_rate": 0.001,
+      "loss": 2.7118,
+      "num_input_tokens_seen": 20814233600,
+      "step": 19850
+    },
+    {
+      "epoch": 0.43712426053374737,
+      "grad_norm": 0.15981121361255646,
+      "learning_rate": 0.001,
+      "loss": 2.7043,
+      "num_input_tokens_seen": 20866662400,
+      "step": 19900
+    },
+    {
+      "epoch": 0.4382225626958925,
+      "grad_norm": 0.15192069113254547,
+      "learning_rate": 0.001,
+      "loss": 2.7137,
+      "num_input_tokens_seen": 20919091200,
+      "step": 19950
+    },
+    {
+      "epoch": 0.43932086485803756,
+      "grad_norm": 0.14211437106132507,
+      "learning_rate": 0.001,
+      "loss": 2.7128,
+      "num_input_tokens_seen": 20971520000,
+      "step": 20000
+    },
+    {
+      "epoch": 0.43932086485803756,
+      "eval_loss": 2.611689567565918,
+      "eval_runtime": 66.3456,
+      "eval_samples_per_second": 75.363,
+      "eval_steps_per_second": 18.841,
+      "num_input_tokens_seen": 20971520000,
+      "step": 20000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 20971520000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.194343431929856e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null