Training in progress, step 69000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88085ee37b0edacc225a0fb86ed3cfd9ddce1ecb2e83ddb9feeeb81a70bb80bd
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c67ab3cac009a5afdc201af7f0117dd68a478413d54e0923fe125d5f63dd515
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b2f336afb5813ccf452282223e763afdce040692a315590bb908f2063975a3f
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:d01209ddef39b46affb20fe03502cb8000499194b31764df158aa95dc134101e
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb3d1fb9e8324a04c98053fb02a6fde8d1a865fd7ced6a674f76811c1bbb259f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1397d04798a1fd86f4b074ba5cc769a269eab9bb0994d2bcfee86faa58f609a6
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:215e906fb9e492afed15b6bbd2ab828199f0238620feca89e4e09f3e2ffc4109
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bba508cada3fb6a2130ffab8142880b38ad6264731466b5965eb74743d23afc9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4574019234423531,
   "eval_steps": 500,
-  "global_step": 68000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12112,11 +12112,189 @@
       "eval_steps_per_second": 23.197,
       "num_input_tokens_seen": 17825792000,
       "step": 68000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 17825792000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -12131,7 +12309,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.76857333972992e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4641284223165053,
   "eval_steps": 500,
+  "global_step": 69000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.197,
       "num_input_tokens_seen": 17825792000,
       "step": 68000
+    },
+    {
+      "epoch": 0.4577382483860607,
+      "grad_norm": 0.14517797529697418,
+      "learning_rate": 3.6204032372137984e-05,
+      "loss": 2.9674,
+      "num_input_tokens_seen": 17838899200,
+      "step": 68050
+    },
+    {
+      "epoch": 0.4580745733297683,
+      "grad_norm": 0.14154207706451416,
+      "learning_rate": 3.439253262059822e-05,
+      "loss": 2.9627,
+      "num_input_tokens_seen": 17852006400,
+      "step": 68100
+    },
+    {
+      "epoch": 0.4584108982734759,
+      "grad_norm": 0.14251314103603363,
+      "learning_rate": 3.2625909085853776e-05,
+      "loss": 2.9681,
+      "num_input_tokens_seen": 17865113600,
+      "step": 68150
+    },
+    {
+      "epoch": 0.45874722321718353,
+      "grad_norm": 0.15670983493328094,
+      "learning_rate": 3.0904332038757974e-05,
+      "loss": 2.9708,
+      "num_input_tokens_seen": 17878220800,
+      "step": 68200
+    },
+    {
+      "epoch": 0.45908354816089114,
+      "grad_norm": 0.1453925371170044,
+      "learning_rate": 2.9227967408489654e-05,
+      "loss": 2.9686,
+      "num_input_tokens_seen": 17891328000,
+      "step": 68250
+    },
+    {
+      "epoch": 0.45941987310459875,
+      "grad_norm": 0.13307476043701172,
+      "learning_rate": 2.7596976766560976e-05,
+      "loss": 2.9595,
+      "num_input_tokens_seen": 17904435200,
+      "step": 68300
+    },
+    {
+      "epoch": 0.45975619804830636,
+      "grad_norm": 0.14958307147026062,
+      "learning_rate": 2.6011517311244848e-05,
+      "loss": 2.9661,
+      "num_input_tokens_seen": 17917542400,
+      "step": 68350
+    },
+    {
+      "epoch": 0.460092522992014,
+      "grad_norm": 0.14210085570812225,
+      "learning_rate": 2.4471741852423235e-05,
+      "loss": 2.9737,
+      "num_input_tokens_seen": 17930649600,
+      "step": 68400
+    },
+    {
+      "epoch": 0.4604288479357216,
+      "grad_norm": 0.15127155184745789,
+      "learning_rate": 2.2977798796859794e-05,
+      "loss": 2.9627,
+      "num_input_tokens_seen": 17943756800,
+      "step": 68450
+    },
+    {
+      "epoch": 0.4607651728794292,
+      "grad_norm": 0.14184921979904175,
+      "learning_rate": 2.152983213389559e-05,
+      "loss": 2.9732,
+      "num_input_tokens_seen": 17956864000,
+      "step": 68500
+    },
+    {
+      "epoch": 0.4607651728794292,
+      "eval_loss": 2.865307331085205,
+      "eval_runtime": 53.2908,
+      "eval_samples_per_second": 93.825,
+      "eval_steps_per_second": 23.456,
+      "num_input_tokens_seen": 17956864000,
+      "step": 68500
+    },
+    {
+      "epoch": 0.4611014978231368,
+      "grad_norm": 0.14755961298942566,
+      "learning_rate": 2.0127981421571295e-05,
+      "loss": 2.9687,
+      "num_input_tokens_seen": 17969971200,
+      "step": 68550
+    },
+    {
+      "epoch": 0.4614378227668444,
+      "grad_norm": 0.1370965540409088,
+      "learning_rate": 1.8772381773176416e-05,
+      "loss": 2.9711,
+      "num_input_tokens_seen": 17983078400,
+      "step": 68600
+    },
+    {
+      "epoch": 0.46177414771055203,
+      "grad_norm": 0.14454130828380585,
+      "learning_rate": 1.7463163844226305e-05,
+      "loss": 2.9633,
+      "num_input_tokens_seen": 17996185600,
+      "step": 68650
+    },
+    {
+      "epoch": 0.46211047265425964,
+      "grad_norm": 0.13908445835113525,
+      "learning_rate": 1.620045381987012e-05,
+      "loss": 2.9662,
+      "num_input_tokens_seen": 18009292800,
+      "step": 68700
+    },
+    {
+      "epoch": 0.46244679759796725,
+      "grad_norm": 0.2359876185655594,
+      "learning_rate": 1.4984373402728013e-05,
+      "loss": 2.9671,
+      "num_input_tokens_seen": 18022400000,
+      "step": 68750
+    },
+    {
+      "epoch": 0.46278312254167486,
+      "grad_norm": 0.13809122145175934,
+      "learning_rate": 1.3815039801161721e-05,
+      "loss": 2.9684,
+      "num_input_tokens_seen": 18035507200,
+      "step": 68800
+    },
+    {
+      "epoch": 0.4631194474853825,
+      "grad_norm": 0.14375115931034088,
+      "learning_rate": 1.26925657179775e-05,
+      "loss": 2.9677,
+      "num_input_tokens_seen": 18048614400,
+      "step": 68850
+    },
+    {
+      "epoch": 0.4634557724290901,
+      "grad_norm": 0.14648525416851044,
+      "learning_rate": 1.1617059339563806e-05,
+      "loss": 2.9625,
+      "num_input_tokens_seen": 18061721600,
+      "step": 68900
+    },
+    {
+      "epoch": 0.4637920973727977,
+      "grad_norm": 0.1428016871213913,
+      "learning_rate": 1.058862432546387e-05,
+      "loss": 2.9717,
+      "num_input_tokens_seen": 18074828800,
+      "step": 68950
+    },
+    {
+      "epoch": 0.4641284223165053,
+      "grad_norm": 0.14518927037715912,
+      "learning_rate": 9.607359798384786e-06,
+      "loss": 2.9622,
+      "num_input_tokens_seen": 18087936000,
+      "step": 69000
+    },
+    {
+      "epoch": 0.4641284223165053,
+      "eval_loss": 2.8647797107696533,
+      "eval_runtime": 53.1259,
+      "eval_samples_per_second": 94.116,
+      "eval_steps_per_second": 23.529,
+      "num_input_tokens_seen": 18087936000,
+      "step": 69000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 18087936000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.83869941825536e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null