Training in progress, step 127000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:710baf14c92f1a6ab3eef32ca39e73342de5da970d1c32a072279db6a546bd6e
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9d1695bc9de636b5aaeaf2dd7d5f58cbc5a682eb69ac9b38095e92d54ec5937
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3dde6003afedc6dd2fd3bca69826bc4c2467f2fe522f76deae105d064b39f61f
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:4dc4491cbd42db47871ad0a656d153441e2ea2d0c5e68c9fdfe29f91fdedede3
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90e596b43a0993defe8386429a74c73648ebeab624d8851d1dff893410d726b8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8542f0951d699465323349728bdecbda5c5f0e8274e699cbba04806de2fddeeb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5773cfed09936b668e41d5a19336896fe4fe897bf551564d5056fa5a83c98331
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:27a3a16e476801029c30325a569467f804e448c3ecc89accd2bd78b3749ec27f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2020487258070287,
   "eval_steps": 500,
-  "global_step": 126000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -22436,11 +22436,189 @@
       "eval_steps_per_second": 15.278,
       "num_input_tokens_seen": 66049692768,
       "step": 126000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 66049692768,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -22455,7 +22633,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1689590873539912e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2115887761307942,
   "eval_steps": 500,
+  "global_step": 127000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.278,
       "num_input_tokens_seen": 66049692768,
       "step": 126000
+    },
+    {
+      "epoch": 1.202525728323217,
+      "grad_norm": 0.1393454372882843,
+      "learning_rate": 0.0004971950212723752,
+      "loss": 2.0569,
+      "num_input_tokens_seen": 66075907072,
+      "step": 126050
+    },
+    {
+      "epoch": 1.2030027308394051,
+      "grad_norm": 0.1390795111656189,
+      "learning_rate": 0.0004943901308226771,
+      "loss": 2.0579,
+      "num_input_tokens_seen": 66102120320,
+      "step": 126100
+    },
+    {
+      "epoch": 1.2034797333555933,
+      "grad_norm": 0.136804461479187,
+      "learning_rate": 0.0004915854169260539,
+      "loss": 2.0594,
+      "num_input_tokens_seen": 66128330880,
+      "step": 126150
+    },
+    {
+      "epoch": 1.2039567358717818,
+      "grad_norm": 0.14418946206569672,
+      "learning_rate": 0.0004887809678520976,
+      "loss": 2.0521,
+      "num_input_tokens_seen": 66154537216,
+      "step": 126200
+    },
+    {
+      "epoch": 1.20443373838797,
+      "grad_norm": 0.1406649798154831,
+      "learning_rate": 0.00048597687186206556,
+      "loss": 2.0604,
+      "num_input_tokens_seen": 66180744192,
+      "step": 126250
+    },
+    {
+      "epoch": 1.2049107409041582,
+      "grad_norm": 0.13004782795906067,
+      "learning_rate": 0.0004831732172061032,
+      "loss": 2.0633,
+      "num_input_tokens_seen": 66206951232,
+      "step": 126300
+    },
+    {
+      "epoch": 1.2053877434203466,
+      "grad_norm": 0.1319655478000641,
+      "learning_rate": 0.00048037009212046586,
+      "loss": 2.0609,
+      "num_input_tokens_seen": 66233151744,
+      "step": 126350
+    },
+    {
+      "epoch": 1.2058647459365348,
+      "grad_norm": 0.13051386177539825,
+      "learning_rate": 0.0004775675848247427,
+      "loss": 2.0591,
+      "num_input_tokens_seen": 66259358592,
+      "step": 126400
+    },
+    {
+      "epoch": 1.206341748452723,
+      "grad_norm": 0.12983474135398865,
+      "learning_rate": 0.0004747657835190795,
+      "loss": 2.0571,
+      "num_input_tokens_seen": 66285559520,
+      "step": 126450
+    },
+    {
+      "epoch": 1.2068187509689114,
+      "grad_norm": 0.12744031846523285,
+      "learning_rate": 0.00047196477638140405,
+      "loss": 2.0581,
+      "num_input_tokens_seen": 66311770112,
+      "step": 126500
+    },
+    {
+      "epoch": 1.2068187509689114,
+      "eval_loss": 1.9767038822174072,
+      "eval_runtime": 82.0094,
+      "eval_samples_per_second": 60.969,
+      "eval_steps_per_second": 15.242,
+      "num_input_tokens_seen": 66311770112,
+      "step": 126500
+    },
+    {
+      "epoch": 1.2072957534850997,
+      "grad_norm": 0.13606679439544678,
+      "learning_rate": 0.00046916465156464924,
+      "loss": 2.062,
+      "num_input_tokens_seen": 66337979200,
+      "step": 126550
+    },
+    {
+      "epoch": 1.2077727560012879,
+      "grad_norm": 0.12876896560192108,
+      "learning_rate": 0.0004663654971939802,
+      "loss": 2.0627,
+      "num_input_tokens_seen": 66364192640,
+      "step": 126600
+    },
+    {
+      "epoch": 1.2082497585174763,
+      "grad_norm": 0.18826884031295776,
+      "learning_rate": 0.00046356740136402,
+      "loss": 2.0573,
+      "num_input_tokens_seen": 66390404768,
+      "step": 126650
+    },
+    {
+      "epoch": 1.2087267610336645,
+      "grad_norm": 0.1488431692123413,
+      "learning_rate": 0.0004607704521360776,
+      "loss": 2.0592,
+      "num_input_tokens_seen": 66416613920,
+      "step": 126700
+    },
+    {
+      "epoch": 1.2092037635498527,
+      "grad_norm": 0.12901978194713593,
+      "learning_rate": 0.0004579747375353763,
+      "loss": 2.0601,
+      "num_input_tokens_seen": 66442820800,
+      "step": 126750
+    },
+    {
+      "epoch": 1.209680766066041,
+      "grad_norm": 0.13032038509845734,
+      "learning_rate": 0.0004551803455482833,
+      "loss": 2.0675,
+      "num_input_tokens_seen": 66469028480,
+      "step": 126800
+    },
+    {
+      "epoch": 1.2101577685822293,
+      "grad_norm": 0.13756315410137177,
+      "learning_rate": 0.00045238736411954073,
+      "loss": 2.0543,
+      "num_input_tokens_seen": 66495230816,
+      "step": 126850
+    },
+    {
+      "epoch": 1.2106347710984176,
+      "grad_norm": 0.13066066801548004,
+      "learning_rate": 0.0004495958811494978,
+      "loss": 2.0545,
+      "num_input_tokens_seen": 66521443360,
+      "step": 126900
+    },
+    {
+      "epoch": 1.2111117736146058,
+      "grad_norm": 0.13837099075317383,
+      "learning_rate": 0.00044680598449134434,
+      "loss": 2.0557,
+      "num_input_tokens_seen": 66547651488,
+      "step": 126950
+    },
+    {
+      "epoch": 1.2115887761307942,
+      "grad_norm": 0.13125094771385193,
+      "learning_rate": 0.0004440177619483461,
+      "loss": 2.0633,
+      "num_input_tokens_seen": 66573856704,
+      "step": 127000
+    },
+    {
+      "epoch": 1.2115887761307942,
+      "eval_loss": 1.9741461277008057,
+      "eval_runtime": 82.3333,
+      "eval_samples_per_second": 60.729,
+      "eval_steps_per_second": 15.182,
+      "num_input_tokens_seen": 66573856704,
+      "step": 127000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 66573856704,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.1782358329461719e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null