Training in progress, step 131000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67a6c7abe32dd438fb09470397d8599e18c7c6f7d6e5ad7c2ea59aa52e0c0fc9
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:18f6247fa697227171786e92b63492b81203ba9ab620eea2a35269c2dc5abc91
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af9646577ee4ed03ad7c9691e7703d876a8256d338d3a2fb5035f6f80fe627b5
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:a79b728b1351b728e46db09ab4e3bda84220fcf605f8e84a1af65a7e98ccf401
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1315ef35a655eddf08abff5aa18ec6897fdbfeff08c3f5d07895fadd41b93070
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:13afedcbea29e4911157dfdebca89adaca3015ec55fbe8952619bfb77f49f98b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8acfe6d76758b902ab66b172fa1db8b08d2d4760abe1682738a74d50eadc0c50
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d530307a60624b67b44a38452390579f46394dc6c46c3e7e0b33446906fdcfb9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2402089271020904,
   "eval_steps": 500,
-  "global_step": 130000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -23148,11 +23148,189 @@
       "eval_steps_per_second": 15.045,
       "num_input_tokens_seen": 68146442176,
       "step": 130000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 68146442176,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -23167,7 +23345,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.206067727404671e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.249748977425856,
   "eval_steps": 500,
+  "global_step": 131000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.045,
       "num_input_tokens_seen": 68146442176,
       "step": 130000
+    },
+    {
+      "epoch": 1.2406859296182788,
+      "grad_norm": 0.12637196481227875,
+      "learning_rate": 0.00028053434571568983,
+      "loss": 2.0543,
+      "num_input_tokens_seen": 68172655040,
+      "step": 130050
+    },
+    {
+      "epoch": 1.241162932134467,
+      "grad_norm": 0.1351892203092575,
+      "learning_rate": 0.000278017467984759,
+      "loss": 2.0578,
+      "num_input_tokens_seen": 68198869440,
+      "step": 130100
+    },
+    {
+      "epoch": 1.2416399346506553,
+      "grad_norm": 0.12203965336084366,
+      "learning_rate": 0.00027550757645927764,
+      "loss": 2.0427,
+      "num_input_tokens_seen": 68225083840,
+      "step": 130150
+    },
+    {
+      "epoch": 1.2421169371668435,
+      "grad_norm": 0.13395994901657104,
+      "learning_rate": 0.00027300475013022663,
+      "loss": 2.0488,
+      "num_input_tokens_seen": 68251293952,
+      "step": 130200
+    },
+    {
+      "epoch": 1.242593939683032,
+      "grad_norm": 0.1291465014219284,
+      "learning_rate": 0.0002705090677662311,
+      "loss": 2.0484,
+      "num_input_tokens_seen": 68277498432,
+      "step": 130250
+    },
+    {
+      "epoch": 1.24307094219922,
+      "grad_norm": 0.12472834438085556,
+      "learning_rate": 0.000268020607911083,
+      "loss": 2.0538,
+      "num_input_tokens_seen": 68303709440,
+      "step": 130300
+    },
+    {
+      "epoch": 1.2435479447154083,
+      "grad_norm": 0.1263572871685028,
+      "learning_rate": 0.0002655394488812677,
+      "loss": 2.0487,
+      "num_input_tokens_seen": 68329920512,
+      "step": 130350
+    },
+    {
+      "epoch": 1.2440249472315967,
+      "grad_norm": 0.12614773213863373,
+      "learning_rate": 0.0002630656687635007,
+      "loss": 2.053,
+      "num_input_tokens_seen": 68356112384,
+      "step": 130400
+    },
+    {
+      "epoch": 1.244501949747785,
+      "grad_norm": 0.1241307333111763,
+      "learning_rate": 0.0002605993454122687,
+      "loss": 2.049,
+      "num_input_tokens_seen": 68382320896,
+      "step": 130450
+    },
+    {
+      "epoch": 1.2449789522639731,
+      "grad_norm": 0.12764516472816467,
+      "learning_rate": 0.0002581405564473801,
+      "loss": 2.0338,
+      "num_input_tokens_seen": 68408534464,
+      "step": 130500
+    },
+    {
+      "epoch": 1.2449789522639731,
+      "eval_loss": 1.9643968343734741,
+      "eval_runtime": 82.7385,
+      "eval_samples_per_second": 60.431,
+      "eval_steps_per_second": 15.108,
+      "num_input_tokens_seen": 68408534464,
+      "step": 130500
+    },
+    {
+      "epoch": 1.2454559547801614,
+      "grad_norm": 0.1308233141899109,
+      "learning_rate": 0.0002556893792515227,
+      "loss": 2.0371,
+      "num_input_tokens_seen": 68434747040,
+      "step": 130550
+    },
+    {
+      "epoch": 1.2459329572963498,
+      "grad_norm": 0.12745235860347748,
+      "learning_rate": 0.00025324589096782657,
+      "loss": 2.0373,
+      "num_input_tokens_seen": 68460951616,
+      "step": 130600
+    },
+    {
+      "epoch": 1.246409959812538,
+      "grad_norm": 0.1278812736272812,
+      "learning_rate": 0.0002508101684974387,
+      "loss": 2.0405,
+      "num_input_tokens_seen": 68487165696,
+      "step": 130650
+    },
+    {
+      "epoch": 1.2468869623287262,
+      "grad_norm": 0.12204719334840775,
+      "learning_rate": 0.00024838228849709997,
+      "loss": 2.0424,
+      "num_input_tokens_seen": 68513380096,
+      "step": 130700
+    },
+    {
+      "epoch": 1.2473639648449146,
+      "grad_norm": 0.11976956576108932,
+      "learning_rate": 0.0002459623273767354,
+      "loss": 2.0596,
+      "num_input_tokens_seen": 68539590240,
+      "step": 130750
+    },
+    {
+      "epoch": 1.2478409673611028,
+      "grad_norm": 0.13120809197425842,
+      "learning_rate": 0.000243550361297047,
+      "loss": 2.037,
+      "num_input_tokens_seen": 68565804640,
+      "step": 130800
+    },
+    {
+      "epoch": 1.248317969877291,
+      "grad_norm": 0.12905927002429962,
+      "learning_rate": 0.00024114646616711844,
+      "loss": 2.0341,
+      "num_input_tokens_seen": 68592007552,
+      "step": 130850
+    },
+    {
+      "epoch": 1.2487949723934793,
+      "grad_norm": 0.12697407603263855,
+      "learning_rate": 0.00023875071764202561,
+      "loss": 2.05,
+      "num_input_tokens_seen": 68618221952,
+      "step": 130900
+    },
+    {
+      "epoch": 1.2492719749096677,
+      "grad_norm": 0.12694934010505676,
+      "learning_rate": 0.00023636319112045495,
+      "loss": 2.0436,
+      "num_input_tokens_seen": 68644425984,
+      "step": 130950
+    },
+    {
+      "epoch": 1.249748977425856,
+      "grad_norm": 0.1360025703907013,
+      "learning_rate": 0.00023398396174233177,
+      "loss": 2.0506,
+      "num_input_tokens_seen": 68670633664,
+      "step": 131000
+    },
+    {
+      "epoch": 1.249748977425856,
+      "eval_loss": 1.962631106376648,
+      "eval_runtime": 82.4327,
+      "eval_samples_per_second": 60.656,
+      "eval_steps_per_second": 15.164,
+      "num_input_tokens_seen": 68670633664,
+      "step": 131000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 68670633664,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.2153449606169969e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null