Training in progress, step 130000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:857ead76dd55a0ff132114f3566b2633c2c5cdde85ae73d0787d641584b91007
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:67a6c7abe32dd438fb09470397d8599e18c7c6f7d6e5ad7c2ea59aa52e0c0fc9
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d51187329bb716afa734f026372750945e338e23b7c661997a4d4207a6fd698
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:af9646577ee4ed03ad7c9691e7703d876a8256d338d3a2fb5035f6f80fe627b5
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01c311980c8b0da96dd9e638e23b1e84aa50fb6a11433bc22a347279b706965b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1315ef35a655eddf08abff5aa18ec6897fdbfeff08c3f5d07895fadd41b93070
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60a157573f4024c9cf3f191281f1d04ef870f25b0126e228157b25abffaa2ebf
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8acfe6d76758b902ab66b172fa1db8b08d2d4760abe1682738a74d50eadc0c50
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.230668876778325,
   "eval_steps": 500,
-  "global_step": 129000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -22970,11 +22970,189 @@
       "eval_steps_per_second": 15.182,
       "num_input_tokens_seen": 67622231264,
       "step": 129000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 67622231264,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -22989,7 +23167,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1967901504229745e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2402089271020904,
   "eval_steps": 500,
+  "global_step": 130000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.182,
       "num_input_tokens_seen": 67622231264,
       "step": 129000
+    },
+    {
+      "epoch": 1.2311458792945134,
+      "grad_norm": 0.13078469038009644,
+      "learning_rate": 0.00033221549498448967,
+      "loss": 2.0474,
+      "num_input_tokens_seen": 67648445664,
+      "step": 129050
+    },
+    {
+      "epoch": 1.2316228818107016,
+      "grad_norm": 0.1259986162185669,
+      "learning_rate": 0.0003295758014387375,
+      "loss": 2.0605,
+      "num_input_tokens_seen": 67674654432,
+      "step": 129100
+    },
+    {
+      "epoch": 1.2320998843268898,
+      "grad_norm": 0.13479039072990417,
+      "learning_rate": 0.0003269414714612534,
+      "loss": 2.0499,
+      "num_input_tokens_seen": 67700854208,
+      "step": 129150
+    },
+    {
+      "epoch": 1.232576886843078,
+      "grad_norm": 0.12382933497428894,
+      "learning_rate": 0.0003243125879593286,
+      "loss": 2.0403,
+      "num_input_tokens_seen": 67727067232,
+      "step": 129200
+    },
+    {
+      "epoch": 1.2330538893592664,
+      "grad_norm": 0.13765262067317963,
+      "learning_rate": 0.0003216892336688435,
+      "loss": 2.05,
+      "num_input_tokens_seen": 67753274144,
+      "step": 129250
+    },
+    {
+      "epoch": 1.2335308918754546,
+      "grad_norm": 0.13626757264137268,
+      "learning_rate": 0.000319071491151664,
+      "loss": 2.0533,
+      "num_input_tokens_seen": 67779485312,
+      "step": 129300
+    },
+    {
+      "epoch": 1.2340078943916428,
+      "grad_norm": 0.13541923463344574,
+      "learning_rate": 0.00031645944279304295,
+      "loss": 2.0502,
+      "num_input_tokens_seen": 67805697216,
+      "step": 129350
+    },
+    {
+      "epoch": 1.2344848969078313,
+      "grad_norm": 0.12669889628887177,
+      "learning_rate": 0.00031385317079902743,
+      "loss": 2.0434,
+      "num_input_tokens_seen": 67831908160,
+      "step": 129400
+    },
+    {
+      "epoch": 1.2349618994240195,
+      "grad_norm": 0.12400075793266296,
+      "learning_rate": 0.0003112527571938717,
+      "loss": 2.0556,
+      "num_input_tokens_seen": 67858116736,
+      "step": 129450
+    },
+    {
+      "epoch": 1.2354389019402077,
+      "grad_norm": 0.13263045251369476,
+      "learning_rate": 0.0003086582838174551,
+      "loss": 2.0405,
+      "num_input_tokens_seen": 67884327168,
+      "step": 129500
+    },
+    {
+      "epoch": 1.2354389019402077,
+      "eval_loss": 1.966764211654663,
+      "eval_runtime": 82.4836,
+      "eval_samples_per_second": 60.618,
+      "eval_steps_per_second": 15.155,
+      "num_input_tokens_seen": 67884327168,
+      "step": 129500
+    },
+    {
+      "epoch": 1.235915904456396,
+      "grad_norm": 0.12067709863185883,
+      "learning_rate": 0.00030606983232270746,
+      "loss": 2.0511,
+      "num_input_tokens_seen": 67910538880,
+      "step": 129550
+    },
+    {
+      "epoch": 1.2363929069725843,
+      "grad_norm": 0.13021409511566162,
+      "learning_rate": 0.0003034874841730382,
+      "loss": 2.0525,
+      "num_input_tokens_seen": 67936753280,
+      "step": 129600
+    },
+    {
+      "epoch": 1.2368699094887725,
+      "grad_norm": 0.12661676108837128,
+      "learning_rate": 0.0003009113206397734,
+      "loss": 2.0575,
+      "num_input_tokens_seen": 67962958784,
+      "step": 129650
+    },
+    {
+      "epoch": 1.237346912004961,
+      "grad_norm": 0.12730489671230316,
+      "learning_rate": 0.0002983414227995975,
+      "loss": 2.0552,
+      "num_input_tokens_seen": 67989169536,
+      "step": 129700
+    },
+    {
+      "epoch": 1.2378239145211491,
+      "grad_norm": 0.12583428621292114,
+      "learning_rate": 0.000295777871532002,
+      "loss": 2.0413,
+      "num_input_tokens_seen": 68015382560,
+      "step": 129750
+    },
+    {
+      "epoch": 1.2383009170373374,
+      "grad_norm": 0.12833881378173828,
+      "learning_rate": 0.00029322074751673977,
+      "loss": 2.0456,
+      "num_input_tokens_seen": 68041596960,
+      "step": 129800
+    },
+    {
+      "epoch": 1.2387779195535256,
+      "grad_norm": 0.1263890564441681,
+      "learning_rate": 0.0002906701312312861,
+      "loss": 2.0506,
+      "num_input_tokens_seen": 68067805312,
+      "step": 129850
+    },
+    {
+      "epoch": 1.239254922069714,
+      "grad_norm": 0.1265845000743866,
+      "learning_rate": 0.0002881261029483057,
+      "loss": 2.0376,
+      "num_input_tokens_seen": 68094019712,
+      "step": 129900
+    },
+    {
+      "epoch": 1.2397319245859022,
+      "grad_norm": 0.1379150003194809,
+      "learning_rate": 0.0002855887427331267,
+      "loss": 2.0482,
+      "num_input_tokens_seen": 68120232192,
+      "step": 129950
+    },
+    {
+      "epoch": 1.2402089271020904,
+      "grad_norm": 0.12455019354820251,
+      "learning_rate": 0.00028305813044122096,
+      "loss": 2.038,
+      "num_input_tokens_seen": 68146442176,
+      "step": 130000
+    },
+    {
+      "epoch": 1.2402089271020904,
+      "eval_loss": 1.965224266052246,
+      "eval_runtime": 83.0846,
+      "eval_samples_per_second": 60.18,
+      "eval_steps_per_second": 15.045,
+      "num_input_tokens_seen": 68146442176,
+      "step": 130000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 68146442176,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.206067727404671e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null