Training in progress, step 7000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f12e4b4cd151eaa16ec86c3f95ae395991c7622f58c2e7d2e74c474e3b36e760
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:96bc77814a9f0609f35da88bd498f09fe67c0ec6e846f95d060a6c4b10a82b17
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37d9c729674e95fb1e29d44967d84df6c7f3c27e76670f3f7d480a455ded0987
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:124d39c4cbb90f633e078a9fc2ec3d64bd1a263157af6537f15cbfbe1041beb8
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f55de071972b9763cbcf2a8de91813bfc16f9cfb1e09299e92ce7c238a6f40c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f709c9b1d30b7448b89cdbd3384985d3e5e1529a919cf635b9e29a00476e9e36
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fae5b4037609f8d0983c46601237411cdbc2481ef3d858df1d7dd4ab2f6d6072
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7cc38559b8af23697273496301060a7de66bceefb1f96fb5cbe737d317e8e471
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.13179625945741127,
   "eval_steps": 500,
-  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1076,11 +1076,189 @@
       "eval_steps_per_second": 18.973,
       "num_input_tokens_seen": 6291456000,
       "step": 6000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 6291456000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -1095,7 +1273,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.583030295789568e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.15376230270031316,
   "eval_steps": 500,
+  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.973,
       "num_input_tokens_seen": 6291456000,
       "step": 6000
+    },
+    {
+      "epoch": 0.13289456161955637,
+      "grad_norm": 0.11629872024059296,
+      "learning_rate": 0.001,
+      "loss": 2.9406,
+      "num_input_tokens_seen": 6343884800,
+      "step": 6050
+    },
+    {
+      "epoch": 0.13399286378170147,
+      "grad_norm": 0.13740529119968414,
+      "learning_rate": 0.001,
+      "loss": 2.9343,
+      "num_input_tokens_seen": 6396313600,
+      "step": 6100
+    },
+    {
+      "epoch": 0.13509116594384657,
+      "grad_norm": 0.11548039317131042,
+      "learning_rate": 0.001,
+      "loss": 2.9374,
+      "num_input_tokens_seen": 6448742400,
+      "step": 6150
+    },
+    {
+      "epoch": 0.13618946810599164,
+      "grad_norm": 0.11710146814584732,
+      "learning_rate": 0.001,
+      "loss": 2.9376,
+      "num_input_tokens_seen": 6501171200,
+      "step": 6200
+    },
+    {
+      "epoch": 0.13728777026813674,
+      "grad_norm": 0.11223472654819489,
+      "learning_rate": 0.001,
+      "loss": 2.9284,
+      "num_input_tokens_seen": 6553600000,
+      "step": 6250
+    },
+    {
+      "epoch": 0.13838607243028184,
+      "grad_norm": 0.12880656123161316,
+      "learning_rate": 0.001,
+      "loss": 2.9303,
+      "num_input_tokens_seen": 6606028800,
+      "step": 6300
+    },
+    {
+      "epoch": 0.13948437459242694,
+      "grad_norm": 0.11898139119148254,
+      "learning_rate": 0.001,
+      "loss": 2.9246,
+      "num_input_tokens_seen": 6658457600,
+      "step": 6350
+    },
+    {
+      "epoch": 0.14058267675457203,
+      "grad_norm": 0.11154898256063461,
+      "learning_rate": 0.001,
+      "loss": 2.9254,
+      "num_input_tokens_seen": 6710886400,
+      "step": 6400
+    },
+    {
+      "epoch": 0.14168097891671713,
+      "grad_norm": 0.12669232487678528,
+      "learning_rate": 0.001,
+      "loss": 2.9162,
+      "num_input_tokens_seen": 6763315200,
+      "step": 6450
+    },
+    {
+      "epoch": 0.1427792810788622,
+      "grad_norm": 0.12259842455387115,
+      "learning_rate": 0.001,
+      "loss": 2.9179,
+      "num_input_tokens_seen": 6815744000,
+      "step": 6500
+    },
+    {
+      "epoch": 0.1427792810788622,
+      "eval_loss": 2.8220207691192627,
+      "eval_runtime": 65.2868,
+      "eval_samples_per_second": 76.585,
+      "eval_steps_per_second": 19.146,
+      "num_input_tokens_seen": 6815744000,
+      "step": 6500
+    },
+    {
+      "epoch": 0.1438775832410073,
+      "grad_norm": 0.13403092324733734,
+      "learning_rate": 0.001,
+      "loss": 2.9102,
+      "num_input_tokens_seen": 6868172800,
+      "step": 6550
+    },
+    {
+      "epoch": 0.1449758854031524,
+      "grad_norm": 0.13063696026802063,
+      "learning_rate": 0.001,
+      "loss": 2.9112,
+      "num_input_tokens_seen": 6920601600,
+      "step": 6600
+    },
+    {
+      "epoch": 0.1460741875652975,
+      "grad_norm": 0.11871635168790817,
+      "learning_rate": 0.001,
+      "loss": 2.9085,
+      "num_input_tokens_seen": 6973030400,
+      "step": 6650
+    },
+    {
+      "epoch": 0.1471724897274426,
+      "grad_norm": 0.11007633060216904,
+      "learning_rate": 0.001,
+      "loss": 2.9098,
+      "num_input_tokens_seen": 7025459200,
+      "step": 6700
+    },
+    {
+      "epoch": 0.1482707918895877,
+      "grad_norm": 0.10521857440471649,
+      "learning_rate": 0.001,
+      "loss": 2.9086,
+      "num_input_tokens_seen": 7077888000,
+      "step": 6750
+    },
+    {
+      "epoch": 0.14936909405173276,
+      "grad_norm": 0.11179310083389282,
+      "learning_rate": 0.001,
+      "loss": 2.9066,
+      "num_input_tokens_seen": 7130316800,
+      "step": 6800
+    },
+    {
+      "epoch": 0.15046739621387786,
+      "grad_norm": 0.1192353144288063,
+      "learning_rate": 0.001,
+      "loss": 2.9135,
+      "num_input_tokens_seen": 7182745600,
+      "step": 6850
+    },
+    {
+      "epoch": 0.15156569837602296,
+      "grad_norm": 0.11084350198507309,
+      "learning_rate": 0.001,
+      "loss": 2.9054,
+      "num_input_tokens_seen": 7235174400,
+      "step": 6900
+    },
+    {
+      "epoch": 0.15266400053816806,
+      "grad_norm": 0.11826325207948685,
+      "learning_rate": 0.001,
+      "loss": 2.9054,
+      "num_input_tokens_seen": 7287603200,
+      "step": 6950
+    },
+    {
+      "epoch": 0.15376230270031316,
+      "grad_norm": 0.12597590684890747,
+      "learning_rate": 0.001,
+      "loss": 2.8945,
+      "num_input_tokens_seen": 7340032000,
+      "step": 7000
+    },
+    {
+      "epoch": 0.15376230270031316,
+      "eval_loss": 2.802734851837158,
+      "eval_runtime": 65.3332,
+      "eval_samples_per_second": 76.531,
+      "eval_steps_per_second": 19.133,
+      "num_input_tokens_seen": 7340032000,
+      "step": 7000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 7340032000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.180202011754496e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null