Training in progress, step 4000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f81f1606cbb4066658322a9b01b024ebe1fe01d7f9c79d6a2b4af556fe6aa975
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:a313d509db7def5f49214f9d05b89c42300ce0ca3fd0d7a1b4c56154cf0a72db
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2bdc54e623a858f4b04c457346b0f903dc827e2ac006197959be017f0bd1f45
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ad0ef37ec0c5bff68abf0acafb2e524cd857e55490e94ef61cc44d1f7b08679
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11ff07d587c5a9307740887f980afedff8f43c8da2bd4cbf45f5f3cf546cf38d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b2c7bb39719c8f039a2a4dd5473921c41a834e3390491b2b93e9a2772ee802f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a3d374142fb5a9a375b1a828a38137498daacdc810ac93109a9de1e8639e3a1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bff7808903acfc88c8f83b83043a92f900db8f72ffc7d87d61c8ee1abceef7bc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.06589812972870564,
   "eval_steps": 500,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -542,11 +542,189 @@
       "eval_steps_per_second": 18.952,
       "num_input_tokens_seen": 3145728000,
       "step": 3000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 3145728000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -561,7 +739,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.791515147894784e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.08786417297160752,
   "eval_steps": 500,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.952,
       "num_input_tokens_seen": 3145728000,
       "step": 3000
+    },
+    {
+      "epoch": 0.06699643189085074,
+      "grad_norm": 0.21884848177433014,
+      "learning_rate": 0.00061,
+      "loss": 3.2437,
+      "num_input_tokens_seen": 3198156800,
+      "step": 3050
+    },
+    {
+      "epoch": 0.06809473405299582,
+      "grad_norm": 0.2534893751144409,
+      "learning_rate": 0.00062,
+      "loss": 3.2366,
+      "num_input_tokens_seen": 3250585600,
+      "step": 3100
+    },
+    {
+      "epoch": 0.06919303621514092,
+      "grad_norm": 0.2408875823020935,
+      "learning_rate": 0.00063,
+      "loss": 3.2264,
+      "num_input_tokens_seen": 3303014400,
+      "step": 3150
+    },
+    {
+      "epoch": 0.07029133837728602,
+      "grad_norm": 0.22240856289863586,
+      "learning_rate": 0.00064,
+      "loss": 3.2102,
+      "num_input_tokens_seen": 3355443200,
+      "step": 3200
+    },
+    {
+      "epoch": 0.0713896405394311,
+      "grad_norm": 0.21527299284934998,
+      "learning_rate": 0.0006500000000000001,
+      "loss": 3.1985,
+      "num_input_tokens_seen": 3407872000,
+      "step": 3250
+    },
+    {
+      "epoch": 0.0724879427015762,
+      "grad_norm": 0.26642242074012756,
+      "learning_rate": 0.00066,
+      "loss": 3.1923,
+      "num_input_tokens_seen": 3460300800,
+      "step": 3300
+    },
+    {
+      "epoch": 0.0735862448637213,
+      "grad_norm": 0.22164040803909302,
+      "learning_rate": 0.00067,
+      "loss": 3.1848,
+      "num_input_tokens_seen": 3512729600,
+      "step": 3350
+    },
+    {
+      "epoch": 0.07468454702586638,
+      "grad_norm": 0.21594341099262238,
+      "learning_rate": 0.00068,
+      "loss": 3.1764,
+      "num_input_tokens_seen": 3565158400,
+      "step": 3400
+    },
+    {
+      "epoch": 0.07578284918801148,
+      "grad_norm": 0.1921539604663849,
+      "learning_rate": 0.00069,
+      "loss": 3.1643,
+      "num_input_tokens_seen": 3617587200,
+      "step": 3450
+    },
+    {
+      "epoch": 0.07688115135015658,
+      "grad_norm": 0.2266080528497696,
+      "learning_rate": 0.0007,
+      "loss": 3.1647,
+      "num_input_tokens_seen": 3670016000,
+      "step": 3500
+    },
+    {
+      "epoch": 0.07688115135015658,
+      "eval_loss": 3.061373472213745,
+      "eval_runtime": 63.388,
+      "eval_samples_per_second": 78.879,
+      "eval_steps_per_second": 19.72,
+      "num_input_tokens_seen": 3670016000,
+      "step": 3500
+    },
+    {
+      "epoch": 0.07797945351230168,
+      "grad_norm": 0.19900226593017578,
+      "learning_rate": 0.00071,
+      "loss": 3.1557,
+      "num_input_tokens_seen": 3722444800,
+      "step": 3550
+    },
+    {
+      "epoch": 0.07907775567444676,
+      "grad_norm": 0.20299012959003448,
+      "learning_rate": 0.0007199999999999999,
+      "loss": 3.1503,
+      "num_input_tokens_seen": 3774873600,
+      "step": 3600
+    },
+    {
+      "epoch": 0.08017605783659186,
+      "grad_norm": 0.232399120926857,
+      "learning_rate": 0.00073,
+      "loss": 3.1387,
+      "num_input_tokens_seen": 3827302400,
+      "step": 3650
+    },
+    {
+      "epoch": 0.08127435999873696,
+      "grad_norm": 0.2127719670534134,
+      "learning_rate": 0.00074,
+      "loss": 3.1388,
+      "num_input_tokens_seen": 3879731200,
+      "step": 3700
+    },
+    {
+      "epoch": 0.08237266216088204,
+      "grad_norm": 0.22336533665657043,
+      "learning_rate": 0.00075,
+      "loss": 3.1247,
+      "num_input_tokens_seen": 3932160000,
+      "step": 3750
+    },
+    {
+      "epoch": 0.08347096432302714,
+      "grad_norm": 0.18270662426948547,
+      "learning_rate": 0.00076,
+      "loss": 3.1192,
+      "num_input_tokens_seen": 3984588800,
+      "step": 3800
+    },
+    {
+      "epoch": 0.08456926648517224,
+      "grad_norm": 0.16843897104263306,
+      "learning_rate": 0.0007700000000000001,
+      "loss": 3.1153,
+      "num_input_tokens_seen": 4037017600,
+      "step": 3850
+    },
+    {
+      "epoch": 0.08566756864731732,
+      "grad_norm": 0.19947747886180878,
+      "learning_rate": 0.0007800000000000001,
+      "loss": 3.1048,
+      "num_input_tokens_seen": 4089446400,
+      "step": 3900
+    },
+    {
+      "epoch": 0.08676587080946242,
+      "grad_norm": 0.17078733444213867,
+      "learning_rate": 0.00079,
+      "loss": 3.1014,
+      "num_input_tokens_seen": 4141875200,
+      "step": 3950
+    },
+    {
+      "epoch": 0.08786417297160752,
+      "grad_norm": 0.22091113030910492,
+      "learning_rate": 0.0008,
+      "loss": 3.0982,
+      "num_input_tokens_seen": 4194304000,
+      "step": 4000
+    },
+    {
+      "epoch": 0.08786417297160752,
+      "eval_loss": 2.9978296756744385,
+      "eval_runtime": 65.6064,
+      "eval_samples_per_second": 76.212,
+      "eval_steps_per_second": 19.053,
+      "num_input_tokens_seen": 4194304000,
+      "step": 4000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 4194304000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 2.388686863859712e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null