Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c0f1846b2eca9ece14ca419dc900cc69794d0a86a70292e3bc1ed7ec5237704
 size 1474661312

 version https://git-lfs.github.com/spec/v1
+oid sha256:7df61c683eb310ecb8d849314ea3d16e0ebb1dd999709bbc636356ed1746d614
 size 1474661312

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55c27f4d0598adba4c648399258f4e05c836933f6246139847a43d93e0e3caa4
-size 2881708922

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4433c2f8bbbc12a2544c63ff3b1614dc61f0bf7c45ea85ef2db83f0a2cc6534
+size 2881708858

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c06dc6e1421384e2c500c31f024c1f7c824663f681d921062bd75d6142146be1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3a0a21d7a4e0dc7af1cb57b47bc980d3c876420d73fe129ed224cf22685abe6
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d87192dfad02856a78d2515aef5449813a7a3d2c3161d182469ba9a023f23658
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:c72ff83b81e4d5ca4579296bd0d644ce6acb0bdb379683b8988ce492e8fcf1fd
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.00011071480548707768,
   "best_model_checkpoint": "./output/checkpoint-600",
-  "epoch": 0.7550335570469798,
   "eval_steps": 150,
-  "global_step": 1350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1024,6 +1024,119 @@
       "eval_samples_per_second": 9.903,
       "eval_steps_per_second": 9.903,
       "step": 1350
     }
   ],
   "logging_steps": 10,
@@ -1043,7 +1156,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.343847373262029e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.00011071480548707768,
   "best_model_checkpoint": "./output/checkpoint-600",
+  "epoch": 0.8389261744966443,
   "eval_steps": 150,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.903,
       "eval_steps_per_second": 9.903,
       "step": 1350
+    },
+    {
+      "epoch": 0.7606263982102909,
+      "grad_norm": 6.651922012679279e-05,
+      "learning_rate": 3.7203378277711024e-05,
+      "loss": 0.0004,
+      "step": 1360
+    },
+    {
+      "epoch": 0.7662192393736018,
+      "grad_norm": 0.018086520954966545,
+      "learning_rate": 3.710111549081191e-05,
+      "loss": 0.0,
+      "step": 1370
+    },
+    {
+      "epoch": 0.7718120805369127,
+      "grad_norm": 0.4451378285884857,
+      "learning_rate": 3.699823195620199e-05,
+      "loss": 0.0002,
+      "step": 1380
+    },
+    {
+      "epoch": 0.7774049217002237,
+      "grad_norm": 0.0013188536977395415,
+      "learning_rate": 3.689473190302041e-05,
+      "loss": 0.0,
+      "step": 1390
+    },
+    {
+      "epoch": 0.7829977628635347,
+      "grad_norm": 0.015242448076605797,
+      "learning_rate": 3.679061958574897e-05,
+      "loss": 0.0,
+      "step": 1400
+    },
+    {
+      "epoch": 0.7885906040268457,
+      "grad_norm": 0.0007480831118300557,
+      "learning_rate": 3.668589928403726e-05,
+      "loss": 0.001,
+      "step": 1410
+    },
+    {
+      "epoch": 0.7941834451901566,
+      "grad_norm": 0.0003548146632965654,
+      "learning_rate": 3.6580575302526706e-05,
+      "loss": 0.0001,
+      "step": 1420
+    },
+    {
+      "epoch": 0.7997762863534675,
+      "grad_norm": 4.4911037548445165e-05,
+      "learning_rate": 3.647465197067368e-05,
+      "loss": 0.0002,
+      "step": 1430
+    },
+    {
+      "epoch": 0.8053691275167785,
+      "grad_norm": 6.35408578091301e-05,
+      "learning_rate": 3.6368133642571464e-05,
+      "loss": 0.0,
+      "step": 1440
+    },
+    {
+      "epoch": 0.8109619686800895,
+      "grad_norm": 0.0015594850992783904,
+      "learning_rate": 3.6261024696771345e-05,
+      "loss": 0.0,
+      "step": 1450
+    },
+    {
+      "epoch": 0.8165548098434005,
+      "grad_norm": 0.00036429730243980885,
+      "learning_rate": 3.615332953610255e-05,
+      "loss": 0.0059,
+      "step": 1460
+    },
+    {
+      "epoch": 0.8221476510067114,
+      "grad_norm": 1.828911542892456,
+      "learning_rate": 3.604505258749132e-05,
+      "loss": 0.0006,
+      "step": 1470
+    },
+    {
+      "epoch": 0.8277404921700223,
+      "grad_norm": 0.01230633445084095,
+      "learning_rate": 3.5936198301778945e-05,
+      "loss": 0.0012,
+      "step": 1480
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 0.0066687436774373055,
+      "learning_rate": 3.5826771153538716e-05,
+      "loss": 0.0006,
+      "step": 1490
+    },
+    {
+      "epoch": 0.8389261744966443,
+      "grad_norm": 5.592922752839513e-05,
+      "learning_rate": 3.571677564089214e-05,
+      "loss": 0.0002,
+      "step": 1500
+    },
+    {
+      "epoch": 0.8389261744966443,
+      "eval_loss": 0.0009469892247579992,
+      "eval_runtime": 50.2402,
+      "eval_samples_per_second": 9.952,
+      "eval_steps_per_second": 9.952,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 9.355502107695514e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null