Training in progress, step 1050, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0983150c1715310f5c2da69abbae72b1cf5ae96dde2a1a3b792fa14cb62311ea
 size 1054440872

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b8e949e38a08ba0f4413bafb410ed70d7a41a41b2df06b83f7b9b860bc8aa10
 size 1054440872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ee576b632d9191a1a1b656e19d65bdddfcd6fc083641530f2da5f3c5efd1e76
 size 2041777658

 version https://git-lfs.github.com/spec/v1
+oid sha256:df8a2bcf283e2aa935d4a4101eb908bed381b3a7d8411b8f0471da588f009acf
 size 2041777658

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a492449a8db3f0894cc4cb5d785b2553cbbcc51daceca3e199e1b1c9c7bb1cad
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b3d4f33ba1cd66fae2678da6d84e2417aca4d64da851f275fb6304b99a966c0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60a827078c85f0fd366049a88039c9056197c970413749f5c2cbfe85bd3bd7d6
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cf334b45c59ec3117af6235b0cb6b8da2aab8bbc78c388edc1a1925c6731983
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.3389599323272705,
   "best_model_checkpoint": "./output/checkpoint-150",
-  "epoch": 0.002053926994306058,
   "eval_steps": 150,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -685,6 +685,119 @@
       "eval_samples_per_second": 10.874,
       "eval_steps_per_second": 10.874,
       "step": 900
     }
   ],
   "logging_steps": 10,
@@ -704,7 +817,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.9630718300266496e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.3389599323272705,
   "best_model_checkpoint": "./output/checkpoint-150",
+  "epoch": 0.0023962481600237344,
   "eval_steps": 150,
+  "global_step": 1050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.874,
       "eval_steps_per_second": 10.874,
       "step": 900
+    },
+    {
+      "epoch": 0.002076748405353903,
+      "grad_norm": 34.646400451660156,
+      "learning_rate": 9.340773121260896e-05,
+      "loss": 1.6514,
+      "step": 910
+    },
+    {
+      "epoch": 0.002099569816401748,
+      "grad_norm": 10.080218315124512,
+      "learning_rate": 9.32477428972347e-05,
+      "loss": 2.0668,
+      "step": 920
+    },
+    {
+      "epoch": 0.0021223912274495934,
+      "grad_norm": 16.587017059326172,
+      "learning_rate": 9.308597683653978e-05,
+      "loss": 1.8328,
+      "step": 930
+    },
+    {
+      "epoch": 0.002145212638497438,
+      "grad_norm": 40.35968780517578,
+      "learning_rate": 9.292243968009333e-05,
+      "loss": 2.6786,
+      "step": 940
+    },
+    {
+      "epoch": 0.0021680340495452833,
+      "grad_norm": 25.870718002319336,
+      "learning_rate": 9.275713815026734e-05,
+      "loss": 2.0659,
+      "step": 950
+    },
+    {
+      "epoch": 0.0021908554605931285,
+      "grad_norm": 18.393529891967773,
+      "learning_rate": 9.259007904196024e-05,
+      "loss": 1.5834,
+      "step": 960
+    },
+    {
+      "epoch": 0.0022136768716409737,
+      "grad_norm": 15.957837104797363,
+      "learning_rate": 9.242126922231766e-05,
+      "loss": 1.5815,
+      "step": 970
+    },
+    {
+      "epoch": 0.0022364982826888185,
+      "grad_norm": 43.54640579223633,
+      "learning_rate": 9.225071563045009e-05,
+      "loss": 1.8949,
+      "step": 980
+    },
+    {
+      "epoch": 0.0022593196937366637,
+      "grad_norm": 86.7748794555664,
+      "learning_rate": 9.207842527714768e-05,
+      "loss": 1.8539,
+      "step": 990
+    },
+    {
+      "epoch": 0.002282141104784509,
+      "grad_norm": 40.725074768066406,
+      "learning_rate": 9.190440524459205e-05,
+      "loss": 2.2359,
+      "step": 1000
+    },
+    {
+      "epoch": 0.002304962515832354,
+      "grad_norm": 17.94641876220703,
+      "learning_rate": 9.172866268606516e-05,
+      "loss": 1.6349,
+      "step": 1010
+    },
+    {
+      "epoch": 0.002327783926880199,
+      "grad_norm": 37.57284164428711,
+      "learning_rate": 9.155120482565522e-05,
+      "loss": 2.2269,
+      "step": 1020
+    },
+    {
+      "epoch": 0.002350605337928044,
+      "grad_norm": 67.7833480834961,
+      "learning_rate": 9.137203895795986e-05,
+      "loss": 1.754,
+      "step": 1030
+    },
+    {
+      "epoch": 0.002373426748975889,
+      "grad_norm": 91.33174133300781,
+      "learning_rate": 9.11911724477861e-05,
+      "loss": 1.5477,
+      "step": 1040
+    },
+    {
+      "epoch": 0.0023962481600237344,
+      "grad_norm": 35.31724166870117,
+      "learning_rate": 9.100861272984782e-05,
+      "loss": 2.1628,
+      "step": 1050
+    },
+    {
+      "epoch": 0.0023962481600237344,
+      "eval_loss": 1.4954074621200562,
+      "eval_runtime": 45.7096,
+      "eval_samples_per_second": 10.939,
+      "eval_steps_per_second": 10.939,
+      "step": 1050
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.399070698941645e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null