Training in progress, epoch 3

Browse files

Files changed (13) hide show

model.safetensors +1 -1
run-0/checkpoint-1074/model.safetensors +1 -1
run-0/checkpoint-1074/optimizer.pt +1 -1
run-0/checkpoint-1074/rng_state.pth +1 -1
run-0/checkpoint-1074/scheduler.pt +1 -1
run-0/checkpoint-1074/trainer_state.json +28 -28
run-0/checkpoint-1074/training_args.bin +1 -1
run-0/checkpoint-716/model.safetensors +1 -1
run-0/checkpoint-716/optimizer.pt +1 -1
run-0/checkpoint-716/rng_state.pth +1 -1
run-0/checkpoint-716/scheduler.pt +1 -1
run-0/checkpoint-716/training_args.bin +1 -1
runs/Mar09_20-46-55_12ef847df42e/events.out.tfevents.1710017618.12ef847df42e.11821.3 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e1cf6cca0b066d95604d9a0d3ec56ae5888e3724592243d59afab2745d3d622
 size 267832560

 version https://git-lfs.github.com/spec/v1
+oid sha256:485040adadc4df794c682acb342a777cc1487a106aa332a6f9bbc3da47b2da3c
 size 267832560

run-0/checkpoint-1074/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1b1d75319d275d061a80f8348bbfa90b4e809b2d75df0342a2aaeb7ded4695f
 size 267832560

 version https://git-lfs.github.com/spec/v1
+oid sha256:485040adadc4df794c682acb342a777cc1487a106aa332a6f9bbc3da47b2da3c
 size 267832560

run-0/checkpoint-1074/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef2eb31df5e73386f5a4376c85f40dab44109b2a5be648b8dab5e9f3198e2eb5
 size 535727290

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ba2aea932b45610ce8d3ced2ee89558cf9f3d3ffa3a3e456b71b050d343d315
 size 535727290

run-0/checkpoint-1074/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2ffdd27e0a5179eca476c2892bab51a4ad532c8428140639280248e35eddcfa
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:db823eed38b9b01d1f7d82ad18cc96b0c4e021cdb9e86359597d3ac1b25d411a
 size 14308

run-0/checkpoint-1074/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7634ae0dba131a040bc4ee681a141ff0ef1440ca2ae4d9fdf2a708a04b92cc47
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a740d7a2fa66f1ba62b43b4c1c69eb9d82256cfe69cb9e15c8fcc702427f0091
 size 1064

run-0/checkpoint-1074/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.6577447652816772,
-  "best_model_checkpoint": "./results/run-0/checkpoint-716",
   "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 1074,
@@ -10,58 +10,58 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6621212121212121,
-      "eval_loss": 0.6838955283164978,
-      "eval_runtime": 5.6548,
-      "eval_samples_per_second": 168.884,
-      "eval_steps_per_second": 10.611,
       "step": 358
     },
     {
       "epoch": 1.4,
-      "grad_norm": 8.117366790771484,
-      "learning_rate": 2.411875178215578e-05,
-      "loss": 0.5769,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.6871212121212121,
-      "eval_loss": 0.6577447652816772,
-      "eval_runtime": 5.4394,
-      "eval_samples_per_second": 175.571,
-      "eval_steps_per_second": 11.031,
       "step": 716
     },
     {
       "epoch": 2.79,
-      "grad_norm": 0.30438610911369324,
-      "learning_rate": 3.109386118257016e-06,
-      "loss": 0.3061,
       "step": 1000
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.6886363636363637,
-      "eval_loss": 1.1303341388702393,
-      "eval_runtime": 5.6169,
-      "eval_samples_per_second": 170.022,
-      "eval_steps_per_second": 10.682,
       "step": 1074
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1074,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
   "total_flos": 1059209319653376.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 4.5128117446054535e-05,
-    "num_train_epochs": 3,
     "per_device_train_batch_size": 8,
-    "seed": 31
   }
 }

 {
+  "best_metric": 0.6083901524543762,
+  "best_model_checkpoint": "./results/run-0/checkpoint-358",
   "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 1074,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6722222222222222,
+      "eval_loss": 0.6083901524543762,
+      "eval_runtime": 5.7737,
+      "eval_samples_per_second": 165.406,
+      "eval_steps_per_second": 20.784,
       "step": 358
     },
     {
       "epoch": 1.4,
+      "grad_norm": 8.0650634765625,
+      "learning_rate": 1.0536381136099229e-05,
+      "loss": 0.6149,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6920138888888888,
+      "eval_loss": 0.6155831813812256,
+      "eval_runtime": 6.4389,
+      "eval_samples_per_second": 148.317,
+      "eval_steps_per_second": 18.637,
       "step": 716
     },
     {
       "epoch": 2.79,
+      "grad_norm": 5.074481010437012,
+      "learning_rate": 4.8838161489215315e-06,
+      "loss": 0.4408,
       "step": 1000
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.6836805555555555,
+      "eval_loss": 0.6700696349143982,
+      "eval_runtime": 5.7921,
+      "eval_samples_per_second": 164.88,
+      "eval_steps_per_second": 20.718,
       "step": 1074
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1432,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
   "save_steps": 500,
   "total_flos": 1059209319653376.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 1.6188946123276927e-05,
+    "num_train_epochs": 4,
     "per_device_train_batch_size": 8,
+    "seed": 20
   }
 }

run-0/checkpoint-1074/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f78ca4744c5f27dd77e5bbefc524c5bab432cd8026fae1274c770767c59ff21e
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:756e0c6b01f2dc28da5639bc1c7bcb62246c7526b8bef0298780aea65e098381
 size 4920

run-0/checkpoint-716/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f77f9c7bd0b2ffa78cba701118f9fa1138aa6eeca5d1b222ddbd1aad54ed3d1d
 size 267832560

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f1653fe18ddcac289f7e57a18461e7deffd5befb44685ee397f45d7a6ebc77c
 size 267832560

run-0/checkpoint-716/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4444c4f8685de0f06ea3f5b8e70f9072149828c3e40e58cc63f02384f92cd93d
 size 535727290

 version https://git-lfs.github.com/spec/v1
+oid sha256:716a387eef1ebd0c65de8baed18dd0d7a67502b118c4e14dbbc893dec22f92ab
 size 535727290

run-0/checkpoint-716/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62e7b04b855e23cfacd905eaaea746e21537ddefbfa0054bf1bf9cb4e55f4aa3
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:8103c551332314f7d2856e2ffd500b0e2ed7cfd34359fe80e353bd1a70196c61
 size 14308

run-0/checkpoint-716/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e9a549f1e4d45c22b25ff0e32b0bb6c9be997e011a6802d52b60046b15c39b0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:da6c7cc1465652020bc3b8e0af7cd84f29ca0ea8b56590e2bebdfe4033a1116d
 size 1064

run-0/checkpoint-716/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f78ca4744c5f27dd77e5bbefc524c5bab432cd8026fae1274c770767c59ff21e
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:756e0c6b01f2dc28da5639bc1c7bcb62246c7526b8bef0298780aea65e098381
 size 4920

runs/Mar09_20-46-55_12ef847df42e/events.out.tfevents.1710017618.12ef847df42e.11821.3 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73d1ed4b05dd12b972362003d90c3e6030065c84154c9f65b3ef87afdc7d7d49
-size 5296

 version https://git-lfs.github.com/spec/v1
+oid sha256:4332035327cbb689a8c2d5c5baecaf6a24aa55aeea81619c8eeb5c3b1a0a73c9
+size 6507