Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_model.bin +1 -1
all_results.json +13 -13
eval_results.json +9 -9
runs/Mar26_12-22-53_b3dddff7eb96/events.out.tfevents.1711455775.b3dddff7eb96.34.0 +3 -0
runs/Mar26_12-22-53_b3dddff7eb96/events.out.tfevents.1711470934.b3dddff7eb96.34.1 +3 -0
train_results.json +4 -4
trainer_state.json +80 -188

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f807cf91166999ea3123988f2e2b2ce66a6dad049d9f6c14b3c3202300b1673
 size 160086542

 version https://git-lfs.github.com/spec/v1
+oid sha256:4411c80e204fa52239f0e767750debd1cf11225e340233f1709705364827150e
 size 160086542

all_results.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
     "epoch": 1.0,
-    "eval_accuracy": 0.78,
-    "eval_f1_score": 0.7785897435897436,
-    "eval_gmean": 0.7961000720231877,
-    "eval_loss": 0.5531054735183716,
-    "eval_precision": 0.8186666666666668,
-    "eval_recall": 0.78,
-    "eval_runtime": 273.9816,
-    "eval_samples_per_second": 0.365,
-    "eval_steps_per_second": 0.047,
-    "total_flos": 1.6845278653034496e+17,
-    "train_loss": 0.7047583736590485,
-    "train_runtime": 28553.3073,
-    "train_samples_per_second": 0.3,
     "train_steps_per_second": 0.005
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.85,
+    "eval_f1_score": 0.8504053648283457,
+    "eval_gmean": 0.8587214900086042,
+    "eval_loss": 0.44022461771965027,
+    "eval_precision": 0.8646326776395022,
+    "eval_recall": 0.85,
+    "eval_runtime": 281.2283,
+    "eval_samples_per_second": 0.356,
+    "eval_steps_per_second": 0.046,
+    "total_flos": 8.435821078904832e+16,
+    "train_loss": 0.508428317397388,
+    "train_runtime": 14877.7814,
+    "train_samples_per_second": 0.288,
     "train_steps_per_second": 0.005
 }

eval_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 1.0,
-    "eval_accuracy": 0.78,
-    "eval_f1_score": 0.7785897435897436,
-    "eval_gmean": 0.7961000720231877,
-    "eval_loss": 0.5531054735183716,
-    "eval_precision": 0.8186666666666668,
-    "eval_recall": 0.78,
-    "eval_runtime": 273.9816,
-    "eval_samples_per_second": 0.365,
-    "eval_steps_per_second": 0.047
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.85,
+    "eval_f1_score": 0.8504053648283457,
+    "eval_gmean": 0.8587214900086042,
+    "eval_loss": 0.44022461771965027,
+    "eval_precision": 0.8646326776395022,
+    "eval_recall": 0.85,
+    "eval_runtime": 281.2283,
+    "eval_samples_per_second": 0.356,
+    "eval_steps_per_second": 0.046
 }

runs/Mar26_12-22-53_b3dddff7eb96/events.out.tfevents.1711455775.b3dddff7eb96.34.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea7dd3bfefdb6a27bc808a2fd6c881197546cb71d5fa895b9a55c25e5687aae6
+size 9018

runs/Mar26_12-22-53_b3dddff7eb96/events.out.tfevents.1711470934.b3dddff7eb96.34.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2fd109c8b8cd3ceb5536b984dbf67939949accd7cb0508292411f7c12f6128c7
+size 605

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "total_flos": 1.6845278653034496e+17,
-    "train_loss": 0.7047583736590485,
-    "train_runtime": 28553.3073,
-    "train_samples_per_second": 0.3,
     "train_steps_per_second": 0.005
 }

 {
     "epoch": 1.0,
+    "total_flos": 8.435821078904832e+16,
+    "train_loss": 0.508428317397388,
+    "train_runtime": 14877.7814,
+    "train_samples_per_second": 0.288,
     "train_steps_per_second": 0.005
 }

trainer_state.json CHANGED Viewed

@@ -3,243 +3,135 @@
   "best_model_checkpoint": null,
   "epoch": 1.0,
   "eval_steps": 16,
-  "global_step": 134,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.06,
-      "grad_norm": 53.25,
-      "learning_rate": 1.9090909090909094e-05,
-      "loss": 1.1167,
-      "step": 8
-    },
-    {
-      "epoch": 0.12,
-      "grad_norm": 44.5,
-      "learning_rate": 1.787878787878788e-05,
-      "loss": 0.895,
-      "step": 16
-    },
     {
       "epoch": 0.12,
-      "eval_accuracy": 0.66,
-      "eval_f1_score": 0.644367816091954,
-      "eval_gmean": 0.6885077030381411,
-      "eval_loss": 0.8683984279632568,
-      "eval_precision": 0.7505555555555555,
-      "eval_recall": 0.66,
-      "eval_runtime": 272.9997,
-      "eval_samples_per_second": 0.366,
-      "eval_steps_per_second": 0.048,
-      "step": 16
-    },
-    {
-      "epoch": 0.18,
-      "grad_norm": 46.5,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.829,
-      "step": 24
     },
     {
       "epoch": 0.24,
-      "grad_norm": 30.875,
-      "learning_rate": 1.5454545454545454e-05,
-      "loss": 0.747,
-      "step": 32
     },
     {
       "epoch": 0.24,
-      "eval_accuracy": 0.72,
-      "eval_f1_score": 0.7137777777777776,
-      "eval_gmean": 0.7423479773532891,
-      "eval_loss": 0.7020312547683716,
-      "eval_precision": 0.783921568627451,
-      "eval_recall": 0.72,
-      "eval_runtime": 273.193,
-      "eval_samples_per_second": 0.366,
-      "eval_steps_per_second": 0.048,
-      "step": 32
-    },
-    {
-      "epoch": 0.3,
-      "grad_norm": 29.375,
-      "learning_rate": 1.4242424242424245e-05,
-      "loss": 0.7173,
-      "step": 40
-    },
-    {
-      "epoch": 0.36,
-      "grad_norm": 28.875,
-      "learning_rate": 1.3030303030303032e-05,
-      "loss": 0.7169,
-      "step": 48
     },
     {
       "epoch": 0.36,
-      "eval_accuracy": 0.74,
-      "eval_f1_score": 0.7358132045088567,
-      "eval_gmean": 0.7602742157385604,
-      "eval_loss": 0.6424999833106995,
-      "eval_precision": 0.7952083333333333,
-      "eval_recall": 0.74,
-      "eval_runtime": 273.7345,
-      "eval_samples_per_second": 0.365,
-      "eval_steps_per_second": 0.047,
-      "step": 48
-    },
-    {
-      "epoch": 0.42,
-      "grad_norm": 32.25,
-      "learning_rate": 1.181818181818182e-05,
-      "loss": 0.6892,
-      "step": 56
     },
     {
       "epoch": 0.48,
-      "grad_norm": 35.25,
-      "learning_rate": 1.0606060606060606e-05,
-      "loss": 0.7526,
-      "step": 64
     },
     {
       "epoch": 0.48,
-      "eval_accuracy": 0.77,
-      "eval_f1_score": 0.7680401002506266,
-      "eval_gmean": 0.7871467461661771,
-      "eval_loss": 0.6016992330551147,
-      "eval_precision": 0.8126607818411097,
-      "eval_recall": 0.77,
-      "eval_runtime": 274.3064,
-      "eval_samples_per_second": 0.365,
-      "eval_steps_per_second": 0.047,
-      "step": 64
-    },
-    {
-      "epoch": 0.54,
-      "grad_norm": 28.875,
-      "learning_rate": 9.393939393939396e-06,
-      "loss": 0.6553,
-      "step": 72
-    },
-    {
-      "epoch": 0.6,
-      "grad_norm": 25.625,
-      "learning_rate": 8.181818181818183e-06,
-      "loss": 0.5781,
-      "step": 80
     },
     {
       "epoch": 0.6,
-      "eval_accuracy": 0.78,
-      "eval_f1_score": 0.7785897435897436,
-      "eval_gmean": 0.7961000720231877,
-      "eval_loss": 0.5736328363418579,
-      "eval_precision": 0.8186666666666668,
-      "eval_recall": 0.78,
-      "eval_runtime": 273.4905,
-      "eval_samples_per_second": 0.366,
-      "eval_steps_per_second": 0.048,
-      "step": 80
-    },
-    {
-      "epoch": 0.66,
-      "grad_norm": 16.5,
-      "learning_rate": 6.969696969696971e-06,
-      "loss": 0.56,
-      "step": 88
     },
     {
       "epoch": 0.72,
-      "grad_norm": 32.5,
-      "learning_rate": 5.7575757575757586e-06,
-      "loss": 0.6035,
-      "step": 96
     },
     {
       "epoch": 0.72,
-      "eval_accuracy": 0.78,
-      "eval_f1_score": 0.7785897435897436,
-      "eval_gmean": 0.7961000720231877,
-      "eval_loss": 0.5596484541893005,
-      "eval_precision": 0.8186666666666668,
-      "eval_recall": 0.78,
-      "eval_runtime": 273.6048,
-      "eval_samples_per_second": 0.365,
-      "eval_steps_per_second": 0.048,
-      "step": 96
-    },
-    {
-      "epoch": 0.78,
-      "grad_norm": 24.0,
-      "learning_rate": 4.5454545454545455e-06,
-      "loss": 0.6456,
-      "step": 104
-    },
-    {
-      "epoch": 0.84,
-      "grad_norm": 34.75,
-      "learning_rate": 3.3333333333333333e-06,
-      "loss": 0.655,
-      "step": 112
     },
     {
       "epoch": 0.84,
-      "eval_accuracy": 0.78,
-      "eval_f1_score": 0.7785897435897436,
-      "eval_gmean": 0.7961000720231877,
-      "eval_loss": 0.5552539229393005,
-      "eval_precision": 0.8186666666666668,
-      "eval_recall": 0.78,
-      "eval_runtime": 273.6051,
-      "eval_samples_per_second": 0.365,
-      "eval_steps_per_second": 0.048,
-      "step": 112
-    },
-    {
-      "epoch": 0.9,
-      "grad_norm": 25.625,
-      "learning_rate": 2.1212121212121216e-06,
-      "loss": 0.5464,
-      "step": 120
     },
     {
       "epoch": 0.96,
-      "grad_norm": 16.625,
-      "learning_rate": 9.090909090909091e-07,
-      "loss": 0.606,
-      "step": 128
     },
     {
       "epoch": 0.96,
-      "eval_accuracy": 0.78,
-      "eval_f1_score": 0.7785897435897436,
-      "eval_gmean": 0.7961000720231877,
-      "eval_loss": 0.5531054735183716,
-      "eval_precision": 0.8186666666666668,
-      "eval_recall": 0.78,
-      "eval_runtime": 273.8068,
-      "eval_samples_per_second": 0.365,
-      "eval_steps_per_second": 0.047,
-      "step": 128
     },
     {
       "epoch": 1.0,
-      "step": 134,
-      "total_flos": 1.6845278653034496e+17,
-      "train_loss": 0.7047583736590485,
-      "train_runtime": 28553.3073,
-      "train_samples_per_second": 0.3,
       "train_steps_per_second": 0.005
     }
   ],
   "logging_steps": 8,
-  "max_steps": 134,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 1.6845278653034496e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

   "best_model_checkpoint": null,
   "epoch": 1.0,
   "eval_steps": 16,
+  "global_step": 67,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.12,
+      "grad_norm": 22.625,
+      "learning_rate": 1.8153846153846155e-05,
+      "loss": 0.6146,
+      "step": 8
     },
     {
       "epoch": 0.24,
+      "grad_norm": 23.375,
+      "learning_rate": 1.5692307692307693e-05,
+      "loss": 0.5536,
+      "step": 16
     },
     {
       "epoch": 0.24,
+      "eval_accuracy": 0.84,
+      "eval_f1_score": 0.8403201280512205,
+      "eval_gmean": 0.849780720378659,
+      "eval_loss": 0.4766210913658142,
+      "eval_precision": 0.8575523349436394,
+      "eval_recall": 0.84,
+      "eval_runtime": 281.1532,
+      "eval_samples_per_second": 0.356,
+      "eval_steps_per_second": 0.046,
+      "step": 16
     },
     {
       "epoch": 0.36,
+      "grad_norm": 12.5,
+      "learning_rate": 1.3230769230769231e-05,
+      "loss": 0.5034,
+      "step": 24
     },
     {
       "epoch": 0.48,
+      "grad_norm": 9.0625,
+      "learning_rate": 1.076923076923077e-05,
+      "loss": 0.4886,
+      "step": 32
     },
     {
       "epoch": 0.48,
+      "eval_accuracy": 0.85,
+      "eval_f1_score": 0.8504053648283457,
+      "eval_gmean": 0.8587214900086042,
+      "eval_loss": 0.4527539014816284,
+      "eval_precision": 0.8646326776395022,
+      "eval_recall": 0.85,
+      "eval_runtime": 280.8117,
+      "eval_samples_per_second": 0.356,
+      "eval_steps_per_second": 0.046,
+      "step": 32
     },
     {
       "epoch": 0.6,
+      "grad_norm": 14.0,
+      "learning_rate": 8.307692307692309e-06,
+      "loss": 0.4542,
+      "step": 40
     },
     {
       "epoch": 0.72,
+      "grad_norm": 21.625,
+      "learning_rate": 5.846153846153847e-06,
+      "loss": 0.4781,
+      "step": 48
     },
     {
       "epoch": 0.72,
+      "eval_accuracy": 0.85,
+      "eval_f1_score": 0.8504053648283457,
+      "eval_gmean": 0.8587214900086042,
+      "eval_loss": 0.44312500953674316,
+      "eval_precision": 0.8646326776395022,
+      "eval_recall": 0.85,
+      "eval_runtime": 280.8661,
+      "eval_samples_per_second": 0.356,
+      "eval_steps_per_second": 0.046,
+      "step": 48
     },
     {
       "epoch": 0.84,
+      "grad_norm": 16.5,
+      "learning_rate": 3.384615384615385e-06,
+      "loss": 0.4712,
+      "step": 56
     },
     {
       "epoch": 0.96,
+      "grad_norm": 11.9375,
+      "learning_rate": 9.230769230769232e-07,
+      "loss": 0.4697,
+      "step": 64
     },
     {
       "epoch": 0.96,
+      "eval_accuracy": 0.85,
+      "eval_f1_score": 0.8504053648283457,
+      "eval_gmean": 0.8587214900086042,
+      "eval_loss": 0.44022461771965027,
+      "eval_precision": 0.8646326776395022,
+      "eval_recall": 0.85,
+      "eval_runtime": 281.3025,
+      "eval_samples_per_second": 0.355,
+      "eval_steps_per_second": 0.046,
+      "step": 64
     },
     {
       "epoch": 1.0,
+      "step": 67,
+      "total_flos": 8.435821078904832e+16,
+      "train_loss": 0.508428317397388,
+      "train_runtime": 14877.7814,
+      "train_samples_per_second": 0.288,
       "train_steps_per_second": 0.005
     }
   ],
   "logging_steps": 8,
+  "max_steps": 67,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 8.435821078904832e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null