Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.bin +1 -1
all_results.json +14 -14
eval_results.json +9 -9
train_results.json +5 -5
trainer_state.json +63 -152

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:247fc2b9ff6d183a31785d3f2a3b4287662c9c74c22d00915bfc7758ee61e6a1
 size 160086542

 version https://git-lfs.github.com/spec/v1
+oid sha256:95e2a19914eaa14513f860a0e901e2e1f0a0a709a4d92ea72ec0c3c855b69fd8
 size 160086542

all_results.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
     "epoch": 1.0,
-    "eval_accuracy": 0.7666666666666667,
-    "eval_f1_score": 0.7609087348217781,
-    "eval_gmean": 0.7486572528549951,
-    "eval_loss": 0.5165690183639526,
-    "eval_precision": 0.7716666666666666,
-    "eval_recall": 0.7666666666666667,
-    "eval_runtime": 170.2423,
-    "eval_samples_per_second": 0.352,
-    "eval_steps_per_second": 0.047,
-    "total_flos": 2.597706419798016e+16,
-    "train_loss": 0.7354364809782609,
-    "train_runtime": 6240.8638,
-    "train_samples_per_second": 2.838,
-    "train_steps_per_second": 0.022
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.8166666666666667,
+    "eval_f1_score": 0.8080459770114942,
+    "eval_gmean": 0.7501820727030913,
+    "eval_loss": 0.5850911736488342,
+    "eval_precision": 0.8133022774327122,
+    "eval_recall": 0.8166666666666667,
+    "eval_runtime": 175.3378,
+    "eval_samples_per_second": 0.342,
+    "eval_steps_per_second": 0.046,
+    "total_flos": 8.435821078904832e+16,
+    "train_loss": 0.405215135261194,
+    "train_runtime": 12957.5785,
+    "train_samples_per_second": 0.33,
+    "train_steps_per_second": 0.005
 }

eval_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 1.0,
-    "eval_accuracy": 0.7666666666666667,
-    "eval_f1_score": 0.7609087348217781,
-    "eval_gmean": 0.7486572528549951,
-    "eval_loss": 0.5165690183639526,
-    "eval_precision": 0.7716666666666666,
-    "eval_recall": 0.7666666666666667,
-    "eval_runtime": 170.2423,
-    "eval_samples_per_second": 0.352,
-    "eval_steps_per_second": 0.047
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.8166666666666667,
+    "eval_f1_score": 0.8080459770114942,
+    "eval_gmean": 0.7501820727030913,
+    "eval_loss": 0.5850911736488342,
+    "eval_precision": 0.8133022774327122,
+    "eval_recall": 0.8166666666666667,
+    "eval_runtime": 175.3378,
+    "eval_samples_per_second": 0.342,
+    "eval_steps_per_second": 0.046
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "total_flos": 2.597706419798016e+16,
-    "train_loss": 0.7354364809782609,
-    "train_runtime": 6240.8638,
-    "train_samples_per_second": 2.838,
-    "train_steps_per_second": 0.022
 }

 {
     "epoch": 1.0,
+    "total_flos": 8.435821078904832e+16,
+    "train_loss": 0.405215135261194,
+    "train_runtime": 12957.5785,
+    "train_samples_per_second": 0.33,
+    "train_steps_per_second": 0.005
 }

trainer_state.json CHANGED Viewed

@@ -1,201 +1,112 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9963898916967509,
   "eval_steps": 28,
-  "global_step": 138,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.06,
-      "grad_norm": 4.96875,
-      "learning_rate": 1.911764705882353e-05,
-      "loss": 0.7457,
       "step": 8
     },
     {
-      "epoch": 0.12,
-      "grad_norm": 12.75,
-      "learning_rate": 1.7941176470588237e-05,
-      "loss": 0.7997,
       "step": 16
     },
     {
-      "epoch": 0.17,
-      "grad_norm": 7.5625,
-      "learning_rate": 1.6764705882352943e-05,
-      "loss": 0.7616,
       "step": 24
     },
     {
-      "epoch": 0.2,
-      "eval_accuracy": 0.7666666666666667,
-      "eval_f1_score": 0.7609087348217781,
-      "eval_gmean": 0.7486572528549951,
-      "eval_loss": 0.5174153447151184,
-      "eval_precision": 0.7716666666666666,
-      "eval_recall": 0.7666666666666667,
-      "eval_runtime": 170.072,
-      "eval_samples_per_second": 0.353,
-      "eval_steps_per_second": 0.047,
       "step": 28
     },
     {
-      "epoch": 0.23,
-      "grad_norm": 18.0,
-      "learning_rate": 1.558823529411765e-05,
-      "loss": 0.7458,
       "step": 32
     },
     {
-      "epoch": 0.29,
-      "grad_norm": 7.78125,
-      "learning_rate": 1.4411764705882353e-05,
-      "loss": 0.691,
       "step": 40
     },
     {
-      "epoch": 0.35,
-      "grad_norm": 5.78125,
-      "learning_rate": 1.323529411764706e-05,
-      "loss": 0.7286,
       "step": 48
     },
     {
-      "epoch": 0.4,
-      "grad_norm": 6.40625,
-      "learning_rate": 1.2058823529411765e-05,
-      "loss": 0.8156,
       "step": 56
     },
     {
-      "epoch": 0.4,
-      "eval_accuracy": 0.7666666666666667,
-      "eval_f1_score": 0.7609087348217781,
-      "eval_gmean": 0.7486572528549951,
-      "eval_loss": 0.5176106691360474,
-      "eval_precision": 0.7716666666666666,
-      "eval_recall": 0.7666666666666667,
-      "eval_runtime": 170.1289,
-      "eval_samples_per_second": 0.353,
-      "eval_steps_per_second": 0.047,
       "step": 56
     },
     {
-      "epoch": 0.46,
-      "grad_norm": 10.3125,
-      "learning_rate": 1.0882352941176471e-05,
-      "loss": 0.7198,
       "step": 64
     },
-    {
-      "epoch": 0.52,
-      "grad_norm": 9.0625,
-      "learning_rate": 9.705882352941177e-06,
-      "loss": 0.7421,
-      "step": 72
-    },
-    {
-      "epoch": 0.58,
-      "grad_norm": 6.625,
-      "learning_rate": 8.529411764705883e-06,
-      "loss": 0.7488,
-      "step": 80
-    },
-    {
-      "epoch": 0.61,
-      "eval_accuracy": 0.7666666666666667,
-      "eval_f1_score": 0.7609087348217781,
-      "eval_gmean": 0.7486572528549951,
-      "eval_loss": 0.5164387822151184,
-      "eval_precision": 0.7716666666666666,
-      "eval_recall": 0.7666666666666667,
-      "eval_runtime": 170.831,
-      "eval_samples_per_second": 0.351,
-      "eval_steps_per_second": 0.047,
-      "step": 84
-    },
-    {
-      "epoch": 0.64,
-      "grad_norm": 6.125,
-      "learning_rate": 7.352941176470589e-06,
-      "loss": 0.7045,
-      "step": 88
-    },
-    {
-      "epoch": 0.69,
-      "grad_norm": 4.625,
-      "learning_rate": 6.176470588235295e-06,
-      "loss": 0.6564,
-      "step": 96
-    },
-    {
-      "epoch": 0.75,
-      "grad_norm": 8.3125,
-      "learning_rate": 5e-06,
-      "loss": 0.7003,
-      "step": 104
-    },
-    {
-      "epoch": 0.81,
-      "grad_norm": 12.9375,
-      "learning_rate": 3.8235294117647055e-06,
-      "loss": 0.7528,
-      "step": 112
-    },
-    {
-      "epoch": 0.81,
-      "eval_accuracy": 0.7666666666666667,
-      "eval_f1_score": 0.7609087348217781,
-      "eval_gmean": 0.7486572528549951,
-      "eval_loss": 0.5166015625,
-      "eval_precision": 0.7716666666666666,
-      "eval_recall": 0.7666666666666667,
-      "eval_runtime": 170.3596,
-      "eval_samples_per_second": 0.352,
-      "eval_steps_per_second": 0.047,
-      "step": 112
-    },
-    {
-      "epoch": 0.87,
-      "grad_norm": 7.46875,
-      "learning_rate": 2.647058823529412e-06,
-      "loss": 0.7045,
-      "step": 120
-    },
-    {
-      "epoch": 0.92,
-      "grad_norm": 5.8125,
-      "learning_rate": 1.4705882352941177e-06,
-      "loss": 0.7029,
-      "step": 128
-    },
-    {
-      "epoch": 0.98,
-      "grad_norm": 10.1875,
-      "learning_rate": 2.9411764705882356e-07,
-      "loss": 0.7869,
-      "step": 136
-    },
     {
       "epoch": 1.0,
-      "step": 138,
-      "total_flos": 2.597706419798016e+16,
-      "train_loss": 0.7354364809782609,
-      "train_runtime": 6240.8638,
-      "train_samples_per_second": 2.838,
-      "train_steps_per_second": 0.022
     }
   ],
   "logging_steps": 8,
-  "max_steps": 138,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 2.597706419798016e+16,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 28,
+  "global_step": 67,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.12,
+      "grad_norm": 9.4375,
+      "learning_rate": 1.8153846153846155e-05,
+      "loss": 0.4282,
       "step": 8
     },
     {
+      "epoch": 0.24,
+      "grad_norm": 10.5,
+      "learning_rate": 1.5692307692307693e-05,
+      "loss": 0.4335,
       "step": 16
     },
     {
+      "epoch": 0.36,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.3230769230769231e-05,
+      "loss": 0.3984,
       "step": 24
     },
     {
+      "epoch": 0.42,
+      "eval_accuracy": 0.8166666666666667,
+      "eval_f1_score": 0.8080459770114942,
+      "eval_gmean": 0.7501820727030913,
+      "eval_loss": 0.5816406011581421,
+      "eval_precision": 0.8133022774327122,
+      "eval_recall": 0.8166666666666667,
+      "eval_runtime": 175.4354,
+      "eval_samples_per_second": 0.342,
+      "eval_steps_per_second": 0.046,
       "step": 28
     },
     {
+      "epoch": 0.48,
+      "grad_norm": 6.625,
+      "learning_rate": 1.076923076923077e-05,
+      "loss": 0.3979,
       "step": 32
     },
     {
+      "epoch": 0.6,
+      "grad_norm": 7.875,
+      "learning_rate": 8.307692307692309e-06,
+      "loss": 0.3657,
       "step": 40
     },
     {
+      "epoch": 0.72,
+      "grad_norm": 10.0,
+      "learning_rate": 5.846153846153847e-06,
+      "loss": 0.38,
       "step": 48
     },
     {
+      "epoch": 0.84,
+      "grad_norm": 9.6875,
+      "learning_rate": 3.384615384615385e-06,
+      "loss": 0.4054,
       "step": 56
     },
     {
+      "epoch": 0.84,
+      "eval_accuracy": 0.8166666666666667,
+      "eval_f1_score": 0.8080459770114942,
+      "eval_gmean": 0.7501820727030913,
+      "eval_loss": 0.5850911736488342,
+      "eval_precision": 0.8133022774327122,
+      "eval_recall": 0.8166666666666667,
+      "eval_runtime": 173.49,
+      "eval_samples_per_second": 0.346,
+      "eval_steps_per_second": 0.046,
       "step": 56
     },
     {
+      "epoch": 0.96,
+      "grad_norm": 8.8125,
+      "learning_rate": 9.230769230769232e-07,
+      "loss": 0.3864,
       "step": 64
     },
     {
       "epoch": 1.0,
+      "step": 67,
+      "total_flos": 8.435821078904832e+16,
+      "train_loss": 0.405215135261194,
+      "train_runtime": 12957.5785,
+      "train_samples_per_second": 0.33,
+      "train_steps_per_second": 0.005
     }
   ],
   "logging_steps": 8,
+  "max_steps": 67,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 8.435821078904832e+16,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }