starlineventures/pilot-talk

Browse files

Files changed (7) hide show

README.md +1 -1
adapter_config.json +4 -4
adapter_model.safetensors +1 -1
all_results.json +5 -5
train_results.json +5 -5
trainer_state.json +74 -172
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -36,7 +36,7 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
-- train_batch_size: 2
 - eval_batch_size: 16
 - seed: 3407
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08

 The following hyperparameters were used during training:
 - learning_rate: 0.0001
+- train_batch_size: 5
 - eval_batch_size: 16
 - seed: 3407
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08

adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
     "down_proj",
-    "o_proj",
-    "q_proj",
     "v_proj",
     "up_proj",
-    "k_proj"
   ],
   "task_type": null,
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "k_proj",
     "down_proj",
     "v_proj",
     "up_proj",
+    "o_proj",
+    "q_proj",
+    "gate_proj"
   ],
   "task_type": null,
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b39c284313876374a91b0b1225a89102450223a6bf61fe2f95ec5efcf735cc18
 size 94422368

 version https://git-lfs.github.com/spec/v1
+oid sha256:54dba78f4b6e627f89fc3f21c2541ef05ddf6bb95172877a10b7ba7e8f292741
 size 94422368

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
     "total_flos": 0.0,
-    "train_loss": 0.5464926295810275,
-    "train_runtime": 144.0922,
-    "train_samples_per_second": 4.226,
-    "train_steps_per_second": 2.124
 }

 {
+    "epoch": 1.0,
     "total_flos": 0.0,
+    "train_loss": 0.30142025277018547,
+    "train_runtime": 98.1187,
+    "train_samples_per_second": 24.46,
+    "train_steps_per_second": 4.892
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
     "total_flos": 0.0,
-    "train_loss": 0.5464926295810275,
-    "train_runtime": 144.0922,
-    "train_samples_per_second": 4.226,
-    "train_steps_per_second": 2.124
 }

 {
+    "epoch": 1.0,
     "total_flos": 0.0,
+    "train_loss": 0.30142025277018547,
+    "train_runtime": 98.1187,
+    "train_samples_per_second": 24.46,
+    "train_steps_per_second": 4.892
 }

trainer_state.json CHANGED Viewed

@@ -1,235 +1,137 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 306,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.09803921568627451,
-      "grad_norm": 19.516904830932617,
-      "learning_rate": 9.673202614379085e-05,
-      "loss": 0.885,
       "step": 10
     },
     {
-      "epoch": 0.19607843137254902,
-      "grad_norm": 28.905141830444336,
-      "learning_rate": 9.34640522875817e-05,
-      "loss": 0.684,
       "step": 20
     },
     {
-      "epoch": 0.29411764705882354,
-      "grad_norm": 17.932239532470703,
-      "learning_rate": 9.019607843137255e-05,
-      "loss": 0.5972,
       "step": 30
     },
     {
-      "epoch": 0.39215686274509803,
-      "grad_norm": 103.63544464111328,
-      "learning_rate": 8.692810457516341e-05,
-      "loss": 1.0098,
       "step": 40
     },
     {
-      "epoch": 0.49019607843137253,
-      "grad_norm": 22.439851760864258,
-      "learning_rate": 8.366013071895425e-05,
-      "loss": 0.9728,
       "step": 50
     },
     {
-      "epoch": 0.5882352941176471,
-      "grad_norm": 20.24323081970215,
-      "learning_rate": 8.039215686274511e-05,
-      "loss": 0.5056,
       "step": 60
     },
     {
-      "epoch": 0.6862745098039216,
-      "grad_norm": 21.69275665283203,
-      "learning_rate": 7.712418300653595e-05,
-      "loss": 0.5228,
       "step": 70
     },
     {
-      "epoch": 0.7843137254901961,
-      "grad_norm": 21.725149154663086,
-      "learning_rate": 7.385620915032681e-05,
-      "loss": 0.5238,
       "step": 80
     },
     {
-      "epoch": 0.8823529411764706,
-      "grad_norm": 22.388992309570312,
-      "learning_rate": 7.058823529411765e-05,
-      "loss": 0.5995,
       "step": 90
     },
     {
-      "epoch": 0.9803921568627451,
-      "grad_norm": 26.396589279174805,
-      "learning_rate": 6.73202614379085e-05,
-      "loss": 0.6626,
       "step": 100
     },
     {
-      "epoch": 1.0784313725490196,
-      "grad_norm": 30.482742309570312,
-      "learning_rate": 6.405228758169934e-05,
-      "loss": 0.4304,
       "step": 110
     },
     {
-      "epoch": 1.1764705882352942,
-      "grad_norm": 25.137704849243164,
-      "learning_rate": 6.078431372549019e-05,
-      "loss": 0.5027,
       "step": 120
     },
     {
-      "epoch": 1.2745098039215685,
-      "grad_norm": 26.78306007385254,
-      "learning_rate": 5.7516339869281044e-05,
-      "loss": 0.5641,
       "step": 130
     },
     {
-      "epoch": 1.3725490196078431,
-      "grad_norm": 41.55208206176758,
-      "learning_rate": 5.4248366013071894e-05,
-      "loss": 0.4953,
       "step": 140
     },
     {
-      "epoch": 1.4705882352941178,
-      "grad_norm": 23.749731063842773,
-      "learning_rate": 5.0980392156862745e-05,
-      "loss": 0.4578,
       "step": 150
     },
     {
-      "epoch": 1.5686274509803921,
-      "grad_norm": 23.935508728027344,
-      "learning_rate": 4.77124183006536e-05,
-      "loss": 0.401,
       "step": 160
     },
     {
-      "epoch": 1.6666666666666665,
-      "grad_norm": 22.33506202697754,
-      "learning_rate": 4.4444444444444447e-05,
-      "loss": 0.4554,
-      "step": 170
-    },
-    {
-      "epoch": 1.7647058823529411,
-      "grad_norm": 23.189788818359375,
-      "learning_rate": 4.11764705882353e-05,
-      "loss": 0.6165,
-      "step": 180
-    },
-    {
-      "epoch": 1.8627450980392157,
-      "grad_norm": 21.400800704956055,
-      "learning_rate": 3.790849673202614e-05,
-      "loss": 0.3971,
-      "step": 190
-    },
-    {
-      "epoch": 1.9607843137254903,
-      "grad_norm": 20.903608322143555,
-      "learning_rate": 3.464052287581699e-05,
-      "loss": 0.5734,
-      "step": 200
-    },
-    {
-      "epoch": 2.0588235294117645,
-      "grad_norm": 23.240053176879883,
-      "learning_rate": 3.137254901960784e-05,
-      "loss": 0.4406,
-      "step": 210
-    },
-    {
-      "epoch": 2.156862745098039,
-      "grad_norm": 24.06924057006836,
-      "learning_rate": 2.8104575163398693e-05,
-      "loss": 0.4119,
-      "step": 220
-    },
-    {
-      "epoch": 2.2549019607843137,
-      "grad_norm": 24.296913146972656,
-      "learning_rate": 2.4836601307189544e-05,
-      "loss": 0.5279,
-      "step": 230
-    },
-    {
-      "epoch": 2.3529411764705883,
-      "grad_norm": 20.898887634277344,
-      "learning_rate": 2.1568627450980395e-05,
-      "loss": 0.5091,
-      "step": 240
-    },
-    {
-      "epoch": 2.450980392156863,
-      "grad_norm": 22.029281616210938,
-      "learning_rate": 1.8300653594771242e-05,
-      "loss": 0.4114,
-      "step": 250
-    },
-    {
-      "epoch": 2.549019607843137,
-      "grad_norm": 23.726993560791016,
-      "learning_rate": 1.5032679738562091e-05,
-      "loss": 0.4127,
-      "step": 260
-    },
-    {
-      "epoch": 2.6470588235294117,
-      "grad_norm": 20.965084075927734,
-      "learning_rate": 1.1764705882352942e-05,
-      "loss": 0.4927,
-      "step": 270
-    },
-    {
-      "epoch": 2.7450980392156863,
-      "grad_norm": 21.0610294342041,
-      "learning_rate": 8.496732026143791e-06,
-      "loss": 0.5405,
-      "step": 280
-    },
-    {
-      "epoch": 2.843137254901961,
-      "grad_norm": 20.865800857543945,
-      "learning_rate": 5.228758169934641e-06,
-      "loss": 0.4165,
-      "step": 290
-    },
-    {
-      "epoch": 2.9411764705882355,
-      "grad_norm": 21.134117126464844,
-      "learning_rate": 1.96078431372549e-06,
-      "loss": 0.4396,
-      "step": 300
-    },
-    {
-      "epoch": 3.0,
-      "step": 306,
       "total_flos": 0.0,
-      "train_loss": 0.5464926295810275,
-      "train_runtime": 144.0922,
-      "train_samples_per_second": 4.226,
-      "train_steps_per_second": 2.124
     }
   ],
   "logging_steps": 10,
-  "max_steps": 306,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
@@ -246,7 +148,7 @@
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 160,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0625,
+      "grad_norm": 20.87160873413086,
+      "learning_rate": 9.791666666666667e-05,
+      "loss": 1.7149,
       "step": 10
     },
     {
+      "epoch": 0.125,
+      "grad_norm": 21.004980087280273,
+      "learning_rate": 9.583333333333334e-05,
+      "loss": 0.8011,
       "step": 20
     },
     {
+      "epoch": 0.1875,
+      "grad_norm": 20.969247817993164,
+      "learning_rate": 9.375e-05,
+      "loss": 0.3873,
       "step": 30
     },
     {
+      "epoch": 0.25,
+      "grad_norm": 23.872455596923828,
+      "learning_rate": 9.166666666666667e-05,
+      "loss": 0.2433,
       "step": 40
     },
     {
+      "epoch": 0.3125,
+      "grad_norm": 26.21103286743164,
+      "learning_rate": 8.958333333333335e-05,
+      "loss": 0.1846,
       "step": 50
     },
     {
+      "epoch": 0.375,
+      "grad_norm": 30.174484252929688,
+      "learning_rate": 8.75e-05,
+      "loss": 0.1698,
       "step": 60
     },
     {
+      "epoch": 0.4375,
+      "grad_norm": 30.354196548461914,
+      "learning_rate": 8.541666666666666e-05,
+      "loss": 0.1519,
       "step": 70
     },
     {
+      "epoch": 0.5,
+      "grad_norm": 30.821664810180664,
+      "learning_rate": 8.333333333333334e-05,
+      "loss": 0.143,
       "step": 80
     },
     {
+      "epoch": 0.5625,
+      "grad_norm": 35.24763488769531,
+      "learning_rate": 8.125000000000001e-05,
+      "loss": 0.1373,
       "step": 90
     },
     {
+      "epoch": 0.625,
+      "grad_norm": 34.299808502197266,
+      "learning_rate": 7.916666666666666e-05,
+      "loss": 0.1344,
       "step": 100
     },
     {
+      "epoch": 0.6875,
+      "grad_norm": 32.865936279296875,
+      "learning_rate": 7.708333333333334e-05,
+      "loss": 0.1282,
       "step": 110
     },
     {
+      "epoch": 0.75,
+      "grad_norm": 31.330398559570312,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.1282,
       "step": 120
     },
     {
+      "epoch": 0.8125,
+      "grad_norm": 30.16261100769043,
+      "learning_rate": 7.291666666666667e-05,
+      "loss": 0.1232,
       "step": 130
     },
     {
+      "epoch": 0.875,
+      "grad_norm": 29.665931701660156,
+      "learning_rate": 7.083333333333334e-05,
+      "loss": 0.1261,
       "step": 140
     },
     {
+      "epoch": 0.9375,
+      "grad_norm": 30.841318130493164,
+      "learning_rate": 6.875e-05,
+      "loss": 0.1241,
       "step": 150
     },
     {
+      "epoch": 1.0,
+      "grad_norm": 32.89496994018555,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 0.1253,
       "step": 160
     },
     {
+      "epoch": 1.0,
+      "step": 160,
       "total_flos": 0.0,
+      "train_loss": 0.30142025277018547,
+      "train_runtime": 98.1187,
+      "train_samples_per_second": 24.46,
+      "train_steps_per_second": 4.892
     }
   ],
   "logging_steps": 10,
+  "max_steps": 480,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 5,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:053be5ab108aa7512c29fea8130432a8346c0917d936d5ea4e067ce7993a94c3
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c4f9fc9bff2e218da5e9f8f7b396e54282341ce6e9263a7f1e576e953a84151
 size 5432