Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

checkpoint-40/adapter_config.json +4 -4
checkpoint-40/adapter_model.safetensors +1 -1
checkpoint-40/trainer_state.json +38 -38
checkpoint-40/training_args.bin +1 -1
checkpoint-50/adapter_config.json +4 -4
checkpoint-50/adapter_model.safetensors +1 -1
checkpoint-50/trainer_state.json +48 -48
checkpoint-50/training_args.bin +1 -1

checkpoint-40/adapter_config.json CHANGED Viewed

@@ -33,13 +33,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
     "v_proj",
-    "up_proj",
-    "gate_proj",
     "k_proj",
-    "q_proj",
-    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
+    "gate_proj",
     "down_proj",
     "v_proj",
+    "o_proj",
     "k_proj",
+    "up_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoint-40/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae42738c68ca2f49cdb8eceaeee24eb6786311a7bb2e6ce6b923d9a2c5081ef3
 size 528550256

 version https://git-lfs.github.com/spec/v1
+oid sha256:9560e2e50cfadee75690ba80538050731c99673fc654696e56c3ca4a6f88c515
 size 528550256

checkpoint-40/trainer_state.json CHANGED Viewed

@@ -11,94 +11,94 @@
   "log_history": [
     {
       "epoch": 0.04509582863585118,
-      "eval_loss": 2.755807876586914,
-      "eval_runtime": 49.9512,
-      "eval_samples_per_second": 3.744,
-      "eval_steps_per_second": 1.882,
       "step": 5
     },
     {
       "epoch": 0.09019165727170236,
-      "grad_norm": 8.082921704044566e-05,
       "learning_rate": 3.91304347826087e-06,
       "loss": 2.5175,
       "step": 10
     },
     {
       "epoch": 0.09019165727170236,
-      "eval_loss": 2.642366886138916,
-      "eval_runtime": 48.9639,
-      "eval_samples_per_second": 3.819,
-      "eval_steps_per_second": 1.92,
       "step": 10
     },
     {
       "epoch": 0.13528748590755355,
-      "eval_loss": 2.448051691055298,
-      "eval_runtime": 48.7281,
-      "eval_samples_per_second": 3.838,
-      "eval_steps_per_second": 1.929,
       "step": 15
     },
     {
       "epoch": 0.18038331454340473,
-      "grad_norm": 5.596791743300855e-05,
       "learning_rate": 8.260869565217392e-06,
       "loss": 2.3923,
       "step": 20
     },
     {
       "epoch": 0.18038331454340473,
-      "eval_loss": 2.2489748001098633,
-      "eval_runtime": 48.9996,
-      "eval_samples_per_second": 3.816,
-      "eval_steps_per_second": 1.918,
       "step": 20
     },
     {
       "epoch": 0.2254791431792559,
-      "eval_loss": 2.101285934448242,
-      "eval_runtime": 48.6925,
-      "eval_samples_per_second": 3.84,
-      "eval_steps_per_second": 1.93,
       "step": 25
     },
     {
       "epoch": 0.2705749718151071,
-      "grad_norm": 2.360753387620207e-05,
       "learning_rate": 9.97758641300553e-06,
-      "loss": 1.9697,
       "step": 30
     },
     {
       "epoch": 0.2705749718151071,
-      "eval_loss": 2.018988847732544,
-      "eval_runtime": 49.2078,
-      "eval_samples_per_second": 3.8,
-      "eval_steps_per_second": 1.91,
       "step": 30
     },
     {
       "epoch": 0.3156708004509583,
-      "eval_loss": 1.968351125717163,
-      "eval_runtime": 48.7611,
-      "eval_samples_per_second": 3.835,
-      "eval_steps_per_second": 1.928,
       "step": 35
     },
     {
       "epoch": 0.36076662908680945,
-      "grad_norm": 1.8503900719224475e-05,
       "learning_rate": 9.841341526992536e-06,
-      "loss": 1.9253,
       "step": 40
     },
     {
       "epoch": 0.36076662908680945,
-      "eval_loss": 1.9313749074935913,
-      "eval_runtime": 48.6426,
-      "eval_samples_per_second": 3.844,
-      "eval_steps_per_second": 1.932,
       "step": 40
     }
   ],

   "log_history": [
     {
       "epoch": 0.04509582863585118,
+      "eval_loss": 2.755869150161743,
+      "eval_runtime": 39.8797,
+      "eval_samples_per_second": 4.689,
+      "eval_steps_per_second": 2.357,
       "step": 5
     },
     {
       "epoch": 0.09019165727170236,
+      "grad_norm": 8.087086462182924e-05,
       "learning_rate": 3.91304347826087e-06,
       "loss": 2.5175,
       "step": 10
     },
     {
       "epoch": 0.09019165727170236,
+      "eval_loss": 2.6424806118011475,
+      "eval_runtime": 39.4795,
+      "eval_samples_per_second": 4.737,
+      "eval_steps_per_second": 2.381,
       "step": 10
     },
     {
       "epoch": 0.13528748590755355,
+      "eval_loss": 2.4479880332946777,
+      "eval_runtime": 39.6378,
+      "eval_samples_per_second": 4.718,
+      "eval_steps_per_second": 2.371,
       "step": 15
     },
     {
       "epoch": 0.18038331454340473,
+      "grad_norm": 5.596490518655628e-05,
       "learning_rate": 8.260869565217392e-06,
       "loss": 2.3923,
       "step": 20
     },
     {
       "epoch": 0.18038331454340473,
+      "eval_loss": 2.249032974243164,
+      "eval_runtime": 40.0741,
+      "eval_samples_per_second": 4.666,
+      "eval_steps_per_second": 2.346,
       "step": 20
     },
     {
       "epoch": 0.2254791431792559,
+      "eval_loss": 2.1012394428253174,
+      "eval_runtime": 39.6516,
+      "eval_samples_per_second": 4.716,
+      "eval_steps_per_second": 2.371,
       "step": 25
     },
     {
       "epoch": 0.2705749718151071,
+      "grad_norm": 2.367888009757735e-05,
       "learning_rate": 9.97758641300553e-06,
+      "loss": 1.9696,
       "step": 30
     },
     {
       "epoch": 0.2705749718151071,
+      "eval_loss": 2.0189175605773926,
+      "eval_runtime": 39.4326,
+      "eval_samples_per_second": 4.742,
+      "eval_steps_per_second": 2.384,
       "step": 30
     },
     {
       "epoch": 0.3156708004509583,
+      "eval_loss": 1.9682776927947998,
+      "eval_runtime": 39.6167,
+      "eval_samples_per_second": 4.72,
+      "eval_steps_per_second": 2.373,
       "step": 35
     },
     {
       "epoch": 0.36076662908680945,
+      "grad_norm": 1.8539132724981755e-05,
       "learning_rate": 9.841341526992536e-06,
+      "loss": 1.9254,
       "step": 40
     },
     {
       "epoch": 0.36076662908680945,
+      "eval_loss": 1.9314751625061035,
+      "eval_runtime": 40.1866,
+      "eval_samples_per_second": 4.653,
+      "eval_steps_per_second": 2.339,
       "step": 40
     }
   ],

checkpoint-40/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a29b26ce399fed6a1d0492eeac81ed205826ce22d3f0cc648ca6f3a187bd287f
 size 5841

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b72ba8573ed734a6285768fbde417a7804f6b0e1fd4951476235aa39cc1bc96
 size 5841

checkpoint-50/adapter_config.json CHANGED Viewed

@@ -33,13 +33,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
     "v_proj",
-    "up_proj",
-    "gate_proj",
     "k_proj",
-    "q_proj",
-    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
+    "gate_proj",
     "down_proj",
     "v_proj",
+    "o_proj",
     "k_proj",
+    "up_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoint-50/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43b441ced103345b13a797a29f58fd6e045555859827771bb4f5c6907dc14668
 size 528550256

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7cec7abd5fbd48dc990315f94392a9ffcffa5abc279d02ddcd15b13fe159459
 size 528550256

checkpoint-50/trainer_state.json CHANGED Viewed

@@ -11,117 +11,117 @@
   "log_history": [
     {
       "epoch": 0.04509582863585118,
-      "eval_loss": 2.755807876586914,
-      "eval_runtime": 49.9512,
-      "eval_samples_per_second": 3.744,
-      "eval_steps_per_second": 1.882,
       "step": 5
     },
     {
       "epoch": 0.09019165727170236,
-      "grad_norm": 8.082921704044566e-05,
       "learning_rate": 3.91304347826087e-06,
       "loss": 2.5175,
       "step": 10
     },
     {
       "epoch": 0.09019165727170236,
-      "eval_loss": 2.642366886138916,
-      "eval_runtime": 48.9639,
-      "eval_samples_per_second": 3.819,
-      "eval_steps_per_second": 1.92,
       "step": 10
     },
     {
       "epoch": 0.13528748590755355,
-      "eval_loss": 2.448051691055298,
-      "eval_runtime": 48.7281,
-      "eval_samples_per_second": 3.838,
-      "eval_steps_per_second": 1.929,
       "step": 15
     },
     {
       "epoch": 0.18038331454340473,
-      "grad_norm": 5.596791743300855e-05,
       "learning_rate": 8.260869565217392e-06,
       "loss": 2.3923,
       "step": 20
     },
     {
       "epoch": 0.18038331454340473,
-      "eval_loss": 2.2489748001098633,
-      "eval_runtime": 48.9996,
-      "eval_samples_per_second": 3.816,
-      "eval_steps_per_second": 1.918,
       "step": 20
     },
     {
       "epoch": 0.2254791431792559,
-      "eval_loss": 2.101285934448242,
-      "eval_runtime": 48.6925,
-      "eval_samples_per_second": 3.84,
-      "eval_steps_per_second": 1.93,
       "step": 25
     },
     {
       "epoch": 0.2705749718151071,
-      "grad_norm": 2.360753387620207e-05,
       "learning_rate": 9.97758641300553e-06,
-      "loss": 1.9697,
       "step": 30
     },
     {
       "epoch": 0.2705749718151071,
-      "eval_loss": 2.018988847732544,
-      "eval_runtime": 49.2078,
-      "eval_samples_per_second": 3.8,
-      "eval_steps_per_second": 1.91,
       "step": 30
     },
     {
       "epoch": 0.3156708004509583,
-      "eval_loss": 1.968351125717163,
-      "eval_runtime": 48.7611,
-      "eval_samples_per_second": 3.835,
-      "eval_steps_per_second": 1.928,
       "step": 35
     },
     {
       "epoch": 0.36076662908680945,
-      "grad_norm": 1.8503900719224475e-05,
       "learning_rate": 9.841341526992536e-06,
-      "loss": 1.9253,
       "step": 40
     },
     {
       "epoch": 0.36076662908680945,
-      "eval_loss": 1.9313749074935913,
-      "eval_runtime": 48.6426,
-      "eval_samples_per_second": 3.844,
-      "eval_steps_per_second": 1.932,
       "step": 40
     },
     {
       "epoch": 0.40586245772266066,
-      "eval_loss": 1.9003801345825195,
-      "eval_runtime": 48.7802,
-      "eval_samples_per_second": 3.834,
-      "eval_steps_per_second": 1.927,
       "step": 45
     },
     {
       "epoch": 0.4509582863585118,
-      "grad_norm": 1.6762534869485535e-05,
       "learning_rate": 9.584688140963945e-06,
-      "loss": 1.7795,
       "step": 50
     },
     {
       "epoch": 0.4509582863585118,
-      "eval_loss": 1.872605323791504,
-      "eval_runtime": 49.0664,
-      "eval_samples_per_second": 3.811,
-      "eval_steps_per_second": 1.916,
       "step": 50
     }
   ],

   "log_history": [
     {
       "epoch": 0.04509582863585118,
+      "eval_loss": 2.755869150161743,
+      "eval_runtime": 39.8797,
+      "eval_samples_per_second": 4.689,
+      "eval_steps_per_second": 2.357,
       "step": 5
     },
     {
       "epoch": 0.09019165727170236,
+      "grad_norm": 8.087086462182924e-05,
       "learning_rate": 3.91304347826087e-06,
       "loss": 2.5175,
       "step": 10
     },
     {
       "epoch": 0.09019165727170236,
+      "eval_loss": 2.6424806118011475,
+      "eval_runtime": 39.4795,
+      "eval_samples_per_second": 4.737,
+      "eval_steps_per_second": 2.381,
       "step": 10
     },
     {
       "epoch": 0.13528748590755355,
+      "eval_loss": 2.4479880332946777,
+      "eval_runtime": 39.6378,
+      "eval_samples_per_second": 4.718,
+      "eval_steps_per_second": 2.371,
       "step": 15
     },
     {
       "epoch": 0.18038331454340473,
+      "grad_norm": 5.596490518655628e-05,
       "learning_rate": 8.260869565217392e-06,
       "loss": 2.3923,
       "step": 20
     },
     {
       "epoch": 0.18038331454340473,
+      "eval_loss": 2.249032974243164,
+      "eval_runtime": 40.0741,
+      "eval_samples_per_second": 4.666,
+      "eval_steps_per_second": 2.346,
       "step": 20
     },
     {
       "epoch": 0.2254791431792559,
+      "eval_loss": 2.1012394428253174,
+      "eval_runtime": 39.6516,
+      "eval_samples_per_second": 4.716,
+      "eval_steps_per_second": 2.371,
       "step": 25
     },
     {
       "epoch": 0.2705749718151071,
+      "grad_norm": 2.367888009757735e-05,
       "learning_rate": 9.97758641300553e-06,
+      "loss": 1.9696,
       "step": 30
     },
     {
       "epoch": 0.2705749718151071,
+      "eval_loss": 2.0189175605773926,
+      "eval_runtime": 39.4326,
+      "eval_samples_per_second": 4.742,
+      "eval_steps_per_second": 2.384,
       "step": 30
     },
     {
       "epoch": 0.3156708004509583,
+      "eval_loss": 1.9682776927947998,
+      "eval_runtime": 39.6167,
+      "eval_samples_per_second": 4.72,
+      "eval_steps_per_second": 2.373,
       "step": 35
     },
     {
       "epoch": 0.36076662908680945,
+      "grad_norm": 1.8539132724981755e-05,
       "learning_rate": 9.841341526992536e-06,
+      "loss": 1.9254,
       "step": 40
     },
     {
       "epoch": 0.36076662908680945,
+      "eval_loss": 1.9314751625061035,
+      "eval_runtime": 40.1866,
+      "eval_samples_per_second": 4.653,
+      "eval_steps_per_second": 2.339,
       "step": 40
     },
     {
       "epoch": 0.40586245772266066,
+      "eval_loss": 1.9004476070404053,
+      "eval_runtime": 39.7173,
+      "eval_samples_per_second": 4.708,
+      "eval_steps_per_second": 2.367,
       "step": 45
     },
     {
       "epoch": 0.4509582863585118,
+      "grad_norm": 1.6754116586525925e-05,
       "learning_rate": 9.584688140963945e-06,
+      "loss": 1.7796,
       "step": 50
     },
     {
       "epoch": 0.4509582863585118,
+      "eval_loss": 1.8727240562438965,
+      "eval_runtime": 39.3767,
+      "eval_samples_per_second": 4.749,
+      "eval_steps_per_second": 2.387,
       "step": 50
     }
   ],

checkpoint-50/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a29b26ce399fed6a1d0492eeac81ed205826ce22d3f0cc648ca6f3a187bd287f
 size 5841

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b72ba8573ed734a6285768fbde417a7804f6b0e1fd4951476235aa39cc1bc96
 size 5841