Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

adapter_config.json +3 -3
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
trainer_state.json +50 -50
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -10,7 +10,7 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 16,
   "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
@@ -20,8 +20,8 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 32,
   "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53f31f5151288ce8bce09f1be497668a07de0d67744cfec814e83a51a1f0373e
 size 109069176

 version https://git-lfs.github.com/spec/v1
+oid sha256:1912b4b957d908b8bfc710c3e58558d93617ba78eeee6b44cea5846184e311aa
 size 109069176

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba21787dc827ac1988c3dc98860a3c8ae6b18c637d435abd180fe66fbdbc2e36
 size 218182458

 version https://git-lfs.github.com/spec/v1
+oid sha256:f61189ba8e2df9508d8734043f68c2833bde41baa22941571ec4278f299a891b
 size 218182458

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54a18bd6f3c1fb6bc324ca3d6007005eb1895412504a4ac1675632ffc50077a8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e8d2ce26e6c0f5a47ca9bc5544c0f80a1d4937019d9d7af01320826a96817c0
 size 14244

trainer_state.json CHANGED Viewed

@@ -10,122 +10,122 @@
   "log_history": [
     {
       "epoch": 0.24154589371980675,
-      "grad_norm": 0.3504341244697571,
       "learning_rate": 0.000493936638139193,
-      "loss": 1.2154,
       "step": 25
     },
     {
       "epoch": 0.24154589371980675,
-      "eval_loss": 1.2845402956008911,
-      "eval_runtime": 58.0708,
-      "eval_samples_per_second": 3.565,
-      "eval_steps_per_second": 0.448,
       "step": 25
     },
     {
       "epoch": 0.4830917874396135,
-      "grad_norm": 0.11877840012311935,
       "learning_rate": 0.000463751348237005,
-      "loss": 0.7638,
       "step": 50
     },
     {
       "epoch": 0.4830917874396135,
-      "eval_loss": 1.255712628364563,
-      "eval_runtime": 58.0315,
-      "eval_samples_per_second": 3.567,
-      "eval_steps_per_second": 0.448,
       "step": 50
     },
     {
       "epoch": 0.7246376811594203,
-      "grad_norm": 0.09250932186841965,
       "learning_rate": 0.000411248712216741,
-      "loss": 0.7477,
       "step": 75
     },
     {
       "epoch": 0.7246376811594203,
-      "eval_loss": 1.1869494915008545,
-      "eval_runtime": 57.9221,
-      "eval_samples_per_second": 3.574,
-      "eval_steps_per_second": 0.449,
       "step": 75
     },
     {
       "epoch": 0.966183574879227,
-      "grad_norm": 0.10278703272342682,
       "learning_rate": 0.00034191042415818,
-      "loss": 0.7249,
       "step": 100
     },
     {
       "epoch": 0.966183574879227,
-      "eval_loss": 1.317003607749939,
-      "eval_runtime": 57.9128,
-      "eval_samples_per_second": 3.574,
-      "eval_steps_per_second": 0.449,
       "step": 100
     },
     {
       "epoch": 1.2077294685990339,
-      "grad_norm": 0.09411193430423737,
       "learning_rate": 0.00026297595453297494,
-      "loss": 0.7095,
       "step": 125
     },
     {
       "epoch": 1.2077294685990339,
-      "eval_loss": 1.3763236999511719,
-      "eval_runtime": 57.9829,
-      "eval_samples_per_second": 3.57,
-      "eval_steps_per_second": 0.448,
       "step": 125
     },
     {
       "epoch": 1.4492753623188406,
-      "grad_norm": 0.08513357490301132,
       "learning_rate": 0.00018268669172909137,
-      "loss": 0.708,
       "step": 150
     },
     {
       "epoch": 1.4492753623188406,
-      "eval_loss": 1.2287328243255615,
-      "eval_runtime": 57.9704,
-      "eval_samples_per_second": 3.571,
-      "eval_steps_per_second": 0.449,
       "step": 150
     },
     {
       "epoch": 1.6908212560386473,
-      "grad_norm": 0.08826680481433868,
       "learning_rate": 0.00010942547535123056,
-      "loss": 0.7055,
       "step": 175
     },
     {
       "epoch": 1.6908212560386473,
-      "eval_loss": 1.2410857677459717,
-      "eval_runtime": 58.0223,
-      "eval_samples_per_second": 3.568,
-      "eval_steps_per_second": 0.448,
       "step": 175
     },
     {
       "epoch": 1.9323671497584543,
-      "grad_norm": 0.0850740373134613,
       "learning_rate": 5.0841360885691e-05,
-      "loss": 0.7017,
       "step": 200
     },
     {
       "epoch": 1.9323671497584543,
-      "eval_loss": 1.2755271196365356,
-      "eval_runtime": 57.8348,
-      "eval_samples_per_second": 3.579,
-      "eval_steps_per_second": 0.45,
       "step": 200
     }
   ],
@@ -133,7 +133,7 @@
   "max_steps": 250,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
-  "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -146,7 +146,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8667153521278976e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.24154589371980675,
+      "grad_norm": 0.24812498688697815,
       "learning_rate": 0.000493936638139193,
+      "loss": 1.1502,
       "step": 25
     },
     {
       "epoch": 0.24154589371980675,
+      "eval_loss": 0.9789943099021912,
+      "eval_runtime": 52.5341,
+      "eval_samples_per_second": 3.94,
+      "eval_steps_per_second": 0.495,
       "step": 25
     },
     {
       "epoch": 0.4830917874396135,
+      "grad_norm": 0.35792288184165955,
       "learning_rate": 0.000463751348237005,
+      "loss": 0.9241,
       "step": 50
     },
     {
       "epoch": 0.4830917874396135,
+      "eval_loss": 0.9137127995491028,
+      "eval_runtime": 52.1664,
+      "eval_samples_per_second": 3.968,
+      "eval_steps_per_second": 0.498,
       "step": 50
     },
     {
       "epoch": 0.7246376811594203,
+      "grad_norm": 0.1500280201435089,
       "learning_rate": 0.000411248712216741,
+      "loss": 0.8907,
       "step": 75
     },
     {
       "epoch": 0.7246376811594203,
+      "eval_loss": 0.871120274066925,
+      "eval_runtime": 52.6024,
+      "eval_samples_per_second": 3.935,
+      "eval_steps_per_second": 0.494,
       "step": 75
     },
     {
       "epoch": 0.966183574879227,
+      "grad_norm": 0.17570209503173828,
       "learning_rate": 0.00034191042415818,
+      "loss": 0.8684,
       "step": 100
     },
     {
       "epoch": 0.966183574879227,
+      "eval_loss": 0.8509008288383484,
+      "eval_runtime": 52.4802,
+      "eval_samples_per_second": 3.944,
+      "eval_steps_per_second": 0.495,
       "step": 100
     },
     {
       "epoch": 1.2077294685990339,
+      "grad_norm": 0.12721501290798187,
       "learning_rate": 0.00026297595453297494,
+      "loss": 0.8553,
       "step": 125
     },
     {
       "epoch": 1.2077294685990339,
+      "eval_loss": 0.8410875201225281,
+      "eval_runtime": 52.6568,
+      "eval_samples_per_second": 3.931,
+      "eval_steps_per_second": 0.494,
       "step": 125
     },
     {
       "epoch": 1.4492753623188406,
+      "grad_norm": 0.14220421016216278,
       "learning_rate": 0.00018268669172909137,
+      "loss": 0.8527,
       "step": 150
     },
     {
       "epoch": 1.4492753623188406,
+      "eval_loss": 0.8425164818763733,
+      "eval_runtime": 52.5225,
+      "eval_samples_per_second": 3.941,
+      "eval_steps_per_second": 0.495,
       "step": 150
     },
     {
       "epoch": 1.6908212560386473,
+      "grad_norm": 0.13018099963665009,
       "learning_rate": 0.00010942547535123056,
+      "loss": 0.8532,
       "step": 175
     },
     {
       "epoch": 1.6908212560386473,
+      "eval_loss": 0.83249831199646,
+      "eval_runtime": 52.6913,
+      "eval_samples_per_second": 3.929,
+      "eval_steps_per_second": 0.493,
       "step": 175
     },
     {
       "epoch": 1.9323671497584543,
+      "grad_norm": 0.1186065599322319,
       "learning_rate": 5.0841360885691e-05,
+      "loss": 0.8463,
       "step": 200
     },
     {
       "epoch": 1.9323671497584543,
+      "eval_loss": 0.8275504112243652,
+      "eval_runtime": 52.8803,
+      "eval_samples_per_second": 3.915,
+      "eval_steps_per_second": 0.492,
       "step": 200
     }
   ],
   "max_steps": 250,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
+  "save_steps": 50,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 1.5515046692683776e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10646daa363a63b95014966745d9c23a0caf85b2d424c228c2ecbcbe5088f9b2
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:6dfba6deedf548ad55e99786ef825605d398f2faa387a7055cf0e4a125a246d4
 size 5368