End of training

Browse files

Files changed (5) hide show

README.md +11 -11
adapter_config.json +3 -3
adapter_model.bin +1 -1
adapter_model.safetensors +1 -1
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -47,7 +47,7 @@ flash_attention: false
 fp16: null
 fsdp: null
 fsdp_config: null
-gradient_accumulation_steps: 8
 gradient_checkpointing: true
 group_by_length: false
 hub_model_id: error577/69ac3202-cf79-4111-b16d-da0fe31ffabc
@@ -66,7 +66,7 @@ lora_model_dir: null
 lora_r: 32
 lora_target_linear: true
 lr_scheduler: cosine
-max_steps: 100
 micro_batch_size: 1
 mlflow_experiment_name: /tmp/3d88bfac1ccde48d_train_data.json
 model_type: AutoModelForCausalLM
@@ -103,7 +103,7 @@ xformers_attention: null
 This model is a fine-tuned version of [Qwen/Qwen2.5-1.5B](https://huggingface.co/Qwen/Qwen2.5-1.5B) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.7135
 ## Model description
@@ -126,22 +126,22 @@ The following hyperparameters were used during training:
 - train_batch_size: 1
 - eval_batch_size: 1
 - seed: 42
-- gradient_accumulation_steps: 8
-- total_train_batch_size: 8
 - optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
-- training_steps: 100
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 1.526         | 0.0029 | 1    | 2.0231          |
-| 1.8859        | 0.0729 | 25   | 1.8287          |
-| 0.9226        | 0.1458 | 50   | 1.7485          |
-| 1.1661        | 0.2187 | 75   | 1.7166          |
-| 2.294         | 0.2915 | 100  | 1.7135          |
 ### Framework versions

 fp16: null
 fsdp: null
 fsdp_config: null
+gradient_accumulation_steps: 64
 gradient_checkpointing: true
 group_by_length: false
 hub_model_id: error577/69ac3202-cf79-4111-b16d-da0fe31ffabc
 lora_r: 32
 lora_target_linear: true
 lr_scheduler: cosine
+max_steps: 200
 micro_batch_size: 1
 mlflow_experiment_name: /tmp/3d88bfac1ccde48d_train_data.json
 model_type: AutoModelForCausalLM
 This model is a fine-tuned version of [Qwen/Qwen2.5-1.5B](https://huggingface.co/Qwen/Qwen2.5-1.5B) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.5494
 ## Model description
 - train_batch_size: 1
 - eval_batch_size: 1
 - seed: 42
+- gradient_accumulation_steps: 64
+- total_train_batch_size: 64
 - optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
+- training_steps: 172
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 1.5951        | 0.0233 | 1    | 2.0231          |
+| 1.5663        | 1.0029 | 43   | 1.6817          |
+| 1.5289        | 2.0058 | 86   | 1.5872          |
+| 1.3722        | 3.0087 | 129  | 1.5542          |
+| 1.39          | 4.0117 | 172  | 1.5494          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -20,12 +20,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
     "o_proj",
-    "down_proj",
-    "gate_proj",
     "q_proj",
     "up_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "q_proj",
+    "k_proj",
     "up_proj",
+    "down_proj",
+    "gate_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM",

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e033717bde2241c5d4f5a159a0c34c4f567767d9f1fb9d77c222a18c2c18f571
 size 147859242

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9dfab119ba7fdcf0113494837f3b5fac80996a7cbe2b1fbb29d732e0956a432
 size 147859242

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d22b1e39d09fde947686d1f6f1d115b15ca7b9b5cc19448f37f958473ac151de
 size 147770496

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c8b056e6278e6be32c50a3535b67c04085c3bd95cde1527de2b6aae5887a53b
 size 147770496

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:efd69e395bedfe773586f3b6e308cfc3379e99b5cd06cf98cd8bfd846fa36985
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:fedecfbca3fb0ef10735db41fc352454423ddf8d61397fab77901f3128bf0212
 size 6776