error577
/

9bbe02f2-64a5-465f-bf4c-4ea2695fbef3

@@ -47,7 +47,7 @@ flash_attention: true
 fp16:
 fsdp: null
 fsdp_config: null
-gradient_accumulation_steps: 4
 gradient_checkpointing: true
 group_by_length: false
 hub_model_id: error577/9bbe02f2-64a5-465f-bf4c-4ea2695fbef3
@@ -105,7 +105,7 @@ special_tokens:
 This model is a fine-tuned version of [unsloth/Llama-3.2-1B-Instruct](https://huggingface.co/unsloth/Llama-3.2-1B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.2247
 ## Model description
@@ -128,8 +128,8 @@ The following hyperparameters were used during training:
 - train_batch_size: 2
 - eval_batch_size: 2
 - seed: 42
-- gradient_accumulation_steps: 4
-- total_train_batch_size: 8
 - optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
@@ -139,21 +139,21 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 1.4083        | 0.0003 | 1    | 1.6697          |
-| 1.8789        | 0.0019 | 7    | 1.6074          |
-| 1.438         | 0.0037 | 14   | 1.4139          |
-| 1.1207        | 0.0056 | 21   | 1.3271          |
-| 1.4281        | 0.0075 | 28   | 1.2948          |
-| 1.0291        | 0.0093 | 35   | 1.2702          |
-| 1.2272        | 0.0112 | 42   | 1.2539          |
-| 1.1606        | 0.0131 | 49   | 1.2439          |
-| 1.2959        | 0.0149 | 56   | 1.2395          |
-| 1.3003        | 0.0168 | 63   | 1.2340          |
-| 1.4029        | 0.0187 | 70   | 1.2299          |
-| 1.2938        | 0.0205 | 77   | 1.2267          |
-| 1.164         | 0.0224 | 84   | 1.2257          |
-| 0.9039        | 0.0243 | 91   | 1.2248          |
-| 1.0404        | 0.0262 | 98   | 1.2247          |
 ### Framework versions

 fp16:
 fsdp: null
 fsdp_config: null
+gradient_accumulation_steps: 8
 gradient_checkpointing: true
 group_by_length: false
 hub_model_id: error577/9bbe02f2-64a5-465f-bf4c-4ea2695fbef3
 This model is a fine-tuned version of [unsloth/Llama-3.2-1B-Instruct](https://huggingface.co/unsloth/Llama-3.2-1B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.2094
 ## Model description
 - train_batch_size: 2
 - eval_batch_size: 2
 - seed: 42
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 16
 - optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 1.3023        | 0.0005 | 1    | 1.6697          |
+| 1.848         | 0.0037 | 7    | 1.5881          |
+| 1.3956        | 0.0075 | 14   | 1.3877          |
+| 1.2391        | 0.0112 | 21   | 1.3272          |
+| 1.497         | 0.0149 | 28   | 1.2778          |
+| 1.4533        | 0.0187 | 35   | 1.2552          |
+| 1.2165        | 0.0224 | 42   | 1.2408          |
+| 1.1767        | 0.0262 | 49   | 1.2297          |
+| 0.9731        | 0.0299 | 56   | 1.2223          |
+| 0.8316        | 0.0336 | 63   | 1.2189          |
+| 1.3272        | 0.0374 | 70   | 1.2140          |
+| 1.1467        | 0.0411 | 77   | 1.2112          |
+| 1.2043        | 0.0448 | 84   | 1.2099          |
+| 1.3629        | 0.0486 | 91   | 1.2091          |
+| 1.2862        | 0.0523 | 98   | 1.2094          |
 ### Framework versions

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20b04f9c744cfb674008e7198571b9510954c7b0dd39347c5f83bfbb7218753b
 size 90258378

 version https://git-lfs.github.com/spec/v1
+oid sha256:88d5954f2509570169eddadaabfd20fdc35423f33169dccd02eedb050baf578c
 size 90258378