sucharush/camel_qwen_sft_big

Files changed (5) hide show

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [Qwen/Qwen3-0.6B-Base](https://huggingface.co/Qwen/Qwen3-0.6B-Base) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5060
 ## Model description
@@ -39,8 +39,8 @@ The following hyperparameters were used during training:
 - train_batch_size: 4
 - eval_batch_size: 2
 - seed: 42
-- gradient_accumulation_steps: 4
-- total_train_batch_size: 16
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 100
@@ -50,12 +50,14 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 0.5411        | 0.1616 | 500  | 0.5226          |
-| 0.5331        | 0.3232 | 1000 | 0.5140          |
-| 0.5182        | 0.4848 | 1500 | 0.5095          |
-| 0.5193        | 0.6465 | 2000 | 0.5072          |
-| 0.5034        | 0.8081 | 2500 | 0.5062          |
-| 0.5079        | 0.9697 | 3000 | 0.5060          |
 ### Framework versions

 This model is a fine-tuned version of [Qwen/Qwen3-0.6B-Base](https://huggingface.co/Qwen/Qwen3-0.6B-Base) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5013
 ## Model description
 - train_batch_size: 4
 - eval_batch_size: 2
 - seed: 42
+- gradient_accumulation_steps: 6
+- total_train_batch_size: 24
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 100
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 0.5374        | 0.1212 | 500  | 0.5227          |
+| 0.5229        | 0.2424 | 1000 | 0.5129          |
+| 0.5135        | 0.3636 | 1500 | 0.5077          |
+| 0.5113        | 0.4848 | 2000 | 0.5045          |
+| 0.51          | 0.6061 | 2500 | 0.5027          |
+| 0.5119        | 0.7273 | 3000 | 0.5017          |
+| 0.5069        | 0.8485 | 3500 | 0.5014          |
+| 0.508         | 0.9697 | 4000 | 0.5013          |
 ### Framework versions

config.json CHANGED Viewed

@@ -24,7 +24,7 @@
   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.51.3",
-  "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 151936
 }

   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.51.3",
+  "use_cache": false,
   "use_sliding_window": false,
   "vocab_size": 151936
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b924b913ac41ff8ed975d3f525587efceae944a9988ef72996faa99180c2d36
 size 1192135096

 version https://git-lfs.github.com/spec/v1
+oid sha256:5065157b287e9f868e108bf9056d9ea61ee6f6aff35d2a2dcf8a59a760f7e587
 size 1192135096

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae1a036a9837df9caeebb840d09d80e8feef0f6d2bae982970d1ad34f5946aff
-size 11422753

 version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd2cd2a9bc5c9f88974cfd47d915aac319d6590ce29708c2879f2054c92bf383
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:f60b83c1bc76bdef9217e9fd62862d94c1a3f50aaa3e119c9541e1b4729fd6c3
 size 5240