Blancy
/

Qwen3-0.6B-Open-R1-Distill

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

Blancy commited on Jul 22, 2025

Commit

c563a34

·

verified ·

1 Parent(s): e461a3d

Training in progress, step 99

Files changed (3) hide show

config.json +3 -3
model.safetensors +2 -2
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -8,9 +8,9 @@
   "eos_token_id": 151645,
   "head_dim": 128,
   "hidden_act": "silu",
-  "hidden_size": 1024,
   "initializer_range": 0.02,
-  "intermediate_size": 3072,
   "max_position_embeddings": 40960,
   "max_window_layers": 28,
   "model_type": "qwen3",
@@ -24,7 +24,7 @@
   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.52.3",
-  "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 151936
 }

   "eos_token_id": 151645,
   "head_dim": 128,
   "hidden_act": "silu",
+  "hidden_size": 2048,
   "initializer_range": 0.02,
+  "intermediate_size": 6144,
   "max_position_embeddings": 40960,
   "max_window_layers": 28,
   "model_type": "qwen3",
   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.52.3",
+  "use_cache": false,
   "use_sliding_window": false,
   "vocab_size": 151936
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da162810123dc5d44e301432cb727b474fafa32b518a3515081ae68eda27ff9a
-size 1192135096

 version https://git-lfs.github.com/spec/v1
+oid sha256:4cb7b6d958ddffe7591bfe860392be29a76009c30131335e01e55ddb9aa0c2e3
+size 3441185608

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b036d6da73efdd6866ddc45c9366556ace228da2fd8e4fcbb692617dc435c962
 size 6072

 version https://git-lfs.github.com/spec/v1
+oid sha256:3138ba4297a8c5d0603521e2f435391a6d7ff9e178a25690a82bab648b2053a5
 size 6072