if001
/

DeepSeek-R1-0528-tiny

Text Generation

text-generation-inference

Model card Files Files and versions

if001 commited on Aug 15

Commit

93f0ec5

·

verified ·

1 Parent(s): f4b5094

Upload model

Files changed (2) hide show

config.json +10 -5
model.safetensors +3 -0

config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "architectures": [
-    "DeepseekV3ForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
@@ -13,6 +13,7 @@
   "eos_token_id": 1,
   "ep_size": 1,
   "first_k_dense_replace": 3,
   "hidden_act": "silu",
   "hidden_size": 128,
   "initializer_range": 0.02,
@@ -31,17 +32,21 @@
   "num_hidden_layers": 3,
   "num_key_value_heads": 128,
   "num_nextn_predict_layers": 1,
   "q_lora_rank": 1536,
   "qk_nope_head_dim": 128,
   "qk_rope_head_dim": 64,
   "rms_norm_eps": 1e-06,
   "rope_scaling": {
-    "beta_fast": 32,
-    "beta_slow": 1,
-    "factor": 40,
     "mscale": 1.0,
     "mscale_all_dim": 1.0,
     "original_max_position_embeddings": 4096,
     "type": "yarn"
   },
   "rope_theta": 10000,
@@ -51,7 +56,7 @@
   "topk_group": 4,
   "topk_method": "noaux_tc",
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.46.3",
   "use_cache": true,
   "v_head_dim": 128,
   "vocab_size": 129280

 {
   "architectures": [
+    "DeepseekV3Model"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
   "eos_token_id": 1,
   "ep_size": 1,
   "first_k_dense_replace": 3,
+  "head_dim": 64,
   "hidden_act": "silu",
   "hidden_size": 128,
   "initializer_range": 0.02,
   "num_hidden_layers": 3,
   "num_key_value_heads": 128,
   "num_nextn_predict_layers": 1,
+  "pretraining_tp": 1,
   "q_lora_rank": 1536,
+  "qk_head_dim": 192,
   "qk_nope_head_dim": 128,
   "qk_rope_head_dim": 64,
   "rms_norm_eps": 1e-06,
+  "rope_interleave": true,
   "rope_scaling": {
+    "beta_fast": 32.0,
+    "beta_slow": 1.0,
+    "factor": 40.0,
     "mscale": 1.0,
     "mscale_all_dim": 1.0,
     "original_max_position_embeddings": 4096,
+    "rope_type": "yarn",
     "type": "yarn"
   },
   "rope_theta": 10000,
   "topk_group": 4,
   "topk_method": "noaux_tc",
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.55.0",
   "use_cache": true,
   "v_head_dim": 128,
   "vocab_size": 129280

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f46e95778e1e35bab985a28af36dd0f2e0822fbaa076f981913a35269c04cf6a
+size 416941856