nev8r
/

vermind_dense

Model card Files Files and versions

nev8r commited on Jan 18

Commit

f3303e1

·

verified ·

1 Parent(s): 2aea6be

Upload config.json

Files changed (1) hide show

config.json +16 -11

config.json CHANGED Viewed

@@ -1,29 +1,34 @@
 {
   "architectures": [
-    "LlamaForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
-  "bos_token_id": 1,
   "dtype": "float16",
-  "eos_token_id": 2,
   "head_dim": 64,
-  "hidden_act": "silu",
   "hidden_size": 768,
-  "initializer_range": 0.02,
   "intermediate_size": 2064,
   "max_position_embeddings": 2048,
-  "mlp_bias": false,
-  "model_type": "llama",
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
   "num_key_value_heads": 4,
-  "pretraining_tp": 1,
   "rms_norm_eps": 1e-06,
-  "rope_scaling": null,
   "rope_theta": 10000.0,
-  "tie_word_embeddings": true,
   "transformers_version": "4.57.5",
-  "use_cache": true,
   "vocab_size": 32772
 }

 {
   "architectures": [
+    "VerMindDenseForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
   "dtype": "float16",
+  "eos_token_id": 32769,
   "head_dim": 64,
+  "hidden_dropout": 0.0,
   "hidden_size": 768,
   "intermediate_size": 2064,
   "max_position_embeddings": 2048,
+  "model_type": "vermind_dense",
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
   "num_key_value_heads": 4,
+  "pad_token_id": 0,
+  "residual_dropout": 0.0,
   "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "attention_factor": 1.0,
+    "beta_fast": 32.0,
+    "beta_slow": 1.0,
+    "factor": 4.0,
+    "original_max_position_embeddings": 2048,
+    "type": "yarn"
+  },
   "rope_theta": 10000.0,
   "transformers_version": "4.57.5",
+  "use_cache": false,
+  "use_flash_attention": false,
   "vocab_size": 32772
 }