anthonym21
/

Eve-2-MoE-IT-272M

Text Generation

Mixture of Experts

instruction-tuning

Model card Files Files and versions

anthonym21 commited on 17 days ago

Commit

018e80e

·

verified ·

1 Parent(s): d46c8c6

Add config.json from base model

Files changed (1) hide show

config.json +15 -18

config.json CHANGED Viewed

@@ -1,28 +1,25 @@
 {
-  "architecture": "Eve-2-MoE",
-  "architectures": [
-    "DeepSeekMoE"
-  ],
   "auto_map": {
     "AutoConfig": "configuration_eve.EveConfig",
-    "AutoModelForCausalLM": "modeling_eve.DeepSeekMoE"
   },
-  "block_size": 2048,
-  "dtype": "float32",
-  "expert_intermediate_size": 1408,
-  "head_dim": 64,
-  "model_type": "eve_moe",
   "n_embd": 512,
   "n_head": 8,
-  "n_layer": 12,
   "num_experts": 8,
-  "rope_theta": 10000.0,
-  "router_aux_loss_coef": 0.01,
-  "shared_expert_intermediate_size": 1408,
   "top_k": 2,
-  "torch_dtype": "bfloat16",
-  "transformers_version": "5.1.0",
-  "use_cache": false,
   "use_checkpointing": false,
-  "vocab_size": 50304
 }

 {
+  "model_type": "eve-moe",
+  "architectures": ["EveMoEForCausalLM"],
   "auto_map": {
     "AutoConfig": "configuration_eve.EveConfig",
+    "AutoModelForCausalLM": "modeling_eve.EveMoEForCausalLM"
   },
+  "vocab_size": 50304,
+  "n_layer": 12,
   "n_embd": 512,
   "n_head": 8,
+  "head_dim": 64,
+  "block_size": 2048,
   "num_experts": 8,
   "top_k": 2,
+  "expert_intermediate_size": 1408,
+  "shared_expert_intermediate_size": 1408,
+  "router_aux_loss_coef": 0.01,
+  "rope_theta": 10000.0,
   "use_checkpointing": false,
+  "tie_word_embeddings": true,
+  "eos_token_id": 50256,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.46.0"
 }