fariasultana
/

MiniMind

Text Generation

Mixture of Experts

mixture-of-experts

grouped-query-attention

edge-deployment

Eval Results (legacy)

Model card Files Files and versions

fariasultana commited on Dec 4, 2025

Commit

f0cfdde

·

verified ·

1 Parent(s): 6a34acb

Add max2-nano model weights (98.9M params)

Files changed (1) hide show

config.json +14 -51

config.json CHANGED Viewed

@@ -1,59 +1,22 @@
 {
-  "architectures": ["Max2ForCausalLM"],
   "model_type": "max2",
-  "auto_map": {
-    "AutoConfig": "configs.model_config--Max2Config",
-    "AutoModelForCausalLM": "model.mind2_model--Max2ForCausalLM"
-  },
-  "hidden_size": 1536,
-  "intermediate_size": 4096,
-  "num_hidden_layers": 24,
   "num_attention_heads": 12,
   "num_key_value_heads": 3,
   "vocab_size": 32000,
-  "max_position_embeddings": 8192,
   "rope_theta": 10000.0,
   "use_moe": true,
-  "num_experts": 8,
-  "num_experts_per_tok": 2,
-  "expert_hidden_size": 1024,
-  "router_aux_loss_coef": 0.01,
-  "rms_norm_eps": 1e-6,
-  "hidden_act": "silu",
-  "hidden_dropout": 0.0,
-  "attention_dropout": 0.0,
-  "pad_token_id": 0,
-  "bos_token_id": 1,
-  "eos_token_id": 2,
-  "initializer_range": 0.02,
-  "use_cache": true,
-  "use_flash_attention": true,
   "torch_dtype": "float16",
-  "transformers_version": "4.40.0",
-  "model_variants": {
-    "max2-nano": {
-      "hidden_size": 768,
-      "num_hidden_layers": 12,
-      "num_experts": 4,
-      "num_experts_per_tok": 1,
-      "total_params": "500M",
-      "active_params": "125M"
-    },
-    "max2-lite": {
-      "hidden_size": 1536,
-      "num_hidden_layers": 24,
-      "num_experts": 8,
-      "num_experts_per_tok": 2,
-      "total_params": "1.5B",
-      "active_params": "375M"
-    },
-    "max2-pro": {
-      "hidden_size": 2560,
-      "num_hidden_layers": 32,
-      "num_experts": 8,
-      "num_experts_per_tok": 2,
-      "total_params": "3B",
-      "active_params": "750M"
-    }
-  }
-}

 {
+  "architectures": [
+    "Max2ForCausalLM"
+  ],
   "model_type": "max2",
+  "model_name": "max2-nano",
+  "hidden_size": 768,
+  "intermediate_size": 2048,
+  "num_hidden_layers": 12,
   "num_attention_heads": 12,
   "num_key_value_heads": 3,
   "vocab_size": 32000,
+  "max_position_embeddings": 4096,
   "rope_theta": 10000.0,
   "use_moe": true,
+  "num_experts": 4,
+  "num_experts_per_tok": 1,
+  "expert_hidden_size": 512,
+  "rms_norm_eps": 1e-06,
   "torch_dtype": "float16",
+  "transformers_version": "4.40.0"
+}