np-cr
/

testing-glm4-moe

@@ -20,14 +20,14 @@
   "model_type": "glm4_moe",
   "moe_intermediate_size": 1408,
   "n_group": 1,
-  "n_routed_experts": 4,
   "n_shared_experts": 1,
   "norm_topk_prob": true,
   "num_attention_heads": 4,
-  "num_experts_per_tok": 4,
   "num_hidden_layers": 2,
   "num_key_value_heads": 2,
-  "num_local_experts": 4,
   "num_nextn_predict_layers": 1,
   "pad_token_id": 151329,
   "partial_rotary_factor": 0.5,

   "model_type": "glm4_moe",
   "moe_intermediate_size": 1408,
   "n_group": 1,
+  "n_routed_experts": 128,
   "n_shared_experts": 1,
   "norm_topk_prob": true,
   "num_attention_heads": 4,
+  "num_experts_per_tok": 8,
   "num_hidden_layers": 2,
   "num_key_value_heads": 2,
+  "num_local_experts": 128,
   "num_nextn_predict_layers": 1,
   "pad_token_id": 151329,
   "partial_rotary_factor": 0.5,