inclusionAI
/

LLaDA2.1-mini

Text Generation

text_generation

Model card Files Files and versions

utdawn commited on 9 days ago

Commit

276abc9

·

verified ·

1 Parent(s): a8af0fb

Update configuration_llada2_moe.py

Files changed (1) hide show

configuration_llada2_moe.py +5 -2

configuration_llada2_moe.py CHANGED Viewed

@@ -16,7 +16,7 @@ class LLaDA2MoeConfig(PretrainedConfig):
         num_key_value_heads=0,
         hidden_act="silu",
         use_qkv_bias=False,  # llada2 only
-        use_qk_norm=False,
         use_bias=True,  # llada2 only
         rms_norm_eps=1e-05,
         norm_head=False,  # llada2 only
@@ -54,6 +54,7 @@ class LLaDA2MoeConfig(PretrainedConfig):
         self.num_key_value_heads = num_key_value_heads
         self.hidden_act = hidden_act
         self.use_qkv_bias = use_qkv_bias
         self.use_bias = use_bias
         self.norm_head = norm_head
         self.rms_norm_eps = rms_norm_eps
@@ -82,4 +83,6 @@ class LLaDA2MoeConfig(PretrainedConfig):
         self.routed_scaling_factor = routed_scaling_factor
         self.partial_rotary_factor = partial_rotary_factor
-        super().__init__(pad_token_id=pad_token_id, tie_word_embeddings=tie_word_embeddings, **kwargs)

         num_key_value_heads=0,
         hidden_act="silu",
         use_qkv_bias=False,  # llada2 only
+        use_qk_norm=True,
         use_bias=True,  # llada2 only
         rms_norm_eps=1e-05,
         norm_head=False,  # llada2 only
         self.num_key_value_heads = num_key_value_heads
         self.hidden_act = hidden_act
         self.use_qkv_bias = use_qkv_bias
+        self.use_qk_norm = use_qk_norm
         self.use_bias = use_bias
         self.norm_head = norm_head
         self.rms_norm_eps = rms_norm_eps
         self.routed_scaling_factor = routed_scaling_factor
         self.partial_rotary_factor = partial_rotary_factor
+        super().__init__(
+            pad_token_id=pad_token_id, tie_word_embeddings=tie_word_embeddings, **kwargs
+        )