jetuned
/

cosmo-deepseek-moe

jetuned commited on Apr 14, 2025

Commit

d4fec2f

verified ·

1 Parent(s): f5e4dac

Upload folder using huggingface_hub

Files changed (1) hide show

modeling_deepseek.py CHANGED Viewed

@@ -1374,9 +1374,13 @@ class LatentTransformerLayer(nn.Module):
     def __init__(self, config, dropout=0.0):
         super().__init__()
         self.norm1 = DeepseekRMSNorm(config.hidden_size)
-        # Correctly initialize DeepseekAttention with modified config
         attn_config = DeepseekConfig(
-            **config.to_dict(),
             num_key_value_heads=config.num_attention_heads,  # Force Multi-Head Attention
             attention_bias=config.attention_bias,
             _attn_implementation="eager"  # Disable SDPA for stability

     def __init__(self, config, dropout=0.0):
         super().__init__()
         self.norm1 = DeepseekRMSNorm(config.hidden_size)
+        original_config_dict = config.to_dict()
+        original_config_dict.pop("num_key_value_heads", None)
+        original_config_dict.pop("attention_bias", None)
+        original_config_dict.pop("_attn_implementation", None)
+        # Correctly initialize DeepseekAttention with modified config using the filtered dictionary
         attn_config = DeepseekConfig(
+            **original_config_dict,
             num_key_value_heads=config.num_attention_heads,  # Force Multi-Head Attention
             attention_bias=config.attention_bias,
             _attn_implementation="eager"  # Disable SDPA for stability