doubleblind
/

DeepSeek-R1-Distill-QweNSA-1.5B

Model card Files Files and versions

doubleblind commited on May 23, 2025

Commit

e414316

·

1 Parent(s): 03d21c5

minor formatting

Files changed (1) hide show

modeling_qwen2nsa.py +2 -0

modeling_qwen2nsa.py CHANGED Viewed

@@ -25,6 +25,7 @@ except ImportError:
 from native_sparse_attention_pytorch import SparseAttention
 class Qwen2RMSNorm(nn.Module):
     def __init__(self, hidden_size: int, eps: float = 1e-6):
         super().__init__()
@@ -233,6 +234,7 @@ class Qwen2Model(nn.Module):
             out["past_key_values"] = next_cache
         return out
 class Qwen2NsaForCausalLM(PreTrainedModel, GenerationMixin):
     config_class = Qwen2NsaConfig
     base_model_prefix = "model"

 from native_sparse_attention_pytorch import SparseAttention
 class Qwen2RMSNorm(nn.Module):
     def __init__(self, hidden_size: int, eps: float = 1e-6):
         super().__init__()
             out["past_key_values"] = next_cache
         return out
 class Qwen2NsaForCausalLM(PreTrainedModel, GenerationMixin):
     config_class = Qwen2NsaConfig
     base_model_prefix = "model"