Upload tiny-random deepseek_v32 model

Browse files

Files changed (2) hide show

model.safetensors +1 -1
modeling_deepseek_v32.py +5 -9

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03da7356ad6e835009b261e79b42873a223209903e8ef7d4a69993faee6e3a2f
 size 545819392

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7630389ac118c34d12846521ff5102b4ba0b97fa733ad63eb780c38aed731f0
 size 545819392

modeling_deepseek_v32.py CHANGED Viewed

@@ -796,7 +796,7 @@ class DeepseekV32Attention(nn.Module):
                     "for auto-regressive decoding with k/v caching, please make sure to initialize the attention class "
                     "with a layer index."
                 )
-            kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
         cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
         q_pe, k_pe = apply_rotary_pos_emb(q_pe, k_pe, cos, sin, position_ids)
@@ -930,7 +930,7 @@ class DeepseekV32FlashAttention2(DeepseekV32Attention):
         kv_seq_len = value_states.shape[-2]
         if past_key_value is not None:
-            kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
         cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
         q_pe, k_pe = apply_rotary_pos_emb(q_pe, k_pe, cos, sin, position_ids)
@@ -1430,8 +1430,8 @@ class DeepseekV32Model(DeepseekV32PreTrainedModel):
         if use_cache:
             use_legacy_cache = not isinstance(past_key_values, Cache)
             if use_legacy_cache:
-                past_key_values = DynamicCache.from_legacy_cache(past_key_values)
-            past_key_values_length = past_key_values.get_usable_length(seq_length)
         if position_ids is None:
             device = input_ids.device if input_ids is not None else inputs_embeds.device
@@ -1499,11 +1499,7 @@ class DeepseekV32Model(DeepseekV32PreTrainedModel):
         next_cache = None
         if use_cache:
-            next_cache = (
-                next_decoder_cache.to_legacy_cache()
-                if use_legacy_cache
-                else next_decoder_cache
-            )
         if not return_dict:
             return tuple(
                 v

                     "for auto-regressive decoding with k/v caching, please make sure to initialize the attention class "
                     "with a layer index."
                 )
+            kv_seq_len += past_key_value.get_seq_length(self.layer_idx)
         cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
         q_pe, k_pe = apply_rotary_pos_emb(q_pe, k_pe, cos, sin, position_ids)
         kv_seq_len = value_states.shape[-2]
         if past_key_value is not None:
+            kv_seq_len += past_key_value.get_seq_length(self.layer_idx)
         cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
         q_pe, k_pe = apply_rotary_pos_emb(q_pe, k_pe, cos, sin, position_ids)
         if use_cache:
             use_legacy_cache = not isinstance(past_key_values, Cache)
             if use_legacy_cache:
+                past_key_values = DynamicCache()
+            past_key_values_length = past_key_values.get_seq_length()
         if position_ids is None:
             device = input_ids.device if input_ids is not None else inputs_embeds.device
         next_cache = None
         if use_cache:
+            next_cache = next_decoder_cache
         if not return_dict:
             return tuple(
                 v