optimum-internal-testing
/

tiny-random-internlm2

Text Generation

Model card Files Files and versions

IlyasMoutawwakil HF Staff commited on Sep 8, 2025

Commit

ee4aed2

·

verified ·

1 Parent(s): 8ab1e26

Update modeling_internlm2.py

Files changed (1) hide show

modeling_internlm2.py +4 -4

modeling_internlm2.py CHANGED Viewed

@@ -360,12 +360,12 @@ class InternLM2Attention(nn.Module):
         value_states = value_states.transpose(1, 2)
         kv_seq_len = key_states.shape[-2]
-        if past_key_value is not None:
             kv_seq_len += past_key_value[0].shape[-2]
         cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
         query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
-        if past_key_value is not None:
             # reuse k, v, self_attention
             key_states = torch.cat([past_key_value[0], key_states], dim=2)
             value_states = torch.cat([past_key_value[1], value_states], dim=2)
@@ -462,14 +462,14 @@ class InternLM2FlashAttention2(InternLM2Attention):
         value_states = value_states.transpose(1, 2)
         kv_seq_len = key_states.shape[-2]
-        if past_key_value is not None:
             kv_seq_len += past_key_value[0].shape[-2]
         cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
         query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
-        if past_key_value is not None:
             # reuse k, v, self_attention
             key_states = torch.cat([past_key_value[0], key_states], dim=2)
             value_states = torch.cat([past_key_value[1], value_states], dim=2)

         value_states = value_states.transpose(1, 2)
         kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None and past_key_value[0] is not None:
             kv_seq_len += past_key_value[0].shape[-2]
         cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
         query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
+        if past_key_value is not None and past_key_value[0] is not None:
             # reuse k, v, self_attention
             key_states = torch.cat([past_key_value[0], key_states], dim=2)
             value_states = torch.cat([past_key_value[1], value_states], dim=2)
         value_states = value_states.transpose(1, 2)
         kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None and past_key_value[0] is not None:
             kv_seq_len += past_key_value[0].shape[-2]
         cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
         query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
+        if past_key_value is not None and past_key_value[0] is not None:
             # reuse k, v, self_attention
             key_states = torch.cat([past_key_value[0], key_states], dim=2)
             value_states = torch.cat([past_key_value[1], value_states], dim=2)