Tele-AI
/

TeleChat-52B

@@ -257,7 +257,7 @@ class TELECHATAttention(nn.Module):
         self.pruned_heads = set()
         self.use_flash_attn = False
     def set_max_positions(self, max_positions, device='cuda'):

         self.pruned_heads = set()
         self.use_flash_attn = False
+        self.is_cross_attention = False
     def set_max_positions(self, max_positions, device='cuda'):