amewebstudio
/

mnemosyne-multimodal-v4

@@ -105,7 +105,7 @@ class MnemosyneAttention(nn.Module):
         k=self.k_proj(x).view(B,L,self.nkv,self.hd).transpose(1,2)
         v=self.v_proj(x).view(B,L,self.nkv,self.hd).transpose(1,2)
         cos,sin=self.rotary(q,pos_ids)
-        q=(q*cos)+(rotate_half(q)*sin); k=(k*cos)+(rotate_half(k)*sin)
         if past_kv: k,v=torch.cat([past_kv[0].to(dt),k],2),torch.cat([past_kv[1].to(dt),v],2)
         nkv=(k,v) if use_cache else None
         k,v=k.repeat_interleave(self.ng,1),v.repeat_interleave(self.ng,1)

         k=self.k_proj(x).view(B,L,self.nkv,self.hd).transpose(1,2)
         v=self.v_proj(x).view(B,L,self.nkv,self.hd).transpose(1,2)
         cos,sin=self.rotary(q,pos_ids)
+        q,k=(q*cos)+(rotate_half(q)*sin),(k*cos)+(rotate_half(k)*sin)
         if past_kv: k,v=torch.cat([past_kv[0].to(dt),k],2),torch.cat([past_kv[1].to(dt),v],2)
         nkv=(k,v) if use_cache else None
         k,v=k.repeat_interleave(self.ng,1),v.repeat_interleave(self.ng,1)