chandar-lab
/

NeoBERT

@@ -190,7 +190,7 @@ class EncoderBlock(nn.Module):
                 query=xq.transpose(1, 2),
                 key=xk.transpose(1, 2),
                 value=xv.transpose(1, 2),
-                attn_mask=attention_mask,
                 dropout_p=0,
             ).transpose(1, 2)

                 query=xq.transpose(1, 2),
                 key=xk.transpose(1, 2),
                 value=xv.transpose(1, 2),
+                attn_mask=attention_mask.bool(),
                 dropout_p=0,
             ).transpose(1, 2)