ltg
/

norbert4-base

@@ -349,6 +349,8 @@ class SelfAttention(nn.Module):
         self.k_out_dim = self.d_qk * self.num_kv_heads
         self.v_out_dim = self.d_v * self.num_kv_heads
         self.qk_proj = MultiCastedLinearOrthoIn(self.hidden_size, [self.q_out_dim, self.k_out_dim], bias=False)
         self.v_proj = CastedLinearIn(self.hidden_size, self.v_out_dim, bias=False)
         self.out_proj = CastedLinearIn(self.d_v*self.num_attention_heads, self.hidden_size, bias=False)

         self.k_out_dim = self.d_qk * self.num_kv_heads
         self.v_out_dim = self.d_v * self.num_kv_heads
+        self.is_causal = is_decoder
         self.qk_proj = MultiCastedLinearOrthoIn(self.hidden_size, [self.q_out_dim, self.k_out_dim], bias=False)
         self.v_proj = CastedLinearIn(self.hidden_size, self.v_out_dim, bias=False)
         self.out_proj = CastedLinearIn(self.d_v*self.num_attention_heads, self.hidden_size, bias=False)