Spaces:

H-Liu1997
/

FloodDiffusion-Streaming

Running on T4

H-Liu1997 commited on 19 days ago

Commit

6c6483b

1 Parent(s): 7237651

fix: build proper attention mask in SDPA fallback for text cross-attention

Files changed (1) hide show

model_manager.py CHANGED Viewed

@@ -122,13 +122,22 @@ class ModelManager:
             "    # SDPA fallback when flash-attn is not available (e.g., T4 GPU)\n"
             "    if not FLASH_ATTN_2_AVAILABLE and not FLASH_ATTN_3_AVAILABLE:\n"
             "        out_dtype = q.dtype\n"
-            "        if q_lens is not None or k_lens is not None:\n"
-            '            warnings.warn("Padding mask disabled with scaled_dot_product_attention")\n'
             "        q = q.transpose(1, 2).to(dtype)\n"
             "        k = k.transpose(1, 2).to(dtype)\n"
             "        v = v.transpose(1, 2).to(dtype)\n"
             "        out = torch.nn.functional.scaled_dot_product_attention(\n"
-            "            q, k, v, attn_mask=None, is_causal=causal, dropout_p=dropout_p\n"
             "        )\n"
             "        return out.transpose(1, 2).contiguous().to(out_dtype)\n"
             "\n"

             "    # SDPA fallback when flash-attn is not available (e.g., T4 GPU)\n"
             "    if not FLASH_ATTN_2_AVAILABLE and not FLASH_ATTN_3_AVAILABLE:\n"
             "        out_dtype = q.dtype\n"
+            "        b, lq, nq, c = q.shape\n"
+            "        lk = k.size(1)\n"
             "        q = q.transpose(1, 2).to(dtype)\n"
             "        k = k.transpose(1, 2).to(dtype)\n"
             "        v = v.transpose(1, 2).to(dtype)\n"
+            "        attn_mask = None\n"
+            "        is_causal_flag = causal\n"
+            "        if k_lens is not None:\n"
+            "            valid = torch.arange(lk, device=q.device).unsqueeze(0) < k_lens.unsqueeze(1)\n"
+            "            attn_mask = torch.where(valid[:, None, None, :], 0.0, float('-inf')).to(dtype=dtype)\n"
+            "            is_causal_flag = False\n"
+            "            if causal:\n"
+            "                cm = torch.triu(torch.ones(lq, lk, device=q.device, dtype=torch.bool), diagonal=1)\n"
+            "                attn_mask = attn_mask.masked_fill(cm[None, None, :, :], float('-inf'))\n"
             "        out = torch.nn.functional.scaled_dot_product_attention(\n"
+            "            q, k, v, attn_mask=attn_mask, is_causal=is_causal_flag, dropout_p=dropout_p\n"
             "        )\n"
             "        return out.transpose(1, 2).contiguous().to(out_dtype)\n"
             "\n"