Spaces:

vclmax
/

Element-16-Video-Max

Running on Zero

linoyts HF Staff commited on 10 days ago

Commit

0c5fe0e

1 Parent(s): 86682c5

fix: fa3 broken on Blackwell+ (#10)

- fix: fa3 broken on Blackwell+, fallback on scaled dot product attention (3faa48b0376d51437db80eb00f45fc3fecad8c68)

Files changed (1) hide show

app.py CHANGED Viewed

@@ -72,15 +72,30 @@ from ltx_pipelines.utils.helpers import (
 )
 from ltx_pipelines.utils.media_io import decode_audio_from_file, encode_video
-# Force-patch xformers attention into the LTX attention module.
 from ltx_core.model.transformer import attention as _attn_mod
-print(f"[ATTN] Before patch: memory_efficient_attention={_attn_mod.memory_efficient_attention}")
-try:
-    from xformers.ops import memory_efficient_attention as _mea
-    _attn_mod.memory_efficient_attention = _mea
-    print(f"[ATTN] After patch: memory_efficient_attention={_attn_mod.memory_efficient_attention}")
-except Exception as e:
-    print(f"[ATTN] xformers patch FAILED: {type(e).__name__}: {e}")
 logging.getLogger().setLevel(logging.INFO)

 )
 from ltx_pipelines.utils.media_io import decode_audio_from_file, encode_video
+# Patch attention backend into the LTX attention module.
+import torch.nn.functional as F
 from ltx_core.model.transformer import attention as _attn_mod
+def _sdpa_as_mea(query, key, value, attn_bias=None, scale=None, **kwargs):
+    # xformers memory_efficient_attention: (B, S, H, D) -> (B, S, H, D)
+    # torch SDPA:                          (B, H, S, D) -> (B, H, S, D)
+    q, k, v = query.transpose(1, 2), key.transpose(1, 2), value.transpose(1, 2)
+    return F.scaled_dot_product_attention(q, k, v, scale=scale).transpose(1, 2)
+_cap = torch.cuda.get_device_capability() if torch.cuda.is_available() else (0, 0)
+_use_xformers = False
+if _cap < (12, 0):
+    try:
+        from xformers.ops import memory_efficient_attention as _mea
+        _attn_mod.memory_efficient_attention = _mea
+        _use_xformers = True
+        print(f"[ATTN] Using xformers memory_efficient_attention")
+    except Exception as e:
+        print(f"[ATTN] xformers unavailable ({e}), falling back to SDPA")
+if not _use_xformers:
+    _attn_mod.memory_efficient_attention = _sdpa_as_mea
+    print(f"[ATTN] Using SDPA fallback (sm_{_cap[0]}{_cap[1]})")
 logging.getLogger().setLevel(logging.INFO)