KalvinPhan
/

MathCoder-VL-2B

Model card Files Files and versions

xet

Community

KalvinPhan commited on Nov 3

Commit

a993899

verified ·

1 Parent(s): 6bf52ea

Update modeling_internlm2.py

Browse files

Files changed (1) hide show

modeling_internlm2.py +30 -24

modeling_internlm2.py CHANGED Viewed

@@ -46,44 +46,50 @@ logger = logging.get_logger(__name__)
 _CONFIG_FOR_DOC = 'InternLM2Config'
-# --- PATCH: Safe FlashAttention import ---
 flash_attn_func, flash_attn_varlen_func = None, None
 pad_input, index_first_axis, unpad_input = None, None, None
 try:
-    from flash_attn import flash_attn_func as _flash_attn_func
-    from flash_attn import flash_attn_varlen_func as _flash_attn_varlen_func
-    from flash_attn.bert_padding import index_first_axis as _index_first_axis
-    from flash_attn.bert_padding import pad_input as _pad_input
-    from flash_attn.bert_padding import unpad_input as _unpad_input
-    flash_attn_func, flash_attn_varlen_func = _flash_attn_func, _flash_attn_varlen_func
-    pad_input, index_first_axis, unpad_input = _pad_input, _index_first_axis, _unpad_input
-    has_flash_attn = True
-    print("[INFO] FlashAttention detected and enabled.")
 except Exception as e:
-    has_flash_attn = False
-    print(f"[WARNING] FlashAttention not available ({e}). Using PyTorch scaled_dot_product_attention instead.")
 def _import_flash_attn():
-    """Safe import for FlashAttention; if not available, fallback to torch attention."""
     global flash_attn_func, flash_attn_varlen_func
-    global pad_input, index_first_axis, unpad_input
     try:
         from flash_attn import flash_attn_func as _flash_attn_func
         from flash_attn import flash_attn_varlen_func as _flash_attn_varlen_func
-        from flash_attn.bert_padding import index_first_axis as _index_first_axis
-        from flash_attn.bert_padding import pad_input as _pad_input
-        from flash_attn.bert_padding import unpad_input as _unpad_input
         flash_attn_func, flash_attn_varlen_func = _flash_attn_func, _flash_attn_varlen_func
         pad_input, index_first_axis, unpad_input = _pad_input, _index_first_axis, _unpad_input
-        print("[INFO] FlashAttention successfully imported.")
     except ImportError:
-        print("[WARNING] flash_attn is not installed. Continuing with standard attention.")
-        flash_attn_func = None
-        flash_attn_varlen_func = None
-        pad_input = index_first_axis = unpad_input = None
 # Copied from transformers.models.llama.modeling_llama._get_unpad_data

 _CONFIG_FOR_DOC = 'InternLM2Config'
+# --- PATCH: Safe FlashAttention import (for Kaggle/Colab without flash_attn) ---
 flash_attn_func, flash_attn_varlen_func = None, None
 pad_input, index_first_axis, unpad_input = None, None, None
+has_flash_attn = False  # default = False
 try:
+    import importlib.util
+    if importlib.util.find_spec("flash_attn") is not None:
+        from flash_attn import flash_attn_func as _flash_attn_func
+        from flash_attn import flash_attn_varlen_func as _flash_attn_varlen_func
+        from flash_attn.bert_padding import (
+            index_first_axis as _index_first_axis,
+            pad_input as _pad_input,
+            unpad_input as _unpad_input,
+        )
+        flash_attn_func, flash_attn_varlen_func = _flash_attn_func, _flash_attn_varlen_func
+        pad_input, index_first_axis, unpad_input = _pad_input, _index_first_axis, _unpad_input
+        has_flash_attn = True
+        print("[INFO] FlashAttention detected and enabled.")
+    else:
+        print("[INFO] FlashAttention not installed. Using PyTorch attention instead.")
 except Exception as e:
+    print(f"[WARNING] Failed to import flash_attn ({e}). Using PyTorch attention fallback.")
 def _import_flash_attn():
+    """Safe re-import; ignored if flash_attn is missing."""
     global flash_attn_func, flash_attn_varlen_func
+    global pad_input, index_first_axis, unpad_input, has_flash_attn
     try:
         from flash_attn import flash_attn_func as _flash_attn_func
         from flash_attn import flash_attn_varlen_func as _flash_attn_varlen_func
+        from flash_attn.bert_padding import (
+            index_first_axis as _index_first_axis,
+            pad_input as _pad_input,
+            unpad_input as _unpad_input,
+        )
         flash_attn_func, flash_attn_varlen_func = _flash_attn_func, _flash_attn_varlen_func
         pad_input, index_first_axis, unpad_input = _pad_input, _index_first_axis, _unpad_input
+        has_flash_attn = True
+        print("[INFO] FlashAttention successfully re-imported.")
     except ImportError:
+        has_flash_attn = False
+        print("[WARNING] flash_attn not installed. Using standard torch.nn.functional.scaled_dot_product_attention.")
 # Copied from transformers.models.llama.modeling_llama._get_unpad_data