daslab-testing
/

CloverLM

@@ -6,10 +6,7 @@
   "auto_map": {
     "AutoConfig": "configuration_cloverlm.CloverLMConfig",
     "AutoModelForCausalLM": "modeling_cloverlm.CloverLMForCausalLM",
-    "AutoTokenizer": [
-      "tokenization_cloverlm.CloverLMTokenizer",
-      null
-    ]
   },
   "d_head": 128,
   "heads": 28,

   "auto_map": {
     "AutoConfig": "configuration_cloverlm.CloverLMConfig",
     "AutoModelForCausalLM": "modeling_cloverlm.CloverLMForCausalLM",
+    "AutoTokenizer": "tokenization_cloverlm.CloverLMTokenizer"
   },
   "d_head": 128,
   "heads": 28,

modeling_cloverlm.py CHANGED Viewed

@@ -111,27 +111,15 @@ class MHSA(nn.Module):
             dtype = Q.dtype if Q.dtype in (torch.bfloat16, torch.float16) else torch.bfloat16
             if attn_backend == "flash2":
-                try:
-                    import flash_attn
-                except ImportError as e:
-                    e.add_note(f"Can't run `attn_backend=flash2` because can't import flash_attn")
-                    raise e
                 Y = flash_attn.flash_attn_func(Q.to(dtype), K.to(dtype), V.to(dtype), causal=True, softmax_scale=1.0)
             elif attn_backend == "flash3":
                 import importlib
-                try:
-                    _fa3 = importlib.import_module("flash_attn_interface")
-                except ImportError as e:
-                    e.add_note(f"Can't run `attn_backend=flash3` because can't import flash_attn_interface")
-                    raise e
                 Y = _fa3.flash_attn_func(Q.to(dtype), K.to(dtype), V.to(dtype), causal=True, softmax_scale=1.0)
             elif attn_backend == "flash4":
                 import importlib
-                try:
-                    _fa4 = importlib.import_module("flash_attn.cute")
-                except ImportError as e:
-                    e.add_note(f"Can't run `attn_backend=flash4` because can't import flash_attn.cute")
-                    raise e
                 Y = _fa4.flash_attn_func(Q.to(dtype), K.to(dtype), V.to(dtype), causal=True, softmax_scale=1.0)[0]
             Y = Y.to(Q.dtype).flatten(-2, -1)

             dtype = Q.dtype if Q.dtype in (torch.bfloat16, torch.float16) else torch.bfloat16
             if attn_backend == "flash2":
+                import flash_attn
                 Y = flash_attn.flash_attn_func(Q.to(dtype), K.to(dtype), V.to(dtype), causal=True, softmax_scale=1.0)
             elif attn_backend == "flash3":
                 import importlib
+                _fa3 = importlib.import_module("flash_attn_interface")
                 Y = _fa3.flash_attn_func(Q.to(dtype), K.to(dtype), V.to(dtype), causal=True, softmax_scale=1.0)
             elif attn_backend == "flash4":
                 import importlib
+                _fa4 = importlib.import_module("flash_attn.cute")
                 Y = _fa4.flash_attn_func(Q.to(dtype), K.to(dtype), V.to(dtype), causal=True, softmax_scale=1.0)[0]
             Y = Y.to(Q.dtype).flatten(-2, -1)

tokenizer_config.json CHANGED Viewed

@@ -1,10 +1,7 @@
 {
   "tokenizer_class": "CloverLMTokenizer",
   "auto_map": {
-    "AutoTokenizer": [
-      "tokenization_cloverlm.CloverLMTokenizer",
-      null
-    ]
   },
   "use_fast": false
 }

 {
   "tokenizer_class": "CloverLMTokenizer",
   "auto_map": {
+    "AutoTokenizer": "tokenization_cloverlm.CloverLMTokenizer"
   },
   "use_fast": false
 }