Imagroune
/

feynmodel

Model card Files Files and versions

Imagroune commited on Sep 17, 2024

Commit

07fc5ac

·

verified ·

1 Parent(s): c20defd

Update modeling_feynmodel.py

Files changed (1) hide show

modeling_feynmodel.py +5 -2

modeling_feynmodel.py CHANGED Viewed

@@ -678,7 +678,8 @@ def _prepare_4d_causal_attention_mask_with_cache_position(
         #print(f"+++++++++++++++++ return it  causal_mask {causal_mask.size()}   !!!!!!!!! attention_mask {attention_mask.size()}")
     else:
         #print("+++++++++++++++++++++ else +++++++++++++++++")
-        causal_mask = torch.full((sequence_length, target_length), fill_value=min_dtype, dtype=dtype, device=device)
         #print(f"++++++++++++++++ causal_mask {causal_mask.size()} ++++++++++++++++++ sequence_length = {sequence_length} ")
         if sequence_length != 1:
             causal_mask = torch.triu(causal_mask, diagonal=1)
@@ -1480,9 +1481,11 @@ class FeynModelForCausalLM(Gemma2ForCausalLM):
             # Vérifier si dtype est un type de données en virgule flottante
             if torch.is_floating_point(torch.empty(0, dtype=dtype)):
-                min_dtype = torch.finfo(dtype).min
             else:
                 min_dtype = torch.iinfo(dtype).min
             attention_mask = _prepare_4d_causal_attention_mask_with_cache_position(

         #print(f"+++++++++++++++++ return it  causal_mask {causal_mask.size()}   !!!!!!!!! attention_mask {attention_mask.size()}")
     else:
         #print("+++++++++++++++++++++ else +++++++++++++++++")
+        # causal_mask = torch.full((sequence_length, target_length), fill_value=min_dtype, dtype=dtype, device=device)
+        causal_mask = torch.full((sequence_length, target_length), fill_value=min_dtype, dtype=torch.float32, device=device)
         #print(f"++++++++++++++++ causal_mask {causal_mask.size()} ++++++++++++++++++ sequence_length = {sequence_length} ")
         if sequence_length != 1:
             causal_mask = torch.triu(causal_mask, diagonal=1)
             # Vérifier si dtype est un type de données en virgule flottante
             if torch.is_floating_point(torch.empty(0, dtype=dtype)):
+                # min_dtype = torch.finfo(dtype).min
+                min_dtype = torch.finfo(torch.float32).min
             else:
                 min_dtype = torch.iinfo(dtype).min
             attention_mask = _prepare_4d_causal_attention_mask_with_cache_position(