Spaces:

valcore
/

Dssd_Demo

Sleeping

Florian valade commited on 27 days ago

Commit

7848d77

1 Parent(s): 45e00e6

fix cache position for newer version of transformers

Files changed (2) hide show

src/inference.py CHANGED Viewed

@@ -522,6 +522,9 @@ class DSSDecoder:
             0
         )
         # Get embeddings
         hidden_states = self.adapter.get_embed_tokens(input_ids)
@@ -544,6 +547,7 @@ class DSSDecoder:
                     past_key_value=None,
                     position_embeddings=position_embeddings,
                     use_cache=False,
                 )
                 # Check if this is a head checkpoint

             0
         )
+        # Cache position (required by newer transformers for Qwen3)
+        cache_position = torch.arange(seq_len, dtype=torch.long, device=device)
         # Get embeddings
         hidden_states = self.adapter.get_embed_tokens(input_ids)
                     past_key_value=None,
                     position_embeddings=position_embeddings,
                     use_cache=False,
+                    cache_position=cache_position,
                 )
                 # Check if this is a head checkpoint

src/model_adapters.py CHANGED Viewed

@@ -36,6 +36,7 @@ class ModelAdapter(ABC):
         past_key_value: Optional[Tuple],
         position_embeddings: Optional[Tuple],
         use_cache: bool = True,
     ) -> Tuple[Tensor, Optional[Tuple]]:
         """Forward through a single layer, returning hidden states and optional KV cache."""
         ...
@@ -99,6 +100,7 @@ class LlamaStyleAdapter(ModelAdapter):
         past_key_value: Optional[Tuple],
         position_embeddings: Optional[Tuple],
         use_cache: bool = True,
     ) -> Tuple[Tensor, Optional[Tuple]]:
         """Forward through a decoder layer."""
         layer_outputs = layer(
@@ -108,6 +110,7 @@ class LlamaStyleAdapter(ModelAdapter):
             past_key_value=past_key_value,
             use_cache=use_cache,
             position_embeddings=position_embeddings,
         )
         hidden_states = layer_outputs[0]
         new_kv = layer_outputs[1] if len(layer_outputs) > 1 else None

         past_key_value: Optional[Tuple],
         position_embeddings: Optional[Tuple],
         use_cache: bool = True,
+        cache_position: Optional[Tensor] = None,
     ) -> Tuple[Tensor, Optional[Tuple]]:
         """Forward through a single layer, returning hidden states and optional KV cache."""
         ...
         past_key_value: Optional[Tuple],
         position_embeddings: Optional[Tuple],
         use_cache: bool = True,
+        cache_position: Optional[Tensor] = None,
     ) -> Tuple[Tensor, Optional[Tuple]]:
         """Forward through a decoder layer."""
         layer_outputs = layer(
             past_key_value=past_key_value,
             use_cache=use_cache,
             position_embeddings=position_embeddings,
+            cache_position=cache_position,
         )
         hidden_states = layer_outputs[0]
         new_kv = layer_outputs[1] if len(layer_outputs) > 1 else None