agentmish
/

pplx-embed-v1-4b-mlx

@@ -61,7 +61,7 @@ class PPLXQwen3Model(Qwen3Model):
         attention_mask = {
             "full_attention": create_causal_mask(
                 config=self.config,
-                input_embeds=inputs_embeds,
                 attention_mask=attention_mask,
                 cache_position=dummy_cache_position,
                 past_key_values=None,
@@ -80,4 +80,4 @@ class PPLXQwen3Model(Qwen3Model):
             cache_position=cache_position,
             **kwargs,
         )
-        return outputs

         attention_mask = {
             "full_attention": create_causal_mask(
                 config=self.config,
+                inputs_embeds=inputs_embeds,
                 attention_mask=attention_mask,
                 cache_position=dummy_cache_position,
                 past_key_values=None,
             cache_position=cache_position,
             **kwargs,
         )
+        return outputs