neuralvfx
/

LibreFlux-IP-Adapter

@@ -965,32 +965,19 @@ class LibreFluxIpAdapterPipeline(DiffusionPipeline, SD3LoraLoaderMixin):
                 div_timestep = (timestep / 1000.0)
                 text_ids = [ t for t in text_ids ]
-                if not self.ip_loaded:
-                  noise_pred = self.transformer(
-                      latent_model_input,
-                      timestep=div_timestep.to(device=self.transformer.device),
-                      guidance=guidance,
-                      pooled_projections=pooled_prompt_embeds_input.to(device=self.transformer.device),
-                      encoder_hidden_states=prompt_embeds_input.to(device=self.transformer.device),
-                      attention_mask=prompt_mask_input.to(device=self.transformer.device),
-                      txt_ids=text_ids_input[0],
-                      img_ids=latent_image_ids_input[0].to(device=self.transformer.device),
-                      return_dict=False,
-                  )[0]
-                else:
-                  noise_pred = self.ip_adapter(
-                      image_embeds_input,
-                      latent_model_input.to(device=self.transformer.device),
-                      layer_scale=layer_scale_input,
-                      timestep=div_timestep.to(device=self.transformer.device),
-                      guidance=guidance,
-                      pooled_projections=pooled_prompt_embeds_input.to(device=self.transformer.device),
-                      encoder_hidden_states=prompt_embeds_input.to(device=self.transformer.device),
-                      attention_mask=prompt_mask_input.to(device=self.transformer.device),
-                      txt_ids=text_ids_input[0],
-                      img_ids=latent_image_ids_input[0].to(device=self.transformer.device),
-                      return_dict=False,
-                  )[0]
                 # Apply real CFG
                 if guidance_scale_real > 1.0 and i >= no_cfg_until_timestep:
@@ -1000,32 +987,20 @@ class LibreFluxIpAdapterPipeline(DiffusionPipeline, SD3LoraLoaderMixin):
                         noise_pred = noise_pred_uncond + guidance_scale_real * (noise_pred_cond - noise_pred_uncond)
                     else:
                         # Sequential CFG: Compute unconditional noise prediction separately
-                        if not self.ip_loaded:
-                            noise_pred_uncond = self.transformer(
-                            latents.to(device=self.transformer.device),
-                            timestep=div_timestep,
-                            guidance=guidance,
-                            pooled_projections=negative_pooled_prompt_embeds.to(device=self.transformer.device),
-                            encoder_hidden_states=negative_prompt_embeds.to(device=self.transformer.device),
-                            attention_mask=negative_mask,
-                            txt_ids=negative_text_ids.to(device=self.transformer.device) if negative_text_ids is not None else None,
-                            img_ids=latent_image_ids[0].to(device=self.transformer.device),
-                            return_dict=False,
-                            )[0]
-                        else:
-                          noise_pred_uncond = self.ip_adapter(
-                          image_embeds,
-                          latents.to(device=self.transformer.device),
-                          layer_scale=neg_layer_scale,
-                          timestep=div_timestep,
-                          guidance=guidance,
-                          pooled_projections=negative_pooled_prompt_embeds.to(device=self.transformer.device),
-                          encoder_hidden_states=negative_prompt_embeds.to(device=self.transformer.device),
-                          attention_mask=negative_mask,
-                          txt_ids=negative_text_ids.to(device=self.transformer.device) if negative_text_ids is not None else None,
-                          img_ids=latent_image_ids[0].to(device=self.transformer.device),
-                          return_dict=False,
-                          )[0]
                         # Combine conditional and unconditional predictions
                         noise_pred = noise_pred_uncond + guidance_scale_real * (noise_pred - noise_pred_uncond)

                 div_timestep = (timestep / 1000.0)
                 text_ids = [ t for t in text_ids ]
+                noise_pred = self.ip_adapter(
+                  image_embeds_input,
+                  latent_model_input.to(device=self.transformer.device),
+                  layer_scale=layer_scale_input,
+                  timestep=div_timestep.to(device=self.transformer.device),
+                  guidance=guidance,
+                  pooled_projections=pooled_prompt_embeds_input.to(device=self.transformer.device),
+                  encoder_hidden_states=prompt_embeds_input.to(device=self.transformer.device),
+                  attention_mask=prompt_mask_input.to(device=self.transformer.device),
+                  txt_ids=text_ids_input[0],
+                  img_ids=latent_image_ids_input[0].to(device=self.transformer.device),
+                  return_dict=False,
+                )[0]
                 # Apply real CFG
                 if guidance_scale_real > 1.0 and i >= no_cfg_until_timestep:
                         noise_pred = noise_pred_uncond + guidance_scale_real * (noise_pred_cond - noise_pred_uncond)
                     else:
                         # Sequential CFG: Compute unconditional noise prediction separately
+                        noise_pred_uncond = self.ip_adapter(
+                        image_embeds,
+                        latents.to(device=self.transformer.device),
+                        layer_scale=neg_layer_scale,
+                        timestep=div_timestep,
+                        guidance=guidance,
+                        pooled_projections=negative_pooled_prompt_embeds.to(device=self.transformer.device),
+                        encoder_hidden_states=negative_prompt_embeds.to(device=self.transformer.device),
+                        attention_mask=negative_mask,
+                        txt_ids=negative_text_ids.to(device=self.transformer.device) if negative_text_ids is not None else None,
+                        img_ids=latent_image_ids[0].to(device=self.transformer.device),
+                        return_dict=False,
+                        )[0]
                         # Combine conditional and unconditional predictions
                         noise_pred = noise_pred_uncond + guidance_scale_real * (noise_pred - noise_pred_uncond)