ayushtues
/

blipdiffusion-controlnet

Diffusers

English

BlipDiffusionControlNetPipeline

Model card Files Files and versions

xet

Community

ayushtues commited on Sep 20, 2023

Commit

5f4eec8

1 Parent(s): 1a70fad

Update README.md

Browse files

Files changed (1) hide show

README.md +55 -24

README.md CHANGED Viewed

@@ -31,15 +31,25 @@ The model is created by Dongxu Li, Junnan Li, Steven C.H. Hoi.
 ```python
 from diffusers.pipelines import BlipDiffusionPipeline
 from diffusers.utils import load_image
-blip_diffusion_pipe= BlipDiffusionPipeline.from_pretrained('ayushtues/blipdiffusion')
-blip_diffusion_pipe.to('cuda')
 cond_subject = "dog"
 tgt_subject = "dog"
 text_prompt_input = "swimming underwater"
-cond_image = load_image("https://huggingface.co/datasets/ayushtues/blipdiffusion_images/resolve/main/dog.jpg")
 guidance_scale = 7.5
-num_inference_steps = 50
 negative_prompt = "over-exposure, under-exposure, saturated, duplicate, out of frame, lowres, cropped, worst quality, low quality, jpeg artifacts, morbid, mutilated, out of frame, ugly, bad anatomy, bad proportions, deformed, blurry, duplicate"
 output = blip_diffusion_pipe(
     text_prompt_input,
     cond_image,
@@ -50,8 +60,8 @@ output = blip_diffusion_pipe(
     neg_prompt=negative_prompt,
     height=512,
     width=512,
-)
-output[0][0].save("image.png")
 ```
 Input Image : <img src="https://huggingface.co/datasets/ayushtues/blipdiffusion_images/resolve/main/dog.jpg"  style="width:500px;"/>
@@ -63,22 +73,32 @@ Generatred Image : <img src="https://huggingface.co/datasets/ayushtues/blipdiffu
 from diffusers.pipelines import BlipDiffusionControlNetPipeline
 from diffusers.utils import load_image
 from controlnet_aux import CannyDetector
-blip_diffusion_pipe= BlipDiffusionControlNetPipeline.from_pretrained("ayushtues/blipdiffusion-controlnet")
-blip_diffusion_pipe.to('cuda')
-style_subject = "flower" # subject that defines the style
 tgt_subject = "teapot"  # subject to generate.
 text_prompt = "on a marble table"
-cldm_cond_image = load_image("https://huggingface.co/datasets/ayushtues/blipdiffusion_images/resolve/main/kettle.jpg").resize((512, 512))
 canny = CannyDetector()
-cldm_cond_image = canny(cldm_cond_image, 30, 70, output_type='pil')
-style_image = load_image("https://huggingface.co/datasets/ayushtues/blipdiffusion_images/resolve/main/flower.jpg")
 guidance_scale = 7.5
 num_inference_steps = 50
 negative_prompt = "over-exposure, under-exposure, saturated, duplicate, out of frame, lowres, cropped, worst quality, low quality, jpeg artifacts, morbid, mutilated, out of frame, ugly, bad anatomy, bad proportions, deformed, blurry, duplicate"
 output = blip_diffusion_pipe(
     text_prompt,
     style_image,
-     cldm_cond_image,
     style_subject,
     tgt_subject,
     guidance_scale=guidance_scale,
@@ -86,8 +106,8 @@ output = blip_diffusion_pipe(
     neg_prompt=negative_prompt,
     height=512,
     width=512,
-    )
-output[0][0].save("image.png")
 ```
 Input Style Image : <img src="https://huggingface.co/datasets/ayushtues/blipdiffusion_images/resolve/main/flower.jpg"  style="width:500px;"/>
@@ -99,24 +119,34 @@ Generated Image : <img src="https://huggingface.co/datasets/ayushtues/blipdiffus
 from diffusers.pipelines import BlipDiffusionControlNetPipeline
 from diffusers.utils import load_image
 from controlnet_aux import HEDdetector
-blip_diffusion_pipe= BlipDiffusionControlNetPipeline.from_pretrained("ayushtues/blipdiffusion-controlnet")
 controlnet = ControlNetModel.from_pretrained("lllyasviel/sd-controlnet-scribble")
 blip_diffusion_pipe.controlnet = controlnet
-blip_diffusion_pipe.to('cuda')
-style_subject = "flower" # subject that defines the style
 tgt_subject = "bag"  # subject to generate.
 text_prompt = "on a table"
-cldm_cond_image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-scribble/resolve/main/images/bag.png" ).resize((512, 512))
 hed = HEDdetector.from_pretrained("lllyasviel/Annotators")
 cldm_cond_image = hed(cldm_cond_image)
-style_image = load_image("https://huggingface.co/datasets/ayushtues/blipdiffusion_images/resolve/main/flower.jpg")
 guidance_scale = 7.5
 num_inference_steps = 50
 negative_prompt = "over-exposure, under-exposure, saturated, duplicate, out of frame, lowres, cropped, worst quality, low quality, jpeg artifacts, morbid, mutilated, out of frame, ugly, bad anatomy, bad proportions, deformed, blurry, duplicate"
 output = blip_diffusion_pipe(
     text_prompt,
     style_image,
-     cldm_cond_image,
     style_subject,
     tgt_subject,
     guidance_scale=guidance_scale,
@@ -124,8 +154,8 @@ output = blip_diffusion_pipe(
     neg_prompt=negative_prompt,
     height=512,
     width=512,
-)
-output[0][0].save("image.png"')
 ```
 Input Style Image : <img src="https://huggingface.co/datasets/ayushtues/blipdiffusion_images/resolve/main/flower.jpg"  style="width:500px;"/>
@@ -164,4 +194,5 @@ If you find this repository useful in your research, please cite:
       archivePrefix={arXiv},
       primaryClass={cs.CV}
 }
-```

 ```python
 from diffusers.pipelines import BlipDiffusionPipeline
 from diffusers.utils import load_image
+import torch
+blip_diffusion_pipe = BlipDiffusionPipeline.from_pretrained(
+    "ayushtues/blipdiffusion", torch_dtype=torch.float16
+).to("cuda")
 cond_subject = "dog"
 tgt_subject = "dog"
 text_prompt_input = "swimming underwater"
+cond_image = load_image(
+    "https://huggingface.co/datasets/ayushtues/blipdiffusion_images/resolve/main/dog.jpg"
+)
+iter_seed = 88888
 guidance_scale = 7.5
+num_inference_steps = 25
 negative_prompt = "over-exposure, under-exposure, saturated, duplicate, out of frame, lowres, cropped, worst quality, low quality, jpeg artifacts, morbid, mutilated, out of frame, ugly, bad anatomy, bad proportions, deformed, blurry, duplicate"
 output = blip_diffusion_pipe(
     text_prompt_input,
     cond_image,
     neg_prompt=negative_prompt,
     height=512,
     width=512,
+).images
+output[0].save("image.png")
 ```
 Input Image : <img src="https://huggingface.co/datasets/ayushtues/blipdiffusion_images/resolve/main/dog.jpg"  style="width:500px;"/>
 from diffusers.pipelines import BlipDiffusionControlNetPipeline
 from diffusers.utils import load_image
 from controlnet_aux import CannyDetector
+blip_diffusion_pipe = BlipDiffusionControlNetPipeline.from_pretrained(
+    "ayushtues/blipdiffusion-controlnet", torch_dtype=torch.float16
+).to("cuda")
+style_subject = "flower"  # subject that defines the style
 tgt_subject = "teapot"  # subject to generate.
 text_prompt = "on a marble table"
+cldm_cond_image = load_image(
+    "https://huggingface.co/datasets/ayushtues/blipdiffusion_images/resolve/main/kettle.jpg"
+).resize((512, 512))
 canny = CannyDetector()
+cldm_cond_image = canny(cldm_cond_image, 30, 70, output_type="pil")
+style_image = load_image(
+    "https://huggingface.co/datasets/ayushtues/blipdiffusion_images/resolve/main/flower.jpg"
+)
 guidance_scale = 7.5
 num_inference_steps = 50
 negative_prompt = "over-exposure, under-exposure, saturated, duplicate, out of frame, lowres, cropped, worst quality, low quality, jpeg artifacts, morbid, mutilated, out of frame, ugly, bad anatomy, bad proportions, deformed, blurry, duplicate"
 output = blip_diffusion_pipe(
     text_prompt,
     style_image,
+    cldm_cond_image,
     style_subject,
     tgt_subject,
     guidance_scale=guidance_scale,
     neg_prompt=negative_prompt,
     height=512,
     width=512,
+).images
+output[0].save("image.png")
 ```
 Input Style Image : <img src="https://huggingface.co/datasets/ayushtues/blipdiffusion_images/resolve/main/flower.jpg"  style="width:500px;"/>
 from diffusers.pipelines import BlipDiffusionControlNetPipeline
 from diffusers.utils import load_image
 from controlnet_aux import HEDdetector
+blip_diffusion_pipe = BlipDiffusionControlNetPipeline.from_pretrained(
+    "ayushtues/blipdiffusion-controlnet"
+)
 controlnet = ControlNetModel.from_pretrained("lllyasviel/sd-controlnet-scribble")
 blip_diffusion_pipe.controlnet = controlnet
+blip_diffusion_pipe.to("cuda")
+style_subject = "flower"  # subject that defines the style
 tgt_subject = "bag"  # subject to generate.
 text_prompt = "on a table"
+cldm_cond_image = load_image(
+    "https://huggingface.co/lllyasviel/sd-controlnet-scribble/resolve/main/images/bag.png"
+).resize((512, 512))
 hed = HEDdetector.from_pretrained("lllyasviel/Annotators")
 cldm_cond_image = hed(cldm_cond_image)
+style_image = load_image(
+    "https://huggingface.co/datasets/ayushtues/blipdiffusion_images/resolve/main/flower.jpg"
+)
 guidance_scale = 7.5
 num_inference_steps = 50
 negative_prompt = "over-exposure, under-exposure, saturated, duplicate, out of frame, lowres, cropped, worst quality, low quality, jpeg artifacts, morbid, mutilated, out of frame, ugly, bad anatomy, bad proportions, deformed, blurry, duplicate"
 output = blip_diffusion_pipe(
     text_prompt,
     style_image,
+    cldm_cond_image,
     style_subject,
     tgt_subject,
     guidance_scale=guidance_scale,
     neg_prompt=negative_prompt,
     height=512,
     width=512,
+).images
+output[0].save("image.png")
 ```
 Input Style Image : <img src="https://huggingface.co/datasets/ayushtues/blipdiffusion_images/resolve/main/flower.jpg"  style="width:500px;"/>
       archivePrefix={arXiv},
       primaryClass={cs.CV}
 }
+```