Spaces:

Keshabwi66
/

SmartLuga

Runtime error

App Files Files Community

Keshabwi66 commited on Feb 15, 2025

Commit

09402c7

verified ·

1 Parent(s): c0d124d

Create app.py

Browse files

Files changed (1) hide show

app.py +238 -0

app.py ADDED Viewed

	@@ -0,0 +1,238 @@

+import sys
+sys.path.append('./')
+import gradio as gr
+import torch
+from PIL import Image
+import torch.nn.functional as F
+from transformers import CLIPImageProcessor
+# Add necessary imports and initialize the model as in your code...
+from typing import Any, Callable, Dict, List, Optional, Tuple, Union, Literal
+from ip_adapter.ip_adapter import Resampler
+import matplotlib.pyplot as plt
+import torch.utils.data as data
+import torchvision
+import numpy as np
+import torch
+import torch.nn.functional as F
+from accelerate.logging import get_logger
+from accelerate.utils import  set_seed
+from torchvision import transforms
+from diffusers import AutoencoderKL, DDPMScheduler
+from transformers import AutoTokenizer, CLIPImageProcessor, CLIPVisionModelWithProjection,CLIPTextModelWithProjection, CLIPTextModel,
+from src.unet_hacked_tryon import UNet2DConditionModel
+from src.unet_hacked_garmnet import UNet2DConditionModel as UNet2DConditionModel_ref
+from src.tryon_pipeline import StableDiffusionXLInpaintPipeline as TryonPipeline
+# Define a class to hold configuration arguments
+class Args:
+    def __init__(self):
+        self.pretrained_model_name_or_path = "yisol/IDM-VTON"
+        self.width = 768
+        self.height = 1024
+        self.num_inference_steps = 10
+        self.seed = 42
+        self.guidance_scale = 2.0
+        self.mixed_precision = None
+# Determine the device to be used for computations (CUDA if available)
+device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+logger = get_logger(__name__, log_level="INFO")
+def pil_to_tensor(images):
+    images = np.array(images).astype(np.float32) / 255.0
+    images = torch.from_numpy(images.transpose(2, 0, 1))
+    return images
+args = Args()
+# Define the data type for model weights
+weight_dtype = torch.float16
+if args.seed is not None:
+        set_seed(args.seed)
+# Load scheduler, tokenizer and models.
+noise_scheduler = DDPMScheduler.from_pretrained(args.pretrained_model_name_or_path, subfolder="scheduler")
+vae = AutoencoderKL.from_pretrained(
+        args.pretrained_model_name_or_path,
+        subfolder="vae",
+        torch_dtype=torch.float16,
+         )
+unet = UNet2DConditionModel.from_pretrained(
+        args.pretrained_model_name_or_path,
+        subfolder="unet",
+        torch_dtype=torch.float16,
+        )
+image_encoder = CLIPVisionModelWithProjection.from_pretrained(
+        args.pretrained_model_name_or_path,
+        subfolder="image_encoder",
+        torch_dtype=torch.float16,
+    )
+unet_encoder = UNet2DConditionModel_ref.from_pretrained(
+        args.pretrained_model_name_or_path,
+        subfolder="unet_encoder",
+        torch_dtype=torch.float16,
+    )
+text_encoder_one = CLIPTextModel.from_pretrained(
+        args.pretrained_model_name_or_path,
+        subfolder="text_encoder",
+        torch_dtype=torch.float16,
+        )
+text_encoder_two = CLIPTextModelWithProjection.from_pretrained(
+        args.pretrained_model_name_or_path,
+        subfolder="text_encoder_2",
+        torch_dtype=torch.float16,
+    )
+tokenizer_one = AutoTokenizer.from_pretrained(
+        args.pretrained_model_name_or_path,
+        subfolder="tokenizer",
+        revision=None,
+        use_fast=False,
+    )
+tokenizer_two = AutoTokenizer.from_pretrained(
+        args.pretrained_model_name_or_path,
+        subfolder="tokenizer_2",
+        revision=None,
+        use_fast=False,
+    )
+ # Freeze vae and text_encoder and set unet to trainable
+unet.requires_grad_(False)
+vae.requires_grad_(False)
+image_encoder.requires_grad_(False)
+unet_encoder.requires_grad_(False)
+text_encoder_one.requires_grad_(False)
+text_encoder_two.requires_grad_(False)
+unet_encoder.to(device, weight_dtype)
+unet.eval()
+unet_encoder.eval()
+pipe = TryonPipeline.from_pretrained(
+            args.pretrained_model_name_or_path,
+            unet=unet,
+            vae=vae,
+            feature_extractor= CLIPImageProcessor(),
+            text_encoder = text_encoder_one,
+            text_encoder_2 = text_encoder_two,
+            tokenizer = tokenizer_one,
+            tokenizer_2 = tokenizer_two,
+            scheduler = noise_scheduler,
+            image_encoder=image_encoder,
+            unet_encoder = unet_encoder,
+            torch_dtype=torch.float16,
+    ).to(device)
+# pipe.enable_sequential_cpu_offload()
+# pipe.enable_model_cpu_offload()
+# pipe.enable_vae_slicing()
+# Function to generate the image based on inputs
+def generate_virtual_try_on(person_image, cloth_image, mask_image, pose_image,cloth_des):
+    # Prepare the input images as tensors
+    person_image = person_image.resize((args.width, args.height))
+    cloth_image = cloth_image.resize((args.width, args.height))
+    mask_image = mask_image.resize((args.width, args.height))
+    pose_image = pose_image.resize((args.width, args.height))
+    # Define transformations
+    transform = transforms.Compose([
+    transforms.ToTensor(),
+    transforms.Normalize([0.5], [0.5]),
+    ])
+    guidance_scale=2.0
+    seed=42
+    to_tensor = transforms.ToTensor()
+    person_tensor = transform(person_image).unsqueeze(0).to(device)  # Add batch dimension
+    cloth_pure = transform(cloth_image).unsqueeze(0).to(device)
+    mask_tensor = to_tensor(mask_image)[:1].unsqueeze(0).to(device)  # Keep only one channel
+    pose_tensor = transform(pose_image).unsqueeze(0).to(device)
+    # Prepare text prompts
+    prompt = ["A person wearing the cloth"+cloth_des]  # Example prompt
+    negative_prompt = ["monochrome, lowres, bad anatomy, worst quality, low quality"]
+    # Encode prompts
+    with torch.inference_mode():
+        (
+            prompt_embeds,
+            negative_prompt_embeds,
+            pooled_prompt_embeds,
+            negative_pooled_prompt_embeds,
+        ) = pipe.encode_prompt(
+            prompt,
+            num_images_per_prompt=1,
+            do_classifier_free_guidance=True,
+            negative_prompt=negative_prompt,
+        )
+    prompt_cloth = ["a photo of"+cloth_des]
+    with torch.inference_mode():
+     (
+        prompt_embeds_c,
+        _,
+        _,
+        _,
+     ) = pipe.encode_prompt(
+        prompt_cloth,
+        num_images_per_prompt=1,
+        do_classifier_free_guidance=False,
+        negative_prompt=negative_prompt,
+    )
+    # Encode garment using IP-Adapter
+    clip_processor = CLIPImageProcessor()
+    image_embeds = clip_processor(images=cloth_image, return_tensors="pt").pixel_values.to(device)
+    # Generate the image
+    generator = torch.Generator(pipe.device).manual_seed(seed) if seed is not None else None
+    with torch.no_grad():
+        images = pipe(
+            prompt_embeds=prompt_embeds,
+            negative_prompt_embeds=negative_prompt_embeds,
+            pooled_prompt_embeds=pooled_prompt_embeds,
+            negative_pooled_prompt_embeds=negative_pooled_prompt_embeds,
+            num_inference_steps=args.num_inference_steps,
+            generator=generator,
+            strength=1.0,
+            pose_img=pose_tensor,
+            text_embeds_cloth=prompt_embeds_c,
+            cloth=cloth_pure,
+            mask_image=mask_tensor,
+            image=(person_tensor + 1.0) / 2.0,
+            height=args.height,
+            width=args.width,
+            guidance_scale=guidance_scale,
+            ip_adapter_image=image_embeds,
+        )[0]
+    # Convert output image to PIL format for display
+    generated_image = transforms.ToPILImage()(images[0])
+    return generated_image
+# Create Gradio interface
+iface = gr.Interface(
+    fn=generate_virtual_try_on,
+    inputs=[
+        gr.Image(type="pil", label="Person Image"),
+        gr.Image(type="pil", label="Cloth Image"),
+        gr.Image(type="pil", label="Mask Image"),
+        gr.Image(type="pil", label="Pose Image"),
+        gr.Textbox(label="cloth_des"),  # Add text input
+    ],
+    outputs=gr.Image(type="pil", label="Generated Image"),
+)
+# Launch the interface
+iface.launch()