Spaces:

GGPENG
/

StyleDiffusion-App

Running

App Files Files Community

GGPENG commited on 11 days ago

Commit

7e1dd12

verified ·

1 Parent(s): 57fc54c

Upload 2 files

Browse files

Files changed (2) hide show

Custom_Diffusion.py +243 -0
requirements.txt +0 -0

Custom_Diffusion.py ADDED Viewed

	@@ -0,0 +1,243 @@

+import os
+import random
+from pathlib import Path
+import numpy as np
+import safetensors  #
+import torch
+import torch.nn.functional as F
+import transformers
+from accelerate import Accelerator
+from accelerate.logging import get_logger
+from accelerate.utils import ProjectConfiguration, set_seed
+from PIL import Image
+from torch.utils.data import Dataset
+from torchvision import transforms
+from tqdm.auto import tqdm
+from transformers import AutoTokenizer, CLIPTextModel
+from safetensors.torch import load_file
+import diffusers
+# from diffusers.pipelines import BlipDiffusionPipeline
+from diffusers import AutoencoderKL, DDPMScheduler, UNet2DConditionModel, DiffusionPipeline
+from diffusers.loaders import AttnProcsLayers
+from diffusers.models.attention_processor import CustomDiffusionAttnProcessor
+from diffusers.optimization import get_scheduler
+from diffusers.utils import load_image
+import streamlit as st
+import io
+import streamlit as st  # 用于创建交互式网页UI
+import io  # 处理文件流(后面用来生成下载按钮)
+# 设置页面标题和布局
+st.set_page_config(page_title="Fine-tuning style diffusion", layout="wide")
+st.title("Fine-tuning style diffusion 推理 Demo")
+st.write("支持 **A <new1> reference.(风格) + 文本*")
+st.write("只是训练了一个提示词 'A <new1> reference.'")
+st.write("即使用该提示词时以十二生肖为主要元素进行新年图片风格的生成，例如使用一下提示词")
+st.write("A <new1> reference. New Year image with a  rabbit as the main element, in a 2D or anime style, and a festive background")
+device = "cuda" if torch.cuda.is_available() else "cpu"
+dtype = torch.float16
+# ==========================
+# 模型加载（缓存）
+# ==========================
+@st.cache_resource
+def load_models():
+    model_path = "./stable-diffusion-v1-5"
+    tokenizer = AutoTokenizer.from_pretrained(model_path, subfolder="tokenizer")
+    text_encoder = CLIPTextModel.from_pretrained(
+        model_path,
+        subfolder="text_encoder",
+        torch_dtype=torch.float16
+    ).to(device)
+    vae = AutoencoderKL.from_pretrained(
+        model_path,
+        subfolder="vae",
+        torch_dtype=torch.float16
+    ).to(device)
+    unet = UNet2DConditionModel.from_pretrained(
+        model_path,
+        subfolder="unet",
+        torch_dtype=torch.float16
+    ).to(device)
+    attn_path = "output/pytorch_custom_diffusion_weights.bin"
+    state_dict = torch.load(attn_path, map_location="cpu")
+    unet.load_attn_procs(state_dict)
+    token_path = "output/learned_embeds.safetensors"
+    try:
+        new_embed = torch.load(token_path)
+        token_id = tokenizer.convert_tokens_to_ids("<new1>")
+        text_encoder.get_input_embeddings().weight.data[token_id] = new_embed
+        print("Loaded <new1> token embedding")
+    except:
+        print("No trained <new1> token found")
+    scheduler = DDPMScheduler.from_pretrained(
+        model_path,
+        subfolder="scheduler"
+    )
+    unet.enable_xformers_memory_efficient_attention()
+    return tokenizer, text_encoder, vae, unet, scheduler
+tokenizer, text_encoder, vae, unet, scheduler = load_models()
+prompt = st.text_input(
+    "Prompt",
+    "A <new1> reference."
+)
+# 调整参数
+steps = st.slider("Steps", 10, 320, 100)
+guidance = st.slider("Guidance", 1.0, 18.0, 6.0)
+# ==========================
+# 图像预处理
+# ==========================
+def preprocess(image):
+    # 调整图像，转换为tensor（张量）并归一化到[-1,1]
+    transform = transforms.Compose([
+        transforms.Resize((512,512)),
+        transforms.ToTensor(),
+        transforms.Normalize([0.5],[0.5])
+    ])
+    # 增加batch维度
+    return transform(image).unsqueeze(0)
+# ==========================
+# diffusion 推理
+# ==========================
+def generate(prompt):
+    with torch.no_grad():
+        # 文本向量化
+        text_input = tokenizer(
+            prompt,
+            padding="max_length",
+            max_length=tokenizer.model_max_length,
+            truncation=True,
+            return_tensors="pt"
+        ).to(device)
+        text_emb = text_encoder(text_input.input_ids)[0]
+        # 无条件 embedding;
+        uncond_input = tokenizer(
+            "",
+            padding="max_length",
+            max_length=tokenizer.model_max_length,
+            return_tensors="pt"
+        ).to(device)
+        uncond_emb = text_encoder(uncond_input.input_ids)[0]
+        text_emb = torch.cat([uncond_emb, text_emb], dim=0)
+        # 初始化噪声潜变量
+        latents = torch.randn(
+            (1,4,64,64),
+            device=device,
+            dtype=torch.float16
+        )
+        # 设置diffusion时间步
+        scheduler.set_timesteps(steps)
+        # ----------------
+        # diffusion loop
+        # ----------------
+        # 采用
+        for t in scheduler.timesteps:
+            # 为什么要拼接两份
+            latent_model_input = torch.cat([latents]*2)
+            noise_pred = unet(
+                latent_model_input,
+                t,
+                encoder_hidden_states=text_emb
+            ).sample
+            noise_uncond, noise_text = noise_pred.chunk(2)
+            noise_pred = noise_uncond + guidance * (
+                noise_text - noise_uncond
+            )
+            # 调度程序/潜在的
+            latents = scheduler.step(
+                noise_pred,
+                t,
+                latents
+            ).prev_sample
+        # ----------------
+        # decode image；解码图像
+        # ----------------
+        # 解码生成图像；将latent解码成[0,1]的RGB图像
+        latents = latents / vae.config.scaling_factor
+        image = vae.decode(latents).sample
+        image = (image/2 + 0.5).clamp(0,1)
+        # 转成numpy数组，再用PIL转成可展示的图像
+        image = image.cpu().permute(0,2,3,1).numpy()[0]
+        image = (image*255).astype(np.uint8)
+        return Image.fromarray(image)
+if st.button("Generate"):
+    with st.spinner("Generating..."):
+        image = generate(prompt)
+    st.image(image,caption="Result",width=512)
+    buf = io.BytesIO()
+    image.save(buf,format="PNG")
+    st.download_button(
+        "Download",
+        buf.getvalue(),
+        "result.png"
+    )

requirements.txt ADDED Viewed

Binary file (6.14 kB). View file