Spaces:

acmyu
/

KeyframesAI

Paused

App Files Files Community

KeyframesAI / train.py

acmyu

initial commit

3366cca verified 5 months ago

raw

history blame contribute delete

10.8 kB

	import glob
	import os
	import torch
	from torch import nn, optim
	import torch.nn.functional as F
	import torchvision.transforms.functional as FF
	from PIL import Image
	import numpy as np
	from diffusers import UniPCMultistepScheduler
	from src.models.stage2_inpaint_unet_2d_condition import Stage2_InapintUNet2DConditionModel
	from accelerate import Accelerator

	from torchvision import transforms
	from diffusers.models.controlnet import ControlNetConditioningEmbedding
	from transformers import CLIPImageProcessor
	from transformers import Dinov2Model
	from diffusers import AutoencoderKL, DDPMScheduler, UNet2DConditionModel,ControlNetModel,DDIMScheduler
	from src.pipelines.PCDMs_pipeline import PCDMsPipeline
	from single_extract_pose import inference_pose


	device = "cuda"
	pretrained_model_name_or_path ="stabilityai/stable-diffusion-2-1-base"
	image_encoder_path = "facebook/dinov2-giant"
	model_ckpt_path = "./pcdms_ckpt.pt" # ckpt path

	num_samples = 1
	image_size = (512, 512)
	s_img_path = 'imgs/sm.png' # input image 1
	target_pose_img = 'imgs/pose.png' # input image 2


	def image_grid(imgs, rows, cols):
	assert len(imgs) == rows * cols
	w, h = imgs[0].size
	print(w, h)
	grid = Image.new("RGB", size=(cols * w, rows * h))
	grid_w, grid_h = grid.size

	for i, img in enumerate(imgs):
	grid.paste(img, box=(i % cols * w, i // cols * h))
	return grid

	def load_mydict(model_ckpt_path):
	model_sd = torch.load(model_ckpt_path, map_location="cpu")["module"]

	image_proj_model_dict = {}
	pose_proj_dict = {}
	unet_dict = {}
	for k in model_sd.keys():
	if k.startswith("pose_proj"):
	pose_proj_dict[k.replace("pose_proj.", "")] = model_sd[k]

	elif k.startswith("image_proj_model"):
	image_proj_model_dict[k.replace("image_proj_model.", "")] = model_sd[k]


	elif k.startswith("unet"):
	unet_dict[k.replace("unet.", "")] = model_sd[k]
	else:
	print(k)
	return image_proj_model_dict, pose_proj_dict, unet_dict

	class ImageProjModel(torch.nn.Module):
	"""SD model with image prompt"""
	def __init__(self, in_dim, hidden_dim, out_dim, dropout = 0.):
	super().__init__()

	self.net = nn.Sequential(
	nn.Linear(in_dim, hidden_dim),
	nn.GELU(),
	nn.Dropout(dropout),
	nn.LayerNorm(hidden_dim),
	nn.Linear(hidden_dim, out_dim),
	nn.Dropout(dropout)
	)

	def forward(self, x):
	return self.net(x)



	clip_image_processor = CLIPImageProcessor()
	img_transform = transforms.Compose([
	transforms.ToTensor(),
	transforms.Normalize([0.5], [0.5]),
	])

	generator = torch.Generator(device=device).manual_seed(42)
	unet = Stage2_InapintUNet2DConditionModel.from_pretrained(pretrained_model_name_or_path, torch_dtype=torch.float16,subfolder="unet",in_channels=9, low_cpu_mem_usage=False, ignore_mismatched_sizes=True).to(device)
	vae = AutoencoderKL.from_pretrained(pretrained_model_name_or_path,subfolder="vae").to(device, dtype=torch.float16)
	image_encoder = Dinov2Model.from_pretrained(image_encoder_path).to(device, dtype=torch.float16)
	noise_scheduler = DDIMScheduler(
	num_train_timesteps=1000,
	beta_start=0.00085,
	beta_end=0.012,
	beta_schedule="scaled_linear",
	clip_sample=False,
	set_alpha_to_one=False,
	steps_offset=1,
	)

	#noise_scheduler = DDPMScheduler.from_pretrained(pretrained_model_name_or_path, subfolder="scheduler")

	print('====================== model load finish ===================')



	class SDModel(torch.nn.Module):
	"""SD model with image prompt"""
	def __init__(self, unet) -> None:
	super().__init__()
	self.unet = unet

	self.image_proj_model = ImageProjModel(in_dim=1536, hidden_dim=768, out_dim=1024).to(device).to(dtype=torch.float16)
	self.pose_proj = ControlNetConditioningEmbedding(
	conditioning_embedding_channels=320,
	block_out_channels=(16, 32, 96, 256),
	conditioning_channels=3).to(device).to(dtype=torch.float16)

	# load weight
	image_proj_model_dict, pose_proj_dict, unet_dict = load_mydict(model_ckpt_path)
	self.image_proj_model.load_state_dict(image_proj_model_dict)
	self.pose_proj.load_state_dict(pose_proj_dict)
	unet.load_state_dict(unet_dict)


	def forward(self, s_img_path, t_pose_path, t_img_path, epoch):

	pipe = PCDMsPipeline.from_pretrained(pretrained_model_name_or_path, unet=self.unet, torch_dtype=torch.float16, scheduler=noise_scheduler,feature_extractor=None,safety_checker=None).to(device)

	t_pose = inference_pose(t_img_path, image_size=(image_size[1], image_size[0])).convert("RGB").resize(image_size, Image.BICUBIC)
	target_img = Image.open(t_img_path).convert("RGB").resize(image_size, Image.BICUBIC)


	s_img = Image.open(s_img_path).convert("RGB").resize(image_size, Image.BICUBIC)
	black_image = Image.new("RGB", s_img.size, (0, 0, 0)).resize(image_size, Image.BICUBIC)

	s_img_t_mask = Image.new("RGB", (s_img.width * 2, s_img.height))
	s_img_t_mask.paste(s_img, (0, 0))
	s_img_t_mask.paste(black_image, (s_img.width, 0))

	s_pose = inference_pose(s_img_path, image_size=(image_size[1], image_size[0])).resize(image_size, Image.BICUBIC)
	print('source image width: {}, height: {}'.format(s_pose.width, s_pose.height))
	#t_pose = Image.open(t_pose_path).convert("RGB").resize((image_size), Image.BICUBIC)

	st_pose = Image.new("RGB", (s_pose.width * 2, s_pose.height))
	st_pose.paste(s_pose, (0, 0))
	st_pose.paste(t_pose, (s_pose.width, 0))


	clip_s_img = clip_image_processor(images=s_img, return_tensors="pt").pixel_values
	vae_image = torch.unsqueeze(img_transform(s_img_t_mask), 0)
	cond_st_pose = torch.unsqueeze(img_transform(st_pose), 0)

	mask1 = torch.ones((1, 1, int(image_size[0] / 8), int(image_size[1] / 8))).to(device, dtype=torch.float16)
	mask0 = torch.zeros((1, 1, int(image_size[0] / 8), int(image_size[1] / 8))).to(device, dtype=torch.float16)
	mask = torch.cat([mask1, mask0], dim=3)

	st_img = (Image.new("RGB", (image_size[0] * 2, image_size[1])))
	st_img.paste(s_img, (0, 0))
	st_img.paste(target_img, (image_size[0], 0))
	st_img.save('tar.png')
	st_img = torch.unsqueeze(img_transform(st_img), 0)



	with torch.inference_mode():
	cond_pose = self.pose_proj(cond_st_pose.to(dtype=torch.float16, device=device))
	simg_mask_latents = pipe.vae.encode(vae_image.to(device, dtype=torch.float16)).latent_dist.sample()
	simg_mask_latents = simg_mask_latents * 0.18215

	images_embeds = image_encoder(clip_s_img.to(device, dtype=torch.float16)).last_hidden_state
	image_prompt_embeds = self.image_proj_model(images_embeds)
	uncond_image_prompt_embeds = self.image_proj_model(torch.zeros_like(images_embeds))

	latents = pipe.vae.encode(st_img.to(device, dtype=torch.float16)).latent_dist.sample()
	latents = latents * pipe.vae.config.scaling_factor
	noise = torch.randn_like(latents)
	timesteps = torch.randint(0, noise_scheduler.config.num_train_timesteps, (1,),device=latents.device, )
	timesteps = timesteps.long()
	target = noise_scheduler.get_velocity(latents, noise, timesteps)

	bs_embed, seq_len, _ = image_prompt_embeds.shape
	image_prompt_embeds = image_prompt_embeds.repeat(1, num_samples, 1)
	image_prompt_embeds = image_prompt_embeds.view(bs_embed * num_samples, seq_len, -1)
	uncond_image_prompt_embeds = uncond_image_prompt_embeds.repeat(1, num_samples, 1)
	uncond_image_prompt_embeds = uncond_image_prompt_embeds.view(bs_embed * num_samples, seq_len, -1)


	output, model_pred = pipe(
	simg_mask_latents= simg_mask_latents,
	mask = mask,
	cond_pose = cond_pose,
	prompt_embeds=image_prompt_embeds,
	negative_prompt_embeds=uncond_image_prompt_embeds,
	height=image_size[1],
	width=image_size[0]*2,
	num_images_per_prompt=num_samples,
	guidance_scale=2.0,
	generator=generator,
	num_inference_steps=50,
	)
	output = output.images[-1]
	output.save('out'+str(epoch)+'.png')

	"""
	with torch.inference_mode():
	output = torch.unsqueeze(img_transform(output), 0)
	latents = pipe.vae.encode(output.to(device, dtype=torch.float16)).latent_dist.sample()
	latents = latents * pipe.vae.config.scaling_factor
	noise = torch.randn_like(latents)
	timesteps = torch.randint(0, noise_scheduler.config.num_train_timesteps, (1,),device=latents.device, )
	timesteps = timesteps.long()
	model_pred = noise_scheduler.get_velocity(latents, noise, timesteps)
	"""

	return model_pred, target



	# Training setup
	sd_model = SDModel(unet)
	sd_model.train()
	optimizer = optim.AdamW(sd_model.parameters(), lr=1e-5)
	loss_fn = nn.MSELoss()


	accelerator = Accelerator()
	sd_model, optimizer = accelerator.prepare(sd_model, optimizer)


	prev = sd_model.unet.state_dict()

	# Fine-tuning loop
	num_epochs = 5
	for epoch in range(num_epochs):
	for s_img_path, t_pose_path, t_img_path in zip(['imgs/sm.png'], ['imgs/p1.png'], ['imgs/target.png']):
	with accelerator.accumulate(sd_model):
	optimizer.zero_grad()

	model_pred, target = sd_model(s_img_path, t_pose_path, t_img_path, epoch)

	#loss = loss_fn(torch.unsqueeze(img_transform(output), 0), torch.unsqueeze(img_transform(target_img),0))
	loss = F.mse_loss(model_pred.float(), target.float(), reduction="mean")
	loss.requires_grad = True

	accelerator.backward(loss)
	optimizer.step()

	set1 = set(prev.items())
	set2 = set(sd_model.unet.state_dict().items())
	dif = set1 ^ set2
	print(len(dif))
	prev = sd_model.unet.state_dict()

	print(f"Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item()}")




	# Save fine-tuned model
	torch.save(sd_model, "fine_tuned_pcdms.pt")
	#sd_model.save_checkpoint("outputs", "0", {})
	print("Fine-tuning completed. Model saved.")