import os
import requests
import sys
import copy
import random
import time
import glob
import math
import yaml
import torch
import torch.nn as nn
import torch.nn.functional as F
from tqdm import tqdm
from peft import LoraConfig
from types import SimpleNamespace
from transformers import AutoTokenizer, CLIPTextModel
from diffusers import AutoencoderKL, UNet2DConditionModel, DDPMScheduler
from diffusers.utils.peft_utils import set_weights_and_activate_adapters
from diffusers.utils.import_utils import is_xformers_available

def make_1step_sched(pretrained_model_path):
    noise_scheduler_1step = DDPMScheduler.from_pretrained(pretrained_model_path, subfolder="scheduler")
    noise_scheduler_1step.set_timesteps(1, device="cuda")
    noise_scheduler_1step.alphas_cumprod = noise_scheduler_1step.alphas_cumprod.cuda()
    return noise_scheduler_1step

def find_filepath(directory, filename):
    matches = glob.glob(f"{directory}/**/{filename}", recursive=True)
    return matches[0] if matches else None


def read_yaml(file_path):
    with open(file_path, 'r') as file:
        data = yaml.safe_load(file)
    return data

def initialize_vae(rank, return_lora_module_names=False, pretrained_model_name_or_path=None):
    vae = AutoencoderKL.from_pretrained(pretrained_model_name_or_path, subfolder="vae")
    vae.requires_grad_(False)
    vae.train()
    
    l_target_modules_encoder, l_target_modules_decoder, l_modules_others = [], [], []
    l_grep = ["conv1","conv2","conv_in", "conv_shortcut",
        "conv", "conv_out", "to_k", "to_q", "to_v", "to_out.0",
    ]
    for n, p in vae.named_parameters():
        if "bias" in n or "norm" in n: continue
        for pattern in l_grep:
            if pattern in n and ("encoder" in n):
                l_target_modules_encoder.append(n.replace(".weight",""))
                break
            elif pattern in n and ("decoder" in n):
                l_target_modules_decoder.append(n.replace(".weight",""))
                break
            elif ('quant_conv' in n) and ('post_quant_conv' not in n):
                l_target_modules_encoder.append(n.replace(".weight",""))
                break
            elif 'post_quant_conv' in n:
                l_target_modules_decoder.append(n.replace(".weight",""))
                break
            elif pattern in n:
                l_modules_others.append(n.replace(".weight",""))
                break
    lora_conf_encoder = LoraConfig(r=rank, init_lora_weights="gaussian",target_modules=l_target_modules_encoder)
    lora_conf_decoder = LoraConfig(r=rank, init_lora_weights="gaussian",target_modules=l_target_modules_decoder)
    vae.add_adapter(lora_conf_encoder, adapter_name="default_encoder")
    vae.add_adapter(lora_conf_decoder, adapter_name="default_decoder")
    # vae.set_adapter(["default_encoder", "default_decoder"])
    if return_lora_module_names:
        return vae, l_target_modules_encoder, l_target_modules_decoder, l_modules_others
    else:
        return vae

def initialize_unet(rank, return_lora_module_names=False, pretrained_model_name_or_path=None):
    unet = UNet2DConditionModel.from_pretrained(pretrained_model_name_or_path, subfolder="unet")
    unet.requires_grad_(False)
    unet.train()

    l_target_modules_encoder, l_target_modules_decoder, l_modules_others = [], [], []
    l_grep = ["to_k", "to_q", "to_v", "to_out.0", "conv", "conv1", "conv2", "conv_in", "conv_shortcut", "conv_out", "proj_out", "proj_in", "ff.net.2", "ff.net.0.proj"]
    for n, p in unet.named_parameters():
        if "bias" in n or "norm" in n: continue
        for pattern in l_grep:
            if pattern in n and ("down_blocks" in n or "conv_in" in n):
                l_target_modules_encoder.append(n.replace(".weight",""))
                break
            elif pattern in n and "up_blocks" in n:
                l_target_modules_decoder.append(n.replace(".weight",""))
                break
            elif pattern in n:
                l_modules_others.append(n.replace(".weight",""))
                break
    lora_conf_encoder = LoraConfig(r=rank, init_lora_weights="gaussian",target_modules=l_target_modules_encoder)
    lora_conf_decoder = LoraConfig(r=rank, init_lora_weights="gaussian",target_modules=l_target_modules_decoder)
    lora_conf_others = LoraConfig(r=rank, init_lora_weights="gaussian",target_modules=l_modules_others)
    unet.add_adapter(lora_conf_encoder, adapter_name="default_encoder")
    unet.add_adapter(lora_conf_decoder, adapter_name="default_decoder")
    unet.add_adapter(lora_conf_others, adapter_name="default_others")
    if return_lora_module_names:
        return unet, l_target_modules_encoder, l_target_modules_decoder, l_modules_others
    else:
        return unet

def initialize_unet_sr(rank, return_lora_module_names=False, pretrained_model_name_or_path=None, args=None):
    unet = UNet2DConditionModel.from_pretrained(pretrained_model_name_or_path, subfolder="unet")
    if args.use_lr_concat_lr_999noise:
        new_conv_in = torch.nn.Conv2d(8, 320, 3, 1, 1)
        new_conv_in.weight.data[:, :4, ...] = unet.conv_in.weight.data
        new_conv_in.weight.data[:, -4:, ...] = unet.conv_in.weight.data
        new_conv_in.bias.data = unet.conv_in.bias.data
        unet.conv_in = new_conv_in
    unet.requires_grad_(False)
    unet.train()

    l_target_modules_encoder, l_target_modules_decoder, l_modules_others = [], [], []
    l_grep = ["to_k", "to_q", "to_v", "to_out.0", "conv", "conv1", "conv2", "conv_in", "conv_shortcut", "conv_out", "proj_out", "proj_in", "ff.net.2", "ff.net.0.proj"]
    for n, p in unet.named_parameters():
        if "bias" in n or "norm" in n: continue
        for pattern in l_grep:
            if pattern in n and ("down_blocks" in n or "conv_in" in n):
                l_target_modules_encoder.append(n.replace(".weight",""))
                break
            elif pattern in n and "up_blocks" in n:
                l_target_modules_decoder.append(n.replace(".weight",""))
                break
            elif pattern in n:
                l_modules_others.append(n.replace(".weight",""))
                break
    lora_conf_encoder = LoraConfig(r=rank, init_lora_weights="gaussian",target_modules=l_target_modules_encoder)
    lora_conf_decoder = LoraConfig(r=rank, init_lora_weights="gaussian",target_modules=l_target_modules_decoder)
    lora_conf_others = LoraConfig(r=rank, init_lora_weights="gaussian",target_modules=l_modules_others)
    unet.add_adapter(lora_conf_encoder, adapter_name="default_encoder")
    unet.add_adapter(lora_conf_decoder, adapter_name="default_decoder")
    unet.add_adapter(lora_conf_others, adapter_name="default_others")
    if return_lora_module_names:
        return unet, l_target_modules_encoder, l_target_modules_decoder, l_modules_others
    else:
        return unet

class VSD(torch.nn.Module):
    def __init__(self, args, accelerator):
        super().__init__() 

        self.tokenizer = AutoTokenizer.from_pretrained(args.pretrained_model_name_or_path, subfolder="tokenizer")
        self.text_encoder = CLIPTextModel.from_pretrained(args.pretrained_model_name_or_path, subfolder="text_encoder")
        self.sched = DDPMScheduler.from_pretrained(args.pretrained_model_name_or_path, subfolder="scheduler")
        self.args = args

        weight_dtype = torch.float32
        if accelerator.mixed_precision == "fp16":
            weight_dtype = torch.float16
        elif accelerator.mixed_precision == "bf16":
            weight_dtype = torch.bfloat16

        self.vae = AutoencoderKL.from_pretrained(args.pretrained_model_name_or_path, subfolder="vae")
        self.unet_fix = UNet2DConditionModel.from_pretrained(args.pretrained_model_name_or_path, subfolder="unet")
        self.unet_update, self.lora_unet_modules_encoder, self.lora_unet_modules_decoder, self.lora_unet_others =\
                initialize_unet(rank=args.lora_rank_unet_vsd, pretrained_model_name_or_path=args.pretrained_model_name_or_path, return_lora_module_names=True)
        self.lora_rank_unet = args.lora_rank_unet_vsd

        if args.enable_xformers_memory_efficient_attention:
            if is_xformers_available():
                self.unet_fix.enable_xformers_memory_efficient_attention()
                self.unet_update.enable_xformers_memory_efficient_attention()
            else:
                raise ValueError("xformers is not available, please install it by running `pip install xformers`")

        if args.gradient_checkpointing:
            self.unet_fix.enable_gradient_checkpointing()
            self.unet_update.enable_gradient_checkpointing()

        self.text_encoder.to(accelerator.device, dtype=weight_dtype)
        self.unet_fix.to(accelerator.device, dtype=weight_dtype)
        self.unet_update.to(accelerator.device)
        self.vae.to(accelerator.device)
        
        self.text_encoder.requires_grad_(False)
        self.vae.requires_grad_(False)
        self.unet_fix.requires_grad_(False)

    def set_eval(self):
        self.unet_fix.eval()
        self.unet.eval()
        self.unet_update.eval()

    def set_train(self):
        self.unet_update.train()
        for n, _p in self.unet_update.named_parameters():
            if "lora" in n:
                _p.requires_grad = True

    def forward(self, c_t, prompt=None, neg_prompt_tokens=None, prompt_tokens=None, deterministic=True, r=1.0, noise_map=None, args=None):

        caption_enc = self.text_encoder(prompt_tokens)[0]
        neg_caption_enc = self.text_encoder(neg_prompt_tokens)[0]

        encoded_control = self.vae.encode(c_t).latent_dist.sample() * self.vae.config.scaling_factor
        model_pred = self.unet(encoded_control, self.timesteps, encoder_hidden_states=caption_enc.to(torch.float32),).sample
        x_denoised = self.sched.step(model_pred, self.timesteps, encoded_control, return_dict=True).prev_sample

        output_image = (self.vae.decode(x_denoised / self.vae.config.scaling_factor).sample).clamp(-1, 1)

        return output_image, caption_enc, neg_caption_enc

    def forward_latent(self, model, latents, timestep, prompt_embeds):
        
        noise_pred = model(
        latents,
        timestep=timestep,
        encoder_hidden_states=prompt_embeds,
        ).sample

        return noise_pred

    def compute_lora_loss(self, latents_pred, prompt_embeds, args):

        latents_pred = latents_pred.detach()
        prompt_embeds = prompt_embeds.detach()
        noise = torch.randn_like(latents_pred)
        bsz = latents_pred.shape[0]
        timesteps = torch.randint(0, self.sched.config.num_train_timesteps, (bsz,), device=latents_pred.device)
        timesteps = timesteps.long()
        noisy_latents = self.sched.add_noise(latents_pred, noise, timesteps)
        disc_pred = self.forward_latent(
            self.unet_update,
            timestep=timesteps,
            latents=noisy_latents,
            prompt_embeds=prompt_embeds
        )
        if args.snr_gamma_vsd is None:
            loss_d = F.mse_loss(disc_pred.float(), noise.float(), reduction="mean")
        else:
            # Compute loss-weights as per Section 3.4 of https://arxiv.org/abs/2303.09556.
            # Since we predict the noise instead of x_0, the original formulation is slightly changed.
            # This is discussed in Section 4.2 of the same paper.
            snr = compute_snr(self.sched, timesteps)
            if self.sched.config.prediction_type == "v_prediction":
                # Velocity objective requires that we add one to SNR values before we divide by them.
                snr = snr + 1
            mse_loss_weights = torch.stack([snr, args.snr_gamma * torch.ones_like(timesteps)], dim=1).min(dim=1)[0] / snr

            loss = F.mse_loss(model_pred.float(), target.float(), reduction="none")
            loss = loss.mean(dim=list(range(1, len(loss.shape)))) * mse_loss_weights
            loss_d = loss.mean()

        return loss_d

    def eps_to_mu(self, scheduler, model_output, sample, timesteps):
        alphas_cumprod = scheduler.alphas_cumprod.to(device=sample.device, dtype=sample.dtype)
        alpha_prod_t = alphas_cumprod[timesteps]
        while len(alpha_prod_t.shape) < len(sample.shape):
            alpha_prod_t = alpha_prod_t.unsqueeze(-1)
        beta_prod_t = 1 - alpha_prod_t
        pred_original_sample = (sample - beta_prod_t ** (0.5) * model_output) / alpha_prod_t ** (0.5)
        return pred_original_sample

    def distribution_matching_loss(
        self,
        real_model,
        fake_model,
        noise_scheduler,
        latents,
        prompt_embeds,
        negative_prompt_embeds,
        args,
    ):
        bsz = latents.shape[0]
        min_dm_step = int(noise_scheduler.config.num_train_timesteps * args.min_dm_step_ratio)
        max_dm_step = int(noise_scheduler.config.num_train_timesteps * args.max_dm_step_ratio)

        timestep = torch.randint(min_dm_step, max_dm_step, (bsz,), device=latents.device).long()
        noise = torch.randn_like(latents)
        noisy_latents = noise_scheduler.add_noise(latents, noise, timestep)

        with torch.no_grad():
            noise_pred = self.forward_latent(
                fake_model,
                latents=noisy_latents,
                timestep=timestep,
                prompt_embeds=prompt_embeds.float(),
            )
            pred_fake_latents = self.eps_to_mu(noise_scheduler, noise_pred, noisy_latents, timestep)

            noisy_latents_input = torch.cat([noisy_latents] * 2)
            timestep_input = torch.cat([timestep] * 2)
            prompt_embeds = torch.cat([negative_prompt_embeds, prompt_embeds], dim=0)

            noise_pred = self.forward_latent(
                real_model,
                latents=noisy_latents_input.to(dtype=torch.float16),
                timestep=timestep_input,
                prompt_embeds=prompt_embeds.to(dtype=torch.float16),
            )
            noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
            noise_pred = noise_pred_uncond + args.cfg_vsd * (noise_pred_text - noise_pred_uncond)
            noise_pred.to(dtype=torch.float32)

            pred_real_latents = self.eps_to_mu(noise_scheduler, noise_pred, noisy_latents, timestep)

        weighting_factor = torch.abs(latents - pred_real_latents).mean(dim=[1, 2, 3], keepdim=True)

        grad = (pred_fake_latents - pred_real_latents) / weighting_factor
        loss = F.mse_loss(latents, self.stopgrad(latents - grad))
        return loss

    def stopgrad(self, x):
        return x.detach()

    def save_model(self, outf):
        sd = {}
        sd["unet_lora_encoder_modules"], sd["unet_lora_decoder_modules"], sd["unet_lora_others_modules"] =\
            self.lora_unet_modules_encoder, self.lora_unet_modules_decoder, self.lora_unet_others
        sd["rank_unet"] = self.lora_rank_unet
        sd["state_dict_unet"] = {k: v for k, v in self.unet.state_dict().items() if "lora" in k}
        torch.save(sd, outf)

class NAOSD(torch.nn.Module):
    def __init__(self, args):
        super().__init__()

        self.tokenizer = AutoTokenizer.from_pretrained(args.pretrained_model_name_or_path, subfolder="tokenizer")
        self.text_encoder = CLIPTextModel.from_pretrained(args.pretrained_model_name_or_path, subfolder="text_encoder").cuda()
        self.sched = make_1step_sched(args.pretrained_model_name_or_path)
        self.sched2 = DDPMScheduler.from_pretrained(args.pretrained_model_name_or_path, subfolder="scheduler")
        self.args = args
        self.device =  torch.device('cuda' if torch.cuda.is_available() else 'cpu')

        vae = AutoencoderKL.from_pretrained(args.pretrained_model_name_or_path, subfolder="vae")
        unet = UNet2DConditionModel.from_pretrained(args.pretrained_model_name_or_path, subfolder="unet")
        
        if args.pretrained_path is None:
            vae, lora_vae_modules_encoder, lora_vae_modules_decoder, lora_vae_others =\
                 initialize_vae(rank=args.lora_rank_vae, pretrained_model_name_or_path=args.pretrained_model_name_or_path, return_lora_module_names=True)
            unet, lora_unet_modules_encoder, lora_unet_modules_decoder, lora_unet_others =\
                 initialize_unet_sr(rank=args.lora_rank_unet, pretrained_model_name_or_path=args.pretrained_model_name_or_path, return_lora_module_names=True, args=args)
            self.lora_rank_unet = args.lora_rank_unet
            self.lora_rank_vae = args.lora_rank_vae
            self.lora_vae_modules_encoder, self.lora_vae_modules_decoder, self.lora_vae_others = \
                lora_vae_modules_encoder, lora_vae_modules_decoder, lora_vae_others
            self.lora_unet_modules_encoder, self.lora_unet_modules_decoder, self.lora_unet_others = \
                lora_unet_modules_encoder, lora_unet_modules_decoder, lora_unet_others
        
        self.unet, self.vae = unet, vae
        
        if args.pretrained_path is not None:
            print('==================================> loading pre-trained weight')
            sd = torch.load(args.pretrained_path)
            self.load_ckpt_from_state_dict(sd)
            self.lora_rank_unet = sd['rank_unet']
            self.lora_rank_vae = sd['rank_vae']
            self.lora_vae_modules_encoder, self.lora_vae_modules_decoder, self.lora_vae_others = \
                sd['vae_lora_encoder_modules'], sd['vae_lora_decoder_modules'], sd['vae_lora_others_modules']
            self.lora_unet_modules_encoder, self.lora_unet_modules_decoder, self.lora_unet_others = \
                sd['unet_lora_encoder_modules'], sd['unet_lora_decoder_modules'], sd['unet_lora_others_modules']

        self.unet, self.vae = self.unet.cuda(), self.vae.cuda()
        self.timesteps = torch.tensor([args.time_step], device="cuda").long()
        self.timestepsnoise = torch.tensor([args.time_step_noise], device="cuda").long()
        self.text_encoder.requires_grad_(False)

    def set_eval(self):
        self.unet.eval()
        self.vae.eval()
        self.unet.requires_grad_(False)
        self.vae.requires_grad_(False)

    def set_train(self):
        self.unet.train()
        self.vae.train()
        for n, _p in self.unet.named_parameters():
            if "lora" in n:
                _p.requires_grad = True
        self.unet.conv_in.requires_grad_(True)
        for n, _p in self.vae.named_parameters():
            if "lora" in n:
                _p.requires_grad = True

    def encode_prompt(self, prompt):
        with torch.no_grad():
            text_input_ids = self.tokenizer(
                prompt, max_length=self.tokenizer.model_max_length,
                padding="max_length", truncation=True, return_tensors="pt"
            ).input_ids
            prompt_embeds = self.text_encoder(
                text_input_ids.to(self.text_encoder.device),
            )[0]
        return prompt_embeds

    def forward(self, c_t, positive_prompt=None, negative_prompt=None, args=None):
        caption_enc = self.encode_prompt(positive_prompt)
        neg_caption_enc = self.encode_prompt(negative_prompt)
        encoded_control = self.vae.encode(c_t).latent_dist.sample() * self.vae.config.scaling_factor
        noise = torch.randn_like(encoded_control)
        encoded_control = self.sched2.add_noise(encoded_control, noise, self.timestepsnoise)

        model_pred = self.unet(encoded_control, self.timesteps, encoder_hidden_states=caption_enc.to(torch.float32),).sample
        x_denoised = self.sched.step(model_pred, self.timesteps, encoded_control, return_dict=True).prev_sample
        output_image = self.vae.decode(x_denoised / self.vae.config.scaling_factor).sample
        output_image = output_image.clamp(-1, 1)

        return output_image, x_denoised, caption_enc, neg_caption_enc, noise

    def save_model(self, outf):
        sd = {}
        sd["vae_lora_encoder_modules"], sd["vae_lora_decoder_modules"], sd["vae_lora_others_modules"] =\
            self.lora_vae_modules_encoder, self.lora_vae_modules_decoder, self.lora_vae_others 
        sd["unet_lora_encoder_modules"], sd["unet_lora_decoder_modules"], sd["unet_lora_others_modules"] =\
            self.lora_unet_modules_encoder, self.lora_unet_modules_decoder, self.lora_unet_others
        sd["rank_unet"] = self.lora_rank_unet
        sd["rank_vae"] = self.lora_rank_vae
        sd["state_dict_unet"] = {k: v for k, v in self.unet.state_dict().items() if "lora" in k or "conv_in" in k}
        sd["state_dict_vae"] = {k: v for k, v in self.vae.state_dict().items() if "lora" in k or "skip" in k}
        torch.save(sd, outf)
    
    def load_ckpt_from_state_dict(self, sd):
        # load unet lora
        lora_conf_encoder = LoraConfig(r=sd["rank_unet"], init_lora_weights="gaussian", target_modules=sd["unet_lora_encoder_modules"])
        lora_conf_decoder = LoraConfig(r=sd["rank_unet"], init_lora_weights="gaussian", target_modules=sd["unet_lora_decoder_modules"])
        lora_conf_others = LoraConfig(r=sd["rank_unet"], init_lora_weights="gaussian", target_modules=sd["unet_lora_others_modules"])
        self.unet.add_adapter(lora_conf_encoder, adapter_name="default_encoder")
        self.unet.add_adapter(lora_conf_decoder, adapter_name="default_decoder")
        self.unet.add_adapter(lora_conf_others, adapter_name="default_others")
        for n, p in self.unet.named_parameters():
            if "lora" in n or "conv_in" in n:
                p.data.copy_(sd["state_dict_unet"][n])

        # load vae lora
        vae_lora_conf_encoder = LoraConfig(r=sd["rank_vae"], init_lora_weights="gaussian", target_modules=sd["vae_lora_encoder_modules"])
        vae_lora_conf_decoder = LoraConfig(r=sd["rank_vae"], init_lora_weights="gaussian", target_modules=sd["vae_lora_decoder_modules"])
        self.vae.add_adapter(vae_lora_conf_encoder, adapter_name="default_encoder")
        self.vae.add_adapter(vae_lora_conf_decoder, adapter_name="default_decoder")
        for n, p in self.vae.named_parameters():
            if "lora" in n:
                p.data.copy_(sd["state_dict_vae"][n])

class GDPOSR(torch.nn.Module):
    def __init__(self, args):
        super().__init__()

        self.tokenizer = AutoTokenizer.from_pretrained(args.pretrained_model_name_or_path, subfolder="tokenizer")
        self.text_encoder = CLIPTextModel.from_pretrained(args.pretrained_model_name_or_path, subfolder="text_encoder").cuda()
        self.sched = make_1step_sched(args.pretrained_model_name_or_path)
        self.sched2 = DDPMScheduler.from_pretrained(args.pretrained_model_name_or_path, subfolder="scheduler")
        self.args = args
        self.device =  torch.device('cuda' if torch.cuda.is_available() else 'cpu')

        vae = AutoencoderKL.from_pretrained(args.basemodel_path, subfolder="vae")
        unet = UNet2DConditionModel.from_pretrained(args.basemodel_path, subfolder="unet")
        ref_unet = UNet2DConditionModel.from_pretrained(args.basemodel_path, subfolder="unet")
        
        if args.pretrained_path is None:
            print('==================================> randomly initiate the weight')
            unet, lora_unet_modules_encoder, lora_unet_modules_decoder, lora_unet_others =\
                 initialize_unet_sr(rank=args.lora_rank_unet, pretrained_model_name_or_path=args.basemodel_path, return_lora_module_names=True, args=args)
            self.lora_rank_unet = args.lora_rank_unet
            self.lora_unet_modules_encoder, self.lora_unet_modules_decoder, self.lora_unet_others = \
                lora_unet_modules_encoder, lora_unet_modules_decoder, lora_unet_others
        
        self.unet, self.vae = unet, vae
        
        if args.pretrained_path is not None:
            print('==================================> loading pre-trained weight')
            sd = torch.load(args.pretrained_path)
            self.load_ckpt_from_state_dict(sd)
            self.lora_rank_unet = sd['rank_unet']
            self.lora_unet_modules_encoder, self.lora_unet_modules_decoder, self.lora_unet_others = \
                sd['unet_lora_encoder_modules'], sd['unet_lora_decoder_modules'], sd['unet_lora_others_modules']

        self.unet, self.vae = self.unet.cuda(), self.vae.cuda()
        self.ref_unet = ref_unet.cuda()
        self.timesteps = torch.tensor([args.time_step], device="cuda").long()
        self.timestepsnoise = torch.tensor([args.time_step_noise], device="cuda").long()
        self.text_encoder.requires_grad_(False)

    def set_eval(self):
        self.unet.eval()
        self.vae.eval()
        self.ref_unet.eval()
        self.unet.requires_grad_(False)
        self.vae.requires_grad_(False)
        self.ref_unet.requires_grad_(False)

    def set_train(self):
        self.unet.train()
        self.vae.train()
        for n, _p in self.unet.named_parameters():
            if "lora" in n:
                _p.requires_grad = True
        for n, _p in self.ref_unet.named_parameters():
                _p.requires_grad = False

    def encode_prompt(self, prompt):
        with torch.no_grad():
            text_input_ids = self.tokenizer(
                prompt, max_length=self.tokenizer.model_max_length,
                padding="max_length", truncation=True, return_tensors="pt"
            ).input_ids
            prompt_embeds = self.text_encoder(
                text_input_ids.to(self.text_encoder.device),
            )[0]
        return prompt_embeds

    def forward(self, c_t, positive_prompt=[''], negative_prompt=[''], args=None):
        caption_enc = self.encode_prompt(positive_prompt)
        neg_caption_enc = self.encode_prompt(negative_prompt)
        with torch.no_grad():
            encoded_control = self.vae.encode(c_t).latent_dist.sample() * self.vae.config.scaling_factor
        encoded_control_ref = encoded_control
        noise = torch.randn_like(encoded_control)
        encoded_control = self.sched2.add_noise(encoded_control, noise, self.timestepsnoise)

        model_pred = self.unet(encoded_control, self.timesteps, encoder_hidden_states=caption_enc.to(torch.float32),).sample
        x_denoised = self.sched.step(model_pred, self.timesteps, encoded_control, return_dict=True).prev_sample
        output_image = self.vae.decode(x_denoised / self.vae.config.scaling_factor).sample
        output_image = output_image.clamp(-1, 1)

        with torch.no_grad():
            encoded_control_ref = self.sched2.add_noise(encoded_control_ref, noise, self.timestepsnoise)
            ref_model_pred = self.ref_unet(encoded_control_ref, self.timesteps, encoder_hidden_states=caption_enc.to(torch.float32),).sample
            ref_x_denoised = self.sched.step(ref_model_pred, self.timesteps, encoded_control_ref, return_dict=True).prev_sample
            ref_output_image = self.vae.decode(ref_x_denoised / self.vae.config.scaling_factor).sample
            ref_output_image = ref_output_image.clamp(-1, 1)

        return output_image, x_denoised, model_pred, caption_enc, neg_caption_enc, noise, ref_output_image, ref_x_denoised, ref_model_pred
    
    def GDPOReference(self, c_t, positive_prompt=[''], negative_prompt=[''], args=None, groupsize=6):
        
        with torch.no_grad():
            
            caption_enc = self.encode_prompt(positive_prompt).unsqueeze(1)
            encoded_control = self.vae.encode(c_t).latent_dist.sample() * self.vae.config.scaling_factor
            b,c,h,w=encoded_control.shape
            encoded_control = encoded_control.unsqueeze(1)
            caption_enc = caption_enc.repeat(1,groupsize,1,1)
            encoded_control = encoded_control.repeat(1, groupsize, 1, 1, 1)
            noise = torch.randn_like(encoded_control)
            output_image = torch.zeros_like(c_t).unsqueeze(1).repeat(1,groupsize,1,1,1)
            x_denoised = torch.zeros_like(noise)
            model_pred = torch.zeros_like(noise)
            for i in range(b):
                encoded_control_i = self.sched2.add_noise(encoded_control[i], noise[i], self.timestepsnoise)
                # print(encoded_control.shape, caption_enc.shape, self.timesteps.shape)
                model_pred_i = self.ref_unet(encoded_control_i, self.timesteps, encoder_hidden_states=caption_enc[i],).sample
                x_denoised_i = self.sched.step(model_pred_i, self.timesteps, encoded_control_i, return_dict=True).prev_sample
                output_image_i = self.vae.decode(x_denoised_i / self.vae.config.scaling_factor).sample
                output_image_i = output_image_i.clamp(-1, 1)
                output_image[i] = output_image_i
                x_denoised[i] = x_denoised_i
                model_pred[i] = model_pred_i

        return output_image, x_denoised, model_pred
    
    def save_model(self, outf):
        sd = {}
        sd["unet_lora_encoder_modules"], sd["unet_lora_decoder_modules"], sd["unet_lora_others_modules"] =\
            self.lora_unet_modules_encoder, self.lora_unet_modules_decoder, self.lora_unet_others
        sd["rank_unet"] = self.lora_rank_unet
        sd["state_dict_unet"] = {k: v for k, v in self.unet.state_dict().items() if "lora" in k or "conv_in" in k}
        torch.save(sd, outf)
    
    def load_ckpt_from_state_dict(self, sd):
        # load unet lora
        lora_conf_encoder = LoraConfig(r=sd["rank_unet"], init_lora_weights="gaussian", target_modules=sd["unet_lora_encoder_modules"])
        lora_conf_decoder = LoraConfig(r=sd["rank_unet"], init_lora_weights="gaussian", target_modules=sd["unet_lora_decoder_modules"])
        lora_conf_others = LoraConfig(r=sd["rank_unet"], init_lora_weights="gaussian", target_modules=sd["unet_lora_others_modules"])
        self.unet.add_adapter(lora_conf_encoder, adapter_name="default_encoder")
        self.unet.add_adapter(lora_conf_decoder, adapter_name="default_decoder")
        self.unet.add_adapter(lora_conf_others, adapter_name="default_others")
        for n, p in self.unet.named_parameters():
            if "lora" in n or "conv_in" in n:
                p.data.copy_(sd["state_dict_unet"][n])

class GDPOSRTest(torch.nn.Module):
    def __init__(self, args):
        super().__init__()

        self.tokenizer = AutoTokenizer.from_pretrained(args.pretrained_model_name_or_path, subfolder="tokenizer")
        self.text_encoder = CLIPTextModel.from_pretrained(args.pretrained_model_name_or_path, subfolder="text_encoder").cuda()
        self.sched = make_1step_sched(args.pretrained_model_name_or_path)
        self.sched2 = DDPMScheduler.from_pretrained(args.pretrained_model_name_or_path, subfolder="scheduler")
        self.args = args
        self.device =  torch.device('cuda' if torch.cuda.is_available() else 'cpu')

        vae = AutoencoderKL.from_pretrained(args.pretrained_path, subfolder="vae")
        unet = UNet2DConditionModel.from_pretrained(args.pretrained_path, subfolder="unet")
                
        self.unet, self.vae = unet, vae
        self.unet, self.vae = self.unet.cuda(), self.vae.cuda()
        self.timesteps = torch.tensor([args.time_step], device="cuda").long()
        self.timestepsnoise = torch.tensor([args.time_step_noise], device="cuda").long()
        self.text_encoder.requires_grad_(False)

    def set_eval(self):
        self.unet.eval()
        self.vae.eval()
        self.unet.requires_grad_(False)
        self.vae.requires_grad_(False)

    def encode_prompt(self, prompt):
        with torch.no_grad():
            text_input_ids = self.tokenizer(
                prompt, max_length=self.tokenizer.model_max_length,
                padding="max_length", truncation=True, return_tensors="pt"
            ).input_ids
            prompt_embeds = self.text_encoder(
                text_input_ids.to(self.text_encoder.device),
            )[0]
        return prompt_embeds

    def forward(self, c_t, positive_prompt=['']):
        
        caption_enc = self.encode_prompt(positive_prompt)
        encoded_control = self.vae.encode(c_t).latent_dist.sample() * self.vae.config.scaling_factor
        noise = torch.randn_like(encoded_control)
        encoded_control = self.sched2.add_noise(encoded_control, noise, self.timestepsnoise)

        model_pred = self.unet(encoded_control, self.timesteps, encoder_hidden_states=caption_enc.to(torch.float32),).sample
        x_denoised = self.sched.step(model_pred, self.timesteps, encoded_control, return_dict=True).prev_sample
        output_image = self.vae.decode(x_denoised / self.vae.config.scaling_factor).sample
        output_image = output_image.clamp(-1, 1)
        

        return output_image