Spaces:

NguyenThanh1405
/

deploy_chatbot_demo

Sleeping

App Files Files Community

deploy_chatbot_demo / Agent_Diffusion /stable_diffusion.py

NguyenThanh1405

Deploy CQL Chatbot (without large files)

4cfe4fa about 1 month ago

raw

history blame contribute delete

6.36 kB

	import torch
	from diffusers.models import UNet2DConditionModel, AutoencoderKL
	from diffusers.schedulers import DDPMScheduler
	from transformers import CLIPTextModel, CLIPTokenizer
	from typing import Dict, Any, Optional

	class MiniDiffusionPipeline:


	# config mặc định
	DEFAULT_CONFIG: Dict[str, Any] = {
	"beta_schedule": "scaled_linear",
	"beta_start": 0.00085,
	"beta_end": 0.0120,
	"num_train_timesteps": 1000,
	"prediction_type": "epsilon",
	"variance_type": "fixed_small",
	"clip_sample": False,
	"rescale_betas_zero_snr": False,
	"timestep_spacing": "leading",
	"lr": 1e-4,
	"optimizer": "AdamW",
	"scheduler": "cosine",
	"ema_decay": 0.9999,
	"latent_scale": 0.18215,
	"text_embed_dim": 768,
	"latent_channels": 4,
	"latent_downscale_factor": 8,

	# --- Cấu hình kiến trúc UNet-mini ---
	"image_size": 128,
	"unet_block_out_channels": (256, 512, 1024),
	"unet_layers_per_block": 1,
	"unet_down_block_types": (
	"CrossAttnDownBlock2D",
	"CrossAttnDownBlock2D",
	"DownBlock2D",
	),
	"unet_up_block_types": (
	"UpBlock2D",
	"CrossAttnUpBlock2D",
	"CrossAttnUpBlock2D",
	),
	"unet_mid_block_type": "UNetMidBlock2DCrossAttn",
	"unet_attention_head_dim": 8,
	}

	def __init__(
	self,
	base_model_id: str = "stabilityai/stable-diffusion-v1-5",
	vae_model_id: Optional[str] = None,
	device: str = "cpu",
	config_overrides: Optional[Dict[str, Any]] = None
	):
	self.device = torch.device(device)

	self.config = {self.DEFAULT_CONFIG, (config_overrides or {})}

	print(f"Đang tải Tokenizer và Text Encoder (đã đóng băng) từ {base_model_id}...")
	self.tokenizer = self._load_tokenizer(base_model_id)
	self.text_encoder = self._load_text_encoder(base_model_id)

	_vae_id = vae_model_id or base_model_id
	_vae_subfolder = "vae" if vae_model_id is None else None
	print(f"Đang tải VAE (để fine-tune) từ {_vae_id}...")
	self.vae = self._load_vae(_vae_id, _vae_subfolder)

	print("Khởi tạo UNet-mini (với trọng số ngẫu nhiên)...")
	self.unet = self._load_mini_unet()

	print("Khởi tạo Noise Scheduler...")
	self.noise_scheduler = self._load_noise_scheduler()

	print("\n--- MiniDiffusionPipeline đã sẵn sàng! ---")
	self.print_model_stats()

	def _load_tokenizer(self, model_id: str) -> CLIPTokenizer:
	return CLIPTokenizer.from_pretrained(model_id, subfolder="tokenizer")

	def _load_text_encoder(self, model_id: str) -> CLIPTextModel:
	model = CLIPTextModel.from_pretrained(model_id, subfolder="text_encoder")
	model.to(self.device)
	model.requires_grad_(False)
	return model

	def _load_vae(self, model_id: str, subfolder: Optional[str]) -> AutoencoderKL:
	if subfolder:
	model = AutoencoderKL.from_pretrained(model_id, subfolder=subfolder)
	else:
	model = AutoencoderKL.from_pretrained(model_id)
	model.to(self.device)
	return model

	def _load_mini_unet(self) -> UNet2DConditionModel:

	latent_size = self.config["image_size"] // self.config["latent_downscale_factor"]

	unet_config = {
	"sample_size": latent_size,
	"in_channels": self.config["latent_channels"],
	"out_channels": self.config["latent_channels"],
	"block_out_channels": self.config["unet_block_out_channels"],
	"layers_per_block": self.config["unet_layers_per_block"],
	"down_block_types": self.config["unet_down_block_types"],
	"up_block_types": self.config["unet_up_block_types"],
	"mid_block_type": self.config["unet_mid_block_type"],
	"cross_attention_dim": self.config["text_embed_dim"],
	"attention_head_dim": self.config["unet_attention_head_dim"],
	}

	model = UNet2DConditionModel(**unet_config)
	model.to(self.device)
	return model

	def _load_noise_scheduler(self) -> DDPMScheduler:
	return DDPMScheduler.from_config(self.config)

	def print_model_stats(self):
	unet_params = sum(p.numel() for p in self.unet.parameters() if p.requires_grad)
	vae_params = sum(p.numel() for p in self.vae.parameters() if p.requires_grad)
	print(f" UNet-mini (để train): {unet_params / 1_000_000:.2f} triệu tham số")
	print(f" VAE (để fine-tune): {vae_params / 1_000_000:.2f} triệu tham số")

	def get_trainable_parameters(self) -> Dict[str, Any]:
	return {
	"unet": self.unet.parameters(),
	"vae": self.vae.parameters()
	}


	# --- KHỐI KIỂM THỬ (SMOKE TEST) ---
	def _run_smoke_test():
	print("--- Bắt đầu kiểm thử MiniDiffusionPipeline ---")

	if not torch.cuda.is_available():
	print("CẢNH BÁO: Không tìm thấy CUDA. Chạy trên CPU (sẽ chậm).")
	device = "cpu"
	else:
	device = "cuda"

	# --- Tải mặc định (dùng VAE của 1.5) ---
	print("\n--- Tải mặc định ---")
	pipeline_1 = MiniDiffusionPipeline(
	base_model_id="runwayml/stable-diffusion-v1-5",
	device=device
	)

	# --- Tải VAE-MSE ---
	print("\n--- Tải VAE-MSE tùy chỉnh ---")
	pipeline_2 = MiniDiffusionPipeline(
	base_model_id="runwayml/stable-diffusion-v1-5",
	vae_model_id="stabilityai/sd-vae-ft-mse",
	device=device
	)

	# --- Ghi đè config ---
	print("\n--- Ghi đè config (UNet siêu nhỏ) ---")
	tiny_config = {
	"unet_block_out_channels": (128, 256, 512),
	"lr": 5e-5
	}
	pipeline_3 = MiniDiffusionPipeline(
	base_model_id="runwayml/stable-diffusion-v1-5",
	device=device,
	config_overrides=tiny_config
	)

	print("\n--- Kiểm thử thành công ---")
	print(f"Config LR của Pipeline 1: {pipeline_1.config['lr']}")
	print(f"Config LR của Pipeline 3: {pipeline_3.config['lr']}")


	if __name__ == "__main__":
	_run_smoke_test()