ComfyUI-Reactor-Fast-Face-Swap-Codeb-CPU

Running

App Files Files Community

ComfyUI-Reactor-Fast-Face-Swap-Codeb-CPU / comfy /cldm /dit_embedder.py

V0pr0S

Initial commit for ComfyUI-Reactor-Fast-Face-Swap-CPU

dd7e3fa 2 months ago

raw

history blame contribute delete

4.2 kB

	import math
	from typing import List, Optional, Tuple

	import torch
	import torch.nn as nn
	from torch import Tensor

	from comfy.ldm.modules.diffusionmodules.mmdit import DismantledBlock, PatchEmbed, VectorEmbedder, TimestepEmbedder, get_2d_sincos_pos_embed_torch


	class ControlNetEmbedder(nn.Module):

	def __init__(
	self,
	img_size: int,
	patch_size: int,
	in_chans: int,
	attention_head_dim: int,
	num_attention_heads: int,
	adm_in_channels: int,
	num_layers: int,
	main_model_double: int,
	double_y_emb: bool,
	device: torch.device,
	dtype: torch.dtype,
	pos_embed_max_size: Optional[int] = None,
	operations = None,
	):
	super().__init__()
	self.main_model_double = main_model_double
	self.dtype = dtype
	self.hidden_size = num_attention_heads * attention_head_dim
	self.patch_size = patch_size
	self.x_embedder = PatchEmbed(
	img_size=img_size,
	patch_size=patch_size,
	in_chans=in_chans,
	embed_dim=self.hidden_size,
	strict_img_size=pos_embed_max_size is None,
	device=device,
	dtype=dtype,
	operations=operations,
	)

	self.t_embedder = TimestepEmbedder(self.hidden_size, dtype=dtype, device=device, operations=operations)

	self.double_y_emb = double_y_emb
	if self.double_y_emb:
	self.orig_y_embedder = VectorEmbedder(
	adm_in_channels, self.hidden_size, dtype, device, operations=operations
	)
	self.y_embedder = VectorEmbedder(
	self.hidden_size, self.hidden_size, dtype, device, operations=operations
	)
	else:
	self.y_embedder = VectorEmbedder(
	adm_in_channels, self.hidden_size, dtype, device, operations=operations
	)

	self.transformer_blocks = nn.ModuleList(
	DismantledBlock(
	hidden_size=self.hidden_size, num_heads=num_attention_heads, qkv_bias=True,
	dtype=dtype, device=device, operations=operations
	)
	for _ in range(num_layers)
	)

	# self.use_y_embedder = pooled_projection_dim != self.time_text_embed.text_embedder.linear_1.in_features
	# TODO double check this logic when 8b
	self.use_y_embedder = True

	self.controlnet_blocks = nn.ModuleList([])
	for _ in range(len(self.transformer_blocks)):
	controlnet_block = operations.Linear(self.hidden_size, self.hidden_size, dtype=dtype, device=device)
	self.controlnet_blocks.append(controlnet_block)

	self.pos_embed_input = PatchEmbed(
	img_size=img_size,
	patch_size=patch_size,
	in_chans=in_chans,
	embed_dim=self.hidden_size,
	strict_img_size=False,
	device=device,
	dtype=dtype,
	operations=operations,
	)

	def forward(
	self,
	x: torch.Tensor,
	timesteps: torch.Tensor,
	y: Optional[torch.Tensor] = None,
	context: Optional[torch.Tensor] = None,
	hint = None,
	) -> Tuple[Tensor, List[Tensor]]:
	x_shape = list(x.shape)
	x = self.x_embedder(x)
	if not self.double_y_emb:
	h = (x_shape[-2] + 1) // self.patch_size
	w = (x_shape[-1] + 1) // self.patch_size
	x += get_2d_sincos_pos_embed_torch(self.hidden_size, w, h, device=x.device)
	c = self.t_embedder(timesteps, dtype=x.dtype)
	if y is not None and self.y_embedder is not None:
	if self.double_y_emb:
	y = self.orig_y_embedder(y)
	y = self.y_embedder(y)
	c = c + y

	x = x + self.pos_embed_input(hint)

	block_out = ()

	repeat = math.ceil(self.main_model_double / len(self.transformer_blocks))
	for i in range(len(self.transformer_blocks)):
	out = self.transformer_blocks[i](x, c)
	if not self.double_y_emb:
	x = out
	block_out += (self.controlnet_blocks[i](out),) * repeat

	return {"output": block_out}