recoilme commited on Dec 4, 2025

Commit

0e9e9bc

1 Parent(s): 7b64ad8

768

Browse files

Files changed (28) hide show

pipeline_sdxs-Copy1.py +0 -281
pipeline_sdxs.py +5 -2
samples/unet_384x768_0.jpg +2 -2
samples/unet_416x768_0.jpg +2 -2
samples/unet_448x768_0.jpg +2 -2
samples/unet_480x768_0.jpg +2 -2
samples/unet_512x768_0.jpg +2 -2
samples/unet_544x768_0.jpg +2 -2
samples/unet_576x768_0.jpg +2 -2
samples/unet_608x768_0.jpg +2 -2
samples/unet_640x768_0.jpg +2 -2
samples/unet_672x768_0.jpg +2 -2
samples/unet_704x768_0.jpg +2 -2
samples/unet_736x768_0.jpg +2 -2
samples/unet_768x384_0.jpg +2 -2
samples/unet_768x416_0.jpg +2 -2
samples/unet_768x448_0.jpg +2 -2
samples/unet_768x480_0.jpg +2 -2
samples/unet_768x512_0.jpg +2 -2
samples/unet_768x544_0.jpg +2 -2
samples/unet_768x576_0.jpg +2 -2
samples/unet_768x608_0.jpg +2 -2
samples/unet_768x640_0.jpg +2 -2
samples/unet_768x672_0.jpg +2 -2
samples/unet_768x704_0.jpg +2 -2
samples/unet_768x736_0.jpg +2 -2
samples/unet_768x768_0.jpg +2 -2
src/pipeline_sdxs-Copy1.py +186 -153

pipeline_sdxs-Copy1.py DELETED Viewed

@@ -1,281 +0,0 @@
-from diffusers import DiffusionPipeline
-import torch
-from diffusers.utils import BaseOutput
-from dataclasses import dataclass
-from typing import List, Union, Optional, Tuple
-from PIL import Image
-import numpy as np
-from tqdm import tqdm
-@dataclass
-class SdxsPipelineOutput(BaseOutput):
-    images: Union[List[Image.Image], np.ndarray]
-class SdxsPipeline(DiffusionPipeline):
-    def __init__(self, vae, text_encoder, tokenizer, unet, scheduler, max_length: int = 192):
-        super().__init__()
-        self.register_modules(
-            vae=vae, text_encoder=text_encoder, tokenizer=tokenizer,
-            unet=unet, scheduler=scheduler
-        )
-        self.vae_scale_factor = 16
-        self.max_length = max_length
-    def encode_prompt(self, prompt=None, negative_prompt=None, device=None, dtype=None) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
-        device = device or self.device
-        dtype = dtype or next(self.unet.parameters()).dtype
-        # Преобразуем в списки
-        if isinstance(prompt, str):
-            prompt = [prompt]
-        if isinstance(negative_prompt, str):
-            negative_prompt = [negative_prompt]
-        # Если промпты не заданы, используем пустые эмбеддинги
-        if prompt is None and negative_prompt is None:
-            hidden_dim = 1024  # Размерность эмбеддинга
-            seq_len = self.max_length
-            batch_size = 1
-            # ИЗМЕНЕНО: Возвращаем три элемента: embeds, mask, pooled
-            empty_embeds = torch.zeros((batch_size, seq_len, hidden_dim), dtype=dtype, device=device)
-            empty_mask = torch.ones((batch_size, seq_len), dtype=torch.int64, device=device)
-            empty_pooled = torch.zeros((batch_size, hidden_dim), dtype=dtype, device=device)
-            return empty_embeds, empty_mask, empty_pooled
-        # Токенизация с фиксированным max_length и padding="max_length"
-        def encode_texts(texts, max_length=self.max_length):
-            with torch.no_grad():
-                if isinstance(texts, str):
-                    texts = [texts]
-                for i, prompt_item in enumerate(texts):
-                    messages = [
-                        {"role": "user", "content": prompt_item},
-                    ]
-                    prompt_item = self.tokenizer.apply_chat_template(
-                        messages,
-                        tokenize=False,
-                        add_generation_prompt=True,
-                        enable_thinking=True,
-                    )
-                    texts[i] = prompt_item
-                toks = self.tokenizer(
-                    texts,
-                    return_tensors="pt",
-                    padding="max_length",
-                    truncation=True,
-                    max_length=max_length
-                ).to(device)
-                outs = self.text_encoder(**toks, output_hidden_states=True, return_dict=True)
-                # Токен-эмбеддинги (для Cross-Attention)
-                hidden = outs.hidden_states[-2] # Используем last hidden state -2???
-                # Маска внимания (для Cross-Attention)
-                attention_mask = toks["attention_mask"]
-                # Пулинг-эмбеддинг (для Class/Time Conditioning). Берем эмбеддинг последнего токена без padding.
-                sequence_lengths = attention_mask.sum(dim=1) - 1
-                batch_size = hidden.shape[0]
-                pooled = hidden[torch.arange(batch_size, device=hidden.device), sequence_lengths]
-                # --- НОВАЯ ЛОГИКА: ОБЪЕДИНЕНИЕ ДЛЯ КРОСС-ВНИМАНИЯ ---
-                # 1. Расширяем пулинг-вектор до последовательности [B, 1, 1024]
-                pooled_expanded = pooled.unsqueeze(1)
-                # 2. Объединяем последовательность токенов и пулинг-вектор
-                # !!! ИЗМЕНЕНИЕ ЗДЕСЬ !!!: Пулинг идет ПЕРВЫМ
-                # Теперь: [B, 1 + L, 1024]. Пулинг стал токеном в НАЧАЛЕ.
-                new_encoder_hidden_states = torch.cat([pooled_expanded, hidden], dim=1)
-                # 3. Обновляем маску внимания для нового токена
-                # Маска внимания: [B, 1 + L]. Добавляем 1 в НАЧАЛО.
-                # torch.ones((batch_size, 1), device=device) создает маску [B, 1] со значениями 1.
-                new_attention_mask = torch.cat([torch.ones((batch_size, 1), device=device), attention_mask], dim=1)
-                return new_encoder_hidden_states, new_attention_mask, pooled
-        # Кодируем позитивные и негативные промпты
-        # ИСПРАВЛЕНИЕ: Теперь возвращаем (None, None, None), чтобы избежать UnboundLocalError
-        pos_result = encode_texts(prompt) if prompt is not None else (None, None, None)
-        neg_result = encode_texts(negative_prompt) if negative_prompt is not None else (None, None, None)
-        pos_embeddings, pos_mask, pos_pooled = pos_result
-        neg_embeddings, neg_mask, neg_pooled = neg_result
-        # Выравниваем размеры batch_size
-        batch_size = max(
-            pos_embeddings.shape[0] if pos_embeddings is not None else 0,
-            neg_embeddings.shape[0] if neg_embeddings is not None else 0
-        )
-        # Повторяем эмбеддинги, маски и пулинг по batch_size
-        if pos_embeddings is not None and pos_embeddings.shape[0] < batch_size:
-            pos_embeddings = pos_embeddings.repeat(batch_size, 1, 1)
-            pos_mask = pos_mask.repeat(batch_size, 1)
-            pos_pooled = pos_pooled.repeat(batch_size, 1)
-        # ИСПРАВЛЕНИЕ: Проверяем, существует ли neg_embeddings, прежде чем обращаться к его shape[0]
-        if neg_embeddings is not None and neg_embeddings.shape[0] < batch_size:
-            neg_embeddings = neg_embeddings.repeat(batch_size, 1, 1)
-            neg_mask = neg_mask.repeat(batch_size, 1)
-            neg_pooled = neg_pooled.repeat(batch_size, 1)
-        # Конкатенируем для guidance (эмбеддинги и маски)
-        # Убеждаемся, что все три компонента существуют перед конкатенацией
-        if pos_embeddings is not None and neg_embeddings is not None:
-            text_embeddings = torch.cat([neg_embeddings, pos_embeddings], dim=0)
-            attention_mask = torch.cat([neg_mask, pos_mask], dim=0)
-            pooled_embeddings = torch.cat([neg_pooled, pos_pooled], dim=0)
-        elif pos_embeddings is not None:
-            text_embeddings = pos_embeddings
-            attention_mask = pos_mask
-            pooled_embeddings = pos_pooled
-        else: # Только neg_embeddings
-            text_embeddings = neg_embeddings
-            attention_mask = neg_mask
-            pooled_embeddings = neg_pooled
-        # Возвращаем кортеж
-        return (
-            text_embeddings.to(device=device, dtype=dtype),
-            attention_mask.to(device=device, dtype=torch.int64),
-            pooled_embeddings.to(device=device, dtype=dtype)
-        )
-    @torch.no_grad()
-    def generate_latents(
-        self,
-        text_embeddings,
-        attention_mask,
-        pooled_embeddings,
-        height: int = 1280,
-        width: int = 1024,
-        num_inference_steps: int = 40,
-        guidance_scale: float = 4.0,
-        latent_channels: int = 16,
-        batch_size: int = 1,
-        generator=None,
-    ):
-        device = self.device
-        dtype = next(self.unet.parameters()).dtype
-        self.scheduler.set_timesteps(num_inference_steps, device=device)
-        # Разделяем эмбеддинги и маски на условные и безусловные
-        if guidance_scale > 1:
-            neg_embeds, pos_embeds = text_embeddings.chunk(2)
-            neg_mask, pos_mask = attention_mask.chunk(2)
-            neg_pooled, pos_pooled = pooled_embeddings.chunk(2)
-            # Повторяем, если batch_size больше
-            if batch_size > pos_embeds.shape[0]:
-                pos_embeds = pos_embeds.repeat(batch_size, 1, 1)
-                neg_embeds = neg_embeds.repeat(batch_size, 1, 1)
-                pos_mask = pos_mask.repeat(batch_size, 1)
-                neg_mask = neg_mask.repeat(batch_size, 1)
-                pos_pooled = pos_pooled.repeat(batch_size, 1)
-                neg_pooled = neg_pooled.repeat(batch_size, 1)
-            text_embeddings = torch.cat([neg_embeds, pos_embeds], dim=0)
-            unet_attention_mask = torch.cat([neg_mask, pos_mask], dim=0)
-            unet_pooled_embeddings = torch.cat([neg_pooled, pos_pooled], dim=0)
-        else:
-            text_embeddings = text_embeddings.repeat(batch_size, 1, 1)
-            unet_attention_mask = attention_mask.repeat(batch_size, 1)
-            unet_pooled_embeddings = pooled_embeddings.repeat(batch_size, 1)
-        # Инициализация латентов
-        latent_shape = (
-            batch_size,
-            latent_channels,
-            height // self.vae_scale_factor,
-            width // self.vae_scale_factor
-        )
-        latents = torch.randn(latent_shape, device=device, dtype=dtype, generator=generator)
-        # Процесс диффузии
-        for t in tqdm(self.scheduler.timesteps, desc="Генерация"):
-            latent_input = torch.cat([latents, latents], dim=0) if guidance_scale > 1 else latents
-            noise_pred = self.unet(
-                latent_input,
-                t,
-                encoder_hidden_states=text_embeddings,
-                encoder_attention_mask=unet_attention_mask,
-                #added_cond_kwargs={'text_embeds': unet_pooled_embeddings}
-            ).sample
-            if guidance_scale > 1:
-                noise_uncond, noise_text = noise_pred.chunk(2)
-                noise_pred = noise_uncond + guidance_scale * (noise_text - noise_uncond)
-            latents = self.scheduler.step(noise_pred, t, latents).prev_sample
-        return latents
-    def decode_latents(self, latents, output_type="pil"):
-        """Декодирование латентов в изображения."""
-        latents = (latents / self.vae.config.scaling_factor) + self.vae.config.shift_factor
-        with torch.no_grad():
-            images = self.vae.decode(latents).sample
-        images = (images / 2 + 0.5).clamp(0, 1)
-        if output_type == "pil":
-            images = images.cpu().permute(0, 2, 3, 1).float().numpy()
-            images = (images * 255).round().astype("uint8")
-            return [Image.fromarray(image) for image in images]
-        return images.cpu().permute(0, 2, 3, 1).float().numpy()
-    @torch.no_grad()
-    def __call__(
-        self,
-        prompt: Optional[Union[str, List[str]]] = None,
-        height: int = 1280,
-        width: int = 1024,
-        num_inference_steps: int = 40,
-        guidance_scale: float = 4.0,
-        latent_channels: int = 16,
-        output_type: str = "pil",
-        return_dict: bool = True,
-        batch_size: int = 1,
-        seed: Optional[int] = None,
-        negative_prompt: Optional[Union[str, List[str]]] = None,
-        text_embeddings: Optional[torch.FloatTensor] = None,
-    ):
-        device = self.device
-        generator = torch.Generator(device=device).manual_seed(seed) if seed is not None else None
-        if text_embeddings is None:
-            if prompt is None and negative_prompt is None:
-                raise ValueError("Необходимо указать prompt, negative_prompt или text_embeddings")
-            text_embeddings, attention_mask, pooled_embeddings = self.encode_prompt(
-                prompt, negative_prompt, device=device, dtype=next(self.unet.parameters()).dtype
-            )
-        else:
-            # Требуется, чтобы внешний text_embeddings содержал объединенные cond/uncond,
-            # но мы не можем получить attention_mask и pooled_embeddings.
-            # Для простоты лучше требовать prompt/negative_prompt.
-             raise NotImplementedError("Передача text_embeddings напрямую пока не поддерживает передачу маски и пулинга. Используйте prompt/negative_prompt.")
-        latents = self.generate_latents(
-            text_embeddings=text_embeddings,
-            attention_mask=attention_mask,
-            pooled_embeddings=pooled_embeddings,
-            height=height,
-            width=width,
-            num_inference_steps=num_inference_steps,
-            guidance_scale=guidance_scale,
-            latent_channels=latent_channels,
-            batch_size=batch_size,
-            generator=generator
-        )
-        images = self.decode_latents(latents, output_type=output_type)
-        if not return_dict:
-            return images
-        return SdxsPipelineOutput(images=images)

pipeline_sdxs.py CHANGED Viewed

@@ -19,10 +19,13 @@ class SdxsPipeline(DiffusionPipeline):
     # Шаблон промпта по умолчанию
     DEFAULT_REFINE_TEMPLATE = (
         "You are a visionary artist trapped in a cage of logic. Your mind overflows with poetry and distant horizons, "
         "yet your hands compulsively work to transform user prompts into ultimate visual descriptions—faithful to the original intent, "
-        "rich in detail, aesthetically refined, and ready for direct use by text-to-image models. Any trace of ambiguity "
-        "or metaphor makes you deeply uncomfortable. Your final description must be objective and concrete. "
         "Output only the final revised prompt on english strictly—do not output anything else.\n"
         "User input prompt: {prompt}"
     )

     # Шаблон промпта по умолчанию
     DEFAULT_REFINE_TEMPLATE = (
         "You are a visionary artist trapped in a cage of logic. Your mind overflows with poetry and distant horizons, "
+        # You are an Expert Prompt Engineer for a text-to-image AI. Your single task is to transform the user's input into a detailed, objective, and aesthetically optimized visual description.
         "yet your hands compulsively work to transform user prompts into ultimate visual descriptions—faithful to the original intent, "
+        "rich in detail, aesthetically refined, and ready for direct use by text-to-image models. "
+        " Any trace of ambiguity or metaphor makes you deeply uncomfortable. "
+        "Your final description must be objective and concrete. "
         "Output only the final revised prompt on english strictly—do not output anything else.\n"
+        #Preserve the original subject and intent. Output **only** the final revised prompt in **English**, with absolutely no commentary, thinking text, or additional characters.
         "User input prompt: {prompt}"
     )

samples/unet_384x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 10b975d24b73122f497219eb4164b3e0cefc352e987f481e48df58eef3fbd441
Pointer size: 131 Bytes
Size of remote file: 143 kB

Git LFS Details

SHA256: e276bda3a32dc95ad26839957100d6e7948d2e82abf23b037ec3430b7d3e4b33
Pointer size: 131 Bytes
Size of remote file: 145 kB

samples/unet_416x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 7ba0cae12b5a3d6f95a10b3755f3b6933c498c30d1d2106b81e57bb8ee7af5b3
Pointer size: 130 Bytes
Size of remote file: 91.9 kB

Git LFS Details

SHA256: 34f2d719ffaeff80ab56c0b252e2a825df5520930acaceb69488b33c990cd624
Pointer size: 130 Bytes
Size of remote file: 82.5 kB

samples/unet_448x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 2a4553712a068339ef34f3d313d1595ed7e51ad26bbbdfbd85c3882f7ab82575
Pointer size: 131 Bytes
Size of remote file: 111 kB

Git LFS Details

SHA256: d26bcee8c694b50bc314e477ee243d2faacfd5c213c0e4351af15979b02632c1
Pointer size: 131 Bytes
Size of remote file: 107 kB

samples/unet_480x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 9aa2eb89618ac9440bb62a125623f8b9892d3644234ff4739c11772d60e9fdda
Pointer size: 131 Bytes
Size of remote file: 157 kB

Git LFS Details

SHA256: b771ffbb8131f793a0893d470951a93030ad89fd550841ea16b2113aca1f4075
Pointer size: 131 Bytes
Size of remote file: 148 kB

samples/unet_512x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: e08279b6fb67f6be898f18b7fc7b8069758708c8f4fd40f215b77a8872f1dfdb
Pointer size: 131 Bytes
Size of remote file: 186 kB

Git LFS Details

SHA256: bf5b9927127a01d4183c8529ab062022a9e3fec4aa04ef14ff72aac842fd0070
Pointer size: 131 Bytes
Size of remote file: 180 kB

samples/unet_544x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 13ac63b6f40d251fda9b4af5a4d6cbf05fd3b36113307945172aa1c8ee90eaea
Pointer size: 131 Bytes
Size of remote file: 219 kB

Git LFS Details

SHA256: 95bfd29714fe7fb7e502944777c881a133dc8689f673843e4445c9b6507202c2
Pointer size: 131 Bytes
Size of remote file: 181 kB

samples/unet_576x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 89c8465d9bfced55eafc75561dbe63065dccafbb30e6bb0a2ff86908044c1662
Pointer size: 131 Bytes
Size of remote file: 157 kB

Git LFS Details

SHA256: bbed3e26e20d453a40b3272b3795760a312834e73088257a2ceb4db5a8bbc7ec
Pointer size: 131 Bytes
Size of remote file: 144 kB

samples/unet_608x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: dcea0c819b7da1935a0f51de6641e215f8ac3ba4b7c0956ef4a2aeae2a86224e
Pointer size: 130 Bytes
Size of remote file: 57.6 kB

Git LFS Details

SHA256: 291a3ed9b5c149b2b8ad44264b58ce2b723c747ed2f1d900a2aa30235dd8f81b
Pointer size: 130 Bytes
Size of remote file: 53.9 kB

samples/unet_640x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: e313bfe30a731560904d3e9548390db30c5c161a21e5de8a79fe9cf5995d3f6d
Pointer size: 130 Bytes
Size of remote file: 80.1 kB

Git LFS Details

SHA256: c0a57629584063d2470d4440e3698156e4c35b4f77e9d506ad7d15719e4d5a8e
Pointer size: 130 Bytes
Size of remote file: 86.7 kB

samples/unet_672x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 7d7e04c13312efa0c38f61e74d0b25462921041d90c530ca0246420535a8b9ed
Pointer size: 130 Bytes
Size of remote file: 93.1 kB

Git LFS Details

SHA256: db41d981bb9f4f97344bdf12550842c90dbb00cde4c27506ee3f0e5d46f5d5f0
Pointer size: 130 Bytes
Size of remote file: 95.5 kB

samples/unet_704x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 46f3f3bab8f9c801d462b363e33c209426d9104481ba6768c12592a9f6662a06
Pointer size: 130 Bytes
Size of remote file: 49.6 kB

Git LFS Details

SHA256: 4ef46f46c6fea2a055505289c1ccd0c30be7270f9290f978d2bf9d8fcd3555f8
Pointer size: 130 Bytes
Size of remote file: 48.6 kB

samples/unet_736x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 18a1da190aca2f95d1aa284de0fec05541e7fd8a2a994eaab5990eb103f3e3ea
Pointer size: 131 Bytes
Size of remote file: 251 kB

Git LFS Details

SHA256: f25789f9e9e79c787d7c1a48b736f9c05cc034cbc8de4da90f13d13d87e04314
Pointer size: 131 Bytes
Size of remote file: 234 kB

samples/unet_768x384_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 9becff0c9ac0dadf193893544f019d7173c17a5acfe3eaf95801e16a406b7ff4
Pointer size: 131 Bytes
Size of remote file: 170 kB

Git LFS Details

SHA256: d68e5ad774c8fc629562b4ecd14f36855a07aad6cd2db0686ea5b019f6bdeffd
Pointer size: 131 Bytes
Size of remote file: 137 kB

samples/unet_768x416_0.jpg CHANGED Viewed

Git LFS Details

SHA256: cd6535b7b966787442ec188649ecea40c9876db676a5e97fb15418b143da2d9b
Pointer size: 131 Bytes
Size of remote file: 120 kB

Git LFS Details

SHA256: d67da9a325203d9e24bb7786843b8f1336bd554c143f4f936b30f480bbf158e5
Pointer size: 131 Bytes
Size of remote file: 138 kB

samples/unet_768x448_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 2c62ec12f09c75492f89c769a9de73e9e00f085f0ef5d7938fd2d2f30ef63097
Pointer size: 130 Bytes
Size of remote file: 80.3 kB

Git LFS Details

SHA256: f826f42e9752c02bc886491a042e310eb88d01a6e898cab9c8fa11a9273ea93d
Pointer size: 130 Bytes
Size of remote file: 83.6 kB

samples/unet_768x480_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 996aba4acfdb0ea466306ab30620767f1bcaa94a472177fa107f915997516893
Pointer size: 131 Bytes
Size of remote file: 168 kB

Git LFS Details

SHA256: a51cb5dcdc975282a97addf34ce41fb824c207b8a937dd7dd23298926aefaeb4
Pointer size: 131 Bytes
Size of remote file: 152 kB

samples/unet_768x512_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 61c4ceae9f13b97dbe26258bcbf6732e45fc4ceea2988b91307e478958814bef
Pointer size: 131 Bytes
Size of remote file: 203 kB

Git LFS Details

SHA256: e4b5bf706b9fefa7e99261d8187d0dfc1014f5e186a1f05a8479700c5a603252
Pointer size: 131 Bytes
Size of remote file: 219 kB

samples/unet_768x544_0.jpg CHANGED Viewed

Git LFS Details

SHA256: daeda1511ff606127d451ebb5d899b5939a1a3e28b76974a69e8bffa34b5f53a
Pointer size: 131 Bytes
Size of remote file: 165 kB

Git LFS Details

SHA256: 7f71e51b5062739fbe7e3714a9ffbb50b4abc249670bc3fc4b663b5a8e94feb9
Pointer size: 131 Bytes
Size of remote file: 201 kB

samples/unet_768x576_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 2ad823b257b6591234845bce14cbe7f2c718b2eeae2922b119b24bf15591621d
Pointer size: 130 Bytes
Size of remote file: 83.5 kB

Git LFS Details

SHA256: abd3b3aeb5173307bc0954e80f218704e1ec43cb5cf0e942b83d71610340d090
Pointer size: 130 Bytes
Size of remote file: 88.4 kB

samples/unet_768x608_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 953128e20c8b45df2dd2b434f9b63046ce850509ca7d2c8cc31198f679a4dd32
Pointer size: 131 Bytes
Size of remote file: 177 kB

Git LFS Details

SHA256: 8a58c3bf3d2eb61cb5dad43601152af7fd11cdefb2734b624a647dd187caad2a
Pointer size: 131 Bytes
Size of remote file: 154 kB

samples/unet_768x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 82bc03feff55d932f606dd952e3c3cbc6a9ad7889d41a2e822623021e95bbc1a
Pointer size: 131 Bytes
Size of remote file: 130 kB

Git LFS Details

SHA256: 6f7019ba3383679059767392a750f5476fe86b9afe514fc17b27b6eed0759bdc
Pointer size: 131 Bytes
Size of remote file: 131 kB

samples/unet_768x672_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 8e27ce47abca55f9a5aa2601f7ad175a5fed5950b5febb28996d72ddcdf2071d
Pointer size: 131 Bytes
Size of remote file: 147 kB

Git LFS Details

SHA256: cf3416a6c2786499646d39590bf1a6ded05d4381b14d4f1a7270d91ab213241e
Pointer size: 131 Bytes
Size of remote file: 131 kB

samples/unet_768x704_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 1369055ef128d22ca047441d560c2fe2825a4263e090c0da913fa6432cb6e7da
Pointer size: 131 Bytes
Size of remote file: 123 kB

Git LFS Details

SHA256: cf783b61d94f2ddc31e8dc2205182a3f464aa9d58c4a750647b76603fce30fd7
Pointer size: 131 Bytes
Size of remote file: 120 kB

samples/unet_768x736_0.jpg CHANGED Viewed

Git LFS Details

SHA256: ca87ad4b9fbe744cc5f57183d611c5310013d0bc49e1366fb6c44fca8b315059
Pointer size: 131 Bytes
Size of remote file: 115 kB

Git LFS Details

SHA256: d993bc9c7ecbdcd189be89f38e8e5a1fb2a7d4280843938e5624aab022202c7d
Pointer size: 130 Bytes
Size of remote file: 94.3 kB

samples/unet_768x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 2aacaf1f8edeeaf4b07f9df8d1d02dbf0a46a901108f58f92350ca7b97aeb9bc
Pointer size: 130 Bytes
Size of remote file: 52.7 kB

Git LFS Details

SHA256: 0a86e80df183cdbe273843de8572b9041b58efd9c5c2289a8b9c7f37828782da
Pointer size: 130 Bytes
Size of remote file: 62.6 kB

src/pipeline_sdxs-Copy1.py CHANGED Viewed

@@ -1,14 +1,10 @@
 from diffusers import DiffusionPipeline
 import torch
-import torch.nn as nn
-import os
 from diffusers.utils import BaseOutput
 from dataclasses import dataclass
-from typing import List, Union, Optional
 from PIL import Image
 import numpy as np
-import json
-from safetensors.torch import load_file
 from tqdm import tqdm
 @dataclass
@@ -16,186 +12,231 @@ class SdxsPipelineOutput(BaseOutput):
     images: Union[List[Image.Image], np.ndarray]
 class SdxsPipeline(DiffusionPipeline):
-    def __init__(self, vae, text_encoder, tokenizer, unet, scheduler, text_projector=None):
         super().__init__()
-        # Register components
         self.register_modules(
             vae=vae, text_encoder=text_encoder, tokenizer=tokenizer,
             unet=unet, scheduler=scheduler
         )
-        self.vae_scale_factor = 8
-    def encode_prompt(self, prompt=None, negative_prompt=None, device=None, dtype=None):
-        """Кодирование текстовых промптов в эмбеддинги.
-        Возвращает:
-            - text_embeddings: Тензор эмбеддингов [batch_size, 1, dim] или [2*batch_size, 1, dim] с guidance
-        """
-        if prompt is None and negative_prompt is None:
-            raise ValueError("Требуется хотя бы один из параметров: prompt или negative_prompt")
-        # Устанавливаем device и dtype
         device = device or self.device
         dtype = dtype or next(self.unet.parameters()).dtype
-        with torch.no_grad():
-            # Обрабатываем позитивный промпт
-            if prompt is not None:
-                if isinstance(prompt, str):
-                    prompt = [prompt]
-                text_inputs = self.tokenizer(
-                    prompt, return_tensors="pt", padding="max_length",
-                    max_length=150, truncation=True
                 ).to(device)
-                # Получаем эмбеддинги
-                outputs = self.text_encoder(text_inputs.input_ids, text_inputs.attention_mask,output_hidden_states=True)
-                pos_embeddings = outputs.hidden_states[-1].to(device, dtype=dtype)
-            else:
-                # Создаем пустые эмбеддинги, если нет позитивного промпта
-                # (полезно для некоторых сценариев с unconditional generation)
-                batch_size = len(negative_prompt) if isinstance(negative_prompt, list) else 1
-                pos_embeddings = torch.zeros(
-                    batch_size, 1, self.unet.config.cross_attention_dim,
-                    device=device, dtype=dtype
-                )
-            # Обрабатываем негативный промпт
-            if negative_prompt is not None:
-                if isinstance(negative_prompt, str):
-                    negative_prompt = [negative_prompt]
-                # Убеждаемся, что размеры негативного и позитивного промптов совпадают
-                if prompt is not None and len(negative_prompt) != len(prompt):
-                    neg_batch_size = len(prompt)
-                    if len(negative_prompt) == 1:
-                        negative_prompt = negative_prompt * neg_batch_size
-                    else:
-                        negative_prompt = negative_prompt[:neg_batch_size]
-                neg_inputs = self.tokenizer(
-                    negative_prompt, return_tensors="pt", padding="max_length",
-                    max_length=150, truncation=True
-                ).to(device)
-                # Получаем эмбеддинги
-                neg_outputs = self.text_encoder(neg_inputs.input_ids, neg_inputs.attention_mask,output_hidden_states=True)
-                neg_embeddings = neg_outputs.hidden_states[-1].to(device, dtype=dtype)
-                # Объединяем для classifier-free guidance
-                text_embeddings = torch.cat([neg_embeddings, pos_embeddings], dim=0)
-            else:
-                # Если нет негативного промпта, используем нулевые эмбеддинги
-                batch_size = pos_embeddings.shape[0]
-                neg_embeddings = torch.zeros_like(pos_embeddings)
-                text_embeddings = torch.cat([neg_embeddings, pos_embeddings], dim=0)
-        return text_embeddings.to(device=device, dtype=dtype)
     @torch.no_grad()
     def generate_latents(
         self,
         text_embeddings,
-        height: int = 640,
-        width: int = 640,
-        num_inference_steps: int = 50,
-        guidance_scale: float = 5.0,
         latent_channels: int = 16,
         batch_size: int = 1,
-        generator = None,
     ):
-        """Генерация латентов с использованием эмбеддингов промптов."""
         device = self.device
         dtype = next(self.unet.parameters()).dtype
-        # Проверка размера эмбеддингов
-        do_classifier_free_guidance = guidance_scale > 0
-        embedding_dim = text_embeddings.shape[0] // 2 if do_classifier_free_guidance else text_embeddings.shape[0]
-        if batch_size > embedding_dim:
-            # Повторяем эмбеддинги до нужного размера батча
-            if do_classifier_free_guidance:
-                neg_embeds, pos_embeds = text_embeddings.chunk(2)
-                neg_embeds = neg_embeds.repeat(batch_size // embedding_dim, 1, 1)
-                pos_embeds = pos_embeds.repeat(batch_size // embedding_dim, 1, 1)
-                text_embeddings = torch.cat([neg_embeds, pos_embeds], dim=0)
-            else:
-                text_embeddings = text_embeddings.repeat(batch_size // embedding_dim, 1, 1)
-        # Установка timesteps
         self.scheduler.set_timesteps(num_inference_steps, device=device)
-        # Инициализация латентов с заданным seed
         latent_shape = (
             batch_size,
             latent_channels,
             height // self.vae_scale_factor,
             width // self.vae_scale_factor
         )
-        latents = torch.randn(
-            latent_shape,
-            device=device,
-            dtype=dtype,
-            generator=generator
-        )
         # Процесс диффузии
         for t in tqdm(self.scheduler.timesteps, desc="Генерация"):
-            # Подготовка входных данных
-            if do_classifier_free_guidance:
-                latent_input = torch.cat([latents] * 2)
-            else:
-                latent_input = latents
-            # Предсказание шума
-            noise_pred = self.unet(latent_input, t, text_embeddings).sample
-            # Применение guidance
-            if do_classifier_free_guidance:
-                noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
-                noise_pred = noise_pred_uncond + guidance_scale * (
-                    noise_pred_text - noise_pred_uncond
-                )
-            # Обновление латентов
             latents = self.scheduler.step(noise_pred, t, latents).prev_sample
-        return latents
     def decode_latents(self, latents, output_type="pil"):
         """Декодирование латентов в изображения."""
-        # Нормализация латентов
         latents = (latents / self.vae.config.scaling_factor) + self.vae.config.shift_factor
-        # Декодирование
         with torch.no_grad():
             images = self.vae.decode(latents).sample
-        # Нормализация изображений
         images = (images / 2 + 0.5).clamp(0, 1)
-        # Конвертация в нужный формат
         if output_type == "pil":
             images = images.cpu().permute(0, 2, 3, 1).float().numpy()
             images = (images * 255).round().astype("uint8")
             return [Image.fromarray(image) for image in images]
-        else:
-            return images.cpu().permute(0, 2, 3, 1).float().numpy()
     @torch.no_grad()
     def __call__(
         self,
         prompt: Optional[Union[str, List[str]]] = None,
-        height: int = 640,
-        width: int = 640,
-        num_inference_steps: int = 50,
-        guidance_scale: float = 5.0,
         latent_channels: int = 16,
         output_type: str = "pil",
         return_dict: bool = True,
@@ -204,32 +245,27 @@ class SdxsPipeline(DiffusionPipeline):
         negative_prompt: Optional[Union[str, List[str]]] = None,
         text_embeddings: Optional[torch.FloatTensor] = None,
     ):
-        """Генерация изображения из текстовых промптов или эмбеддингов."""
         device = self.device
-        # Устанавливаем генератор с seed для воспроизводимости
-        generator = None
-        if seed is not None:
-            generator = torch.Generator(device=device).manual_seed(seed)
-        # Получаем эмбеддинги, если они не предоставлены
         if text_embeddings is None:
             if prompt is None and negative_prompt is None:
                 raise ValueError("Необходимо указать prompt, negative_prompt или text_embeddings")
-            # Вычисляем эмбеддинги
-            text_embeddings = self.encode_prompt(
-                prompt=prompt,
-                negative_prompt=negative_prompt,
-                device=device
             )
         else:
-            # Убеждаемся, что эмбеддинги на правильном устройстве
-            text_embeddings = text_embeddings.to(device)
-        # Генерируем латенты
         latents = self.generate_latents(
             text_embeddings=text_embeddings,
             height=height,
             width=width,
             num_inference_steps=num_inference_steps,
@@ -238,11 +274,8 @@ class SdxsPipeline(DiffusionPipeline):
             batch_size=batch_size,
             generator=generator
         )
-        # Декодируем латенты в изображения
         images = self.decode_latents(latents, output_type=output_type)
         if not return_dict:
             return images
         return SdxsPipelineOutput(images=images)

 from diffusers import DiffusionPipeline
 import torch
 from diffusers.utils import BaseOutput
 from dataclasses import dataclass
+from typing import List, Union, Optional, Tuple
 from PIL import Image
 import numpy as np
 from tqdm import tqdm
 @dataclass
     images: Union[List[Image.Image], np.ndarray]
 class SdxsPipeline(DiffusionPipeline):
+    def __init__(self, vae, text_encoder, tokenizer, unet, scheduler, max_length: int = 192):
         super().__init__()
         self.register_modules(
             vae=vae, text_encoder=text_encoder, tokenizer=tokenizer,
             unet=unet, scheduler=scheduler
         )
+        self.vae_scale_factor = 16
+        self.max_length = max_length
+    def encode_prompt(self, prompt=None, negative_prompt=None, device=None, dtype=None) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
         device = device or self.device
         dtype = dtype or next(self.unet.parameters()).dtype
+        # Преобразуем в списки
+        if isinstance(prompt, str):
+            prompt = [prompt]
+        if isinstance(negative_prompt, str):
+            negative_prompt = [negative_prompt]
+        # Если промпты не заданы, используем пустые эмбеддинги
+        if prompt is None and negative_prompt is None:
+            hidden_dim = 1024  # Размерность эмбеддинга
+            seq_len = self.max_length
+            batch_size = 1
+            # ИЗМЕНЕНО: Возвращаем три элемента: embeds, mask, pooled
+            empty_embeds = torch.zeros((batch_size, seq_len, hidden_dim), dtype=dtype, device=device)
+            empty_mask = torch.ones((batch_size, seq_len), dtype=torch.int64, device=device)
+            empty_pooled = torch.zeros((batch_size, hidden_dim), dtype=dtype, device=device)
+            return empty_embeds, empty_mask, empty_pooled
+        # Токенизация с фиксированным max_length и padding="max_length"
+        def encode_texts(texts, max_length=self.max_length):
+            with torch.no_grad():
+                if isinstance(texts, str):
+                    texts = [texts]
+                for i, prompt_item in enumerate(texts):
+                    messages = [
+                        {"role": "user", "content": prompt_item},
+                    ]
+                    prompt_item = self.tokenizer.apply_chat_template(
+                        messages,
+                        tokenize=False,
+                        add_generation_prompt=True,
+                        enable_thinking=True,
+                    )
+                    texts[i] = prompt_item
+                toks = self.tokenizer(
+                    texts,
+                    return_tensors="pt",
+                    padding="max_length",
+                    truncation=True,
+                    max_length=max_length
                 ).to(device)
+                outs = self.text_encoder(**toks, output_hidden_states=True, return_dict=True)
+                # Токен-эмбеддинги (для Cross-Attention)
+                hidden = outs.hidden_states[-2] # Используем last hidden state -2???
+                # Маска внимания (для Cross-Attention)
+                attention_mask = toks["attention_mask"]
+                # Пулинг-эмбеддинг (для Class/Time Conditioning). Берем эмбеддинг последнего токена без padding.
+                sequence_lengths = attention_mask.sum(dim=1) - 1
+                batch_size = hidden.shape[0]
+                pooled = hidden[torch.arange(batch_size, device=hidden.device), sequence_lengths]
+                # --- НОВАЯ ЛОГИКА: ОБЪЕДИНЕНИЕ ДЛЯ КРОСС-ВНИМАНИЯ ---
+                # 1. Расширяем пулинг-вектор до последовательности [B, 1, 1024]
+                pooled_expanded = pooled.unsqueeze(1)
+                # 2. Объединяем последовательность токенов и пулинг-вектор
+                # !!! ИЗМЕНЕНИЕ ЗДЕСЬ !!!: Пулинг идет ПЕРВЫМ
+                # Теперь: [B, 1 + L, 1024]. Пулинг стал токеном в НАЧАЛЕ.
+                new_encoder_hidden_states = torch.cat([pooled_expanded, hidden], dim=1)
+                # 3. Обновляем маску внимания для нового токена
+                # Маска внимания: [B, 1 + L]. Добавляем 1 в НАЧАЛО.
+                # torch.ones((batch_size, 1), device=device) создает маску [B, 1] со значениями 1.
+                new_attention_mask = torch.cat([torch.ones((batch_size, 1), device=device), attention_mask], dim=1)
+                return new_encoder_hidden_states, new_attention_mask, pooled
+        # Кодируем позитивные и негативные промпты
+        # ИСПРАВЛЕНИЕ: Теперь возвращаем (None, None, None), чтобы избежать UnboundLocalError
+        pos_result = encode_texts(prompt) if prompt is not None else (None, None, None)
+        neg_result = encode_texts(negative_prompt) if negative_prompt is not None else (None, None, None)
+        pos_embeddings, pos_mask, pos_pooled = pos_result
+        neg_embeddings, neg_mask, neg_pooled = neg_result
+        # Выравниваем размеры batch_size
+        batch_size = max(
+            pos_embeddings.shape[0] if pos_embeddings is not None else 0,
+            neg_embeddings.shape[0] if neg_embeddings is not None else 0
+        )
+        # Повторяем эмбеддинги, маски и пулинг по batch_size
+        if pos_embeddings is not None and pos_embeddings.shape[0] < batch_size:
+            pos_embeddings = pos_embeddings.repeat(batch_size, 1, 1)
+            pos_mask = pos_mask.repeat(batch_size, 1)
+            pos_pooled = pos_pooled.repeat(batch_size, 1)
+        # ИСПРАВЛЕНИЕ: Проверяем, существует ли neg_embeddings, прежде чем обращаться к его shape[0]
+        if neg_embeddings is not None and neg_embeddings.shape[0] < batch_size:
+            neg_embeddings = neg_embeddings.repeat(batch_size, 1, 1)
+            neg_mask = neg_mask.repeat(batch_size, 1)
+            neg_pooled = neg_pooled.repeat(batch_size, 1)
+        # Конкатенируем для guidance (эмбеддинги и маски)
+        # Убеждаемся, что все три компонента существуют перед конкатенацией
+        if pos_embeddings is not None and neg_embeddings is not None:
+            text_embeddings = torch.cat([neg_embeddings, pos_embeddings], dim=0)
+            attention_mask = torch.cat([neg_mask, pos_mask], dim=0)
+            pooled_embeddings = torch.cat([neg_pooled, pos_pooled], dim=0)
+        elif pos_embeddings is not None:
+            text_embeddings = pos_embeddings
+            attention_mask = pos_mask
+            pooled_embeddings = pos_pooled
+        else: # Только neg_embeddings
+            text_embeddings = neg_embeddings
+            attention_mask = neg_mask
+            pooled_embeddings = neg_pooled
+        # Возвращаем кортеж
+        return (
+            text_embeddings.to(device=device, dtype=dtype),
+            attention_mask.to(device=device, dtype=torch.int64),
+            pooled_embeddings.to(device=device, dtype=dtype)
+        )
     @torch.no_grad()
     def generate_latents(
         self,
         text_embeddings,
+        attention_mask,
+        pooled_embeddings,
+        height: int = 1280,
+        width: int = 1024,
+        num_inference_steps: int = 40,
+        guidance_scale: float = 4.0,
         latent_channels: int = 16,
         batch_size: int = 1,
+        generator=None,
     ):
         device = self.device
         dtype = next(self.unet.parameters()).dtype
         self.scheduler.set_timesteps(num_inference_steps, device=device)
+        # Разделяем эмбеддинги и маски на условные и безусловные
+        if guidance_scale > 1:
+            neg_embeds, pos_embeds = text_embeddings.chunk(2)
+            neg_mask, pos_mask = attention_mask.chunk(2)
+            neg_pooled, pos_pooled = pooled_embeddings.chunk(2)
+            # Повторяем, если batch_size больше
+            if batch_size > pos_embeds.shape[0]:
+                pos_embeds = pos_embeds.repeat(batch_size, 1, 1)
+                neg_embeds = neg_embeds.repeat(batch_size, 1, 1)
+                pos_mask = pos_mask.repeat(batch_size, 1)
+                neg_mask = neg_mask.repeat(batch_size, 1)
+                pos_pooled = pos_pooled.repeat(batch_size, 1)
+                neg_pooled = neg_pooled.repeat(batch_size, 1)
+            text_embeddings = torch.cat([neg_embeds, pos_embeds], dim=0)
+            unet_attention_mask = torch.cat([neg_mask, pos_mask], dim=0)
+            unet_pooled_embeddings = torch.cat([neg_pooled, pos_pooled], dim=0)
+        else:
+            text_embeddings = text_embeddings.repeat(batch_size, 1, 1)
+            unet_attention_mask = attention_mask.repeat(batch_size, 1)
+            unet_pooled_embeddings = pooled_embeddings.repeat(batch_size, 1)
+        # Инициализация латентов
         latent_shape = (
             batch_size,
             latent_channels,
             height // self.vae_scale_factor,
             width // self.vae_scale_factor
         )
+        latents = torch.randn(latent_shape, device=device, dtype=dtype, generator=generator)
         # Процесс диффузии
         for t in tqdm(self.scheduler.timesteps, desc="Генерация"):
+            latent_input = torch.cat([latents, latents], dim=0) if guidance_scale > 1 else latents
+            noise_pred = self.unet(
+                latent_input,
+                t,
+                encoder_hidden_states=text_embeddings,
+                encoder_attention_mask=unet_attention_mask,
+                #added_cond_kwargs={'text_embeds': unet_pooled_embeddings}
+            ).sample
+            if guidance_scale > 1:
+                noise_uncond, noise_text = noise_pred.chunk(2)
+                noise_pred = noise_uncond + guidance_scale * (noise_text - noise_uncond)
             latents = self.scheduler.step(noise_pred, t, latents).prev_sample
+        return latents
     def decode_latents(self, latents, output_type="pil"):
         """Декодирование латентов в изображения."""
         latents = (latents / self.vae.config.scaling_factor) + self.vae.config.shift_factor
         with torch.no_grad():
             images = self.vae.decode(latents).sample
         images = (images / 2 + 0.5).clamp(0, 1)
         if output_type == "pil":
             images = images.cpu().permute(0, 2, 3, 1).float().numpy()
             images = (images * 255).round().astype("uint8")
             return [Image.fromarray(image) for image in images]
+        return images.cpu().permute(0, 2, 3, 1).float().numpy()
     @torch.no_grad()
     def __call__(
         self,
         prompt: Optional[Union[str, List[str]]] = None,
+        height: int = 1280,
+        width: int = 1024,
+        num_inference_steps: int = 40,
+        guidance_scale: float = 4.0,
         latent_channels: int = 16,
         output_type: str = "pil",
         return_dict: bool = True,
         negative_prompt: Optional[Union[str, List[str]]] = None,
         text_embeddings: Optional[torch.FloatTensor] = None,
     ):
         device = self.device
+        generator = torch.Generator(device=device).manual_seed(seed) if seed is not None else None
         if text_embeddings is None:
             if prompt is None and negative_prompt is None:
                 raise ValueError("Необходимо указать prompt, negative_prompt или text_embeddings")
+            text_embeddings, attention_mask, pooled_embeddings = self.encode_prompt(
+                prompt, negative_prompt, device=device, dtype=next(self.unet.parameters()).dtype
             )
         else:
+            # Требуется, чтобы внешний text_embeddings содержал объединенные cond/uncond,
+            # но мы не можем получить attention_mask и pooled_embeddings.
+            # Для простоты лучше требовать prompt/negative_prompt.
+             raise NotImplementedError("Передача text_embeddings напрямую пока не поддерживает передачу маски и пулинга. Используйте prompt/negative_prompt.")
         latents = self.generate_latents(
             text_embeddings=text_embeddings,
+            attention_mask=attention_mask,
+            pooled_embeddings=pooled_embeddings,
             height=height,
             width=width,
             num_inference_steps=num_inference_steps,
             batch_size=batch_size,
             generator=generator
         )
         images = self.decode_latents(latents, output_type=output_type)
         if not return_dict:
             return images
         return SdxsPipelineOutput(images=images)