recoilme commited on Nov 7, 2025

Commit

4961b95

1 Parent(s): 4d26529

2511

Browse files

Files changed (13) hide show

pipeline_sdxs-Copy1.py +0 -210
samples/unet_320x640_0.jpg +2 -2
samples/unet_384x640_0.jpg +2 -2
samples/unet_448x640_0.jpg +2 -2
samples/unet_512x640_0.jpg +2 -2
samples/unet_576x640_0.jpg +2 -2
samples/unet_640x320_0.jpg +2 -2
samples/unet_640x384_0.jpg +2 -2
samples/unet_640x448_0.jpg +2 -2
samples/unet_640x512_0.jpg +2 -2
samples/unet_640x576_0.jpg +2 -2
samples/unet_640x640_0.jpg +2 -2
unet/diffusion_pytorch_model.safetensors +1 -1

pipeline_sdxs-Copy1.py DELETED Viewed

@@ -1,210 +0,0 @@
-from diffusers import DiffusionPipeline
-import torch
-from diffusers.utils import BaseOutput
-from dataclasses import dataclass
-from typing import List, Union, Optional
-from PIL import Image
-import numpy as np
-from tqdm import tqdm
-@dataclass
-class SdxsPipelineOutput(BaseOutput):
-    images: Union[List[Image.Image], np.ndarray]
-class SdxsPipeline(DiffusionPipeline):
-    def __init__(self, vae, text_encoder, tokenizer, unet, scheduler, text_projector=None):
-        super().__init__()
-        self.register_modules(
-            vae=vae, text_encoder=text_encoder, tokenizer=tokenizer,
-            unet=unet, scheduler=scheduler
-        )
-        self.vae_scale_factor = 8
-    def encode_prompt(self, prompt=None, negative_prompt=None, device=None, dtype=None):
-        """Кодирование текстовых промптов в эмбеддинги с выравниванием seq_len."""
-        if prompt is None and negative_prompt is None:
-            raise ValueError("Требуется хотя бы один из параметров: prompt или negative_prompt")
-        device = device or self.device
-        dtype = dtype or next(self.unet.parameters()).dtype
-        # Преобразуем в списки
-        if isinstance(prompt, str):
-            prompt = [prompt]
-        if isinstance(negative_prompt, str):
-            negative_prompt = [negative_prompt]
-        # Выравнивание размеров позитивных/негативных списков
-        if prompt is not None and negative_prompt is not None:
-            if len(prompt) != len(negative_prompt):
-                if len(negative_prompt) == 1:
-                    negative_prompt = negative_prompt * len(prompt)
-                elif len(prompt) == 1:
-                    prompt = prompt * len(negative_prompt)
-                else:
-                    n = min(len(prompt), len(negative_prompt))
-                    prompt = prompt[:n]
-                    negative_prompt = negative_prompt[:n]
-        with torch.no_grad():
-            # --- Позитивные эмбеддинги ---
-            if prompt is not None:
-                text_inputs = self.tokenizer(
-                    prompt,
-                    return_tensors="pt",
-                    padding=True,       # динамический паддинг
-                    truncation=True,
-                    max_length=512
-                ).to(device)
-                pos_embeddings = self.text_encoder(
-                    text_inputs.input_ids,
-                    attention_mask=text_inputs.attention_mask,
-                    output_hidden_states=True
-                ).hidden_states[-1]  # [batch, seq_len, dim]
-            else:
-                pos_embeddings = None
-            # --- Негативные эмбеддинги ---
-            if negative_prompt is not None:
-                neg_inputs = self.tokenizer(
-                    negative_prompt,
-                    return_tensors="pt",
-                    padding=True,
-                    truncation=True,
-                    max_length=512
-                ).to(device)
-                neg_embeddings = self.text_encoder(
-                    neg_inputs.input_ids,
-                    attention_mask=neg_inputs.attention_mask,
-                    output_hidden_states=True
-                ).hidden_states[-1]  # [batch, seq_len, dim]
-            else:
-                neg_embeddings = None
-            # --- Выравниваем seq_len ---
-            if pos_embeddings is not None and neg_embeddings is not None:
-                max_len = max(pos_embeddings.shape[1], neg_embeddings.shape[1])
-                if pos_embeddings.shape[1] < max_len:
-                    pad = torch.zeros(pos_embeddings.shape[0], max_len - pos_embeddings.shape[1], pos_embeddings.shape[2], device=pos_embeddings.device, dtype=pos_embeddings.dtype)
-                    pos_embeddings = torch.cat([pos_embeddings, pad], dim=1)
-                if neg_embeddings.shape[1] < max_len:
-                    pad = torch.zeros(neg_embeddings.shape[0], max_len - neg_embeddings.shape[1], neg_embeddings.shape[2], device=neg_embeddings.device, dtype=neg_embeddings.dtype)
-                    neg_embeddings = torch.cat([neg_embeddings, pad], dim=1)
-                text_embeddings = torch.cat([neg_embeddings, pos_embeddings], dim=0)
-            elif pos_embeddings is not None:
-                text_embeddings = pos_embeddings
-            else:
-                text_embeddings = neg_embeddings
-        return text_embeddings.to(device=device, dtype=dtype)
-    @torch.no_grad()
-    def generate_latents(
-        self,
-        text_embeddings,
-        height: int = 640,
-        width: int = 640,
-        num_inference_steps: int = 50,
-        guidance_scale: float = 5.0,
-        latent_channels: int = 16,
-        batch_size: int = 1,
-        generator=None,
-    ):
-        """Генерация латентов с уч��том любого batch_size и guidance."""
-        device = self.device
-        dtype = next(self.unet.parameters()).dtype
-        do_cfg = guidance_scale > 0
-        # Разделяем эмбеддинги на условные и безусловные для guidance
-        if do_cfg:
-            neg_embeds, pos_embeds = text_embeddings.chunk(2)
-            # Повторяем, если batch_size больше эмбеддингов
-            if batch_size > pos_embeds.shape[0]:
-                reps = (batch_size + pos_embeds.shape[0] - 1) // pos_embeds.shape[0]
-                pos_embeds = pos_embeds.repeat(reps, 1, 1)[:batch_size]
-                neg_embeds = neg_embeds.repeat(reps, 1, 1)[:batch_size]
-            text_embeddings = torch.cat([neg_embeds, pos_embeds], dim=0)
-        else:
-            if batch_size > text_embeddings.shape[0]:
-                reps = (batch_size + text_embeddings.shape[0] - 1) // text_embeddings.shape[0]
-                text_embeddings = text_embeddings.repeat(reps, 1, 1)[:batch_size]
-        # Установка timesteps
-        self.scheduler.set_timesteps(num_inference_steps, device=device)
-        # Инициализация латентов
-        latent_shape = (
-            batch_size,
-            latent_channels,
-            height // self.vae_scale_factor,
-            width // self.vae_scale_factor
-        )
-        latents = torch.randn(latent_shape, device=device, dtype=dtype, generator=generator)
-        # Процесс диффузии
-        for t in tqdm(self.scheduler.timesteps, desc="Генерация"):
-            latent_input = torch.cat([latents, latents], dim=0) if do_cfg else latents
-            noise_pred = self.unet(latent_input, t, text_embeddings).sample
-            if do_cfg:
-                noise_uncond, noise_text = noise_pred.chunk(2)
-                noise_pred = noise_uncond + guidance_scale * (noise_text - noise_uncond)
-            latents = self.scheduler.step(noise_pred, t, latents).prev_sample
-        return latents
-    def decode_latents(self, latents, output_type="pil"):
-        """Декодирование латентов в изображения."""
-        latents = (latents / self.vae.config.scaling_factor) + self.vae.config.shift_factor
-        with torch.no_grad():
-            images = self.vae.decode(latents).sample
-        images = (images / 2 + 0.5).clamp(0, 1)
-        if output_type == "pil":
-            images = images.cpu().permute(0, 2, 3, 1).float().numpy()
-            images = (images * 255).round().astype("uint8")
-            return [Image.fromarray(image) for image in images]
-        return images.cpu().permute(0, 2, 3, 1).float().numpy()
-    @torch.no_grad()
-    def __call__(
-        self,
-        prompt: Optional[Union[str, List[str]]] = None,
-        height: int = 640,
-        width: int = 512,
-        num_inference_steps: int = 40,
-        guidance_scale: float = 4.0,
-        latent_channels: int = 16,
-        output_type: str = "pil",
-        return_dict: bool = True,
-        batch_size: int = 1,
-        seed: Optional[int] = None,
-        negative_prompt: Optional[Union[str, List[str]]] = None,
-        text_embeddings: Optional[torch.FloatTensor] = None,
-    ):
-        device = self.device
-        generator = torch.Generator(device=device).manual_seed(seed) if seed is not None else None
-        if text_embeddings is None:
-            if prompt is None and negative_prompt is None:
-                raise ValueError("Необходимо указать prompt, negative_prompt или text_embeddings")
-            text_embeddings = self.encode_prompt(prompt, negative_prompt, device=device)
-        text_embeddings = text_embeddings.to(device)
-        latents = self.generate_latents(
-            text_embeddings=text_embeddings,
-            height=height,
-            width=width,
-            num_inference_steps=num_inference_steps,
-            guidance_scale=guidance_scale,
-            latent_channels=latent_channels,
-            batch_size=batch_size,
-            generator=generator
-        )
-        images = self.decode_latents(latents, output_type=output_type)
-        if not return_dict:
-            return images
-        return SdxsPipelineOutput(images=images)

samples/unet_320x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 659dae574bae66743e6160959404ebbe33d155a87159021233f04846b1f38f89
Pointer size: 130 Bytes
Size of remote file: 75 kB

Git LFS Details

SHA256: eeadb86468f7914072fdddc17c50dfbfca87de678af713ffc84a2a808f4e6f1a
Pointer size: 130 Bytes
Size of remote file: 73.4 kB

samples/unet_384x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: fcd75a85aa29103f4c3d9c346eb9ae3e51fe0be77e9435b3dc18f42aa899848c
Pointer size: 131 Bytes
Size of remote file: 170 kB

Git LFS Details

SHA256: 6fd3dfda1e606fec1288d7c25ff4907bf6e3a69a8982dd5ac2c08f94bf562322
Pointer size: 131 Bytes
Size of remote file: 142 kB

samples/unet_448x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 304f4496e8e22c7123e7db7217763fc6b52577d919aba5f0b9cbc0d6c0210c9a
Pointer size: 131 Bytes
Size of remote file: 195 kB

Git LFS Details

SHA256: 367c70edad4771937b88785d875b15ae81320a5e4a69eeee7f9e078a28694c13
Pointer size: 131 Bytes
Size of remote file: 127 kB

samples/unet_512x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: de0e3f38f0e44c7315095286c96b61dbeb0de5e68da18dbba0062ca2d9db25fc
Pointer size: 131 Bytes
Size of remote file: 138 kB

Git LFS Details

SHA256: 1ba222448969382144515f16388f1e32f373aa44a6fcae83fce27a9c59903ff0
Pointer size: 131 Bytes
Size of remote file: 139 kB

samples/unet_576x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 99a9d649e07cd7fcc0ee48f53b2a9dc70dafed05a4b28eaaccbf822be76897a7
Pointer size: 131 Bytes
Size of remote file: 183 kB

Git LFS Details

SHA256: 37a288d1b3baebfee8f3966d86fb2e0e08121d83272b37b70735cfeec90cc876
Pointer size: 131 Bytes
Size of remote file: 122 kB

samples/unet_640x320_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 04caa48f9b8e3f2d3744e85826fbe3ec43b2fcf3916a29687bde801a26b5cf2f
Pointer size: 131 Bytes
Size of remote file: 112 kB

Git LFS Details

SHA256: af35b0c83345f526e31e0362f6b70c52bd826ad3b4c47f595628a955164061eb
Pointer size: 131 Bytes
Size of remote file: 107 kB

samples/unet_640x384_0.jpg CHANGED Viewed

Git LFS Details

SHA256: fec152a73f1eaf2807f66f40b549faed7e8a3437343a94ffa95e7ec3f91fd897
Pointer size: 130 Bytes
Size of remote file: 82.4 kB

Git LFS Details

SHA256: 1a715b290e41d573f15960686629e0afbd80fcdd44ce9d37971c31e25a488dc0
Pointer size: 130 Bytes
Size of remote file: 74.6 kB

samples/unet_640x448_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 8172fc4f29496cd4a71a3b979f8db7a0111b62218ae41c9aff2f830e40ff1f83
Pointer size: 131 Bytes
Size of remote file: 115 kB

Git LFS Details

SHA256: 0212c09329aaf2076d300ac283fff8c6a00516d98ccca765ee87c0065920f1e6
Pointer size: 131 Bytes
Size of remote file: 103 kB

samples/unet_640x512_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 5f93edcb50e081dd22873f6737c5e02b6d6aad0d84584295aac388c622194841
Pointer size: 131 Bytes
Size of remote file: 181 kB

Git LFS Details

SHA256: 6c01319ad5d34900b611b7d832534b03650fee424a777c5444694475d9668f3a
Pointer size: 131 Bytes
Size of remote file: 121 kB

samples/unet_640x576_0.jpg CHANGED Viewed

Git LFS Details

SHA256: c377e615547a8cb1c3d27b97ec1c1058cb7a0ff912d7fef2e5c79aedb052096c
Pointer size: 131 Bytes
Size of remote file: 237 kB

Git LFS Details

SHA256: 8905a8c78d65192b578df1dfe45701b652285503a0b07cb921b6547b4a10840f
Pointer size: 131 Bytes
Size of remote file: 164 kB

samples/unet_640x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 5be162f25c0f78a4964ba0fdd96b47b8af20c57f7e807931b5a3dbcf8308b2b6
Pointer size: 131 Bytes
Size of remote file: 270 kB

Git LFS Details

SHA256: a48badb72d2c22cd76dc413a62d95dd0b04bfacf9fa6035c4eaed1acf7e23ae9
Pointer size: 131 Bytes
Size of remote file: 207 kB

unet/diffusion_pytorch_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f51c65967bb570338af3731ea474bbf1d182549ccd33c6136b531a5e383c57e7
 size 6184944280

 version https://git-lfs.github.com/spec/v1
+oid sha256:589662b8b18471fa1f1868b0cba4edadfe05325784b987eab64fb5915c1546d6
 size 6184944280