recoilme commited on Dec 5, 2025

Commit

6df0c8d

1 Parent(s): f575c8a

2512

Browse files

Files changed (31) hide show

dataset.py +9 -2
media/result_grid.jpg +2 -2
samples/unet_384x768_0.jpg +2 -2
samples/unet_416x768_0.jpg +2 -2
samples/unet_448x768_0.jpg +2 -2
samples/unet_480x768_0.jpg +2 -2
samples/unet_512x768_0.jpg +2 -2
samples/unet_544x768_0.jpg +2 -2
samples/unet_576x768_0.jpg +2 -2
samples/unet_608x768_0.jpg +2 -2
samples/unet_640x768_0.jpg +2 -2
samples/unet_672x768_0.jpg +2 -2
samples/unet_704x768_0.jpg +2 -2
samples/unet_736x768_0.jpg +2 -2
samples/unet_768x384_0.jpg +2 -2
samples/unet_768x416_0.jpg +2 -2
samples/unet_768x448_0.jpg +2 -2
samples/unet_768x480_0.jpg +2 -2
samples/unet_768x512_0.jpg +2 -2
samples/unet_768x544_0.jpg +2 -2
samples/unet_768x576_0.jpg +2 -2
samples/unet_768x608_0.jpg +2 -2
samples/unet_768x640_0.jpg +2 -2
samples/unet_768x672_0.jpg +2 -2
samples/unet_768x704_0.jpg +2 -2
samples/unet_768x736_0.jpg +2 -2
samples/unet_768x768_0.jpg +2 -2
test.ipynb +2 -2
train.py +98 -47
unet/config.json +2 -2
unet/diffusion_pytorch_model.safetensors +2 -2

dataset.py CHANGED Viewed

@@ -27,8 +27,8 @@ step = 32 #64
 empty_share = 0.0
 limit = 0
 # Основная процедура обработки
-folder_path = "/workspace/ds" #alchemist"
-save_path = "/workspace/768" #"alchemist"
 os.makedirs(save_path, exist_ok=True)
 # Функция для очистки CUDA памяти
@@ -394,6 +394,13 @@ print(f"Всего найдено {len(image_paths)} изображений")
 # Обработка с чанкованием
 process_in_chunks(image_paths, text_paths, width, height, chunk_size=20000, batch_size=batch_size)
 # Объединение чанков в финальный датасет
 combine_chunks(temp_path, save_path)

 empty_share = 0.0
 limit = 0
 # Основная процедура обработки
+folder_path = "/workspace/alchemist" #alchemist"
+save_path = "/workspace/sdxs/datasets/alchemist" #"alchemist"
 os.makedirs(save_path, exist_ok=True)
 # Функция для очистки CUDA памяти
 # Обработка с чанкованием
 process_in_chunks(image_paths, text_paths, width, height, chunk_size=20000, batch_size=batch_size)
+# Удаление  папки
+try:
+    shutil.rmtree(folder_path)
+    print(f"✅ Папка {folder_path} успешно удалена")
+except Exception as e:
+    print(f"⚠️ Ошибка при удалении папки: {e}")
 # Объединение чанков в финальный датасет
 combine_chunks(temp_path, save_path)

media/result_grid.jpg CHANGED Viewed

Git LFS Details

SHA256: be304fdd651f5cb73ffccd5d56c02991330e9d7d725dee385d60090f07b3123c
Pointer size: 132 Bytes
Size of remote file: 4.42 MB

Git LFS Details

SHA256: 7180ef8fc767e120ac38569d218b221eb11c56fa3a718a554ccc9f2301b0253f
Pointer size: 132 Bytes
Size of remote file: 5.37 MB

samples/unet_384x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 87ea16b6a264e247da3287c5069b2e332c39504ae55cecc2cd33059103765a58
Pointer size: 130 Bytes
Size of remote file: 66.1 kB

Git LFS Details

SHA256: dc7cf8347165908d515bbd58c69a7997c60bc399a510a54ce3f7cdc578e55272
Pointer size: 131 Bytes
Size of remote file: 196 kB

samples/unet_416x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 4d9f305603aa3ffdd6858a79fc17924ddbbca4946c0563c995b58b7a41f4fd1c
Pointer size: 131 Bytes
Size of remote file: 108 kB

Git LFS Details

SHA256: c503cc7a8754a496f048f62a0f3dc44292795114b963705cedff8591b5cf8095
Pointer size: 130 Bytes
Size of remote file: 83.2 kB

samples/unet_448x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 7c79dd999533dda77936afcfb43d77564bff3d46b050eee3c8620e897a9fc917
Pointer size: 131 Bytes
Size of remote file: 124 kB

Git LFS Details

SHA256: 8620b9c0bc250a4891965081a0ac1d3f0f60601fd9c3886081cc13a23eec83f3
Pointer size: 130 Bytes
Size of remote file: 60.2 kB

samples/unet_480x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 0b50d094956d7c966922a068b4265b9a1d0ca9a5a4ac431211f185d83459bacd
Pointer size: 131 Bytes
Size of remote file: 144 kB

Git LFS Details

SHA256: ef43348df1f6b22b80dc17bda15d9e92d981eb962f1451d655d926b85e5ebd86
Pointer size: 131 Bytes
Size of remote file: 188 kB

samples/unet_512x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: fc5e128ce9f530c1805539d78b818a64cc1f35610062e58d8379517a2552b374
Pointer size: 130 Bytes
Size of remote file: 77.2 kB

Git LFS Details

SHA256: 2065cbdb2f54e0cfdc7867ce64b95795d017eeb31152791b50c4f36830fdf751
Pointer size: 131 Bytes
Size of remote file: 226 kB

samples/unet_544x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 1fdc9bfe0b10fcae9d370c736665a5fd2200be8fe421cac3be7d5a7a275672cb
Pointer size: 130 Bytes
Size of remote file: 85.7 kB

Git LFS Details

SHA256: 942719c5a9239737eca1281c2164b622232ab9416c0eaff26a76e7b2fda99d3f
Pointer size: 131 Bytes
Size of remote file: 124 kB

samples/unet_576x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 7c640984ccb67f0acdf3f0734f98db1595d78be9de3df5d0815ba51e4fca3873
Pointer size: 131 Bytes
Size of remote file: 290 kB

Git LFS Details

SHA256: 492be57c73fbb2b94ce8ace010510647b32a4c7c4c4f05651e790aad060f90ea
Pointer size: 131 Bytes
Size of remote file: 117 kB

samples/unet_608x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: be21b0ec3ab9ccbfc4897cb355f1239f93b2baae934c6e96454748ec391f59c8
Pointer size: 131 Bytes
Size of remote file: 176 kB

Git LFS Details

SHA256: 55b9a8ecb378bea8a39d12af76efd9959679721ab2aab7ddeb19bf0e400a87a6
Pointer size: 131 Bytes
Size of remote file: 172 kB

samples/unet_640x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 1c18aceae372fc77055bac9453ebdbafe1ec3fb324540522784a9b099e1bc812
Pointer size: 130 Bytes
Size of remote file: 91.3 kB

Git LFS Details

SHA256: d6cb49c9e2d09d7829210cd4c8d614e7773d42823e740985770559044d4c8e16
Pointer size: 131 Bytes
Size of remote file: 118 kB

samples/unet_672x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 6f691232ec6308d6a144d6d7472b922731bc0c382237d6e4b64908fd0a85f1a5
Pointer size: 131 Bytes
Size of remote file: 103 kB

Git LFS Details

SHA256: 5969f754d1c1a5c774ee54a143038980f6be054aad3663ffea908de9dde494d1
Pointer size: 130 Bytes
Size of remote file: 69.8 kB

samples/unet_704x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: a4921da6a4a994f11e76ef804c088cb794cd2dfad5f334cc03ea746f4f8b867d
Pointer size: 131 Bytes
Size of remote file: 116 kB

Git LFS Details

SHA256: 4503966b6019cc1462b79dfdde243a33925c50b4ee92b647d08c0bb0a36e4ca1
Pointer size: 131 Bytes
Size of remote file: 142 kB

samples/unet_736x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 3855348d5f1f4d4300b64fb733861d73a82dd45f0d9a0856024d9d463893c571
Pointer size: 130 Bytes
Size of remote file: 48.2 kB

Git LFS Details

SHA256: 87ca0a06d8f3af59ad1b0e1767f8f5396f40fea713781f97be7f19202975d0b5
Pointer size: 130 Bytes
Size of remote file: 82.5 kB

samples/unet_768x384_0.jpg CHANGED Viewed

Git LFS Details

SHA256: ae210869b1ca765f04cd979b9962c07f8275c3b814bd60bb9d05d34a00dae853
Pointer size: 131 Bytes
Size of remote file: 165 kB

Git LFS Details

SHA256: 7b3bead76b8c19cd370c82c6f4449cd84a1f487228817eeb2f2ab2854e5526d5
Pointer size: 131 Bytes
Size of remote file: 170 kB

samples/unet_768x416_0.jpg CHANGED Viewed

Git LFS Details

SHA256: ce6d00486ae7c81d2ec8ea2e41dfe21ae49cbbcfd75a0a4e4f2e02c6c09a47c0
Pointer size: 130 Bytes
Size of remote file: 87.3 kB

Git LFS Details

SHA256: 8244a4630fc0d34e05e5eb801e34495bc29a429bfd4e195ac1186be30141626a
Pointer size: 131 Bytes
Size of remote file: 155 kB

samples/unet_768x448_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 1331bbf43e99ea75d80d2c01598e187b6e3f91fe5c1213247c1dd719d2dc31fd
Pointer size: 131 Bytes
Size of remote file: 179 kB

Git LFS Details

SHA256: f9b901ef7a15a341c454926294aec16df7458b32bf878741ef2d15e1307fd9fe
Pointer size: 131 Bytes
Size of remote file: 162 kB

samples/unet_768x480_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 31b71dbe5fc2053c4bab6997b3e324ad2919c43a0353dc3326a28f1495035b55
Pointer size: 131 Bytes
Size of remote file: 107 kB

Git LFS Details

SHA256: 1cc0c2bf521ecdd56937f4289f123a7092c9a3db2fd31e5b8c51628a44ee2054
Pointer size: 131 Bytes
Size of remote file: 106 kB

samples/unet_768x512_0.jpg CHANGED Viewed

Git LFS Details

SHA256: d92aa72f3bfd16adb23cfb2f486f53c80f50a06455e5e0956428ef371bfd9630
Pointer size: 131 Bytes
Size of remote file: 298 kB

Git LFS Details

SHA256: 07f0547d2ad34814d22624e4f189be9ce3137d2b633b9caf47c2ad97efda9ecc
Pointer size: 131 Bytes
Size of remote file: 169 kB

samples/unet_768x544_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 44a92d99624a6b873295899db86ee853ca43e5f45f785eb56b4beb7207522a0b
Pointer size: 131 Bytes
Size of remote file: 106 kB

Git LFS Details

SHA256: 4042250d6f689d23fb2d4bc716d17d6da0dbff91fed6be40b03e0f9d2c2f1638
Pointer size: 130 Bytes
Size of remote file: 85.4 kB

samples/unet_768x576_0.jpg CHANGED Viewed

Git LFS Details

SHA256: bcd2f8544b0dcc5c7e738699b5641be63e592c1d9056cc2b3f7504c885e5f9ac
Pointer size: 131 Bytes
Size of remote file: 141 kB

Git LFS Details

SHA256: 1bed1b9846d19cd9fe2a92434197750ad78401d31ce864146acc68bf135e5284
Pointer size: 131 Bytes
Size of remote file: 192 kB

samples/unet_768x608_0.jpg CHANGED Viewed

Git LFS Details

SHA256: adeb415b9591ada3681039eb6b56aba22852656a11f636485417d3bda53ad50f
Pointer size: 131 Bytes
Size of remote file: 188 kB

Git LFS Details

SHA256: 899b41f901562dae78dfbaea7c5fc05c7ea077ec70a9a0a55a9a51ee84d340e3
Pointer size: 131 Bytes
Size of remote file: 143 kB

samples/unet_768x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 963396d5ceac0a41ec025dd5d9a8d61588e3b1ea7a6d532847d1393e44e64a01
Pointer size: 131 Bytes
Size of remote file: 105 kB

Git LFS Details

SHA256: 9620d1d431a896209545e80dab20944faa8a9caf05e36908390f958487d4f23b
Pointer size: 131 Bytes
Size of remote file: 141 kB

samples/unet_768x672_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 1ce5fb2a8422c74d86d57cdb0e0437c0215ccbcab9f86d1a26a641b92d9978b9
Pointer size: 131 Bytes
Size of remote file: 119 kB

Git LFS Details

SHA256: c08b0ab48096384e4d4d1fdc15af058de1cf4e993729b84d375d1abddf2883de
Pointer size: 131 Bytes
Size of remote file: 184 kB

samples/unet_768x704_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 9e38bac28ea95caa0f61c0bb0650add0a7792642b07cc94ae326eb9c9191f297
Pointer size: 130 Bytes
Size of remote file: 68.2 kB

Git LFS Details

SHA256: 7589468ef88774960922e073fbb5e635e0c89c51315492f2cf3765df7f2b5a88
Pointer size: 131 Bytes
Size of remote file: 160 kB

samples/unet_768x736_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 632e20bc44d509b11ad2e0a5316188e21b900cf8063a187091137043a74ecc59
Pointer size: 131 Bytes
Size of remote file: 105 kB

Git LFS Details

SHA256: 330ef60f7230e1bb62724446c2bcb574367ecca211a6454e0a6f5c7a07e0fe76
Pointer size: 131 Bytes
Size of remote file: 125 kB

samples/unet_768x768_0.jpg CHANGED Viewed

Git LFS Details

SHA256: f3be6993576cd7a0a506cf5a4f0b39d1eb9143be82fa1341777c522457852223
Pointer size: 130 Bytes
Size of remote file: 53.5 kB

Git LFS Details

SHA256: 4200e52ad503a59c29fdea0f594c3ca8c0323eca089a71f37bc718bc08a16cd8
Pointer size: 131 Bytes
Size of remote file: 157 kB

test.ipynb CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a85017c24383c5064153544e98810e64a43a2d9c1b0ce79362f101391f84968b
-size 1723522

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb11577f5bc95ddaec1ac5dfbd4090581c6ea31c5c5e0bbc1d616d5948ec98aa
+size 9700840

train.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from comet_ml import Experiment
 import os
 import math
 import torch
@@ -29,14 +29,14 @@ from transformers import AutoTokenizer, AutoModel
 # --------------------------- Параметры ---------------------------
 ds_path = "/workspace/sdxs/datasets/768"
 project = "unet"
-batch_size = 256
-base_learning_rate = 3e-5
-min_learning_rate = 2.5e-5
-num_epochs = 10
-sample_interval_share = 20
 max_length = 192
-use_wandb = False
-use_comet_ml = True
 save_model = True
 use_decay = True
 fbp = False
@@ -51,11 +51,11 @@ torch.backends.cuda.matmul.allow_tf32 = True
 torch.backends.cudnn.allow_tf32 = True
 #torch.backends.cuda.enable_mem_efficient_sdp(False)
 dtype = torch.float32
-save_barrier = 1.005
 warmup_percent = 0.01
 percentile_clipping = 98
 betta2 = 0.998
-eps = 1e-6
 clip_grad_norm = 1.0
 limit = 0
 checkpoints_folder = ""
@@ -171,7 +171,7 @@ def encode_texts(texts, max_length=max_length):
         batch_size = hidden.shape[0]
         pooled = hidden[torch.arange(batch_size, device=hidden.device), sequence_lengths]
-        #return hidden, attention_mask, pooled
         # --- НОВАЯ ЛОГИКА: ОБЪЕДИНЕНИЕ ДЛЯ КРОСС-ВНИМАНИЯ ---
         # 1. Расширяем пулинг-вектор до последовательности [B, 1, 1024]
         pooled_expanded = pooled.unsqueeze(1)
@@ -186,7 +186,7 @@ def encode_texts(texts, max_length=max_length):
         # torch.ones((batch_size, 1), device=device) создает маску [B, 1] со значениями 1.
         new_attention_mask = torch.cat([torch.ones((batch_size, 1), device=device), attention_mask], dim=1)
-        return new_encoder_hidden_states, new_attention_mask, pooled
 shift_factor = getattr(vae.config, "shift_factor", 0.0)
 if shift_factor is None: shift_factor = 0.0
@@ -287,9 +287,9 @@ def get_fixed_samples_by_resolution(dataset, samples_per_group=1):
         texts = [item["text"] for item in samples_data]
         # Кодируем тексты на лету, чтобы получить маски и пулинг
-        embeddings, masks, pools = encode_texts(texts)
-        fixed_samples[size] = (latents, embeddings, masks, pools, texts)
     print(f"Создано {len(fixed_samples)} групп фиксированных семплов по разрешениям")
     return fixed_samples
@@ -309,19 +309,19 @@ def collate_fn_simple(batch):
     texts = [
         "" if t.lower().startswith("zero")
         else "" if random.random() < 0.05
-        else t[1:].lstrip() if t.startswith(".")
-        else t
         for t in raw_texts
     ]
     # 3. Кодируем на лету
-    # Возвращает: hidden (B, L, D), mask (B, L), pooled (B, D)
-    embeddings, attention_mask, pooled_embeddings = encode_texts(texts)
     # attention_mask от токенизатора уже имеет нужный формат, но на всякий случай приведем к long
     attention_mask = attention_mask.to(dtype=torch.int64)
-    return latents, embeddings, attention_mask, pooled_embeddings
 batch_sampler = DistributedResolutionBatchSampler(
         dataset=dataset,
@@ -375,8 +375,70 @@ def create_optimizer(name, params):
         )
     elif name == "adam":
         return torch.optim.AdamW(
-            params, lr=base_learning_rate, betas=(0.9, 0.999), eps=1e-8, weight_decay=0.01
         )
     else:
         raise ValueError(f"Unknown optimizer: {name}")
@@ -418,24 +480,22 @@ def get_negative_embedding(neg_prompt="", batch_size=1):
         seq_len = max_length
         empty_emb = torch.zeros((batch_size, seq_len, hidden_dim), dtype=dtype, device=device)
         empty_mask = torch.ones((batch_size, seq_len), dtype=torch.int64, device=device)
-        empty_pool = torch.zeros((batch_size, hidden_dim), dtype=dtype, device=device)
-        return empty_emb, empty_mask, empty_pool
-    uncond_emb, uncond_mask, uncond_pool = encode_texts([neg_prompt])
     uncond_emb = uncond_emb.to(dtype=dtype, device=device).repeat(batch_size, 1, 1)
     uncond_mask = uncond_mask.to(device=device).repeat(batch_size, 1)
-    uncond_pool = uncond_pool.to(dtype=dtype, device=device).repeat(batch_size, 1)
-    return uncond_emb, uncond_mask, uncond_pool
 # Получаем негативные (пустые) условия для валидации
-uncond_emb, uncond_mask, uncond_pool = get_negative_embedding("low quality")
-# --- [UPDATED] Функция генерации семплов (принимает pool) ---
 @torch.compiler.disable()
 @torch.no_grad()
 def generate_and_save_samples(fixed_samples_cpu, uncond_data, step):
-    uncond_emb, uncond_mask, uncond_pool = uncond_data
     original_model = None
     try:
@@ -449,13 +509,12 @@ def generate_and_save_samples(fixed_samples_cpu, uncond_data, step):
         all_generated_images = []
         all_captions = []
-        # Распаковываем 5 элементов (добавились mask и pool)
-        for size, (sample_latents, sample_text_embeddings, sample_mask, sample_pool, sample_text) in fixed_samples_cpu.items():
             width, height = size
             sample_latents = sample_latents.to(dtype=dtype, device=device)
             sample_text_embeddings = sample_text_embeddings.to(dtype=dtype, device=device)
             sample_mask = sample_mask.to(device=device)
-            sample_pool = sample_pool.to(dtype=dtype, device=device)
             latents = torch.randn(
                 sample_latents.shape,
@@ -483,15 +542,10 @@ def generate_and_save_samples(fixed_samples_cpu, uncond_data, step):
                     neg_mask_batch = uncond_mask[0:1].expand(curr_batch_size, -1)
                     attention_mask_batch = torch.cat([neg_mask_batch, sample_mask], dim=0)
-                    # 3. Pools
-                    neg_pool_batch = uncond_pool[0:1].expand(curr_batch_size, -1)
-                    pooled_batch = torch.cat([neg_pool_batch, sample_pool], dim=0)
                 else:
                     latent_model_input = latents
                     text_embeddings_batch = sample_text_embeddings
                     attention_mask_batch = sample_mask
-                    pooled_batch = sample_pool
                 # Предсказание с передачей всех условий
                 model_out = original_model(
@@ -499,7 +553,6 @@ def generate_and_save_samples(fixed_samples_cpu, uncond_data, step):
                     t,
                     encoder_hidden_states=text_embeddings_batch,
                     encoder_attention_mask=attention_mask_batch,
-                    #added_cond_kwargs={"text_embeds": pooled_batch} # <--- ПУЛИНГ ЗДЕСЬ
                 )
                 flow = getattr(model_out, "sample", model_out)
@@ -560,7 +613,7 @@ def generate_and_save_samples(fixed_samples_cpu, uncond_data, step):
 if accelerator.is_main_process:
     if save_model:
         print("Генерация сэмплов до старта обучения...")
-        generate_and_save_samples(fixed_samples, (uncond_emb, uncond_mask, uncond_pool), 0)
 accelerator.wait_for_everyone()
 def save_checkpoint(unet, variant=""):
@@ -601,8 +654,7 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
     accelerator.wait_for_everyone()
     unet.train()
-    # --- [UPDATED] Распаковка 4 элементов ---
-    for step, (latents, embeddings, attention_mask, pooled_embeddings) in enumerate(dataloader):
         with accelerator.accumulate(unet):
             if save_model == False and step == 5 :
                 used_gb = torch.cuda.max_memory_allocated() / 1024**3
@@ -617,13 +669,12 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
             # делаем integer timesteps для UNet
             timesteps = (t * scheduler.config.num_train_timesteps).long()
-            # --- [UPDATED] Вызов UNet с маской и пулингом ---
             model_pred = unet(
                 noisy_latents,
                 timesteps,
                 encoder_hidden_states=embeddings,
-                encoder_attention_mask=attention_mask,
-                #added_cond_kwargs={"text_embeds": pooled_embeddings} # <--- Передача пулинга
             ).sample
             target = noise - latents
@@ -641,8 +692,8 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
             grad = 0.0
             if not fbp:
                 if accelerator.sync_gradients:
-                    with torch.amp.autocast('cuda', enabled=False):
-                        grad_val = accelerator.clip_grad_norm_(unet.parameters(), clip_grad_norm)
                     grad = float(grad_val)
                     optimizer.step()
                     lr_scheduler.step()
@@ -669,8 +720,8 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
                             comet_experiment.log_metrics(log_data, step=global_step)
                     if global_step % sample_interval == 0:
-                        # Передаем tuple (emb, mask, pool) для негатива
-                        generate_and_save_samples(fixed_samples, (uncond_emb, uncond_mask, uncond_pool), global_step)
                         last_n = sample_interval
                         if save_model:

+#from comet_ml import Experiment
 import os
 import math
 import torch
 # --------------------------- Параметры ---------------------------
 ds_path = "/workspace/sdxs/datasets/768"
 project = "unet"
+batch_size = 60
+base_learning_rate = 2.7e-5
+min_learning_rate = 2.7e-5
+num_epochs = 100
+sample_interval_share = 5
 max_length = 192
+use_wandb = True
+use_comet_ml = False
 save_model = True
 use_decay = True
 fbp = False
 torch.backends.cudnn.allow_tf32 = True
 #torch.backends.cuda.enable_mem_efficient_sdp(False)
 dtype = torch.float32
+save_barrier = 1.006
 warmup_percent = 0.01
 percentile_clipping = 98
 betta2 = 0.998
+eps = 1e-7
 clip_grad_norm = 1.0
 limit = 0
 checkpoints_folder = ""
         batch_size = hidden.shape[0]
         pooled = hidden[torch.arange(batch_size, device=hidden.device), sequence_lengths]
+        #return hidden, attention_mask
         # --- НОВАЯ ЛОГИКА: ОБЪЕДИНЕНИЕ ДЛЯ КРОСС-ВНИМАНИЯ ---
         # 1. Расширяем пулинг-вектор до последовательности [B, 1, 1024]
         pooled_expanded = pooled.unsqueeze(1)
         # torch.ones((batch_size, 1), device=device) создает маску [B, 1] со значениями 1.
         new_attention_mask = torch.cat([torch.ones((batch_size, 1), device=device), attention_mask], dim=1)
+        return new_encoder_hidden_states, new_attention_mask
 shift_factor = getattr(vae.config, "shift_factor", 0.0)
 if shift_factor is None: shift_factor = 0.0
         texts = [item["text"] for item in samples_data]
         # Кодируем тексты на лету, чтобы получить маски и пулинг
+        embeddings, masks = encode_texts(texts)
+        fixed_samples[size] = (latents, embeddings, masks, texts)
     print(f"Создано {len(fixed_samples)} групп фиксированных семплов по разрешениям")
     return fixed_samples
     texts = [
         "" if t.lower().startswith("zero")
         else "" if random.random() < 0.05
+        else t[1:].lstrip() if t.startswith(".")
+        else t.replace("The image shows ", "").replace("The image is ", "").replace("This image captures ","").strip()
         for t in raw_texts
     ]
     # 3. Кодируем на лету
+    # Возвращает: hidden (B, L, D), mask (B, L)
+    embeddings, attention_mask = encode_texts(texts)
     # attention_mask от токенизатора уже имеет нужный формат, но на всякий случай приведем к long
     attention_mask = attention_mask.to(dtype=torch.int64)
+    return latents, embeddings, attention_mask
 batch_sampler = DistributedResolutionBatchSampler(
         dataset=dataset,
         )
     elif name == "adam":
         return torch.optim.AdamW(
+            params, lr=base_learning_rate, betas=(0.9, betta2), eps=1e-8, weight_decay=0.01
         )
+    elif name == "adamuon":
+        from pytorch_optimizer import AdaMuon
+        # 1. РАЗДЕЛЕНИЕ ПАРАМЕТРОВ
+        # Разделяем параметры на те, которые Muon-совместимы (ndim >= 2),
+        # и те, которые лучше оставить для AdamW8bit (ndim < 2).
+        muon_params = []
+        adam8bit_params = []
+        if isinstance(params, (list, tuple)):
+            all_params = params
+        else:
+            # Если params - это генератор (unet.parameters()), преобразуем его в list
+            all_params = list(params)
+        for p in all_params:
+            if p.requires_grad:
+                if p.ndim >= 2:
+                    muon_params.append(p)
+                else:
+                    adam8bit_params.append(p)
+        # 2. СОЗДАНИЕ ГРУПП ПАРАМЕТРОВ
+        param_groups = []
+        # --- Группа 1: AdaMuon (для матриц/сверток) ---
+        if muon_params:
+            print(f"Используем AdaMuon для {len(muon_params)} параметров (ndim >= 2)")
+            param_groups.append({
+                'params': muon_params,
+                'optimizer': 'AdaMuon',              # Явно указываем оптимизатор
+                'use_muon': True,                    # Обязательно для AdaMuon
+                'lr': base_learning_rate,            # Использование обычных пробелов
+                'betas': (0.9, betta2),
+                'eps': eps,
+                'weight_decay': 0.01,
+                'nesterov': True,
+                'decouple_weight_decay': True
+            })
+        # --- Группа 2: AdamW8bit (для смещений/нормализации) ---
+        if adam8bit_params:
+            print(f"Используем AdamW8bit для {len(adam8bit_params)} параметров (ndim < 2)")
+            param_groups.append({
+                'params': adam8bit_params,
+                'optimizer': 'AdamW8bit',            # Явно указываем оптимизатор
+                'use_muon': False,
+                # AdamW8bit не требует use_muon
+                'lr': base_learning_rate,            # Использование обычных пробелов
+                'betas': (0.9, betta2),
+                'eps': eps,
+                'weight_decay': 0.01,
+                'percentile_clipping': percentile_clipping
+            })
+        if not param_groups:
+            raise ValueError("Нет параметров для оптимизации.")
+        # 3. ИНИЦИАЛИЗАЦИЯ (смешанный оптимизатор)
+        # При передаче списка групп оптимизатор AdaMuon автоматически
+        # распознает ключи 'optimizer' и инициализирует внутренние оптимизаторы.
+        return AdaMuon(param_groups)
     else:
         raise ValueError(f"Unknown optimizer: {name}")
         seq_len = max_length
         empty_emb = torch.zeros((batch_size, seq_len, hidden_dim), dtype=dtype, device=device)
         empty_mask = torch.ones((batch_size, seq_len), dtype=torch.int64, device=device)
+        return empty_emb, empty_mask
+    uncond_emb, uncond_mask = encode_texts([neg_prompt])
     uncond_emb = uncond_emb.to(dtype=dtype, device=device).repeat(batch_size, 1, 1)
     uncond_mask = uncond_mask.to(device=device).repeat(batch_size, 1)
+    return uncond_emb, uncond_mask
 # Получаем негативные (пустые) условия для валидации
+uncond_emb, uncond_mask = get_negative_embedding("low quality")
+# --- Функция генерации семплов  ---
 @torch.compiler.disable()
 @torch.no_grad()
 def generate_and_save_samples(fixed_samples_cpu, uncond_data, step):
+    uncond_emb, uncond_mask = uncond_data
     original_model = None
     try:
         all_generated_images = []
         all_captions = []
+        # Распаковываем 5 элементов (добавились mask)
+        for size, (sample_latents, sample_text_embeddings, sample_mask, sample_text) in fixed_samples_cpu.items():
             width, height = size
             sample_latents = sample_latents.to(dtype=dtype, device=device)
             sample_text_embeddings = sample_text_embeddings.to(dtype=dtype, device=device)
             sample_mask = sample_mask.to(device=device)
             latents = torch.randn(
                 sample_latents.shape,
                     neg_mask_batch = uncond_mask[0:1].expand(curr_batch_size, -1)
                     attention_mask_batch = torch.cat([neg_mask_batch, sample_mask], dim=0)
                 else:
                     latent_model_input = latents
                     text_embeddings_batch = sample_text_embeddings
                     attention_mask_batch = sample_mask
                 # Предсказание с передачей всех условий
                 model_out = original_model(
                     t,
                     encoder_hidden_states=text_embeddings_batch,
                     encoder_attention_mask=attention_mask_batch,
                 )
                 flow = getattr(model_out, "sample", model_out)
 if accelerator.is_main_process:
     if save_model:
         print("Генерация сэмплов до старта обучения...")
+        generate_and_save_samples(fixed_samples, (uncond_emb, uncond_mask), 0)
 accelerator.wait_for_everyone()
 def save_checkpoint(unet, variant=""):
     accelerator.wait_for_everyone()
     unet.train()
+    for step, (latents, embeddings, attention_mask) in enumerate(dataloader):
         with accelerator.accumulate(unet):
             if save_model == False and step == 5 :
                 used_gb = torch.cuda.max_memory_allocated() / 1024**3
             # делаем integer timesteps для UNet
             timesteps = (t * scheduler.config.num_train_timesteps).long()
+            # --- Вызов UNet с маской  ---
             model_pred = unet(
                 noisy_latents,
                 timesteps,
                 encoder_hidden_states=embeddings,
+                encoder_attention_mask=attention_mask
             ).sample
             target = noise - latents
             grad = 0.0
             if not fbp:
                 if accelerator.sync_gradients:
+                    #with torch.amp.autocast('cuda', enabled=False):
+                    grad_val = accelerator.clip_grad_norm_(unet.parameters(), clip_grad_norm)
                     grad = float(grad_val)
                     optimizer.step()
                     lr_scheduler.step()
                             comet_experiment.log_metrics(log_data, step=global_step)
                     if global_step % sample_interval == 0:
+                        # Передаем tuple (emb, mask) для негатива
+                        generate_and_save_samples(fixed_samples, (uncond_emb, uncond_mask), global_step)
                         last_n = sample_interval
                         if save_model:

unet/config.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:987ce2ea59106bf0806b16c21fff90d6fe6e7a90101e0157d8295803dbf34f2b
-size 1892

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ab7222cdd538ff5178adc870a764d22ab24a185f0a7b63852ea728b3b09fcff
+size 1876

unet/diffusion_pytorch_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1924f863b340d5698a8f86471a5ac9ad0f6eda9477d1b43a1a7a146300c5bb60
-size 3302474272

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b202a600c7baf31b986d98f00109d0c396f0fddc91bab63c49a01c3477eeba1
+size 6604736640