recoilme commited on Jun 24, 2025

Commit

2f27d93

1 Parent(s): b12d34d

527

Browse files

Files changed (9) hide show

samples/unet_192x384_0.jpg +2 -2
samples/unet_256x384_0.jpg +2 -2
samples/unet_320x384_0.jpg +2 -2
samples/unet_384x192_0.jpg +2 -2
samples/unet_384x256_0.jpg +2 -2
samples/unet_384x320_0.jpg +2 -2
samples/unet_384x384_0.jpg +2 -2
train.py +44 -70
unet/diffusion_pytorch_model.safetensors +1 -1

samples/unet_192x384_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 1a536d4fac31aa4e394ed8ea7f04697be7b197ea51f5b7e5d258c9b39d50ebc7
Pointer size: 130 Bytes
Size of remote file: 35.6 kB

Git LFS Details

SHA256: fee3a9248eb72959fcdf53469b5f7e3fe1c868518a7ee5cd1eb79fa8d241da78
Pointer size: 130 Bytes
Size of remote file: 28.3 kB

samples/unet_256x384_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 16c7f1b7450529cbed24a07c051dda854f58ab3a1df7e6fadb6615369a4021ae
Pointer size: 130 Bytes
Size of remote file: 39.9 kB

Git LFS Details

SHA256: 3e14a6bb9f7079308e23b1d57380b1a31c5762088266c3cc56c61d020175b206
Pointer size: 130 Bytes
Size of remote file: 47.4 kB

samples/unet_320x384_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 4f5958a2d74a4b8a882ca49d3b3ec1df6969b2491aefd6e8d50292a2caaeb5c2
Pointer size: 130 Bytes
Size of remote file: 35.4 kB

Git LFS Details

SHA256: 559137ef6c264f8e69ffc0c49164ea21425893ad25eea7a09bcc5b94ae639a46
Pointer size: 130 Bytes
Size of remote file: 48.8 kB

samples/unet_384x192_0.jpg CHANGED Viewed

Git LFS Details

SHA256: cbdcd248eb100bb931edff25ec92b2564c271b40e8a5e91fb39f3a1b9a94f35e
Pointer size: 130 Bytes
Size of remote file: 33.8 kB

Git LFS Details

SHA256: bdf751a3eb5ecc15af9ac3e32ea43880a141d3763cafbe3a0a29314270b37134
Pointer size: 130 Bytes
Size of remote file: 35.6 kB

samples/unet_384x256_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 2eda76c157e8621a2973bdde28e6a5fe961210559d117f7a2f275c773c991c80
Pointer size: 130 Bytes
Size of remote file: 46.3 kB

Git LFS Details

SHA256: 2e8280d0b253a93c73422f133a34955c4a39c54dceb54591f7afb9cb387ec2cc
Pointer size: 130 Bytes
Size of remote file: 52.4 kB

samples/unet_384x320_0.jpg CHANGED Viewed

Git LFS Details

SHA256: a8e9f4715b636d643273195ec3bb2781d6bf219461c661e36559600e61f2dffe
Pointer size: 130 Bytes
Size of remote file: 72.2 kB

Git LFS Details

SHA256: 07ecb57f6c3c130b6eaaf0fd4a4927ccc63a982d3a943e0e7d623260184b61c6
Pointer size: 130 Bytes
Size of remote file: 72.6 kB

samples/unet_384x384_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 771a94814a3c2e18910c085d90404ea851f40b0468e0dc8cb19b8f6ac92e41fb
Pointer size: 130 Bytes
Size of remote file: 44.6 kB

Git LFS Details

SHA256: 79aa26427b527f0897b2029f6f2abc03a63d74053c6753cb1d62ffc62159b7dd
Pointer size: 130 Bytes
Size of remote file: 50.1 kB

train.py CHANGED Viewed

@@ -37,7 +37,7 @@ use_wandb = True
 save_model = True
 use_decay = True
 fbp = False # fused backward pass
-adam8bit = True
 torch_compile = False
 unet_gradient = True
 clip_sample = False #Scheduler
@@ -187,7 +187,7 @@ if use_wandb and accelerator.is_main_process:
         "base_learning_rate": base_learning_rate,
         "num_epochs": num_epochs,
         "fbp": fbp,
-        "adam8bit": adam8bit,
     })
 # Включение Flash Attention 2/SDPA
@@ -495,89 +495,63 @@ else:
     if fbp:
         trainable_params = list(unet.parameters())
-if fbp:
-    # [1] Создаем словарь оптимизаторов (fused backward)
-    if adam8bit:
-        optimizer_dict = {
-            p: bnb.optim.AdamW8bit(
-                [p],  # Каждый параметр получает свой оптимизатор
-                lr=base_learning_rate,
-                eps=1e-8
-            ) for p in trainable_params
-        }
     else:
-        optimizer_dict = {
-            p: bnb.optim.Lion8bit(
-                [p],  # Каждый параметр получает свой оптимизатор
-                lr=base_learning_rate,
-                betas=(0.9, 0.97),
-                weight_decay=0.01,
-                percentile_clipping=percentile_clipping,
-            ) for p in trainable_params
-        }
-    # [2] Определяем hook для применения оптимизатора сразу после накопления градиента
     def optimizer_hook(param):
         optimizer_dict[param].step()
         optimizer_dict[param].zero_grad(set_to_none=True)
-    # [3] Регистрируем hook для trainable параметров модели
     for param in trainable_params:
         param.register_post_accumulate_grad_hook(optimizer_hook)
-    # Подготовка через Accelerator
     unet, optimizer = accelerator.prepare(unet, optimizer_dict)
 else:
-    if adam8bit:
-        optimizer = bnb.optim.AdamW8bit(
-            params=unet.parameters(),
-            lr=base_learning_rate,
-            betas=(0.9, 0.999),
-            eps=1e-8,
-            weight_decay=0.01
-        )
-        #from torch.optim import AdamW
-        #optimizer = AdamW(
-        #    params=unet.parameters(),
-        #    lr=base_learning_rate,
-        #    betas=(0.9, 0.999),
-        #    eps=1e-8,
-        #    weight_decay=0.01
-        #)
-    else:
-        optimizer = bnb.optim.Lion8bit(
-            params=unet.parameters(),
-            lr=base_learning_rate,
-            betas=(0.9, 0.97),
-            weight_decay=0.01,
-            percentile_clipping=percentile_clipping,
-        )
-    def lr_schedule(step, max_steps, base_lr, min_lr, use_decay=True):
-        # Если не используем затухание, возвращаем базовый LR
         if not use_decay:
-            return base_lr
-        # Иначе используем линейный прогрев и косинусное затухание
-        x = step / max_steps
-        percent = 0.05
-        if x < percent:
-            # Линейный прогрев до percent% шагов
-            return min_lr + (base_lr - min_lr) * (x / percent)
-        else:
-            # Косинусное затухание
-            decay_ratio = (x - percent) / (1 - percent)
-            return min_lr + 0.5 * (base_lr - min_lr) * (1 + math.cos(math.pi * decay_ratio))
-    def custom_lr_lambda(step):
-        return lr_schedule(step, total_training_steps*world_size,
-                         base_learning_rate, min_learning_rate,
-                         use_decay) / base_learning_rate
-    lr_scheduler = LambdaLR(optimizer, lr_lambda=custom_lr_lambda)
     unet, optimizer, lr_scheduler = accelerator.prepare(unet, optimizer, lr_scheduler)
  # Регистрация хуков ПОСЛЕ prepare
 dispersive_hook.register_hooks(unet, "down_blocks.2")

 save_model = True
 use_decay = True
 fbp = False # fused backward pass
+optimizer_type = "adam8bit"
 torch_compile = False
 unet_gradient = True
 clip_sample = False #Scheduler
         "base_learning_rate": base_learning_rate,
         "num_epochs": num_epochs,
         "fbp": fbp,
+        "optimizer_type": optimizer_type,
     })
 # Включение Flash Attention 2/SDPA
     if fbp:
         trainable_params = list(unet.parameters())
+def create_optimizer(name, params):
+    if name == "adam8bit":
+        import bitsandbytes as bnb
+        return bnb.optim.AdamW8bit(
+            params, lr=base_learning_rate, betas=(0.9, 0.999), eps=1e-8, weight_decay=0.01
+        )
+    elif name == "adam":
+        return torch.optim.AdamW(
+            params, lr=base_learning_rate, betas=(0.9, 0.999), eps=1e-8, weight_decay=0.01
+        )
+    elif name == "lion8bit":
+        import bitsandbytes as bnb
+        return bnb.optim.Lion8bit(
+            params, lr=base_learning_rate, betas=(0.9, 0.97), weight_decay=0.01,
+            percentile_clipping=percentile_clipping
+        )
+    elif name == "adafactor":
+        from transformers import Adafactor
+        return Adafactor(
+            params, lr=base_learning_rate, scale_parameter=True, relative_step=False,
+            warmup_init=False, eps=(1e-30, 1e-3), clip_threshold=1.0,
+            beta1=0.9, weight_decay=0.01
+        )
     else:
+        raise ValueError(f"Unknown optimizer: {name}")
+if fbp:
+    # Создаем отдельный оптимизатор для каждого параметра
+    optimizer_dict = {p: create_optimizer(optimizer_type, [p]) for p in trainable_params}
     def optimizer_hook(param):
         optimizer_dict[param].step()
         optimizer_dict[param].zero_grad(set_to_none=True)
     for param in trainable_params:
         param.register_post_accumulate_grad_hook(optimizer_hook)
     unet, optimizer = accelerator.prepare(unet, optimizer_dict)
 else:
+    optimizer = create_optimizer(optimizer_type, unet.parameters())
+    def lr_schedule(step):
+        x = step / (total_training_steps * world_size)
+        warmup = 0.05
         if not use_decay:
+            return base_learning_rate
+        if x < warmup:
+            return min_learning_rate + (base_learning_rate - min_learning_rate) * (x / warmup)
+        decay_ratio = (x - warmup) / (1 - warmup)
+        return min_learning_rate + 0.5 * (base_learning_rate - min_learning_rate) * \
+               (1 + math.cos(math.pi * decay_ratio))
+    lr_scheduler = LambdaLR(optimizer, lambda step: lr_schedule(step) / base_learning_rate)
     unet, optimizer, lr_scheduler = accelerator.prepare(unet, optimizer, lr_scheduler)
  # Регистрация хуков ПОСЛЕ prepare
 dispersive_hook.register_hooks(unet, "down_blocks.2")

unet/diffusion_pytorch_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e00ac22a38007a5fadae89d5d39b7286f8d1189c3ba4806653a29214dfd04e3f
 size 7014306128

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a3a5c9271f789977d7738b696c288c509253bbb416e182ab58925101a0a9409
 size 7014306128