sdxs / train-Copy1.py

Fresh start

94a2309 10 months ago

35.1 kB

	import os
	import math
	import torch
	import numpy as np
	import matplotlib.pyplot as plt
	from torch.utils.data import DataLoader, Sampler
	from torch.utils.data.distributed import DistributedSampler
	from collections import defaultdict
	from torch.optim.lr_scheduler import LambdaLR
	from diffusers import UNet2DConditionModel, AutoencoderKL, DDPMScheduler
	from accelerate import Accelerator
	from datasets import load_from_disk
	from tqdm import tqdm
	from PIL import Image,ImageOps
	import wandb
	import random
	import gc
	from accelerate.state import DistributedType
	from torch.distributed import broadcast_object_list
	from torch.utils.checkpoint import checkpoint
	from diffusers.models.attention_processor import AttnProcessor2_0
	from datetime import datetime
	import bitsandbytes as bnb

	# --------------------------- Параметры ---------------------------
	ds_path = "datasets/384"
	batch_size = 50
	base_learning_rate = 3e-5
	min_learning_rate = 3e-6
	num_epochs = 10
	num_warmup_steps = 1000
	project = "unet"
	use_wandb = True
	save_model = True
	sample_interval_share = 5 # samples/save per epoch
	fbp = False # fused backward pass
	adam8bit = True
	percentile_clipping = 97 # Lion
	torch_compile = False
	unet_gradient = True
	clip_sample = False #Scheduler
	fixed_seed = False
	shuffle = True
	dtype = torch.float32
	steps_offset = 1 # Scheduler
	limit = 0
	checkpoints_folder = ""
	mixed_precision = "no"
	accelerator = Accelerator(mixed_precision=mixed_precision)
	device = accelerator.device

	# Параметры для диффузии
	n_diffusion_steps = 50
	samples_to_generate = 12
	guidance_scale = 5

	# Папки для сохранения результатов
	generated_folder = "samples"
	os.makedirs(generated_folder, exist_ok=True)

	# Настройка seed для воспроизводимости
	current_date = datetime.now()
	seed = int(current_date.strftime("%Y%m%d"))
	if fixed_seed:
	torch.manual_seed(seed)
	np.random.seed(seed)
	random.seed(seed)
	if torch.cuda.is_available():
	torch.cuda.manual_seed_all(seed)

	#torch.backends.cuda.matmul.allow_tf32 = True
	#torch.backends.cudnn.allow_tf32 = True
	# --------------------------- Параметры LoRA ---------------------------
	# pip install peft
	lora_name = "" #"nusha" # Имя для сохранения/загрузки LoRA адаптеров
	lora_rank = 32 # Ранг LoRA (чем меньше, тем компактнее модель)
	lora_alpha = 64 # Альфа параметр LoRA, определяющий масштаб

	print("init")

	# --------------------------- Инициализация WandB ---------------------------
	if use_wandb and accelerator.is_main_process:
	wandb.init(project=project+lora_name, config={
	"batch_size": batch_size,
	"base_learning_rate": base_learning_rate,
	"num_epochs": num_epochs,
	"fbp": fbp,
	"adam8bit": adam8bit,
	})

	# Включение Flash Attention 2/SDPA
	torch.backends.cuda.enable_flash_sdp(True)
	# --------------------------- Инициализация Accelerator --------------------
	gen = torch.Generator(device=device)
	gen.manual_seed(seed)

	# --------------------------- Загрузка моделей ---------------------------
	# VAE загружается на CPU для экономии GPU-памяти
	vae = AutoencoderKL.from_pretrained("vae", variant="fp16").to("cpu").eval()

	# DDPMScheduler с V_Prediction и Zero-SNR
	scheduler = DDPMScheduler(
	num_train_timesteps=1000, # Полный график шагов для обучения
	prediction_type="v_prediction", # V-Prediction
	rescale_betas_zero_snr=True, # Включение Zero-SNR
	clip_sample = clip_sample,
	steps_offset = steps_offset
	)

	class DistributedResolutionBatchSampler(Sampler):
	def __init__(self, dataset, batch_size, num_replicas, rank, shuffle=True, drop_last=True):
	self.dataset = dataset
	self.batch_size = max(1, batch_size // num_replicas)
	self.num_replicas = num_replicas
	self.rank = rank
	self.shuffle = shuffle
	self.drop_last = drop_last
	self.epoch = 0

	# Используем numpy для ускорения
	try:
	widths = np.array(dataset["width"])
	heights = np.array(dataset["height"])
	except KeyError:
	widths = np.zeros(len(dataset))
	heights = np.zeros(len(dataset))

	# Создаем уникальные ключи для размеров
	self.size_keys = np.unique(np.stack([widths, heights], axis=1), axis=0)

	# Группируем индексы по размерам используя numpy
	self.size_groups = {}
	for w, h in self.size_keys:
	mask = (widths == w) & (heights == h)
	self.size_groups[(w, h)] = np.where(mask)[0]

	# Предварительно вычисляем количество полных батчей для каждой группы
	self.group_num_batches = {}
	total_batches = 0
	for size, indices in self.size_groups.items():
	num_full_batches = len(indices) // (self.batch_size * self.num_replicas)
	self.group_num_batches[size] = num_full_batches
	total_batches += num_full_batches

	# Округляем до числа, делящегося на num_replicas
	self.num_batches = (total_batches // self.num_replicas) * self.num_replicas

	def __iter__(self):
	# print(f"Rank {self.rank}: Starting iteration")
	# Очищаем CUDA кэш перед формированием новых батчей
	if torch.cuda.is_available():
	torch.cuda.empty_cache()
	all_batches = []
	rng = np.random.RandomState(self.epoch)

	for size, indices in self.size_groups.items():
	# print(f"Rank {self.rank}: Processing size {size}, {len(indices)} samples")
	indices = indices.copy()
	if self.shuffle:
	rng.shuffle(indices)

	num_full_batches = self.group_num_batches[size]
	if num_full_batches == 0:
	continue

	# Берем только индексы для полных батчей
	valid_indices = indices[:num_full_batches * self.batch_size * self.num_replicas]

	# Reshape для быстрого разделения на батчи
	batches = valid_indices.reshape(-1, self.batch_size * self.num_replicas)

	# Выбираем часть для текущего GPU
	start_idx = self.rank * self.batch_size
	end_idx = start_idx + self.batch_size
	gpu_batches = batches[:, start_idx:end_idx]

	all_batches.extend(gpu_batches)

	if self.shuffle:
	rng.shuffle(all_batches)

	# Синхронизируем все процессы после формирования батчей
	accelerator.wait_for_everyone()
	# print(f"Rank {self.rank}: Created {len(all_batches)} batches")
	return iter(all_batches)

	def __len__(self):
	return self.num_batches

	def set_epoch(self, epoch):
	self.epoch = epoch

	# Функция для выборки фиксированных семплов по размерам
	def get_fixed_samples_by_resolution(dataset, samples_per_group=1):
	"""Выбирает фиксированные семплы для каждого уникального разрешения"""
	# Группируем по размерам
	size_groups = defaultdict(list)
	try:
	widths = dataset["width"]
	heights = dataset["height"]
	except KeyError:
	widths = [0] * len(dataset)
	heights = [0] * len(dataset)
	for i, (w, h) in enumerate(zip(widths, heights)):
	size = (w, h)
	size_groups[size].append(i)

	# Выбираем фиксированные примеры из каждой группы
	fixed_samples = {}
	for size, indices in size_groups.items():
	# Определяем сколько семплов брать из этой группы
	n_samples = min(samples_per_group, len(indices))
	if len(size_groups)==1:
	n_samples = samples_to_generate
	if n_samples == 0:
	continue

	# Выбираем случайные индексы
	sample_indices = random.sample(indices, n_samples)
	samples_data = [dataset[idx] for idx in sample_indices]

	# Собираем данные
	latents = torch.tensor(np.array([item["vae"] for item in samples_data])).to(device=device,dtype=dtype)
	embeddings = torch.tensor(np.array([item["embeddings"] for item in samples_data])).to(device,dtype=dtype)
	texts = [item["text"] for item in samples_data]

	# Сохраняем для этого размера
	fixed_samples[size] = (latents, embeddings, texts)

	print(f"Создано {len(fixed_samples)} групп фиксированных семплов по разрешениям")
	return fixed_samples

	if limit > 0:
	dataset = load_from_disk(ds_path).select(range(limit))
	else:
	dataset = load_from_disk(ds_path)

	def collate_fn_simple(batch):
	# Преобразуем список в тензоры и перемещаем на девайс
	latents = torch.tensor(np.array([item["vae"] for item in batch])).to(device,dtype=dtype)
	embeddings = torch.tensor(np.array([item["embeddings"] for item in batch])).to(device,dtype=dtype)
	return latents, embeddings

	def collate_fn(batch):
	if not batch:
	return [], []

	# Берем эталонную форму
	ref_vae_shape = np.array(batch[0]["vae"]).shape
	ref_embed_shape = np.array(batch[0]["embeddings"]).shape

	# Фильтруем
	valid_latents = []
	valid_embeddings = []
	for item in batch:
	if (np.array(item["vae"]).shape == ref_vae_shape and
	np.array(item["embeddings"]).shape == ref_embed_shape):
	valid_latents.append(item["vae"])
	valid_embeddings.append(item["embeddings"])

	# Создаем тензоры
	latents = torch.tensor(np.array(valid_latents)).to(device,dtype=dtype)
	embeddings = torch.tensor(np.array(valid_embeddings)).to(device,dtype=dtype)

	return latents, embeddings

	# Используем наш ResolutionBatchSampler
	#batch_sampler = ResolutionBatchSampler(dataset, batch_size=batch_size, shuffle=True)
	#dataloader = DataLoader(dataset, batch_sampler=batch_sampler, collate_fn=collate_fn)

	# Создаем ResolutionBatchSampler на основе индексов от DistributedSampler
	batch_sampler = DistributedResolutionBatchSampler(
	dataset=dataset,
	batch_size=batch_size,
	num_replicas=accelerator.num_processes,
	rank=accelerator.process_index,
	shuffle=shuffle
	)

	# Создаем DataLoader
	dataloader = DataLoader(dataset, batch_sampler=batch_sampler, collate_fn=collate_fn_simple)

	print("Total samples",len(dataloader))
	dataloader = accelerator.prepare(dataloader)

	# Инициализация переменных для возобновления обучения
	start_epoch = 0
	global_step = 0

	# Расчёт общего количества шагов
	total_training_steps = (len(dataloader) * num_epochs)
	# Get the world size
	world_size = accelerator.state.num_processes
	#print(f"World Size: {world_size}")

	# Опция загрузки модели из последнего чекпоинта (если существует)
	latest_checkpoint = os.path.join(checkpoints_folder, project)
	if os.path.isdir(latest_checkpoint):
	print("Загружаем UNet из чекпоинта:", latest_checkpoint)
	if dtype == torch.float32:
	unet = UNet2DConditionModel.from_pretrained(latest_checkpoint).to(device=device,dtype=dtype)
	else:
	unet = UNet2DConditionModel.from_pretrained(latest_checkpoint, variant="fp16").to(device=device,dtype=dtype)
	if unet_gradient:
	unet.enable_gradient_checkpointing()
	unet.set_use_memory_efficient_attention_xformers(False) # отключаем xformers
	try:
	unet.set_attn_processor(AttnProcessor2_0()) # Используем стандартный AttnProcessor
	except Exception as e:
	print(f"Ошибка при включении SDPA: {e}")
	print("Попытка использовать enable_xformers_memory_efficient_attention.")
	unet.set_use_memory_efficient_attention_xformers(True)

	if hasattr(torch.backends.cuda, "flash_sdp_enabled"):
	print(f"torch.backends.cuda.flash_sdp_enabled(): {torch.backends.cuda.flash_sdp_enabled()}")
	if hasattr(torch.backends.cuda, "mem_efficient_sdp_enabled"):
	print(f"torch.backends.cuda.mem_efficient_sdp_enabled(): {torch.backends.cuda.mem_efficient_sdp_enabled()}")
	if hasattr(torch.nn.functional, "get_flash_attention_available"):
	print(f"torch.nn.functional.get_flash_attention_available(): {torch.nn.functional.get_flash_attention_available()}")
	if torch_compile:
	print("compiling")
	torch.set_float32_matmul_precision('high')
	unet = torch.compile(unet)#, mode="reduce-overhead", fullgraph=True)
	print("compiling - ok")

	if lora_name:
	print(f"--- Настройка LoRA через PEFT (Rank={lora_rank}, Alpha={lora_alpha}) ---")
	from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
	from peft.tuners.lora import LoraModel
	import os
	# 1. Замораживаем все параметры UNet
	unet.requires_grad_(False)
	print("Параметры базового UNet заморожены.")

	# 2. Создаем конфигурацию LoRA
	lora_config = LoraConfig(
	r=lora_rank,
	lora_alpha=lora_alpha,
	target_modules=["to_q", "to_k", "to_v", "to_out.0"],
	)
	unet.add_adapter(lora_config)

	# 3. Оборачиваем UNet в PEFT-модель
	from peft import get_peft_model

	peft_unet = get_peft_model(unet, lora_config)

	# 4. Получаем параметры для оптимизации
	params_to_optimize = list(p for p in peft_unet.parameters() if p.requires_grad)


	# 5. Выводим информацию о количестве параметров
	if accelerator.is_main_process:
	lora_params_count = sum(p.numel() for p in params_to_optimize)
	total_params_count = sum(p.numel() for p in unet.parameters())
	print(f"Количество обучаемых параметров (LoRA): {lora_params_count:,}")
	print(f"Общее количество параметров UNet: {total_params_count:,}")

	# 6. Путь для сохранения
	lora_save_path = os.path.join("lora", lora_name)
	os.makedirs(lora_save_path, exist_ok=True)

	# 7. Функция для сохранения
	def save_lora_checkpoint(model):
	if accelerator.is_main_process:
	print(f"Сохраняем LoRA адаптеры в {lora_save_path}")
	from peft.utils.save_and_load import get_peft_model_state_dict
	# Получаем state_dict только LoRA
	lora_state_dict = get_peft_model_state_dict(model)

	# Сохраняем веса
	torch.save(lora_state_dict, os.path.join(lora_save_path, "adapter_model.bin"))

	# Сохраняем конфиг
	model.peft_config["default"].save_pretrained(lora_save_path)
	# SDXL must be compatible
	from diffusers import StableDiffusionXLPipeline
	StableDiffusionXLPipeline.save_lora_weights(lora_save_path, lora_state_dict)

	# --------------------------- Оптимизатор ---------------------------
	# Определяем параметры для оптимизации
	#unet = torch.compile(unet)
	if lora_name:
	# Если используется LoRA, оптимизируем только параметры LoRA
	trainable_params = [p for p in unet.parameters() if p.requires_grad]
	else:
	# Иначе оптимизируем все параметры
	if fbp:
	trainable_params = list(unet.parameters())

	if fbp:
	# [1] Создаем словарь оптимизаторов (fused backward)
	if adam8bit:
	optimizer_dict = {
	p: bnb.optim.AdamW8bit(
	[p], # Каждый параметр получает свой оптимизатор
	lr=base_learning_rate,
	eps=1e-8
	) for p in trainable_params
	}
	else:
	optimizer_dict = {
	p: bnb.optim.Lion8bit(
	[p], # Каждый параметр получает свой оптимизатор
	lr=base_learning_rate,
	betas=(0.9, 0.97),
	weight_decay=0.01,
	percentile_clipping=percentile_clipping,
	) for p in trainable_params
	}

	# [2] Определяем hook для применения оптимизатора сразу после накопления градиента
	def optimizer_hook(param):
	optimizer_dict[param].step()
	optimizer_dict[param].zero_grad(set_to_none=True)

	# [3] Регистрируем hook для trainable параметров модели
	for param in trainable_params:
	param.register_post_accumulate_grad_hook(optimizer_hook)

	# Подготовка через Accelerator
	unet, optimizer = accelerator.prepare(unet, optimizer_dict)
	else:
	if adam8bit:
	optimizer = bnb.optim.AdamW8bit(
	params=unet.parameters(),
	lr=base_learning_rate,
	betas=(0.9, 0.999),
	eps=1e-8,
	weight_decay=0.01
	)
	#from torch.optim import AdamW
	#optimizer = AdamW(
	# params=unet.parameters(),
	# lr=base_learning_rate,
	# betas=(0.9, 0.999),
	# eps=1e-8,
	# weight_decay=0.01
	#)
	else:
	optimizer = bnb.optim.Lion8bit(
	params=unet.parameters(),
	lr=base_learning_rate,
	betas=(0.9, 0.97),
	weight_decay=0.01,
	percentile_clipping=percentile_clipping,
	)
	from transformers import get_constant_schedule_with_warmup

	# warmup
	num_warmup_steps = num_warmup_steps * world_size

	#lr_scheduler = get_constant_schedule_with_warmup(
	# optimizer=optimizer,
	# num_warmup_steps=num_warmup_steps
	#)
	from torch.optim.lr_scheduler import LambdaLR
	def lr_schedule(step, max_steps, base_lr, min_lr, use_decay=True):
	# Если не используем затухание, возвращаем базовый LR
	if not use_decay:
	return base_lr

	# Иначе используем линейный прогрев и косинусное затухание
	x = step / max_steps
	percent = 0.05
	if x < percent:
	# Линейный прогрев до percent% шагов
	return min_lr + (base_lr - min_lr) * (x / percent)
	else:
	# Косинусное затухание
	decay_ratio = (x - percent) / (1 - percent)
	return min_lr + 0.5 * (base_lr - min_lr) * (1 + math.cos(math.pi * decay_ratio))


	def custom_lr_lambda(step):
	return lr_schedule(step, total_training_steps*world_size,
	base_learning_rate, min_learning_rate,
	(num_warmup_steps>0)) / base_learning_rate

	lr_scheduler = LambdaLR(optimizer, lr_lambda=custom_lr_lambda)
	unet, optimizer, lr_scheduler = accelerator.prepare(unet, optimizer, lr_scheduler)

	# --------------------------- Фиксированные семплы для генерации ---------------------------
	# Примеры фиксированных семплов по размерам
	fixed_samples = get_fixed_samples_by_resolution(dataset)

	@torch.compiler.disable()
	@torch.no_grad()
	def generate_and_save_samples(fixed_samples_cpu, step):
	"""
	Генерирует семплы для каждого из разрешений и сохраняет их.

	Args:
	fixed_samples_cpu: Словарь, где ключи - размеры (width, height),
	а значения - кортежи (latents, embeddings, text) на CPU.
	step: Текущий шаг обучения
	"""
	original_model = None # Инициализируем, чтобы finally не ругался
	try:

	original_model = accelerator.unwrap_model(unet)
	original_model = original_model.to(dtype = dtype)
	original_model.eval()

	vae.to(device=device, dtype=dtype)
	vae.eval()

	scheduler.set_timesteps(n_diffusion_steps)

	all_generated_images = []
	all_captions = []

	for size, (sample_latents, sample_text_embeddings, sample_text) in fixed_samples_cpu.items():
	width, height = size

	sample_latents = sample_latents.to(dtype=dtype)
	sample_text_embeddings = sample_text_embeddings.to(dtype=dtype)

	# Инициализируем латенты случайным шумом
	# sample_latents уже в dtype, так что noise будет создан в dtype
	noise = torch.randn(
	sample_latents.shape, # Используем форму от sample_latents, которые теперь на GPU и fp16
	generator=gen,
	device=device,
	dtype=sample_latents.dtype
	)
	current_latents = noise.clone()

	# Подготовка текстовых эмбеддингов для guidance
	if guidance_scale > 0:
	# empty_embeddings должны быть того же типа и на том же устройстве
	empty_embeddings = torch.zeros_like(sample_text_embeddings, dtype=sample_text_embeddings.dtype, device=device)
	text_embeddings_batch = torch.cat([empty_embeddings, sample_text_embeddings], dim=0)
	else:
	text_embeddings_batch = sample_text_embeddings

	for t in scheduler.timesteps:
	t_batch = t.repeat(current_latents.shape[0]).to(device) # Убедимся, что t на устройстве

	if guidance_scale > 0:
	latent_model_input = torch.cat([current_latents] * 2)
	else:
	latent_model_input = current_latents

	latent_model_input_scaled = scheduler.scale_model_input(latent_model_input, t_batch)

	# Предсказание шума (UNet)
	noise_pred = original_model(latent_model_input_scaled, t_batch, text_embeddings_batch).sample

	if guidance_scale > 0:
	noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
	noise_pred = noise_pred_uncond + guidance_scale * (noise_pred_text - noise_pred_uncond)

	current_latents = scheduler.step(noise_pred, t, current_latents).prev_sample

	#print(f"current_latents Min: {current_latents.min()} Max: {current_latents.max()}")
	# Декодирование через VAE
	latent_for_vae = (current_latents.detach() / vae.config.scaling_factor) + vae.config.shift_factor
	decoded = vae.decode(latent_for_vae).sample

	# Преобразуем тензоры в PIL-изображения
	# Для математики с изображением (нормализация) лучше перейти в fp32
	decoded_fp32 = decoded.to(torch.float32)
	for img_idx, img_tensor in enumerate(decoded_fp32):
	img = (img_tensor / 2 + 0.5).clamp(0, 1).cpu().numpy().transpose(1, 2, 0)
	# If NaNs or infs are present, print them
	if np.isnan(img).any():
	print("NaNs found, saving stoped! Step:", step)
	save_model = False
	pil_img = Image.fromarray((img * 255).astype("uint8"))

	max_w_overall = max(s[0] for s in fixed_samples_cpu.keys())
	max_h_overall = max(s[1] for s in fixed_samples_cpu.keys())
	max_w_overall = max(255, max_w_overall)
	max_h_overall = max(255, max_h_overall)

	padded_img = ImageOps.pad(pil_img, (max_w_overall, max_h_overall), color='white')
	all_generated_images.append(padded_img)

	caption_text = sample_text[img_idx][:200] if img_idx < len(sample_text) else ""
	all_captions.append(caption_text)

	sample_path = f"{generated_folder}/{project}_{width}x{height}_{img_idx}.jpg"
	pil_img.save(sample_path, "JPEG", quality=96)

	if use_wandb and accelerator.is_main_process:
	wandb_images = [
	wandb.Image(img, caption=f"{all_captions[i]}")
	for i, img in enumerate(all_generated_images)
	]
	wandb.log({"generated_images": wandb_images, "global_step": step})

	finally:
	vae.to("cpu") # Перемещаем VAE обратно на CPU
	original_model = original_model.to(dtype = dtype)
	if original_model is not None:
	del original_model
	# Очистка переменных, которые являются тензорами и были созданы в функции
	for var in list(locals().keys()):
	if isinstance(locals()[var], torch.Tensor):
	del locals()[var]

	torch.cuda.empty_cache()
	gc.collect()

	# --------------------------- Генерация сэмплов перед обучением ---------------------------
	if accelerator.is_main_process:
	if save_model:
	print("Генерация сэмплов до старта обучения...")
	generate_and_save_samples(fixed_samples,0)

	# Модифицируем функцию сохранения модели для поддержки LoRA
	def save_checkpoint(unet,variant=""):
	if accelerator.is_main_process:
	if lora_name:
	# Сохраняем только LoRA адаптеры
	save_lora_checkpoint(unet)
	else:
	# Сохраняем полную модель
	if variant!="":
	accelerator.unwrap_model(unet.to(dtype=torch.float16)).save_pretrained(os.path.join(checkpoints_folder, f"{project}"),variant=variant)
	else:
	accelerator.unwrap_model(unet).save_pretrained(os.path.join(checkpoints_folder, f"{project}"))
	unet = unet.to(dtype=dtype)

	# --------------------------- Тренировочный цикл ---------------------------
	# Для логирования среднего лосса каждые % эпохи
	if accelerator.is_main_process:
	print(f"Total steps per GPU: {total_training_steps}")

	epoch_loss_points = []
	progress_bar = tqdm(total=total_training_steps, disable=not accelerator.is_local_main_process, desc="Training", unit="step")

	# Определяем интервал для сэмплирования и логирования в пределах эпохи (10% эпохи)
	steps_per_epoch = len(dataloader)
	sample_interval = max(1, steps_per_epoch // sample_interval_share)
	min_loss = 1.

	# Начинаем с указанной эпохи (полезно при возобновлении)
	for epoch in range(start_epoch, start_epoch + num_epochs):
	batch_losses = []
	batch_grads = []
	#unet = unet.to(dtype = dtype)
	batch_sampler.set_epoch(epoch)
	accelerator.wait_for_everyone()
	unet.train()
	print("epoch:",epoch)
	for step, (latents, embeddings) in enumerate(dataloader):
	with accelerator.accumulate(unet):
	if save_model == False and step == 5 :
	used_gb = torch.cuda.max_memory_allocated() / 1024**3
	print(f"Шаг {step}: {used_gb:.2f} GB")

	#latents = latents.to(dtype = dtype)
	#embeddings = embeddings.to(dtype = dtype)
	#print(f"Latents dtype: {latents.dtype}")
	#print(f"Embeddings dtype: {embeddings.dtype}")
	#print(f"Noise dtype: {noise.dtype}")

	# Forward pass
	noise = torch.randn_like(latents, dtype=latents.dtype)

	timesteps = torch.randint(steps_offset, scheduler.config.num_train_timesteps,
	(latents.shape[0],), device=device).long()

	# Добавляем шум к латентам
	noisy_latents = scheduler.add_noise(latents, noise, timesteps)

	# Используем целевое значение
	model_pred = unet(noisy_latents, timesteps, embeddings).sample
	target_pred = scheduler.get_velocity(latents, noise, timesteps)

	# Считаем лосс
	# Проверяем model_pred на nan/inf
	#if torch.isnan(model_pred.float()).any() or torch.isinf(model_pred.float()).any():
	# print(f"Rank {accelerator.process_index}: Found nan/inf in model_pred",model_pred.float())
	# # Обработка nan/inf значений
	# model_pred = torch.nan_to_num(model_pred.float(), nan=0.0, posinf=1.0, neginf=-1.0)
	loss = torch.nn.functional.mse_loss(model_pred, target_pred)

	# Проверяем на nan/inf перед backward
	if torch.isnan(loss) or torch.isinf(loss):
	print(f"Rank {accelerator.process_index}: Found nan/inf in loss: {loss}")
	loss = torch.zeros_like(loss)

	# Делаем backward через Accelerator
	accelerator.backward(loss)

	if (global_step % 100 == 0) or (global_step % sample_interval == 0):
	accelerator.wait_for_everyone()

	grad = 0.0
	if not fbp:
	if accelerator.sync_gradients:
	grad = accelerator.clip_grad_norm_(unet.parameters(), 1.)
	optimizer.step()
	lr_scheduler.step()
	optimizer.zero_grad(set_to_none=True)

	# Увеличиваем счетчик глобальных шагов
	global_step += 1

	# Обновляем прогресс-бар
	progress_bar.update(1)

	# Логируем метрики
	if accelerator.is_main_process:
	if fbp:
	current_lr = base_learning_rate
	else:
	current_lr = lr_scheduler.get_last_lr()[0]
	batch_losses.append(loss.detach().item())
	batch_grads.append(grad)

	# Логируем в Wandb
	if use_wandb:
	wandb.log({
	"loss": loss.detach().item(),
	"learning_rate": current_lr,
	"epoch": epoch,
	"grad": grad,
	"global_step": global_step
	})

	# Генерируем сэмплы с заданным интервалом
	if global_step % sample_interval == 0:
	generate_and_save_samples(fixed_samples,global_step)

	# Выводим текущий лосс
	avg_loss = np.mean(batch_losses[-sample_interval:])
	avg_grad = torch.mean(torch.stack(batch_grads[-sample_interval:])).cpu().item()
	print(f"Эпоха {epoch}, шаг {global_step}, средний лосс: {avg_loss:.6f}")

	if save_model:
	if avg_loss < min_loss:
	min_loss = avg_loss
	save_checkpoint(unet,"fp16")
	save_checkpoint(unet)
	if use_wandb:
	wandb.log({"intermediate_loss": avg_loss})
	wandb.log({"intermediate_grad": avg_grad})


	# По окончании эпохи
	#accelerator.wait_for_everyone()
	if accelerator.is_main_process:
	avg_epoch_loss = np.mean(batch_losses)
	print(f"\nЭпоха {epoch} завершена. Средний лосс: {avg_epoch_loss:.6f}")
	if use_wandb:
	wandb.log({"epoch_loss": avg_epoch_loss, "epoch": epoch+1})

	# Завершение обучения - сохраняем финальную модель
	if accelerator.is_main_process:
	print("Обучение завершено! Сохраняем финальную модель...")
	# Сохраняем основную модель
	if save_model:
	save_checkpoint(unet)
	print("Готово!")

	# randomize ode timesteps
	# input_timestep = torch.round(
	# F.sigmoid(torch.randn((n,), device=latents.device)), decimals=3
	# )

	#def create_distribution(num_points, device=None):
	# # Диапазон вероятностей на оси x
	# x = torch.linspace(0, 1, num_points, device=device)

	# Пользовательская функция плотности вероятности
	# probabilities = -7.7 * ((x - 0.5) ** 2) + 2

	# Нормализация, чтобы сумма равнялась 1
	# probabilities /= probabilities.sum()

	# return x, probabilities

	#def sample_from_distribution(x, probabilities, n, device=None):
	# Выбор индексов на основе распределения вероятностей
	# indices = torch.multinomial(probabilities, n, replacement=True)
	# return x[indices]

	# Пример использования
	#num_points = 1000 # Количество точек в диапазоне
	#n = latents.shape[0] # Количество временных шагов для выборки
	#x, probabilities = create_distribution(num_points, device=latents.device)
	#timesteps = sample_from_distribution(x, probabilities, n, device=latents.device)

	# Преобразование в формат, подходящий для вашего кода
	#timesteps = (timesteps * (scheduler.config.num_train_timesteps - 1)).long()