Mini Latent Diffusion Model

A ~46M parameter UNet trained from scratch for text-to-image generation in latent space (SD VAE + CLIP text encoder, both frozen).

Dataset: BitTranslate/Bittensor_subnet_19_06_04_24
Trained steps: 1000
Image size: 256px → 32×32 latents

Architecture

from train_mini_ldm import generate
imgs = generate("a sunset over the ocean", "./mini_ldm_output/final")

Safetensors

Model size

45.5M params

Tensor type

F32