Upload folder using huggingface_hub

Files changed (4) hide show

README.md CHANGED Viewed

@@ -8,7 +8,7 @@ tags:
 library_name: irdiffae
 ---
-# irdiffae_v1
 **iRDiffAE** — **iR**epa **Diff**usion **A**uto**E**ncoder.
 A fast, single-GPU-trainable diffusion autoencoder with spatially structured
@@ -19,9 +19,9 @@ Flux VAE; single-step decoding runs ~3× faster.
 | Variant | Patch | Channels | Compression | |
 |---------|-------|----------|-------------|---|
-| **irdiffae_v1** | 16x16 | 128 | 6x | recommended |
-This variant (irdiffae_v1): 121.0M parameters, 461.4 MB.
 ## Documentation
@@ -36,16 +36,16 @@ import torch
 from ir_diffae import IRDiffAE
 # Load from HuggingFace Hub (or a local path)
-model = IRDiffAE.from_pretrained("irdiffae_v1", device="cuda")
 # Encode
 images = ...  # [B, 3, H, W] in [-1, 1], H and W divisible by 16
 latents = model.encode(images)
-# Decode
 recon = model.decode(latents, height=H, width=W)
-# Reconstruct (encode + decode)
 recon = model.reconstruct(images)
 ```
@@ -104,7 +104,7 @@ recon = model.decode(latents, height=H, width=W, inference_config=cfg)
   author  = {data-archetype},
   year    = {2026},
   month   = feb,
-  url     = {https://huggingface.co/irdiffae_v1},
 }
 ```

 library_name: irdiffae
 ---
+# data-archetype/irdiffae-v1
 **iRDiffAE** — **iR**epa **Diff**usion **A**uto**E**ncoder.
 A fast, single-GPU-trainable diffusion autoencoder with spatially structured
 | Variant | Patch | Channels | Compression | |
 |---------|-------|----------|-------------|---|
+| [irdiffae_v1](https://huggingface.co/data-archetype/irdiffae_v1) | 16x16 | 128 | 6x | recommended |
+This variant (data-archetype/irdiffae-v1): 121.0M parameters, 461.4 MB.
 ## Documentation
 from ir_diffae import IRDiffAE
 # Load from HuggingFace Hub (or a local path)
+model = IRDiffAE.from_pretrained("data-archetype/irdiffae-v1", device="cuda")
 # Encode
 images = ...  # [B, 3, H, W] in [-1, 1], H and W divisible by 16
 latents = model.encode(images)
+# Decode (1 step by default — PSNR-optimal)
 recon = model.decode(latents, height=H, width=W)
+# Reconstruct (encode + 1-step decode)
 recon = model.reconstruct(images)
 ```
   author  = {data-archetype},
   year    = {2026},
   month   = feb,
+  url     = {https://huggingface.co/data-archetype/irdiffae-v1},
 }
 ```

ir_diffae/__init__.py CHANGED Viewed

@@ -12,12 +12,12 @@ Usage::
     # Encode
     latents = model.encode(images)  # images: [B,3,H,W] in [-1,1]
-    # Decode with custom settings
-    cfg = IRDiffAEInferenceConfig(num_steps=50, sampler="dpmpp_2m")
-    recon = model.decode(latents, height=512, width=512, inference_config=cfg)
-    # Reconstruct (encode + decode)
-    recon = model.reconstruct(images)
 """
 from .config import IRDiffAEConfig, IRDiffAEInferenceConfig

     # Encode
     latents = model.encode(images)  # images: [B,3,H,W] in [-1,1]
+    # Decode — PSNR-optimal (1 step, default)
+    recon = model.decode(latents, height=H, width=W)
+    # Decode — perceptual sharpness (10 steps + PDG)
+    cfg = IRDiffAEInferenceConfig(num_steps=10, sampler="ddim", pdg_enabled=True)
+    recon = model.decode(latents, height=H, width=W, inference_config=cfg)
 """
 from .config import IRDiffAEConfig, IRDiffAEInferenceConfig

ir_diffae/model.py CHANGED Viewed

@@ -58,10 +58,10 @@ class IRDiffAE(nn.Module):
         # Encode
         latents = model.encode(images)  # images: [B,3,H,W] in [-1,1]
-        # Decode
         recon = model.decode(latents, height=H, width=W)
-        # Reconstruct (encode + decode)
         recon = model.reconstruct(images)
     """

         # Encode
         latents = model.encode(images)  # images: [B,3,H,W] in [-1,1]
+        # Decode (1 step by default — PSNR-optimal)
         recon = model.decode(latents, height=H, width=W)
+        # Reconstruct (encode + 1-step decode)
         recon = model.reconstruct(images)
     """

technical_report.md CHANGED Viewed

@@ -658,15 +658,15 @@ Reconstruction quality evaluated on a curated set of test images covering photog
 ### 7.3 Global Metrics
-| Metric | p16_c128 | Flux.1 VAE | Flux.2 VAE |
 |--------|--------|--------|--------|
 | Avg PSNR (dB) | 31.77 | 32.76 | 34.16 |
-| Avg encode (ms/image) | 2.5 | 64.7 | 46.3 |
-| Avg decode (ms/image) | 5.6 | 138.1 | 92.4 |
 ### 7.4 Per-Image PSNR (dB)
-| Image | p16_c128 | Flux.1 VAE | Flux.2 VAE |
 |-------|--------|--------|--------|
 | p640x1536:94623 | 30.99 | 31.29 | 33.50 |
 | p640x1536:94624 | 27.21 | 27.62 | 30.03 |

 ### 7.3 Global Metrics
+| Metric | irdiffae_v1 | Flux.1 VAE | Flux.2 VAE |
 |--------|--------|--------|--------|
 | Avg PSNR (dB) | 31.77 | 32.76 | 34.16 |
+| Avg encode (ms/image) | 2.5 | 64.8 | 46.3 |
+| Avg decode (ms/image) | 5.7 | 138.1 | 92.5 |
 ### 7.4 Per-Image PSNR (dB)
+| Image | irdiffae_v1 | Flux.1 VAE | Flux.2 VAE |
 |-------|--------|--------|--------|
 | p640x1536:94623 | 30.99 | 31.29 | 33.50 |
 | p640x1536:94624 | 27.21 | 27.62 | 30.03 |