Add files using upload-large-folder tool

Browse files

Files changed (10) hide show

README.md +83 -0
ffhq-256/README.md +59 -0
ffhq-256/id_model/README.md +3 -0
ffhq-256/id_model/config.json +4 -0
ffhq-256/id_model/model_ir_se50.safetensors +3 -0
ffhq-256/unet/config.json +20 -0
ffhq-256/unet/diffusion_pytorch_model.safetensors +3 -0
imagenet256-uncond/README.md +58 -0
imagenet256-uncond/unet/config.json +22 -0
imagenet256-uncond/unet/diffusion_pytorch_model.safetensors +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,83 @@

+---
+language: en
+library_name: pytorch-image-translation-models
+pipeline_tag: image-to-image
+tags:
+  - image-to-image
+  - diffusion
+  - image-translation
+  - DiffuseIT
+  - text-guided
+  - style-transfer
+---
+# DiffuseIT Checkpoints
+Diffusion-based Image Translation using Disentangled Style and Content Representation ([Kwon & Ye, ICLR 2023](https://arxiv.org/abs/2209.15264)).
+Converted from [cyclomon/DiffuseIT](https://github.com/cyclomon/DiffuseIT) for use with `pytorch-image-translation-models`.
+## Model Variants
+| Subfolder | Dataset | Resolution | Description |
+|-----------|---------|------------|-------------|
+| [imagenet256-uncond](imagenet256-uncond/) | ImageNet | 256×256 | Unconditional diffusion model for general image translation |
+| [ffhq-256](ffhq-256/) | FFHQ | 256×256 | Face-focused model with identity preservation (self-contained: unet + id_model) |
+## Installation
+```bash
+pip install pytorch-image-translation-models
+```
+Clone DiffuseIT repository (required for CLIP, VIT losses):
+```bash
+git clone https://github.com/cyclomon/DiffuseIT.git projects/DiffuseIT
+cd projects/DiffuseIT
+pip install ftfy regex lpips kornia opencv-python color-matcher
+pip install git+https://github.com/openai/CLIP.git
+```
+## Usage
+```python
+from examples.community.diffuseit import load_diffuseit_community_pipeline
+# ImageNet 256
+pipe = load_diffuseit_community_pipeline(
+    "BiliSakura/DiffuseIT-ckpt/imagenet256-uncond",  # or local path
+    diffuseit_src_path="projects/DiffuseIT",
+)
+pipe.to("cuda")
+# Text-guided
+out = pipe(
+    source_image=img,
+    prompt="Black Leopard",
+    source="Lion",
+    use_range_restart=True,
+    use_noise_aug_all=True,
+    output_type="pil",
+)
+# Image-guided
+out = pipe(
+    source_image=img,
+    target_image=style_ref,
+    use_colormatch=True,
+    output_type="pil",
+)
+```
+## Citation
+```bibtex
+@inproceedings{kwon2023diffuseit,
+  title={Diffusion-based Image Translation using Disentangled Style and Content Representation},
+  author={Kwon, Gihyun and Ye, Jong Chul},
+  booktitle={ICLR},
+  year={2023},
+  url={https://arxiv.org/abs/2209.15264}
+}
+```

ffhq-256/README.md ADDED Viewed

	@@ -0,0 +1,59 @@

+---
+language: en
+library_name: pytorch-image-translation-models
+pipeline_tag: image-to-image
+tags:
+  - image-to-image
+  - diffusion
+  - DiffuseIT
+  - FFHQ
+  - face
+  - identity-preservation
+  - text-guided
+---
+# DiffuseIT: FFHQ 256
+Face-focused diffusion model with identity preservation. Pre-trained on FFHQ 256×256.
+**Source:** [cyclomon/DiffuseIT](https://github.com/cyclomon/DiffuseIT) — converted from `ffhq_10m.pt`
+## Model Description
+- **Architecture**: Guided diffusion (OpenAI-style UNet, face-optimized)
+- **Resolution**: 256×256
+- **Task**: Face image translation with identity preservation (use `use_ffhq=True`)
+- **Self-contained**: Includes `id_model/` (ArcFace IR-SE50) for identity loss
+## Usage
+```python
+from examples.community.diffuseit import load_diffuseit_community_pipeline
+pipe = load_diffuseit_community_pipeline(
+    "BiliSakura/DiffuseIT-ckpt/ffhq-256",
+    use_ffhq=True,
+    diffuseit_src_path="projects/DiffuseIT",
+)
+pipe.to("cuda")
+out = pipe(
+    source_image=face_img,
+    prompt="Target description",
+    source="Source description",
+    use_range_restart=True,
+    output_type="pil",
+)
+```
+## Citation
+```bibtex
+@inproceedings{kwon2023diffuseit,
+  title={Diffusion-based Image Translation using Disentangled Style and Content Representation},
+  author={Kwon, Gihyun and Ye, Jong Chul},
+  booktitle={ICLR},
+  year={2023},
+  url={https://arxiv.org/abs/2209.15264}
+}
+```

ffhq-256/id_model/README.md ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ # ArcFace IR-SE50
2	+
3	+ ArcFace ResNet-50 IR-SE for face identity preservation. Used by DiffuseIT when `use_ffhq=True`.

ffhq-256/id_model/config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "_class_name": "ArcFaceIR_SE50",
+  "_converted_from": "model_ir_se50.pth"
+}

ffhq-256/id_model/model_ir_se50.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8b97cc250617df1074cf5defa4059d6b5c6187d3bbec7944800c200bbae9dfb
+size 175329792

ffhq-256/unet/config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "image_size": 256,
+  "num_channels": 128,
+  "num_res_blocks": 1,
+  "channel_mult": [
+    1,
+    1,
+    2,
+    2,
+    4,
+    4
+  ],
+  "attention_resolutions": [
+    16
+  ],
+  "out_channels": 6,
+  "learn_sigma": true,
+  "_class_name": "DiffuseITGuidedDiffusionUNet",
+  "_converted_from": "ffhq_10m.pt"
+}

ffhq-256/unet/diffusion_pytorch_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ccf128ed09090f855832fed124ad12b44079822451f190b31921a6507f36d459
+size 374293968

imagenet256-uncond/README.md ADDED Viewed

	@@ -0,0 +1,58 @@

+---
+language: en
+library_name: pytorch-image-translation-models
+pipeline_tag: image-to-image
+tags:
+  - image-to-image
+  - diffusion
+  - DiffuseIT
+  - ImageNet
+  - text-guided
+  - style-transfer
+---
+# DiffuseIT: ImageNet 256 Unconditional
+Unconditional diffusion model for general image translation. Pre-trained on ImageNet 256×256.
+**Source:** [cyclomon/DiffuseIT](https://github.com/cyclomon/DiffuseIT) — converted from `256x256_diffusion_uncond.pt`
+## Model Description
+- **Architecture**: Guided diffusion (OpenAI-style UNet)
+- **Resolution**: 256×256
+- **Task**: Text-guided and image-guided image translation
+## Usage
+```python
+from examples.community.diffuseit import load_diffuseit_community_pipeline
+pipe = load_diffuseit_community_pipeline(
+    "BiliSakura/DiffuseIT-ckpt/imagenet256-uncond",
+    diffuseit_src_path="projects/DiffuseIT",
+)
+pipe.to("cuda")
+# Text-guided
+out = pipe(
+    source_image=img,
+    prompt="Black Leopard",
+    source="Lion",
+    use_range_restart=True,
+    use_noise_aug_all=True,
+    output_type="pil",
+)
+```
+## Citation
+```bibtex
+@inproceedings{kwon2023diffuseit,
+  title={Diffusion-based Image Translation using Disentangled Style and Content Representation},
+  author={Kwon, Gihyun and Ye, Jong Chul},
+  booktitle={ICLR},
+  year={2023},
+  url={https://arxiv.org/abs/2209.15264}
+}
+```

imagenet256-uncond/unet/config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "image_size": 256,
+  "num_channels": 256,
+  "num_res_blocks": 2,
+  "channel_mult": [
+    1,
+    1,
+    2,
+    2,
+    4,
+    4
+  ],
+  "attention_resolutions": [
+    8,
+    16,
+    32
+  ],
+  "out_channels": 6,
+  "learn_sigma": true,
+  "_class_name": "DiffuseITGuidedDiffusionUNet",
+  "_converted_from": "256x256_diffusion_uncond.pt"
+}

imagenet256-uncond/unet/diffusion_pytorch_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da7e1e247a9d1fd8e676f6471fc265f83c46e2926050e9a19e56593370d632fa
+size 2211317416