Spaces:

multimodalart
/

latentdiffusion

Running on A10G

App Files Files Community

Test

#14

by Mizifritz - opened Oct 2, 2022

base: refs/heads/main

←

from: refs/pr/14

Discussion Files changed

+16

-117320

This view is limited to 50 files because it contains too many changes. See the raw diff here.

Files changed (50) hide show

.gitattributes +0 -450
README.md +2 -2
app.py +10 -16
requirements.txt +4 -7
taming-transformers/License.txt +0 -19
taming-transformers/README.md +0 -410
taming-transformers/assets/birddrawnbyachild.png +0 -3
taming-transformers/assets/coco_scene_images_training.svg +0 -2574
taming-transformers/assets/drin.jpg +0 -3
taming-transformers/assets/faceshq.jpg +0 -3
taming-transformers/assets/first_stage_mushrooms.png +0 -3
taming-transformers/assets/first_stage_squirrels.png +0 -3
taming-transformers/assets/imagenet.png +0 -3
taming-transformers/assets/lake_in_the_mountains.png +0 -3
taming-transformers/assets/mountain.jpeg +0 -3
taming-transformers/assets/scene_images_samples.svg +0 -0
taming-transformers/assets/stormy.jpeg +0 -3
taming-transformers/assets/sunset_and_ocean.jpg +0 -3
taming-transformers/assets/teaser.png +0 -3
taming-transformers/configs/coco_cond_stage.yaml +0 -49
taming-transformers/configs/coco_scene_images_transformer.yaml +0 -80
taming-transformers/configs/custom_vqgan.yaml +0 -43
taming-transformers/configs/drin_transformer.yaml +0 -77
taming-transformers/configs/faceshq_transformer.yaml +0 -61
taming-transformers/configs/faceshq_vqgan.yaml +0 -42
taming-transformers/configs/imagenet_vqgan.yaml +0 -42
taming-transformers/configs/imagenetdepth_vqgan.yaml +0 -41
taming-transformers/configs/open_images_scene_images_transformer.yaml +0 -86
taming-transformers/configs/sflckr_cond_stage.yaml +0 -43
taming-transformers/data/ade20k_examples.txt +0 -30
taming-transformers/data/ade20k_images/ADE_val_00000123.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00000125.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00000126.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00000203.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00000262.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00000287.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00000289.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00000303.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00000509.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00000532.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00000573.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00000603.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00000636.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00000734.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00000875.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00000880.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00001177.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00001200.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00001209.jpg +0 -0
taming-transformers/data/ade20k_images/ADE_val_00001388.jpg +0 -0

.gitattributes DELETED Viewed

@@ -1,450 +0,0 @@
-taming-transformers/assets/birddrawnbyachild.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/assets/drin.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/assets/faceshq.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/assets/first_stage_mushrooms.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/assets/first_stage_squirrels.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/assets/imagenet.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/assets/lake_in_the_mountains.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/assets/mountain.jpeg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/assets/stormy.jpeg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/assets/sunset_and_ocean.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/assets/teaser.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010005.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010014.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010015.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010023.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010024.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010037.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010039.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010040.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010041.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010046.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010056.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010058.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010069.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010073.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010077.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010082.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010083.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010084.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010094.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010097.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010104.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010114.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010115.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010123.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010125.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010130.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010136.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010138.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010142.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010145.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010149.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010161.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010166.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010175.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010176.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010179.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010192.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010196.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010211.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010216.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010217.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010219.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010229.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010230.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010232.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010239.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010241.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010244.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010245.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010248.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010249.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010256.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010263.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010275.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010276.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010281.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010290.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010303.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010318.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010319.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010321.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010324.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010327.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010337.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010342.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010343.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010346.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010358.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010369.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010386.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010393.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010395.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010400.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010403.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010405.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010407.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010414.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010420.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010421.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010428.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010430.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010432.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010434.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010442.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010445.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010449.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/train2017/000000010463.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000010092.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000010583.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000010707.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000010764.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000011122.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000011149.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000011197.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000011511.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000011615.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000011699.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000011760.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000012062.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000012120.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000012280.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000012576.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000012639.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000012670.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000012748.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000013004.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000013177.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000013201.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000013291.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000013348.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000013546.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000013659.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000013729.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000013774.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000013923.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000014007.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000014038.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000014226.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000014380.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000014439.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000014473.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000014831.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000014888.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000015079.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000015254.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000015272.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000015278.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000015335.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000015338.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000015440.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000015517.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000015597.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000015660.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000015746.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000015751.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000015956.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000016010.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000016228.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000016249.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000016439.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000016451.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000016598.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000016958.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000017029.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000017031.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000017115.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000017178.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000017182.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000017207.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000017379.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000017436.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000017627.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000017714.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000017899.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000017905.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000017959.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000018150.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000018193.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000018380.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000018491.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000018519.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000018575.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000018737.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000018837.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000019042.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000019109.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000019221.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000019402.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000019432.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000019924.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000020059.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000020107.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000020247.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_annotations_100/val2017/000000020333.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000018380.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000052507.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000057672.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000064898.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000110638.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000119445.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000128658.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000154358.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000166259.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000166563.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000185599.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000205834.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000231169.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000237928.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000255824.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000256775.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000303653.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000323895.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000335529.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000348045.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000348481.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000356347.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000361180.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000406997.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000491464.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000517069.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000522393.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/coco_images/000000569273.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n01795545/ILSVRC2012_val_00023344.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n01819313/ILSVRC2012_val_00003068.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n01820546/ILSVRC2012_val_00034784.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n01820546/ILSVRC2012_val_00047491.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n01828970/ILSVRC2012_val_00001336.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n01828970/ILSVRC2012_val_00008236.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n01828970/ILSVRC2012_val_00046802.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n01843065/ILSVRC2012_val_00022439.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n01847000/ILSVRC2012_val_00022364.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n02085782/ILSVRC2012_val_00012298.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n02086646/ILSVRC2012_val_00011473.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n02088466/ILSVRC2012_val_00013651.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n02089973/ILSVRC2012_val_00000028.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n02093256/ILSVRC2012_val_00046547.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n02096294/ILSVRC2012_val_00042133.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n02099601/ILSVRC2012_val_00005697.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n02099712/ILSVRC2012_val_00023471.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n02100877/ILSVRC2012_val_00039863.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n02101006/ILSVRC2012_val_00032333.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n02101006/ILSVRC2012_val_00047325.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n02101556/ILSVRC2012_val_00030540.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n02102318/ILSVRC2012_val_00024691.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n02105505/ILSVRC2012_val_00031252.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n02110627/ILSVRC2012_val_00008310.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_depth/n02111889/ILSVRC2012_val_00042625.png filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n01795545/ILSVRC2012_val_00023344.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n01819313/ILSVRC2012_val_00003068.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n01820546/ILSVRC2012_val_00034784.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n01828970/ILSVRC2012_val_00001336.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n01828970/ILSVRC2012_val_00008236.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n01828970/ILSVRC2012_val_00046802.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n01843065/ILSVRC2012_val_00022439.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n01847000/ILSVRC2012_val_00022364.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n02086646/ILSVRC2012_val_00011473.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n02089973/ILSVRC2012_val_00000028.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n02096294/ILSVRC2012_val_00042133.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n02099601/ILSVRC2012_val_00005697.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n02100877/ILSVRC2012_val_00039863.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n02101006/ILSVRC2012_val_00032333.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n02101006/ILSVRC2012_val_00047325.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n02101556/ILSVRC2012_val_00030540.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n02102318/ILSVRC2012_val_00024691.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/drin_images/n02110627/ILSVRC2012_val_00008310.JPEG filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ab31e6be35fed.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ab7bec71cc50a.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ab8c20b3e5b58.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000abc075d659122.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000abe5eddc5b303.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ac34008b0ba4c.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ac8c676b6077a.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ac95750ac7399.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000acf666d991c39.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ad0ecfb21ee63.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ad20b5e452b24.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ad3d42653f5f6.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ad6c520be9ec5.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ad6fa67b5ad96.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000adcdd7244ce4a.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000adef7197e3118.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000adfe5b817011c.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ae235808cc1e8.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ae28755d2d20e.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000aecd78b230135.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000aee0af66d4237.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000af631fb329557.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b06c0eed42a4c.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b093da01e5bfe.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b09d5d3fc821f.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b0f5159f54105.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b168e791f591d.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b1971d8daaeef.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b1b3b85edd850.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b1b92f0800e94.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b260e1f08a32a.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b29496f75c8e5.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b299b5f5ed902.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b2b00065e564a.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b2d1789d5f80d.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b38d9f2f664fe.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b393437134262.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b3940e7d25c03.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b397382b2464a.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b42cae15622e0.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b432ae644b679.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b485cedacbf97.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b4935979bf4b5.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b4fcdf1af3361.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b50bdd1933a36.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b55559b0244d7.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b55e339f0b131.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b567c26dd4e5d.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b59a7822679e6.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b5bc07c0c5df7.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b606e130bdf5e.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b63a1445f53c8.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b65a36ad46f9e.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b70a84aab664b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b72e1446f8849.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b76a9b80ba43a.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b7dfaa1810a83.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b81b5757963e0.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b825dea3016eb.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b87119cc301cf.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b8d80f7386698.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b9007a01f7405.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b93644609911f.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b9814a07fd974.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b9a97776b3634.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b9b00d7aef8f5.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b9b61afea2cd4.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b9c365c9e307a.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b9d6c0f7d794d.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000b9f3ba4891c11.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ba221f70676c6.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ba28d70b1a999.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ba3ca8a2ca955.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000ba40bf7a2b458.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000baa6f7dae9b79.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000bab5b1a67844e.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000bb0ae453283b0.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000bb81adefe7332.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000bb8bd9b1bca65.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000bbdf0dc8099d8.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000bc1eb7f74adae.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000bc33717a6371f.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000bc387c731dd97.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000bc5006eb7fd98.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000bc5ad4cc3ae73.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000bc75d38907c78.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000bc7b0a1889bcb.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000bcd3bcd95cbb3.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/train/000bcee5bed5446b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09c67960e389e4df.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09c6ddd2c210450e.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09c7f89055cf399b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09c863d76bcf6b00.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09c993afacd01547.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09d2112596d9155b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09d354dbd3dcc857.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09d45c49c4adbae4.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09d64f43c7111879.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09d8aa2d19ff724d.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09dcb9b52055d40f.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09dd0671cd633432.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09df63bd01367ca3.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09e094375efab7fe.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09e617d9d3120b32.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09ebcee57699eb98.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09f8b77a88f224d9.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09f8e760f60df0da.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/09fa093bcd300c1a.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a02c648d24f39fb.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a08a4711c728078.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a13dcaaab9a35e0.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a1b11867383b13e.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a23d3f0e7d850f4.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a278d979b63fc72.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a2c6ef66896fb92.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a34d80ee1db201e.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a37aa0734ac8016.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a3873442ad329c2.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a39325e5ad7f5a0.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a3c01759e77a02d.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a3f577a327ca7cc.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a3f9b3d57ef354a.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a41cda5f44baaf6.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a47e7d602855f93.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a4abf0a8071b917.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a4db5693da70448.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a556c8163b58fae.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a563d05ebab4fe3.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a599940d33b6b2b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a600f1148d1023c.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a6a03c8f23ee744.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a6bc386b28f2aac.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a7074a2a5515531.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a72fef43a51c479.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a73064c82730ff5.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a78374f2d3949ae.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a7be0b883a12966.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a7c597abf1e90d4.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a7f13330a5d0023.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a7f4d9a0ccb9afe.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a7fbc1d68e4e5ae.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a82f0443c940816.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a8657e8b5c9d7bb.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a877314ca2039d9.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a917bbca24cf75d.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a94296ff543a1dc.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a9f73b3c2557150.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0a9ff75a7897e757.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0aa206fa7ea80036.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0aa3a6c33fca122b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0aaad833ac61ac9d.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0aacbdb54e853a0a.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0aad9fc79a35bd53.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0aae34863935e33a.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0ab050b51e78acdb.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0ab10a6417ef2301.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0ab2b64f27f8baca.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0ab5c690eebfad95.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0ac166d12e401a98.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0ac2f91a7995aa8b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0ac3c1db1b3645f2.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0ac51477636a6933.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0ac52440f73b5c80.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0ad7884032419621.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0ad7bad30cd432df.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0ad99d610a9092e6.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0ada35baba28134b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0adc1330287b2e66.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0adc373e996aadc2.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0add91a2efb3f33d.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/open_images_annotations_100/validation/0ade7aef439e2102.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/alaska_lakes/43259216952_59352d7204_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/australia/12822389285_a7723081b5_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/australia/8720651218_ca82a6608e_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/black_forest/8364557382_c6c9ee2fd6_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/canada/256743165_9f130ba95b_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/canada/2883773_881c197107_c.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/carribean/14351041152_ef77484a1f_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/carribean/18176301_c9d27557cf_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/cliff_ocean/36142796444_45d452f567_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/desert/4534149722_3cc4f92891_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/geysir/14996762478_a9bdbf959a_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/geysir/26320755536_7c769b6218_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/geysir/4748115806_7219c2b3be_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/ireland/15570753471_74db396d14_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/lakes/39933489595_f0e5d85b6d_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/meadow/18864473291_844325caab_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/mongolia/6076373946_e9ea2aee32_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/newzealand_np/7942812194_9348729b93_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/norway/20099378793_cc2df820af_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/norway/25735082181_999927fe5a_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/swiss_mountains/33509672006_bf4c416afd_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/data/sflckr_images/volcano/50254383883_27ed6ea93a_b.jpg filter=lfs diff=lfs merge=lfs -text
-taming-transformers/scripts/reconstruction_usage.ipynb filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -4,8 +4,8 @@ emoji: 👁
 colorFrom: pink
 colorTo: indigo
 sdk: gradio
-sdk_version: 5.38.0
 app_file: app.py
 pinned: false
 license: mit
----

 colorFrom: pink
 colorTo: indigo
 sdk: gradio
+sdk_version: 2.9.4
 app_file: app.py
 pinned: false
 license: mit
+---

app.py CHANGED Viewed

@@ -9,7 +9,6 @@ sys.path.append('./latent-diffusion')
 from taming.models import vqgan
 from ldm.util import instantiate_from_config
 from huggingface_hub import hf_hub_download
-import spaces
 model_path_e = hf_hub_download(repo_id="multimodalart/compvis-latent-diffusion-text2img-large", filename="txt2img-f8-large.ckpt")
@@ -101,7 +100,6 @@ model = model.to(device)
 safety_model = load_safety_model("ViT-B/32")
 clip_model, _, preprocess = open_clip.create_model_and_transforms('ViT-B-32', pretrained='openai')
-@spaces.GPU
 def run(prompt, steps, width, height, images, scale):
     opt = argparse.Namespace(
         prompt = prompt,
@@ -181,26 +179,22 @@ def run(prompt, steps, width, height, images, scale):
     grid = 255. * rearrange(grid, 'c h w -> h w c').cpu().numpy()
     Image.fromarray(grid.astype(np.uint8)).save(os.path.join(outpath, f'{prompt.replace(" ", "-")}.png'))
-    return(all_samples_images,Image.fromarray(grid.astype(np.uint8)),None)
-image = gr.Image(type="pil", label="Image Grid")
 css = ".output-image{height: 528px !important} .output-carousel .output-image{height:272px !important} a{text-decoration: underline}"
 iface = gr.Interface(fn=run, inputs=[
-    gr.Textbox(label="Prompt - try adding increments to your prompt such as 'oil on canvas', 'a painting', 'a book cover'",placeholder="chalk pastel drawing of a dog wearing a funny hat"),
-    gr.Slider(label="Steps - more steps can increase quality but will take longer to generate",value=45,maximum=50,minimum=1,step=1),
-    gr.Radio(label="Width", choices=[32,64,128,256],value=256),
-    gr.Radio(label="Height", choices=[32,64,128,256],value=256),
-    gr.Slider(label="Images - How many images you wish to generate", value=2, step=1, minimum=1, maximum=4),
-    gr.Slider(label="Diversity scale - How different from one another you wish the images to be",value=5.0, minimum=1.0, maximum=15.0),
     #gr.inputs.Slider(label="ETA - between 0 and 1. Lower values can provide better quality, higher values can be more diverse",default=0.0,minimum=0.0, maximum=1.0,step=0.1),
     ],
-    outputs=[
-        gr.Gallery(label="Individual images"),
-        image,
-        gr.Textbox(label="Error")
-    ],
     css=css,
     title="Generate images from text with Latent Diffusion LAION-400M",
     description="<div>By typing a prompt and pressing submit you can generate images based on this prompt. <a href='https://github.com/CompVis/latent-diffusion' target='_blank'>Latent Diffusion</a> is a text-to-image model created by <a href='https://github.com/CompVis' target='_blank'>CompVis</a>, trained on the <a href='https://laion.ai/laion-400-open-dataset/'>LAION-400M dataset.</a><br>This UI to the model was assembled by <a style='color: rgb(245, 158, 11);font-weight:bold' href='https://twitter.com/multimodalart' target='_blank'>@multimodalart</a></div>",
     article="<h4 style='font-size: 110%;margin-top:.5em'>Biases acknowledgment</h4><div>Despite how impressive being able to turn text into image is, beware to the fact that this model may output content that reinforces or exarcbates societal biases. According to the <a href='https://arxiv.org/abs/2112.10752' target='_blank'>Latent Diffusion paper</a>:<i> \"Deep learning modules tend to reproduce or exacerbate biases that are already present in the data\"</i>. The model was trained on an unfiltered version the LAION-400M dataset, which scrapped non-curated image-text-pairs from the internet (the exception being the the removal of illegal content) and is meant to be used for research purposes, such as this one. <a href='https://laion.ai/laion-400-open-dataset/' target='_blank'>You can read more on LAION's website</a></div><h4 style='font-size: 110%;margin-top:1em'>Who owns the images produced by this demo?</h4><div>Definetly not me! Probably you do. I say probably because the Copyright discussion about AI generated art is ongoing. So <a href='https://www.theverge.com/2022/2/21/22944335/us-copyright-office-reject-ai-generated-art-recent-entrance-to-paradise' target='_blank'>it may be the case that everything produced here falls automatically into the public domain</a>. But in any case it is either yours or is in the public domain.</div>")
-iface.launch()

 from taming.models import vqgan
 from ldm.util import instantiate_from_config
 from huggingface_hub import hf_hub_download
 model_path_e = hf_hub_download(repo_id="multimodalart/compvis-latent-diffusion-text2img-large", filename="txt2img-f8-large.ckpt")
 safety_model = load_safety_model("ViT-B/32")
 clip_model, _, preprocess = open_clip.create_model_and_transforms('ViT-B-32', pretrained='openai')
 def run(prompt, steps, width, height, images, scale):
     opt = argparse.Namespace(
         prompt = prompt,
     grid = 255. * rearrange(grid, 'c h w -> h w c').cpu().numpy()
     Image.fromarray(grid.astype(np.uint8)).save(os.path.join(outpath, f'{prompt.replace(" ", "-")}.png'))
+    return(Image.fromarray(grid.astype(np.uint8)),all_samples_images,None)
+image = gr.outputs.Image(type="pil", label="Your result")
 css = ".output-image{height: 528px !important} .output-carousel .output-image{height:272px !important} a{text-decoration: underline}"
 iface = gr.Interface(fn=run, inputs=[
+    gr.inputs.Textbox(label="Prompt - try adding increments to your prompt such as 'oil on canvas', 'a painting', 'a book cover'",default="chalk pastel drawing of a dog wearing a funny hat"),
+    gr.inputs.Slider(label="Steps - more steps can increase quality but will take longer to generate",default=45,maximum=50,minimum=1,step=1),
+    gr.inputs.Radio(label="Width", choices=[32,64,128,256],default=256),
+    gr.inputs.Radio(label="Height", choices=[32,64,128,256],default=256),
+    gr.inputs.Slider(label="Images - How many images you wish to generate", default=2, step=1, minimum=1, maximum=4),
+    gr.inputs.Slider(label="Diversity scale - How different from one another you wish the images to be",default=5.0, minimum=1.0, maximum=15.0),
     #gr.inputs.Slider(label="ETA - between 0 and 1. Lower values can provide better quality, higher values can be more diverse",default=0.0,minimum=0.0, maximum=1.0,step=0.1),
     ],
+    outputs=[image,gr.outputs.Carousel(label="Individual images",components=["image"]),gr.outputs.Textbox(label="Error")],
     css=css,
     title="Generate images from text with Latent Diffusion LAION-400M",
     description="<div>By typing a prompt and pressing submit you can generate images based on this prompt. <a href='https://github.com/CompVis/latent-diffusion' target='_blank'>Latent Diffusion</a> is a text-to-image model created by <a href='https://github.com/CompVis' target='_blank'>CompVis</a>, trained on the <a href='https://laion.ai/laion-400-open-dataset/'>LAION-400M dataset.</a><br>This UI to the model was assembled by <a style='color: rgb(245, 158, 11);font-weight:bold' href='https://twitter.com/multimodalart' target='_blank'>@multimodalart</a></div>",
     article="<h4 style='font-size: 110%;margin-top:.5em'>Biases acknowledgment</h4><div>Despite how impressive being able to turn text into image is, beware to the fact that this model may output content that reinforces or exarcbates societal biases. According to the <a href='https://arxiv.org/abs/2112.10752' target='_blank'>Latent Diffusion paper</a>:<i> \"Deep learning modules tend to reproduce or exacerbate biases that are already present in the data\"</i>. The model was trained on an unfiltered version the LAION-400M dataset, which scrapped non-curated image-text-pairs from the internet (the exception being the the removal of illegal content) and is meant to be used for research purposes, such as this one. <a href='https://laion.ai/laion-400-open-dataset/' target='_blank'>You can read more on LAION's website</a></div><h4 style='font-size: 110%;margin-top:1em'>Who owns the images produced by this demo?</h4><div>Definetly not me! Probably you do. I say probably because the Copyright discussion about AI generated art is ongoing. So <a href='https://www.theverge.com/2022/2/21/22944335/us-copyright-office-reject-ai-generated-art-recent-entrance-to-paradise' target='_blank'>it may be the case that everything produced here falls automatically into the public domain</a>. But in any case it is either yours or is in the public domain.</div>")
+iface.launch(enable_queue=True)

requirements.txt CHANGED Viewed

@@ -3,19 +3,16 @@ ftfy
 regex
 tqdm
 omegaconf
-pytorch-lightning==1.9.0
 torch-fidelity
 transformers
 einops
 gradio
-torch==1.13.1
 open_clip_torch
 numpy
 tqdm
 torchvision
 Pillow
-autokeras==1.0.20
-huggingface_hub
-deepspeed>=0.8.2
-torchmetrics==0.11.4
-tensorflow==2.12.1

 regex
 tqdm
 omegaconf
+pytorch-lightning
 torch-fidelity
 transformers
 einops
 gradio
+torch
 open_clip_torch
 numpy
 tqdm
 torchvision
 Pillow
+autokeras
+huggingface_hub

taming-transformers/License.txt DELETED Viewed

@@ -1,19 +0,0 @@
-Copyright (c) 2020 Patrick Esser and Robin Rombach and Björn Ommer
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
-EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
-MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.
-IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM,
-DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR
-OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE
-OR OTHER DEALINGS IN THE SOFTWARE./

taming-transformers/README.md DELETED Viewed

@@ -1,410 +0,0 @@
-# Taming Transformers for High-Resolution Image Synthesis
-##### CVPR 2021 (Oral)
-![teaser](assets/mountain.jpeg)
-[**Taming Transformers for High-Resolution Image Synthesis**](https://compvis.github.io/taming-transformers/)<br/>
-[Patrick Esser](https://github.com/pesser)\*,
-[Robin Rombach](https://github.com/rromb)\*,
-[Björn Ommer](https://hci.iwr.uni-heidelberg.de/Staff/bommer)<br/>
-\* equal contribution
-**tl;dr** We combine the efficiancy of convolutional approaches with the expressivity of transformers by introducing a convolutional VQGAN, which learns a codebook of context-rich visual parts, whose composition is modeled with an autoregressive transformer.
-![teaser](assets/teaser.png)
-[arXiv](https://arxiv.org/abs/2012.09841) | [BibTeX](#bibtex) | [Project Page](https://compvis.github.io/taming-transformers/)
-### News
-#### 2022
-- More pretrained VQGANs (e.g. a f8-model with only 256 codebook entries) are available in our new work on [Latent Diffusion Models](https://github.com/CompVis/latent-diffusion).
-- Added scene synthesis models as proposed in the paper [High-Resolution Complex Scene Synthesis with Transformers](https://arxiv.org/abs/2105.06458), see [this section](#scene-image-synthesis).
-#### 2021
-- Thanks to [rom1504](https://github.com/rom1504) it is now easy to [train a VQGAN on your own datasets](#training-on-custom-data).
-- Included a bugfix for the quantizer. For backward compatibility it is
-  disabled by default (which corresponds to always training with `beta=1.0`).
-  Use `legacy=False` in the quantizer config to enable it.
-  Thanks [richcmwang](https://github.com/richcmwang) and [wcshin-git](https://github.com/wcshin-git)!
-- Our paper received an update: See https://arxiv.org/abs/2012.09841v3 and the corresponding changelog.
-- Added a pretrained, [1.4B transformer model](https://k00.fr/s511rwcv) trained for class-conditional ImageNet synthesis, which obtains state-of-the-art FID scores among autoregressive approaches and outperforms BigGAN.
-- Added pretrained, unconditional models on [FFHQ](https://k00.fr/yndvfu95) and [CelebA-HQ](https://k00.fr/2xkmielf).
-- Added accelerated sampling via caching of keys/values in the self-attention operation, used in `scripts/sample_fast.py`.
-- Added a checkpoint of a [VQGAN](https://heibox.uni-heidelberg.de/d/2e5662443a6b4307b470/) trained with f8 compression and Gumbel-Quantization.
-  See also our updated [reconstruction notebook](https://colab.research.google.com/github/CompVis/taming-transformers/blob/master/scripts/reconstruction_usage.ipynb).
-- We added a [colab notebook](https://colab.research.google.com/github/CompVis/taming-transformers/blob/master/scripts/reconstruction_usage.ipynb) which compares two VQGANs and OpenAI's [DALL-E](https://github.com/openai/DALL-E). See also [this section](#more-resources).
-- We now include an overview of pretrained models in [Tab.1](#overview-of-pretrained-models). We added models for [COCO](#coco) and [ADE20k](#ade20k).
-- The streamlit demo now supports image completions.
-- We now include a couple of examples from the D-RIN dataset so you can run the
-  [D-RIN demo](#d-rin) without preparing the dataset first.
-- You can now jump right into sampling with our [Colab quickstart notebook](https://colab.research.google.com/github/CompVis/taming-transformers/blob/master/scripts/taming-transformers.ipynb).
-## Requirements
-A suitable [conda](https://conda.io/) environment named `taming` can be created
-and activated with:
-```
-conda env create -f environment.yaml
-conda activate taming
-```
-## Overview of pretrained models
-The following table provides an overview of all models that are currently available.
-FID scores were evaluated using [torch-fidelity](https://github.com/toshas/torch-fidelity).
-For reference, we also include a link to the recently released autoencoder of the [DALL-E](https://github.com/openai/DALL-E) model.
-See the corresponding [colab
-notebook](https://colab.research.google.com/github/CompVis/taming-transformers/blob/master/scripts/reconstruction_usage.ipynb)
-for a comparison and discussion of reconstruction capabilities.
-| Dataset  | FID vs train | FID vs val | Link |  Samples (256x256) | Comments
-| ------------- | ------------- | ------------- |-------------  | -------------  |-------------  |
-| FFHQ (f=16) | 9.6 | -- | [ffhq_transformer](https://k00.fr/yndvfu95) |  [ffhq_samples](https://k00.fr/j626x093) |
-| CelebA-HQ (f=16) | 10.2 | -- | [celebahq_transformer](https://k00.fr/2xkmielf) | [celebahq_samples](https://k00.fr/j626x093) |
-| ADE20K (f=16) | -- | 35.5 | [ade20k_transformer](https://k00.fr/ot46cksa) | [ade20k_samples.zip](https://heibox.uni-heidelberg.de/f/70bb78cbaf844501b8fb/) [2k] | evaluated on val split (2k images)
-| COCO-Stuff (f=16) | -- | 20.4  | [coco_transformer](https://k00.fr/2zz6i2ce) | [coco_samples.zip](https://heibox.uni-heidelberg.de/f/a395a9be612f4a7a8054/) [5k] | evaluated on val split (5k images)
-| ImageNet (cIN) (f=16) | 15.98/15.78/6.59/5.88/5.20 | -- | [cin_transformer](https://k00.fr/s511rwcv) | [cin_samples](https://k00.fr/j626x093) | different decoding hyperparameters |
-| |  | | || |
-| FacesHQ (f=16) | -- |  -- | [faceshq_transformer](https://k00.fr/qqfl2do8)
-| S-FLCKR (f=16) | -- | -- | [sflckr](https://heibox.uni-heidelberg.de/d/73487ab6e5314cb5adba/)
-| D-RIN (f=16) | -- | -- | [drin_transformer](https://k00.fr/39jcugc5)
-| | |  | | || |
-| VQGAN ImageNet (f=16), 1024 |  10.54 | 7.94 | [vqgan_imagenet_f16_1024](https://heibox.uni-heidelberg.de/d/8088892a516d4e3baf92/) | [reconstructions](https://k00.fr/j626x093) | Reconstruction-FIDs.
-| VQGAN ImageNet (f=16), 16384 | 7.41 | 4.98 |[vqgan_imagenet_f16_16384](https://heibox.uni-heidelberg.de/d/a7530b09fed84f80a887/)  |  [reconstructions](https://k00.fr/j626x093) | Reconstruction-FIDs.
-| VQGAN OpenImages (f=8), 256 | -- | 1.49 |https://ommer-lab.com/files/latent-diffusion/vq-f8-n256.zip |  ---  | Reconstruction-FIDs. Available via [latent diffusion](https://github.com/CompVis/latent-diffusion).
-| VQGAN OpenImages (f=8), 16384 | -- | 1.14 |https://ommer-lab.com/files/latent-diffusion/vq-f8.zip  |  ---  | Reconstruction-FIDs. Available via [latent diffusion](https://github.com/CompVis/latent-diffusion)
-| VQGAN OpenImages (f=8), 8192, GumbelQuantization | 3.24 | 1.49 |[vqgan_gumbel_f8](https://heibox.uni-heidelberg.de/d/2e5662443a6b4307b470/)  |  ---  | Reconstruction-FIDs.
-| | |  | | || |
-| DALL-E dVAE (f=8), 8192, GumbelQuantization | 33.88 | 32.01 | https://github.com/openai/DALL-E | [reconstructions](https://k00.fr/j626x093) | Reconstruction-FIDs.
-## Running pretrained models
-The commands below will start a streamlit demo which supports sampling at
-different resolutions and image completions. To run a non-interactive version
-of the sampling process, replace `streamlit run scripts/sample_conditional.py --`
-by `python scripts/make_samples.py --outdir <path_to_write_samples_to>` and
-keep the remaining command line arguments.
-To sample from unconditional or class-conditional models,
-run `python scripts/sample_fast.py -r <path/to/config_and_checkpoint>`.
-We describe below how to use this script to sample from the ImageNet, FFHQ, and CelebA-HQ models,
-respectively.
-### S-FLCKR
-![teaser](assets/sunset_and_ocean.jpg)
-You can also [run this model in a Colab
-notebook](https://colab.research.google.com/github/CompVis/taming-transformers/blob/master/scripts/taming-transformers.ipynb),
-which includes all necessary steps to start sampling.
-Download the
-[2020-11-09T13-31-51_sflckr](https://heibox.uni-heidelberg.de/d/73487ab6e5314cb5adba/)
-folder and place it into `logs`. Then, run
-```
-streamlit run scripts/sample_conditional.py -- -r logs/2020-11-09T13-31-51_sflckr/
-```
-### ImageNet
-![teaser](assets/imagenet.png)
-Download the [2021-04-03T19-39-50_cin_transformer](https://k00.fr/s511rwcv)
-folder and place it into logs.  Sampling from the class-conditional ImageNet
-model does not require any data preparation. To produce 50 samples for each of
-the 1000 classes of ImageNet, with k=600 for top-k sampling, p=0.92 for nucleus
-sampling and temperature t=1.0, run
-```
-python scripts/sample_fast.py -r logs/2021-04-03T19-39-50_cin_transformer/ -n 50 -k 600 -t 1.0 -p 0.92 --batch_size 25
-```
-To restrict the model to certain classes, provide them via the `--classes` argument, separated by
-commas. For example, to sample 50 *ostriches*, *border collies* and *whiskey jugs*, run
-```
-python scripts/sample_fast.py -r logs/2021-04-03T19-39-50_cin_transformer/ -n 50 -k 600 -t 1.0 -p 0.92 --batch_size 25 --classes 9,232,901
-```
-We recommended to experiment with the autoregressive decoding parameters (top-k, top-p and temperature) for best results.
-### FFHQ/CelebA-HQ
-Download the [2021-04-23T18-19-01_ffhq_transformer](https://k00.fr/yndvfu95) and
-[2021-04-23T18-11-19_celebahq_transformer](https://k00.fr/2xkmielf)
-folders and place them into logs.
-Again, sampling from these unconditional models does not require any data preparation.
-To produce 50000 samples, with k=250 for top-k sampling,
-p=1.0 for nucleus sampling and temperature t=1.0, run
-```
-python scripts/sample_fast.py -r logs/2021-04-23T18-19-01_ffhq_transformer/
-```
-for FFHQ and
-```
-python scripts/sample_fast.py -r logs/2021-04-23T18-11-19_celebahq_transformer/
-```
-to sample from the CelebA-HQ model.
-For both models it can be advantageous to vary the top-k/top-p parameters for sampling.
-### FacesHQ
-![teaser](assets/faceshq.jpg)
-Download [2020-11-13T21-41-45_faceshq_transformer](https://k00.fr/qqfl2do8) and
-place it into `logs`. Follow the data preparation steps for
-[CelebA-HQ](#celeba-hq) and [FFHQ](#ffhq). Run
-```
-streamlit run scripts/sample_conditional.py -- -r logs/2020-11-13T21-41-45_faceshq_transformer/
-```
-### D-RIN
-![teaser](assets/drin.jpg)
-Download [2020-11-20T12-54-32_drin_transformer](https://k00.fr/39jcugc5) and
-place it into `logs`. To run the demo on a couple of example depth maps
-included in the repository, run
-```
-streamlit run scripts/sample_conditional.py -- -r logs/2020-11-20T12-54-32_drin_transformer/ --ignore_base_data data="{target: main.DataModuleFromConfig, params: {batch_size: 1, validation: {target: taming.data.imagenet.DRINExamples}}}"
-```
-To run the demo on the complete validation set, first follow the data preparation steps for
-[ImageNet](#imagenet) and then run
-```
-streamlit run scripts/sample_conditional.py -- -r logs/2020-11-20T12-54-32_drin_transformer/
-```
-### COCO
-Download [2021-01-20T16-04-20_coco_transformer](https://k00.fr/2zz6i2ce) and
-place it into `logs`. To run the demo on a couple of example segmentation maps
-included in the repository, run
-```
-streamlit run scripts/sample_conditional.py -- -r logs/2021-01-20T16-04-20_coco_transformer/ --ignore_base_data data="{target: main.DataModuleFromConfig, params: {batch_size: 1, validation: {target: taming.data.coco.Examples}}}"
-```
-### ADE20k
-Download [2020-11-20T21-45-44_ade20k_transformer](https://k00.fr/ot46cksa) and
-place it into `logs`. To run the demo on a couple of example segmentation maps
-included in the repository, run
-```
-streamlit run scripts/sample_conditional.py -- -r logs/2020-11-20T21-45-44_ade20k_transformer/ --ignore_base_data data="{target: main.DataModuleFromConfig, params: {batch_size: 1, validation: {target: taming.data.ade20k.Examples}}}"
-```
-## Scene Image Synthesis
-![teaser](assets/scene_images_samples.svg)
-Scene image generation based on bounding box conditionals as done in our CVPR2021 AI4CC workshop paper [High-Resolution Complex Scene Synthesis with Transformers](https://arxiv.org/abs/2105.06458) (see talk on [workshop page](https://visual.cs.brown.edu/workshops/aicc2021/#awards)). Supporting the datasets COCO and Open Images.
-### Training
-Download first-stage models [COCO-8k-VQGAN](https://heibox.uni-heidelberg.de/f/78dea9589974474c97c1/) for COCO or [COCO/Open-Images-8k-VQGAN](https://heibox.uni-heidelberg.de/f/461d9a9f4fcf48ab84f4/) for Open Images.
-Change `ckpt_path` in `data/coco_scene_images_transformer.yaml` and `data/open_images_scene_images_transformer.yaml` to point to the downloaded first-stage models.
-Download the full COCO/OI datasets and adapt `data_path` in the same files, unless working with the 100 files provided for training and validation suits your needs already.
-Code can be run with
-`python main.py --base configs/coco_scene_images_transformer.yaml -t True --gpus 0,`
-or
-`python main.py --base configs/open_images_scene_images_transformer.yaml -t True --gpus 0,`
-### Sampling
-Train a model as described above or download a pre-trained model:
- - [Open Images 1 billion parameter model](https://drive.google.com/file/d/1FEK-Z7hyWJBvFWQF50pzSK9y1W_CJEig/view?usp=sharing) available that trained 100 epochs. On 256x256 pixels, FID 41.48±0.21, SceneFID 14.60±0.15, Inception Score 18.47±0.27. The model was trained with 2d crops of images and is thus well-prepared for the task of generating high-resolution images, e.g. 512x512.
- - [Open Images distilled version of the above model with 125 million parameters](https://drive.google.com/file/d/1xf89g0mc78J3d8Bx5YhbK4tNRNlOoYaO) allows for sampling on smaller GPUs (4 GB is enough for sampling 256x256 px images). Model was trained for 60 epochs with 10% soft loss, 90% hard loss. On 256x256 pixels, FID 43.07±0.40, SceneFID 15.93±0.19, Inception Score 17.23±0.11.
- - [COCO 30 epochs](https://heibox.uni-heidelberg.de/f/0d0b2594e9074c7e9a33/)
- - [COCO 60 epochs](https://drive.google.com/file/d/1bInd49g2YulTJBjU32Awyt5qnzxxG5U9/) (find model statistics for both COCO versions in `assets/coco_scene_images_training.svg`)
-When downloading a pre-trained model, remember to change `ckpt_path` in `configs/*project.yaml` to point to your downloaded first-stage model (see ->Training).
-Scene image generation can be run with
-`python scripts/make_scene_samples.py --outdir=/some/outdir -r /path/to/pretrained/model --resolution=512,512`
-## Training on custom data
-Training on your own dataset can be beneficial to get better tokens and hence better images for your domain.
-Those are the steps to follow to make this work:
-1. install the repo with `conda env create -f environment.yaml`, `conda activate taming` and `pip install -e .`
-1. put your .jpg files in a folder `your_folder`
-2. create 2 text files a `xx_train.txt` and `xx_test.txt` that point to the files in your training and test set respectively (for example `find $(pwd)/your_folder -name "*.jpg" > train.txt`)
-3. adapt `configs/custom_vqgan.yaml` to point to these 2 files
-4. run `python main.py --base configs/custom_vqgan.yaml -t True --gpus 0,1` to
-   train on two GPUs. Use `--gpus 0,` (with a trailing comma) to train on a single GPU.
-## Data Preparation
-### ImageNet
-The code will try to download (through [Academic
-Torrents](http://academictorrents.com/)) and prepare ImageNet the first time it
-is used. However, since ImageNet is quite large, this requires a lot of disk
-space and time. If you already have ImageNet on your disk, you can speed things
-up by putting the data into
-`${XDG_CACHE}/autoencoders/data/ILSVRC2012_{split}/data/` (which defaults to
-`~/.cache/autoencoders/data/ILSVRC2012_{split}/data/`), where `{split}` is one
-of `train`/`validation`. It should have the following structure:
-```
-${XDG_CACHE}/autoencoders/data/ILSVRC2012_{split}/data/
-├── n01440764
-│   ├── n01440764_10026.JPEG
-│   ├── n01440764_10027.JPEG
-│   ├── ...
-├── n01443537
-│   ├── n01443537_10007.JPEG
-│   ├── n01443537_10014.JPEG
-│   ├── ...
-├── ...
-```
-If you haven't extracted the data, you can also place
-`ILSVRC2012_img_train.tar`/`ILSVRC2012_img_val.tar` (or symlinks to them) into
-`${XDG_CACHE}/autoencoders/data/ILSVRC2012_train/` /
-`${XDG_CACHE}/autoencoders/data/ILSVRC2012_validation/`, which will then be
-extracted into above structure without downloading it again.  Note that this
-will only happen if neither a folder
-`${XDG_CACHE}/autoencoders/data/ILSVRC2012_{split}/data/` nor a file
-`${XDG_CACHE}/autoencoders/data/ILSVRC2012_{split}/.ready` exist. Remove them
-if you want to force running the dataset preparation again.
-You will then need to prepare the depth data using
-[MiDaS](https://github.com/intel-isl/MiDaS). Create a symlink
-`data/imagenet_depth` pointing to a folder with two subfolders `train` and
-`val`, each mirroring the structure of the corresponding ImageNet folder
-described above and containing a `png` file for each of ImageNet's `JPEG`
-files. The `png` encodes `float32` depth values obtained from MiDaS as RGBA
-images. We provide the script `scripts/extract_depth.py` to generate this data.
-**Please note** that this script uses [MiDaS via PyTorch
-Hub](https://pytorch.org/hub/intelisl_midas_v2/). When we prepared the data,
-the hub provided the [MiDaS
-v2.0](https://github.com/intel-isl/MiDaS/releases/tag/v2) version, but now it
-provides a v2.1 version. We haven't tested our models with depth maps obtained
-via v2.1 and if you want to make sure that things work as expected, you must
-adjust the script to make sure it explicitly uses
-[v2.0](https://github.com/intel-isl/MiDaS/releases/tag/v2)!
-### CelebA-HQ
-Create a symlink `data/celebahq` pointing to a folder containing the `.npy`
-files of CelebA-HQ (instructions to obtain them can be found in the [PGGAN
-repository](https://github.com/tkarras/progressive_growing_of_gans)).
-### FFHQ
-Create a symlink `data/ffhq` pointing to the `images1024x1024` folder obtained
-from the [FFHQ repository](https://github.com/NVlabs/ffhq-dataset).
-### S-FLCKR
-Unfortunately, we are not allowed to distribute the images we collected for the
-S-FLCKR dataset and can therefore only give a description how it was produced.
-There are many resources on [collecting images from the
-web](https://github.com/adrianmrit/flickrdatasets) to get started.
-We collected sufficiently large images from [flickr](https://www.flickr.com)
-(see `data/flickr_tags.txt` for a full list of tags used to find images)
-and various [subreddits](https://www.reddit.com/r/sfwpornnetwork/wiki/network)
-(see `data/subreddits.txt` for all subreddits that were used).
-Overall, we collected 107625 images, and split them randomly into 96861
-training images and 10764 validation images. We then obtained segmentation
-masks for each image using [DeepLab v2](https://arxiv.org/abs/1606.00915)
-trained on [COCO-Stuff](https://arxiv.org/abs/1612.03716). We used a [PyTorch
-reimplementation](https://github.com/kazuto1011/deeplab-pytorch) and include an
-example script for this process in `scripts/extract_segmentation.py`.
-### COCO
-Create a symlink `data/coco` containing the images from the 2017 split in
-`train2017` and `val2017`, and their annotations in `annotations`. Files can be
-obtained from the [COCO webpage](https://cocodataset.org/). In addition, we use
-the [Stuff+thing PNG-style annotations on COCO 2017
-trainval](http://calvin.inf.ed.ac.uk/wp-content/uploads/data/cocostuffdataset/stuffthingmaps_trainval2017.zip)
-annotations from [COCO-Stuff](https://github.com/nightrome/cocostuff), which
-should be placed under `data/cocostuffthings`.
-### ADE20k
-Create a symlink `data/ade20k_root` containing the contents of
-[ADEChallengeData2016.zip](http://data.csail.mit.edu/places/ADEchallenge/ADEChallengeData2016.zip)
-from the [MIT Scene Parsing Benchmark](http://sceneparsing.csail.mit.edu/).
-## Training models
-### FacesHQ
-Train a VQGAN with
-```
-python main.py --base configs/faceshq_vqgan.yaml -t True --gpus 0,
-```
-Then, adjust the checkpoint path of the config key
-`model.params.first_stage_config.params.ckpt_path` in
-`configs/faceshq_transformer.yaml` (or download
-[2020-11-09T13-33-36_faceshq_vqgan](https://k00.fr/uxy5usa9) and place into `logs`, which
-corresponds to the preconfigured checkpoint path), then run
-```
-python main.py --base configs/faceshq_transformer.yaml -t True --gpus 0,
-```
-### D-RIN
-Train a VQGAN on ImageNet with
-```
-python main.py --base configs/imagenet_vqgan.yaml -t True --gpus 0,
-```
-or download a pretrained one from [2020-09-23T17-56-33_imagenet_vqgan](https://k00.fr/u0j2dtac)
-and place under `logs`. If you trained your own, adjust the path in the config
-key `model.params.first_stage_config.params.ckpt_path` of
-`configs/drin_transformer.yaml`.
-Train a VQGAN on Depth Maps of ImageNet with
-```
-python main.py --base configs/imagenetdepth_vqgan.yaml -t True --gpus 0,
-```
-or download a pretrained one from [2020-11-03T15-34-24_imagenetdepth_vqgan](https://k00.fr/55rlxs6i)
-and place under `logs`. If you trained your own, adjust the path in the config
-key `model.params.cond_stage_config.params.ckpt_path` of
-`configs/drin_transformer.yaml`.
-To train the transformer, run
-```
-python main.py --base configs/drin_transformer.yaml -t True --gpus 0,
-```
-## More Resources
-### Comparing Different First Stage Models
-The reconstruction and compression capabilities of different fist stage models can be analyzed in this [colab notebook](https://colab.research.google.com/github/CompVis/taming-transformers/blob/master/scripts/reconstruction_usage.ipynb).
-In particular, the notebook compares two VQGANs with a downsampling factor of f=16 for each and codebook dimensionality of 1024 and 16384,
-a VQGAN with f=8 and 8192 codebook entries and the discrete autoencoder of OpenAI's [DALL-E](https://github.com/openai/DALL-E) (which has f=8 and 8192
-codebook entries).
-![firststages1](assets/first_stage_squirrels.png)
-![firststages2](assets/first_stage_mushrooms.png)
-### Other
-- A [video summary](https://www.youtube.com/watch?v=o7dqGcLDf0A&feature=emb_imp_woyt) by [Two Minute Papers](https://www.youtube.com/channel/UCbfYPyITQ-7l4upoX8nvctg).
-- A [video summary](https://www.youtube.com/watch?v=-wDSDtIAyWQ) by [Gradient Dude](https://www.youtube.com/c/GradientDude/about).
-- A [weights and biases report summarizing the paper](https://wandb.ai/ayush-thakur/taming-transformer/reports/-Overview-Taming-Transformers-for-High-Resolution-Image-Synthesis---Vmlldzo0NjEyMTY)
-by [ayulockin](https://github.com/ayulockin).
-- A [video summary](https://www.youtube.com/watch?v=JfUTd8fjtX8&feature=emb_imp_woyt) by [What's AI](https://www.youtube.com/channel/UCUzGQrN-lyyc0BWTYoJM_Sg).
-- Take a look at [ak9250's notebook](https://github.com/ak9250/taming-transformers/blob/master/tamingtransformerscolab.ipynb) if you want to run the streamlit demos on Colab.
-### Text-to-Image Optimization via CLIP
-VQGAN has been successfully used as an image generator guided by the [CLIP](https://github.com/openai/CLIP) model, both for pure image generation
-from scratch and image-to-image translation. We recommend the following notebooks/videos/resources:
- - [Advadnouns](https://twitter.com/advadnoun/status/1389316507134357506) Patreon and corresponding LatentVision notebooks: https://www.patreon.com/patronizeme
- - The [notebook]( https://colab.research.google.com/drive/1L8oL-vLJXVcRzCFbPwOoMkPKJ8-aYdPN) of [Rivers Have Wings](https://twitter.com/RiversHaveWings).
- - A [video](https://www.youtube.com/watch?v=90QDe6DQXF4&t=12s) explanation by [Dot CSV](https://www.youtube.com/channel/UCy5znSnfMsDwaLlROnZ7Qbg) (in Spanish, but English subtitles are available)
-![txt2img](assets/birddrawnbyachild.png)
-Text prompt: *'A bird drawn by a child'*
-## Shout-outs
-Thanks to everyone who makes their code and models available. In particular,
-- The architecture of our VQGAN is inspired by [Denoising Diffusion Probabilistic Models](https://github.com/hojonathanho/diffusion)
-- The very hackable transformer implementation [minGPT](https://github.com/karpathy/minGPT)
-- The good ol' [PatchGAN](https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix) and [Learned Perceptual Similarity (LPIPS)](https://github.com/richzhang/PerceptualSimilarity)
-## BibTeX
-```
-@misc{esser2020taming,
-      title={Taming Transformers for High-Resolution Image Synthesis},
-      author={Patrick Esser and Robin Rombach and Björn Ommer},
-      year={2020},
-      eprint={2012.09841},
-      archivePrefix={arXiv},
-      primaryClass={cs.CV}
-}
-```

taming-transformers/assets/birddrawnbyachild.png DELETED Viewed

Git LFS Details

SHA256: 165778bb85e86f8aaaed38eee4d33f62ab1ef237d890229cfa2e0685f5064127
Pointer size: 132 Bytes
Size of remote file: 1.61 MB

taming-transformers/assets/coco_scene_images_training.svg DELETED Viewed

taming-transformers/assets/drin.jpg DELETED Viewed

Git LFS Details

SHA256: 83652380049c45af8c1b75216ded141b3d064cca8154eb2875337b4d5182152b
Pointer size: 131 Bytes
Size of remote file: 286 kB

taming-transformers/assets/faceshq.jpg DELETED Viewed

Git LFS Details

SHA256: 6f20c66b935086464db0bad4b5dd90fadb3fb1d20373cb02c415ec4a9cfb989c
Pointer size: 131 Bytes
Size of remote file: 307 kB

taming-transformers/assets/first_stage_mushrooms.png DELETED Viewed

Git LFS Details

SHA256: 425218621d5e01ea30c9e51fa0969ad36c22063a405dc6f6ccb6dd8db64000a0
Pointer size: 132 Bytes
Size of remote file: 1.35 MB

taming-transformers/assets/first_stage_squirrels.png DELETED Viewed

Git LFS Details

SHA256: b5f234ee1566d6c537339a7110a1a1df088d527812097c19ac61f01b335cd6ae
Pointer size: 132 Bytes
Size of remote file: 1.42 MB

taming-transformers/assets/imagenet.png DELETED Viewed

Git LFS Details

SHA256: 2057d65399435ba17f265ad7ff421a9aabfb6051dec00bec5a37383dfccb2e54
Pointer size: 132 Bytes
Size of remote file: 1.03 MB

taming-transformers/assets/lake_in_the_mountains.png DELETED Viewed

Git LFS Details

SHA256: 9d0fa79e39e09c1eb398b1643cf3c5ee2cc94cc6f394771d20cb907838b36852
Pointer size: 131 Bytes
Size of remote file: 565 kB

taming-transformers/assets/mountain.jpeg DELETED Viewed

Git LFS Details

SHA256: 22859310b39f5011abc78e36970fdb0f3d62a33817d9301bde3d1252a11bc0bc
Pointer size: 131 Bytes
Size of remote file: 436 kB

taming-transformers/assets/scene_images_samples.svg DELETED Viewed

taming-transformers/assets/stormy.jpeg DELETED Viewed

Git LFS Details

SHA256: 13b9cde8e62c3fb145c4dd3d13c0d450e023f2405824f0a74b4e3f06411ce884
Pointer size: 131 Bytes
Size of remote file: 718 kB

taming-transformers/assets/sunset_and_ocean.jpg DELETED Viewed

Git LFS Details

SHA256: 0c967b3073a56221eda2cc5418efb8535a85d87f4b40cd487d42abae8135b341
Pointer size: 131 Bytes
Size of remote file: 322 kB

taming-transformers/assets/teaser.png DELETED Viewed

Git LFS Details

SHA256: 988481993d7911b41b38a86341e016a47729807552ce667f5713bca1118a7b11
Pointer size: 131 Bytes
Size of remote file: 359 kB

taming-transformers/configs/coco_cond_stage.yaml DELETED Viewed

@@ -1,49 +0,0 @@
-model:
-  base_learning_rate: 4.5e-06
-  target: taming.models.vqgan.VQSegmentationModel
-  params:
-    embed_dim: 256
-    n_embed: 1024
-    image_key: "segmentation"
-    n_labels: 183
-    ddconfig:
-      double_z: false
-      z_channels: 256
-      resolution: 256
-      in_channels: 183
-      out_ch: 183
-      ch: 128
-      ch_mult:
-      - 1
-      - 1
-      - 2
-      - 2
-      - 4
-      num_res_blocks: 2
-      attn_resolutions:
-      - 16
-      dropout: 0.0
-    lossconfig:
-      target: taming.modules.losses.segmentation.BCELossWithQuant
-      params:
-        codebook_weight: 1.0
-data:
-  target: main.DataModuleFromConfig
-  params:
-    batch_size: 12
-    train:
-      target: taming.data.coco.CocoImagesAndCaptionsTrain
-      params:
-        size: 296
-        crop_size: 256
-        onehot_segmentation: true
-        use_stuffthing: true
-    validation:
-      target: taming.data.coco.CocoImagesAndCaptionsValidation
-      params:
-        size: 256
-        crop_size: 256
-        onehot_segmentation: true
-        use_stuffthing: true

taming-transformers/configs/coco_scene_images_transformer.yaml DELETED Viewed

@@ -1,80 +0,0 @@
-model:
-  base_learning_rate: 4.5e-06
-  target: taming.models.cond_transformer.Net2NetTransformer
-  params:
-    cond_stage_key: objects_bbox
-    transformer_config:
-      target: taming.modules.transformer.mingpt.GPT
-      params:
-        vocab_size: 8192
-        block_size: 348  # = 256 + 92 = dim(vqgan_latent_space,16x16) + dim(conditional_builder.embedding_dim)
-        n_layer: 40
-        n_head: 16
-        n_embd: 1408
-        embd_pdrop: 0.1
-        resid_pdrop: 0.1
-        attn_pdrop: 0.1
-    first_stage_config:
-      target: taming.models.vqgan.VQModel
-      params:
-        ckpt_path: /path/to/coco_epoch117.ckpt  # https://heibox.uni-heidelberg.de/f/78dea9589974474c97c1/
-        embed_dim: 256
-        n_embed: 8192
-        ddconfig:
-          double_z: false
-          z_channels: 256
-          resolution: 256
-          in_channels: 3
-          out_ch: 3
-          ch: 128
-          ch_mult:
-          - 1
-          - 1
-          - 2
-          - 2
-          - 4
-          num_res_blocks: 2
-          attn_resolutions:
-          - 16
-          dropout: 0.0
-        lossconfig:
-          target: taming.modules.losses.DummyLoss
-    cond_stage_config:
-      target: taming.models.dummy_cond_stage.DummyCondStage
-      params:
-        conditional_key: objects_bbox
-data:
-  target: main.DataModuleFromConfig
-  params:
-    batch_size: 6
-    train:
-      target: taming.data.annotated_objects_coco.AnnotatedObjectsCoco
-      params:
-        data_path: data/coco_annotations_100  # substitute with path to full dataset
-        split: train
-        keys: [image, objects_bbox, file_name, annotations]
-        no_tokens: 8192
-        target_image_size: 256
-        min_object_area: 0.00001
-        min_objects_per_image: 2
-        max_objects_per_image: 30
-        crop_method: random-1d
-        random_flip: true
-        use_group_parameter: true
-        encode_crop: true
-    validation:
-      target: taming.data.annotated_objects_coco.AnnotatedObjectsCoco
-      params:
-        data_path: data/coco_annotations_100  # substitute with path to full dataset
-        split: validation
-        keys: [image, objects_bbox, file_name, annotations]
-        no_tokens: 8192
-        target_image_size: 256
-        min_object_area: 0.00001
-        min_objects_per_image: 2
-        max_objects_per_image: 30
-        crop_method: center
-        random_flip: false
-        use_group_parameter: true
-        encode_crop: true

taming-transformers/configs/custom_vqgan.yaml DELETED Viewed

@@ -1,43 +0,0 @@
-model:
-  base_learning_rate: 4.5e-6
-  target: taming.models.vqgan.VQModel
-  params:
-    embed_dim: 256
-    n_embed: 1024
-    ddconfig:
-      double_z: False
-      z_channels: 256
-      resolution: 256
-      in_channels: 3
-      out_ch: 3
-      ch: 128
-      ch_mult: [ 1,1,2,2,4]  # num_down = len(ch_mult)-1
-      num_res_blocks: 2
-      attn_resolutions: [16]
-      dropout: 0.0
-    lossconfig:
-      target: taming.modules.losses.vqperceptual.VQLPIPSWithDiscriminator
-      params:
-        disc_conditional: False
-        disc_in_channels: 3
-        disc_start: 10000
-        disc_weight: 0.8
-        codebook_weight: 1.0
-data:
-  target: main.DataModuleFromConfig
-  params:
-    batch_size: 5
-    num_workers: 8
-    train:
-      target: taming.data.custom.CustomTrain
-      params:
-        training_images_list_file: some/training.txt
-        size: 256
-    validation:
-      target: taming.data.custom.CustomTest
-      params:
-        test_images_list_file: some/test.txt
-        size: 256

taming-transformers/configs/drin_transformer.yaml DELETED Viewed

@@ -1,77 +0,0 @@
-model:
-  base_learning_rate: 4.5e-06
-  target: taming.models.cond_transformer.Net2NetTransformer
-  params:
-    cond_stage_key: depth
-    transformer_config:
-      target: taming.modules.transformer.mingpt.GPT
-      params:
-        vocab_size: 1024
-        block_size: 512
-        n_layer: 24
-        n_head: 16
-        n_embd: 1024
-    first_stage_config:
-      target: taming.models.vqgan.VQModel
-      params:
-        ckpt_path: logs/2020-09-23T17-56-33_imagenet_vqgan/checkpoints/last.ckpt
-        embed_dim: 256
-        n_embed: 1024
-        ddconfig:
-          double_z: false
-          z_channels: 256
-          resolution: 256
-          in_channels: 3
-          out_ch: 3
-          ch: 128
-          ch_mult:
-          - 1
-          - 1
-          - 2
-          - 2
-          - 4
-          num_res_blocks: 2
-          attn_resolutions:
-          - 16
-          dropout: 0.0
-        lossconfig:
-          target: taming.modules.losses.DummyLoss
-    cond_stage_config:
-      target: taming.models.vqgan.VQModel
-      params:
-        ckpt_path: logs/2020-11-03T15-34-24_imagenetdepth_vqgan/checkpoints/last.ckpt
-        embed_dim: 256
-        n_embed: 1024
-        ddconfig:
-          double_z: false
-          z_channels: 256
-          resolution: 256
-          in_channels: 1
-          out_ch: 1
-          ch: 128
-          ch_mult:
-          - 1
-          - 1
-          - 2
-          - 2
-          - 4
-          num_res_blocks: 2
-          attn_resolutions:
-          - 16
-          dropout: 0.0
-        lossconfig:
-          target: taming.modules.losses.DummyLoss
-data:
-  target: main.DataModuleFromConfig
-  params:
-    batch_size: 2
-    num_workers: 8
-    train:
-      target: taming.data.imagenet.RINTrainWithDepth
-      params:
-        size: 256
-    validation:
-      target: taming.data.imagenet.RINValidationWithDepth
-      params:
-        size: 256

taming-transformers/configs/faceshq_transformer.yaml DELETED Viewed

@@ -1,61 +0,0 @@
-model:
-  base_learning_rate: 4.5e-06
-  target: taming.models.cond_transformer.Net2NetTransformer
-  params:
-    cond_stage_key: coord
-    transformer_config:
-      target: taming.modules.transformer.mingpt.GPT
-      params:
-        vocab_size: 1024
-        block_size: 512
-        n_layer: 24
-        n_head: 16
-        n_embd: 1024
-    first_stage_config:
-      target: taming.models.vqgan.VQModel
-      params:
-        ckpt_path: logs/2020-11-09T13-33-36_faceshq_vqgan/checkpoints/last.ckpt
-        embed_dim: 256
-        n_embed: 1024
-        ddconfig:
-          double_z: false
-          z_channels: 256
-          resolution: 256
-          in_channels: 3
-          out_ch: 3
-          ch: 128
-          ch_mult:
-          - 1
-          - 1
-          - 2
-          - 2
-          - 4
-          num_res_blocks: 2
-          attn_resolutions:
-          - 16
-          dropout: 0.0
-        lossconfig:
-          target: taming.modules.losses.DummyLoss
-    cond_stage_config:
-      target: taming.modules.misc.coord.CoordStage
-      params:
-        n_embed: 1024
-        down_factor: 16
-data:
-  target: main.DataModuleFromConfig
-  params:
-    batch_size: 2
-    num_workers: 8
-    train:
-      target: taming.data.faceshq.FacesHQTrain
-      params:
-        size: 256
-        crop_size: 256
-        coord: True
-    validation:
-      target: taming.data.faceshq.FacesHQValidation
-      params:
-        size: 256
-        crop_size: 256
-        coord: True

taming-transformers/configs/faceshq_vqgan.yaml DELETED Viewed

@@ -1,42 +0,0 @@
-model:
-  base_learning_rate: 4.5e-6
-  target: taming.models.vqgan.VQModel
-  params:
-    embed_dim: 256
-    n_embed: 1024
-    ddconfig:
-      double_z: False
-      z_channels: 256
-      resolution: 256
-      in_channels: 3
-      out_ch: 3
-      ch: 128
-      ch_mult: [ 1,1,2,2,4]  # num_down = len(ch_mult)-1
-      num_res_blocks: 2
-      attn_resolutions: [16]
-      dropout: 0.0
-    lossconfig:
-      target: taming.modules.losses.vqperceptual.VQLPIPSWithDiscriminator
-      params:
-        disc_conditional: False
-        disc_in_channels: 3
-        disc_start: 30001
-        disc_weight: 0.8
-        codebook_weight: 1.0
-data:
-  target: main.DataModuleFromConfig
-  params:
-    batch_size: 3
-    num_workers: 8
-    train:
-      target: taming.data.faceshq.FacesHQTrain
-      params:
-        size: 256
-        crop_size: 256
-    validation:
-      target: taming.data.faceshq.FacesHQValidation
-      params:
-        size: 256
-        crop_size: 256

taming-transformers/configs/imagenet_vqgan.yaml DELETED Viewed

@@ -1,42 +0,0 @@
-model:
-  base_learning_rate: 4.5e-6
-  target: taming.models.vqgan.VQModel
-  params:
-    embed_dim: 256
-    n_embed: 1024
-    ddconfig:
-      double_z: False
-      z_channels: 256
-      resolution: 256
-      in_channels: 3
-      out_ch: 3
-      ch: 128
-      ch_mult: [ 1,1,2,2,4]  # num_down = len(ch_mult)-1
-      num_res_blocks: 2
-      attn_resolutions: [16]
-      dropout: 0.0
-    lossconfig:
-      target: taming.modules.losses.vqperceptual.VQLPIPSWithDiscriminator
-      params:
-        disc_conditional: False
-        disc_in_channels: 3
-        disc_start: 250001
-        disc_weight: 0.8
-        codebook_weight: 1.0
-data:
-  target: main.DataModuleFromConfig
-  params:
-    batch_size: 12
-    num_workers: 24
-    train:
-      target: taming.data.imagenet.ImageNetTrain
-      params:
-        config:
-          size: 256
-    validation:
-      target: taming.data.imagenet.ImageNetValidation
-      params:
-        config:
-          size: 256

taming-transformers/configs/imagenetdepth_vqgan.yaml DELETED Viewed

@@ -1,41 +0,0 @@
-model:
-  base_learning_rate: 4.5e-6
-  target: taming.models.vqgan.VQModel
-  params:
-    embed_dim: 256
-    n_embed: 1024
-    image_key: depth
-    ddconfig:
-      double_z: False
-      z_channels: 256
-      resolution: 256
-      in_channels: 1
-      out_ch: 1
-      ch: 128
-      ch_mult: [ 1,1,2,2,4]  # num_down = len(ch_mult)-1
-      num_res_blocks: 2
-      attn_resolutions: [16]
-      dropout: 0.0
-    lossconfig:
-      target: taming.modules.losses.vqperceptual.VQLPIPSWithDiscriminator
-      params:
-        disc_conditional: False
-        disc_in_channels: 1
-        disc_start: 50001
-        disc_weight: 0.75
-        codebook_weight: 1.0
-data:
-  target: main.DataModuleFromConfig
-  params:
-    batch_size: 3
-    num_workers: 8
-    train:
-      target: taming.data.imagenet.ImageNetTrainWithDepth
-      params:
-        size: 256
-    validation:
-      target: taming.data.imagenet.ImageNetValidationWithDepth
-      params:
-        size: 256

taming-transformers/configs/open_images_scene_images_transformer.yaml DELETED Viewed

@@ -1,86 +0,0 @@
-model:
-  base_learning_rate: 4.5e-06
-  target: taming.models.cond_transformer.Net2NetTransformer
-  params:
-    cond_stage_key: objects_bbox
-    transformer_config:
-      target: taming.modules.transformer.mingpt.GPT
-      params:
-        vocab_size: 8192
-        block_size: 348  # = 256 + 92 = dim(vqgan_latent_space,16x16) + dim(conditional_builder.embedding_dim)
-        n_layer: 36
-        n_head: 16
-        n_embd: 1536
-        embd_pdrop: 0.1
-        resid_pdrop: 0.1
-        attn_pdrop: 0.1
-    first_stage_config:
-      target: taming.models.vqgan.VQModel
-      params:
-        ckpt_path: /path/to/coco_oi_epoch12.ckpt  # https://heibox.uni-heidelberg.de/f/461d9a9f4fcf48ab84f4/
-        embed_dim: 256
-        n_embed: 8192
-        ddconfig:
-          double_z: false
-          z_channels: 256
-          resolution: 256
-          in_channels: 3
-          out_ch: 3
-          ch: 128
-          ch_mult:
-          - 1
-          - 1
-          - 2
-          - 2
-          - 4
-          num_res_blocks: 2
-          attn_resolutions:
-          - 16
-          dropout: 0.0
-        lossconfig:
-          target: taming.modules.losses.DummyLoss
-    cond_stage_config:
-      target: taming.models.dummy_cond_stage.DummyCondStage
-      params:
-        conditional_key: objects_bbox
-data:
-  target: main.DataModuleFromConfig
-  params:
-    batch_size: 6
-    train:
-      target: taming.data.annotated_objects_open_images.AnnotatedObjectsOpenImages
-      params:
-        data_path: data/open_images_annotations_100  # substitute with path to full dataset
-        split: train
-        keys: [image, objects_bbox, file_name, annotations]
-        no_tokens: 8192
-        target_image_size: 256
-        category_allow_list_target: taming.data.open_images_helper.top_300_classes_plus_coco_compatibility
-        category_mapping_target: taming.data.open_images_helper.open_images_unify_categories_for_coco
-        min_object_area: 0.0001
-        min_objects_per_image: 2
-        max_objects_per_image: 30
-        crop_method: random-2d
-        random_flip: true
-        use_group_parameter: true
-        use_additional_parameters: true
-        encode_crop: true
-    validation:
-      target: taming.data.annotated_objects_open_images.AnnotatedObjectsOpenImages
-      params:
-        data_path: data/open_images_annotations_100  # substitute with path to full dataset
-        split: validation
-        keys: [image, objects_bbox, file_name, annotations]
-        no_tokens: 8192
-        target_image_size: 256
-        category_allow_list_target: taming.data.open_images_helper.top_300_classes_plus_coco_compatibility
-        category_mapping_target: taming.data.open_images_helper.open_images_unify_categories_for_coco
-        min_object_area: 0.0001
-        min_objects_per_image: 2
-        max_objects_per_image: 30
-        crop_method: center
-        random_flip: false
-        use_group_parameter: true
-        use_additional_parameters: true
-        encode_crop: true

taming-transformers/configs/sflckr_cond_stage.yaml DELETED Viewed

@@ -1,43 +0,0 @@
-model:
-  base_learning_rate: 4.5e-06
-  target: taming.models.vqgan.VQSegmentationModel
-  params:
-    embed_dim: 256
-    n_embed: 1024
-    image_key: "segmentation"
-    n_labels: 182
-    ddconfig:
-      double_z: false
-      z_channels: 256
-      resolution: 256
-      in_channels: 182
-      out_ch: 182
-      ch: 128
-      ch_mult:
-      - 1
-      - 1
-      - 2
-      - 2
-      - 4
-      num_res_blocks: 2
-      attn_resolutions:
-      - 16
-      dropout: 0.0
-    lossconfig:
-      target: taming.modules.losses.segmentation.BCELossWithQuant
-      params:
-        codebook_weight: 1.0
-data:
-  target: cutlit.DataModuleFromConfig
-  params:
-    batch_size: 12
-    train:
-      target: taming.data.sflckr.Examples # adjust
-      params:
-        size: 256
-    validation:
-      target: taming.data.sflckr.Examples # adjust
-      params:
-        size: 256

taming-transformers/data/ade20k_examples.txt DELETED Viewed

@@ -1,30 +0,0 @@
-ADE_val_00000636.jpg
-ADE_val_00000126.jpg
-ADE_val_00001412.jpg
-ADE_val_00001845.jpg
-ADE_val_00001200.jpg
-ADE_val_00001578.jpg
-ADE_val_00000880.jpg
-ADE_val_00000875.jpg
-ADE_val_00000123.jpg
-ADE_val_00001209.jpg
-ADE_val_00000203.jpg
-ADE_val_00001851.jpg
-ADE_val_00001583.jpg
-ADE_val_00000287.jpg
-ADE_val_00001947.jpg
-ADE_val_00000262.jpg
-ADE_val_00000603.jpg
-ADE_val_00000125.jpg
-ADE_val_00001698.jpg
-ADE_val_00001966.jpg
-ADE_val_00000532.jpg
-ADE_val_00001177.jpg
-ADE_val_00000734.jpg
-ADE_val_00001498.jpg
-ADE_val_00001766.jpg
-ADE_val_00000303.jpg
-ADE_val_00000509.jpg
-ADE_val_00000573.jpg
-ADE_val_00000289.jpg
-ADE_val_00001388.jpg

taming-transformers/data/ade20k_images/ADE_val_00000123.jpg DELETED Viewed

Binary file (8.73 kB)

taming-transformers/data/ade20k_images/ADE_val_00000125.jpg DELETED Viewed

Binary file (41.2 kB)

taming-transformers/data/ade20k_images/ADE_val_00000126.jpg DELETED Viewed

Binary file (60.6 kB)

taming-transformers/data/ade20k_images/ADE_val_00000203.jpg DELETED Viewed

Binary file (16 kB)

taming-transformers/data/ade20k_images/ADE_val_00000262.jpg DELETED Viewed

Binary file (12.7 kB)

taming-transformers/data/ade20k_images/ADE_val_00000287.jpg DELETED Viewed

Binary file (51.6 kB)

taming-transformers/data/ade20k_images/ADE_val_00000289.jpg DELETED Viewed

Binary file (13.6 kB)

taming-transformers/data/ade20k_images/ADE_val_00000303.jpg DELETED Viewed

Binary file (45.2 kB)

taming-transformers/data/ade20k_images/ADE_val_00000509.jpg DELETED Viewed

Binary file (68.3 kB)

taming-transformers/data/ade20k_images/ADE_val_00000532.jpg DELETED Viewed

Binary file (52.2 kB)

taming-transformers/data/ade20k_images/ADE_val_00000573.jpg DELETED Viewed

Binary file (39.6 kB)

taming-transformers/data/ade20k_images/ADE_val_00000603.jpg DELETED Viewed

Binary file (17.5 kB)

taming-transformers/data/ade20k_images/ADE_val_00000636.jpg DELETED Viewed

Binary file (48.5 kB)

taming-transformers/data/ade20k_images/ADE_val_00000734.jpg DELETED Viewed

Binary file (17.9 kB)

taming-transformers/data/ade20k_images/ADE_val_00000875.jpg DELETED Viewed

Binary file (40.3 kB)

taming-transformers/data/ade20k_images/ADE_val_00000880.jpg DELETED Viewed

Binary file (53.7 kB)

taming-transformers/data/ade20k_images/ADE_val_00001177.jpg DELETED Viewed

Binary file (22.7 kB)

taming-transformers/data/ade20k_images/ADE_val_00001200.jpg DELETED Viewed

Binary file (74.7 kB)

taming-transformers/data/ade20k_images/ADE_val_00001209.jpg DELETED Viewed

Binary file (16.6 kB)

taming-transformers/data/ade20k_images/ADE_val_00001388.jpg DELETED Viewed

Binary file (55.1 kB)