Instruct-X-Decoder

Build error

App Files Files Community

Shawn87377

xueyanz commited on Jul 4, 2023

Commit

fa9854e

0 Parent(s):

Duplicate from xdecoder/Instruct-X-Decoder

Browse files

Co-authored-by: Xueyan Zou <xueyanz@users.noreply.huggingface.co>

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +38 -0
README.md +14 -0
__init__.py +0 -0
app.py +109 -0
configs/xdecoder/svlp_focalt_lang.yaml +110 -0
images/Furniture_Gateway_02.jpg +0 -0
images/Magritte_TheSonOfMan.jpg +0 -0
images/animals.png +3 -0
images/apples.jpg +0 -0
images/blue_white_bird.jpg +0 -0
images/cat.jfif +0 -0
images/coco/000.jpg +0 -0
images/coco/001.jpg +0 -0
images/coco/002.jpg +0 -0
images/coco/003.jpg +0 -0
images/coco/004.jpg +0 -0
images/coco/005.jpg +0 -0
images/coco/006.jpg +0 -0
images/coco/007.jpg +0 -0
images/coco/008.jpg +0 -0
images/coco/009.jpg +0 -0
images/coco/010.jpg +0 -0
images/coco/011.jpg +0 -0
images/coco/012.jpg +0 -0
images/coco/013.jpg +0 -0
images/coco/014.jpg +0 -0
images/coco/015.jpg +0 -0
images/coco/016.jpg +0 -0
images/coco/017.jpg +0 -0
images/coco/018.jpg +0 -0
images/coco/019.jpg +0 -0
images/coco/020.jpg +0 -0
images/coco/021.jpg +0 -0
images/coco/022.jpg +0 -0
images/coco/023.jpg +0 -0
images/coco/024.jpg +0 -0
images/coco/025.jpg +0 -0
images/coco/026.jpg +0 -0
images/coco/027.jpg +0 -0
images/coco/028.jpg +0 -0
images/coco/029.jpg +0 -0
images/coco/030.jpg +0 -0
images/coco/031.jpg +0 -0
images/coco/032.jpg +0 -0
images/coco/033.jpg +0 -0
images/coco/034.jpg +0 -0
images/coco/035.jpg +0 -0
images/coco/036.jpg +0 -0
images/coco/037.jpg +0 -0
images/coco/038.jpg +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,38 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+*.psd filter=lfs diff=lfs merge=lfs -text
+images/animals.png filter=lfs diff=lfs merge=lfs -text
+images/region_retrieval.png filter=lfs diff=lfs merge=lfs -text
+images/girl_and_two_boys.png filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: Instruct X-Decoder
+emoji: 🖌️🎨
+colorFrom: pink
+colorTo: purple
+sdk: gradio
+sdk_version: 3.14.0
+app_file: app.py
+pinned: false
+license: afl-3.0
+duplicated_from: xdecoder/Instruct-X-Decoder
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

__init__.py ADDED Viewed

File without changes

app.py ADDED Viewed

	@@ -0,0 +1,109 @@

+# --------------------------------------------------------
+# X-Decoder -- Generalized Decoding for Pixel, Image, and Language
+# Copyright (c) 2022 Microsoft
+# Licensed under The MIT License [see LICENSE for details]
+# Written by Jianwei Yang (jianwyan@microsoft.com), Xueyan Zou (xueyan@cs.wisc.edu)
+# --------------------------------------------------------
+import os
+os.system("python -m pip install git+https://github.com/MaureenZOU/detectron2-xyz.git")
+import gradio as gr
+import torch
+import argparse
+from xdecoder.BaseModel import BaseModel
+from xdecoder import build_model
+from utils.distributed import init_distributed
+from utils.arguments import load_opt_from_config_files
+from tasks import *
+def parse_option():
+    parser = argparse.ArgumentParser('X-Decoder All-in-One Demo', add_help=False)
+    parser.add_argument('--conf_files', default="configs/xdecoder/svlp_focalt_lang.yaml", metavar="FILE", help='path to config file', )
+    args = parser.parse_args()
+    return args
+'''
+build args
+'''
+args = parse_option()
+opt = load_opt_from_config_files(args.conf_files)
+opt = init_distributed(opt)
+# META DATA
+pretrained_pth_last = os.path.join("xdecoder_focalt_last.pt")
+pretrained_pth_novg = os.path.join("xdecoder_focalt_last_novg.pt")
+if not os.path.exists(pretrained_pth_last):
+    os.system("wget {}".format("https://projects4jw.blob.core.windows.net/x-decoder/release/xdecoder_focalt_last.pt"))
+if not os.path.exists(pretrained_pth_novg):
+    os.system("wget {}".format("https://projects4jw.blob.core.windows.net/x-decoder/release/xdecoder_focalt_last_novg.pt"))
+'''
+build model
+'''
+model_last = BaseModel(opt, build_model(opt)).from_pretrained(pretrained_pth_last).eval().cuda()
+with torch.no_grad():
+    model_last.model.sem_seg_head.predictor.lang_encoder.get_text_embeddings(["background", "background"], is_eval=True)
+'''
+inference model
+'''
+@torch.no_grad()
+def inference(image, instruction, *args, **kwargs):
+    image = image.convert("RGB")
+    with torch.autocast(device_type='cuda', dtype=torch.float16):
+        return referring_inpainting_gpt3(model_last, image, instruction, *args, **kwargs)
+'''
+launch app
+'''
+title = "Instructional Image Editing"
+description = """<p style='text-align: center'> <a href='https://x-decoder-vl.github.io/' target='_blank'>Project Page</a> | <a href='https://arxiv.org/pdf/2212.11270.pdf' target='_blank'>Paper</a> | <a href='https://github.com/microsoft/X-Decoder' target='_blank'>Github Repo</a> | <a href='https://youtu.be/wYp6vmyolqE' target='_blank'>Video</a></p>
+                 <p style='text-align: center; color: red;'> NOTE: This demo is mainly for object-centric instructional image editing! For style transfer please refer to the hero demo <a href='https://huggingface.co/spaces/timbrooks/instruct-pix2pix' target='_blank'>Instruct-Pix2Pix</a></p>
+<p>For faster inference without waiting in queue, you may duplicate the space and upgrade to GPU in settings.
+<br/>
+<a href="https://huggingface.co/spaces/xdecoder/Instruct-X-Decoder?duplicate=true">
+<img style="margin-top: 0em; margin-bottom: 0em" src="https://bit.ly/3gLdBN6" alt="Duplicate Space"></a>
+</p>
+"""
+help_text = """
+This demo is leveraging X-Decoder's fine-grained understanding for instruction-based image editing. You can use it to:
+1. Remove object, e.g., remove the dog in the image
+2. Replace object, e.g., change the sky with a mountain
+"""
+gr.Markdown(help_text)
+inputs = [gr.inputs.Image(type='pil'), gr.Textbox(label="instruction")]
+gr.Interface(
+    fn=inference,
+    inputs=inputs,
+    outputs=[
+        gr.outputs.Image(
+        type="pil",
+        label="edit result"),
+    ],
+    examples=[
+    ["./images/blue_white_bird.jpg", "change the color of bird's feathers from blue to red."],
+    ["./images/house.jpg", "change the house to a modern one."],
+    ["./images/apples.jpg", "change green apple to a red apple"],
+    ["./images/Furniture_Gateway_02.jpg", "make the sofa to one with leather"],
+    ["./images/cat.jfif", "remove the green chair"],
+    ["./images/horse.png", "change the sky to mountain"],
+    ["./images/zebras.jpg", "change sky to Seattle skyline"]
+    ],
+    title=title,
+    description=description,
+    allow_flagging='never',
+    cache_examples=True,
+).launch()

configs/xdecoder/svlp_focalt_lang.yaml ADDED Viewed

	@@ -0,0 +1,110 @@

+# --------------------------------------------------------
+# X-Decoder -- Generalized Decoding for Pixel, Image, and Language
+# Copyright (c) 2022 Microsoft
+# Licensed under The MIT License [see LICENSE for details]
+# Written by Xueyan Zou (xueyan@cs.wisc.edu)
+# --------------------------------------------------------
+##################
+# Task settings
+##################
+VERBOSE: true
+MODEL:
+  NAME: xdecoder_model
+  HEAD: xdecoder_head
+  DIM_PROJ: 512
+  BACKBONE_DIM: 768
+  TEXT:
+    ARCH: vlpencoder
+    NAME: transformer
+    TOKENIZER: clip
+    CONTEXT_LENGTH: 77 # 77
+    WIDTH: 512
+    HEADS: 8
+    LAYERS: 12 # 6
+    AUTOGRESSIVE: True
+  BACKBONE:
+    NAME: focal_dw
+    PRETRAINED: ''
+    LOAD_PRETRAINED: false
+    FOCAL:
+      PRETRAIN_IMG_SIZE: 224
+      PATCH_SIZE: 4
+      EMBED_DIM: 96
+      DEPTHS: [2, 2, 6, 2]
+      FOCAL_LEVELS: [3, 3, 3, 3]
+      FOCAL_WINDOWS: [3, 3, 3, 3]
+      DROP_PATH_RATE: 0.3
+      MLP_RATIO: 4.0
+      DROP_RATE: 0.0
+      PATCH_NORM: True
+      USE_CONV_EMBED: True
+      SCALING_MODULATOR: True
+      USE_CHECKPOINT: False
+      USE_POSTLN: true
+      USE_POSTLN_IN_MODULATION: false
+      USE_LAYERSCALE: True
+      OUT_FEATURES: ["res2", "res3", "res4", "res5"]
+      OUT_INDICES: [0, 1, 2, 3]
+  ENCODER:
+    NAME: transformer_encoder_fpn
+    IGNORE_VALUE: 255
+    NUM_CLASSES: 133
+    LOSS_WEIGHT: 1.0
+    CONVS_DIM: 512
+    MASK_DIM: 512
+    NORM: "GN"
+    IN_FEATURES: ["res2", "res3", "res4", "res5"]
+    DEFORMABLE_TRANSFORMER_ENCODER_IN_FEATURES: ["res3", "res4", "res5"]
+    COMMON_STRIDE: 4
+    TRANSFORMER_ENC_LAYERS: 6
+  DECODER:
+    NAME: xdecoder
+    TRANSFORMER_IN_FEATURE: "multi_scale_pixel_decoder"
+    MASK: True
+    GROUNDING:
+      ENABLED: True
+      MAX_LEN: 5
+      TEXT_WEIGHT: 2.0
+      CLASS_WEIGHT: 0.5
+    DETECTION: False
+    CAPTION:
+      ENABLED: True
+      PHRASE_PROB: 0.0
+      SIM_THRES: 0.95
+    CAPTIONING:
+      ENABLED: True
+      STEP: 50
+    RETRIEVAL:
+      ENABLED: True
+      DIM_IMG: 768
+      ENSEMBLE: True
+    HIDDEN_DIM: 512
+    NUM_OBJECT_QUERIES: 101
+    NHEADS: 8
+    DROPOUT: 0.0
+    DIM_FEEDFORWARD: 2048
+    PRE_NORM: False
+    ENFORCE_INPUT_PROJ: False
+    SIZE_DIVISIBILITY: 32
+    TRAIN_NUM_POINTS: 12544
+    OVERSAMPLE_RATIO: 3.0
+    IMPORTANCE_SAMPLE_RATIO: 0.75
+    DEC_LAYERS: 10  # 9 decoder layers, add one for the loss on learnable query
+    TOP_GROUNDING_LAYERS: 3
+    TOP_CAPTION_LAYERS: 3
+    TOP_CAPTIONING_LAYERS: 3
+    TOP_RETRIEVAL_LAYERS: 3
+    TOP_OPENIMAGE_LAYERS: 10
+    TEST:
+      SEMANTIC_ON: True
+      INSTANCE_ON: True
+      PANOPTIC_ON: True
+      OVERLAP_THRESHOLD: 0.8
+      OBJECT_MASK_THRESHOLD: 0.4
+      SEM_SEG_POSTPROCESSING_BEFORE_INFERENCE: false
+      DETECTIONS_PER_IMAGE: 100
+INPUT:
+  PIXEL_MEAN: [123.675, 116.280, 103.530]
+  PIXEL_STD: [58.395, 57.120, 57.375]