customdiffusion360

Build error

App Files Files Community

customdiffusion360 commited on Apr 20, 2024

Commit

8eb5f81

1 Parent(s): 43b6675

add instructions, do not load sdxl on original space

Browse files

Files changed (1) hide show

app.py +48 -19

app.py CHANGED Viewed

@@ -28,7 +28,7 @@ def transform_mesh(mesh, transform, scale=1.0):
     return mesh
-def get_input_pose_fig():
     global curr_camera_dict
     global obj_filename
     global plane_trans
@@ -44,6 +44,11 @@ def get_input_pose_fig():
     ### plane
     rotate_x = RotateAxisAngle(angle=90.0, axis='X', device=device)
     plane = transform_mesh(plane, rotate_x)
     translate_y = Translate(0, plane_trans * mesh_scale, 0, device=device)
     plane = transform_mesh(plane, translate_y)
@@ -171,7 +176,15 @@ def select_and_load_model(category, category_single_id):
     print("!!! model loaded")
-    input_prompt = f"photo of a <new1> {category}"
     return "### Model loaded!", input_prompt
@@ -184,9 +197,15 @@ global base_model
 BASE_CONFIG = "custom-diffusion360/configs/train_co3d_concept.yaml"
 BASE_CKPT = "pretrained-models/sd_xl_base_1.0.safetensors"
-start_time = time.time()
-base_model = load_base_model(BASE_CONFIG, ckpt=BASE_CKPT, verbose=False)
-print(f"Time taken to load base model: {time.time() - start_time:.2f}s")
 global curr_camera_dict
 curr_camera_dict = {
@@ -280,7 +299,7 @@ def update_category_single_id(category):
             "scene.aspectratio": {"x": 1.5786, "y": 1.5786, "z": 1.5786},
             "scene.aspectmode": "manual"
         }
-        plane_trans = 0.16
     elif category == "teddybear":
         choices = ["31"]
@@ -299,7 +318,7 @@ def update_category_single_id(category):
             "scene.aspectratio": {"x": 1.8052, "y": 1.8052, "z": 1.8052},
             "scene.aspectmode": "manual",
         }
-        plane_trans = 0.23
     obj_filename = f"assets/{category}{choices[0]}_mesh_centered_flipped.obj"
     prev_camera_dict = copy.deepcopy(curr_camera_dict)
@@ -310,13 +329,6 @@ head = """
     <script src="https://cdn.plot.ly/plotly-2.30.0.min.js" charset="utf-8"></script>
     """
-ORIGINAL_SPACE_ID = 'customdiffusion360'
-SPACE_ID = os.getenv('SPACE_ID')
-SHARED_UI_WARNING = f'''## Attention - the demo requires at least 40GB VRAM for inference. Please clone this repository to run on your own machine.
-<center><a class="duplicate-button" style="display:inline-block" target="_blank" href="https://huggingface.co/spaces/{SPACE_ID}?duplicate=true"><img style="margin-top:0;margin-bottom:0" src="https://img.shields.io/badge/-Duplicate%20Space-blue?labelColor=white&style=flat&logo=data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAABAAAAAQCAYAAAAf8/9hAAAAAXNSR0IArs4c6QAAAP5JREFUOE+lk7FqAkEURY+ltunEgFXS2sZGIbXfEPdLlnxJyDdYB62sbbUKpLbVNhyYFzbrrA74YJlh9r079973psed0cvUD4A+4HoCjsA85X0Dfn/RBLBgBDxnQPfAEJgBY+A9gALA4tcbamSzS4xq4FOQAJgCDwV2CPKV8tZAJcAjMMkUe1vX+U+SMhfAJEHasQIWmXNN3abzDwHUrgcRGmYcgKe0bxrblHEB4E/pndMazNpSZGcsZdBlYJcEL9Afo75molJyM2FxmPgmgPqlWNLGfwZGG6UiyEvLzHYDmoPkDDiNm9JR9uboiONcBXrpY1qmgs21x1QwyZcpvxt9NS09PlsPAAAAAElFTkSuQmCC&logoWidth=14" alt="Duplicate Space"></a></center>
-'''
 with gr.Blocks(head=head,
                css="style.css",
                js=scripts,
@@ -339,14 +351,21 @@ with gr.Blocks(head=head,
                 <img src='https://img.shields.io/badge/Github-%23121011.svg'>
             </a>
         </div>
         <hr></hr>
     """,
     visible=True
     )
-    if SPACE_ID == ORIGINAL_SPACE_ID:
-        gr.Markdown(SHARED_UI_WARNING)
     with gr.Row():
         with gr.Column(min_width=150):
             gr.Markdown("## 1. SELECT CUSTOMIZED MODEL")
@@ -375,7 +394,7 @@ with gr.Blocks(head=head,
             ## TODO: track init_camera_dict and with js?
             ### visible elements
-            input_prompt = gr.Textbox(value="photo of a <new1> car", label="Prompt", interactive=True)
             scale_im = gr.Slider(value=3.5, label="Image guidance scale", minimum=0, maximum=20.0, step=0.1)
             scale = gr.Slider(value=7.5, label="Text guidance scale", minimum=0, maximum=20.0, step=0.1)
             steps = gr.Slider(value=10, label="Inference steps", minimum=1, maximum=50, step=1)
@@ -389,8 +408,18 @@ with gr.Blocks(head=head,
             gr.Markdown("## 3. OUR OUTPUT")
             result = gr.Image(show_label=False, show_download_button=True, width=512, height=512, elem_id="result")
     load_model_btn.click(select_and_load_model, [category, category_single_id], [load_model_status, input_prompt])
-    load_model_btn.click(get_input_pose_fig, [], [map])
     update_pose_btn.click(update_curr_camera_dict, [input_pose], [input_pose],) # js=send_js_camera_to_gradio)
     # check_pose_btn.click(check_curr_camera_dict, [], [input_pose])

     return mesh
+def get_input_pose_fig(category=None):
     global curr_camera_dict
     global obj_filename
     global plane_trans
     ### plane
     rotate_x = RotateAxisAngle(angle=90.0, axis='X', device=device)
     plane = transform_mesh(plane, rotate_x)
+    if category == "teddybear":
+        rotate_teddy = RotateAxisAngle(angle=15.0, axis='X', device=device)
+        plane = transform_mesh(plane, rotate_teddy)
     translate_y = Translate(0, plane_trans * mesh_scale, 0, device=device)
     plane = transform_mesh(plane, translate_y)
     print("!!! model loaded")
+    if category == "car":
+        input_prompt = "A <new1> car parked by a snowy mountain range"
+    elif category == "chair":
+        input_prompt = "A <new1> chair in a garden surrounded by flowers"
+    elif category == "motorcycle":
+        input_prompt = "A <new1> motorcycle beside a calm lake"
+    elif category == "teddybear":
+        input_prompt = "A <new1> teddy bear on the sand at the beach"
     return "### Model loaded!", input_prompt
 BASE_CONFIG = "custom-diffusion360/configs/train_co3d_concept.yaml"
 BASE_CKPT = "pretrained-models/sd_xl_base_1.0.safetensors"
+base_model = None
+ORIGINAL_SPACE_ID = "customdiffusion360/customdiffusion360"
+SPACE_ID = os.getenv("SPACE_ID")
+if SPACE_ID != ORIGINAL_SPACE_ID:
+    start_time = time.time()
+    base_model = load_base_model(BASE_CONFIG, ckpt=BASE_CKPT, verbose=False)
+    print(f"Time taken to load base model: {time.time() - start_time:.2f}s")
 global curr_camera_dict
 curr_camera_dict = {
             "scene.aspectratio": {"x": 1.5786, "y": 1.5786, "z": 1.5786},
             "scene.aspectmode": "manual"
         }
+        plane_trans = 0.2
     elif category == "teddybear":
         choices = ["31"]
             "scene.aspectratio": {"x": 1.8052, "y": 1.8052, "z": 1.8052},
             "scene.aspectmode": "manual",
         }
+        plane_trans = 0.3
     obj_filename = f"assets/{category}{choices[0]}_mesh_centered_flipped.obj"
     prev_camera_dict = copy.deepcopy(curr_camera_dict)
     <script src="https://cdn.plot.ly/plotly-2.30.0.min.js" charset="utf-8"></script>
     """
 with gr.Blocks(head=head,
                css="style.css",
                js=scripts,
                 <img src='https://img.shields.io/badge/Github-%23121011.svg'>
             </a>
         </div>
+        <div style="display: flex; justify-content: center; align-items: center; text-align: center;">
+            <p>
+                This is a demo for <a href='https://github.com/customdiffusion360/custom-diffusion360'>Custom Diffusion 360</a>.
+                Please duplicate this space and upgrade the GPU to A10G Large in Settings to run the demo.
+            </p>
+        </div>
+        <div style="display: flex; justify-content: center; align-items: center; text-align: center;">
+            <a class="duplicate-button" style="display:inline-block" target="_blank" href="https://huggingface.co/spaces/customdiffusion360/customdiffusion360?duplicate=true"><img style="margin-top:0;margin-bottom:0" src="https://img.shields.io/badge/-Duplicate%20Space-blue?labelColor=white&style=flat&logo=data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAABAAAAAQCAYAAAAf8/9hAAAAAXNSR0IArs4c6QAAAP5JREFUOE+lk7FqAkEURY+ltunEgFXS2sZGIbXfEPdLlnxJyDdYB62sbbUKpLbVNhyYFzbrrA74YJlh9r079973psed0cvUD4A+4HoCjsA85X0Dfn/RBLBgBDxnQPfAEJgBY+A9gALA4tcbamSzS4xq4FOQAJgCDwV2CPKV8tZAJcAjMMkUe1vX+U+SMhfAJEHasQIWmXNN3abzDwHUrgcRGmYcgKe0bxrblHEB4E/pndMazNpSZGcsZdBlYJcEL9Afo75molJyM2FxmPgmgPqlWNLGfwZGG6UiyEvLzHYDmoPkDDiNm9JR9uboiONcBXrpY1qmgs21x1QwyZcpvxt9NS09PlsPAAAAAElFTkSuQmCC&logoWidth=14" alt="Duplicate Space"></a>
+        </div>
         <hr></hr>
     """,
     visible=True
     )
     with gr.Row():
         with gr.Column(min_width=150):
             gr.Markdown("## 1. SELECT CUSTOMIZED MODEL")
             ## TODO: track init_camera_dict and with js?
             ### visible elements
+            input_prompt = gr.Textbox(value="A <new1> car parked by a snowy mountain range", label="Prompt", interactive=True)
             scale_im = gr.Slider(value=3.5, label="Image guidance scale", minimum=0, maximum=20.0, step=0.1)
             scale = gr.Slider(value=7.5, label="Text guidance scale", minimum=0, maximum=20.0, step=0.1)
             steps = gr.Slider(value=10, label="Inference steps", minimum=1, maximum=50, step=1)
             gr.Markdown("## 3. OUR OUTPUT")
             result = gr.Image(show_label=False, show_download_button=True, width=512, height=512, elem_id="result")
+            gr.Markdown("### Camera Pose Controls:")
+            gr.Markdown("* Orbital rotation: Left-click and drag.")
+            gr.Markdown("* Zoom: Mouse wheel scroll.")
+            gr.Markdown("* Pan (translate the camera): Right-click and drag.")
+            gr.Markdown("* Tilt camera: Tilt mouse wheel left/right.")
+            gr.Markdown("* Reset to initial camera pose: Hover over the top right corner of the plot and click the camera icon.")
+            gr.Markdown("### Note:")
+            gr.Markdown("The models only work within a range of elevation angles and distances near the initial camera pose.")
     load_model_btn.click(select_and_load_model, [category, category_single_id], [load_model_status, input_prompt])
+    load_model_btn.click(get_input_pose_fig, [category], [map])
     update_pose_btn.click(update_curr_camera_dict, [input_pose], [input_pose],) # js=send_js_camera_to_gradio)
     # check_pose_btn.click(check_curr_camera_dict, [], [input_pose])