Spaces:

alexnasa
/

OmniAvatar

Running on Zero

App Files Files Community

alex commited on Aug 19

Commit

33b0370

1 Parent(s): 23fe401

aspect ratio options added

Browse files

Files changed (1) hide show

app.py +84 -28

app.py CHANGED Viewed

@@ -58,6 +58,8 @@ from functools import partial
 from omegaconf import OmegaConf
 from argparse import Namespace
 from gradio_extendedaudio import ExtendedAudio
 import torchaudio
 # load the one true config you dumped
@@ -561,12 +563,15 @@ def slider_value_change(image_path, audio_path, text, num_steps, session_state,
     if adaptive_text:
-        if num_steps < 8:
-            text = ADAPTIVE_PROMPT_TEMPLATES[1]
-        elif num_steps < 10:
-            text = ADAPTIVE_PROMPT_TEMPLATES[1]
         else:
-            text = ADAPTIVE_PROMPT_TEMPLATES[2]
     return update_generate_button(image_path, audio_path, text, num_steps, session_state), text
@@ -614,12 +619,18 @@ def get_duration(image_path, audio_path, text, num_steps, session_id, progress):
     return int(duration_s)
-def preprocess_img(image_path, session_id = None):
     if session_id is None:
         session_id = uuid.uuid4().hex
-    image = Image.open(image_path).convert("RGB")
     image = inferpipe.transform(image).unsqueeze(0).to(dtype=inferpipe.dtype)
@@ -638,8 +649,18 @@ def preprocess_img(image_path, session_id = None):
     image = tensor_to_pil(image)
     image.save(input_img_path)
-    return input_img_path
 @spaces.GPU(duration=get_duration)
 def infer(image_path, audio_path, text, num_steps, session_id = None, progress=gr.Progress(track_tqdm=True),):
@@ -654,6 +675,7 @@ def infer(image_path, audio_path, text, num_steps, session_id = None, progress=g
     if session_id is None:
         session_id = uuid.uuid4().hex
     output_dir = os.path.join(os.environ["PROCESSED_RESULTS"], session_id)
@@ -693,7 +715,10 @@ def infer(image_path, audio_path, text, num_steps, session_id = None, progress=g
     return video_paths[0]
-def apply(request):
     return request
@@ -712,6 +737,22 @@ def check_box_clicked(adapative_tick):
     print("checkbox clicked")
     return gr.update(interactive=not adapative_tick)
 def preprocess_audio_first_5s_librosa(audio_path, limit_on, session_id=None):
     """
     If the uploaded audio is < 5s, return it unchanged.
@@ -808,7 +849,7 @@ with gr.Blocks(css=css) as demo:
             with gr.Column():
-                image_input = gr.Image(label="Reference Image", type="filepath", height=512)
                 audio_input = ExtendedAudio(label="Input Audio", type="filepath", options=["EMPTY"], show_download_button=True)
                 gr.Markdown("*A 5-second limit is applied to audio files to shorten generation time. You can turn this off in Advanced Settings*")
@@ -821,6 +862,7 @@ with gr.Blocks(css=css) as demo:
                 time_required = gr.Text(value="⌚ Zero GPU Required: --", show_label=False)
                 infer_btn = gr.Button("🦜 Avatar Me", variant="primary")
                 with gr.Accordion("Advanced Settings", open=False):
                     limit_on = gr.Checkbox(label="Limit Audio files to 5 seconds", value=True)
                     adaptive_text = gr.Checkbox(label="Adaptive Video Prompt", value=True)
                     text_input = gr.Textbox(show_label=False, lines=6, elem_classes=["stateful"], interactive=False, value= ADAPTIVE_PROMPT_TEMPLATES[1])
@@ -829,31 +871,36 @@ with gr.Blocks(css=css) as demo:
                 cached_examples = gr.Examples(
                     examples=[
                         [
-                            "examples/images/male-001.png",
-                            "examples/audios/denial.wav",
                             ADAPTIVE_PROMPT_TEMPLATES[2],
-                            12
                         ],
                         [
                             "examples/images/female-001.png",
                             "examples/audios/script.wav",
                             ADAPTIVE_PROMPT_TEMPLATES[2],
-                            14
                         ],
                         [
-                            "examples/images/female-002.png",
-                            "examples/audios/nature.wav",
                             ADAPTIVE_PROMPT_TEMPLATES[2],
-                            10
                         ],
                     ],
                     label="Cached Examples",
-                    inputs=[image_input, audio_input, text_input, num_steps],
                     outputs=[output_video],
-                    fn=infer,
                     cache_examples=True
                     )
@@ -864,10 +911,11 @@ with gr.Blocks(css=css) as demo:
                             "examples/audios/listen.wav",
                             ADAPTIVE_PROMPT_TEMPLATES[1],
                             8,
                         ],
                     ],
                     label="Uncached Examples",
-                    inputs=[image_input, audio_input, text_input, num_steps],
                     cache_examples=False
                     )
@@ -882,11 +930,14 @@ with gr.Blocks(css=css) as demo:
                         [
                             "examples/images/female-003.png",
                         ],
                     ],
                     label="Image Samples",
                     inputs=[image_input],
-                    outputs=[image_input],
-                    fn=apply
                     )
                 audio_examples = gr.Examples(
@@ -902,11 +953,15 @@ with gr.Blocks(css=css) as demo:
                         [
                             "examples/audios/matcha.wav",
                         ],
                     ],
                     label="Audio Samples",
                     inputs=[audio_input],
                     outputs=[audio_input],
-                    fn=apply
                     )
     infer_btn.click(
@@ -920,7 +975,7 @@ with gr.Blocks(css=css) as demo:
         inputs=[session_state],
         outputs=[audio_input]
     ).then(
-        fn=apply,
         inputs=[audio_input],
         outputs=[audio_input]
     ).then(
@@ -928,13 +983,14 @@ with gr.Blocks(css=css) as demo:
         inputs=[audio_input, limit_on, session_state],
         outputs=[audio_input],
     )
-    image_input.upload(fn=preprocess_img, inputs=[image_input, session_state], outputs=[image_input])
     image_input.change(fn=update_generate_button, inputs=[image_input, audio_input, text_input, num_steps, session_state], outputs=[time_required])
     audio_input.change(fn=update_generate_button, inputs=[image_input, audio_input, text_input, num_steps, session_state], outputs=[time_required])
     num_steps.change(fn=slider_value_change, inputs=[image_input, audio_input, text_input, num_steps, session_state, adaptive_text], outputs=[time_required, text_input])
     adaptive_text.change(fn=check_box_clicked, inputs=[adaptive_text], outputs=[text_input])
-    audio_input.upload(fn=apply, inputs=[audio_input], outputs=[audio_input]
     ).then(
         fn=preprocess_audio_first_5s_librosa,
         inputs=[audio_input, limit_on, session_state],

 from omegaconf import OmegaConf
 from argparse import Namespace
 from gradio_extendedaudio import ExtendedAudio
+from gradio_extendedimage import extendedimage
 import torchaudio
 # load the one true config you dumped
     if adaptive_text:
+        if not args.image_sizes_720 == [[720, 720]]:
+            if num_steps < 8:
+                text = ADAPTIVE_PROMPT_TEMPLATES[1]
+            elif num_steps < 10:
+                text = ADAPTIVE_PROMPT_TEMPLATES[1]
+            else:
+                text = ADAPTIVE_PROMPT_TEMPLATES[2]
         else:
+            text = ADAPTIVE_PROMPT_TEMPLATES[1]
     return update_generate_button(image_path, audio_path, text, num_steps, session_state), text
     return int(duration_s)
+def preprocess_img(input_image_path, raw_image_path, session_id = None):
     if session_id is None:
         session_id = uuid.uuid4().hex
+    if input_image_path is None:
+        return None, None
+    if raw_image_path is '':
+        raw_image_path = input_image_path
+    image = Image.open(raw_image_path).convert("RGB")
     image = inferpipe.transform(image).unsqueeze(0).to(dtype=inferpipe.dtype)
     image = tensor_to_pil(image)
     image.save(input_img_path)
+    return input_img_path, raw_image_path
+def infer_example(image_path, audio_path, text, num_steps, raw_image_path, session_id = None, progress=gr.Progress(track_tqdm=True),):
+    current_image_size = args.image_sizes_720
+    args.image_sizes_720 = [[720, 400]]
+    result = infer(image_path, audio_path, text, num_steps, session_id, progress)
+    args.image_sizes_720 = current_image_size
+    return result
 @spaces.GPU(duration=get_duration)
 def infer(image_path, audio_path, text, num_steps, session_id = None, progress=gr.Progress(track_tqdm=True),):
     if session_id is None:
         session_id = uuid.uuid4().hex
     output_dir = os.path.join(os.environ["PROCESSED_RESULTS"], session_id)
     return video_paths[0]
+def apply_image(request):
+    return request, None
+def apply_audio(request):
     return request
     print("checkbox clicked")
     return gr.update(interactive=not adapative_tick)
+def orientation_changed(session_id, evt: gr.EventData):
+    detail = getattr(evt, "data", None) or getattr(evt, "_data", {}) or {}
+    if detail['value'] == "9:16":
+        args.image_sizes_720 = [[720, 400]]
+    elif detail['value'] == "1:1":
+        args.image_sizes_720 = [[720, 720]]
+    elif detail['value'] == "16:9":
+        args.image_sizes_720 = [[400, 720]]
+    print(f'{session_id} has {args.image_sizes_720} orientation')
+def clear_raw_image():
+    return ''
 def preprocess_audio_first_5s_librosa(audio_path, limit_on, session_id=None):
     """
     If the uploaded audio is < 5s, return it unchanged.
             with gr.Column():
+                image_input = extendedimage(label="Reference Image", type="filepath", height=512)
                 audio_input = ExtendedAudio(label="Input Audio", type="filepath", options=["EMPTY"], show_download_button=True)
                 gr.Markdown("*A 5-second limit is applied to audio files to shorten generation time. You can turn this off in Advanced Settings*")
                 time_required = gr.Text(value="⌚ Zero GPU Required: --", show_label=False)
                 infer_btn = gr.Button("🦜 Avatar Me", variant="primary")
                 with gr.Accordion("Advanced Settings", open=False):
+                    raw_img_text = gr.Text(show_label=False, label="", value='', visible=False)
                     limit_on = gr.Checkbox(label="Limit Audio files to 5 seconds", value=True)
                     adaptive_text = gr.Checkbox(label="Adaptive Video Prompt", value=True)
                     text_input = gr.Textbox(show_label=False, lines=6, elem_classes=["stateful"], interactive=False, value= ADAPTIVE_PROMPT_TEMPLATES[1])
                 cached_examples = gr.Examples(
                     examples=[
                         [
+                            "examples/images/creature-001.png",
+                            "examples/audios/keen.wav",
                             ADAPTIVE_PROMPT_TEMPLATES[2],
+                            20,
+                            ''
                         ],
                         [
                             "examples/images/female-001.png",
                             "examples/audios/script.wav",
                             ADAPTIVE_PROMPT_TEMPLATES[2],
+                            14,
+                            ''
                         ],
                         [
+                            "examples/images/male-001.png",
+                            "examples/audios/denial.wav",
                             ADAPTIVE_PROMPT_TEMPLATES[2],
+                            12,
+                            ''
                         ],
                     ],
                     label="Cached Examples",
+                    inputs=[image_input, audio_input, text_input, num_steps, raw_img_text],
                     outputs=[output_video],
+                    fn=infer_example,
                     cache_examples=True
                     )
                             "examples/audios/listen.wav",
                             ADAPTIVE_PROMPT_TEMPLATES[1],
                             8,
+                            ''
                         ],
                     ],
                     label="Uncached Examples",
+                    inputs=[image_input , audio_input, text_input, num_steps, raw_img_text],
                     cache_examples=False
                     )
                         [
                             "examples/images/female-003.png",
                         ],
+                        [
+                            "examples/images/female-002.png",
+                        ],
                     ],
                     label="Image Samples",
                     inputs=[image_input],
+                    outputs=[image_input, raw_img_text],
+                    fn=apply_image
                     )
                 audio_examples = gr.Examples(
                         [
                             "examples/audios/matcha.wav",
                         ],
+                        [
+                            "examples/audios/nature.wav",
+                        ],
                     ],
                     label="Audio Samples",
                     inputs=[audio_input],
                     outputs=[audio_input],
+                    fn=apply_audio
                     )
     infer_btn.click(
         inputs=[session_state],
         outputs=[audio_input]
     ).then(
+        fn=apply_audio,
         inputs=[audio_input],
         outputs=[audio_input]
     ).then(
         inputs=[audio_input, limit_on, session_state],
         outputs=[audio_input],
     )
+    image_input.orientation(fn=orientation_changed, inputs=[session_state]).then(fn=preprocess_img, inputs=[image_input, raw_img_text, session_state], outputs=[image_input, raw_img_text])
+    image_input.clear(fn=clear_raw_image, outputs=[raw_img_text])
+    image_input.upload(fn=preprocess_img, inputs=[image_input, raw_img_text, session_state], outputs=[image_input, raw_img_text])
     image_input.change(fn=update_generate_button, inputs=[image_input, audio_input, text_input, num_steps, session_state], outputs=[time_required])
     audio_input.change(fn=update_generate_button, inputs=[image_input, audio_input, text_input, num_steps, session_state], outputs=[time_required])
     num_steps.change(fn=slider_value_change, inputs=[image_input, audio_input, text_input, num_steps, session_state, adaptive_text], outputs=[time_required, text_input])
     adaptive_text.change(fn=check_box_clicked, inputs=[adaptive_text], outputs=[text_input])
+    audio_input.upload(fn=apply_audio, inputs=[audio_input], outputs=[audio_input]
     ).then(
         fn=preprocess_audio_first_5s_librosa,
         inputs=[audio_input, limit_on, session_state],