Spaces:

fffiloni
/

auffusion

Running on Zero

App Files Files Community

fffiloni commited on Feb 4, 2025

Commit

470d848

verified ·

1 Parent(s): 63418ac

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -30

app.py CHANGED Viewed

@@ -39,7 +39,7 @@ def infer_img2img(prompt, audio_path, progress=gr.Progress(track_tqdm=True)):
     pipe = pipe.to(device)
     width_start, width = 0, 160
-    strength_list: [0.0, 0.1, 0.2, 0.3, 0.5, 0.6, 0.7]
     prompt = "ambulance siren"
     seed = 42
@@ -76,35 +76,35 @@ def infer_img2img(prompt, audio_path, progress=gr.Progress(track_tqdm=True)):
         denorm_spec_audio = vocoder.inference(denorm_spec)
         audio_list.append(denorm_spec_audio)
-        # Display
-        # Concat image with different strength & add interval between images with black color
-        concat_image_list = []
-        for i in range(len(image_list)):
-            if i == len(image_list) - 1:
-                concat_image_list.append(np.array(image_list[i]))
-            else:
-                concat_image_list.append(np.concatenate([np.array(image_list[i]), np.ones((256, 20, 3))*0], axis=1))
-        concat_image = np.concatenate(concat_image_list, axis=1)
-        concat_image = Image.fromarray(np.uint8(concat_image))
-        ### Concat audio
-        concat_audio_list = [np.concatenate([audio, np.zeros((1, 16000))], axis=1) for audio in audio_list]
-        concat_audio = np.concatenate(concat_audio_list, axis=1)
-        print("audio_path:", audio_path)
-        print("width_start:", width_start, "width:", width)
-        print("text prompt:", prompt)
-        print("strength_list:", strength_list)
-        # Ensure correct shape
-        concat_audio = concat_audio.flatten()  # Converts (1, N) → (N,)
-        # Save as WAV
-        sf.write("output.wav", concat_audio, 16000)
-        return "output.wav"
 css="""
 div#col-container{

     pipe = pipe.to(device)
     width_start, width = 0, 160
+    strength_list = [0.0, 0.1, 0.2, 0.3, 0.5, 0.6, 0.7]
     prompt = "ambulance siren"
     seed = 42
         denorm_spec_audio = vocoder.inference(denorm_spec)
         audio_list.append(denorm_spec_audio)
+    # Display
+    # Concat image with different strength & add interval between images with black color
+    concat_image_list = []
+    for i in range(len(image_list)):
+        if i == len(image_list) - 1:
+            concat_image_list.append(np.array(image_list[i]))
+        else:
+            concat_image_list.append(np.concatenate([np.array(image_list[i]), np.ones((256, 20, 3))*0], axis=1))
+    concat_image = np.concatenate(concat_image_list, axis=1)
+    concat_image = Image.fromarray(np.uint8(concat_image))
+    ### Concat audio
+    concat_audio_list = [np.concatenate([audio, np.zeros((1, 16000))], axis=1) for audio in audio_list]
+    concat_audio = np.concatenate(concat_audio_list, axis=1)
+    print("audio_path:", audio_path)
+    print("width_start:", width_start, "width:", width)
+    print("text prompt:", prompt)
+    print("strength_list:", strength_list)
+    # Ensure correct shape
+    concat_audio = concat_audio.flatten()  # Converts (1, N) → (N,)
+    # Save as WAV
+    sf.write("output.wav", concat_audio, 16000)
+    return "output.wav"
 css="""
 div#col-container{