Spaces:

Wubble-AI
/

Demo

Paused

App Files Files Community

muhammad-abdullah commited on Aug 7, 2024

Commit

81fd8ac

1 Parent(s): bd6e845

audio enabled

Browse files

Files changed (1) hide show

app.py +8 -9

app.py CHANGED Viewed

@@ -462,8 +462,8 @@ def main(history, prompt, image, audio, video, duration=15, play_steps_in_s=2, t
     for audio_chunk in audio_stream:
       generated_audio += list(audio_chunk)
-      # yield gemini_output['model_response'], gemini_output['song_title'], history[-1]['music_caption'], (sampling_rate, np.asarray(audio_chunk)), history[-1]['cover'], cover_description, history
-      yield gemini_output['model_response'], gemini_output['song_title'], history[-1]['music_caption'], history[-1]['cover'], cover_description, history
     history.append({"chat": chat, "log": log, "prompt": prompt, "model_response": gemini_output['model_response'], "music_caption": music_caption, "audio": generated_audio, "cover": cover, "cover_description": cover_description})
   elif gemini_output['generation_flag']: # should we give the actual audio here as well
@@ -474,8 +474,8 @@ def main(history, prompt, image, audio, video, duration=15, play_steps_in_s=2, t
             extend_stride=extend_stride, seed=None, top_k = top_k, top_p = top_p, temperature = temperature,do_sample=do_sample, guidance_scale=guidance_scale, generation_flag=gemini_output['generation_flag'])
     for audio_chunk in audio_stream:
       generated_audio += list(audio_chunk)
-      # yield gemini_output['model_response'], gemini_output['song_title'], music_caption, (sampling_rate, audio_chunk), cover, cover_description, history
-      yield gemini_output['model_response'], gemini_output['song_title'], music_caption, cover, cover_description, history
     history.append({"chat": chat, "log": log, "prompt": prompt, "model_response": gemini_output['model_response'], "music_caption": music_caption, "audio": generated_audio, "cover": cover, "cover_description": cover_description})
   else:
@@ -483,12 +483,11 @@ def main(history, prompt, image, audio, video, duration=15, play_steps_in_s=2, t
       last_log = log.get_last_log()
       if last_log is not None:
         audio = last_log['audio_path']
-      # yield gemini_output['model_response'], gemini_output['song_title'], music_caption, audio, cover, cover_description, history
-      yield gemini_output['model_response'], gemini_output['song_title'], music_caption, cover, cover_description, history
       history.append({"chat": chat, "log": log, "prompt": prompt, "model_response": gemini_output['model_response'], "music_caption": music_caption, "audio": audio, "cover": cover, "cover_description": cover_description})
     else:
-      # yield gemini_output['model_response'], gemini_output['song_title'], music_caption, None, cover, cover_description, history
-      yield gemini_output['model_response'], gemini_output['song_title'], music_caption, cover, cover_description, history
       history.append({"chat": chat, "log": log, "prompt": prompt, "model_response": gemini_output['model_response'], "music_caption": music_caption, "audio": None, "cover": cover, "cover_description": cover_description})
@@ -515,7 +514,7 @@ demo = gr.Interface(
     outputs=[gr.Textbox(label="Generated Text Output"),
              gr.Textbox(label="Song Title"),
              gr.Textbox(label="Music generation caption"),
-              # gr.Audio(label="Generated Music", streaming=True, autoplay=True, show_download_button=False),
              gr.Image(label="Cover Image"),
              gr.Textbox(label="Cover description"),
              gr.State(),

     for audio_chunk in audio_stream:
       generated_audio += list(audio_chunk)
+      yield gemini_output['model_response'], gemini_output['song_title'], history[-1]['music_caption'], (sampling_rate, np.asarray(audio_chunk)), history[-1]['cover'], cover_description, history
     history.append({"chat": chat, "log": log, "prompt": prompt, "model_response": gemini_output['model_response'], "music_caption": music_caption, "audio": generated_audio, "cover": cover, "cover_description": cover_description})
   elif gemini_output['generation_flag']: # should we give the actual audio here as well
             extend_stride=extend_stride, seed=None, top_k = top_k, top_p = top_p, temperature = temperature,do_sample=do_sample, guidance_scale=guidance_scale, generation_flag=gemini_output['generation_flag'])
     for audio_chunk in audio_stream:
       generated_audio += list(audio_chunk)
+      yield gemini_output['model_response'], gemini_output['song_title'], music_caption, (sampling_rate, audio_chunk), cover, cover_description, history
     history.append({"chat": chat, "log": log, "prompt": prompt, "model_response": gemini_output['model_response'], "music_caption": music_caption, "audio": generated_audio, "cover": cover, "cover_description": cover_description})
   else:
       last_log = log.get_last_log()
       if last_log is not None:
         audio = last_log['audio_path']
+      yield gemini_output['model_response'], gemini_output['song_title'], music_caption, audio, cover, cover_description, history
       history.append({"chat": chat, "log": log, "prompt": prompt, "model_response": gemini_output['model_response'], "music_caption": music_caption, "audio": audio, "cover": cover, "cover_description": cover_description})
     else:
+      yield gemini_output['model_response'], gemini_output['song_title'], music_caption, None, cover, cover_description, history
       history.append({"chat": chat, "log": log, "prompt": prompt, "model_response": gemini_output['model_response'], "music_caption": music_caption, "audio": None, "cover": cover, "cover_description": cover_description})
     outputs=[gr.Textbox(label="Generated Text Output"),
              gr.Textbox(label="Song Title"),
              gr.Textbox(label="Music generation caption"),
+              gr.Audio(label="Generated Music", streaming=True, autoplay=True, show_download_button=False),
              gr.Image(label="Cover Image"),
              gr.Textbox(label="Cover description"),
              gr.State(),