Draw-Me-An-Insect

Runtime error

App Files Files Community

sasha HF Staff commited on Dec 11, 2022

Commit

54bab5e

1 Parent(s): 1ac8323

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -45

app.py CHANGED Viewed

@@ -9,7 +9,8 @@ import os
 #from diffusers import StableDiffusionPipeline
-stable_diffusion = gr.Blocks.load(name="spaces/stabilityai/stable-diffusion")
 ### ————————————————————————————————————————
 title="Draw Me an Insect 🐞 /Dessine-moi un insecte 🐞"
@@ -32,11 +33,11 @@ def get_images(prompt):
 def magic_whisper_to_sd(audio, guidance_scale, nb_iterations, seed):
-    whisper_results = translate(audio)
-    prompt = whisper_results[2]
     images = get_images(prompt)
-    return whisper_results[0], whisper_results[1], whisper_results[2], images
 #def diffuse(prompt, guidance_scale, nb_iterations, seed):
 #
@@ -75,40 +76,19 @@ def magic_whisper_to_sd(audio, guidance_scale, nb_iterations, seed):
 #
 #    return images
-def translate(audio):
     print("""
     —
     Sending audio to Whisper ...
     —
     """)
-    # current dateTime
-    now = datetime.now()
-    # convert to string
-    date_time_str = now.strftime("%Y-%m-%d %H:%M:%S")
-    print('DateTime String:', date_time_str)
-    audio = whisper.load_audio(audio)
-    audio = whisper.pad_or_trim(audio)
-    mel = whisper.log_mel_spectrogram(audio).to(whisper_model.device)
-    _, probs = whisper_model.detect_language(mel)
-    transcript_options = whisper.DecodingOptions(task="transcribe", fp16 = False)
-    translate_options = whisper.DecodingOptions(task="translate", fp16 = False)
-    transcription = whisper.decode(whisper_model, mel, transcript_options)
-    translation = whisper.decode(whisper_model, mel, translate_options)
-    print("language spoken: " + transcription.language)
-    print("transcript: " + transcription.text)
     print("———————————————————————————————————————————")
-    print("translated: " + translation.text)
-    if transcription.language == "en":
-        tr_flag = flag.flag('GB')
-    else:
-        tr_flag = flag.flag(transcription.language)
-    return tr_flag, transcription.text, translation.text
 ### ————————————————————————————————————————
@@ -295,8 +275,7 @@ with gr.Blocks(css=css) as demo:
             """
         )
-        with gr.Tab(label="Record/Enregistrer", elem_id="record_tab"):
             with gr.Column():
                 record_input = gr.Audio(
                                     source="microphone",
@@ -320,6 +299,7 @@ with gr.Blocks(css=css) as demo:
                     audio_u_translate = gr.Button("Check the transcription/Vérifier la transcription 👍", elem_id="check_btn_2")
                     audio_u_direct_sd = gr.Button("Generate the image right now! / Génerer l'image directement! 🖌️", elem_id="magic_btn_2")
         with gr.Accordion(label="Image generation Settings/Configuration de génération d'image", elem_id="sd_settings", visible=False):
             with gr.Row():
                 guidance_scale = gr.Slider(2, 15, value = 7, label = 'Guidance Scale')
@@ -335,21 +315,21 @@ with gr.Blocks(css=css) as demo:
         with gr.Row():
             transcripted_output = gr.Textbox(
-                                    label="Transcription",
                                     lines=3,
                                     elem_id="transcripted"
                                 )
-            language_detected_output = gr.Textbox(label="Native language", elem_id="spoken_lang",lines=3)
         with gr.Column():
             translated_output = gr.Textbox(
-                                    label="Transcription in English/ Transcription traduite en anglais",
                                     lines=4,
                                     elem_id="translated"
                                 )
             with gr.Row():
                 clear_btn = gr.Button(value="Clear")
-                diffuse_btn = gr.Button(value="Generate image! Générer l'image!", elem_id="diffuse_btn")
                 clear_btn.click(fn=lambda value: gr.update(value=""), inputs=clear_btn, outputs=translated_output)
@@ -407,18 +387,18 @@ with gr.Blocks(css=css) as demo:
         """, elem_id="about")
-        audio_r_translate.click(translate,
                                 inputs = record_input,
                                 outputs = [
-                                    language_detected_output,
                                     transcripted_output,
                                     translated_output
                                 ])
-        audio_u_translate.click(translate,
                                 inputs = upload_input,
                                 outputs = [
-                                    language_detected_output,
                                     transcripted_output,
                                     translated_output
                                 ])
@@ -431,7 +411,7 @@ with gr.Blocks(css=css) as demo:
                                     seed
                                 ],
                                 outputs = [
-                                    language_detected_output,
                                     transcripted_output,
                                     translated_output,
                                     sd_output
@@ -445,7 +425,7 @@ with gr.Blocks(css=css) as demo:
                                     seed
                                 ],
                                 outputs = [
-                                    language_detected_output,
                                     transcripted_output,
                                     translated_output,
                                     sd_output
@@ -456,7 +436,7 @@ with gr.Blocks(css=css) as demo:
                                   translated_output
                                   ],
                               outputs = sd_output
-                          )
         gr.HTML('''
                 <div class="footer">
                      <p> This Space is based on the <a href="https://huggingface.co/spaces/fffiloni/whisper-to-stable-diffusion" target="_blank">Whisper to Stable Diffusion Space</a> created by <a href="https://twitter.com/fffiloni" target="_blank">Sylvain Filoni</a>.

 #from diffusers import StableDiffusionPipeline
+whisper = gr.Interface.load(name="spaces/sanchit-gandhi/whisper-large-v2")
+stable_diffusion = gr.Blocks.load(name="spaces/runwayml/stable-diffusion-v1-5")
 ### ————————————————————————————————————————
 title="Draw Me an Insect 🐞 /Dessine-moi un insecte 🐞"
 def magic_whisper_to_sd(audio, guidance_scale, nb_iterations, seed):
+    whisper_results = translate_better(audio)
+    prompt = whisper_results[1]
     images = get_images(prompt)
+    return whisper_results[0], whisper_results[1], images
 #def diffuse(prompt, guidance_scale, nb_iterations, seed):
 #
 #
 #    return images
+def translate_better(audio):
     print("""
     —
     Sending audio to Whisper ...
     —
     """)
+    transcribe_text_result = whisper(audio, None, "transcribe", fn_index=0)
+    translate_text_result = whisper(audio, None, "translate", fn_index=0)
+    print("transcript: " + transcribe_text_result)
     print("———————————————————————————————————————————")
+    print("translated: " + translate_text_result)
+    return transcribe_text_result, translate_text_result
 ### ————————————————————————————————————————
             """
         )
+     with gr.Tab(label="Record/Enregistrer", elem_id="record_tab"):
             with gr.Column():
                 record_input = gr.Audio(
                                     source="microphone",
                     audio_u_translate = gr.Button("Check the transcription/Vérifier la transcription 👍", elem_id="check_btn_2")
                     audio_u_direct_sd = gr.Button("Generate the image right now! / Génerer l'image directement! 🖌️", elem_id="magic_btn_2")
         with gr.Accordion(label="Image generation Settings/Configuration de génération d'image", elem_id="sd_settings", visible=False):
             with gr.Row():
                 guidance_scale = gr.Slider(2, 15, value = 7, label = 'Guidance Scale')
         with gr.Row():
             transcripted_output = gr.Textbox(
+                                    label="Transcription in your detected spoken language",
                                     lines=3,
                                     elem_id="transcripted"
                                 )
+            #language_detected_output = gr.Textbox(label="Native language", elem_id="spoken_lang",lines=3)
         with gr.Column():
             translated_output = gr.Textbox(
+                                    label="Transcript translated in English by Whisper",
                                     lines=4,
                                     elem_id="translated"
                                 )
             with gr.Row():
                 clear_btn = gr.Button(value="Clear")
+                diffuse_btn = gr.Button(value="OK, Diffuse this prompt !", elem_id="diffuse_btn")
                 clear_btn.click(fn=lambda value: gr.update(value=""), inputs=clear_btn, outputs=translated_output)
         """, elem_id="about")
+audio_r_translate.click(translate_better,
                                 inputs = record_input,
                                 outputs = [
+                                    #language_detected_output,
                                     transcripted_output,
                                     translated_output
                                 ])
+        audio_u_translate.click(translate_better,
                                 inputs = upload_input,
                                 outputs = [
+                                    #language_detected_output,
                                     transcripted_output,
                                     translated_output
                                 ])
                                     seed
                                 ],
                                 outputs = [
+                                    #language_detected_output,
                                     transcripted_output,
                                     translated_output,
                                     sd_output
                                     seed
                                 ],
                                 outputs = [
+                                    #language_detected_output,
                                     transcripted_output,
                                     translated_output,
                                     sd_output
                                   translated_output
                                   ],
                               outputs = sd_output
+                         )
         gr.HTML('''
                 <div class="footer">
                      <p> This Space is based on the <a href="https://huggingface.co/spaces/fffiloni/whisper-to-stable-diffusion" target="_blank">Whisper to Stable Diffusion Space</a> created by <a href="https://twitter.com/fffiloni" target="_blank">Sylvain Filoni</a>.