Spaces:

fffiloni
/

whisper-to-stable-diffusion

Paused

App Files Files Community

fffiloni commited on Dec 11, 2022

Commit

d50061a

1 Parent(s): 3a7d7b2

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -42

app.py CHANGED Viewed

@@ -1,14 +1,15 @@
 import gradio as gr
 #import torch
-import whisper
-from datetime import datetime
 from PIL import Image
-import flag
 import os
 #MY_SECRET_TOKEN=os.environ.get('HF_TOKEN_SD')
 #from diffusers import StableDiffusionPipeline
 stable_diffusion = gr.Blocks.load(name="spaces/runwayml/stable-diffusion-v1-5")
 ### ————————————————————————————————————————
@@ -16,7 +17,7 @@ title="Whisper to Stable Diffusion"
 ### ————————————————————————————————————————
-whisper_model = whisper.load_model("small")
 #device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
@@ -32,8 +33,8 @@ def get_images(prompt):
 def magic_whisper_to_sd(audio, guidance_scale, nb_iterations, seed):
-    whisper_results = translate(audio)
-    prompt = whisper_results[2]
     images = get_images(prompt)
     return whisper_results[0], whisper_results[1], whisper_results[2], images
@@ -75,46 +76,61 @@ def magic_whisper_to_sd(audio, guidance_scale, nb_iterations, seed):
 #
 #    return images
-def translate(audio):
     print("""
     —
     Sending audio to Whisper ...
     —
     """)
-    # current dateTime
-    now = datetime.now()
-    # convert to string
-    date_time_str = now.strftime("%Y-%m-%d %H:%M:%S")
-    print('DateTime String:', date_time_str)
-    audio = whisper.load_audio(audio)
-    audio = whisper.pad_or_trim(audio)
-    mel = whisper.log_mel_spectrogram(audio).to(whisper_model.device)
-    _, probs = whisper_model.detect_language(mel)
-    transcript_options = whisper.DecodingOptions(task="transcribe", fp16 = False)
-    translate_options = whisper.DecodingOptions(task="translate", fp16 = False)
-    transcription = whisper.decode(whisper_model, mel, transcript_options)
-    translation = whisper.decode(whisper_model, mel, translate_options)
-    print("language spoken: " + transcription.language)
-    print("transcript: " + transcription.text)
     print("———————————————————————————————————————————")
-    print("translated: " + translation.text)
-    if transcription.language == "en":
-        tr_flag = flag.flag('GB')
-    else:
-        tr_flag = flag.flag(transcription.language)
-    return tr_flag, transcription.text, translation.text
 ### ————————————————————————————————————————
 css = """
         .container {
-            max-width: 880px;
             margin: auto;
             padding-top: 1.5rem;
         }
@@ -339,7 +355,7 @@ with gr.Blocks(css=css) as demo:
                                     lines=3,
                                     elem_id="transcripted"
                                 )
-            language_detected_output = gr.Textbox(label="Native language", elem_id="spoken_lang",lines=3)
         with gr.Column():
             translated_output = gr.Textbox(
@@ -406,18 +422,18 @@ with gr.Blocks(css=css) as demo:
         """, elem_id="about")
-        audio_r_translate.click(translate,
                                 inputs = record_input,
                                 outputs = [
-                                    language_detected_output,
                                     transcripted_output,
                                     translated_output
                                 ])
-        audio_u_translate.click(translate,
                                 inputs = upload_input,
                                 outputs = [
-                                    language_detected_output,
                                     transcripted_output,
                                     translated_output
                                 ])
@@ -430,7 +446,7 @@ with gr.Blocks(css=css) as demo:
                                     seed
                                 ],
                                 outputs = [
-                                    language_detected_output,
                                     transcripted_output,
                                     translated_output,
                                     sd_output
@@ -444,7 +460,7 @@ with gr.Blocks(css=css) as demo:
                                     seed
                                 ],
                                 outputs = [
-                                    language_detected_output,
                                     transcripted_output,
                                     translated_output,
                                     sd_output

 import gradio as gr
 #import torch
+#import whisper
+#from datetime import datetime
 from PIL import Image
+#import flag
 import os
 #MY_SECRET_TOKEN=os.environ.get('HF_TOKEN_SD')
 #from diffusers import StableDiffusionPipeline
+whisper = gr.Interface.load(name="spaces/sanchit-gandhi/whisper-large-v2")
 stable_diffusion = gr.Blocks.load(name="spaces/runwayml/stable-diffusion-v1-5")
 ### ————————————————————————————————————————
 ### ————————————————————————————————————————
+#whisper_model = whisper.load_model("small")
 #device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
 def magic_whisper_to_sd(audio, guidance_scale, nb_iterations, seed):
+    whisper_results = translate_better(audio)
+    prompt = whisper_results[1]
     images = get_images(prompt)
     return whisper_results[0], whisper_results[1], whisper_results[2], images
 #
 #    return images
+def translate_better(audio):
     print("""
     —
     Sending audio to Whisper ...
     —
     """)
+    transcribe_text_result = whisper(audio, None, "transcribe", fn_index=0)
+    translate_text_result = whisper(audio, None, "translate", fn_index=0)
+    print("transcript: " + transcribe_text_result)
     print("———————————————————————————————————————————")
+    print("translated: " + translate_text_result)
+    return transcribe_text_result, translate_text_result
+#def translate(audio):
+#    print("""
+#    —
+#    Sending audio to Whisper ...
+#    —
+#    """)
+#    # current dateTime
+#    now = datetime.now()
+#    # convert to string
+#    date_time_str = now.strftime("%Y-%m-%d %H:%M:%S")
+#    print('DateTime String:', date_time_str)
+#
+#    audio = whisper.load_audio(audio)
+#    audio = whisper.pad_or_trim(audio)
+#
+#    mel = whisper.log_mel_spectrogram(audio).to(whisper_model.device)
+#
+#    _, probs = whisper_model.detect_language(mel)
+#
+#    transcript_options = whisper.DecodingOptions(task="transcribe", fp16 = False)
+#    translate_options = whisper.DecodingOptions(task="translate", fp16 = False)
+#
+#    transcription = whisper.decode(whisper_model, mel, transcript_options)
+#    translation = whisper.decode(whisper_model, mel, translate_options)
+#
+#    print("language spoken: " + transcription.language)
+#    print("transcript: " + transcription.text)
+#    print("———————————————————————————————————————————")
+#    print("translated: " + translation.text)
+#    if transcription.language == "en":
+#        tr_flag = flag.flag('GB')
+#    else:
+#        tr_flag = flag.flag(transcription.language)
+#    return tr_flag, transcription.text, translation.text
 ### ————————————————————————————————————————
 css = """
         .container {
+            max-width: 780px;
             margin: auto;
             padding-top: 1.5rem;
         }
                                     lines=3,
                                     elem_id="transcripted"
                                 )
+            #language_detected_output = gr.Textbox(label="Native language", elem_id="spoken_lang",lines=3)
         with gr.Column():
             translated_output = gr.Textbox(
         """, elem_id="about")
+        audio_r_translate.click(translate_better,
                                 inputs = record_input,
                                 outputs = [
+                                    #language_detected_output,
                                     transcripted_output,
                                     translated_output
                                 ])
+        audio_u_translate.click(translate_better,
                                 inputs = upload_input,
                                 outputs = [
+                                    #language_detected_output,
                                     transcripted_output,
                                     translated_output
                                 ])
                                     seed
                                 ],
                                 outputs = [
+                                    #language_detected_output,
                                     transcripted_output,
                                     translated_output,
                                     sd_output
                                     seed
                                 ],
                                 outputs = [
+                                    #language_detected_output,
                                     transcripted_output,
                                     translated_output,
                                     sd_output