Spaces:

RP-Azul
/

P2

Sleeping

RP-Azul commited on Nov 5, 2024

Commit

ccea760

verified ·

1 Parent(s): 092f19b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,6 +5,8 @@ import soundfile as sf
 from datasets import load_dataset
 from transformers import pipeline
 import gradio as gr
 summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
 speech = pipeline("text-to-speech", model="microsoft/speecht5_tts")
@@ -19,11 +21,18 @@ speaker_embeddings = torch.tensor(speaker_dataset[0]["xvector"]).unsqueeze(0)
 def summarize_text_and_speak(prompt):
     summary = summarizer(prompt, max_length=150, min_length=30, do_sample=False)
     summary_text = summary[0]['summary_text']
     #inputs = processor(text="Hello, my dog is cute.", return_tensors="pt")
     inputs = processor(text=summary_text, return_tensors="pt")
     #speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
     speech_audio  = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
-    return summary_text, speech_audio
 interface = gr.Interface(
     fn=summarize_text_and_speak,

 from datasets import load_dataset
 from transformers import pipeline
 import gradio as gr
+import tempfile
 summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
 speech = pipeline("text-to-speech", model="microsoft/speecht5_tts")
 def summarize_text_and_speak(prompt):
     summary = summarizer(prompt, max_length=150, min_length=30, do_sample=False)
     summary_text = summary[0]['summary_text']
     #inputs = processor(text="Hello, my dog is cute.", return_tensors="pt")
     inputs = processor(text=summary_text, return_tensors="pt")
     #speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
     speech_audio  = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
+    #sf.write("speech.wav", speech.numpy(), samplerate=16000)
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp_file:
+        sf.write(tmp_file.name, speech_audio.numpy(), samplerate=16000)
+        audio_path = tmp_file.name
+    return summary_text, audio_path
 interface = gr.Interface(
     fn=summarize_text_and_speak,