Spaces:

RP-Azul
/

P2

Sleeping

RP-Azul commited on Nov 5, 2024

Commit

092f19b

verified ·

1 Parent(s): db6a6ed

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,21 +7,23 @@ from transformers import pipeline
 import gradio as gr
 summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
 # code from the Model card
 processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
 model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
 vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
-speech = pipeline("text-to-speech", model="microsoft/speecht5_tts")
 def summarize_text_and_speak(prompt):
     summary = summarizer(prompt, max_length=150, min_length=30, do_sample=False)
     summary_text = summary[0]['summary_text']
     #inputs = processor(text="Hello, my dog is cute.", return_tensors="pt")
     inputs = processor(text=summary_text, return_tensors="pt")
     #speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
-    speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
-    return summary_text, audio["audio"]
 interface = gr.Interface(
     fn=summarize_text_and_speak,

 import gradio as gr
 summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
+speech = pipeline("text-to-speech", model="microsoft/speecht5_tts")
 # code from the Model card
 processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
 model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
 vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
+speaker_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+speaker_embeddings = torch.tensor(speaker_dataset[0]["xvector"]).unsqueeze(0)
 def summarize_text_and_speak(prompt):
     summary = summarizer(prompt, max_length=150, min_length=30, do_sample=False)
     summary_text = summary[0]['summary_text']
     #inputs = processor(text="Hello, my dog is cute.", return_tensors="pt")
     inputs = processor(text=summary_text, return_tensors="pt")
     #speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
+    speech_audio  = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
+    return summary_text, speech_audio
 interface = gr.Interface(
     fn=summarize_text_and_speak,