Spaces:

BarBar288
/

Chatbot

Running

App Files Files Community

BarBar288 commited on Mar 13

Commit

c8216a6

verified ·

1 Parent(s): 8132a50

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -1

app.py CHANGED Viewed

@@ -56,6 +56,16 @@ object_detection_pipeline = pipeline("object-detection", model="facebook/detr-re
 video_classification_pipeline = pipeline("video-classification", model="facebook/timesformer-base-finetuned-k400")
 summarization_pipeline = pipeline("summarization", model="facebook/bart-large-cnn")
 # Use a different model for text-to-audio if stabilityai/stable-audio-open-1.0 is not supported
 try:
     text_to_audio_pipeline = pipeline("text-to-audio", model="stabilityai/stable-audio-open-1.0", use_auth_token=read_token)
@@ -63,6 +73,7 @@ except ValueError as e:
     logger.error(f"Error loading stabilityai/stable-audio-open-1.0: {e}")
     logger.info("Falling back to a different text-to-audio model.")
     text_to_audio_pipeline = pipeline("text-to-audio", model="microsoft/speecht5_tts")
 audio_classification_pipeline = pipeline("audio-classification", model="facebook/wav2vec2-base")
@@ -140,7 +151,8 @@ def summarize_text(text):
     return result[0]["summary_text"]
 def text_to_audio(text):
-    result = text_to_audio_pipeline(text)
     return result["audio"]
 def audio_classification(audio):

 video_classification_pipeline = pipeline("video-classification", model="facebook/timesformer-base-finetuned-k400")
 summarization_pipeline = pipeline("summarization", model="facebook/bart-large-cnn")
+# Load speaker embeddings for text-to-audio
+def load_speaker_embeddings(model_name):
+    if model_name == "microsoft/speecht5_tts":
+        logger.info("Loading speaker embeddings for SpeechT5")
+        from datasets import load_dataset
+        dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+        speaker_embeddings = torch.tensor(dataset[7306]["xvector"]).unsqueeze(0)  # Example speaker
+        return speaker_embeddings
+    return None
 # Use a different model for text-to-audio if stabilityai/stable-audio-open-1.0 is not supported
 try:
     text_to_audio_pipeline = pipeline("text-to-audio", model="stabilityai/stable-audio-open-1.0", use_auth_token=read_token)
     logger.error(f"Error loading stabilityai/stable-audio-open-1.0: {e}")
     logger.info("Falling back to a different text-to-audio model.")
     text_to_audio_pipeline = pipeline("text-to-audio", model="microsoft/speecht5_tts")
+    speaker_embeddings = load_speaker_embeddings("microsoft/speecht5_tts")
 audio_classification_pipeline = pipeline("audio-classification", model="facebook/wav2vec2-base")
     return result[0]["summary_text"]
 def text_to_audio(text):
+    global speaker_embeddings
+    result = text_to_audio_pipeline(text, speaker_embeddings=speaker_embeddings)
     return result["audio"]
 def audio_classification(audio):