Spaces:

WRX020510
/

assignment1

Sleeping

WRX020510 commited on Mar 1, 2025

Commit

2ba3da6

verified ·

1 Parent(s): 5f79f2b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,8 +1,12 @@
 #Import part
 from transformers import pipeline
 import streamlit as st
-from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech
 import torch
 # Use function for the implementation
@@ -31,31 +35,35 @@ def text2story(text):
 # text2audio
 def text2audio(story_text):
-    # tts_pipeline = pipeline("text-to-speech", model="suno/bark-small")
-    # audio_data = tts_pipeline(story_text)
-    # audio_buffer = io.BytesIO()
-    # wavfile.write(audio_buffer, rate=audio_data["sampling_rate"], data=audio_data["audio"])
-    # audio_buffer.seek(0)
-    # return {
-    #     'audio': audio_buffer.getvalue(),
-    #     'sampling_rate': audio_data["sampling_rate"]
-    # }
-    inputs = processor(text=story_text, return_tensors="pt")
-    with torch.no_grad():
-        speech = model.generate(**inputs)
-    audio_data = speech.cpu().numpy().squeeze()
-    audio_buffer = io.BytesIO()
-    wavfile.write(audio_buffer, rate=16000, data=audio_data)  # 16kHz 采样率
-    audio_buffer.seek(0)
-    return {'audio': audio_buffer.getvalue(), 'sampling_rate': 16000}
 # program main part

 #Import part
 from transformers import pipeline
 import streamlit as st
 import torch
+import io
+import scipy.io.wavfile as wavfile
+from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech
 # Use function for the implementation
 # text2audio
 def text2audio(story_text):
+    tts_pipeline = pipeline("text-to-speech", model="suno/bark-small")
+    audio_data = tts_pipeline(story_text)
+    audio_buffer = io.BytesIO()
+    wavfile.write(audio_buffer, rate=audio_data["sampling_rate"], data=audio_data["audio"])
+    audio_buffer.seek(0)
+    return {
+        'audio': audio_buffer.getvalue(),
+        'sampling_rate': audio_data["sampling_rate"]
+    }
+    # processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
+    # model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
+    # inputs = processor(text=story_text, return_tensors="pt")
+    # with torch.no_grad():
+    #     speech = model.generate(**inputs)
+    # audio_data = speech.cpu().numpy().squeeze()
+    # audio_buffer = io.BytesIO()
+    # wavfile.write(audio_buffer, rate=16000, data=audio_data)  # 16kHz 采样率
+    # audio_buffer.seek(0)
+    # return {'audio': audio_buffer.getvalue(), 'sampling_rate': 16000}
 # program main part