BreezyVoice

Running

App Files Files Community

JacobLinCool commited on Feb 15, 2025

Commit

5a26d97

verified ·

1 Parent(s): 596dc9e

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -10

app.py CHANGED Viewed

@@ -12,6 +12,8 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
 import os
 import sys
 ROOT_DIR = os.path.dirname(os.path.abspath(__file__))
@@ -63,6 +65,7 @@ def postprocess(speech, top_db=60, hop_length=220, win_length=440):
     speech = torch.concat([speech, torch.zeros(1, int(target_sr * 0.2))], dim=1)
     return speech
 def generate_audio(tts_text, prompt_text, prompt_wav_upload, prompt_wav_record, seed, select_which):
     if select_which == "上傳檔案" and prompt_wav_upload is not None:
         prompt_wav = prompt_wav_upload
@@ -123,6 +126,7 @@ def demo_get_audio(tts_text):
     speech, sample_rate = torchaudio.load(sample_wav)
     return sample_rate, speech
 def main():
     with gr.Blocks(title="BreezyVoice 語音合成系統", theme="default") as demo:
         # Title and About section at the top
@@ -133,14 +137,9 @@ def main():
         with gr.Row():
             gr.Image(value="https://raw.githubusercontent.com/Splend1d/BreezyVoice/main/images/flowchart.png", interactive=False, scale=3)
         gr.Markdown(
-            """#### 此沙盒使用 Huggingface CPU，請預期大於200 秒的推理時間，您可以考慮以下方法加速：
-            1. **強烈建議**複製這個 Space（Duplicate this space），以分散流量！
-            2. 複製至本地GPU執行（請參考[指南](https://huggingface.co/docs/hub/en/spaces-overview)）或使用[kaggle](https://www.kaggle.com/code/a24998667/breezyvoice-playground)
-            3. 複製至本地CPU執行（請參考[指南](https://huggingface.co/docs/hub/en/spaces-overview)）
-            為了加快推理速度，g2pw注音標註並未被啟動。
-            免責聲明：此沙盒在一次性容器地端執行，關閉後檔案將遭到刪除。此沙盒不屬於聯發創新基地，聯發創新基地無法獲得任何使用者輸入。"""
         )
         # All content arranged in a single column
@@ -151,16 +150,16 @@ def main():
             # Grouping prompt audio inputs and auto speech recognition in one block using Markdown
             gr.Markdown("### 步驟 1. 音訊樣本輸入 & 音訊樣本文本輸入")
-            gr.Markdown("選擇prompt音訊檔案或錄製prompt音訊 (5~15秒)，並手動校對自動產生的音訊樣本文本。")
             prompt_wav_upload = gr.Audio(
                 sources='upload',
                 type='filepath',
-                label='選擇prompt音訊檔案（確保取樣率不低於16khz）'
             )
             prompt_wav_record = gr.Audio(
                 sources='microphone',
                 type='filepath',
-                label='錄製prompt音訊檔案'
             )
             with gr.Blocks():

 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
+import spaces
 import os
 import sys
 ROOT_DIR = os.path.dirname(os.path.abspath(__file__))
     speech = torch.concat([speech, torch.zeros(1, int(target_sr * 0.2))], dim=1)
     return speech
+@spaces.GPU
 def generate_audio(tts_text, prompt_text, prompt_wav_upload, prompt_wav_record, seed, select_which):
     if select_which == "上傳檔案" and prompt_wav_upload is not None:
         prompt_wav = prompt_wav_upload
     speech, sample_rate = torchaudio.load(sample_wav)
     return sample_rate, speech
 def main():
     with gr.Blocks(title="BreezyVoice 語音合成系統", theme="default") as demo:
         # Title and About section at the top
         with gr.Row():
             gr.Image(value="https://raw.githubusercontent.com/Splend1d/BreezyVoice/main/images/flowchart.png", interactive=False, scale=3)
         gr.Markdown(
+            """#### 此沙盒使用 Huggingface Zero GPU (A100)
+            為了加快推理速度，g2pw注音標註並未被啟動。"""
         )
         # All content arranged in a single column
             # Grouping prompt audio inputs and auto speech recognition in one block using Markdown
             gr.Markdown("### 步驟 1. 音訊樣本輸入 & 音訊樣本文本輸入")
+            gr.Markdown("選擇 prompt 音訊檔案或錄製 prompt 音訊 (5~15秒)，並手動校對自動產生的音訊樣本文本。")
             prompt_wav_upload = gr.Audio(
                 sources='upload',
                 type='filepath',
+                label='選擇 prompt 音訊檔案（確保取樣率不低於 16khz）'
             )
             prompt_wav_record = gr.Audio(
                 sources='microphone',
                 type='filepath',
+                label='錄製 prompt 音訊檔案'
             )
             with gr.Blocks():