ollui commited on
Commit
d123c51
·
verified ·
1 Parent(s): 191e8dc

Create app.py

Browse files
Files changed (1) hide show
  1. app.py +36 -0
app.py ADDED
@@ -0,0 +1,36 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import torch
2
+ import torchaudio
3
+ from transformers import AutoProcessor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
4
+ import gradio as gr
5
+ import soundfile as sf
6
+
7
+ # Tải model và processor
8
+ print("Đang tải mô hình TTS Tây Tạng từ Facebook MMS...")
9
+ processor = AutoProcessor.from_pretrained("facebook/mms-tts-bod")
10
+ model = SpeechT5ForTextToSpeech.from_pretrained("facebook/mms-tts-bod")
11
+ vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
12
+
13
+ # Tải speaker embedding mẫu
14
+ speaker_embedding = torch.randn(1, 512) # MMS không có mẫu sẵn nên dùng random embedding
15
+
16
+ # Hàm xử lý TTS
17
+ def tts(text):
18
+ inputs = processor(text=text, return_tensors="pt")
19
+ with torch.no_grad():
20
+ speech = model.generate_speech(
21
+ inputs["input_ids"],
22
+ speaker_embedding=speaker_embedding,
23
+ vocoder=vocoder
24
+ )
25
+ sf.write("output.wav", speech.numpy(), samplerate=16000)
26
+ return "output.wav"
27
+
28
+ # Giao diện Gradio
29
+ interface = gr.Interface(
30
+ fn=tts,
31
+ inputs=gr.Textbox(label="Nhập văn bản tiếng Tây Tạng"),
32
+ outputs=gr.Audio(label="Giọng đọc TTS (Tây Tạng)"),
33
+ title="TTS Tiếng Tây Tạng (Meta MMS)"
34
+ )
35
+
36
+ interface.launch()