import torch from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq import gradio as gr import scipy.io.wavfile # Load processor & model processor = AutoProcessor.from_pretrained("facebook/mms-tts-bod") model = AutoModelForSpeechSeq2Seq.from_pretrained("facebook/mms-tts-bod") # Chuyển văn bản thành tiếng nói def tts(text): inputs = processor(text=text, return_tensors="pt") with torch.no_grad(): waveform = model.generate(**inputs) waveform = waveform.squeeze().cpu().numpy() # Trả về sóng âm, mẫu 16000 Hz return (16000, waveform) # Giao diện Gradio demo = gr.Interface( fn=tts, inputs=gr.Textbox(label="Nhập văn bản tiếng Tây Tạng"), outputs=gr.Audio(label="Kết quả TTS", type="numpy"), title="MMS TTS - Tây Tạng" ) demo.launch()