from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
import torch
import gradio as gr
import scipy

# Chọn mô hình
model_id = "facebook/mms-tts-bod"

# Load processor và model
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id)
model.eval()

# Tạo hàm TTS
def tts_fn(text):
    inputs = processor(text=text, return_tensors="pt")
    with torch.no_grad():
        output = model.generate(**inputs)
    audio = processor.batch_decode(output, skip_special_tokens=True)[0]
    audio_array = processor.decode(output[0], skip_special_tokens=True, return_tensors="np")
    return (22050, audio_array)

# Giao diện Gradio
demo = gr.Interface(fn=tts_fn, inputs=gr.Textbox(label="Nhập tiếng Tây Tạng"), outputs="audio")
demo.launch()