import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
import gradio as gr
import scipy.io.wavfile

# Load processor và mô hình MMS TTS cho Chuvash
processor = AutoProcessor.from_pretrained("facebook/mms-tts-chv")
model = AutoModelForSpeechSeq2Seq.from_pretrained("facebook/mms-tts-chv")

def tts(text):
    inputs = processor(text, return_tensors="pt")
    with torch.no_grad():
        generated_ids = model.generate(**inputs)
    audio = processor.batch_decode(generated_ids, output_attentions=False)[0]

    # audio trả về là list float, cần chuyển sang int16 để lưu file wav
    audio_np = (torch.tensor(audio) * 32767).numpy().astype("int16")
    scipy.io.wavfile.write("output.wav", 22050, audio_np)
    return "output.wav"

# Tạo giao diện web với Gradio
iface = gr.Interface(fn=tts, inputs="text", outputs="audio", title="TTS Chuvash Facebook MMS")
iface.launch()