Spaces:

mdAmin313
/

text-voice

Runtime error

File size: 2,118 Bytes

import gradio as gr
import torch
import soundfile as sf
import tempfile

from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer

# Load model
device = "cuda" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained(
    "ai4bharat/indic-parler-tts"
).to(device)

tokenizer = AutoTokenizer.from_pretrained("ai4bharat/indic-parler-tts")
description_tokenizer = AutoTokenizer.from_pretrained(
    model.config.text_encoder._name_or_path
)

# Default style prompt (you can change this in UI later)
DEFAULT_DESCRIPTION = (
    "A clear and natural speaker with expressive tone, "
    "high quality recording, close microphone."
)

def generate_speech(text, description):
    if not text:
        return None

    if not description:
        description = DEFAULT_DESCRIPTION

    # Tokenize
    desc_inputs = description_tokenizer(description, return_tensors="pt").to(device)
    text_inputs = tokenizer(text, return_tensors="pt").to(device)

    # Generate audio
    with torch.no_grad():
        audio = model.generate(
            input_ids=desc_inputs.input_ids,
            attention_mask=desc_inputs.attention_mask,
            prompt_input_ids=text_inputs.input_ids,
            prompt_attention_mask=text_inputs.attention_mask,
        )

    audio = audio.cpu().numpy().squeeze()

    # Save to temp file
    out_path = tempfile.mktemp(suffix=".wav")
    sf.write(out_path, audio, model.config.sampling_rate)

    return out_path


# UI
with gr.Blocks() as demo:
    gr.Markdown("# 🎙️ Indic Parler TTS (AI4Bharat)")

    text_input = gr.Textbox(
        label="Text to speak",
        placeholder="Enter Hindi, English, or any Indic language text..."
    )

    description_input = gr.Textbox(
        label="Voice Style Description (optional)",
        value=DEFAULT_DESCRIPTION
    )

    btn = gr.Button("Generate Speech 🔊")

    audio_output = gr.Audio(label="Generated Audio")

    btn.click(
        fn=generate_speech,
        inputs=[text_input, description_input],
        outputs=audio_output
    )

demo.launch()