Spaces:

sathvikt
/

TTS2

Build error

App Files Files Community

sathvikt commited on about 5 hours ago

Commit

02c124a

verified ·

1 Parent(s): e8bdfd6

Update app.py

Browse files

Files changed (1) hide show

app.py +49 -51

app.py CHANGED Viewed

@@ -1,82 +1,80 @@
 import gradio as gr
 import torch
 import soundfile as sf
 import tempfile
-from parler_tts import ParlerTTSForConditionalGeneration
-from transformers import AutoTokenizer
-import os
-from huggingface_hub import login
-login(token=os.getenv("HF_TOKEN"))
-MODEL_NAME = "ai4bharat/indic-parler-tts"
 device = "cuda" if torch.cuda.is_available() else "cpu"
 print("🚀 Using device:", device)
-print("⏳ Loading Kannada TTS model...")
-model = ParlerTTSForConditionalGeneration.from_pretrained(
-    MODEL_NAME
-).to(device)
-tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
-description_tokenizer = AutoTokenizer.from_pretrained(
-    model.config.text_encoder._name_or_path
 )
-print("✅ Model loaded successfully")
 # =========================================================
 # TTS FUNCTION
 # =========================================================
-def generate_kannada_tts(prompt_text):
-    prompt_text = str(prompt_text).strip()
-    if not prompt_text:
         return None
-    description = (
-        "A calm Kannada male speaker with natural pronunciation, "
-        "clear studio quality audio, smooth narration, "
-        "and no background noise."
     )
-    description_inputs = description_tokenizer(
-        description,
-        return_tensors="pt"
-    ).to(device)
-    prompt_inputs = tokenizer(
-        prompt_text,
-        return_tensors="pt"
-    ).to(device)
-    with torch.no_grad():
-        generation = model.generate(
-            input_ids=description_inputs.input_ids,
-            prompt_input_ids=prompt_inputs.input_ids
-        )
-    audio = generation.cpu().numpy().squeeze()
-    temp_wav = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
-    sf.write(temp_wav.name, audio, model.config.sampling_rate)
     return temp_wav.name
 demo = gr.Interface(
-    fn=generate_kannada_tts,
-    inputs=gr.Textbox(
-        label="Enter Kannada Text",
-        placeholder="ನಮಸ್ಕಾರ, ನನ್ನ ಹೆಸರು ಅಥ್ಮಿಕ"
-    ),
     outputs=gr.Audio(label="Generated Kannada Speech"),
-    title="Kannada Text To Speech using AI4Bharat",
-    description="Deep Learning based Kannada TTS model for project presentation"
 )
-demo.launch()

+import os
 import gradio as gr
 import torch
 import soundfile as sf
 import tempfile
+from transformers import AutoModel
+# =========================================================
+# CONFIG
+# =========================================================
+MODEL_NAME = "ai4bharat/IndicF5"
+HF_TOKEN = os.getenv("HF_TOKEN")
 device = "cuda" if torch.cuda.is_available() else "cpu"
 print("🚀 Using device:", device)
+print("⏳ Loading IndicF5 model...")
+model = AutoModel.from_pretrained(
+    MODEL_NAME,
+    trust_remote_code=True,
+    token=HF_TOKEN
 )
+print("✅ IndicF5 model loaded")
 # =========================================================
 # TTS FUNCTION
 # =========================================================
+def generate_indicf5_tts(text, ref_audio, ref_text):
+    if not text.strip():
+        return None
+    if ref_audio is None:
         return None
+    audio = model(
+        text,
+        ref_audio_path=ref_audio,
+        ref_text=ref_text
     )
+    temp_wav = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
+    # normalize if int16
+    import numpy as np
+    audio = np.array(audio)
+    if audio.dtype == np.int16:
+        audio = audio.astype(np.float32) / 32768.0
+    sf.write(temp_wav.name, audio, 24000)
     return temp_wav.name
+# =========================================================
+# UI
+# =========================================================
 demo = gr.Interface(
+    fn=generate_indicf5_tts,
+    inputs=[
+        gr.Textbox(
+            label="Text to Synthesize (Kannada)",
+            placeholder="ನಮಸ್ಕಾರ, ಇದು ನನ್ನ ಕನ್ನಡ TTS ಪ್ರಾಜೆಕ್ಟ್"
+        ),
+        gr.Audio(
+            type="filepath",
+            label="Reference Prompt Audio"
+        ),
+        gr.Textbox(
+            label="Reference Audio Transcript",
+            placeholder="Reference audio spoken text"
+        )
+    ],
     outputs=gr.Audio(label="Generated Kannada Speech"),
+    title="IndicF5 Kannada Text To Speech",
+    description="Near-human Kannada TTS using AI4Bharat IndicF5"
 )
+demo.launch()