IndicF5

Runtime error

App Files Files Community

high77 commited on Nov 19, 2025

Commit

5ad586c

verified ·

1 Parent(s): 4c5529f

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -41

app.py CHANGED Viewed

@@ -8,25 +8,23 @@ import gradio as gr
 import soundfile as sf
 from transformers import AutoModel
 from typing import Tuple
-import torchaudio
-import librosa
-import scipy
-# ---------- LANGUAGE DETECTION (11 INDIAN SCRIPTS ONLY) ----------
 def detect_language_from_text(text: str) -> str:
     scripts = {
         'as': set('অআইঈউঊঋএঐওঔকখগঘঙচছজঝঞটঠডঢণতথদধনপফবভমযরলশষসহক্ষজ্ঞড়ঢ়'),
         'bn': set('অআইঈউঊঋএঐওঔকখগঘঙচছজঝঞটঠডঢণতথদধনপফবভমযরলশষসহক্ষজ্ঞড়ঢ়'),
         'gu': set('અઆઇઈઉઊઋએઐઓઔકખગઘઙચછજઝઞટઠડઢણતથદધનપફબભમયરલળવશષસહક્ષજ્ઞ'),
         'hi': set('अआइईउऊऋएऐओऔकखगघङचछजझञटठडढणतथदधनपफबभमयरलळवशषसहक्षज्ञ'),
-        'kn': set('ಅಆಇಈଉଊଋಏఐಓಔಕಖಗಘಙಚಛಜಝಞಟಠడಢಣತಥದಧನಪಫಬಭಮయರಲಳವಶಷಸಹಕ್ಷಜ್ಞ'),
-        'ml': set('അആഇഈഉഊऋഏఐഓഔകഖഗഘങചഛജഝഞടഠഡഢണതഥദധനപഫബഭമയരലളവശഷസഹക്ഷജ്ഞ'),
-        'mr': set('अआइईउऊऋएऐओऔकखगघङचछजझञटठडढणतथदधनपफबभमयरलळवशषसहক্ষज्ञ'),
         'or': set('ଅଆଇଈଉଊଋୠଌଏଐଓଔକଖଗଘଙଚଛଜଝଞଟଠଡଢଣତଥଦଧନପଫବଭମୟରଳୱଶଷସହକ୍ଷୟଲଵଡ଼ଢ଼'),
-        'pa': set('ਅਆਇਈਉਊਏਐਓऔਕਖਗਘਙਚਛਜਝਞਟਠਡਢਣਤਥਦਧਨਪਫਬਭਮਯਰਲਲ਼ਵਸ਼਷ਸਹਕਸ਼ਜ਼'),
-        'ta': set('அஆஇஈஉஊऋஎஐஒஔகஙசஜஞடணதநபமயரலவழளஶஷஸஹக்ஷஜ்ஞ'),
-        'te': set('అఆఇఈଉஊऋఎஐఒఔకఖగఘఙచఛజఝఞటఠడఢణతథదధనపఫబభమయరలళవశషసహక్షజ్ఞ'),
     }
     txt = set(text.replace(' ', ''))
     for lang, chars in scripts.items():
@@ -45,6 +43,7 @@ class ProsodyNeutraliser:
         if audio.dtype != np.float32:
             audio = audio.astype(np.float32)
         if src_sr != self.sr:
             audio = torchaudio.functional.resample(torch.from_numpy(audio), src_sr, self.sr).numpy()
         # very light pitch/energy flattening
         f0, voiced_flag, _ = librosa.pyin(audio, fmin=librosa.note_to_hz('C2'),
@@ -82,35 +81,20 @@ def synthesize_speech(text, ref_audio, ref_text):
     else:
         return "Error: Invalid reference audio input."
-    # Detect languages
-    tgt_lang = detect_language_from_text(text)
-    ref_lang = detect_language_from_text(ref_text)
-    # If target is Odia but reference is not, neutralise prosody
-    if tgt_lang == 'or' and ref_lang != 'or':
-        neutraliser = ProsodyNeutraliser()
-        sample_rate, audio_data = neutraliser.neutralise_prosody(audio_data, sample_rate)
     # Save reference audio directly without resampling
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as temp_audio:
         sf.write(temp_audio.name, audio_data, samplerate=sample_rate, format='WAV')
         temp_audio.flush()
-    # Load with soundfile (not torchaudio) and convert to tensor
-    wav, sr = sf.read(temp_audio.name)
-    wav = torch.from_numpy(wav).float()
-    if sr != 24000:
-        wav = torchaudio.functional.resample(wav, sr, 24000)
-    # Feed tensor directly to model – never touches torchaudio.load
-    out = model(text, ref_audio_path=temp_audio.name, ref_text=ref_text)
     # Normalize output and save
-    if out.dtype == np.int16:
-        out = out.astype(np.float32) / 32768.0
-    return 24000, out
 # Load TTS model
 repo_id = "ai4bharat/IndicF5"
 model = AutoModel.from_pretrained(repo_id, trust_remote_code=True)
@@ -118,41 +102,40 @@ device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 print("Device", device)
 model = model.to(device)
-# Example Data (Multiple Examples)
 EXAMPLES = [
     {
         "audio_name": "PAN_F (Happy)",
         "audio_url": "https://github.com/AI4Bharat/IndicF5/raw/refs/heads/main/prompts/PAN_F_HAPPY_00002.wav",
-        "ref_text": "ਇੱਕ ਗ੍ਰਾਹਕ ਨੇ ਸਾਡੀ ਬੇਮਿਸਾਲ ਸੇਵਾ ਬਾਰੇ ਦਿਲੋਂਗਵਾਹੀ ਦਿੱਤੀ ਜਿਸ ਨਾਲ ਸਾਨੂੰ ਅਨੰਦ ਮਹਿਸੂਸ ਹੋਇਆ।",
-        "synth_text": "ରେ ହେବା ଉଚିତ କି, ମୁଁ କାଳେ ନିଜ ଅଳିଆ"
     },
     {
         "audio_name": "TAM_F (Happy)",
         "audio_url": "https://github.com/AI4Bharat/IndicF5/raw/refs/heads/main/prompts/TAM_F_HAPPY_00001.wav",
         "ref_text": "நான் நெனச்ச மாதிரியே அமேசான்ல பெரிய தள்ளுபடி வந்திருக்கு. கம்மி காசுக்கே அந்தப் புது சேம்சங் மாடல வாங்கிடலாம்.",
-        "synth_text": "ୟେ ଭୁଲ,ତଥାପି ବାଛିବାକୁ ଚେଷ୍ଟା କରେ"
     },
     {
         "audio_name": "MAR_F (WIKI)",
         "audio_url": "https://github.com/AI4Bharat/IndicF5/raw/refs/heads/main/prompts/MAR_F_WIKI_00001.wav",
         "ref_text": "दिगंतराव्दारे अंतराळ कक्षेतला कचरा चिन्हित करण्यासाठी प्रयत्न केले जात आहे.",
-        "synth_text": "ନ ହେଲେ ତାକୁ ଛାଡ଼ି ଦେବ।"
     },
     {
         "audio_name": "MAR_M (WIKI)",
         "audio_url": "https://github.com/AI4Bharat/IndicF5/raw/refs/heads/main/prompts/MAR_M_WIKI_00001.wav",
         "ref_text": "या प्रथाला एकोणीसशे पंचातर ईसवी पासून भारतीय दंड संहिताची धारा चारशे अठ्ठावीस आणि चारशे एकोणतीसच्या अन्तर्गत निषेध केला.",
-        "synth_text": "ବୁଝା ତ ପଡ଼ୁଛି, ମାତ୍ର ତଥାପି।"
     },
     {
         "audio_name": "KAN_F (Happy)",
         "audio_url": "https://github.com/AI4Bharat/IndicF5/raw/refs/heads/main/prompts/KAN_F_HAPPY_00001.wav",
-        "ref_text": "ನಮ್‌ ಫ್ರిజ್ಜಲ್ಲಿ  ಕೂలಿಂಗ్‌ ಸమస্যೆ ಆಗಿ నాన్‌ భాళ దినదಿಂದ ఒద్దాడ్తిద్దె, ఆద్రె అద్నీగ మెకానిక్ ఆగిరో నిమ్‌ సహాయ్దింద బగెహరిస్కోబోదు అంతాగి నిరాళ ఆయ్తు నంగె.",
-        "synth_text": "ଦାକ୍ତର ଔଷଧ ଦେଇ ଦିଅନ୍ତି।  ଆମେ ଔଷଧ କିଣି ଆଣୁ। ଦାକ୍ତର ପାଖକୁ ବି ଚାଲିଗଲେ।"
     },
 ]
 # Preload all example audios
 for example in EXAMPLES:
     sample_rate, audio_data = load_audio_from_url(example["audio_url"])

 import soundfile as sf
 from transformers import AutoModel
 from typing import Tuple
+# ---------- LANGUAGE DETECTION (11 INDIAN LANGUAGES ONLY) ----------
 def detect_language_from_text(text: str) -> str:
+    """Return one of: as, bn, gu, hi, kn, ml, mr, or, pa, ta, te."""
+    # 11 Indian scripts – Latin (English) is **not** included
     scripts = {
         'as': set('অআইঈউঊঋএঐওঔকখগঘঙচছজঝঞটঠডঢণতথদধনপফবভমযরলশষসহক্ষজ্ঞড়ঢ়'),
         'bn': set('অআইঈউঊঋএঐওঔকখগঘঙচছজঝঞটঠডঢণতথদধনপফবভমযরলশষসহক্ষজ্ঞড়ঢ়'),
         'gu': set('અઆઇઈઉઊઋએઐઓઔકખગઘઙચછજઝઞટઠડઢણતથદધનપફબભમયરલળવશષસહક્ષજ્ઞ'),
         'hi': set('अआइईउऊऋएऐओऔकखगघङचछजझञटठडढणतथदधनपफबभमयरलळवशषसहक्षज्ञ'),
+        'kn': set('ಅಆಇಈಉಊಋಏಐಓಔಕಖಗಘಙಚಛಜಝಞಟಠಡಢಣತಥದಧನಪಫಬಭಮಯರಲಳವಶಷಸಹಕ್ಷಜ್ಞ'),
+        'ml': set('അആഇഈഉഊഋഏഐഓഔകഖഗഘങചഛജഝഞടഠഡഢണതഥദധനപഫബഭമയരലളവശഷസഹക്ഷജ്ഞ'),
+        'mr': set('अआइईउऊऋएऐओऔकखगघङचछजझञटठडढणतथदधनपफबभमयरलळवशषसहक्षज्ञ'),
         'or': set('ଅଆଇଈଉଊଋୠଌଏଐଓଔକଖଗଘଙଚଛଜଝଞଟଠଡଢଣତଥଦଧନପଫବଭମୟରଳୱଶଷସହକ୍ଷୟଲଵଡ଼ଢ଼'),
+        'pa': set('ਅਆਇਈਉਊਏਐਓਔਕਖਗਘਙਚਛਜਝਞਟਠਡਢਣਤਥਦਧਨਪਫਬਭਮਯਰਲਲ਼ਵਸ਼਷ਸਹਕਸ਼ਜ਼'),
+        'ta': set('அஆஇஈஉஊ஋எஐஒஔகஙசஜஞடணதநபமயரலவழளஶஷஸஹக்ஷஜ்ஞ'),
+        'te': set('అఆఇఈఉఊఋఎఐఒఔకఖగఘఙచఛజఝఞటఠడఢణతథదధనపఫబభమయరలళవశషసహక్షజ్ఞ'),
     }
     txt = set(text.replace(' ', ''))
     for lang, chars in scripts.items():
         if audio.dtype != np.float32:
             audio = audio.astype(np.float32)
         if src_sr != self.sr:
+            import torchaudio
             audio = torchaudio.functional.resample(torch.from_numpy(audio), src_sr, self.sr).numpy()
         # very light pitch/energy flattening
         f0, voiced_flag, _ = librosa.pyin(audio, fmin=librosa.note_to_hz('C2'),
     else:
         return "Error: Invalid reference audio input."
     # Save reference audio directly without resampling
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as temp_audio:
         sf.write(temp_audio.name, audio_data, samplerate=sample_rate, format='WAV')
         temp_audio.flush()
+    audio = model(text, ref_audio_path=temp_audio.name, ref_text=ref_text)
     # Normalize output and save
+    if audio.dtype == np.int16:
+        audio = audio.astype(np.float32) / 32768.0
+    return 24000, audio
 # Load TTS model
 repo_id = "ai4bharat/IndicF5"
 model = AutoModel.from_pretrained(repo_id, trust_remote_code=True)
 print("Device", device)
 model = model.to(device)
+# ---------- PRE-FETCH EXAMPLES (ONLY ODIA SYNTH TEXT) ----------
 EXAMPLES = [
     {
         "audio_name": "PAN_F (Happy)",
         "audio_url": "https://github.com/AI4Bharat/IndicF5/raw/refs/heads/main/prompts/PAN_F_HAPPY_00002.wav",
+        "ref_text": "ਇੱਕ ਗ੍ਰਾਹਕ ਨੇ ਸਾਡੀ ਬੇਮిసਾਲ ਸੇਵਾ ਬਾਰੇ ਦਿਲੋਂਗਵਾਹੀ ਦਿੱਤੀ ਜਿਸ ਨਾਲ ਸਾਨੂੰ ਅਨੰਦ ਮਹਿਸੂਸ ਹੋਇਆ।",
+        "synth_text": "ମୁଁ ଆପଣଙ୍କୁ ସ୍ୱାଗତ କରିବାକୁ ଚାହୁଁଛି, କେମିତି ଅଛନ୍ତି?"
     },
     {
         "audio_name": "TAM_F (Happy)",
         "audio_url": "https://github.com/AI4Bharat/IndicF5/raw/refs/heads/main/prompts/TAM_F_HAPPY_00001.wav",
         "ref_text": "நான் நெனச்ச மாதிரியே அமேசான்ல பெரிய தள்ளுபடி வந்திருக்கு. கம்மி காசுக்கே அந்தப் புது சேம்சங் மாடல வாங்கிடலாம்.",
+        "synth_text": "ନମସ୍କାର, କେମିତି ଅଛନ୍ତି?"
     },
     {
         "audio_name": "MAR_F (WIKI)",
         "audio_url": "https://github.com/AI4Bharat/IndicF5/raw/refs/heads/main/prompts/MAR_F_WIKI_00001.wav",
         "ref_text": "दिगंतराव्दारे अंतराळ कक्षेतला कचरा चिन्हित करण्यासाठी प्रयत्न केले जात आहे.",
+        "synth_text": "ଆପଣ କିପରି ଅଛନ୍ତି? ମୁଁ ଆପଣଙ୍କୁ ସ୍ୱାଗତ କରିବାକୁ ଚାହୁଁଛି।"
     },
     {
         "audio_name": "MAR_M (WIKI)",
         "audio_url": "https://github.com/AI4Bharat/IndicF5/raw/refs/heads/main/prompts/MAR_M_WIKI_00001.wav",
         "ref_text": "या प्रथाला एकोणीसशे पंचातर ईसवी पासून भारतीय दंड संहिताची धारा चारशे अठ्ठावीस आणि चारशे एकोणतीसच्या अन्तर्गत निषेध केला.",
+        "synth_text": "ମୁଁ ଆଜି ବହୁତ ଖୁସି ଅଛି କାରଣ ମୋର କାମ ସଫଳ ହୋଇଛି।"
     },
     {
         "audio_name": "KAN_F (Happy)",
         "audio_url": "https://github.com/AI4Bharat/IndicF5/raw/refs/heads/main/prompts/KAN_F_HAPPY_00001.wav",
+        "ref_text": "ನಮ್‌ ಫ್ರಿಜ್ಜಲ್ಲಿ  ಕೂలಿಂಗ್‌ ಸమಸ്യೆ ಆಗಿ ನಾನ್‌ ಭಾಳ ದినದಿಂದ ಒದ್ದಾಡ್ತಿದ್ದೆ, ಆದ್ರೆ ಅದ್ನೀಗ ಮೆకానిక್ ಆಗಿರೋ ನిమ್‌ ಸಹಾಯ್ದಿಂದ ಬಗೆಹರಿಸ್ಕೋಬోదು ಅಂತಾಗಿ ನಿರಾಳ ಆಯ್ತು ನಂಗೆ.",
+        "synth_text": "ନମସ୍କାର, କେମିତି ଅଛନ୍ତି?"
     },
 ]
 # Preload all example audios
 for example in EXAMPLES:
     sample_rate, audio_data = load_audio_from_url(example["audio_url"])