Spaces:

Somalitts
/

ash_voice

Runtime error

App Files Files Community

Somalitts commited on Jul 19, 2025

Commit

fc0b1ae

verified ·

1 Parent(s): 9ea02c4

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -42

app.py CHANGED Viewed

@@ -10,6 +10,14 @@ from pydantic import BaseModel
 import logging
 import tempfile
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 from speechbrain.inference.speaker import EncoderClassifier
@@ -24,11 +32,6 @@ logging.info(f"Using device: {device}")
 # Faylasha codadka tixraaca
 VOICE_SAMPLE_FILES = ["1.wav"]
-# --- ISBEDDELKA UGU MUHIIMSAN ---
-# Deji hal meel oo la oggol yahay oo wax lagu kaydin karo (writable cache directory)
-CACHE_DIR = "/tmp/huggingface_cache"
-os.makedirs(CACHE_DIR, exist_ok=True)
 EMBEDDING_DIR = "/tmp/speaker_embeddings"
 os.makedirs(EMBEDDING_DIR, exist_ok=True)
@@ -45,20 +48,14 @@ async def startup_event():
     Shaqadan waxay shaqaynaysaa hal mar marka uu barnaamijku bilaabmo.
     """
     global processor, model, vocoder, speaker_model
-    logging.info("Loading models...")
     try:
-        # U sheeg dhammaan model-yada inay isticmaalaan CACHE_DIR
-        processor = SpeechT5Processor.from_pretrained(
-            "microsoft/speecht5_tts", cache_dir=CACHE_DIR
-        )
-        model = SpeechT5ForTextToSpeech.from_pretrained(
-            "Somalitts/8aad", cache_dir=CACHE_DIR
-        ).to(device)
-        vocoder = SpeechT5HifiGan.from_pretrained(
-            "microsoft/speecht5_hifigan", cache_dir=CACHE_DIR
-        ).to(device)
-        # Sidoo kale u sheeg speaker model-ka meesha uu wax ku kaydinayo
         speaker_model = EncoderClassifier.from_hparams(
             source="speechbrain/spkrec-xvect-voxceleb",
             run_opts={"device": device},
@@ -67,6 +64,9 @@ async def startup_event():
         logging.info("Models loaded successfully.")
     except Exception as e:
         logging.error(f"Error loading models: {e}")
         raise RuntimeError(f"Could not load models: {e}")
     logging.info("Pre-caching speaker embeddings...")
@@ -107,31 +107,7 @@ def get_speaker_embedding(wav_file_path):
         logging.error(f"Could not process audio file {wav_file_path}. Error: {e}")
         raise HTTPException(status_code=500, detail=f"Failed to process reference audio: {wav_file_path}")
-# (Inta kale ee koodhka isma beddelin)
-# --- Shaqooyinka Hagaajinta Qoraalka ---
-number_words = {
-    0: "eber", 1: "kow", 2: "labo", 3: "saddex", 4: "afar", 5: "shan",
-    6: "lix", 7: "toddobo", 8: "siddeed", 9: "sagaal", 10: "toban",
-    20: "labaatan", 30: "soddon", 40: "afartan", 50: "konton",
-    60: "lixdan", 70: "toddobaatan", 80: "sideetan", 90: "sagaashan",
-    100: "boqol", 1000: "kun"
-}
-def number_to_words_recursive(n):
-    if n in number_words: return number_words[n]
-    if n < 20: return str(n)
-    if n < 100: return number_words[n//10 * 10] + (" iyo " + number_words[n%10] if n%10 else "")
-    if n < 1000: return (number_to_words_recursive(n//100) + " boqol" if n//100 > 1 else "boqol") + (" iyo " + number_to_words_recursive(n%100) if n%100 else "")
-    if n < 1000000: return (number_to_words_recursive(n//1000) + " kun") + (" iyo " + number_to_words_recursive(n%1000) if n%1000 else "")
-    return str(n)
-def replace_numbers_with_words(text):
-    return re.sub(r'\b\d+\b', lambda m: number_to_words_recursive(int(m.group())), text)
-def normalize_text(text):
-    text = text.lower()
-    text = replace_numbers_with_words(text)
-    text = re.sub(r'[^\w\s\']', '', text)
-    text = re.sub(r'\s+', ' ', text).strip()
-    return text
 class TTSRequest(BaseModel):
     text: str
@@ -141,6 +117,11 @@ class TTSRequest(BaseModel):
 async def get_available_voices():
     return {"available_voices": VOICE_SAMPLE_FILES}
 @app.post("/speak")
 async def text_to_speech_endpoint(payload: TTSRequest, background_tasks: BackgroundTasks):
     if not payload.text or not payload.text.strip():

 import logging
 import tempfile
+# --- ISBEDDELKA UGU MUHIIMSAN ---
+# Deji 'environment variable' si aad ugu qasabto Hugging Face inuu isticmaalo /tmp
+# Tani waa inay ka horraysaa dhammaan 'import'-yada transformers
+CACHE_DIR = "/tmp/huggingface_cache"
+os.environ['HF_HOME'] = CACHE_DIR
+os.environ['TRANSFORMERS_CACHE'] = CACHE_DIR
+os.environ['HF_DATASETS_CACHE'] = CACHE_DIR
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 from speechbrain.inference.speaker import EncoderClassifier
 # Faylasha codadka tixraaca
 VOICE_SAMPLE_FILES = ["1.wav"]
 EMBEDDING_DIR = "/tmp/speaker_embeddings"
 os.makedirs(EMBEDDING_DIR, exist_ok=True)
     Shaqadan waxay shaqaynaysaa hal mar marka uu barnaamijku bilaabmo.
     """
     global processor, model, vocoder, speaker_model
+    logging.info(f"Models will be cached in: {os.environ.get('HF_HOME')}")
     try:
+        # Hadda looma baahna in la gudbiyo 'cache_dir' mar kasta, laakiin way fiican tahay in la daayo
+        processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
+        model = SpeechT5ForTextToSpeech.from_pretrained("Somalitts/8aad").to(device)
+        vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan").to(device)
+        # savedir wuxuu weli muhiim u yahay speechbrain
         speaker_model = EncoderClassifier.from_hparams(
             source="speechbrain/spkrec-xvect-voxceleb",
             run_opts={"device": device},
         logging.info("Models loaded successfully.")
     except Exception as e:
         logging.error(f"Error loading models: {e}")
+        # Ku dar faahfaahin dheeri ah oo ku saabsan qaladka si loo fahmo
+        import traceback
+        logging.error(traceback.format_exc())
         raise RuntimeError(f"Could not load models: {e}")
     logging.info("Pre-caching speaker embeddings...")
         logging.error(f"Could not process audio file {wav_file_path}. Error: {e}")
         raise HTTPException(status_code=500, detail=f"Failed to process reference audio: {wav_file_path}")
+# --- Inta kale ee koodhka isma beddelin ---
 class TTSRequest(BaseModel):
     text: str
 async def get_available_voices():
     return {"available_voices": VOICE_SAMPLE_FILES}
+# ... (Inta kale ee koodhka waa sidii hore)
+def normalize_text(text):
+    # Shaqooyinkaaga normalize halkan geli
+    return text
 @app.post("/speak")
 async def text_to_speech_endpoint(payload: TTSRequest, background_tasks: BackgroundTasks):
     if not payload.text or not payload.text.strip():