Spaces:

nexusbert
/

milestone3

Sleeping

App Files Files Community

nexusbert commited on Oct 10, 2025

Commit

4f2310e

1 Parent(s): 652b643

igbo fix

Browse files

Files changed (1) hide show

app.py +21 -4

app.py CHANGED Viewed

@@ -122,13 +122,27 @@ def _get_igbo_asr():
         logger.exception(f"Failed to load Igbo ASR model: {e}")
         igbo_model, igbo_processor = None, None
         return None, None
-def _run_whisper(model: WhisperForConditionalGeneration, proc: WhisperProcessor, audio_array: np.ndarray) -> str:
     try:
         device = next(model.parameters()).device
         inputs = proc(audio_array, sampling_rate=16000, return_tensors="pt")
         input_features = inputs.input_features.to(device)
         with torch.no_grad():
-            predicted_ids = model.generate(input_features)
         text_list = proc.batch_decode(predicted_ids, skip_special_tokens=True)
         return text_list[0] if text_list else ""
     except Exception:
@@ -184,7 +198,7 @@ def speech_to_text(audio_data: bytes) -> str:
     igbo_result = _get_igbo_asr()
     if igbo_result[0] is not None and igbo_result[1] is not None:
         igbo_model, igbo_proc = igbo_result
-        igbo_text = _run_whisper(igbo_model, igbo_proc, audio_array)
         if igbo_text and igbo_text.strip():
             logger.info("Using Igbo ASR result")
             return igbo_text
@@ -233,7 +247,10 @@ YORUBA_WORDS = [
 ]
 IGBO_WORDS = [
-    "ugbo","akụkọ","mmiri","ala","ọrụ","ncheta","ọhụrụ","ugwu","nri","ahụhụ"
 ]
 def detect_language(text: str) -> str:

         logger.exception(f"Failed to load Igbo ASR model: {e}")
         igbo_model, igbo_processor = None, None
         return None, None
+def _run_whisper(model: WhisperForConditionalGeneration, proc: WhisperProcessor, audio_array: np.ndarray, language: str = None) -> str:
     try:
         device = next(model.parameters()).device
         inputs = proc(audio_array, sampling_rate=16000, return_tensors="pt")
         input_features = inputs.input_features.to(device)
+        generation_kwargs = {
+            "max_length": 448,
+            "num_beams": 1,
+            "do_sample": False,
+            "early_stopping": True
+        }
+        if language == "igbo" or "igbo" in str(model.config).lower():
+            generation_kwargs["language"] = "igbo"
+            generation_kwargs["task"] = "transcribe"
         with torch.no_grad():
+            predicted_ids = model.generate(input_features, **generation_kwargs)
         text_list = proc.batch_decode(predicted_ids, skip_special_tokens=True)
         return text_list[0] if text_list else ""
     except Exception:
     igbo_result = _get_igbo_asr()
     if igbo_result[0] is not None and igbo_result[1] is not None:
         igbo_model, igbo_proc = igbo_result
+        igbo_text = _run_whisper(igbo_model, igbo_proc, audio_array, language="igbo")
         if igbo_text and igbo_text.strip():
             logger.info("Using Igbo ASR result")
             return igbo_text
 ]
 IGBO_WORDS = [
+    "ugbo","akụkọ","mmiri","ala","ọrụ","ncheta","ọhụrụ","ugwu","nri","ahụhụ",
+    "kedu","ka","si","na","bụ","nke","a","na","ọ","bụ","na","n'ime","n'elu","n'okpuru",
+    "n'akụkụ","n'ebe","n'ụlọ","n'ọfịs","n'ụlọ","n'ime","n'elu","n'okpuru","n'akụkụ",
+    "ọrụ","ugbo","mmiri","ala","nri","ahụhụ","ọhụrụ","ncheta","akụkọ","ugwu"
 ]
 def detect_language(text: str) -> str: