Spaces:

hafsaabd82
/

Audio-Analyzer

Sleeping

App Files Files Community

hafsaabd82 commited on Dec 9, 2025

Commit

c026df6

verified ·

1 Parent(s): a2dbf4f

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -4

app.py CHANGED Viewed

@@ -17,6 +17,7 @@ import time
 import shutil
 from starlette.concurrency import run_in_threadpool
 import gc
 try:
     import noisereduce as nr
     HAVE_NOISEREDUCE = True
@@ -50,6 +51,9 @@ model_name = "large-v2"
 ALIGN_MODEL_MAP = {
     "ur": "kingabzpro/wav2vec2-large-xls-r-300m-Urdu"}
 global_align_model_cache = {}
 class TimelineItem(BaseModel):
     start: float
     end: float
@@ -217,10 +221,16 @@ def analyze_audio(audio_file: str,
         model = whisperx.load_model(model_name, device, compute_type="float32")
         audio_loaded = whisperx.load_audio(audio_for_model)
         print("Detecting language...")
-        lang_result = model.transcribe(audio_loaded, batch_size=4, language=None)
-        language_code_detected = lang_result.get("language") or lang_result.get("detected_language")
-        languageCode = language_code_detected
-        results.languageCode = languageCode
         print("Transcribing audio...")
         transcribed_language = "ur"
         result = model.transcribe(audio_loaded, batch_size=BATCH_SIZE, language= transcribed_language

 import shutil
 from starlette.concurrency import run_in_threadpool
 import gc
+from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
 try:
     import noisereduce as nr
     HAVE_NOISEREDUCE = True
 ALIGN_MODEL_MAP = {
     "ur": "kingabzpro/wav2vec2-large-xls-r-300m-Urdu"}
 global_align_model_cache = {}
+processor = AutoFeatureExtractor.from_pretrained("facebook/mms-lid-4017")
+model = Wav2Vec2ForSequenceClassification.from_pretrained("facebook/mms-lid-4017")
+model.to("cpu")
 class TimelineItem(BaseModel):
     start: float
     end: float
         model = whisperx.load_model(model_name, device, compute_type="float32")
         audio_loaded = whisperx.load_audio(audio_for_model)
         print("Detecting language...")
+        inputs = processor(audio_loaded, sampling_rate=target_sr, return_tensors="pt")
+        with torch.no_grad():
+            outputs = model(**inputs).logits
+        lang_id = torch.argmax(outputs, dim=-1)[0].item()
+        detected_language = model.config.id2label[lang_id]
+        languageCode = detected_language
+        # lang_result = model.transcribe(audio_loaded, batch_size=4, language=None)
+        # language_code_detected = lang_result.get("language") or lang_result.get("detected_language")
+        # languageCode = language_code_detected
+        # results.languageCode = languageCode
         print("Transcribing audio...")
         transcribed_language = "ur"
         result = model.transcribe(audio_loaded, batch_size=BATCH_SIZE, language= transcribed_language