Spaces:

BissakaAI
/

spaceb

Sleeping

App Files Files Community

BissakaAI commited on 23 days ago

Commit

46b214b

verified ·

1 Parent(s): 761e783

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -25

app.py CHANGED Viewed

@@ -5,16 +5,12 @@ import librosa
 import numpy as np
 from transformers import AutoProcessor, SeamlessM4Tv2ForSpeechToText
-# ----------------------------
-# Config
-# ----------------------------
 ASR_MODEL_ID = "facebook/seamless-m4t-v2-large"
 HF_TOKEN = os.getenv("HF_TOKEN")
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
-# ----------------------------
-# Load Model
-# ----------------------------
 processor = AutoProcessor.from_pretrained(
     ASR_MODEL_ID,
     token=HF_TOKEN
@@ -27,14 +23,12 @@ asr_model = SeamlessM4Tv2ForSpeechToText.from_pretrained(
 asr_model.eval()
-# ----------------------------
-# Audio Handling (FIXED)
-# ----------------------------
 def preprocess_audio(audio):
     if audio is None:
         return None
-    # Handle all Gradio formats safely
     if isinstance(audio, tuple):
         if isinstance(audio[0], np.ndarray):
             speech = audio[0]
@@ -45,11 +39,10 @@ def preprocess_audio(audio):
     else:
         return None
-    # Convert stereo → mono
     if speech.ndim > 1:
         speech = np.mean(speech, axis=1)
-    # Ensure float32
     speech = speech.astype(np.float32)
     # Force 16kHz
@@ -62,9 +55,8 @@ def preprocess_audio(audio):
     return speech
-# ----------------------------
-# ASR Function
-# ----------------------------
 def transcribe_audio(audio):
     speech = preprocess_audio(audio)
@@ -72,19 +64,14 @@ def transcribe_audio(audio):
         return "No audio provided."
     inputs = processor(
-        audios=speech,
         sampling_rate=16000,
         return_tensors="pt"
     ).to(DEVICE)
-    forced_decoder_ids = processor.get_decoder_prompt_ids(
-        task="transcribe"
-    )
     with torch.no_grad():
         generated_ids = asr_model.generate(
             inputs["input_features"],
-            forced_decoder_ids=forced_decoder_ids,
             max_new_tokens=256
         )
@@ -95,15 +82,13 @@ def transcribe_audio(audio):
     return transcription.strip()
-# ----------------------------
-# Gradio UI
-# ----------------------------
 demo = gr.Interface(
     fn=transcribe_audio,
     inputs=gr.Audio(type="numpy", label="Upload or Record Speech"),
     outputs=gr.Textbox(label="Transcription"),
     title="HealthAtlas ASR Service",
-    description="Automatic language detection | Emergency-safe"
 )
 if __name__ == "__main__":

 import numpy as np
 from transformers import AutoProcessor, SeamlessM4Tv2ForSpeechToText
 ASR_MODEL_ID = "facebook/seamless-m4t-v2-large"
 HF_TOKEN = os.getenv("HF_TOKEN")
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 processor = AutoProcessor.from_pretrained(
     ASR_MODEL_ID,
     token=HF_TOKEN
 asr_model.eval()
+# Audio preprocessing
 def preprocess_audio(audio):
     if audio is None:
         return None
+    # Gradio returns (sr, np.ndarray) OR (np.ndarray, sr)
     if isinstance(audio, tuple):
         if isinstance(audio[0], np.ndarray):
             speech = audio[0]
     else:
         return None
+    # Stereo → mono
     if speech.ndim > 1:
         speech = np.mean(speech, axis=1)
     speech = speech.astype(np.float32)
     # Force 16kHz
     return speech
+#ASR
 def transcribe_audio(audio):
     speech = preprocess_audio(audio)
         return "No audio provided."
     inputs = processor(
+        audio=speech,
         sampling_rate=16000,
         return_tensors="pt"
     ).to(DEVICE)
     with torch.no_grad():
         generated_ids = asr_model.generate(
             inputs["input_features"],
             max_new_tokens=256
         )
     return transcription.strip()
 demo = gr.Interface(
     fn=transcribe_audio,
     inputs=gr.Audio(type="numpy", label="Upload or Record Speech"),
     outputs=gr.Textbox(label="Transcription"),
     title="HealthAtlas ASR Service",
+    description="Automatic language detection (Seamless-M4T v2)"
 )
 if __name__ == "__main__":