Spaces:

BissakaAI
/

spaceb

Sleeping

BissakaAI commited on 20 days ago

Commit

624a6c7

verified ·

1 Parent(s): d76d28d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,18 +2,13 @@ import os
 import torch
 import gradio as gr
 import librosa
-from transformers import (
-    AutoProcessor,
-    SeamlessM4Tv2ForSpeechToText
-)
 ASR_MODEL_ID = "facebook/seamless-m4t-v2-large"
 HF_TOKEN = os.getenv("HF_TOKEN")
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
-print("Loading ASR processor...")
 processor = AutoProcessor.from_pretrained(
     ASR_MODEL_ID,
     token=HF_TOKEN
@@ -26,13 +21,12 @@ asr_model = SeamlessM4Tv2ForSpeechToText.from_pretrained(
 ).to(DEVICE)
 asr_model.eval()
-print("ASR model loaded successfully")
 def transcribe_audio(audio_path):
     if audio_path is None:
         return "No audio provided."
-    # Load audio
     speech, sr = librosa.load(audio_path, sr=16000)
     inputs = processor(
@@ -41,27 +35,31 @@ def transcribe_audio(audio_path):
         return_tensors="pt"
     ).to(DEVICE)
     with torch.no_grad():
-        predicted_ids = asr_model.generate(
-            **inputs,
-            task="transcribe",
-            max_new_tokens=300
         )
     transcription = processor.batch_decode(
-        predicted_ids,
         skip_special_tokens=True
     )[0]
     return transcription.strip()
 demo = gr.Interface(
     fn=transcribe_audio,
     inputs=gr.Audio(type="filepath", label="Upload Speech"),
     outputs=gr.Textbox(label="Transcription"),
     title="HealthAtlas ASR Service",
-    description="Speech → Text using SeamlessM4T v2"
 )
 if __name__ == "__main__":

 import torch
 import gradio as gr
 import librosa
+from transformers import AutoProcessor, SeamlessM4Tv2ForSpeechToText
 ASR_MODEL_ID = "facebook/seamless-m4t-v2-large"
 HF_TOKEN = os.getenv("HF_TOKEN")
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+print("🔹 Loading processor...")
 processor = AutoProcessor.from_pretrained(
     ASR_MODEL_ID,
     token=HF_TOKEN
 ).to(DEVICE)
 asr_model.eval()
+print("✅ ASR model loaded")
 def transcribe_audio(audio_path):
     if audio_path is None:
         return "No audio provided."
     speech, sr = librosa.load(audio_path, sr=16000)
     inputs = processor(
         return_tensors="pt"
     ).to(DEVICE)
+    forced_decoder_ids = processor.get_decoder_prompt_ids(
+        task="transcribe",
+        language="eng"
+    )
     with torch.no_grad():
+        generated_ids = asr_model.generate(
+            inputs["input_features"],
+            forced_decoder_ids=forced_decoder_ids,
+            max_new_tokens=256
         )
     transcription = processor.batch_decode(
+        generated_ids,
         skip_special_tokens=True
     )[0]
     return transcription.strip()
 demo = gr.Interface(
     fn=transcribe_audio,
     inputs=gr.Audio(type="filepath", label="Upload Speech"),
     outputs=gr.Textbox(label="Transcription"),
     title="HealthAtlas ASR Service",
+    description="Speech → Text (SeamlessM4T v2)"
 )
 if __name__ == "__main__":