Spaces:

BissakaAI
/

ASR_new

Sleeping

App Files Files Community

BissakaAI commited on 21 days ago

Commit

28a23d6

verified ·

1 Parent(s): 0ff596e

Upload 2 files

Browse files

Files changed (2) hide show

app.py +68 -0
requirements.txt +7 -0

app.py ADDED Viewed

	@@ -0,0 +1,68 @@

+import os
+import torch
+import gradio as gr
+import librosa
+from transformers import (
+    AutoProcessor,
+    SeamlessM4Tv2ForSpeechToText
+)
+ASR_MODEL_ID = "facebook/seamless-m4t-v2-large"
+HF_TOKEN = os.getenv("HF_TOKEN")
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+print("Loading ASR processor...")
+processor = AutoProcessor.from_pretrained(
+    ASR_MODEL_ID,
+    token=HF_TOKEN
+)
+print("🔹 Loading ASR model...")
+asr_model = SeamlessM4Tv2ForSpeechToText.from_pretrained(
+    ASR_MODEL_ID,
+    token=HF_TOKEN
+).to(DEVICE)
+asr_model.eval()
+print("ASR model loaded successfully")
+def transcribe_audio(audio_path):
+    if audio_path is None:
+        return "No audio provided."
+    # Load audio
+    speech, sr = librosa.load(audio_path, sr=16000)
+    inputs = processor(
+        audios=speech,
+        sampling_rate=16000,
+        return_tensors="pt"
+    ).to(DEVICE)
+    with torch.no_grad():
+        predicted_ids = asr_model.generate(
+            inputs["input_features"],
+            max_new_tokens=300
+        )
+    transcription = processor.batch_decode(
+        predicted_ids,
+        skip_special_tokens=True
+    )[0]
+    return transcription.strip()
+demo = gr.Interface(
+    fn=transcribe_audio,
+    inputs=gr.Audio(type="filepath", label="Upload Speech"),
+    outputs=gr.Textbox(label="Transcription"),
+    title="HealthAtlas ASR Service",
+    description="Speech → Text using SeamlessM4T v2",
+    allow_flagging="never"
+)
+if __name__ == "__main__":
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+torch
+transformers
+accelerate
+sentencepiece
+soundfile
+librosa
+gradio