Spaces:

BissakaAI
/

spaceb

Sleeping

BissakaAI commited on 18 days ago

Commit

5d41ed7

verified ·

1 Parent(s): c2ca4c0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
 # ----------------------------
 # Config
 # ----------------------------
-ASR_MODEL_ID = "openai/whisper-small"
 HF_TOKEN = os.getenv("HF_TOKEN")
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 DTYPE = torch.float16 if DEVICE == "cuda" else torch.float32
@@ -76,9 +76,15 @@ def transcribe_audio(audio):
     with torch.no_grad():
         generated_ids = model.generate(
-            **inputs,
-            max_new_tokens=256
-        )
     transcription = processor.batch_decode(
         generated_ids,

 # ----------------------------
 # Config
 # ----------------------------
+ASR_MODEL_ID = "openai/whisper-large-v3"
 HF_TOKEN = os.getenv("HF_TOKEN")
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 DTYPE = torch.float16 if DEVICE == "cuda" else torch.float32
     with torch.no_grad():
         generated_ids = model.generate(
+    **inputs,
+    max_new_tokens=256,
+    language=None,
+    task="transcribe",
+    prompt_ids=processor.get_prompt_ids(
+        text="This audio may be in Yoruba, Hausa, Igbo, Nigerian Pidgin or English."
+    )
+)
     transcription = processor.batch_decode(
         generated_ids,