Spaces:

Athspi
/

Ai-audio

Running

Athspi commited on Jan 12, 2025

Commit

1ba1d48

verified ·

1 Parent(s): 2df8446

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -132,6 +132,9 @@ LANGUAGE_NAME_TO_CODE = {
 # Reverse mapping of language codes to full language names
 CODE_TO_LANGUAGE_NAME = {v: k for k, v in LANGUAGE_NAME_TO_CODE.items()}
 def detect_language(audio_file):
     """Detect the language of the audio file."""
     # Load the Whisper model (use "base" for faster detection)
@@ -182,10 +185,16 @@ def transcribe_audio(audio_file, language="Auto Detect", model_size="Base (Faste
         detected_language = language
     else:
         # Use the selected Whisper model
-        if model_size == "Systran/faster-whisper-large-v3":
             # Use faster-whisper for the Systran model
-            model = WhisperModel(model_size, device="cuda" if torch.cuda.is_available() else "cpu")
-            segments, info = model.transcribe(processed_audio_path, beam_size=5)
             transcription = " ".join([segment.text for segment in segments])
             detected_language_code = info.language
             detected_language = CODE_TO_LANGUAGE_NAME.get(detected_language_code, "Unknown Language")

 # Reverse mapping of language codes to full language names
 CODE_TO_LANGUAGE_NAME = {v: k for k, v in LANGUAGE_NAME_TO_CODE.items()}
+# Device and compute type for faster-whisper
+device, torch_dtype = ("cuda", "float32") if torch.cuda.is_available() else ("cpu", "int8")
 def detect_language(audio_file):
     """Detect the language of the audio file."""
     # Load the Whisper model (use "base" for faster detection)
         detected_language = language
     else:
         # Use the selected Whisper model
+        if model_size == "Systran Faster Whisper Large v3":
             # Use faster-whisper for the Systran model
+            model = WhisperModel(MODELS[model_size], device=device, compute_type=torch_dtype)
+            segments, info = model.transcribe(
+                processed_audio_path,
+                task="transcribe",
+                word_timestamps=True,
+                repetition_penalty=1.1,
+                temperature=[0.0, 0.1, 0.2, 0.3, 0.4, 0.6, 0.8, 1.0],
+            )
             transcription = " ".join([segment.text for segment in segments])
             detected_language_code = info.language
             detected_language = CODE_TO_LANGUAGE_NAME.get(detected_language_code, "Unknown Language")