Spaces:

Athspi
/

Ai-audio

Running

App Files Files Community

Athspi commited on Jan 12

Commit

ba6b40b

verified ·

1 Parent(s): cfd9ff1

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -12

app.py CHANGED Viewed

@@ -4,6 +4,7 @@ import torch
 import os
 from pydub import AudioSegment
 from transformers import pipeline
 # Mapping of model names to Whisper model sizes
 MODELS = {
@@ -11,7 +12,8 @@ MODELS = {
     "Base (Faster)": "base",
     "Small (Balanced)": "small",
     "Medium (Accurate)": "medium",
-    "Large (Most Accurate)": "large"
 }
 # Fine-tuned models for specific languages
@@ -180,19 +182,28 @@ def transcribe_audio(audio_file, language="Auto Detect", model_size="Base (Faste
         detected_language = language
     else:
         # Use the selected Whisper model
-        model = whisper.load_model(MODELS[model_size])
-        # Transcribe the audio
-        if language == "Auto Detect":
-            result = model.transcribe(processed_audio_path, fp16=False)  # Auto-detect language
-            detected_language_code = result.get("language", "unknown")
             detected_language = CODE_TO_LANGUAGE_NAME.get(detected_language_code, "Unknown Language")
         else:
-            language_code = LANGUAGE_NAME_TO_CODE.get(language, "en")  # Default to English if not found
-            result = model.transcribe(processed_audio_path, language=language_code, fp16=False)
-            detected_language = language
-        transcription = result["text"]
     # Clean up processed audio file
     os.remove(processed_audio_path)

 import os
 from pydub import AudioSegment
 from transformers import pipeline
+from faster_whisper import WhisperModel  # Import faster-whisper
 # Mapping of model names to Whisper model sizes
 MODELS = {
     "Base (Faster)": "base",
     "Small (Balanced)": "small",
     "Medium (Accurate)": "medium",
+    "Large (Most Accurate)": "large",
+    "Systran Faster Whisper Large v3": "Systran/faster-whisper-large-v3"  # Add the new model
 }
 # Fine-tuned models for specific languages
         detected_language = language
     else:
         # Use the selected Whisper model
+        if model_size == "Systran/faster-whisper-large-v3":
+            # Use faster-whisper for the Systran model
+            model = WhisperModel(model_size, device="cuda" if torch.cuda.is_available() else "cpu")
+            segments, info = model.transcribe(processed_audio_path, beam_size=5)
+            transcription = " ".join([segment.text for segment in segments])
+            detected_language_code = info.language
             detected_language = CODE_TO_LANGUAGE_NAME.get(detected_language_code, "Unknown Language")
         else:
+            # Use the standard Whisper model
+            model = whisper.load_model(MODELS[model_size])
+            # Transcribe the audio
+            if language == "Auto Detect":
+                result = model.transcribe(processed_audio_path, fp16=False)  # Auto-detect language
+                detected_language_code = result.get("language", "unknown")
+                detected_language = CODE_TO_LANGUAGE_NAME.get(detected_language_code, "Unknown Language")
+            else:
+                language_code = LANGUAGE_NAME_TO_CODE.get(language, "en")  # Default to English if not found
+                result = model.transcribe(processed_audio_path, language=language_code, fp16=False)
+                detected_language = language
+            transcription = result["text"]
     # Clean up processed audio file
     os.remove(processed_audio_path)