Spaces:

Athspi
/

Ai-audio

Running

App Files Files Community

Athspi commited on Jan 12

Commit

c885037

verified ·

1 Parent(s): 8d2b72a

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -20

app.py CHANGED Viewed

@@ -149,31 +149,28 @@ def detect_language(audio_file):
         return "Error: No audio file uploaded."
     try:
-        # Convert audio to WAV format
-        wav_path = convert_to_wav(audio_file)
-        logger.info(f"Audio file converted to WAV: {wav_path}")
         # Define device and compute type for faster-whisper
         device = "cuda" if torch.cuda.is_available() else "cpu"
         compute_type = "float32" if device == "cuda" else "int8"
-        logger.info(f"Using device: {device}, compute_type: {compute_type}")
         # Load the faster-whisper model for language detection
         model = WhisperModel(MODELS["Faster Whisper Large v3"], device=device, compute_type=compute_type)
-        logger.info("Faster-Whisper model loaded successfully.")
         # Detect the language using faster-whisper
-        segments, info = model.transcribe(wav_path, task="translate", language=None)
         detected_language_code = info.language
-        logger.info(f"Detected language code: {detected_language_code}")
         # Get the full language name from the code
         detected_language = CODE_TO_LANGUAGE_NAME.get(detected_language_code, "Unknown Language")
-        logger.info(f"Detected language: {detected_language}")
-        # Clean up temporary WAV file
-        os.remove(wav_path)
-        logger.info("Temporary WAV file removed.")
         return f"Detected Language: {detected_language}"
     except Exception as e:
@@ -317,15 +314,11 @@ def transcribe_audio(audio_file, language="Auto Detect", model_size="Faster Whis
         return "Error: No audio file uploaded."
     try:
-        # Convert audio to WAV format
-        wav_path = convert_to_wav(audio_file)
         # Convert audio to 16kHz mono for better compatibility
-        audio = AudioSegment.from_file(wav_path)
         audio = audio.set_frame_rate(16000).set_channels(1)
-        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as temp_processed:
-            processed_audio_path = temp_processed.name
-            audio.export(processed_audio_path, format="wav")
         # Load the appropriate model
         if model_size == "Faster Whisper Large v3":
@@ -363,7 +356,6 @@ def transcribe_audio(audio_file, language="Auto Detect", model_size="Faster Whis
         # Clean up processed audio file
         os.remove(processed_audio_path)
-        os.remove(wav_path)
         # Return transcription and detected language
         return f"Detected Language: {detected_language}\n\nTranscription:\n{transcription}"

         return "Error: No audio file uploaded."
     try:
         # Define device and compute type for faster-whisper
         device = "cuda" if torch.cuda.is_available() else "cpu"
         compute_type = "float32" if device == "cuda" else "int8"
         # Load the faster-whisper model for language detection
         model = WhisperModel(MODELS["Faster Whisper Large v3"], device=device, compute_type=compute_type)
+        # Convert audio to 16kHz mono for better compatibility
+        audio = AudioSegment.from_file(audio_file)
+        audio = audio.set_frame_rate(16000).set_channels(1)
+        processed_audio_path = "processed_audio.wav"
+        audio.export(processed_audio_path, format="wav")
         # Detect the language using faster-whisper
+        segments, info = model.transcribe(processed_audio_path, task="translate", language=None)
         detected_language_code = info.language
         # Get the full language name from the code
         detected_language = CODE_TO_LANGUAGE_NAME.get(detected_language_code, "Unknown Language")
+        # Clean up processed audio file
+        os.remove(processed_audio_path)
         return f"Detected Language: {detected_language}"
     except Exception as e:
         return "Error: No audio file uploaded."
     try:
         # Convert audio to 16kHz mono for better compatibility
+        audio = AudioSegment.from_file(audio_file)
         audio = audio.set_frame_rate(16000).set_channels(1)
+        processed_audio_path = "processed_audio.wav"
+        audio.export(processed_audio_path, format="wav")
         # Load the appropriate model
         if model_size == "Faster Whisper Large v3":
         # Clean up processed audio file
         os.remove(processed_audio_path)
         # Return transcription and detected language
         return f"Detected Language: {detected_language}\n\nTranscription:\n{transcription}"