Spaces:

Jerich
/

TalklasApp

Paused

App Files Files Community

Jerich commited on Apr 9, 2025

Commit

f8dca01

verified ·

1 Parent(s): faf4aa8

Fix torch import error in translate-audio endpoint

Browse files

Files changed (1) hide show

app.py +8 -4

app.py CHANGED Viewed

@@ -6,8 +6,10 @@ import logging
 import threading
 import tempfile
 import uuid
 import numpy as np
 import soundfile as sf
 from fastapi import FastAPI, HTTPException, UploadFile, File, Form
 from fastapi.responses import JSONResponse
 from typing import Dict, Any, Optional
@@ -50,12 +52,10 @@ def load_models_task():
     try:
         loading_in_progress = True
-        # Import heavy libraries only when needed
         logger.info("Starting to load STT model...")
-        import torch
         from transformers import WhisperProcessor, WhisperForConditionalGeneration
-        # Load STT model
         try:
             logger.info("Loading Whisper model...")
             model_status["stt"] = "loading"
@@ -177,15 +177,18 @@ async def translate_audio(audio: UploadFile = File(...), source_lang: str = Form
     try:
         # Read and preprocess the audio
         waveform, sample_rate = sf.read(temp_path)
         if sample_rate != 16000:
             logger.info(f"Resampling audio from {sample_rate} Hz to 16000 Hz")
-            import librosa
             waveform = librosa.resample(waveform, orig_sr=sample_rate, target_sr=16000)
         # Process the audio with Whisper
         device = "cuda" if torch.cuda.is_available() else "cpu"
         inputs = stt_processor(waveform, sampling_rate=16000, return_tensors="pt").to(device)
         with torch.no_grad():
             generated_ids = stt_model.generate(**inputs)
             transcription = stt_processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
@@ -210,6 +213,7 @@ async def translate_audio(audio: UploadFile = File(...), source_lang: str = Form
             "output_audio": None
         }
     finally:
         os.unlink(temp_path)
 if __name__ == "__main__":

 import threading
 import tempfile
 import uuid
+import torch
 import numpy as np
 import soundfile as sf
+import librosa
 from fastapi import FastAPI, HTTPException, UploadFile, File, Form
 from fastapi.responses import JSONResponse
 from typing import Dict, Any, Optional
     try:
         loading_in_progress = True
+        # Load STT model
         logger.info("Starting to load STT model...")
         from transformers import WhisperProcessor, WhisperForConditionalGeneration
         try:
             logger.info("Loading Whisper model...")
             model_status["stt"] = "loading"
     try:
         # Read and preprocess the audio
+        logger.info(f"Reading audio file: {temp_path}")
         waveform, sample_rate = sf.read(temp_path)
+        logger.info(f"Audio loaded: sample_rate={sample_rate}, waveform_shape={waveform.shape}")
         if sample_rate != 16000:
             logger.info(f"Resampling audio from {sample_rate} Hz to 16000 Hz")
             waveform = librosa.resample(waveform, orig_sr=sample_rate, target_sr=16000)
         # Process the audio with Whisper
         device = "cuda" if torch.cuda.is_available() else "cpu"
+        logger.info(f"Using device: {device}")
         inputs = stt_processor(waveform, sampling_rate=16000, return_tensors="pt").to(device)
+        logger.info("Audio processed, generating transcription...")
         with torch.no_grad():
             generated_ids = stt_model.generate(**inputs)
             transcription = stt_processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
             "output_audio": None
         }
     finally:
+        logger.info(f"Cleaning up temporary file: {temp_path}")
         os.unlink(temp_path)
 if __name__ == "__main__":