Spaces:

eduard76
/

Torstens_voice_assistent

Sleeping

App Files Files Community

eduard76 commited on Oct 6, 2025

Commit

faef6ba

verified ·

1 Parent(s): 7728870

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -0

app.py CHANGED Viewed

@@ -210,19 +210,36 @@ class ProfessionalVoiceAgent:
             logger.info(f"Audio duration: {duration_seconds:.2f}s, sample_rate: {sample_rate}Hz")
             # Convert to float32 if needed
             if audio_data.dtype == np.int16:
                 audio_data = audio_data.astype(np.float32) / 32768.0
             elif audio_data.dtype == np.int32:
                 audio_data = audio_data.astype(np.float32) / 2147483648.0
             # Handle stereo to mono conversion
             if len(audio_data.shape) > 1 and audio_data.shape[1] > 1:
                 audio_data = np.mean(audio_data, axis=1)
             # Resample to 16kHz if needed (Whisper requirement)
             if sample_rate != 16000:
                 import librosa
                 audio_data = librosa.resample(audio_data, orig_sr=sample_rate, target_sr=16000)
             # Trim silence and limit audio length for speed (max 30 seconds)
             max_samples = 16000 * 30  # 30 seconds at 16kHz
@@ -238,6 +255,8 @@ class ProfessionalVoiceAgent:
                     return_tensors="pt"
                 ).input_features.to(self.device)
                 # Generate token ids - optimized for speed
                 with torch.cuda.amp.autocast(enabled=self.device.type == "cuda"):
                     with torch.no_grad():
@@ -246,6 +265,8 @@ class ProfessionalVoiceAgent:
                             language="en",
                             task="transcribe"
                         )
                         predicted_ids = self.whisper_model.generate(
                             input_features,
                             forced_decoder_ids=forced_decoder_ids,
@@ -254,6 +275,8 @@ class ProfessionalVoiceAgent:
                             do_sample=False  # Deterministic
                         )
                 # Decode token ids to text
                 transcription = self.whisper_processor.batch_decode(
                     predicted_ids,

             logger.info(f"Audio duration: {duration_seconds:.2f}s, sample_rate: {sample_rate}Hz")
             # Convert to float32 if needed
+            logger.info(f"Audio dtype before conversion: {audio_data.dtype}")
             if audio_data.dtype == np.int16:
+                logger.info("Converting from int16 to float32")
                 audio_data = audio_data.astype(np.float32) / 32768.0
             elif audio_data.dtype == np.int32:
+                logger.info("Converting from int32 to float32")
                 audio_data = audio_data.astype(np.float32) / 2147483648.0
+            elif audio_data.dtype == np.float64:
+                logger.info("Converting from float64 to float32")
+                audio_data = audio_data.astype(np.float32)
+            logger.info(f"Audio dtype after conversion: {audio_data.dtype}")
             # Handle stereo to mono conversion
             if len(audio_data.shape) > 1 and audio_data.shape[1] > 1:
                 audio_data = np.mean(audio_data, axis=1)
+                logger.info(f"Converted stereo to mono, new shape: {audio_data.shape}")
+            # Check audio statistics before resampling
+            logger.info(f"Audio stats - min: {audio_data.min():.4f}, max: {audio_data.max():.4f}, mean: {audio_data.mean():.4f}")
             # Resample to 16kHz if needed (Whisper requirement)
             if sample_rate != 16000:
                 import librosa
                 audio_data = librosa.resample(audio_data, orig_sr=sample_rate, target_sr=16000)
+                logger.info(f"Resampled to 16kHz, new length: {len(audio_data)} samples ({len(audio_data)/16000:.2f}s)")
+            # Check if audio is too quiet or silent
+            audio_abs_mean = np.abs(audio_data).mean()
+            if audio_abs_mean < 0.001:
+                logger.warning(f"Audio might be too quiet! Abs mean: {audio_abs_mean}")
             # Trim silence and limit audio length for speed (max 30 seconds)
             max_samples = 16000 * 30  # 30 seconds at 16kHz
                     return_tensors="pt"
                 ).input_features.to(self.device)
+                logger.info(f"Whisper input_features shape: {input_features.shape}, device: {input_features.device}")
                 # Generate token ids - optimized for speed
                 with torch.cuda.amp.autocast(enabled=self.device.type == "cuda"):
                     with torch.no_grad():
                             language="en",
                             task="transcribe"
                         )
+                        logger.info(f"Forced decoder IDs: {forced_decoder_ids}")
                         predicted_ids = self.whisper_model.generate(
                             input_features,
                             forced_decoder_ids=forced_decoder_ids,
                             do_sample=False  # Deterministic
                         )
+                logger.info(f"Predicted token IDs shape: {predicted_ids.shape}, first 10 IDs: {predicted_ids[0][:10].tolist()}")
                 # Decode token ids to text
                 transcription = self.whisper_processor.batch_decode(
                     predicted_ids,