Spaces:

pheodoraa
/

speechbrain

Sleeping

pheodoraa commited on Mar 17, 2025

Commit

2548d5a

verified ·

1 Parent(s): facd705

Fix error

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,13 +8,13 @@ try:
     asr_model = EncoderASR.from_hparams(
         source="speechbrain/asr-wav2vec2-dvoice-darija",
         savedir="tmp_model",
-        run_opts={"device": "cpu"}  # Ensure compatibility with CPU if needed
     )
 except Exception as e:
     print(f"Error loading model: {str(e)}")
 def transcribe(audio):
-    """Transcribe audio to text using SpeechBrain ASR model."""
     if audio is None:
         return "No audio file uploaded. Please upload a valid file."
@@ -22,20 +22,21 @@ def transcribe(audio):
         # Load audio
         waveform, sample_rate = torchaudio.load(audio)
-        # Convert to single-channel (mono) if stereo
         if waveform.shape[0] > 1:
             waveform = torch.mean(waveform, dim=0, keepdim=True)
-        # Ensure correct sample rate (16kHz expected by the model)
         if sample_rate != 16000:
             resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
             waveform = resampler(waveform)
-        # Compute waveform length as a relative fraction
-        wav_lens = torch.tensor([waveform.shape[1] / waveform.shape[1]], dtype=torch.float32)
-        # Add batch dimension (SpeechBrain expects a batch format)
-        waveform = waveform.unsqueeze(0)
         # Transcribe
         transcription = asr_model.transcribe_batch(waveform, wav_lens)

     asr_model = EncoderASR.from_hparams(
         source="speechbrain/asr-wav2vec2-dvoice-darija",
         savedir="tmp_model",
+        run_opts={"device": "cpu"}  # Ensures compatibility with CPU environments
     )
 except Exception as e:
     print(f"Error loading model: {str(e)}")
 def transcribe(audio):
+    """Transcribe uploaded audio to text using SpeechBrain ASR."""
     if audio is None:
         return "No audio file uploaded. Please upload a valid file."
         # Load audio
         waveform, sample_rate = torchaudio.load(audio)
+        # Convert stereo to mono if needed
         if waveform.shape[0] > 1:
             waveform = torch.mean(waveform, dim=0, keepdim=True)
+        # Resample if sample rate is not 16kHz
         if sample_rate != 16000:
             resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
             waveform = resampler(waveform)
+        # Ensure waveform is 2D (1, time_steps)
+        waveform = waveform.squeeze(0)  # Remove channel dim if present
+        waveform = waveform.unsqueeze(0)  # Add batch dimension -> (1, time_steps)
+        # Compute wav_lens as a relative fraction
+        wav_lens = torch.tensor([waveform.shape[1] / waveform.shape[1]], dtype=torch.float32)
         # Transcribe
         transcription = asr_model.transcribe_batch(waveform, wav_lens)