Spaces:

rafaaa2105
/

speaker_diarization

Runtime error

rafaaa2105 commited on Jun 29, 2024

Commit

c1d27f0

verified ·

1 Parent(s): e9036e0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ import zipfile
 import tempfile
 import shutil
 from pydub import AudioSegment
 hf_token = os.getenv("HF_TOKEN")
@@ -32,14 +33,15 @@ def process_zip(zip_file):
                 # Load audio file
                 audio = AudioSegment.from_file(file_path)
-                samples = audio.get_array_of_samples()
                 # Convert to mono if stereo
                 if audio.channels == 2:
-                    samples = samples[::2]  # Take left channel
                 # Convert to float32 numpy array
                 waveform = torch.tensor(samples).float() / 32768.0  # Assuming 16-bit audio
                 # Perform diarization
                 diarization = pipeline({"waveform": waveform, "sample_rate": audio.frame_rate})

 import tempfile
 import shutil
 from pydub import AudioSegment
+import numpy as np
 hf_token = os.getenv("HF_TOKEN")
                 # Load audio file
                 audio = AudioSegment.from_file(file_path)
+                samples = np.array(audio.get_array_of_samples())
                 # Convert to mono if stereo
                 if audio.channels == 2:
+                    samples = samples.reshape((-1, 2)).mean(axis=1)
                 # Convert to float32 numpy array
                 waveform = torch.tensor(samples).float() / 32768.0  # Assuming 16-bit audio
+                waveform = waveform.unsqueeze(0)  # Add channel dimension
                 # Perform diarization
                 diarization = pipeline({"waveform": waveform, "sample_rate": audio.frame_rate})