Spaces:

CleanSong-AI
/

whisper-transcriber

Running

CleanSong commited on Nov 5, 2025

Commit

20277ed

verified ·

1 Parent(s): 6fedc1d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,12 +1,21 @@
 import gradio as gr
 from faster_whisper import WhisperModel
 import torch as torch
 # Load large model once on startup
 model = WhisperModel("large-v3", device="cuda" if torch.cuda.is_available() else "cpu")
 def transcribe(file_path):
     segments, _ = model.transcribe(file_path, word_timestamps=True)
-    return [{"word": s.text.strip(), "start": s.start, "end": s.end} for s in segments]
 gr.Interface(fn=transcribe, inputs=gr.Audio(type="filepath"), outputs="json").launch()

 import gradio as gr
 from faster_whisper import WhisperModel
 import torch as torch
+import torchaudio
+wav, sr = torchaudio.load(file_path)
+if sr != 16000:
+    wav = torchaudio.functional.resample(wav, sr, 16000)
+wav = wav.mean(dim=0, keepdim=True)  # mono
+torchaudio.save(file_path, wav, 16000)
 # Load large model once on startup
 model = WhisperModel("large-v3", device="cuda" if torch.cuda.is_available() else "cpu")
 def transcribe(file_path):
     segments, _ = model.transcribe(file_path, word_timestamps=True)
+    seen = set()
+    transcript = [seg for seg in transcript if not (seg["text"] in seen or seen.add(seg["text"]))]
 gr.Interface(fn=transcribe, inputs=gr.Audio(type="filepath"), outputs="json").launch()