Spaces:

CleanSong-AI
/

whisper-transcriber

Running

App Files Files Community

CleanSong commited on Nov 6, 2025

Commit

61386ba

verified ·

1 Parent(s): 2d2ba0c

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -18

app.py CHANGED Viewed

@@ -1,41 +1,53 @@
 import gradio as gr
-import whisper
 import torch
 import torchaudio
 import os, json
-# preload model once when the Space wakes up
 device = "cuda" if torch.cuda.is_available() else "cpu"
 MODEL_NAME = os.getenv("WHISPER_MODEL", "large-v3")
-model = whisper.load_model(MODEL_NAME, device=device)
 def transcribe(file_path):
-    # --- fix sample rate and channels ---
     wav, sr = torchaudio.load(file_path)
     if sr != 16000:
         wav = torchaudio.functional.resample(wav, sr, 16000)
     if wav.shape[0] > 1:
-        wav = wav.mean(dim=0, keepdim=True)
     fixed_path = "input_fixed.wav"
     torchaudio.save(fixed_path, wav, 16000)
-    # --- run Whisper ---
-    result = model.transcribe(fixed_path, word_timestamps=True, fp16=False)
-    # --- build simple list of transcript entries ---
     transcript = []
-    for seg in result["segments"]:
-        for w in seg.get("words", []):
             transcript.append({
-                "word": w["word"].strip(),
-                "start": w["start"],
-                "end": w["end"]
             })
     if not transcript:
-        # fallback to segment-level text
-        transcript = [{"text": seg["text"], "start": seg["start"], "end": seg["end"]}
-                      for seg in result["segments"]]
     return transcript
@@ -43,8 +55,8 @@ iface = gr.Interface(
     fn=transcribe,
     inputs=gr.Audio(type="filepath", label="Upload Vocals"),
     outputs=gr.JSON(label="Transcript"),
-    title="CleanSong AI — Whisper Transcriber",
-    description="Transcribes vocals with per-word timestamps (16 kHz mono, Whisper Base)."
 )
 if __name__ == "__main__":

 import gradio as gr
 import torch
 import torchaudio
 import os, json
+from faster_whisper import WhisperModel
+# === Load model once ===
 device = "cuda" if torch.cuda.is_available() else "cpu"
 MODEL_NAME = os.getenv("WHISPER_MODEL", "large-v3")
+COMPUTE_TYPE = "float16" if torch.cuda.is_available() else "int8"
+model = WhisperModel(
+    MODEL_NAME,
+    device=device,
+    compute_type=COMPUTE_TYPE,  # float16 on GPU → identical timestamp precision to OpenAI
+)
 def transcribe(file_path):
+    # --- Ensure proper audio format ---
     wav, sr = torchaudio.load(file_path)
     if sr != 16000:
         wav = torchaudio.functional.resample(wav, sr, 16000)
     if wav.shape[0] > 1:
+        wav = wav.mean(dim=0, keepdim=True)  # mono
     fixed_path = "input_fixed.wav"
     torchaudio.save(fixed_path, wav, 16000)
+    # --- Transcribe ---
+    segments, info = model.transcribe(
+        fixed_path,
+        beam_size=5,
+        word_timestamps=True,
+        vad_filter=True,        # helps prevent drift in pauses
+        suppress_silence=True
+    )
+    # --- Build transcript list ---
     transcript = []
+    for seg in segments:
+        for w in seg.words:
             transcript.append({
+                "word": w.word.strip(),
+                "start": w.start,
+                "end": w.end
             })
     if not transcript:
+        transcript = [{"text": seg.text, "start": seg.start, "end": seg.end} for seg in segments]
+    print(f"✅ Transcribed {len(transcript)} words")
     return transcript
     fn=transcribe,
     inputs=gr.Audio(type="filepath", label="Upload Vocals"),
     outputs=gr.JSON(label="Transcript"),
+    title="CleanSong AI — Whisper Transcriber (Faster-Whisper Large-V3)",
+    description="High-accuracy transcription with precise per-word timestamps at 16 kHz mono (float16)."
 )
 if __name__ == "__main__":