Spaces:

Invescoz
/

whisper.cpp

Sleeping

Invescoz commited on 11 days ago

Commit

86d5d76

verified ·

1 Parent(s): df2f652

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,49 +1,58 @@
 import gradio as gr
-import whisper
 import tempfile
 import os
-model = whisper.load_model("small")  # supports 50+ languages
 def transcribe(audio):
     if audio is None:
         return {"error": "no audio"}
-    # audio = (sample_rate, numpy_array)
     sample_rate, data = audio
-    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
-        import soundfile as sf
-        sf.write(tmp.name, data, sample_rate)
-        path = tmp.name
-    result = model.transcribe(
         path,
-        word_timestamps=True,
-        verbose=False
     )
     os.remove(path)
-    segments = []
-    for seg in result["segments"]:
-        segments.append({
-            "start": round(seg["start"], 2),
-            "end": round(seg["end"], 2),
-            "text": seg["text"].strip(),
             "words": [
                 {
-                    "word": w["word"],
-                    "start": round(w["start"], 2),
-                    "end": round(w["end"], 2)
                 }
-                for w in seg.get("words", [])
             ]
         })
     return {
-        "language": result["language"],
-        "segments": segments
     }
 iface = gr.Interface(
@@ -53,4 +62,4 @@ iface = gr.Interface(
     allow_flagging="never"
 )
-iface.launch(server_name="0.0.0.0")

 import gradio as gr
+from faster_whisper import WhisperModel
 import tempfile
 import os
+import numpy as np
+# Load model (small = good balance)
+model = WhisperModel(
+    "small",
+    device="cpu",
+    compute_type="int8"
+)
 def transcribe(audio):
     if audio is None:
         return {"error": "no audio"}
     sample_rate, data = audio
+    # Save temp wav
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
+        import wave
+        with wave.open(f.name, "wb") as wf:
+            wf.setnchannels(1)
+            wf.setsampwidth(2)
+            wf.setframerate(sample_rate)
+            wf.writeframes((data * 32767).astype(np.int16).tobytes())
+        path = f.name
+    segments, info = model.transcribe(
         path,
+        word_timestamps=True
     )
     os.remove(path)
+    out_segments = []
+    for seg in segments:
+        out_segments.append({
+            "start": round(seg.start, 2),
+            "end": round(seg.end, 2),
+            "text": seg.text.strip(),
             "words": [
                 {
+                    "word": w.word,
+                    "start": round(w.start, 2),
+                    "end": round(w.end, 2)
                 }
+                for w in (seg.words or [])
             ]
         })
     return {
+        "language": info.language,
+        "segments": out_segments
     }
 iface = gr.Interface(
     allow_flagging="never"
 )
+iface.launch()