Spaces:

Sammaali
/

Post_Process_Elevenlabs

Sleeping

App Files Files Community

Sammaali commited on 10 days ago

Commit

b23bcf3

verified ·

1 Parent(s): b61fa99

Update app.py

Browse files

Files changed (1) hide show

app.py +62 -67

app.py CHANGED Viewed

@@ -1,69 +1,47 @@
 import gradio as gr
 import requests
-import os
-from transformers import AutoModelForCausalLM, AutoTokenizer
-import torch
 # =========================
 # ElevenLabs Configuration
 # =========================
 ELEVENLABS_API_KEY = "c92a87a2ebb5f51ee9fe90cc421e836e32780c188f4e0056d77ce69803008ae9"
-STT_URL = "https://api.elevenlabs.io/v1/speech-to-text"
-# =========================
-# Load Gemma Model
-# =========================
-model_id = "Sammaali/gemma-3-4b"
-tokenizer = AutoTokenizer.from_pretrained(model_id)
-model = AutoModelForCausalLM.from_pretrained(
-    model_id,
-    torch_dtype=torch.float32
-)
-device = "cuda" if torch.cuda.is_available() else "cpu"
-model.to(device)
 # =========================
-# Clean Text Using Gemma
 # =========================
-def clean_text(text):
-    text = text[:1500]
-    prompt = f"""
-Clean this Arabic speech transcript.
-Remove filler words like:
-اممم، آآآ، يعني
-Remove repeated words.
-Keep the same meaning.
-Transcript:
-{text}
-"""
-    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
-    with torch.no_grad():
-        outputs = model.generate(
-            **inputs,
-            max_new_tokens=120,
-            do_sample=True,
-            temperature=0.7,
-            top_p=0.9,
-            repetition_penalty=1.2
-        )
-    result = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    return result# =========================
 # ElevenLabs Speech To Text
 # =========================
@@ -76,61 +54,78 @@ def transcribe_audio(audio_file):
         "xi-api-key": ELEVENLABS_API_KEY
     }
-    with open(audio_file, "rb") as f:
-        files = {
-            "file": f
-        }
-        data = {
-            "model_id": "scribe_v2",
-            "enable_logging": "false"
-        }
-        response = requests.post(
-            STT_URL,
-            headers=headers,
-            files=files,
-            data=data
-        )
     if response.status_code != 200:
         return "Error: " + response.text, ""
     result = response.json()
     text = ""
     if "segments" in result:
         for segment in result["segments"]:
-            text += segment.get("text", "") + " "
     else:
         text = result.get("text", "")
-    cleaned = clean_text(text)
     return text, cleaned
 # =========================
 # Gradio UI
 # =========================
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
-    gr.Markdown("# ElevenLabs Speech To Text + Gemma Cleaner")
-    gr.Markdown("ارفع ملف صوتي وسيتم تحويله إلى نص عربي ثم تنظيفه باستخدام Gemma.")
-    audio_input = gr.Audio(type="filepath", label="Upload Audio")
-    raw_text = gr.Textbox(label="Original Text", lines=8)
-    clean_text_box = gr.Textbox(label="Cleaned Text", lines=8)
     btn = gr.Button("Transcribe")
     btn.click(
         fn=transcribe_audio,
         inputs=audio_input,
-        outputs=[raw_text, clean_text_box]
     )
 if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
+import re
 import requests
 # =========================
 # ElevenLabs Configuration
 # =========================
 ELEVENLABS_API_KEY = "c92a87a2ebb5f51ee9fe90cc421e836e32780c188f4e0056d77ce69803008ae9"
+STT_URL = "https://api.elevenlabs.io/v1/speech-to-text"
 # =========================
+# Arabic Post Processing
 # =========================
+def clean_arabic_text(text):
+    if not text:
+        return ""
+    # Remove tashkeel
+    tashkeel_pattern = re.compile(r'[\u0617-\u061A\u064B-\u0652]')
+    text = re.sub(tashkeel_pattern, '', text)
+    # Normalize Hamza
+    text = re.sub(r'[أإآ]', 'ا', text)
+    # ة → ه
+    text = re.sub(r'ة\b', 'ه', text)
+    # ى → ي
+    text = re.sub(r'ى\b', 'ي', text)
+    # Remove symbols
+    text = re.sub(r'[^\w\s]', '', text)
+    # Remove extra spaces
+    text = " ".join(text.split())
+    return text
+# =========================
 # ElevenLabs Speech To Text
 # =========================
         "xi-api-key": ELEVENLABS_API_KEY
     }
+    files = {
+        "file": open(audio_file, "rb")
+    }
+    data = {
+        "model_id": "scribe_v2",
+        "enable_logging": "false"
+    }
+    response = requests.post(
+        STT_URL,
+        headers=headers,
+        files=files,
+        data=data
+    )
     if response.status_code != 200:
         return "Error: " + response.text, ""
     result = response.json()
+    # Extract speaker_0 text
     text = ""
     if "segments" in result:
         for segment in result["segments"]:
+            if segment.get("speaker") == "speaker_0":
+                text += segment.get("text", "") + " "
     else:
         text = result.get("text", "")
+    cleaned = clean_arabic_text(text)
     return text, cleaned
 # =========================
 # Gradio UI
 # =========================
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown("# ElevenLabs Speech To Text + Post Process")
+    gr.Markdown(
+        "ارفع ملف صوتي (wav) وسيتم تحويله إلى نص عربي أو إنجليزي مع تنظيف النص."
+    )
+    audio_input = gr.Audio(
+        type="filepath",
+        label="Upload audio.wav"
+    )
+    raw_text = gr.Textbox(
+        label="Original Text",
+        lines=8
+    )
+    clean_text = gr.Textbox(
+        label="Cleaned Text",
+        lines=8
+    )
     btn = gr.Button("Transcribe")
     btn.click(
         fn=transcribe_audio,
         inputs=audio_input,
+        outputs=[raw_text, clean_text]
     )
 if __name__ == "__main__":
+    demo.launch()