Spaces:

MuhammadHijazii
/

faster_whisper_large_v3_post_processwith_advanced

Sleeping

App Files Files Community

MuhammadHijazii commited on Aug 23

Commit

e4e9476

·

verified ·

1 Parent(s): 2f14026

Update README.md

Files changed (1) hide show

README.md +35 -1

README.md CHANGED Viewed

@@ -10,4 +10,38 @@ pinned: false
 license: apache-2.0
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 license: apache-2.0
 ---
+# Samaali — Whisper ASR Post-Processing (Arabic)
+هذا الـ Space يقوم بـ:
+- تفريغ الصوت باستخدام **faster-whisper** (مع word timestamps + probabilities).
+- محاذاة مع النص الأصلي وتحديد **ASR error** vs **أخطاء حفظ**.
+- استرجاع أخطاء ASR إلى النص الأصلي وإخراج:
+  - **درجة الحفظ الحرفي** (Levenshtein + تراكب كلمات + BLEU-1).
+  - **درجة الفهم بالمعنى** (SBERT + MARBERT-CLS).
+## الاستخدام
+1. ارفع/سجّل ملف الصوت وأدخل النص الأصلي (Ground Truth).
+2. اختر حجم Whisper والإعدادات ثم اضغط **Transcribe & Evaluate**.
+3. ستحصل على:
+   - **Corrected Transcript** (بعد تصحيح أخطاء ASR فقط)
+   - **Raw ASR Transcript**
+   - تقرير JSON يتضمن الدرجات والعتبات
+   - جدول القرارات على مستوى التوكن
+## API (Spaces Inference)
+يوجد endpoint باسم `evaluate`.
+**بايثون (موصى به):**
+```python
+from gradio_client import Client, file
+client = Client("<username>/<space_name>")
+corrected, asr_out, report, table = client.predict(
+    audio=file("audio.wav"),
+    original_text="النص الأصلي...",
+    whisper_size="small",
+    compute_type="int8",
+    vad=True,
+    use_marbert=True,
+    api_name="/evaluate"
+)
+print(report)  # JSON