MuhammadHijazii commited on
Commit
e4e9476
·
verified ·
1 Parent(s): 2f14026

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +35 -1
README.md CHANGED
@@ -10,4 +10,38 @@ pinned: false
10
  license: apache-2.0
11
  ---
12
 
13
- Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10
  license: apache-2.0
11
  ---
12
 
13
+ # Samaali Whisper ASR Post-Processing (Arabic)
14
+
15
+ هذا الـ Space يقوم بـ:
16
+ - تفريغ الصوت باستخدام **faster-whisper** (مع word timestamps + probabilities).
17
+ - محاذاة مع النص الأصلي وتحديد **ASR error** vs **أخطاء حفظ**.
18
+ - استرجاع أخطاء ASR إلى النص الأصلي وإخراج:
19
+ - **درجة الحفظ الحرفي** (Levenshtein + تراكب كلمات + BLEU-1).
20
+ - **درجة الفهم بالمعنى** (SBERT + MARBERT-CLS).
21
+
22
+ ## الاستخدام
23
+ 1. ارفع/سجّل ملف الصوت وأدخل النص الأصلي (Ground Truth).
24
+ 2. اختر حجم Whisper والإعدادات ثم اضغط **Transcribe & Evaluate**.
25
+ 3. ستحصل على:
26
+ - **Corrected Transcript** (بعد تصحيح أخطاء ASR فقط)
27
+ - **Raw ASR Transcript**
28
+ - تقرير JSON يتضمن الدرجات والعتبات
29
+ - جدول القرارات على مستوى التوكن
30
+
31
+ ## API (Spaces Inference)
32
+ يوجد endpoint باسم `evaluate`.
33
+
34
+ **بايثون (موصى به):**
35
+ ```python
36
+ from gradio_client import Client, file
37
+ client = Client("<username>/<space_name>")
38
+ corrected, asr_out, report, table = client.predict(
39
+ audio=file("audio.wav"),
40
+ original_text="النص الأصلي...",
41
+ whisper_size="small",
42
+ compute_type="int8",
43
+ vad=True,
44
+ use_marbert=True,
45
+ api_name="/evaluate"
46
+ )
47
+ print(report) # JSON