Spaces:

MuhammadHijazii
/

faster_whisper_large_v3_post_processwith_advanced

Sleeping

App Files Files Community

MuhammadHijazii commited on Aug 27

Commit

3d93605

·

verified ·

1 Parent(s): 5d519e9

optimize sbert values

Files changed (1) hide show

app.py +2 -6

app.py CHANGED Viewed

@@ -84,8 +84,6 @@ def normalize_ar_orth(text: str) -> str:
     # تطبيع عام للمحاذاة
     text = re.sub(r"[ًٌٍَُِّْـ]", "", text)
     text = re.sub(r"[“”\"',:؛؟.!()\[\]{}،\-–—_]", " ", text)
-    text = re.sub(r"[إأٱآا]", "ا", text)
-    text = text.replace("ة", "ه").replace("ى", "ي")
     text = re.sub(r"\s+", " ", text).strip()
     return text
@@ -93,8 +91,6 @@ def _normalize_for_models(s: str) -> str:
     # تطبيع خاص لمدخلات SBERT/MARBERT
     s = re.sub(r"[ًٌٍَُِّْـ]", "", s)
     s = re.sub(r"[“”\"',:؛؟.!()\[\]{}،\-–—_]", " ", s)
-    s = re.sub(r"[إأٱآا]", "ا", s)
-    s = s.replace("ة", "ه").replace("ى", "ي")
     s = re.sub(r"\s+", " ", s).strip()
     return s
@@ -336,7 +332,7 @@ def classify_pair(ref_w, hyp_w, bert_scores, phon_sim, lev1, short_word,
         return 'ASR error (short+lev1)'
     # semantic/phonetic
-    sbert_ok = bert_scores["sbert"] >= 0.70
     avg_ok   = bert_scores["avg"]   >= bert_thresh
     max_ok   = (bert_scores["max"]  >  max_bert) and sbert_ok
     disagree = (bert_scores.get("note") == "models_disagree")
@@ -349,7 +345,7 @@ def classify_pair(ref_w, hyp_w, bert_scores, phon_sim, lev1, short_word,
             if sbert_ok and avg_ok:
                 return 'ASR error (semantic/phonetic)'
         else:
-            if bert_scores["sbert"] >= 0.78:
                 return 'ASR error (semantic)'
     return 'Memorization error'

     # تطبيع عام للمحاذاة
     text = re.sub(r"[ًٌٍَُِّْـ]", "", text)
     text = re.sub(r"[“”\"',:؛؟.!()\[\]{}،\-–—_]", " ", text)
     text = re.sub(r"\s+", " ", text).strip()
     return text
     # تطبيع خاص لمدخلات SBERT/MARBERT
     s = re.sub(r"[ًٌٍَُِّْـ]", "", s)
     s = re.sub(r"[“”\"',:؛؟.!()\[\]{}،\-–—_]", " ", s)
     s = re.sub(r"\s+", " ", s).strip()
     return s
         return 'ASR error (short+lev1)'
     # semantic/phonetic
+    sbert_ok = bert_scores["sbert"] >= 0.80
     avg_ok   = bert_scores["avg"]   >= bert_thresh
     max_ok   = (bert_scores["max"]  >  max_bert) and sbert_ok
     disagree = (bert_scores.get("note") == "models_disagree")
             if sbert_ok and avg_ok:
                 return 'ASR error (semantic/phonetic)'
         else:
+            if bert_scores["sbert"] >= 0.80:
                 return 'ASR error (semantic)'
     return 'Memorization error'