Spaces:

CIAZIZ
/

binBaz-RAG

Sleeping

App Files Files Community

CIAZIZ commited on Oct 13, 2025

Commit

4eea87d

verified ·

1 Parent(s): 5b9f444

Update app.py

Browse files

Files changed (1) hide show

app.py +90 -29

app.py CHANGED Viewed

@@ -12,22 +12,20 @@ retriever = Retriever(embed_model_name=os.getenv("EMBED_MODEL", "intfloat/multil
 TOP_K = int(os.getenv("TOP_K", "4"))  # internal default (no UI control)
 # -------- Helpers --------
-NEAR = 32  # chars window for proximity checks
 def _status_text():
     st = read_status()
     phase = st.get("phase","unknown")
     if phase == "ready":
-        return "✅ الفهرس جاهز (FAISS)"
     if phase == "embedding":
-        return f"⏳ بناء الفهرس في الخلفية… {st.get('done',0)}/{st.get('total',0)}"
     if phase == "chunks_ready":
-        return f"🗂️ تم تجهيز المقاطع ({st.get('total','?')}). جارٍ بدء التضمين…"
     if phase == "waiting_data":
-        return f"⚠️ {st.get('msg','البيانات غير موجودة')}"
     if phase == "error":
-        return f"❌ {st.get('msg','خطأ في الفهرس')}"
-    return "ℹ️ حالة غير معروفة"
 def _clean(s):
     return (s or "").strip()
@@ -36,42 +34,100 @@ def _sentences(text):
     parts = re.split(r"(?<=[\.\!\؟\!])\s+", text or "")
     return [p.strip() for p in parts if p.strip()]
 def _pick_snippets(hits, limit=3):
-    # Prefer explicit evidence; fallback to rule-based sentences.
     snippets = []
     for h in hits:
         ev = extract_evidence(h["chunk"])
-        for lst in (ev["quran"], ev["hadith"], ev["ijma"]):
-            for q in lst:
-                snippets.append((q, h))
-                if len(snippets) >= limit: return snippets
-    pat = re.compile(r"(?:حرام|محر(?:م)|لا يجوز|لا تأكل|اترك)\b", re.I)
     for h in hits:
         for sent in _sentences(h["chunk"]):
-            if "خنزير" in sent and pat.search(sent):
                 snippets.append((sent, h))
                 if len(snippets) >= limit: return snippets
     for h in hits:
         for sent in _sentences(h["chunk"]):
-            if ("خنزير" in sent and ("حرم" in sent or "تحريم" in sent)) or len(sent) > 25:
                 snippets.append((sent, h))
                 if len(snippets) >= limit: return snippets
     return snippets
-def _infer_verdict(hits):
-    text = " ".join(h["chunk"] for h in hits)
-    text = re.sub(r"\s+", " ", text)
-    if re.search(r"(حرام|محر(?:م)|لا يجوز).{0,"+str(NEAR)+r"}خنزير", text): return "حرام"
-    if re.search(r"خنزير.{0,"+str(NEAR)+r"}(حرام|محر(?:م)|لا يجوز)", text): return "حرام"
-    if re.search(r"(لا تأكل|فدع(?:ه)?|اتركه).{0,"+str(NEAR)+r"}خنزير", text): return "حرام"
-    if re.search(r"خنزير.{0,"+str(NEAR)+r"}(لا تأكل|فدع(?:ه)?|اتركه)", text): return "حرام"
-    if "محرم بنص الكتاب والسنة" in text or "إجماع المسلمين" in text: return "حرام"
-    if re.search(r"(حلال|يجوز).{0,"+str(NEAR)+r"}خنزير", text) or re.search(r"خنزير.{0,"+str(NEAR)+r"}(حلال|يجوز)", text):
-        return "حلال"
-    return "غير واضح من النصوص المسترجعة"
 def _format_main_answer(hits):
-    verdict = _infer_verdict(hits)
     snippets = _pick_snippets(hits, limit=3)
     lines = [f"### الحكم: **{verdict}**"]
@@ -117,6 +173,11 @@ def answer_fn(question: str):
             pass
     hits = retriever.search(question, k=TOP_K)
     main_md = _format_main_answer(hits)
     refs_md = _format_refs(hits)
     ctx_md  = _format_context(hits)

 TOP_K = int(os.getenv("TOP_K", "4"))  # internal default (no UI control)
 # -------- Helpers --------
 def _status_text():
     st = read_status()
     phase = st.get("phase","unknown")
     if phase == "ready":
+        return "الفهرس جاهز (FAISS)"
     if phase == "embedding":
+        return f"بناء الفهرس في الخلفية… {st.get('done',0)}/{st.get('total',0)}"
     if phase == "chunks_ready":
+        return f"تم تجهيز المقاطع ({st.get('total','?')}). جارٍ بدء التضمين…"
     if phase == "waiting_data":
+        return f"{st.get('msg','البيانات غير موجودة')}"
     if phase == "error":
+        return f"{st.get('msg','خطأ في الفهرس')}"
+    return "حالة غير معروفة"
 def _clean(s):
     return (s or "").strip()
     parts = re.split(r"(?<=[\.\!\؟\!])\s+", text or "")
     return [p.strip() for p in parts if p.strip()]
+def _wrap_quran(s: str) -> str:
+    """Ensure Qur'an lines are shown with ornate brackets."""
+    s = s.strip()
+    if "﴿" in s and "﴾" in s:
+        return s
+    # if it's already quoted without brackets, wrap it
+    return f"﴿{s}﴾"
+# -------- Evidence & verdict selection --------
+NEG_PATTERNS = [
+    r"\bلا\s+يجوز\b", r"\bلا\s+يحل\b", r"\bلا\s+يصح\b",
+    r"\bحرام\b", r"\bمحرم\b", r"\bيحرم\b", r"\bمنع\b", r"\bممنوع\b", r"\bباطل\b"
+]
+POS_PATTERNS = [
+    r"\bيجوز\b", r"\bحلال\b", r"\bمباح\b", r"\bلا\s+بأس\b", r"\bلا\s+حرج\b",
+    r"\bسنة\b", r"\bمستحب\b", r"\bواجب\b"
+]
+EXCEPTION_HINTS = [r"\bإلا\b", r"\bللدعوة\b", r"\bضرورة\b", r"\bحاجة\b", r"\bأمن\s+الفتنة\b", r"\bمع\s+الضوابط\b"]
+def _count_matches(text, patterns):
+    return sum(1 for p in patterns if re.search(p, text))
+def _infer_verdict_general(hits):
+    """General purpose verdict detector from retrieved text."""
+    text = " ".join(h["chunk"] for h in hits)
+    text = re.sub(r"\s+", " ", text)
+    neg = _count_matches(text, NEG_PATTERNS)
+    pos = _count_matches(text, POS_PATTERNS)
+    has_exception = _count_matches(text, EXCEPTION_HINTS) > 0
+    if neg == 0 and pos == 0:
+        return None  # unclear
+    if neg > pos:
+        if has_exception:
+            return "الأصل المنع، ويُستثنى للضرورة/الدعوة مع أمن الفتنة"
+        return "حرام"
+    if pos > neg:
+        if has_exception:
+            return "الأصل الجواز مع الضوابط"
+        return "يجوز"
+    # tie-break: prefer المنع if any explicit negation is present
+    if neg > 0:
+        return "حرام"
+    if pos > 0:
+        return "يجوز"
+    return None
 def _pick_snippets(hits, limit=3):
+    """Prefer explicit Qur'an/Hadith/Ijma lines, then strong verdict sentences."""
     snippets = []
+    # 1) Explicit evidence
     for h in hits:
         ev = extract_evidence(h["chunk"])
+        # Qur'an first, wrapped in ornate brackets
+        for q in ev["quran"]:
+            snippets.append((_wrap_quran(q), h))
+            if len(snippets) >= limit: return snippets
+        # Hadith
+        for hd in ev["hadith"]:
+            snippets.append((hd, h))
+            if len(snippets) >= limit: return snippets
+        # Ijma'
+        for ij in ev["ijma"]:
+            snippets.append((ij, h))
+            if len(snippets) >= limit: return snippets
+    # 2) Strong rule-like sentences (negative or positive)
+    neg_or_pos = re.compile("(" + "|".join(p.strip(r"\b") for p in [*NEG_PATTERNS, *POS_PATTERNS]) + ")", re.I)
     for h in hits:
         for sent in _sentences(h["chunk"]):
+            if neg_or_pos.search(sent):
                 snippets.append((sent, h))
                 if len(snippets) >= limit: return snippets
+    # 3) Fallback: first informative sentence from top hits
     for h in hits:
         for sent in _sentences(h["chunk"]):
+            if len(sent) > 25:
                 snippets.append((sent, h))
                 if len(snippets) >= limit: return snippets
     return snippets
 def _format_main_answer(hits):
+    # Try general verdict; if still None but we do have hits, choose a cautious closest form.
+    verdict = _infer_verdict_general(hits)
+    if verdict is None:
+        if hits:
+            verdict = "الأقرب: المنع"  # closest conservative reading when signals exist but weak
+        else:
+            verdict = "غير واضح"
     snippets = _pick_snippets(hits, limit=3)
     lines = [f"### الحكم: **{verdict}**"]
             pass
     hits = retriever.search(question, k=TOP_K)
+    if not hits:
+        # Only here print غير واضح per your requirement
+        return "### الحكم: **غير واضح**\n\n> لم نعثر على نصوص ذات صلة في فتاوى ابن باز.", "—", "—"
     main_md = _format_main_answer(hits)
     refs_md = _format_refs(hits)
     ctx_md  = _format_context(hits)