Spaces:

Mazenbs
/

extract_html_full

Sleeping

App Files Files Community

Mazenbs commited on Dec 2, 2025

Commit

3f58b85

verified ·

1 Parent(s): 651c48c

Update parser/article_extractor.py

Browse files

Files changed (1) hide show

parser/article_extractor.py +27 -15

parser/article_extractor.py CHANGED Viewed

@@ -1,36 +1,48 @@
-# parser/article_extractor.py
 import re
 from typing import List, Dict, Any, Optional
 from helpers.utils import normalize_digits
 ARTICLE_KEYWORD = "مادة"
 def is_article_line(line: str) -> bool:
-    return ARTICLE_KEYWORD in line
 def extract_article_number(line: str) -> Optional[str]:
-    m = re.search(rf"\b{ARTICLE_KEYWORD}\b[^\d\u0660-\u0669]*([\d\u0660-\u0669]+)", line)
     return normalize_digits(m.group(1)) if m else None
 def extract_articles_from_section_lines(lines: List[str]) -> Dict[str, Any]:
-    content = []
     articles = []
-    current = None
-    for line in lines:
         if is_article_line(line):
-            num = extract_article_number(line)
-            current = {"number": num or "", "text": line}
-            articles.append(current)
             continue
-        if current is None:
-            content.append(line)
-        else:
-            if line not in current["text"].split("\n"):
-                current["text"] += "\n" + line
     return {
-        "content": "\n".join(content).strip(),
         "articles": articles
     }

 import re
 from typing import List, Dict, Any, Optional
 from helpers.utils import normalize_digits
 ARTICLE_KEYWORD = "مادة"
+# نمط أكثر قوة للتعرف على بداية المادة
+ARTICLE_PATTERN = re.compile(
+    r"^\s*(?:المادة|مادة)\s*[\(\[:\-–]?\s*([\d\u0660-\u0669]+)\s*[\)\]:\-–]?",
+    re.UNICODE
+)
 def is_article_line(line: str) -> bool:
+    return bool(ARTICLE_PATTERN.match(line.strip()))
 def extract_article_number(line: str) -> Optional[str]:
+    m = ARTICLE_PATTERN.match(line.strip())
     return normalize_digits(m.group(1)) if m else None
 def extract_articles_from_section_lines(lines: List[str]) -> Dict[str, Any]:
+    content_before_first_article = []
     articles = []
+    current_article = None
+    for raw_line in lines:
+        line = raw_line.strip()
+        if not line:
+            continue  # تجاهل الأسطر الفارغة
+        # هل هذا بداية مادة جديدة؟
         if is_article_line(line):
+            number = extract_article_number(line)
+            current_article = {"number": number or "", "text": line}
+            articles.append(current_article)
+            continue
+        # إذا لم نصل بعد إلى أول مادة → نضع النص في المحتوى العام
+        if current_article is None:
+            content_before_first_article.append(line)
             continue
+        # إضافة باقي نص المادة
+        current_article["text"] += "\n" + line
     return {
+        "content": "\n".join(content_before_first_article).strip(),
         "articles": articles
     }