Spaces:

Mazenbs
/

extract_html_full

Sleeping

Mazenbs commited on Dec 2, 2025

Commit

20ee4ec

verified ·

1 Parent(s): c21cb88

Update parser/article_extractor.py

Files changed (1) hide show

parser/article_extractor.py CHANGED Viewed

@@ -1,39 +1,36 @@
 import re
 from typing import List, Dict, Any, Optional
 from helpers.utils import normalize_digits
 ARTICLE_KEYWORD = "مادة"
-ARTICLE_PATTERN = re.compile(
-    r"^\s*(?:المادة|مادة)\s*[\(\[:\-–]?\s*([\d\u0660-\u0669]+)\s*[\)\]:\-–]?",
-    re.UNICODE
-)
 def is_article_line(line: str) -> bool:
-    return bool(ARTICLE_PATTERN.match(line.strip()))
 def extract_article_number(line: str) -> Optional[str]:
-    m = ARTICLE_PATTERN.match(line.strip())
     return normalize_digits(m.group(1)) if m else None
 def extract_articles_from_section_lines(lines: List[str]) -> Dict[str, Any]:
     articles = []
-    current_article = None
-    for raw_line in lines:
-        line = raw_line.strip()
-        if not line:
-            continue
         if is_article_line(line):
-            number = extract_article_number(line)
-            current_article = {"number": number or "", "text": line}
-            articles.append(current_article)
             continue
-        if current_article is not None:
-            current_article["text"] += "\n" + line
     return {
-        "content": "",
         "articles": articles
     }

+# parser/article_extractor.py
 import re
 from typing import List, Dict, Any, Optional
 from helpers.utils import normalize_digits
 ARTICLE_KEYWORD = "مادة"
 def is_article_line(line: str) -> bool:
+    return ARTICLE_KEYWORD in line
 def extract_article_number(line: str) -> Optional[str]:
+    m = re.search(rf"\b{ARTICLE_KEYWORD}\b[^\d\u0660-\u0669]*([\d\u0660-\u0669]+)", line)
     return normalize_digits(m.group(1)) if m else None
 def extract_articles_from_section_lines(lines: List[str]) -> Dict[str, Any]:
+    content = []
     articles = []
+    current = None
+    for line in lines:
         if is_article_line(line):
+            num = extract_article_number(line)
+            current = {"number": num or "", "text": line}
+            articles.append(current)
             continue
+        if current is None:
+            content.append(line)
+        else:
+            if line not in current["text"].split("\n"):
+                current["text"] += "\n" + line
     return {
+        "content": "\n".join(content).strip(),
         "articles": articles
     }