Spaces:

Mazenbs
/

extract_html_full

Sleeping

App Files Files Community

Mazenbs commited on Dec 6, 2025

Commit

72a807d

verified ·

1 Parent(s): cf37584

Update parser/assembler.py

Browse files

Files changed (1) hide show

parser/assembler.py +12 -12

parser/assembler.py CHANGED Viewed

@@ -2,33 +2,34 @@ from typing import List, Dict
 from helpers.utils import normalize_digits, extract_article_number, is_article, is_section
-def extract_title_and_preamble(texts: List[str]) -> (str, str, List[str]):
     """
     استخراج عنوان القانون والمقدمة، مع التوقف عند أول قسم أو مادة.
     """
     title = ""
-    preamble_lines = []
-    remaining_texts = []
     # استخراج العنوان
-    while texts:
-        t = texts.pop(0).strip()
         if t.lower() != "html" and t != "":
             title = t
             break
     # استخراج المقدمة حتى أول قسم أو مادة
-    while texts:
-        t = texts[0].strip()  # لا نحذف مباشرة
         if is_section(t) or is_article(t):
             break
-        preamble_lines.append(texts.pop(0))
     # البقية تعتبر نصوص للتحليل (أقسام ومواد)
-    remaining_texts = texts
-    preamble = "\n".join(preamble_lines).strip()
-    return title, preamble, remaining_texts
 def extract_articles_from_blocks(blocks: List[Dict[str, str]]) -> List[Dict]:
     """
@@ -49,7 +50,6 @@ def extract_articles_from_blocks(blocks: List[Dict[str, str]]) -> List[Dict]:
                 current["text"] += "\n" + t
                 current["blocks"].append(block)
             else:
-                # نص غير مصنف → نحفظه كمادة بدون رقم
                 current = {"number": None, "text": t, "blocks": [block]}
     if current:

 from helpers.utils import normalize_digits, extract_article_number, is_article, is_section
+def extract_title_and_preamble(blocks: List[Dict[str, str]]) -> (str, str, List[Dict[str, str]]):
     """
     استخراج عنوان القانون والمقدمة، مع التوقف عند أول قسم أو مادة.
     """
     title = ""
+    preamble_blocks = []
     # استخراج العنوان
+    while blocks:
+        block = blocks.pop(0)
+        t = block.get("text", "").strip()
         if t.lower() != "html" and t != "":
             title = t
             break
     # استخراج المقدمة حتى أول قسم أو مادة
+    while blocks:
+        t = blocks[0].get("text", "").strip()
         if is_section(t) or is_article(t):
             break
+        preamble_blocks.append(blocks.pop(0))
     # البقية تعتبر نصوص للتحليل (أقسام ومواد)
+    remaining_blocks = blocks
+    preamble = "\n".join([b["text"] for b in preamble_blocks]).strip()
+    return title, preamble, remaining_blocks
 def extract_articles_from_blocks(blocks: List[Dict[str, str]]) -> List[Dict]:
     """
                 current["text"] += "\n" + t
                 current["blocks"].append(block)
             else:
                 current = {"number": None, "text": t, "blocks": [block]}
     if current: