Spaces:

Mazenbs
/

extract_html_full

Running

App Files Files Community

Mazenbs commited on Dec 7, 2025

Commit

5f014d7

verified ·

1 Parent(s): 1c04926

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -6

app.py CHANGED Viewed

@@ -21,10 +21,11 @@ class IndexedURLRequest(BaseModel):
     url: HttpUrl
     timeout: int = Field(10, ge=1, le=60)
     title_index: int = Field(..., ge=0)
-    preamble_start: Optional[int] = Field(None, ge=0, description="إذا لم يُرسل يُحسب تلقائياً = title_index + 1")
     preamble_end: int = Field(..., ge=0)
-    body_start: Optional[int] = Field(None, ge=0, description="إذا لم يُرسل يُحسب تلقائياً = preamble_end + 1")
-    body_end: Optional[int] = Field(None, ge=0, description="اختياري، وإلا حتى آخر القائمة")
 # -----------------------------
 # نماذج البيانات
@@ -111,14 +112,38 @@ async def extract_text_post(request: URLRequest):
 @app.post("/extract/indexed")
 async def extract_indexed(request: IndexedURLRequest):
     try:
         raw_texts = await extract_text_from_url(str(request.url), request.timeout)
-        return build_indexed_response(
             texts=raw_texts,
             title_index=request.title_index,
-            preamble_start=request.preamble_start,   # قد يكون None
             preamble_end=request.preamble_end,
-            body_start=request.body_start,           # قد يكون None
             body_end=request.body_end
         )
     except Exception as e:
         raise HTTPException(status_code=500, detail=f"خطأ في معالجة المحتوى: {str(e)}")

     url: HttpUrl
     timeout: int = Field(10, ge=1, le=60)
     title_index: int = Field(..., ge=0)
+    preamble_start: Optional[int] = Field(None, ge=0)
     preamble_end: int = Field(..., ge=0)
+    body_start: Optional[int] = Field(None, ge=0)
+    body_end: Optional[int] = Field(None, ge=0)
+    return_parsed: bool = Field(False, description="إرجاع النتيجة محلّلة (parsed) بدلاً من raw texts")
 # -----------------------------
 # نماذج البيانات
 @app.post("/extract/indexed")
 async def extract_indexed(request: IndexedURLRequest):
     try:
+        # 1) جلب النصوص الخام
         raw_texts = await extract_text_from_url(str(request.url), request.timeout)
+        # 2) بناء القائمة المفهرسة
+        indexed = build_indexed_response(
             texts=raw_texts,
             title_index=request.title_index,
+            preamble_start=request.preamble_start,
             preamble_end=request.preamble_end,
+            body_start=request.body_start,
             body_end=request.body_end
         )
+        # 3) هل يُراد التحليل؟
+        if request.return_parsed:
+            # تحويل القائمة المفهرسة إلى شكل توأمية (نص واحد للعنوان + نص واحد للمقدمة + بقية النصوص)
+            title_lines   = [item["title"]   for item in indexed if item.get("title")]
+            preamble_lines= [item["preamble"]for item in indexed if item.get("preamble")]
+            body_lines    = [item["text"]    for item in indexed if item.get("text")]
+            # دمجها في كتل نصية كما كانت
+            merged_blocks = (
+                [{"text": "\n".join(title_lines)}]   +
+                [{"text": "\n".join(preamble_lines)}] +
+                [{"text": txt} for txt in body_lines]
+            )
+            parsed = parse_law_from_texts(merged_blocks)
+            return LegalDocumentResponse(parsed_document={**parsed, "saved_to_db": False})
+        # 4) وإلا نُعيد الـ raw كما قبلناه
+        return LegalDocumentResponse(raw_texts=[TextResponse(text=item.get("title") or item.get("preamble") or item.get("text")) for item in indexed])
     except Exception as e:
         raise HTTPException(status_code=500, detail=f"خطأ في معالجة المحتوى: {str(e)}")