Spaces:

Mazenbs
/

extract_html_full

Running

App Files Files Community

Mazenbs commited on Dec 8, 2025

Commit

27f34ba

verified ·

1 Parent(s): cdb4964

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -95

app.py CHANGED Viewed

@@ -1,14 +1,12 @@
 # app.py
 from fastapi import FastAPI, HTTPException, Query
 from pydantic import BaseModel, HttpUrl, Field
-from typing import List, Dict, Optional, Any, Tuple
 from helpers.text_blocks import extract_text_from_url
-from helpers.output_clipper import clip_by_ranges
 from parser.assembler import parse_law_from_texts
 from supabase_utils import save_law_to_supabase
 from helpers.indexer import build_indexed_response
-from helpers.indexer_simple import build_indexed
 from helpers.blocks_all import extract_from_url
@@ -18,112 +16,33 @@ app = FastAPI(
     version="2.1.0"
 )
 class IndexedURLRequest(BaseModel):
     url: HttpUrl
     save_to_supabase: bool = False
     timeout: int = Field(10, ge=1, le=60)
-    title_index: int = Field(..., ge=0)
     preamble_start: Optional[int] = Field(None, ge=0)
-    preamble_end: int = Field(..., ge=0)
     body_start: Optional[int] = Field(None, ge=0)
     body_end: Optional[int] = Field(None, ge=0)
     return_parsed: bool = Field(False, description="إرجاع النتيجة محلّلة (parsed) بدلاً من raw texts")
-# -----------------------------
-# نماذج البيانات
-# -----------------------------
-class URLRequest(BaseModel):
-    url: HttpUrl
-    return_parsed: bool = False
-    save_to_supabase: bool = False
-    timeout: int = Field(10, ge=1, le=60)
-    ranges: Optional[List[List[int]]] = None
-class TextResponse(BaseModel):
-    text: str
-class LegalDocumentResponse(BaseModel):
-    raw_texts: Optional[List[TextResponse]] = None
-    parsed_document: Optional[Dict[str, Any]] = None
-# -----------------------------
-# التحقق من صحة النطاقات
-# -----------------------------
-def validate_ranges(ranges: List[List[int]]) -> List[Tuple[int, int]]:
-    validated_ranges = []
-    for i, r in enumerate(ranges):
-        if len(r) != 2:
-            raise HTTPException(status_code=400, detail=f"النطاق رقم {i+1} غير صحيح")
-        start, end = r
-        if not all(isinstance(x, int) for x in (start, end)):
-            raise HTTPException(status_code=400, detail=f"النطاق رقم {i+1} يجب أن يحتوي على أرقام صحيحة")
-        if start < 0 or end <= start:
-            raise HTTPException(status_code=400, detail=f"النطاق رقم {i+1} غير صحيح. النهاية يجب أن تكون أكبر من البداية")
-        validated_ranges.append((start, end))
-    return validated_ranges
-# -----------------------------
-# دالة معالجة مشتركة
-# -----------------------------
-async def process_texts(
-    url: str,
-    timeout: int,
-    return_parsed: bool,
-    save_to_db: bool,
     ranges: Optional[List[List[int]]] = None
-) -> LegalDocumentResponse:
-    # 1) استخراج جميع النصوص
-    all_texts = await extract_text_from_url(url, timeout)
-    # 2) تطبيق النطاقات إذا وجدت
-    if ranges:
-        all_texts = clip_by_ranges(all_texts, validate_ranges(ranges))
-    # 3) تحليل القانون إذا طلب
-    if return_parsed:
-        parsed_document = parse_law_from_texts(all_texts)
-        parsed_document["saved_to_db"] = False
-        if save_to_db:
-            save_law_to_supabase(parsed_document["law"])
-            parsed_document["saved_to_db"] = True
-        return LegalDocumentResponse(parsed_document=parsed_document)
-    # 4) النصوص الخام
-    return LegalDocumentResponse(raw_texts=all_texts)
-# -----------------------------
-# نقطة النهاية POST
-# -----------------------------
-@app.post("/extract", response_model=LegalDocumentResponse)
-async def extract_text_post(request: URLRequest):
-    try:
-        return await process_texts(
-            url=str(request.url),
-            timeout=request.timeout,
-            return_parsed=request.return_parsed,
-            save_to_db=request.save_to_supabase,
-            ranges=request.ranges
-        )
-    except Exception as e:
-        raise HTTPException(status_code=500, detail=f"خطأ في معالجة المحتوى: {str(e)}")
-# ============================
-# نقطة النهاية الجديدة
-# ============================
-@app.post("/extract/indexed")
 async def extract_indexed(request: IndexedURLRequest):
     try:
         # 1) استخراج النصوص الخام من الرابط
         raw_texts = await extract_text_from_url(str(request.url), request.timeout)
-        # 2) بناء قائمة مفهرسة بحسب المؤشرات المرسلة
         datalist = build_indexed_response(
             texts=raw_texts,
             title_index=request.title_index,
-            preamble_start=request.preamble_start,   # قد يكون None
             preamble_end=request.preamble_end,
-            body_start=request.body_start,           # قد يكون None
             body_end=request.body_end
         )
@@ -133,7 +52,6 @@ async def extract_indexed(request: IndexedURLRequest):
             # 4) حفظ إلى Supabase إذا طُلب
             if request.save_to_supabase:
-                # نفترض أن parse_law_from_texts تعيد dict يحتوي على مفتاح "law"
                 save_law_to_supabase(parsed["law"])
             return parsed
@@ -144,8 +62,9 @@ async def extract_indexed(request: IndexedURLRequest):
     except Exception as e:
         raise HTTPException(status_code=500, detail=f"خطأ في معالجة المحتوى: {str(e)}")
 # ============================
-# نقطة نهاية GET جديدة
 # ============================
 @app.get("/extract_link")
 async def extract_link_get(
@@ -153,11 +72,8 @@ async def extract_link_get(
     timeout: int = Query(10, ge=1, le=60, description="مهلة الطلب بالثواني")
 ):
     try:
-        # 1) استخراج النصوص الخام من الرابط
         raw_texts = await extract_from_url(str(url), timeout)
-        #full = build_indexed(texts=raw_texts)
-        # 2) بناء القائمة المفهرسة
         return raw_texts
     except Exception as e:
-        raise HTTPException(status_code=500, detail=f"خطأ في معالجة المحتوى: {str(e)}")

 # app.py
 from fastapi import FastAPI, HTTPException, Query
 from pydantic import BaseModel, HttpUrl, Field
+from typing import List, Dict, Optional, Any
 from helpers.text_blocks import extract_text_from_url
 from parser.assembler import parse_law_from_texts
 from supabase_utils import save_law_to_supabase
 from helpers.indexer import build_indexed_response
 from helpers.blocks_all import extract_from_url
     version="2.1.0"
 )
 class IndexedURLRequest(BaseModel):
     url: HttpUrl
     save_to_supabase: bool = False
     timeout: int = Field(10, ge=1, le=60)
+    title_index: Optional[int] = Field(None, ge=0)
     preamble_start: Optional[int] = Field(None, ge=0)
+    preamble_end: Optional[int] = Field(None, ge=0)
     body_start: Optional[int] = Field(None, ge=0)
     body_end: Optional[int] = Field(None, ge=0)
     return_parsed: bool = Field(False, description="إرجاع النتيجة محلّلة (parsed) بدلاً من raw texts")
     ranges: Optional[List[List[int]]] = None
+@app.post("/extract")
 async def extract_indexed(request: IndexedURLRequest):
     try:
         # 1) استخراج النصوص الخام من الرابط
         raw_texts = await extract_text_from_url(str(request.url), request.timeout)
+        # 2) بناء قائمة مفهرسة بالخيارات المرسلة (قد تكون None)
         datalist = build_indexed_response(
             texts=raw_texts,
             title_index=request.title_index,
+            preamble_start=request.preamble_start,
             preamble_end=request.preamble_end,
+            body_start=request.body_start,
             body_end=request.body_end
         )
             # 4) حفظ إلى Supabase إذا طُلب
             if request.save_to_supabase:
                 save_law_to_supabase(parsed["law"])
             return parsed
     except Exception as e:
         raise HTTPException(status_code=500, detail=f"خطأ في معالجة المحتوى: {str(e)}")
 # ============================
+# نقطة GET بسيطة لإرجاع النصوص بدون فهرسة
 # ============================
 @app.get("/extract_link")
 async def extract_link_get(
     timeout: int = Query(10, ge=1, le=60, description="مهلة الطلب بالثواني")
 ):
     try:
         raw_texts = await extract_from_url(str(url), timeout)
         return raw_texts
     except Exception as e:
+        raise HTTPException(status_code=500, detail=f"خطأ في معالجة المحتوى: {str(e)}")