Spaces:

Mazenbs
/

extract_html_full

Running

App Files Files Community

Mazenbs commited on Dec 4, 2025

Commit

7230c8c

verified ·

1 Parent(s): e1a51d7

Update app.py

Browse files

Files changed (1) hide show

app.py +57 -30

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 # app.py
 from fastapi import FastAPI, HTTPException, Query
 from typing import List, Dict, Optional, Any, Tuple
 import json
@@ -14,6 +15,16 @@ app = FastAPI(
     version="2.1.0"
 )
 class TextResponse(BaseModel):
     text: str
@@ -38,50 +49,66 @@ def validate_ranges(ranges: List[List[int]]) -> List[Tuple[int, int]]:
     return validated_ranges
 # -----------------------------
-# نقطة النهاية GET
 # -----------------------------
-@app.get("/extract", response_model=LegalDocumentResponse)
-async def extract_text_endpoint(
-    url: str,
-    return_parsed: bool = False,
-    save_to_supabase: bool = False,
-    timeout: int = 10,
-    ranges: Optional[str] = Query(None, description="نطاقات الاستخراج كـ JSON string: [[start,end],[start,end]]")
-):
     try:
-        # تحويل ranges من JSON string إلى قائمة
-        parsed_ranges: Optional[List[List[int]]] = None
-        if ranges:
-            try:
-                parsed_ranges = json.loads(ranges)
-            except json.JSONDecodeError:
-                raise HTTPException(status_code=400, detail="تنسيق ranges غير صالح. يجب أن يكون JSON مثل [[0,5],[10,20]]")
-        # استخراج النصوص من URL
-        all_texts = await extract_text_from_url(url, timeout)
-        # تطبيق النطاقات إذا وجدت
-        if parsed_ranges:
-            validated_ranges = validate_ranges(parsed_ranges)
             filtered_texts = clip_by_ranges(all_texts, validated_ranges)
         else:
             filtered_texts = all_texts
-        # تحليل القانون إذا طلب
-        if return_parsed:
             parsed_document = parse_law_from_texts(filtered_texts)
-            if save_to_supabase:
                 save_law_to_supabase(parsed_document["law"])
                 parsed_document["saved_to_db"] = True
             else:
                 parsed_document["saved_to_db"] = False
             return LegalDocumentResponse(parsed_document=parsed_document)
         return LegalDocumentResponse(raw_texts=filtered_texts)
-    except httpx.RequestError as e:
-        raise HTTPException(status_code=400, detail=f"خطأ في جلب الصفحة: {str(e)}")
-    except HTTPException:
-        raise
     except Exception as e:
         raise HTTPException(status_code=500, detail=f"خطأ في معالجة المحتوى: {str(e)}")

 # app.py
 from fastapi import FastAPI, HTTPException, Query
+from pydantic import BaseModel, HttpUrl, Field
 from typing import List, Dict, Optional, Any, Tuple
 import json
     version="2.1.0"
 )
+# -----------------------------
+# نماذج البيانات
+# -----------------------------
+class URLRequest(BaseModel):
+    url: HttpUrl
+    return_parsed: bool = Field(default=False)
+    save_to_supabase: bool = Field(default=False)
+    timeout: int = Field(default=10, ge=1, le=60)
+    ranges: Optional[List[List[int]]] = None
 class TextResponse(BaseModel):
     text: str
     return validated_ranges
 # -----------------------------
+# نقطة النهاية POST
 # -----------------------------
+@app.post("/extract", response_model=LegalDocumentResponse)
+async def extract_text_endpoint(request: URLRequest):
     try:
+        # 1) استخراج جميع النصوص
+        all_texts = await extract_text_from_url(str(request.url), request.timeout)
+        # 2) تطبيق النطاقات إذا وجدت
+        if request.ranges:
+            validated_ranges = validate_ranges(request.ranges)
             filtered_texts = clip_by_ranges(all_texts, validated_ranges)
         else:
             filtered_texts = all_texts
+        # 3) تحليل القانون إذا طلب
+        if request.return_parsed:
             parsed_document = parse_law_from_texts(filtered_texts)
+            if request.save_to_supabase:
                 save_law_to_supabase(parsed_document["law"])
                 parsed_document["saved_to_db"] = True
             else:
                 parsed_document["saved_to_db"] = False
             return LegalDocumentResponse(parsed_document=parsed_document)
+        # 4) النصوص الخام
         return LegalDocumentResponse(raw_texts=filtered_texts)
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=f"خطأ في معالجة المحتوى: {str(e)}")
+# -----------------------------
+# نقطة النهاية GET
+# -----------------------------
+@app.get("/extract", response_model=LegalDocumentResponse)
+async def extract_text_get(
+    url: HttpUrl = Query(..., description="رابط الصفحة لاستخراج النصوص"),
+    return_parsed: bool = Query(False, description="تحليل القانون إذا True"),
+    save_to_supabase: bool = Query(False, description="حفظ المستند في قاعدة البيانات إذا True"),
+    timeout: int = Query(10, ge=1, le=60, description="مهلة الانتظار بالثواني")
+):
+    try:
+        # 1) استخراج جميع النصوص
+        all_texts = await extract_text_from_url(str(url), timeout)
+        # لا يوجد دعم للنطاقات في GET حالياً، يمكن إضافة لاحقاً إذا أردت
+        # 2) تحليل القانون إذا طلب
+        if return_parsed:
+            parsed_document = parse_law_from_texts(all_texts)
+            if save_to_supabase:
+                save_law_to_supabase(parsed_document["law"])
+                parsed_document["saved_to_db"] = True
+            else:
+                parsed_document["saved_to_db"] = False
+            return LegalDocumentResponse(parsed_document=parsed_document)
+        # 3) النصوص الخام
+        return LegalDocumentResponse(raw_texts=all_texts)
     except Exception as e:
         raise HTTPException(status_code=500, detail=f"خطأ في معالجة المحتوى: {str(e)}")