Spaces:

Mazenbs
/

extract_html_full

Sleeping

App Files Files Community

Mazenbs commited on Dec 3, 2025

Commit

69715cb

verified ·

1 Parent(s): 686e415

Update app.py

Browse files

Files changed (1) hide show

app.py +49 -141

app.py CHANGED Viewed

@@ -9,11 +9,18 @@ from parser.assembler import parse_law_from_texts
 app = FastAPI(
     title="Text Extractor API",
     description="API لاستخراج النصوص من صفحات الويب مع إمكانية التحكم في النطاقات",
-    version="2.0.0"
 )
 class URLRequest(BaseModel):
     url: HttpUrl
     timeout: int = Field(default=10, ge=1, le=60)
     ranges: Optional[List[List[int]]] = Field(
         default=None,
@@ -27,198 +34,99 @@ class CountResponse(BaseModel):
     total_texts: int
     url: str
-# new response model for parsed legal documents
 class LegalDocumentResponse(BaseModel):
-    raw_texts: List[TextResponse]
-    parsed_document: Dict[str, Any]
 def validate_ranges(ranges: List[List[int]]) -> List[Tuple[int, int]]:
-    """
-    التحقق من صحة النطاقات وتحويلها للتنسيق المطلوب
-    Args:
-        ranges: النطاقات في شكل [[start, end], ...]
-    Returns:
-        النطاقات المحولة [(start, end), ...]
-    Raises:
-        HTTPException: في حالة وجود نطاق غير صحيح
-    """
     validated_ranges = []
     for i, range_pair in enumerate(ranges):
         if len(range_pair) != 2:
             raise HTTPException(
                 status_code=400,
                 detail=f"النطاق رقم {i+1} غير صحيح. كل نطاق يجب أن يحتوي على عنصرين: [start, end]"
             )
         start, end = range_pair
         if not isinstance(start, int) or not isinstance(end, int):
             raise HTTPException(
                 status_code=400,
                 detail=f"النطاق رقم {i+1} غير صحيح. القيم يجب أن تكون أرقام صحيحة"
             )
-        if start < 0:
-            raise HTTPException(
-                status_code=400,
-                detail=f"النطاق رقم {i+1} غير صحيح. البداية يجب أن تكون >= 0"
-            )
-        if end <= start:
             raise HTTPException(
                 status_code=400,
-                detail=f"النطاق رقم {i+1} غير صحيح. النهاية يجب أن تكون أكبر من البداية"
             )
         validated_ranges.append((start, end))
     return validated_ranges
 @app.post("/extract", response_model=LegalDocumentResponse)
 async def extract_text_endpoint(request: URLRequest):
     """
     استخراج النصوص من رابط صفحة ويب مع إمكانية تحديد النطاقات
-    ثم تحليلها كمستند قانوني
-    Examples:
-    - استخراج الكل: {"url": "https://example.com"}
-    - استخراج نطاقات محددة: {"url": "https://example.com", "ranges": [[0, 10], [20, 30]]}
     """
     try:
-        # استخراج جميع النصوص أولاً باستخدام المستخرج الأصلي
         all_texts = extract_text_from_url(str(request.url), request.timeout)
-        # إذا لم يتم تحديد نطاقات، استخدام جميع النصوص
-        if not request.ranges:
-            filtered_texts = all_texts
-        else:
-            # التحقق من صحة النطاقات
             validated_ranges = validate_ranges(request.ranges)
-            # تطبيق فلترة النطاقات باستخدام output_clipper
             filtered_texts = clip_by_ranges(all_texts, validated_ranges)
-        # هنا يتم إرسال filtered_texts إلى المحلل القانوني
-        parsed_document = parse_law_from_texts(filtered_texts)
-        return LegalDocumentResponse(
-            raw_texts=filtered_texts,
-            parsed_document=parsed_document
-        )
     except requests.RequestException as e:
-        raise HTTPException(
-            status_code=400,
-            detail=f"خطأ في جلب الصفحة: {str(e)}"
-        )
     except HTTPException:
-        # إعادة إثارة أخطاء HTTP كما هي
         raise
     except Exception as e:
-        raise HTTPException(
-            status_code=500,
-            detail=f"خطأ في معالجة المحتوى: {str(e)}"
-        )
 @app.post("/text-count", response_model=CountResponse)
 async def get_text_count_endpoint(request: URLRequest):
-    """
-    الحصول على عدد النصوص الكلي في الصفحة
-    مفيد لمعرفة النطاقات المتاحة قبل الاستخراج
-    """
     try:
-        # استخراج جميع النصوص للحصول على العدد
         all_texts = extract_text_from_url(str(request.url), request.timeout)
-        count = len(all_texts)
-        return CountResponse(total_texts=count, url=str(request.url))
     except requests.RequestException as e:
-        raise HTTPException(
-            status_code=400,
-            detail=f"خطأ في جلب الصفحة: {str(e)}"
-        )
     except Exception as e:
-        raise HTTPException(
-            status_code=500,
-            detail=f"خطأ في معالجة المحتوى: {str(e)}"
-        )
 @app.get("/")
 async def root():
-    return {
-        "message": "Text Extractor API with Legal Parser v2.0 is running! 🔥⚖️",
-        "endpoints": {
-            "extract": "/extract (POST) - استخراج وتحليل النصوص القانونية",
-            "text_count": "/text-count (POST)",
-            "docs": "/docs",
-            "health": "/health"
-        },
-        "features": [
-            "استخراج جميع النصوص من صفحات الويب",
-            "استخراج نطاقات محددة",
-            "تحليل المستندات القانونية تلقائياً",
-            "تقسيم النصوص إلى (عنوان، مقدمة، أقسام، مواد)",
-            "عد النصوص الكلي",
-            "فلترة متقدمة للمخرجات",
-            "معالجة النصوص العربية والإنجليزية"
-        ],
-        "response_structure": {
-            "raw_texts": "النصوص المستخرجة الخام",
-            "parsed_document": {
-                "title": "العنوان الرئيسي",
-                "preamble": "مقدمة القانون",
-                "sections": [
-                    {
-                        "title": "الباب/الفصل",
-                        "articles": [
-                            {
-                                "title": "مادة رقم X",
-                                "content": "محتوى المادة"
-                            }
-                        ]
-                    }
-                ]
-            }
-        },
-        "example_requests": {
-            "extract_all": {
-                "url": "https://legal-site.com/constitution"
-            },
-            "extract_ranges": {
-                "url": "https://legal-site.com/law",
-                "ranges": [[0, 10], [50, 100]]
-            },
-            "get_count": {
-                "url": "https://example.com",
-                "timeout": 15
-            }
-        }
-    }
 @app.get("/health")
 async def health_check():
-    return {
-        "status": "healthy",
-        "version": "2.0.0",
-        "modules": [
-            "text_extractor",
-            "output_clipper",
-            "parser.assembler (legal document parser)",
-            "fastapi"
-        ],
-        "legal_features": [
-            "automatic title extraction",
-            "preamble detection",
-            "section parsing (الباب/الفصل)",
-            "article extraction (مادة)",
-            "structured legal document output"
-        ]
-    }
 if __name__ == "__main__":
     import uvicorn
-    uvicorn.run(app, host="0.0.0.0", port=8000, reload=True)

 app = FastAPI(
     title="Text Extractor API",
     description="API لاستخراج النصوص من صفحات الويب مع إمكانية التحكم في النطاقات",
+    version="2.1.0"
 )
+# -----------------------------
+# نماذج البيانات
+# -----------------------------
 class URLRequest(BaseModel):
     url: HttpUrl
+    return_parsed: bool = Field(
+        default=False,
+        description="إذا True → إرجاع المستند القانوني المحلل، إذا False → إرجاع النصوص الخام"
+    )
     timeout: int = Field(default=10, ge=1, le=60)
     ranges: Optional[List[List[int]]] = Field(
         default=None,
     total_texts: int
     url: str
 class LegalDocumentResponse(BaseModel):
+    raw_texts: Optional[List[TextResponse]] = None
+    parsed_document: Optional[Dict[str, Any]] = None
+# -----------------------------
+# التحقق من صحة النطاقات
+# -----------------------------
 def validate_ranges(ranges: List[List[int]]) -> List[Tuple[int, int]]:
     validated_ranges = []
     for i, range_pair in enumerate(ranges):
         if len(range_pair) != 2:
             raise HTTPException(
                 status_code=400,
                 detail=f"النطاق رقم {i+1} غير صحيح. كل نطاق يجب أن يحتوي على عنصرين: [start, end]"
             )
         start, end = range_pair
         if not isinstance(start, int) or not isinstance(end, int):
             raise HTTPException(
                 status_code=400,
                 detail=f"النطاق رقم {i+1} غير صحيح. القيم يجب أن تكون أرقام صحيحة"
             )
+        if start < 0 or end <= start:
             raise HTTPException(
                 status_code=400,
+                detail=f"النطاق رقم {i+1} غير صحيح. النهاية يجب أن تكون أكبر من البداية والبداية >= 0"
             )
         validated_ranges.append((start, end))
     return validated_ranges
+# -----------------------------
+# نقطة النهاية لاستخراج النصوص / القانون
+# -----------------------------
 @app.post("/extract", response_model=LegalDocumentResponse)
 async def extract_text_endpoint(request: URLRequest):
     """
     استخراج النصوص من رابط صفحة ويب مع إمكانية تحديد النطاقات
+    ثم إرجاع النصوص الخام أو المستند القانوني المحلل بناء على return_parsed
     """
     try:
+        # 1) استخراج جميع النصوص
         all_texts = extract_text_from_url(str(request.url), request.timeout)
+        # 2) تطبيق النطاقات إذا وجدت
+        if request.ranges:
             validated_ranges = validate_ranges(request.ranges)
             filtered_texts = clip_by_ranges(all_texts, validated_ranges)
+        else:
+            filtered_texts = all_texts
+        # 3) إذا طلب تحليل القانون
+        if request.return_parsed:
+            # تحويل TextResponse إلى str إذا لزم الأمر
+            texts_as_str = [t.text if isinstance(t, TextResponse) else t for t in filtered_texts]
+            parsed_document = parse_law_from_texts(texts_as_str)
+            return LegalDocumentResponse(parsed_document=parsed_document)
+        # 4) خلاف ذلك: إرجاع النصوص الخام
+        return LegalDocumentResponse(raw_texts=filtered_texts)
     except requests.RequestException as e:
+        raise HTTPException(status_code=400, detail=f"خطأ في جلب الصفحة: {str(e)}")
     except HTTPException:
         raise
     except Exception as e:
+        raise HTTPException(status_code=500, detail=f"خطأ في معالجة المحتوى: {str(e)}")
+# -----------------------------
+# نقطة النهاية لعدد النصوص
+# -----------------------------
 @app.post("/text-count", response_model=CountResponse)
 async def get_text_count_endpoint(request: URLRequest):
     try:
         all_texts = extract_text_from_url(str(request.url), request.timeout)
+        return CountResponse(total_texts=len(all_texts), url=str(request.url))
     except requests.RequestException as e:
+        raise HTTPException(status_code=400, detail=f"خطأ في جلب الصفحة: {str(e)}")
     except Exception as e:
+        raise HTTPException(status_code=500, detail=f"خطأ في معالجة المحتوى: {str(e)}")
+# -----------------------------
+# صفحة البداية
+# -----------------------------
 @app.get("/")
 async def root():
+    return {"message": "Text Extractor API v2.1 with optional legal parsing is running! ⚖️"}
+# -----------------------------
+# health check
+# -----------------------------
 @app.get("/health")
 async def health_check():
+    return {"status": "healthy", "version": "2.1.0"}
 if __name__ == "__main__":
     import uvicorn
+    uvicorn.run(app, host="0.0.0.0", port=8000, reload=True)