Spaces:

Mazenbs
/

extract_html_full

Sleeping

App Files Files Community

Mazenbs commited on Dec 3, 2025

Commit

6b06b7c

verified ·

1 Parent(s): 36b52f5

Update app.py

Browse files

Files changed (1) hide show

app.py +54 -14

app.py CHANGED Viewed

@@ -1,9 +1,10 @@
 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel, HttpUrl, Field
-from typing import List, Dict, Optional, Tuple
 import requests
 from helpers.text_blocks import extract_text_from_url
 from helpers.output_clipper import clip_by_ranges
 app = FastAPI(
     title="Text Extractor API",
@@ -26,6 +27,11 @@ class CountResponse(BaseModel):
     total_texts: int
     url: str
 def validate_ranges(ranges: List[List[int]]) -> List[Tuple[int, int]]:
     """
     التحقق من صحة النطاقات وتحويلها للتنسيق المطلوب
@@ -72,10 +78,11 @@ def validate_ranges(ranges: List[List[int]]) -> List[Tuple[int, int]]:
     return validated_ranges
-@app.post("/extract", response_model=List[TextResponse])
 async def extract_text_endpoint(request: URLRequest):
     """
     استخراج النصوص من رابط صفحة ويب مع إمكانية تحديد النطاقات
     Examples:
     - استخراج الكل: {"url": "https://example.com"}
@@ -85,17 +92,22 @@ async def extract_text_endpoint(request: URLRequest):
         # استخراج جميع النصوص أولاً باستخدام المستخرج الأصلي
         all_texts = extract_text_from_url(str(request.url), request.timeout)
-        # إذا لم يتم تحديد نطاقات، إرجاع جميع النصوص
         if not request.ranges:
-            return all_texts
-        # التحقق من صحة النطاقات
-        validated_ranges = validate_ranges(request.ranges)
-        # تطبيق فلترة النطاقات باستخدام output_clipper
-        filtered_texts = clip_by_ranges(all_texts, validated_ranges)
-        return filtered_texts
     except requests.RequestException as e:
         raise HTTPException(
@@ -138,9 +150,9 @@ async def get_text_count_endpoint(request: URLRequest):
 @app.get("/")
 async def root():
     return {
-        "message": "Text Extractor API v2.0 is running! 🔥",
         "endpoints": {
-            "extract_text": "/extract-text (POST)",
             "text_count": "/text-count (POST)",
             "docs": "/docs",
             "health": "/health"
@@ -148,16 +160,36 @@ async def root():
         "features": [
             "استخراج جميع النصوص من صفحات الويب",
             "استخراج نطاقات محددة",
             "عد النصوص الكلي",
             "فلترة متقدمة للمخرجات",
             "معالجة النصوص العربية والإنجليزية"
         ],
         "example_requests": {
             "extract_all": {
-                "url": "https://example.com"
             },
             "extract_ranges": {
-                "url": "https://example.com",
                 "ranges": [[0, 10], [50, 100]]
             },
             "get_count": {
@@ -175,7 +207,15 @@ async def health_check():
         "modules": [
             "text_extractor",
             "output_clipper",
             "fastapi"
         ]
     }

 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel, HttpUrl, Field
+from typing import List, Dict, Optional, Tuple, Any
 import requests
 from helpers.text_blocks import extract_text_from_url
 from helpers.output_clipper import clip_by_ranges
+from parser.assembler import parse_legal_document
 app = FastAPI(
     title="Text Extractor API",
     total_texts: int
     url: str
+# new response model for parsed legal documents
+class LegalDocumentResponse(BaseModel):
+    raw_texts: List[TextResponse]
+    parsed_document: Dict[str, Any]
 def validate_ranges(ranges: List[List[int]]) -> List[Tuple[int, int]]:
     """
     التحقق من صحة النطاقات وتحويلها للتنسيق المطلوب
     return validated_ranges
+@app.post("/extract", response_model=LegalDocumentResponse)
 async def extract_text_endpoint(request: URLRequest):
     """
     استخراج النصوص من رابط صفحة ويب مع إمكانية تحديد النطاقات
+    ثم تحليلها كمستند قانوني
     Examples:
     - استخراج الكل: {"url": "https://example.com"}
         # استخراج جميع النصوص أولاً باستخدام المستخرج الأصلي
         all_texts = extract_text_from_url(str(request.url), request.timeout)
+        # إذا لم يتم تحديد نطاقات، استخدام جميع النصوص
         if not request.ranges:
+            filtered_texts = all_texts
+        else:
+            # التحقق من صحة النطاقات
+            validated_ranges = validate_ranges(request.ranges)
+            # تطبيق فلترة النطاقات باستخدام output_clipper
+            filtered_texts = clip_by_ranges(all_texts, validated_ranges)
+        # هنا يتم إرسال filtered_texts إلى المحلل القانوني
+        parsed_document = parse_legal_document(filtered_texts)
+        return LegalDocumentResponse(
+            raw_texts=filtered_texts,
+            parsed_document=parsed_document
+        )
     except requests.RequestException as e:
         raise HTTPException(
 @app.get("/")
 async def root():
     return {
+        "message": "Text Extractor API with Legal Parser v2.0 is running! 🔥⚖️",
         "endpoints": {
+            "extract": "/extract (POST) - استخراج وتحليل النصوص القانونية",
             "text_count": "/text-count (POST)",
             "docs": "/docs",
             "health": "/health"
         "features": [
             "استخراج جميع النصوص من صفحات الويب",
             "استخراج نطاقات محددة",
+            "تحليل المستندات القانونية تلقائياً",
+            "تقسيم النصوص إلى (عنوان، مقدمة، أقسام، مواد)",
             "عد النصوص الكلي",
             "فلترة متقدمة للمخرجات",
             "معالجة النصوص العربية والإنجليزية"
         ],
+        "response_structure": {
+            "raw_texts": "النصوص المستخرجة الخام",
+            "parsed_document": {
+                "title": "العنوان الرئيسي",
+                "preamble": "مقدمة القانون",
+                "sections": [
+                    {
+                        "title": "الباب/الفصل",
+                        "articles": [
+                            {
+                                "title": "مادة رقم X",
+                                "content": "محتوى المادة"
+                            }
+                        ]
+                    }
+                ]
+            }
+        },
         "example_requests": {
             "extract_all": {
+                "url": "https://legal-site.com/constitution"
             },
             "extract_ranges": {
+                "url": "https://legal-site.com/law",
                 "ranges": [[0, 10], [50, 100]]
             },
             "get_count": {
         "modules": [
             "text_extractor",
             "output_clipper",
+            "parser.assembler (legal document parser)",
             "fastapi"
+        ],
+        "legal_features": [
+            "automatic title extraction",
+            "preamble detection",
+            "section parsing (الباب/الفصل)",
+            "article extraction (مادة)",
+            "structured legal document output"
         ]
     }