Spaces:

Mazenbs
/

extract_html_full

Sleeping

App Files Files Community

Mazenbs commited on Dec 3, 2025

Commit

d883482

verified ·

1 Parent(s): 3eb1c56

Update app.py

Browse files

Files changed (1) hide show

app.py +143 -14

app.py CHANGED Viewed

@@ -1,31 +1,128 @@
 from fastapi import FastAPI, HTTPException
-from pydantic import BaseModel, HttpUrl
-from typing import List, Dict
 import requests
 from helpers.text_blocks import extract_text_from_url
 app = FastAPI(
     title="Text Extractor API",
-    description="API لاستخراج النصوص من صفحات الويب",
-    version="1.0.0"
 )
 class URLRequest(BaseModel):
     url: HttpUrl
-    timeout: int = 10
 class TextResponse(BaseModel):
     text: str
-@app.post("/extract", response_model=List[TextResponse])
 async def extract_text_endpoint(request: URLRequest):
     """
-    استخراج النصوص من رابط صفحة ويب
     """
     try:
-        # استدعاء دالة الاستخراج
-        result = extract_text_from_url(str(request.url), request.timeout)
-        return result
     except requests.RequestException as e:
         raise HTTPException(
@@ -41,14 +138,46 @@ async def extract_text_endpoint(request: URLRequest):
 @app.get("/")
 async def root():
     return {
-        "message": "Text Extractor API is running!",
-        "endpoint": "/extract-text",
-        "method": "POST"
     }
 @app.get("/health")
 async def health_check():
-    return {"status": "healthy"}
 if __name__ == "__main__":
     import uvicorn

 from fastapi import FastAPI, HTTPException
+from pydantic import BaseModel, HttpUrl, Field
+from typing import List, Dict, Optional, Tuple
 import requests
 from helpers.text_blocks import extract_text_from_url
+from helpers.output_clipper import clip_by_ranges
 app = FastAPI(
     title="Text Extractor API",
+    description="API لاستخراج النصوص من صفحات الويب مع إمكانية التحكم في النطاقات",
+    version="2.0.0"
 )
 class URLRequest(BaseModel):
     url: HttpUrl
+    timeout: int = Field(default=10, ge=1, le=60)
+    ranges: Optional[List[List[int]]] = Field(
+        default=None,
+        description="نطاقات الاستخراج في شكل [[start, end], [start, end]] - اختياري"
+    )
 class TextResponse(BaseModel):
     text: str
+class CountResponse(BaseModel):
+    total_texts: int
+    url: str
+def validate_ranges(ranges: List[List[int]]) -> List[Tuple[int, int]]:
+    """
+    التحقق من صحة النطاقات وتحويلها للتنسيق المطلوب
+    Args:
+        ranges: النطاقات في شكل [[start, end], ...]
+    Returns:
+        النطاقات المحولة [(start, end), ...]
+    Raises:
+        HTTPException: في حالة وجود نطاق غير صحيح
+    """
+    validated_ranges = []
+    for i, range_pair in enumerate(ranges):
+        if len(range_pair) != 2:
+            raise HTTPException(
+                status_code=400,
+                detail=f"النطاق رقم {i+1} غير صحيح. كل نطاق يجب أن يحتوي على عنصرين: [start, end]"
+            )
+        start, end = range_pair
+        if not isinstance(start, int) or not isinstance(end, int):
+            raise HTTPException(
+                status_code=400,
+                detail=f"النطاق رقم {i+1} غير صحيح. القيم يجب أن تكون أرقام صحيحة"
+            )
+        if start < 0:
+            raise HTTPException(
+                status_code=400,
+                detail=f"النطاق رقم {i+1} غير صحيح. البداية يجب أن تكون >= 0"
+            )
+        if end <= start:
+            raise HTTPException(
+                status_code=400,
+                detail=f"النطاق رقم {i+1} غير صحيح. النهاية يجب أن تكون أكبر من البداية"
+            )
+        validated_ranges.append((start, end))
+    return validated_ranges
+@app.post("/extract-text", response_model=List[TextResponse])
 async def extract_text_endpoint(request: URLRequest):
     """
+    استخراج النصوص من رابط صفحة ويب مع إمكانية تحديد النطاقات
+    Examples:
+    - استخراج الكل: {"url": "https://example.com"}
+    - استخراج نطاقات محددة: {"url": "https://example.com", "ranges": [[0, 10], [20, 30]]}
     """
     try:
+        # استخراج جميع النصوص أولاً باستخدام المستخرج الأصلي
+        all_texts = extract_text_from_url(str(request.url), request.timeout)
+        # إذا لم يتم تحديد نطاقات، إرجاع جميع النصوص
+        if not request.ranges:
+            return all_texts
+        # التحقق من صحة النطاقات
+        validated_ranges = validate_ranges(request.ranges)
+        # تطبيق فلترة النطاقات باستخدام output_clipper
+        filtered_texts = clip_by_ranges(all_texts, validated_ranges)
+        return filtered_texts
+    except requests.RequestException as e:
+        raise HTTPException(
+            status_code=400,
+            detail=f"خطأ في جلب الصفحة: {str(e)}"
+        )
+    except HTTPException:
+        # إعادة إثارة أخطاء HTTP كما هي
+        raise
+    except Exception as e:
+        raise HTTPException(
+            status_code=500,
+            detail=f"خطأ في معالجة المحتوى: {str(e)}"
+        )
+@app.post("/text-count", response_model=CountResponse)
+async def get_text_count_endpoint(request: URLRequest):
+    """
+    الحصول على عدد النصوص الكلي في الصفحة
+    مفيد لمعرفة النطاقات المتاحة قبل الاستخراج
+    """
+    try:
+        # استخراج جميع النصوص للحصول على العدد
+        all_texts = extract_text_from_url(str(request.url), request.timeout)
+        count = len(all_texts)
+        return CountResponse(total_texts=count, url=str(request.url))
     except requests.RequestException as e:
         raise HTTPException(
 @app.get("/")
 async def root():
     return {
+        "message": "Text Extractor API v2.0 is running! 🔥",
+        "endpoints": {
+            "extract_text": "/extract-text (POST)",
+            "text_count": "/text-count (POST)",
+            "docs": "/docs",
+            "health": "/health"
+        },
+        "features": [
+            "استخراج جميع النصوص من صفحات الويب",
+            "استخراج نطاقات محددة",
+            "عد النصوص الكلي",
+            "فلترة متقدمة للمخرجات",
+            "معالجة النصوص العربية والإنجليزية"
+        ],
+        "example_requests": {
+            "extract_all": {
+                "url": "https://example.com"
+            },
+            "extract_ranges": {
+                "url": "https://example.com",
+                "ranges": [[0, 10], [50, 100]]
+            },
+            "get_count": {
+                "url": "https://example.com",
+                "timeout": 15
+            }
+        }
     }
 @app.get("/health")
 async def health_check():
+    return {
+        "status": "healthy",
+        "version": "2.0.0",
+        "modules": [
+            "text_extractor",
+            "output_clipper",
+            "fastapi"
+        ]
+    }
 if __name__ == "__main__":
     import uvicorn