Spaces:
Running
Running
Update app.py
Browse files
app.py
CHANGED
|
@@ -1,98 +1,67 @@
|
|
| 1 |
-
from fastapi import FastAPI,
|
| 2 |
-
import
|
|
|
|
| 3 |
from bs4 import BeautifulSoup
|
| 4 |
-
from typing import List, Dict
|
|
|
|
| 5 |
|
| 6 |
-
|
| 7 |
-
app = FastAPI(
|
| 8 |
-
title="محلل محتوى الصفحة (Page Content Analyzer)",
|
| 9 |
-
description="تطبيق لاستخراج النصوص من صفحة ويب معينة بناءً على رابط URL.",
|
| 10 |
-
version="1.0.0"
|
| 11 |
-
)
|
| 12 |
|
| 13 |
-
|
| 14 |
-
|
| 15 |
-
IGNORE_TAGS = {
|
| 16 |
-
'script', 'style', 'noscript', 'head', 'meta', 'link', 'img', 'svg',
|
| 17 |
-
'button', 'input', 'select', 'textarea', 'nav', 'footer', 'header',
|
| 18 |
-
'form', 'iframe'
|
| 19 |
-
}
|
| 20 |
|
| 21 |
-
|
| 22 |
-
|
| 23 |
-
"""
|
| 24 |
-
تقوم بجلب محتوى الرابط، وتحليله، واستخراج النصوص الموجودة داخل وسوم HTML.
|
| 25 |
-
"""
|
| 26 |
-
# تعيين مهلة قصوى للطلب (بالثواني)
|
| 27 |
-
TIMEOUT = 15
|
| 28 |
|
|
|
|
|
|
|
| 29 |
try:
|
| 30 |
-
#
|
| 31 |
-
|
| 32 |
-
|
| 33 |
-
|
| 34 |
-
|
| 35 |
-
|
| 36 |
-
|
| 37 |
-
|
| 38 |
-
|
| 39 |
-
|
| 40 |
-
|
| 41 |
-
|
| 42 |
-
|
| 43 |
-
|
| 44 |
-
#
|
| 45 |
-
|
| 46 |
-
|
| 47 |
-
|
| 48 |
-
|
| 49 |
-
|
| 50 |
-
|
| 51 |
-
|
| 52 |
-
|
| 53 |
-
|
| 54 |
-
|
| 55 |
-
|
| 56 |
-
|
| 57 |
-
|
| 58 |
-
|
| 59 |
-
|
| 60 |
-
|
| 61 |
-
|
| 62 |
-
|
| 63 |
-
|
| 64 |
-
|
| 65 |
-
|
| 66 |
-
|
| 67 |
-
|
| 68 |
-
raise HTTPException(status_code=
|
| 69 |
except Exception as e:
|
| 70 |
-
|
| 71 |
-
raise HTTPException(status_code=500, detail=f"حدث خطأ غير متوقع أثناء التحليل: {type(e).__name__} - {str(e)}")
|
| 72 |
-
|
| 73 |
-
|
| 74 |
-
@app.get(
|
| 75 |
-
"/analyze_url",
|
| 76 |
-
summary="تحليل محتوى الصفحة واستخراج النصوص",
|
| 77 |
-
description="يقوم بتحليل صفحة الويب المحددة واستخراج جميع النصوص الموجودة داخل وسوم HTML.",
|
| 78 |
-
response_model=List[Dict[str, str]]
|
| 79 |
-
)
|
| 80 |
-
async def get_page_content(
|
| 81 |
-
url: str = Query(
|
| 82 |
-
...,
|
| 83 |
-
description="أدخل الرابط كاملاً (على سبيل المثال: https://www.google.com)",
|
| 84 |
-
example="https://www.google.com"
|
| 85 |
-
)
|
| 86 |
-
):
|
| 87 |
-
"""
|
| 88 |
-
المسار الرئيسي لاستقبال رابط URL وتنفيذ عملية التحليل.
|
| 89 |
|
| 90 |
-
|
| 91 |
-
|
| 92 |
-
"""
|
| 93 |
-
# استدعاء دالة الجلب والتحليل
|
| 94 |
-
return await fetch_and_analyze(url)
|
| 95 |
|
| 96 |
-
|
| 97 |
-
|
| 98 |
-
|
|
|
|
| 1 |
+
from fastapi import FastAPI, HTTPException
|
| 2 |
+
from pydantic import BaseModel, HttpUrl
|
| 3 |
+
import requests
|
| 4 |
from bs4 import BeautifulSoup
|
| 5 |
+
from typing import List, Dict
|
| 6 |
+
import re
|
| 7 |
|
| 8 |
+
app = FastAPI(title="Text Extractor API", version="1.0.0")
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 9 |
|
| 10 |
+
class URLRequest(BaseModel):
|
| 11 |
+
url: HttpUrl
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 12 |
|
| 13 |
+
class TextResponse(BaseModel):
|
| 14 |
+
text: str
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 15 |
|
| 16 |
+
@app.post("/extract-text", response_model=List[TextResponse])
|
| 17 |
+
async def extract_text_from_url(request: URLRequest):
|
| 18 |
try:
|
| 19 |
+
# إرسال طلب GET للرابط
|
| 20 |
+
headers = {
|
| 21 |
+
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
|
| 22 |
+
}
|
| 23 |
+
response = requests.get(str(request.url), headers=headers, timeout=10)
|
| 24 |
+
response.raise_for_status()
|
| 25 |
+
|
| 26 |
+
# تحليل HTML
|
| 27 |
+
soup = BeautifulSoup(response.content, 'html.parser')
|
| 28 |
+
|
| 29 |
+
# إزالة العناصر غير المرغوب فيها
|
| 30 |
+
for element in soup(['script', 'style', 'meta', 'link', 'noscript']):
|
| 31 |
+
element.decompose()
|
| 32 |
+
|
| 33 |
+
# استخراج جميع النصوص من كل العناصر
|
| 34 |
+
text_elements = []
|
| 35 |
+
|
| 36 |
+
# البحث عن جميع العناصر التي تحتوي على نص
|
| 37 |
+
for element in soup.find_all(text=True):
|
| 38 |
+
text = element.strip()
|
| 39 |
+
# تنظيف النص وإزالة المسافات الزائدة
|
| 40 |
+
text = re.sub(r'\s+', ' ', text)
|
| 41 |
+
|
| 42 |
+
# تجاهل النصوص الفارغة والنصوص التي تحتوي على محارف خاصة فقط
|
| 43 |
+
if text and len(text) > 1 and not text.isspace():
|
| 44 |
+
text_elements.append({'text': text})
|
| 45 |
+
|
| 46 |
+
# إزالة النصوص المكررة
|
| 47 |
+
seen = set()
|
| 48 |
+
unique_texts = []
|
| 49 |
+
for item in text_elements:
|
| 50 |
+
if item['text'] not in seen:
|
| 51 |
+
seen.add(item['text'])
|
| 52 |
+
unique_texts.append(item)
|
| 53 |
+
|
| 54 |
+
return unique_texts
|
| 55 |
+
|
| 56 |
+
except requests.RequestException as e:
|
| 57 |
+
raise HTTPException(status_code=400, detail=f"Error fetching URL: {str(e)}")
|
| 58 |
except Exception as e:
|
| 59 |
+
raise HTTPException(status_code=500, detail=f"Error processing content: {str(e)}")
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 60 |
|
| 61 |
+
@app.get("/")
|
| 62 |
+
async def root():
|
| 63 |
+
return {"message": "Text Extractor API is running! Send POST request to /extract-text"}
|
|
|
|
|
|
|
| 64 |
|
| 65 |
+
if __name__ == "__main__":
|
| 66 |
+
import uvicorn
|
| 67 |
+
uvicorn.run(app, host="0.0.0.0", port=8000)
|