Update app.py
Browse files
app.py
CHANGED
|
@@ -18,17 +18,22 @@ def process_file(file):
|
|
| 18 |
data = []
|
| 19 |
hashtags_counter = Counter()
|
| 20 |
|
| 21 |
-
# العثور على ال
|
| 22 |
-
desc_containers = soup.find_all('div',
|
| 23 |
if not desc_containers:
|
| 24 |
return "لم يتم العثور على أي بيانات مطابقة في الملف.", None
|
| 25 |
|
| 26 |
-
for
|
| 27 |
# استخراج العنوان
|
| 28 |
-
|
|
|
|
| 29 |
|
| 30 |
# استخراج الهاشتاغات
|
| 31 |
-
hashtags = [
|
|
|
|
|
|
|
|
|
|
|
|
|
| 32 |
hashtags_counter.update(hashtags)
|
| 33 |
|
| 34 |
# إضافة البيانات للجدول
|
|
@@ -48,7 +53,7 @@ def gradio_interface(file):
|
|
| 48 |
titles_df, hashtags_df = result
|
| 49 |
else:
|
| 50 |
return result, ""
|
| 51 |
-
|
| 52 |
if titles_df is None or hashtags_df is None:
|
| 53 |
return "لم يتم استخراج أي بيانات.", ""
|
| 54 |
|
|
|
|
| 18 |
data = []
|
| 19 |
hashtags_counter = Counter()
|
| 20 |
|
| 21 |
+
# العثور على الحاويات المستهدفة
|
| 22 |
+
desc_containers = soup.find_all('div', class_="css-vi46v1-DivDesContainer")
|
| 23 |
if not desc_containers:
|
| 24 |
return "لم يتم العثور على أي بيانات مطابقة في الملف.", None
|
| 25 |
|
| 26 |
+
for container in desc_containers:
|
| 27 |
# استخراج العنوان
|
| 28 |
+
title_tag = container.find('h1')
|
| 29 |
+
title = title_tag.get_text(strip=True) if title_tag else "بدون عنوان"
|
| 30 |
|
| 31 |
# استخراج الهاشتاغات
|
| 32 |
+
hashtags = [
|
| 33 |
+
tag.get_text(strip=True)
|
| 34 |
+
for tag in container.find_all('a')
|
| 35 |
+
if tag.get_text(strip=True).startswith('#')
|
| 36 |
+
]
|
| 37 |
hashtags_counter.update(hashtags)
|
| 38 |
|
| 39 |
# إضافة البيانات للجدول
|
|
|
|
| 53 |
titles_df, hashtags_df = result
|
| 54 |
else:
|
| 55 |
return result, ""
|
| 56 |
+
|
| 57 |
if titles_df is None or hashtags_df is None:
|
| 58 |
return "لم يتم استخراج أي بيانات.", ""
|
| 59 |
|