Spaces:

KIMOSSINO
/

hashtags

Sleeping

App Files Files Community

KIMOSSINO commited on Dec 10, 2024

Commit

130fa7f

verified ·

1 Parent(s): 42b376b

Update app.py

Browse files

Files changed (1) hide show

app.py +47 -21

app.py CHANGED Viewed

@@ -3,43 +3,69 @@ from collections import Counter
 from bs4 import BeautifulSoup
-# دالة استخراج العناوين والهاشتاغات
 def extract_titles_and_hashtags(file):
     try:
-        # قراءة محتوى الملف
-        content = file.read() if hasattr(file, 'read') else open(file.name, 'r', encoding='utf-8').read()
     except Exception as e:
         return f"خطأ أثناء قراءة الملف: {str(e)}", "", ""
     # تحليل HTML باستخدام BeautifulSoup
-    soup = BeautifulSoup(content, 'html.parser')
     # استخراج البيانات
     data = []
     hashtags_counter = Counter()
     desc_containers = soup.find_all('div', class_="css-vi46v1-DivDesContainer")
     if not desc_containers:
         return "لم يتم العثور على أي بيانات مطابقة.", "", ""
     for container in desc_containers:
-        title = container.get('aria-label', 'بدون عنوان')
-        hashtags = [
-            tag.get_text(strip=True)
-            for tag in container.find_all('a')
-            if tag.get_text(strip=True).startswith('#')
-        ]
-        hashtags_counter.update(hashtags)
-        data.append({"Title": title, "Hashtags": ", ".join(hashtags)})
-    # تحويل النتائج إلى نصوص
-    titles_text = "\n".join([f"{i+1}. {row['Title']}" for i, row in enumerate(data)])
-    hashtags_text = "\n".join([f"{hashtag}: {count}" for hashtag, count in hashtags_counter.items()])
-    unique_hashtags_text = "\n".join(hashtags_counter.keys())  # هاشتاغات غير مكررة
-    return titles_text or "لا توجد عناوين مستخرجة.", hashtags_text or "لا توجد هاشتاغات مستخرجة.", unique_hashtags_text or "لا توجد هاشتاغات فريدة."
 # إنشاء واجهة Gradio
 def gradio_interface():
     with gr.Blocks() as demo:

 from bs4 import BeautifulSoup
 def extract_titles_and_hashtags(file):
     try:
+        # قراءة محتوى الملف بطريقة أكثر كفاءة
+        if hasattr(file, 'read'):
+            content = file.read()
+        else:
+            with open(file.name, 'r', encoding='utf-8') as f:
+                content = f.read()
     except Exception as e:
         return f"خطأ أثناء قراءة الملف: {str(e)}", "", ""
     # تحليل HTML باستخدام BeautifulSoup
+    try:
+        soup = BeautifulSoup(content, 'html.parser')
+    except Exception as e:
+        return f"خطأ في تحليل محتوى HTML: {str(e)}", "", ""
     # استخراج البيانات
     data = []
     hashtags_counter = Counter()
+    # البحث عن الحاويات
     desc_containers = soup.find_all('div', class_="css-vi46v1-DivDesContainer")
     if not desc_containers:
         return "لم يتم العثور على أي بيانات مطابقة.", "", ""
+    # معالجة كل حاوية
     for container in desc_containers:
+        title = container.get('aria-label', 'بدون عنوان').strip()
+        hashtags = []
+        # استخراج الهاشتاغات
+        for tag in container.find_all('a'):
+            tag_text = tag.get_text(strip=True)
+            if tag_text.startswith('#'):
+                hashtags.append(tag_text)
+        if hashtags:
+            hashtags_counter.update(hashtags)
+            data.append({
+                "Title": title,
+                "Hashtags": ", ".join(hashtags)
+            })
+    # إعداد النصوص النهائية
+    titles_text = "\n".join(
+        f"{i+1}. {row['Title']}"
+        for i, row in enumerate(data)
+    )
+    hashtags_text = "\n".join(
+        f"{hashtag}: {count}"
+        for hashtag, count in sorted(hashtags_counter.items(), key=lambda x: (-x[1], x[0]))
+    )
+    unique_hashtags_text = "\n".join(sorted(hashtags_counter.keys()))
+    # إرجاع النتائج مع رسائل افتراضية
+    return (
+        titles_text or "لا توجد عناوين مستخرجة.",
+        hashtags_text or "لا توجد هاشتاغات مستخرجة.",
+        unique_hashtags_text or "لا توجد هاشتاغات فريدة."
+    )
 # إنشاء واجهة Gradio
 def gradio_interface():
     with gr.Blocks() as demo: