Spaces:

KIMOSSINO
/

hashtags

Sleeping

App Files Files Community

KIMOSSINO commited on Dec 8, 2024

Commit

664290f

verified ·

1 Parent(s): 83d2a51

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -20

app.py CHANGED Viewed

@@ -7,48 +7,79 @@ import gradio as gr
 def extract_titles_and_hashtags(file):
     try:
-        # قراءة محتوى الملف
-        content = file.read() if hasattr(file, 'read') else open(file.name, 'r', encoding='utf-8').read()
     except Exception as e:
         print(f"خطأ أثناء قراءة الملف: {str(e)}")
         return f"خطأ أثناء قراءة الملف: {str(e)}", None, None
     try:
-        # تحليل HTML باستخدام BeautifulSoup
-        soup = BeautifulSoup(content, 'html.parser')
-        print("تم تحليل HTML بنجاح.")
     except Exception as e:
         print(f"خطأ أثناء تحليل HTML: {str(e)}")
         return f"خطأ أثناء تحليل HTML: {str(e)}", None, None
-    # استخراج البيانات
     data = []
     hashtags_counter = Counter()
-    # العثور على الحاويات التي تحتوي على البيانات
-    desc_containers = soup.find_all('div', class_="css-vi46v1-DivDesContainer")
-    print(f"عدد الحاويات التي تم العثور عليها: {len(desc_containers)}")
     if not desc_containers:
         return "لم يتم العثور على أي بيانات مطابقة.", None, None
-    for container in desc_containers:
-        title = container.get('aria-label', 'بدون عنوان')
-        hashtags = [
-            tag.get_text(strip=True)
-            for tag in container.find_all('a')
-            if tag.get_text(strip=True).startswith('#')
-        ]
-        hashtags_counter.update(hashtags)
-        data.append({"Title": title, "Hashtags": ", ".join(hashtags)})
     df_titles = pd.DataFrame(data)
-    df_hashtags = pd.DataFrame(hashtags_counter.items(), columns=["Hashtag", "Count"]).sort_values(by="Count", ascending=False)
     return df_titles, df_hashtags
 # إنشاء ملفات للتنزيل
 def create_downloadable_files(df_titles, df_hashtags, format_choice):
     if format_choice == "Excel":

 def extract_titles_and_hashtags(file):
     try:
+        # قراءة محتوى الملف مع التحكم في حجم الملف
+        if file.size > 50 * 1024 * 1024:  # تحديد الحد الأقصى لـ 50 ميجابايت
+            return "الملف كبير جدًا. الرجاء رفع ملف أصغر.", None, None
+        content = file.read().decode('utf-8') if hasattr(file, 'read') else open(file.name, 'r', encoding='utf-8').read()
     except Exception as e:
         print(f"خطأ أثناء قراءة الملف: {str(e)}")
         return f"خطأ أثناء قراءة الملف: {str(e)}", None, None
     try:
+        # تحليل HTML باستخدام BeautifulSoup مع محدد أسرع
+        soup = BeautifulSoup(content, 'lxml')  # استخدام lxml بدلاً من html.parser للسرعة
     except Exception as e:
         print(f"خطأ أثناء تحليل HTML: {str(e)}")
         return f"خطأ أثناء تحليل HTML: {str(e)}", None, None
+    # استخراج البيانات مع تحديد العدد الأقصى للعناصر
     data = []
     hashtags_counter = Counter()
+    max_items = 1000  # تحديد الحد الأقصى للعناصر المستخرجة
+    # العثور على الحاويات مع استخدام محدد أكثر مرونة
+    desc_containers = soup.find_all('div', class_=lambda value: value and 'css-' in value and 'DivDesContainer' in value)
     if not desc_containers:
         return "لم يتم العثور على أي بيانات مطابقة.", None, None
+    for container in desc_containers[:max_items]:
+        try:
+            title = container.get('aria-label', 'بدون عنوان')
+            hashtags = [
+                tag.get_text(strip=True)
+                for tag in container.find_all('a')
+                if tag.get_text(strip=True).startswith('#')
+            ]
+            hashtags_counter.update(hashtags)
+            data.append({"Title": title, "Hashtags": ", ".join(hashtags)})
+        except Exception as e:
+            print(f"خطأ في معالجة عنصر: {str(e)}")
+            continue
     df_titles = pd.DataFrame(data)
+    df_hashtags = pd.DataFrame(hashtags_counter.most_common(), columns=["Hashtag", "Count"])
     return df_titles, df_hashtags
+# تعديل على دالة Gradio للتعامل مع الأخطاء
+def gradio_interface(file, format_choice):
+    if not file:
+        return "الرجاء رفع ملف.", None
+    try:
+        df_titles, df_hashtags = extract_titles_and_hashtags(file)
+        if isinstance(df_titles, str):  # في حالة وجود رسالة خطأ
+            return df_titles, None
+        if df_titles is None or df_hashtags is None:
+            return "لم يتم استخراج أي بيانات.", None
+        # عرض النتائج
+        titles_html = df_titles.to_html(index=False) if not df_titles.empty else "لا توجد عناوين مستخرجة."
+        hashtags_html = df_hashtags.to_html(index=False) if not df_hashtags.empty else "لا توجد هاشتاغات مستخرجة."
+        # إنشاء الملف للتنزيل
+        buffer, file_name = create_downloadable_files(df_titles, df_hashtags, format_choice)
+        return titles_html + "<br><br>" + hashtags_html, (file_name, buffer)
+    except Exception as e:
+        return f"خطأ غير متوقع: {str(e)}", None
 # إنشاء ملفات للتنزيل
 def create_downloadable_files(df_titles, df_hashtags, format_choice):
     if format_choice == "Excel":