Spaces:

KIMOSSINO
/

hashtags

Sleeping

App Files Files Community

KIMOSSINO commited on Dec 8, 2024

Commit

b54a3b2

verified ·

1 Parent(s): 2f2cd58

Update app.py

Browse files

Files changed (1) hide show

app.py +71 -132

app.py CHANGED Viewed

@@ -4,175 +4,114 @@ from collections import Counter
 from io import BytesIO
 from docx import Document
 import gradio as gr
-def extract_titles_and_hashtags(file):
     try:
-        # قراءة محتوى الملف مع التعامل مع مختلف أنواع الإدخال
         if hasattr(file, 'read'):
             content = file.read().decode('utf-8') if isinstance(file.read(), bytes) else file.read()
         else:
             with open(file.name, 'r', encoding='utf-8') as f:
                 content = f.read()
-    except Exception as e:
-        return f"خطأ أثناء قراءة الملف: {str(e)}", None
-    # تحليل HTML باستخدام BeautifulSoup
-    soup = BeautifulSoup(content, 'html.parser')
-    # استخراج البيانات
-    data = []
-    hashtags_counter = Counter()
-    # العثور على الحاويات التي تحتوي على البيانات
-    # محاولة العثور على الحاويات بطرق مختلفة
-    desc_containers = soup.find_all('div', class_=lambda x: x and 'DivDesContainer' in x)
-    if not desc_containers:
-        desc_containers = soup.find_all('div', attrs={'aria-label': True})
-    if not desc_containers:
-        return "لم يتم العثور على أي بيانات مطابقة.", None
-    for container in desc_containers[:500]:  # تحديد الحد الأقصى للعناصر
-        # استخراج العنوان من الخاصية aria-label
-        title = container.get('aria-label', 'بدون عنوان')
-        # استخراج الهاشتاغات بشكل أكثر مرونة
-        hashtags = []
-        for tag in container.find_all(['a', 'span']):
-            tag_text = tag.get_text(strip=True)
-            if tag_text.startswith('#'):
-                hashtags.append(tag_text)
-        # تحديث عداد الهاشتاغات
-        hashtags_counter.update(hashtags)
-        # إضافة البيانات إلى القائمة
-        data.append({
-            "العنوان": title,
-            "الهاشتاغات": ", ".join(hashtags)
-        })
-    # تحويل البيانات إلى DataFrame
-    df_titles = pd.DataFrame(data)
-    df_hashtags = pd.DataFrame(hashtags_counter.most_common(), columns=["الهاشتاغ", "عدد التكرار"])
-    return df_titles, df_hashtags
-# تعديل على دالة Gradio للتعامل مع الأخطاء
-def gradio_interface(file, format_choice):
-    if not file:
-        return "الرجاء رفع ملف.", None
-    try:
-        df_titles, df_hashtags = extract_titles_and_hashtags(file)
-        if isinstance(df_titles, str):  # في حالة وجود رسالة خطأ
-            return df_titles, None
-        if df_titles is None or df_hashtags is None:
-            return "لم يتم استخراج أي بيانات.", None
-        # عرض النتائج
-        titles_html = df_titles.to_html(index=False) if not df_titles.empty else "لا توجد عناوين مستخرجة."
-        hashtags_html = df_hashtags.to_html(index=False) if not df_hashtags.empty else "لا توجد هاشتاغات مستخرجة."
-        # إنشاء الملف للتنزيل
-        buffer, file_name = create_downloadable_files(df_titles, df_hashtags, format_choice)
-        return titles_html + "<br><br>" + hashtags_html, (file_name, buffer)
     except Exception as e:
-        return f"خطأ غير متوقع: {str(e)}", None
-# إنشاء ملفات للتنزيل
 def create_downloadable_files(df_titles, df_hashtags, format_choice):
     if format_choice == "Excel":
-        buffer = BytesIO()
         with pd.ExcelWriter(buffer, engine='xlsxwriter') as writer:
             df_titles.to_excel(writer, index=False, sheet_name='Titles')
             df_hashtags.to_excel(writer, index=False, sheet_name='Hashtags')
-        buffer.seek(0)
-        return buffer, "titles_and_hashtags.xlsx"
     elif format_choice == "Word":
-        buffer = BytesIO()
         doc = Document()
         doc.add_heading("العناوين والهاشتاغات", level=1)
         for _, row in df_titles.iterrows():
-            doc.add_paragraph(f"Title: {row['Title']}\nHashtags: {row['Hashtags']}\n")
         doc.add_heading("الهاشتاغات وتكرارها", level=1)
         for _, row in df_hashtags.iterrows():
-            doc.add_paragraph(f"{row['Hashtag']}: {row['Count']}")
         doc.save(buffer)
-        buffer.seek(0)
-        return buffer, "titles_and_hashtags.docx"
     elif format_choice == "TXT":
-        buffer = BytesIO()
         content = "العناوين والهاشتاغات:\n"
         for _, row in df_titles.iterrows():
-            content += f"Title: {row['Title']}\nHashtags: {row['Hashtags']}\n\n"
         content += "الهاشتاغات وتكرارها:\n"
         for _, row in df_hashtags.iterrows():
-            content += f"{row['Hashtag']}: {row['Count']}\n"
         buffer.write(content.encode('utf-8'))
-        buffer.seek(0)
-        return buffer, "titles_and_hashtags.txt"
-# واجهة Gradio
-def process_file(file):
-    if not file:
-        return "الرجاء رفع ملف", None, None
-    try:
-        df_titles, df_hashtags = extract_titles_and_hashtags(file)
-        if isinstance(df_titles, str):
-            return df_titles, None, None
-        # إنشاء جداول HTML مع تنسيق أفضل
-        titles_html = df_titles.to_html(
-            index=False,
-            classes='table table-striped table-bordered',
-            escape=False
-        )
-        hashtags_html = df_hashtags.to_html(
-            index=False,
-            classes='table table-striped table-bordered',
-            escape=False
-        )
-        return "تم استخراج البيانات بنجاح", titles_html, hashtags_html
-    except Exception as e:
-        return f"حدث خطأ: {str(e)}", None, None
-# إنشاء واجهة Gradio
-interface = gr.Interface(
-    fn=process_file,
-    inputs=gr.File(label="ارفع ملف HTML"),
-    outputs=[
-        gr.Textbox(label="الحالة"),
-        gr.HTML(label="العناوين"),
-        gr.HTML(label="الهاشتاغات")
-    ],
-    title="مستخرج اله��شتاغات من TikTok",
-    description="قم بتحميل ملف HTML للحصول على العناوين والهاشتاغات",
-    css="""
-    .table {
-        width: 100%;
-        margin-bottom: 1rem;
-        color: #212529;
-    }
-    .table th, .table td {
-        padding: 0.75rem;
-        vertical-align: top;
-        border: 1px solid #dee2e6;
-    }
-    .table thead {
-        background-color: #f8f9fa;
-    }
-    """
-)
 # تشغيل التطبيق
-interface.launch()

 from io import BytesIO
 from docx import Document
 import gradio as gr
+import re
+# تصنيف الهاشتاغات
+HASHTAG_CATEGORIES = {
+    'رياضة': ['كرة_قدم', 'رياضة', 'دوري', 'كرة_سلة', 'تنس', 'سباحة', 'كرة_يد', 'أولمبياد', 'مباراة'],
+    'موسيقى': ['موسيقى', 'غناء', 'مطرب', 'أغنية', 'فن', 'مزيكا', 'غنائي', 'كليب', 'ألبوم'],
+    'تكنولوجيا': ['تكنولوجيا', 'تقنية', 'برمجة', 'ذكاء_اصطناعي', 'تطبيقات', 'هاتف', 'كمبيوتر', 'انترنت'],
+}
+def classify_hashtag(hashtag):
+    """تصنيف الهاشتاغ حسب المجال"""
+    hashtag = hashtag.lower()
+    for category, keywords in HASHTAG_CATEGORIES.items():
+        if any(keyword in hashtag for keyword in keywords):
+            return category
+    return 'أخرى'
+def extract_keywords(title):
+    """استخراج الكلمات الرئيسية من العنوان"""
+    cleaned_title = re.sub(r'[^\u0600-\u06FF\s]', '', title)
+    words = cleaned_title.split()
+    return ', '.join([word for word in words if len(word) > 2][:5])
+def extract_data(file, min_frequency=1):
     try:
         if hasattr(file, 'read'):
             content = file.read().decode('utf-8') if isinstance(file.read(), bytes) else file.read()
         else:
             with open(file.name, 'r', encoding='utf-8') as f:
                 content = f.read()
+        soup = BeautifulSoup(content, 'html.parser')
+        desc_containers = soup.find_all('div', class_=lambda x: x and 'DivDesContainer' in x)
+        data = []
+        hashtags_counter = Counter()
+        for container in desc_containers[:500]:
+            title = container.get('aria-label', 'بدون عنوان')
+            keywords = extract_keywords(title)
+            hashtags = [tag.get_text(strip=True) for tag in container.find_all(['a', 'span']) if tag.get_text(strip=True).startswith('#')]
+            hashtags_counter.update(hashtags)
+            data.append({"العنوان": title, "الكلمات الرئيسية": keywords, "الهاشتاغات": ", ".join(hashtags)})
+        df_titles = pd.DataFrame(data)
+        df_hashtags = pd.DataFrame(
+            [(tag, count, classify_hashtag(tag)) for tag, count in hashtags_counter.items() if count >= min_frequency],
+            columns=["الهاشتاغ", "عدد التكرار", "المجال"]
+        ).sort_values(by="عدد التكرار", ascending=False)
+        return df_titles, df_hashtags
     except Exception as e:
+        return f"حدث خطأ: {str(e)}", None
 def create_downloadable_files(df_titles, df_hashtags, format_choice):
+    buffer = BytesIO()
     if format_choice == "Excel":
         with pd.ExcelWriter(buffer, engine='xlsxwriter') as writer:
             df_titles.to_excel(writer, index=False, sheet_name='Titles')
             df_hashtags.to_excel(writer, index=False, sheet_name='Hashtags')
     elif format_choice == "Word":
         doc = Document()
         doc.add_heading("العناوين والهاشتاغات", level=1)
         for _, row in df_titles.iterrows():
+            doc.add_paragraph(f"العنوان: {row['العنوان']}\nالكلمات الرئيسية: {row['الكلمات الرئيسية']}\nالهاشتاغات: {row['الهاشتاغات']}\n")
         doc.add_heading("الهاشتاغات وتكرارها", level=1)
         for _, row in df_hashtags.iterrows():
+            doc.add_paragraph(f"{row['الهاشتاغ']}: {row['عدد التكرار']} ({row['المجال']})")
         doc.save(buffer)
     elif format_choice == "TXT":
         content = "العناوين والهاشتاغات:\n"
         for _, row in df_titles.iterrows():
+            content += f"العنوان: {row['العنوان']}\nالكلمات الرئيسية: {row['الكلمات الرئيسية']}\nالهاشتاغات: {row['الهاشتاغات']}\n\n"
         content += "الهاشتاغات وتكرارها:\n"
         for _, row in df_hashtags.iterrows():
+            content += f"{row['الهاشتاغ']}: {row['عدد التكرار']} ({row['المجال']})\n"
         buffer.write(content.encode('utf-8'))
+    buffer.seek(0)
+    return buffer, f"data.{format_choice.lower()}"
+def gradio_interface():
+    with gr.Blocks() as demo:
+        gr.Markdown("## محلل TikTok المتقدم")
+        with gr.Row():
+            file_input = gr.File(label="رفع ملف HTML")
+            format_choice = gr.Radio(["Excel", "Word", "TXT"], label="تنسيق الملف", value="Excel")
+        analyze_btn = gr.Button("تحليل البيانات")
+        with gr.Tabs():
+            with gr.TabItem("العناوين"):
+                titles_output = gr.HTML(label="العناوين")
+            with gr.TabItem("الهاشتاغات"):
+                hashtags_output = gr.HTML(label="الهاشتاغات")
+        analyze_btn.click(
+            fn=lambda file, fmt: extract_data(file) + (fmt,),
+            inputs=[file_input, format_choice],
+            outputs=[titles_output, hashtags_output]
+        )
+    return demo
 # تشغيل التطبيق
+app = gradio_interface()
+app.launch()