Spaces:

KIMOSSINO
/

hashtags

Sleeping

App Files Files Community

KIMOSSINO commited on Dec 8, 2024

Commit

ab3acff

verified ·

1 Parent(s): ae68a31

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -27

app.py CHANGED Viewed

@@ -4,15 +4,18 @@ from bs4 import BeautifulSoup
 import pandas as pd
-# دالة استخراج الكلمات والهاشتاغات من ملف .txt
 def extract_titles_and_hashtags(file):
     try:
         content = file.read() if hasattr(file, 'read') else open(file.name, 'r', encoding='utf-8').read()
     except Exception as e:
-        return f"خطأ أثناء قراءة الملف: {str(e)}", None
     soup = BeautifulSoup(content, 'html.parser')
     data = []
     hashtags_counter = Counter()
@@ -22,43 +25,26 @@ def extract_titles_and_hashtags(file):
     for container in desc_containers:
         title = container.get('aria-label', 'بدون عنوان')
         hashtags = [
             tag.get_text(strip=True)
             for tag in container.find_all('a')
             if tag.get_text(strip=True).startswith('#')
         ]
         hashtags_counter.update(hashtags)
         data.append({"Title": title, "Hashtags": ", ".join(hashtags)})
-    df_titles = pd.DataFrame(data)
-    df_hashtags = pd.DataFrame(hashtags_counter.items(), columns=["Hashtag", "Count"]).sort_values(by="Count", ascending=False)
-    titles_html = df_titles.to_html(index=False) if not df_titles.empty else "لا توجد عناوين مستخرجة."
-    hashtags_html = df_hashtags.to_html(index=False) if not df_hashtags.empty else "لا توجد هاشتاغات مستخرجة."
-    return titles_html, hashtags_html
 # إنشاء واجهة Gradio
 def gradio_interface():
     with gr.Blocks() as demo:
         gr.Markdown("## 📝 محلل النصوص المتقدم")
-        gr.Markdown(
-            """
-            ### تثبيت المكتبات الضرورية
-            انسخ الكود التالي لتثبيت المكتبات المطلوبة:
-            ```
-            pip install gradio beautifulsoup4 pandas
-            ```
-            """
-        )
         with gr.Row():
             file_input = gr.File(label="📂 رفع ملف TXT", file_types=[".txt"])
@@ -66,13 +52,23 @@ def gradio_interface():
             analyze_btn = gr.Button("تحليل البيانات", variant="primary")
         with gr.Row():
-            words_output = gr.HTML(label="📜 الكلمات المتكررة")
-            hashtags_output = gr.HTML(label="🏷️ الهاشتاغات المستخرجة")
         analyze_btn.click(
             fn=extract_titles_and_hashtags,
             inputs=[file_input],
-            outputs=[words_output, hashtags_output],
         )
     return demo

 import pandas as pd
+# دالة استخراج العناوين والهاشتاغات
 def extract_titles_and_hashtags(file):
     try:
+        # قراءة محتوى الملف
         content = file.read() if hasattr(file, 'read') else open(file.name, 'r', encoding='utf-8').read()
     except Exception as e:
+        return f"خطأ أثناء قراءة الملف: {str(e)}", ""
+    # تحليل HTML باستخدام BeautifulSoup
     soup = BeautifulSoup(content, 'html.parser')
+    # استخراج البيانات
     data = []
     hashtags_counter = Counter()
     for container in desc_containers:
         title = container.get('aria-label', 'بدون عنوان')
         hashtags = [
             tag.get_text(strip=True)
             for tag in container.find_all('a')
             if tag.get_text(strip=True).startswith('#')
         ]
         hashtags_counter.update(hashtags)
         data.append({"Title": title, "Hashtags": ", ".join(hashtags)})
+    # تحويل النتائج إلى نصوص
+    titles_text = "\n".join([f"{i+1}. {row['Title']}" for i, row in enumerate(data)])
+    hashtags_text = "\n".join([f"{hashtag}: {count}" for hashtag, count in hashtags_counter.items()])
+    return titles_text or "لا توجد عناوين مستخرجة.", hashtags_text or "لا توجد هاشتاغات مستخرجة."
 # إنشاء واجهة Gradio
 def gradio_interface():
     with gr.Blocks() as demo:
         gr.Markdown("## 📝 محلل النصوص المتقدم")
         with gr.Row():
             file_input = gr.File(label="📂 رفع ملف TXT", file_types=[".txt"])
             analyze_btn = gr.Button("تحليل البيانات", variant="primary")
         with gr.Row():
+            titles_output = gr.Textbox(
+                label="📜 العناوين المستخرجة",
+                lines=10,
+                interactive=False,
+                placeholder="ستظهر العناوين هنا"
+            )
+            hashtags_output = gr.Textbox(
+                label="🏷️ الهاشتاغات المستخرجة",
+                lines=10,
+                interactive=False,
+                placeholder="ستظهر الهاشتاغات هنا"
+            )
         analyze_btn.click(
             fn=extract_titles_and_hashtags,
             inputs=[file_input],
+            outputs=[titles_output, hashtags_output],
         )
     return demo