Spaces:

kawkabelaloom
/

app

Sleeping

App Files Files Community

kawkabelaloom commited on Dec 22, 2025

Commit

4344aef

verified ·

1 Parent(s): 20aed75

Update app.py

Browse files

Files changed (1) hide show

app.py +265 -292

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 """
-🤖 نظام RAG لـ HuggingFace - نسخة معدلة لتعمل مع طريقة HuggingFace
 """
 import os
@@ -9,38 +9,16 @@ import faiss
 import nltk
 from pypdf import PdfReader
 from sentence_transformers import SentenceTransformer
-import streamlit as st
-# ==================== تهيئة النظام في حالة global ====================
-# بدلاً من الاعتماد على session_state فقط
-_rag_system = None
-_current_file = None
-def get_rag_system():
-    """الحصول على أو إنشاء مثيل النظام"""
-    global _rag_system
-    if _rag_system is None:
-        _rag_system = FlowRAGSystem()
-        _rag_system.initialize()
-    return _rag_system
-def get_current_file():
-    """الحصول على الملف الحالي"""
-    global _current_file
-    return _current_file
-def set_current_file(filename):
-    """تعيين الملف الحالي"""
-    global _current_file
-    _current_file = filename
-# ==================== فئة النظام ====================
 class FlowRAGSystem:
     def __init__(self):
         self.model = None
         self.index = None
         self.chunks = None
         self.is_ready = False
     def initialize(self):
@@ -59,322 +37,317 @@ class FlowRAGSystem:
             self.is_ready = True
             return True
         except Exception as e:
-            st.error(f"خطأ في تحميل النموذج: {e}")
-            return False
-    def process_pdf(self, pdf_bytes, filename):
         """معالجة ملف PDF"""
         try:
             # حفظ الملف المؤقت
             with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
-                tmp_file.write(pdf_bytes)
                 pdf_path = tmp_file.name
             # قراءة PDF
-            with st.spinner("📖 جاري قراءة المستند..."):
-                reader = PdfReader(pdf_path)
-                pages_data = []
-                for i, page in enumerate(reader.pages):
-                    text = page.extract_text()
-                    if text and text.strip():
-                        pages_data.append({
-                            'page': i + 1,
-                            'text': text.strip()
-                        })
             if not pages_data:
-                st.error("❌ لم يتم العثور على نص في الملف")
                 os.unlink(pdf_path)
-                return False
             # تقسيم النص
-            with st.spinner("✂️ جاري تقسيم النص..."):
-                self.chunks = []
-                for page in pages_data:
-                    words = page['text'].split()
-                    # تقسيم إلى أجزاء 200 كلمة مع تداخل 40
-                    chunk_size = 200
-                    overlap = 40
-                    start = 0
-                    while start < len(words):
-                        end = start + chunk_size
-                        chunk_words = words[start:end]
-                        if chunk_words:
-                            self.chunks.append({
-                                'text': ' '.join(chunk_words),
-                                'page': page['page'],
-                                'word_count': len(chunk_words)
-                            })
-                        start += chunk_size - overlap
             # إنشاء embeddings
-            with st.spinner("🧠 جاري إنشاء Embeddings..."):
-                if len(self.chunks) > 0:
-                    chunk_texts = [chunk['text'] for chunk in self.chunks]
-                    embeddings = self.model.encode(
-                        chunk_texts,
-                        normalize_embeddings=True,
-                        show_progress_bar=False
-                    )
-                    # بناء الفهرس
-                    dimension = embeddings.shape[1]
-                    self.index = faiss.IndexFlatIP(dimension)
-                    faiss.normalize_L2(embeddings)
-                    self.index.add(embeddings)
-                else:
-                    st.error("❌ لم يتم إنشاء أي أجزاء نصية")
-                    os.unlink(pdf_path)
-                    return False
             # تنظيف الملف المؤقت
             os.unlink(pdf_path)
-            st.success(f"✅ تم معالجة المستند بنجاح!")
-            st.info(f"📊 {len(pages_data)} صفحة → {len(self.chunks)} جزء نصي")
-            return True
         except Exception as e:
-            st.error(f"❌ خطأ في معالجة PDF: {str(e)}")
-            return False
     def search(self, query, top_k=3):
         """بحث في المستند"""
         if not self.is_ready or self.index is None:
-            return []
         try:
             query_embedding = self.model.encode([query], normalize_embeddings=True)
             scores, indices = self.index.search(query_embedding, top_k)
             results = []
-            for score, idx in zip(scores[0], indices[0]):
                 if 0 <= idx < len(self.chunks):
                     chunk = self.chunks[idx]
-                    results.append({
-                        'score': float(score),
-                        'similarity': f"{score * 100:.1f}%",
-                        'text': chunk['text'],
-                        'page': chunk['page'],
-                        'words': chunk['word_count']
-                    })
-            return results
         except Exception as e:
-            st.error(f"❌ خطأ في البحث: {e}")
-            return []
-# ==================== الوظائف المساعدة ====================
-def create_sidebar():
-    """إنشاء الشريط الجانبي"""
-    with st.sidebar:
-        st.header("📁 رفع المستند")
-        uploaded_file = st.file_uploader(
-            "اختر ملف PDF",
-            type=["pdf"],
-            help="يمكنك رفع أي ملف PDF للبحث فيه"
-        )
-        if uploaded_file is not None:
-            if st.button("🚀 معالجة المستند", type="primary", use_container_width=True):
-                rag_system = get_rag_system()
-                if rag_system.process_pdf(uploaded_file.getvalue(), uploaded_file.name):
-                    set_current_file(uploaded_file.name)
-                    st.rerun()
-        st.divider()
-        st.header("🔍 إعدادات البحث")
-        top_k = st.slider("عدد النتائج", 1, 5, 3)
-        st.divider()
-        st.header("💡 أسئلة سريعة")
-        # أمثلة للأسئلة
-        example_questions = [
-            "ما هي حالة التدفق؟",
-            "What is flow state?",
-            "ما هي عناصر التجربة المثلى؟",
-            "كيف يحقق الإنسان السعادة في العمل؟",
-            "ما هو دور التركيز في التدفق؟"
-        ]
-        for question in example_questions:
-            if st.button(question, use_container_width=True):
-                # تخزين السؤال في query params بدلاً من session state
-                st.query_params["question"] = question
-                st.rerun()
-        st.divider()
-        # معلومات النظام
-        rag_system = get_rag_system()
-        if rag_system.chunks:
-            st.header("📊 معلومات النظام")
-            st.metric("الأجزاء النصية", len(rag_system.chunks))
-            if rag_system.index:
-                st.metric("المتجهات", rag_system.index.ntotal)
-    return top_k
-def create_main_content(top_k):
-    """إنشاء المحتوى الرئيسي"""
-    rag_system = get_rag_system()
-    current_file = get_current_file()
     # العنوان
-    st.markdown("""
-    <div style="text-align: center; padding: 2rem; background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
-    color: white; border-radius: 15px; margin-bottom: 2rem;">
-        <h1>🤖 نظام RAG الذكي للمستندات</h1>
-        <p>بحث دلالي متقدم في ملفات PDF - يدعم العربية والإنجليزية</p>
-    </div>
-    """, unsafe_allow_html=True)
-    col1, col2 = st.columns([3, 1])
-    with col1:
-        st.header("💬 اسأل عن المستند")
-        # عرض اسم الملف الحالي
-        if current_file:
-            st.info(f"📄 الملف الحالي: **{current_file}**")
-        # الحصول على السؤال من query params أو حقل الإدخال
-        default_question = st.query_params.get("question", "")
-        question = st.text_area(
-            "اكتب سؤالك هنا",
-            value=default_question,
-            height=120,
-            placeholder="مثال: ما هي حالة التدفق؟ أو What is flow state?\nيمكنك استخدام العربية أو الإنجليزية...",
-            key="question_input"
-        )
-        # زر البحث
-        if st.button("🔍 ابحث في المستند", type="primary", use_container_width=True):
-            if not question:
-                st.warning("⚠️ يرجى إدخال سؤال")
-            elif rag_system.index is None:
-                st.error("❌ يرجى معالجة مستند أولاً (من الشريط الجانبي)")
-            else:
-                with st.spinner("جاري البحث في المستند..."):
-                    results = rag_system.search(question, top_k=top_k)
-                    if results:
-                        st.success(f"✅ تم العثور على {len(results)} نتيجة")
-                        for i, result in enumerate(results):
-                            # تحديد لون التشابه
-                            similarity_score = float(result['similarity'].replace('%', '')) / 100
-                            sim_class = "similarity-high" if similarity_score >= 0.5 else \
-                                       "similarity-medium" if similarity_score >= 0.3 else \
-                                       "similarity-low"
-                            # عرض البطاقة
-                            st.markdown(f"""
-                            <div style="background: #f8f9fa; border-radius: 10px; padding: 1.5rem;
-                            margin: 1rem 0; border-left: 5px solid #4CAF50; box-shadow: 0 2px 4px rgba(0,0,0,0.1);">
-                                <h4>🏆 النتيجة #{i+1}</h4>
-                                <p>
-                                    <span style="color: {'#28a745' if similarity_score >= 0.5 else '#ffc107' if similarity_score >= 0.3 else '#dc3545'};
-                                    font-weight: bold;">التشابه: {result['similarity']}</span> |
-                                    📖 الصفحة: {result['page']} |
-                                    🔢 الكلمات: {result['words']}
-                                </p>
-                                <hr>
-                                <p>{result['text'][:400]}...</p>
-                            </div>
-                            """, unsafe_allow_html=True)
-                    else:
-                        st.error("❌ لم أجد نتائج ذات صلة في المستند")
-    with col2:
-        st.header("🎯 نصائح البحث")
-        st.info("""
-        **لأفضل النتائج:**
-        🔸 **استخدم مصطلحات محددة**
-        ✅ "ما هي خصائص flow state؟"
-        ❌ "اشرح لي"
-        🔸 **جرب اللغتين**
-        النموذج يدعم العربية والإنجليزية معاً
-        🔸 **اطلب التفاصيل**
-        "ما هي العناصر الثمانية للتدفق؟"
-        """)
-        st.divider()
-        st.header("📚 عن النظام")
-        st.markdown("""
-        **التقنيات المستخدمة:**
-        • 🤖 **Sentence Transformers**
-        • ⚡ **FAISS**
-        • 📄 **PyPDF**
-        • 🌐 **Streamlit**
-        """)
-# ==================== التطبيق الرئيسي ====================
-def main():
-    """الدالة الرئيسية للتطبيق"""
-    # إعداد الصفحة
-    st.set_page_config(
-        page_title="نظام RAG للمستندات",
-        page_icon="🤖",
-        layout="wide",
-        initial_sidebar_state="expanded"
-    )
-    # CSS مخصص
-    st.markdown("""
-    <style>
-    .stButton>button {
-        background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
-        color: white;
-        border: none;
-        padding: 0.75rem 1.5rem;
-        border-radius: 8px;
-        font-weight: bold;
-    }
-    .stButton>button:hover {
-        box-shadow: 0 4px 8px rgba(0,0,0,0.2);
-    }
-    </style>
-    """, unsafe_allow_html=True)
-    # إنشاء الواجهة
-    top_k = create_sidebar()
-    create_main_content(top_k)
-    # تذييل الصفحة
-    st.divider()
-    st.markdown("""
-    <div style="text-align: center; color: #666; padding: 1rem;">
-        <p>🤖 نظام RAG للمستندات | إصدار HuggingFace Spaces</p>
-        <p>تقنية: FAISS + Sentence Transformers | يدعم العربية والإنجليزية</p>
-    </div>
-    """, unsafe_allow_html=True)
-# ==================== نقطة الدخول للتشغيل ====================
 if __name__ == "__main__":
-    # هذا يحل مشكلة HuggingFace مع طريقة التشغيل
-    import sys
-    # تحقق إذا كان يعمل في HuggingFace
-    if "huggingface" in sys.argv[0] or "spaces" in sys.argv[0]:
-        # تشغيل التطبيق مباشرة
-        main()
-    else:
-        # للتشغيل المحلي
-        main()

 """
+🤖 نظام RAG للمستندات - إصدار Gradio لـ HuggingFace
 """
 import os
 import nltk
 from pypdf import PdfReader
 from sentence_transformers import SentenceTransformer
+import gradio as gr
+import time
+# ==================== تهيئة النظام ====================
 class FlowRAGSystem:
     def __init__(self):
         self.model = None
         self.index = None
         self.chunks = None
+        self.current_file = None
         self.is_ready = False
     def initialize(self):
             self.is_ready = True
             return True
         except Exception as e:
+            return f"❌ خطأ في تحميل النموذج: {str(e)}"
+    def process_pdf(self, pdf_file):
         """معالجة ملف PDF"""
         try:
+            self.current_file = pdf_file.name
             # حفظ الملف المؤقت
             with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
+                tmp_file.write(pdf_file.read())
                 pdf_path = tmp_file.name
             # قراءة PDF
+            reader = PdfReader(pdf_path)
+            pages_data = []
+            for i, page in enumerate(reader.pages):
+                text = page.extract_text()
+                if text and text.strip():
+                    pages_data.append({
+                        'page': i + 1,
+                        'text': text.strip()
+                    })
             if not pages_data:
                 os.unlink(pdf_path)
+                return "❌ لم يتم العثور على نص في الملف"
             # تقسيم النص
+            self.chunks = []
+            for page in pages_data:
+                words = page['text'].split()
+                # تقسيم إلى أجزاء 200 كلمة مع تداخل 40
+                chunk_size = 200
+                overlap = 40
+                start = 0
+                while start < len(words):
+                    end = start + chunk_size
+                    chunk_words = words[start:end]
+                    if chunk_words:
+                        self.chunks.append({
+                            'text': ' '.join(chunk_words),
+                            'page': page['page'],
+                            'word_count': len(chunk_words)
+                        })
+                    start += chunk_size - overlap
             # إنشاء embeddings
+            if len(self.chunks) > 0:
+                chunk_texts = [chunk['text'] for chunk in self.chunks]
+                embeddings = self.model.encode(
+                    chunk_texts,
+                    normalize_embeddings=True,
+                    show_progress_bar=False
+                )
+                # بناء الفهرس
+                dimension = embeddings.shape[1]
+                self.index = faiss.IndexFlatIP(dimension)
+                faiss.normalize_L2(embeddings)
+                self.index.add(embeddings)
+            else:
+                os.unlink(pdf_path)
+                return "❌ لم يتم إنشاء أي أجزاء نصية"
             # تنظيف الملف المؤقت
             os.unlink(pdf_path)
+            return f"✅ تم معالجة المستند بنجاح!\n📊 {len(pages_data)} صفحة → {len(self.chunks)} جزء نصي"
         except Exception as e:
+            return f"❌ خطأ في معالجة PDF: {str(e)}"
     def search(self, query, top_k=3):
         """بحث في المستند"""
         if not self.is_ready or self.index is None:
+            return "❌ يرجى معالجة مستند أولاً"
         try:
             query_embedding = self.model.encode([query], normalize_embeddings=True)
             scores, indices = self.index.search(query_embedding, top_k)
             results = []
+            for i, (score, idx) in enumerate(zip(scores[0], indices[0])):
                 if 0 <= idx < len(self.chunks):
                     chunk = self.chunks[idx]
+                    # تحديد لون التشابه
+                    similarity_score = float(score)
+                    if similarity_score >= 0.5:
+                        sim_color = "#28a745"  # أخضر
+                        sim_text = "ممتاز"
+                    elif similarity_score >= 0.3:
+                        sim_color = "#ffc107"  # أصفر
+                        sim_text = "جيد"
+                    else:
+                        sim_color = "#dc3545"  # أحمر
+                        sim_text = "ضعيف"
+                    results.append(f"""
+                    <div style="background: #f8f9fa; border-radius: 10px; padding: 1.5rem;
+                    margin: 1rem 0; border-left: 5px solid {sim_color}; box-shadow: 0 2px 4px rgba(0,0,0,0.1);">
+                        <h4 style="margin-top: 0;">🏆 النتيجة #{i+1}</h4>
+                        <p style="margin-bottom: 0.5rem;">
+                            <span style="color: {sim_color}; font-weight: bold;">التشابه: {score*100:.1f}% ({sim_text})</span> |
+                            📖 الصفحة: {chunk['page']} |
+                            🔢 الكلمات: {chunk['word_count']}
+                        </p>
+                        <hr style="margin: 0.5rem 0;">
+                        <p>{chunk['text'][:400]}...</p>
+                    </div>
+                    """)
+            if not results:
+                return "❌ لم أجد نتائج ذات صلة في المستند"
+            return f"<h3>🔍 تم ��لعثور على {len(results)} نتيجة:</h3>" + "".join(results)
         except Exception as e:
+            return f"❌ خطأ في البحث: {str(e)}"
+# ==================== إنشاء النظام ====================
+rag_system = FlowRAGSystem()
+init_result = rag_system.initialize()
+# ==================== واجهة Gradio ====================
+with gr.Blocks(title="🤖 نظام RAG الذكي للمستندات", theme=gr.themes.Soft()) as demo:
     # العنوان
+    gr.Markdown("""
+    # 🤖 نظام RAG الذكي للمستندات
+    ### بحث دلالي متقدم في ملفات PDF - يدعم العربية والإنجليزية
+    """)
+    # منطقة التنبيهات
+    if init_result is not True:
+        gr.Warning(f"⚠️ {init_result}")
+    else:
+        gr.Info("✅ النظام جاهز للاستخدام")
+    with gr.Row():
+        with gr.Column(scale=2):
+            # قسم رفع الملف
+            with gr.Group():
+                gr.Markdown("## 📁 رفع ومعالجة المستند")
+                file_input = gr.File(
+                    label="اختر ملف PDF",
+                    file_types=[".pdf"],
+                    type="binary"
+                )
+                process_btn = gr.Button("🚀 معالجة المستند", variant="primary")
+                process_output = gr.Markdown(label="حالة المعالجة")
+            # قسم البحث
+            with gr.Group():
+                gr.Markdown("## 💬 اسأل عن المستند")
+                question_input = gr.Textbox(
+                    label="اكتب سؤالك هنا",
+                    placeholder="مثال: ما هي حالة التدفق؟ أو What is flow state?",
+                    lines=3
+                )
+                with gr.Row():
+                    top_k_slider = gr.Slider(
+                        minimum=1, maximum=5, value=3,
+                        label="عدد النتائج"
+                    )
+                    search_btn = gr.Button("🔍 ابحث في المستند", variant="primary")
+                search_output = gr.HTML(label="نتائج البحث")
+        with gr.Column(scale=1):
+            # الشريط الجانبي
+            with gr.Group():
+                gr.Markdown("## 💡 أسئلة سريعة")
+                example_questions = [
+                    "ما هي حالة التدفق؟",
+                    "What is flow state?",
+                    "ما هي عناصر التجربة المثلى؟",
+                    "كيف يحقق الإنسان السعادة في العمل؟",
+                    "ما هو دور التركيز في التدفق؟"
+                ]
+                for question in example_questions:
+                    gr.Button(
+                        question,
+                        size="sm",
+                    ).click(
+                        fn=lambda q=question: q,
+                        inputs=[],
+                        outputs=[question_input]
+                    )
+            with gr.Group():
+                gr.Markdown("## 🎯 نصائح البحث")
+                gr.Markdown("""
+                **لأفضل النتائج:**
+                • استخدم مصطلحات محددة
+                • جرب اللغتين (عربي/إنجليزي)
+                • اطرح أسئلة واضحة
+                **مثال:**
+                ✅ "ما هي خصائص flow state؟"
+                ❌ "اشرح لي"
+                """)
+            with gr.Group():
+                gr.Markdown("## 📊 معلومات النظام")
+                status_text = gr.Markdown("📄 لم يتم معالجة أي مستند بعد")
+                # تحديث حالة النظام
+                def update_status():
+                    if rag_system.current_file:
+                        file_info = f"📄 الملف: {rag_system.current_file}"
+                        if rag_system.chunks:
+                            chunks_info = f" | 📊 الأجزاء: {len(rag_system.chunks)}"
+                            if rag_system.index:
+                                vectors_info = f" | 🧮 المتجهات: {rag_system.index.ntotal}"
+                                return file_info + chunks_info + vectors_info
+                            return file_info + chunks_info
+                        return file_info
+                    return "📄 لم يتم معالجة أي مستند بعد"
+                status_display = gr.Markdown(update_status())
+    # نصائح إضافية
+    gr.Markdown("---")
+    with gr.Row():
+        with gr.Column():
+            gr.Markdown("### 📚 عن النظام")
+            gr.Markdown("""
+            **التقنيات المستخدمة:**
+            • 🤖 **Sentence Transformers** - نماذج embedding متعددة اللغات
+            • ⚡ **FAISS** - بحث سريع في المتجهات
+            • 📄 **PyPDF** - معالجة ملفات PDF
+            • 🌐 **Gradio** - واجهة مستخدم تفاعلية
+            """)
+        with gr.Column():
+            gr.Markdown("### 🌍 الدعم اللغوي")
+            gr.Markdown("""
+            **اللغات المدعومة:**
+            • العربية - البحث والنتائج
+            • الإنجليزية - البحث والنتائج
+            • الفرنسية، الإسبانية، الألمانية - البحث الأساسي
+            **المميزات:**
+            ✓ بحث دلالي ذكي
+            ✓ نتائج مرتبة حسب الصلة
+            ✓ دعم ملفات كبيرة
+            """)
+    # تذييل الصفحة
+    gr.Markdown("---")
+    gr.Markdown("""
+    <div style="text-align: center; color: #666;">
+        <p>🤖 نظام RAG للمستندات | إصدار HuggingFace Spaces</p>
+        <p>تقنية: FAISS + Sentence Transformers + Gradio | يدعم العربية والإنجليزية</p>
+    </div>
+    """)
+    # ==================== معالجة الأحداث ====================
+    def process_file(file):
+        if file is None:
+            return "⚠️ يرجى اختيار ملف PDF أولاً"
+        result = rag_system.process_pdf(file)
+        return result
+    def search_query(question, top_k):
+        if not question:
+            return "⚠️ يرجى إدخال سؤال"
+        return rag_system.search(question, int(top_k))
+    # ربط الأحداث
+    process_btn.click(
+        fn=process_file,
+        inputs=[file_input],
+        outputs=[process_output]
+    ).then(
+        fn=update_status,
+        inputs=[],
+        outputs=[status_display]
+    )
+    search_btn.click(
+        fn=search_query,
+        inputs=[question_input, top_k_slider],
+        outputs=[search_output]
+    )
+    # معالجة ضغط Enter في حقل السؤال
+    question_input.submit(
+        fn=search_query,
+        inputs=[question_input, top_k_slider],
+        outputs=[search_output]
+    )
+# ==================== تشغيل التطبيق ====================
 if __name__ == "__main__":
+    demo.launch(
+        server_name="0.0.0.0",
+        server_port=7860,
+        share=False
+    )