Spaces:

kawkabelaloom
/

PDF

Runtime error

App Files Files Community

kawkabelaloom commited on Dec 21, 2025

Commit

62167ba

verified ·

1 Parent(s): c74af43

requirements.txt

Browse files

gradio
faiss-cpu
sentence-transformers
pypdf

Files changed (1) hide show

app.py +730 -0

app.py ADDED Viewed

	@@ -0,0 +1,730 @@

+"""
+🤖 نظام RAG كامل للمستندات - نسخة HuggingFace Spaces
+🎯 إصدار نظيف بدون أي تبعيات لـ Google Colab
+📚 يدعم العربية والإنجليزية - معالجة ملفات PDF كبيرة
+"""
+# ==================== 1️⃣ استيراد المكتبات ====================
+import os
+import sys
+import numpy as np
+import faiss
+import nltk
+from pypdf import PdfReader
+from sentence_transformers import SentenceTransformer
+from nltk.tokenize import word_tokenize
+import pickle
+import warnings
+warnings.filterwarnings('ignore')
+# ==================== 2️⃣ تحميل بيانات NLTK (مرة واحدة) ====================
+def download_nltk_resources():
+    """تحميل موارد NLTK المطلوبة"""
+    try:
+        nltk.download('punkt', quiet=True)
+        nltk.download('punkt_tab', quiet=True)
+        print("✅ موارد NLTK جاهزة")
+    except Exception as e:
+        print(f"⚠️ ملاحظة: بعض موارد NLTK غير متوفرة: {e}")
+# ==================== 3️⃣ فئات النظام الأساسية ====================
+class PDFProcessor:
+    """معالج PDF ذكي"""
+    def __init__(self, chunk_size=350, overlap=70):
+        self.chunk_size = chunk_size
+        self.overlap = overlap
+    def read_pdf(self, pdf_path):
+        """قراءة PDF واستخراج النص"""
+        print(f"📖 جاري قراءة: {os.path.basename(pdf_path)}")
+        try:
+            reader = PdfReader(pdf_path)
+            total_pages = len(reader.pages)
+            pages_data = []
+            for i in range(total_pages):
+                try:
+                    page = reader.pages[i]
+                    text = page.extract_text()
+                    if text and text.strip():
+                        pages_data.append({
+                            'page_num': i + 1,
+                            'text': text.strip(),
+                            'char_count': len(text)
+                        })
+                    # عرض التقدم
+                    if (i + 1) % 100 == 0 or i == total_pages - 1:
+                        print(f"   📄 تمت {i + 1}/{total_pages} صفحة")
+                except Exception as page_error:
+                    print(f"   ⚠️ خطأ في صفحة {i+1}: {page_error}")
+                    continue
+            print(f"✅ تم قراءة {len(pages_data)} صفحة تحتوي على نص")
+            if pages_data:
+                total_chars = sum(p['char_count'] for p in pages_data)
+                total_words = sum(len(p['text'].split()) for p in pages_data)
+                print(f"   📊 إجمالي الأحرف: {total_chars:,}")
+                print(f"   📊 إجمالي الكلمات: {total_words:,}")
+            return pages_data
+        except Exception as e:
+            print(f"❌ فشل في قراءة PDF: {e}")
+            return []
+    def chunk_text(self, pages_data):
+        """تقسيم النص إلى أجزاء ذكية"""
+        print(f"✂️ جاري تقسيم النص إلى أجزاء...")
+        all_chunks = []
+        chunk_id = 0
+        for page in pages_data:
+            text = page['text']
+            page_num = page['page_num']
+            # استخدام تقسيم بسيط للكلمات
+            words = text.split()
+            if len(words) == 0:
+                continue
+            # تقسيم النص مع التداخل
+            start = 0
+            while start < len(words):
+                end = start + self.chunk_size
+                chunk_words = words[start:end]
+                if chunk_words:
+                    chunk_text = ' '.join(chunk_words)
+                    all_chunks.append({
+                        'chunk_id': chunk_id,
+                        'text': chunk_text,
+                        'page': page_num,
+                        'word_count': len(chunk_words),
+                        'start_word': start,
+                        'end_word': min(end, len(words))
+                    })
+                    chunk_id += 1
+                start += self.chunk_size - self.overlap
+        print(f"✅ تم إنشاء {len(all_chunks)} جزء نصي")
+        if all_chunks:
+            avg_words = sum(c['word_count'] for c in all_chunks) // len(all_chunks)
+            print(f"   📊 متوسط الكلمات لكل جزء: {avg_words}")
+        return all_chunks
+class VectorStore:
+    """مخزن المتجهات باستخدام FAISS"""
+    def __init__(self, model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"):
+        self.model_name = model_name
+        self.model = None
+        self.index = None
+        self.chunks = None
+        self.embeddings = None
+    def load_model(self):
+        """تحميل نموذج Embeddings"""
+        print(f"🚀 جاري تحميل نموذج: {self.model_name}")
+        try:
+            self.model = SentenceTransformer(self.model_name)
+            print(f"✅ تم تحميل النموذج بنجاح")
+            print(f"   📏 أبعاد المتجهات: {self.model.get_sentence_embedding_dimension()}")
+            return True
+        except Exception as e:
+            print(f"❌ خطأ في تحميل النموذج: {e}")
+            return False
+    def create_embeddings(self, chunks):
+        """إنشاء Embeddings للنصوص"""
+        print(f"🧠 جاري إنشاء Embeddings لـ {len(chunks)} جزء...")
+        self.chunks = chunks
+        chunk_texts = [chunk['text'] for chunk in chunks]
+        try:
+            self.embeddings = self.model.encode(
+                chunk_texts,
+                show_progress_bar=True,
+                normalize_embeddings=True,
+                batch_size=32,
+                convert_to_numpy=True
+            )
+            print(f"✅ تم إنشاء {len(self.embeddings)} متجه embedding")
+            return True
+        except Exception as e:
+            print(f"❌ خطأ في إنشاء Embeddings: {e}")
+            return False
+    def build_index(self):
+        """بناء فهرس FAISS"""
+        if self.embeddings is None:
+            print("❌ لا توجد embeddings لبناء الفهرس")
+            return False
+        print("🔧 جاري بناء Vector Store...")
+        try:
+            dimension = self.embeddings.shape[1]
+            self.index = faiss.IndexFlatIP(dimension)
+            # تطبيع وإضافة المتجهات
+            faiss.normalize_L2(self.embeddings)
+            self.index.add(self.embeddings)
+            print(f"✅ تم بناء Vector Store: {self.index.ntotal} متجه")
+            return True
+        except Exception as e:
+            print(f"❌ خطأ في بناء الفهرس: {e}")
+            return False
+    def save_index(self, path="vector_store"):
+        """حفظ الفهرس للاستخدام المستقبلي"""
+        try:
+            # حفظ الفهرس
+            faiss.write_index(self.index, f"{path}.faiss")
+            # حفظ البيانات النصية
+            with open(f"{path}_chunks.pkl", "wb") as f:
+                pickle.dump(self.chunks, f)
+            print(f"💾 تم حفظ الفهرس والبيانات في: {path}")
+            return True
+        except Exception as e:
+            print(f"❌ خطأ في حفظ الفهرس: {e}")
+            return False
+    def load_index(self, path="vector_store"):
+        """تحميل الفهرس المحفوظ"""
+        try:
+            # تحميل الفهرس
+            self.index = faiss.read_index(f"{path}.faiss")
+            # تحميل البيانات النصية
+            with open(f"{path}_chunks.pkl", "rb") as f:
+                self.chunks = pickle.load(f)
+            print(f"📂 تم تحميل الفهرس: {self.index.ntotal} متجه")
+            print(f"📂 تم تحميل البيانات: {len(self.chunks)} جزء")
+            return True
+        except Exception as e:
+            print(f"❌ خطأ في تحميل الفهرس: {e}")
+            return False
+    def search(self, query, top_k=5, similarity_threshold=0.25):
+        """بحث دلالي في المستندات"""
+        if self.index is None or self.model is None or self.chunks is None:
+            print("❌ النظام غير مهيء للبحث")
+            return []
+        # إنشاء embedding للاستعلام
+        query_embedding = self.model.encode([query], normalize_embeddings=True)
+        # البحث عن عدد أكبر ثم تصفية
+        search_k = top_k * 3
+        scores, indices = self.index.search(query_embedding, search_k)
+        # تجميع النتائج المؤهلة
+        results = []
+        for i, (score, idx) in enumerate(zip(scores[0], indices[0])):
+            # التحقق من أن الفهرس صالح والتشابه مقبول
+            if 0 <= idx < len(self.chunks) and score >= similarity_threshold:
+                chunk = self.chunks[idx]
+                results.append({
+                    'rank': len(results) + 1,
+                    'score': float(score),
+                    'similarity_percent': f"{score * 100:.1f}%",
+                    'similarity_raw': score,
+                    'text': chunk['text'],
+                    'page': chunk['page'],
+                    'word_count': chunk['word_count'],
+                    'preview': chunk['text'][:150] + "..." if len(chunk['text']) > 150 else chunk['text']
+                })
+            # التوقف عند الوصول إلى العدد المطلوب
+            if len(results) >= top_k:
+                break
+        return results
+class RAGSystem:
+    """النظام الرئيسي RAG"""
+    def __init__(self):
+        self.processor = PDFProcessor()
+        self.vector_store = VectorStore()
+        self.is_ready = False
+    def initialize(self):
+        """تهيئة النظام"""
+        print("=" * 60)
+        print("🤖 نظام RAG للمستندات الذكي")
+        print("=" * 60)
+        # تحميل موارد NLTK
+        download_nltk_resources()
+        # تحميل نموذج Embeddings
+        if not self.vector_store.load_model():
+            return False
+        self.is_ready = True
+        return True
+    def process_pdf(self, pdf_path):
+        """معالجة ملف PDF جديد"""
+        if not self.is_ready:
+            print("❌ النظام غير مهيء")
+            return False
+        # قراءة PDF
+        pages_data = self.processor.read_pdf(pdf_path)
+        if not pages_data:
+            return False
+        # تقسيم النص
+        chunks = self.processor.chunk_text(pages_data)
+        if not chunks:
+            return False
+        # إنشاء embeddings وفهرس
+        if not self.vector_store.create_embeddings(chunks):
+            return False
+        if not self.vector_store.build_index():
+            return False
+        print("✨ تم معالجة المستند بنجاح!")
+        return True
+    def ask_question(self, question, top_k=3, similarity_threshold=0.25):
+        """طرح سؤال على النظام"""
+        if not self.is_ready or self.vector_store.index is None:
+            return {
+                'success': False,
+                'error': 'النظام غير مهيء. يرجى معالجة مستند أولاً.',
+                'results': []
+            }
+        print(f"\n🔍 البحث عن: '{question}'")
+        # البحث في المستند
+        results = self.vector_store.search(question, top_k, similarity_threshold)
+        if not results:
+            return {
+                'success': False,
+                'error': 'لم أجد نتائج ذات صلة في المستند.',
+                'results': []
+            }
+        # تقييم جودة النتائج
+        evaluation = self._evaluate_results(results)
+        return {
+            'success': True,
+            'question': question,
+            'results': results,
+            'evaluation': evaluation,
+            'total_results': len(results),
+            'best_similarity': results[0]['similarity_percent'] if results else "0%"
+        }
+    def _evaluate_results(self, results):
+        """تقييم جودة نتائج البحث"""
+        if not results:
+            return "❌ لا توجد نتائج للتقييم"
+        # حساب متوسط التشابه
+        similarities = [r['similarity_raw'] for r in results]
+        avg_similarity = sum(similarities) / len(similarities) * 100
+        # تحديد الجودة
+        if avg_similarity >= 50:
+            quality = "ممتازة 🏆"
+            emoji = "✅"
+        elif avg_similarity >= 40:
+            quality = "جيدة 👍"
+            emoji = "✓"
+        elif avg_similarity >= 30:
+            quality = "متوسطة ⚠️"
+            emoji = "~"
+        else:
+            quality = "ضعيفة ❌"
+            emoji = "✗"
+        # حساب تغطية الصفحات
+        unique_pages = len(set(r['page'] for r in results))
+        evaluation = f"""
+📊 **تقرير التقييم:**
+{emoji} **الجودة:** {quality}
+📈 **متوسط التشابه:** {avg_similarity:.1f}%
+🔢 **أفضل نتيجة:** {results[0]['similarity_percent']}
+📖 **صفحات مختلفة:** {unique_pages}
+📝 **إجمالي النتائج:** {len(results)}
+"""
+        return evaluation
+    def save_state(self, path="rag_system_state"):
+        """حفظ حالة النظام"""
+        return self.vector_store.save_index(path)
+    def load_state(self, path="rag_system_state"):
+        """تحميل حالة النظام"""
+        if not self.vector_store.load_model():
+            return False
+        if self.vector_store.load_index(path):
+            self.is_ready = True
+            return True
+        return False
+# ==================== 4️⃣ واجهة Streamlit لـ HuggingFace ====================
+def create_streamlit_app():
+    """إنشاء واجهة ويب باستخدام Streamlit"""
+    try:
+        import streamlit as st
+        from streamlit.runtime.uploaded_file_manager import UploadedFile
+        # إعداد صفحة Streamlit
+        st.set_page_config(
+            page_title="نظام RAG الذكي للمستندات",
+            page_icon="🤖",
+            layout="wide"
+        )
+        # CSS مخصص
+        st.markdown("""
+        <style>
+        .main-header {
+            text-align: center;
+            padding: 1rem;
+            background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
+            color: white;
+            border-radius: 10px;
+            margin-bottom: 2rem;
+        }
+        .result-card {
+            background: #f8f9fa;
+            border-radius: 10px;
+            padding: 1rem;
+            margin: 1rem 0;
+            border-left: 5px solid #667eea;
+        }
+        .similarity-high {
+            color: #28a745;
+            font-weight: bold;
+        }
+        .similarity-medium {
+            color: #ffc107;
+            font-weight: bold;
+        }
+        .similarity-low {
+            color: #dc3545;
+            font-weight: bold;
+        }
+        </style>
+        """, unsafe_allow_html=True)
+        # العنوان الرئيسي
+        st.markdown("""
+        <div class="main-header">
+            <h1>🤖 نظام RAG الذكي للمستندات</h1>
+            <p>بحث ذكي في ملفات PDF - يدعم العربية والإنجليزية</p>
+        </div>
+        """, unsafe_allow_html=True)
+        # تهيئة النظام في حالة الجلسة
+        if 'rag_system' not in st.session_state:
+            with st.spinner("🚀 جاري تهيئة النظام..."):
+                st.session_state.rag_system = RAGSystem()
+                if st.session_state.rag_system.initialize():
+                    st.success("✅ تم تهيئة النظام بنجاح!")
+                else:
+                    st.error("❌ فشل في تهيئة النظام")
+                    return
+        rag_system = st.session_state.rag_system
+        # الشريط الجانبي
+        with st.sidebar:
+            st.header("⚙️ الإعدادات")
+            # تحميل ملف PDF
+            st.subheader("📁 رفع ملف PDF")
+            uploaded_file = st.file_uploader(
+                "اختر ملف PDF",
+                type=["pdf"],
+                help="يمكنك رفع أي ملف PDF للبحث فيه"
+            )
+            if uploaded_file is not None:
+                # حفظ الملف المؤقت
+                temp_path = f"temp_{uploaded_file.name}"
+                with open(temp_path, "wb") as f:
+                    f.write(uploaded_file.getbuffer())
+                # معالجة الملف
+                if st.button("🚀 معالجة المستند", type="primary"):
+                    with st.spinner("جاري معالجة المستند..."):
+                        if rag_system.process_pdf(temp_path):
+                            st.success(f"✅ تم معالجة: {uploaded_file.name}")
+                            st.session_state.processed_file = uploaded_file.name
+                        else:
+                            st.error("❌ فشل في معالجة الملف")
+            # إعدادات البحث
+            st.subheader("🔍 إعدادات البحث")
+            top_k = st.slider("عدد النتائج", 1, 10, 3)
+            similarity_threshold = st.slider("عتبة التشابه", 0.0, 1.0, 0.25, 0.05)
+            # معلومات النظام
+            st.subheader("📊 معلومات النظام")
+            if rag_system.is_ready and rag_system.vector_store.chunks:
+                st.info(f"📄 الأجزاء النصية: {len(rag_system.vector_store.chunks)}")
+                st.info(f"🧮 المتجهات: {rag_system.vector_store.index.ntotal if rag_system.vector_store.index else 0}")
+        # المنطقة الرئيسية
+        col1, col2 = st.columns([2, 1])
+        with col1:
+            st.header("💬 اسأل عن المستند")
+            # حقل إدخال السؤال
+            question = st.text_area(
+                "اكتب سؤالك هنا",
+                placeholder="مثال: ما هي حالة التدفق؟ أو What is flow state?",
+                height=100
+            )
+            # أزرار الأسئلة السريعة
+            st.subheader("💡 أسئلة سريعة")
+            quick_questions = [
+                "ما هي حالة التدفق؟",
+                "What is flow state?",
+                "ما هي عناصر التجربة المثلى؟",
+                "كيف يحقق الإنسان السعادة في العمل؟"
+            ]
+            cols = st.columns(4)
+            for idx, q in enumerate(quick_questions):
+                if cols[idx].button(q, use_container_width=True):
+                    question = q
+        with col2:
+            st.header("🎯 نصائح البحث")
+            st.info("""
+            **للحصول على أفضل النتائج:**
+            1. استخدم مصطلحات محددة
+            2. جرب اللغتين (عربي/إنجليزي)
+            3. اطرح أسئلة واضحة
+            4. استخدم مصطلحات الكتاب
+            **مثال:**
+            ✅ "ما هي خصائص flow state؟"
+            ❌ "شرح لي"
+            """)
+        # زر البحث
+        if st.button("🔍 ابحث في المستند", type="primary", use_container_width=True):
+            if not question:
+                st.warning("⚠️ يرجى إدخال سؤال")
+            elif not (rag_system.is_ready and rag_system.vector_store.chunks):
+                st.error("❌ يرجى معالجة مستند أولاً")
+            else:
+                with st.spinner("جاري البحث..."):
+                    result = rag_system.ask_question(
+                        question,
+                        top_k=top_k,
+                        similarity_threshold=similarity_threshold
+                    )
+                    if result['success']:
+                        # عرض التقييم
+                        with st.expander("📊 تقرير التقييم", expanded=True):
+                            st.markdown(result['evaluation'])
+                        # عرض النتائج
+                        st.subheader(f"📄 النتائج ({len(result['results'])})")
+                        for r in result['results']:
+                            # تحديد لون التشابه
+                            similarity = r['similarity_raw']
+                            if similarity >= 0.5:
+                                sim_class = "similarity-high"
+                            elif similarity >= 0.3:
+                                sim_class = "similarity-medium"
+                            else:
+                                sim_class = "similarity-low"
+                            # عرض البطاقة
+                            with st.container():
+                                st.markdown(f"""
+                                <div class="result-card">
+                                    <h4>🏆 النتيجة #{r['rank']}</h4>
+                                    <p><span class="{sim_class}">التشابه: {r['similarity_percent']}</span> | 📖 الصفحة: {r['page']} | 🔢 الكلمات: {r['word_count']}</p>
+                                    <hr>
+                                    <p>{r['text']}</p>
+                                </div>
+                                """, unsafe_allow_html=True)
+                    else:
+                        st.error(result['error'])
+        # قسم الأمثلة التوضيحية
+        with st.expander("📖 أمثلة توضيحية", expanded=False):
+            st.markdown("""
+            **مستند كتاب Flow:**
+            - "ما هي حالة التدفق flow state؟"
+            - "What are the characteristics of optimal experience?"
+            - "كيف يرتبط التحدي بالمهارة في نظرية التدفق؟"
+            **مستندات أخرى:**
+            - "ما هو الموضوع الرئيسي؟"
+            - "ما هي النقاط المهمة؟"
+            - "هل هناك أمثلة عملية؟"
+            """)
+        # تذييل الصفحة
+        st.markdown("---")
+        st.markdown("""
+        <div style="text-align: center; color: #666;">
+            <p>🤖 نظام RAG للمستندات | إصدار HuggingFace</p>
+            <p>تقنية: FAISS + Sentence Transformers + Streamlit</p>
+        </div>
+        """, unsafe_allow_html=True)
+    except ImportError:
+        print("⚠️ Streamlit غير مثبت. لتشغيل الواجهة:")
+        print("   pip install streamlit")
+        print("   streamlit run app.py")
+# ==================== 5️⃣ التشغيل الرئيسي ====================
+def main_cli():
+    """واجهة سطر الأوامر"""
+    print("=" * 60)
+    print("🤖 نظام RAG للمستندات - واجهة سطر الأوامر")
+    print("=" * 60)
+    # إنشاء النظام
+    rag_system = RAGSystem()
+    # تهيئة النظام
+    if not rag_system.initialize():
+        print("❌ فشل في تهيئة النظام")
+        return
+    # قائمة الأوامر
+    commands = """
+    🎮 الأوامر المتاحة:
+    1. معالجة - معالجة ملف PDF جديد
+    2. بحث     - البحث في المستند
+    3. حفظ     - حفظ حالة النظام
+    4. تحميل   - تحميل حالة محفوظة
+    5. خروج    - إنهاء البرنامج
+    6. ويب     - تشغيل واجهة الويب (يتطلب Streamlit)
+    """
+    while True:
+        print("\n" + commands)
+        command = input("\n📝 أدخل الأمر: ").strip().lower()
+        if command in ['خروج', 'exit', '5']:
+            print("👋 مع السلامة!")
+            break
+        elif command in ['معالجة', '1']:
+            pdf_path = input("📁 أدخل مسار ملف PDF: ").strip()
+            if os.path.exists(pdf_path):
+                rag_system.process_pdf(pdf_path)
+            else:
+                print(f"❌ الملف غير موجود: {pdf_path}")
+        elif command in ['بحث', '2']:
+            if not rag_system.is_ready or rag_system.vector_store.index is None:
+                print("❌ يرجى معالجة مستند أولاً")
+                continue
+            question = input("🧠 أدخل سؤالك: ").strip()
+            if question:
+                result = rag_system.ask_question(question)
+                if result['success']:
+                    print(result['evaluation'])
+                    for r in result['results']:
+                        print(f"\n🏆 النتيجة #{r['rank']}")
+                        print(f"   📈 التشابه: {r['similarity_percent']}")
+                        print(f"   📖 الصفحة: {r['page']}")
+                        print(f"   📝 المحتوى: {r['text'][:200]}...")
+                else:
+                    print(result['error'])
+        elif command in ['حفظ', '3']:
+            path = input("💾 أدخل اسم الملف للحفظ (دون امتداد): ").strip()
+            if path:
+                rag_system.save_state(path)
+        elif command in ['تحميل', '4']:
+            path = input("📂 أدخل اسم الملف للتحميل (دون امتداد): ").strip()
+            if path:
+                rag_system.load_state(path)
+        elif command in ['ويب', '6']:
+            print("🌐 جاري تشغيل واجهة الويب...")
+            print("   تأكد من تثبيت Streamlit أولاً: pip install streamlit")
+            print("   ثم شغل: streamlit run app.py")
+            break
+        else:
+            print("⚠️ أمر غير معروف")
+# ==================== 6️⃣ نقطة الدخول الرئيسية ====================
+if __name__ == "__main__":
+    # اختيار وضع التشغيل
+    print("=" * 60)
+    print("🎮 اختر وضع التشغيل:")
+    print("1. واجهة سطر الأوامر (CLI)")
+    print("2. واجهة الويب (يتطلب Streamlit)")
+    print("=" * 60)
+    try:
+        choice = input("📝 أدخل رقم الخيار: ").strip()
+        if choice == "1":
+            main_cli()
+        elif choice == "2":
+            create_streamlit_app()
+        else:
+            print("⚠️ خيار غير صحيح، تشغيل CLI...")
+            main_cli()
+    except KeyboardInterrupt:
+        print("\n\n👋 تم إيقاف البرنامج")
+    except Exception as e:
+        print(f"\n❌ حدث خطأ: {e}")