Spaces:

amira01
/

Health-Insurance-Chatbot

Sleeping

App Files Files Community

amira01 commited on Jun 24, 2025

Commit

3b1892c

verified ·

1 Parent(s): 340c256

Update app.py

Browse files

Files changed (1) hide show

app.py +130 -202

app.py CHANGED Viewed

@@ -1,153 +1,79 @@
-import faiss
-import json
-import gradio as gr
 import os
-from typing import List, Dict, Any
 from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_openai import ChatOpenAI
 from langchain_core.runnables import RunnablePassthrough
 from langchain_community.vectorstores import FAISS
-from langchain_core.documents import Document
 from langchain.chains import RetrievalQA, LLMChain
 from langchain.prompts import PromptTemplate
-from langchain_core.messages import AIMessage ,HumanMessage
-from langchain_openai import ChatOpenAI
-# 1. Document loading and processing functions (updated)
-def load_and_process_files(file_paths: List[str]) -> List[Document]:
-    """Load and process a list of JSON files"""
-    all_documents = []
-    for file_path in file_paths:
-        try:
-            if not os.path.exists(file_path):
-                print(f"Warning: File {file_path} not found. Skipping.")
-                continue
-            with open(file_path, "r", encoding="utf-8") as f:
-                data = json.load(f)
-            file_name = os.path.basename(file_path)
-            section = "Section1" if "Section1" in file_name else "Section2"
-            # Automatic content type detection
-            if isinstance(data, dict):
-                if "الموضوعات" in data:
-                    documents = process_policy_content(data, file_name, section)
-                elif "الحالات" in data:
-                    documents = process_cases_content(data, file_name, section)
-                else:
-                    documents = [create_document(str(data), file_name, section, "general_content")]
-            else:
-                documents = [create_document(str(data), file_name, section, "general_content")]
-            all_documents.extend(documents)
-            print(f"Loaded {len(documents)} documents from {file_name}")
-        except json.JSONDecodeError:
-            print(f"Error: Invalid JSON format in file {file_path}")
-        except Exception as e:
-            print(f"Unexpected error processing {file_path}: {str(e)}")
-    return all_documents
-def process_policy_content(data: Dict[str, Any], file_name: str, section: str) -> List[Document]:
-    """Process policy content"""
-    documents = []
-    for topic in data.get("الموضوعات", []):
-        content = f"# {topic.get('العنوان', '')}\n\n"
-        content += f"{topic.get('النص', '')}\n\n"
-        if "الأنشطة" in topic:
-            content += "## الأنشطة:\n"
-            for idx, activity in enumerate(topic["الأنشطة"], 1):
-                content += f"### {idx}. {activity.get('وصف النشاط', '')}\n"
-                content += f"- المسؤول: {activity.get('المسئول', '')}\n"
-                content += f"- الشروط: {activity.get('الشروط المسبقة', '')}\n"
-                if 'كود النشاط' in activity:
-                    content += f"- الكود: {activity['كود النشاط']}\n"
-                content += "\n"
-        documents.append(create_document(content, file_name, section, "policy"))
-    return documents
-def process_cases_content(data: Dict[str, Any], file_name: str, section: str) -> List[Document]:
-    """Process special cases content"""
-    content = f"# {data.get('العنوان', 'Special Cases')}\n\n"
-    for case in data.get("الحالات", []):
-        content += "## Case\n"
-        content += f"- المسؤول: {case.get('المسئول', '')}\n"
-        content += f"- المستند: {case.get('المستند', '')}\n"
-        content += f"- التغطية: {case.get('التغطية', '')}\n"
-        content += f"### Description:\n{case.get('الوصف', '')}\n\n"
-    return [create_document(content, file_name, section, "special_case")]
-def create_document(content: str, file_name: str, section: str, doc_type: str) -> Document:
-    """Create document with metadata"""
-    return Document(
-        page_content=content,
-        metadata={
-            "source": file_name,
-            "section": section,
-            "type": doc_type,
-            "length": len(content)
-        }
-    )
-# 2. Embeddings creation and save/load functions
-def get_or_create_embeddings(
-    documents: List[Document],
-    save_path: str = "embeddings",
-    model_name: str = "intfloat/multilingual-e5-large"
-) -> FAISS:
-    """
-    Create new embeddings every time (skip loading saved ones)
-    Args:
-        documents: List of documents to create embeddings from
-        save_path: Path to save embeddings (not used for loading)
-        model_name: HuggingFace embeddings model name
-    Returns:
-        FAISS: New vector store
-    """
-    # Always create new embeddings
-    print("🛠️ Creating fresh embeddings...")
-    embedding_model = HuggingFaceEmbeddings(model_name=model_name)
-    vectorstore = FAISS.from_documents(documents, embedding_model)
-    # Optional: Save for other purposes (but won't be loaded next time)
-    os.makedirs(save_path, exist_ok=True)
-    vectorstore.save_local(save_path)
-    print(f"💾 Embeddings saved to: {save_path} (not used for loading)")
-    return vectorstore
-# 3. Chain setup functions
 def setup_chains(vectorstore: FAISS):
-    """Setup processing chains"""
     llm = ChatOpenAI(
         model="meta-llama/llama-3-70b-instruct",
         base_url="https://openrouter.ai/api/v1",
         api_key="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",
-        temperature=0.3
     )
-    # Question rephrasing chain
     rephrase_prompt = PromptTemplate.from_template("""
     قم بتحويل العبارة التالية من العامية المصرية إلى اللغة العربية الفصحى مع الالتزام بالتالي:
     1. إذا كانت العبارة بالفصحى بالفعل، اتركها كما هي دون تغيير
     2. لا تقم بإضافة أي كلمات أو تعليقات إضافية
     3. حافظ على نفس المعنى بدقة
     4. غير فقط الكلمات العامية إلى فصحى مع الحفاظ على الكلمات الفصيحة كما هي
     السؤال: "{question}"
     السؤال بالفصحى:
     """)
@@ -157,92 +83,126 @@ def setup_chains(vectorstore: FAISS):
         | llm
     )
-    # QA chain
     qa_prompt = PromptTemplate.from_template(
     """
-    أجب على السؤال التالي بناءً فقط على المعلومات الموجودة في النصوص المقدمة لك.
     اشتراطات الإجابة:
-    1. الإجابة يجب أن تكون دقيقة وكاملة دون نقص
-    2. لا تذكر أي أوراق أو مستندات مطلوبة
-    3. لا تذكر أرقام خطوات أو إجراءات
-    4. لا تشير إلى مصدر المعلومة
-    5. التزم باللغة العربية فقط
-    6. لا تضيف أي معلومات خارج النص المقدم
     أمثلة توضيحية:
-    1. ما هي المستندات المطلوبة لتسجيل الأسرة في التأمين الصحي الشامل؟
     الإجابة:
-    صورة بطاقة الرقم القومي للعائل (سارية - وجهين).
-    صور بطاقات الأرقام القومية للزوجة والأبناء (سارية - وجهين).
-    صور شهادات ميلاد مميكنة للأبناء تحت سن 15 سنة.
-    وثيقة زواج مميكنة.
-    قيد عائلي مميكن (إن تطلب الأمر).
-    2. كيف يتم تسجيل الأطفال المكفولين بنظام الأسر البديلة؟
     الإجابة:
-    يتم تقديم المستندات التالية:
-    عقد كفالة الطفل مدعوم بشعار الجمهورية من وزارة التضامن الاجتماعي.
-    صورة بطاقة الرقم القومي للعائل والطفل.
-    صورة كارنيه الأسرة البديلة.
-    إقرار من كافل الطفل بدفع اشتراكات التأمين الصحي الشامل عن الطفل المكفول.
     السؤال: {question}
     النصوص: {context}
     الإجابة:
     """)
     qa_chain = RetrievalQA.from_chain_type(
         llm=llm,
-        retriever=vectorstore.as_retriever(),
         return_source_documents=True,
         chain_type_kwargs={"prompt": qa_prompt}
     )
     return rephrase_chain, qa_chain
-# 4. Question processing function
 def process_question(question: str, rephrase_chain, qa_chain, chat_history: list) -> tuple:
-    """معالجة السؤال وإرجاع الإجابة بالتنسيق الجديد"""
     rewritten = rephrase_chain.invoke({"question": question})
     fusha_question = rewritten.content.strip()
     result = qa_chain.invoke(fusha_question)
     answer = result["result"]
-    chat_history.append((question, answer))
     return "", chat_history
-# 5. Gradio interface
-def create_gradio_interface(rephrase_chain: LLMChain, qa_chain: RetrievalQA) -> gr.Blocks:
-    """Create Gradio interface"""
-    with gr.Blocks(title="المساعد الذكي للتامين الصحي ") as demo:
         gr.Markdown("## المساعد الذكي للتامين الصحي")
         gr.Markdown("اسأل عن أي معلومات في وثائق وسياسه التأمين")
-        chatbot = gr.Chatbot(label="المحادثة", height=500,  type="tuples" )
         question_box = gr.Textbox(label="اكتب سؤالك هنا", placeholder="مثال: ما هي شروط تغيير وحدة الرعاية؟")
         with gr.Row():
             submit_btn = gr.Button("إرسال")
             clear_btn = gr.Button("مسح المحادثة")
         chat_history = gr.State([])
         submit_btn.click(
@@ -259,44 +219,12 @@ def create_gradio_interface(rephrase_chain: LLMChain, qa_chain: RetrievalQA) ->
     return demo
-# 6. Main function (updated)
-def main():
-    # Required files list
-    data_files = [
-        "Section1p1.json",
-        "Section1p2.json",
-        "Section1p3.json",
-        "Section2.json",
-        "Section3.json",
-        "Section4.json"
-    ]
-    # Load and process files
-    print("Loading documents...")
-    documents = load_and_process_files(data_files)
-    if not documents:
-        raise ValueError("No documents loaded. Please check the files.")
-    print(f"Successfully loaded {len(documents)} documents")
-    # Create/load embeddings
-    print("Setting up search models...")
-    vectorstore = get_or_create_embeddings(documents)
-    # Setup processing chains
     rephrase_chain, qa_chain = setup_chains(vectorstore)
-    # Create Gradio interface
-    print("Launching interface...")
     demo = create_gradio_interface(rephrase_chain, qa_chain)
-    # Launch interface
-    demo.launch(
-        show_api=True,
-        share=False
-    )
-if __name__ == "__main__":
-    main()

 import os
+from datetime import datetime
+import gradio as gr
 from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_openai import ChatOpenAI
 from langchain_core.runnables import RunnablePassthrough
 from langchain_community.vectorstores import FAISS
 from langchain.chains import RetrievalQA, LLMChain
 from langchain.prompts import PromptTemplate
+LOG_FILE = "chat_log.txt"
+def init_log_file():
+    """تهيئة ملف السجل"""
+    if not os.path.exists(LOG_FILE):
+        with open(LOG_FILE, 'w', encoding='utf-8') as f:
+            f.write("سجل محادثات التأمين الصحي\n")
+            f.write("="*50 + "\n\n")
+def write_to_log(message):
+    """كتابة رسالة إلى ملف السجل"""
+    with open(LOG_FILE, 'a', encoding='utf-8') as f:
+        f.write(f"{datetime.now().strftime('%Y-%m-%d %H:%M:%S')} - {message}\n")
+def load_embeddings() -> FAISS:
+    """تحميل ملفات FAISS مباشرة من المسار الحالي"""
+    required_files = ["index.faiss", "index.pkl", "source_files.txt"]
+    missing_files = [file for file in required_files if not os.path.exists(file)]
+    if missing_files:
+        error_msg = f"الملفات التالية غير موجودة في المسار الحالي: {', '.join(missing_files)}"
+        write_to_log(error_msg)
+        raise ValueError(error_msg)
+    write_to_log("جاري تحميل ملفات FAISS من المسار الحالي")
+    try:
+        embedding_model = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large")
+        vectorstore = FAISS.load_local(
+            folder_path=".",
+            embeddings=embedding_model,
+            allow_dangerous_deserialization=True
+        )
+        write_to_log("تم تحميل ملفات FAISS بنجاح")
+        try:
+            with open("source_files.txt", "r", encoding="utf-8") as f:
+                sources = f.read().splitlines()
+                write_to_log(f"الملفات المصدر المستخدمة: {', '.join(sources)}")
+        except Exception as e:
+            write_to_log(f"تحذير: لا يمكن قراءة ملف المصادر - {str(e)}")
+        return vectorstore
+    except Exception as e:
+        error_msg = f"فشل في تحميل ملفات FAISS: {str(e)}"
+        write_to_log(error_msg)
+        raise RuntimeError(error_msg)
 def setup_chains(vectorstore: FAISS):
+    """إعداد سلاسل المعالجة"""
     llm = ChatOpenAI(
         model="meta-llama/llama-3-70b-instruct",
         base_url="https://openrouter.ai/api/v1",
         api_key="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",
+        temperature=0.4
     )
     rephrase_prompt = PromptTemplate.from_template("""
     قم بتحويل العبارة التالية من العامية المصرية إلى اللغة العربية الفصحى مع الالتزام بالتالي:
     1. إذا كانت العبارة بالفصحى بالفعل، اتركها كما هي دون تغيير
     2. لا تقم بإضافة أي كلمات أو تعليقات إضافية
     3. حافظ على نفس المعنى بدقة
     4. غير فقط الكلمات العامية إلى فصحى مع الحفاظ على الكلمات الفصيحة كما هي
     السؤال: "{question}"
     السؤال بالفصحى:
     """)
         | llm
     )
     qa_prompt = PromptTemplate.from_template(
     """
+    أجب على السؤال التالي بناءً على المعلومات الموجودة في النصوص المقدمة لك.
     اشتراطات الإجابة:
+    1. اذا كان السوال به اكتر من جزء فتجيب عن كل جزء فالسوال ولا تترك شي
+    2. الإجابة يجب أن تكون كاملة دون حذف شي من النص
+    3. ذكر جميع الاوراق أو المستندات المطلوبة
+    4. التزم باللغة العربية فقط
+    5. اذا كان المطلوب اوراق طفل مولود فلا تذكر بطاقه الرقم القومي للمولود بدلا منها اذكر شهاده الميلاد
+    6. التامين الصحي شامل هذه المناطق فقط (بورسعيد، الإسماعيلية، السويس، جنوب سيناء، ال��قصر، وأسوان)
+    7. لا تذكر أرقام خطوات أو إجراءات
+    8. لا تشير إلى مصدر المعلومة
+    9. لا تضيف أي معلومات خارجية
+    تعليمات الإجابة:
+    1. إذا كان السؤال عن المستندات:
+      - حافظ على التقسيمات الأصلية (مستندات تسجيل، مستندات مالية، ...)
+      - اذكر جميع البنود دون حذف
+      - حافظ على التنسيق النقطي
+    2. إذا كان السؤال عن خطوات أو إجراءات:
+      - اذكر جميع الخطوات مرتبة
+      - اذكر المسؤول عن كل خطوة إن ورد
+      - أضف الشروط المسبقة إن وجدت
+    3. إذا جمع السؤال بين المستندات والإجراءات:
+      - أجب بكل الأقسام المطلوبة
+      - افصل بينها بعناوين واضحة
+    4. التزم حرفياً بالنصوص الأصلية دون إضافة أو حذف
     أمثلة توضيحية:
+    --------------------------------------------------------------------------------
+    السؤال: ما هي مستندات تسجيل طفل مولود؟
     الإجابة:
+    مستندات التسجيل (يتم استلام صور مع ضرورة الاطلاع على الأصل):
+    - صورة بطاقة الرقم القومي (سارية - وجهين)
+    - صورة شهادة ميلاد مميكنة للطفل
+    - أصل بطاقة التأمين الصحي الشامل للأسرة
+    - أصل قيد عائلي مميكن إن تطلب الأمر
+    -
+    مستندات الدخل:
+    - طبعة التأمينات الاجتماعية
+    - طبعة مدد تأمينية
+    -
+    --------------------------------------------------------------------------------
+    السؤال: ما هي خطوات تسجيل طفل مولود؟
     الإجابة:
+    1. تقديم المستندات المطلوبة إلى مكتب التأمين الصحي
+      - المسؤول: رب الأسرة
+      - الشروط: اكتمال المستندات
+      -
+    --------------------------------------------------------------------------------
+    السؤال: ما هي إجراءات ومستندات تسجيل مولود جديد؟
+    الإجابة:
+    أولاً: المستندات المطلوبة
+    -
+    ثانياً: خطوات التسجيل
+    -
     السؤال: {question}
     النصوص: {context}
     الإجابة:
     """)
     qa_chain = RetrievalQA.from_chain_type(
         llm=llm,
+        retriever = vectorstore.as_retriever(
+                    search_type="mmr",
+                    search_kwargs={
+                    'k': 6,
+                    'fetch_k': 20,
+                    'lambda_mult': 0.7  }),
+        #retriever=vectorstore.as_retriever(),
         return_source_documents=True,
         chain_type_kwargs={"prompt": qa_prompt}
     )
     return rephrase_chain, qa_chain
 def process_question(question: str, rephrase_chain, qa_chain, chat_history: list) -> tuple:
+    """معالجة السؤال وتسجيل التفاصيل"""
+    # تسجيل السؤال الأصلي
+    write_to_log(f"السؤال الأصلي: {question}")
     rewritten = rephrase_chain.invoke({"question": question})
     fusha_question = rewritten.content.strip()
+    write_to_log(f"السؤال المحول: {fusha_question}")
     result = qa_chain.invoke(fusha_question)
     answer = result["result"]
+    sources = set()
+    for doc in result["source_documents"]:
+        source_info = f"{doc.metadata['source']} - {doc.metadata['section']}"
+        sources.add(source_info)
+        write_to_log(f"مستند مسترجع: {source_info}")
+    write_to_log(f"الإجابة النهائية: {answer}")
+    write_to_log("="*50)  # خط فاصل بين المحادثات
+    chat_history.append((question, answer))
     return "", chat_history
+def create_gradio_interface(rephrase_chain: LLMChain, qa_chain: RetrievalQA) -> gr.Blocks:
+    """إنشاء واجهة Gradio"""
+    with gr.Blocks(title="المساعد الذكي للتامين الصحي") as demo:
         gr.Markdown("## المساعد الذكي للتامين الصحي")
         gr.Markdown("اسأل عن أي معلومات في وثائق وسياسه التأمين")
+        chatbot = gr.Chatbot(label="المحادثة", height=500, type="tuples")
         question_box = gr.Textbox(label="اكتب سؤالك هنا", placeholder="مثال: ما هي شروط تغيير وحدة الرعاية؟")
         with gr.Row():
             submit_btn = gr.Button("إرسال")
             clear_btn = gr.Button("مسح المحادثة")
         chat_history = gr.State([])
         submit_btn.click(
     return demo
+if __name__ == "__main__":
+    init_log_file()
+    vectorstore = load_embeddings()
     rephrase_chain, qa_chain = setup_chains(vectorstore)
     demo = create_gradio_interface(rephrase_chain, qa_chain)
+    demo.launch(show_api=True , share=True)