Spaces:

Reza-galaxy21
/

IRI-PowerDistAI

Runtime error

App Files Files Community

Reza-galaxy21 commited on Feb 8, 2025

Commit

3f672a5

verified ·

1 Parent(s): 522002e

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -50

app.py CHANGED Viewed

@@ -6,7 +6,6 @@ from langchain_community.document_loaders import PyPDFLoader
 from langchain_community.embeddings import OpenAIEmbeddings
 from langchain_community.vectorstores import FAISS
 from langchain_community.chat_models import ChatOpenAI
-from langchain.prompts import PromptTemplate
 # تنظیمات لاگ‌گیری
 logging.basicConfig(level=logging.INFO)
@@ -14,14 +13,14 @@ logger = logging.getLogger(__name__)
 # تنظیمات مسیرها
 UPLOAD_FOLDER = "uploaded_files"
-DATABASE_FILE = "/home/user/app/vector_database"  # بدون پسوند .pkl
 os.makedirs(UPLOAD_FOLDER, exist_ok=True)
 # بررسی و بارگذاری دیتابیس برداری
 def load_database():
     try:
         if os.path.exists(DATABASE_FILE):
-            embeddings = OpenAIEmbeddings(openai_api_key=os.getenv("My_huggingface_key"), model="text-embedding-3-large")
             vector_db = FAISS.load_local(DATABASE_FILE, embeddings)
             logger.info(f"✅ دیتابیس بارگذاری شد: {DATABASE_FILE}")
             return vector_db
@@ -60,13 +59,7 @@ def process_and_store_pdfs(file_paths):
     try:
         logger.info("در حال ایجاد embeddings و ذخیره‌سازی در FAISS...")
-        openai_api_key = os.getenv("My_huggingface_key")
-        if not openai_api_key:
-            logger.error("❌ کلید API مقداردهی نشده است!")
-            raise ValueError("❌ کلید OpenAI API یافت نشد.")
-        embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key, model="text-embedding-3-large")
         vector_db = FAISS.from_documents(texts, embeddings)
         logger.info(f"✅ ذخیره‌سازی در FAISS با موفقیت انجام شد. تعداد اسناد: {vector_db.index.ntotal}")
         return vector_db
@@ -74,6 +67,10 @@ def process_and_store_pdfs(file_paths):
         logger.error(f"خطا در ایجاد embeddings یا ذخیره‌سازی در FAISS: {e}")
         return None
 # پاسخ‌گویی بر اساس اسناد بارگذاری‌شده
 def chat_with_doc(query):
     try:
@@ -84,56 +81,41 @@ def chat_with_doc(query):
         if not query.strip():
             return "❌ لطفاً سوال خود را وارد کنید."
-        # پاسخ به سوالات عمومی
-        if query.lower() in ["سلام", "hi", "hello"]:
-            return "سلام، چه کمکی می‌تونم بکنم؟"
-        # بازیابی اسناد مرتبط
-        retriever = global_vector_db.as_retriever(search_kwargs={"k": 5})
         docs = retriever.get_relevant_documents(query)
-        # مرتب‌سازی اسناد بر اساس درجه شباهت
-        docs_sorted = sorted(docs, key=lambda x: x.metadata.get("similarity_score", 0), reverse=True)
-        # لاگ‌گیری برای بررسی اسناد بازیابی شده
-        logger.info(f"تعداد اسناد بازیابی شده: {len(docs_sorted)}")
-        for doc in docs_sorted:
-            logger.info(f"سند بازیابی شده: {doc.page_content[:100]}... (درجه شباهت: {doc.metadata.get('similarity_score', 'نامشخص')})")
-        context = "\n\n".join([doc.page_content for doc in docs_sorted])
-        if not context:
-            return "هیچ اطلاعات مرتبطی یافت نشد."
-        # بهبود Prompt Engineering
-        prompt_template = PromptTemplate(
-            input_variables=["query", "context"],
-            template="""
-            شما یک دستیار هوشمند هستید که به سوالات کاربران پاسخ می‌دهید.
-            سوال: {query}
-            اطلاعات مرتبط: {context}
-            لطفاً پاسخ دقیق و مختصر ارائه دهید.
-            """
-        )
-        prompt = prompt_template.format(query=query, context=context)
-        # استفاده از مدل gpt-3.5-turbo
         llm = ChatOpenAI(model_name="gpt-3.5-turbo", openai_api_key=os.getenv("My_huggingface_key"))
         response = llm.predict(prompt)
-        # بررسی درجه شباهت اسناد
-        if docs_sorted and docs_sorted[0].metadata.get("similarity_score", 0) < 0.5:  # آستانه درجه شباهت
-            response = f"⚠️ توجه: این پاسخ بر اساس اطلاعات محدود موجود است. برای دریافت پاسخ دقیق‌تر، لطفاً فایل مرتبط را آپلود کنید.\n\n{response}"
-        final_response = f"پاسخ:\n{response}\n\nمنابع:\n"
-        for doc in docs_sorted:
-            final_response += f"- {doc.metadata.get('source', 'نامشخص')}, صفحه {doc.metadata.get('page', 'نامشخص')} (درجه شباهت: {doc.metadata.get('similarity_score', 'نامشخص')})\n"
         return final_response
     except Exception as e:
         logger.error(f"خطا در پاسخ‌گویی بر اساس سند: {e}")
         return f"❌ خطایی رخ داده است: {e}"
 # ذخیره فایل آپلود شده
 def save_uploaded_file(file):
     try:
@@ -155,14 +137,14 @@ with gr.Blocks() as demo:
     gr.Markdown("# هوش مصنوعی همراه کارشناسان توزیع برق ایران")
     query = gr.Textbox(label="سوال خود را بپرسید", lines=2)
-    response = gr.Textbox(label="پاسخ", lines=10, interactive=False)
     submit_btn = gr.Button("ارسال سوال")
     file = gr.File(label="📎 آپلود فایل", file_types=[".pdf"])
     upload_status = gr.Textbox(label="وضعیت آپلود", interactive=False)
     upload_btn = gr.Button("ارسال فایل")
-    submit_btn.click(chat_with_doc, inputs=[query], outputs=[response])
     upload_btn.click(save_uploaded_file, inputs=[file], outputs=[upload_status])
-demo.launch()

 from langchain_community.embeddings import OpenAIEmbeddings
 from langchain_community.vectorstores import FAISS
 from langchain_community.chat_models import ChatOpenAI
 # تنظیمات لاگ‌گیری
 logging.basicConfig(level=logging.INFO)
 # تنظیمات مسیرها
 UPLOAD_FOLDER = "uploaded_files"
+DATABASE_FILE = "/home/user/app/vector_database"
 os.makedirs(UPLOAD_FOLDER, exist_ok=True)
 # بررسی و بارگذاری دیتابیس برداری
 def load_database():
     try:
         if os.path.exists(DATABASE_FILE):
+            embeddings = OpenAIEmbeddings(openai_api_key=os.getenv("My_huggingface_key"))
             vector_db = FAISS.load_local(DATABASE_FILE, embeddings)
             logger.info(f"✅ دیتابیس بارگذاری شد: {DATABASE_FILE}")
             return vector_db
     try:
         logger.info("در حال ایجاد embeddings و ذخیره‌سازی در FAISS...")
+        embeddings = OpenAIEmbeddings(openai_api_key=os.getenv("My_huggingface_key"))
         vector_db = FAISS.from_documents(texts, embeddings)
         logger.info(f"✅ ذخیره‌سازی در FAISS با موفقیت انجام شد. تعداد اسناد: {vector_db.index.ntotal}")
         return vector_db
         logger.error(f"خطا در ایجاد embeddings یا ذخیره‌سازی در FAISS: {e}")
         return None
+# ایجاد لینک منبع
+def generate_source_link(source, page):
+    return f'<a href="{source}#page={page}" target="_blank">{source}, صفحه {page}</a>'
 # پاسخ‌گویی بر اساس اسناد بارگذاری‌شده
 def chat_with_doc(query):
     try:
         if not query.strip():
             return "❌ لطفاً سوال خود را وارد کنید."
+        retriever = global_vector_db.as_retriever(search_kwargs={"k": 8})
         docs = retriever.get_relevant_documents(query)
+        if not docs:
+            return "هیچ اطلاعات مرتبطی یافت نشد."
+        # نمایش لاگ برای بررسی اسناد
+        for doc in docs:
+            logger.info(f"📄 سند: {doc.metadata.get('source', 'نامشخص')} | صفحه {doc.metadata.get('page', 'نامشخص')}")
+        # تفکیک بخش‌های نقل‌قول شده از متن سند
+        citations = []
+        context = ""
+        for doc in docs:
+            quoted_text = f"«{doc.page_content.strip()}»"
+            source_info = generate_source_link(doc.metadata.get("source", "نامشخص"), doc.metadata.get("page", "نامشخص"))
+            citations.append(f"{quoted_text} ({source_info})")
+            context += f"{quoted_text}\n\n"
         llm = ChatOpenAI(model_name="gpt-3.5-turbo", openai_api_key=os.getenv("My_huggingface_key"))
+        prompt = f"""سوال: {query}\n\nاطلاعات مرتبط:\n{context}\n\nلطفاً به سوال پاسخ دهید:"""
         response = llm.predict(prompt)
+        final_response = f"**پاسخ:**\n{response}\n\n**نقل‌قول‌های مستقیم:**\n" + "\n".join(citations)
         return final_response
     except Exception as e:
         logger.error(f"خطا در پاسخ‌گویی بر اساس سند: {e}")
         return f"❌ خطایی رخ داده است: {e}"
+# فرمت کردن خروجی با HTML برای Gradio
+def format_response(response_text):
+    response_text = response_text.replace("**پاسخ:**", "<h3 style='color:blue;'>پاسخ:</h3>")
+    response_text = response_text.replace("**نقل‌قول‌های مستقیم:**", "<h4 style='color:green;'>نقل‌قول‌های مستقیم:</h4>")
+    return response_text
 # ذخیره فایل آپلود شده
 def save_uploaded_file(file):
     try:
     gr.Markdown("# هوش مصنوعی همراه کارشناسان توزیع برق ایران")
     query = gr.Textbox(label="سوال خود را بپرسید", lines=2)
+    response = gr.HTML(label="پاسخ", interactive=False)  # تغییر از Textbox به HTML
     submit_btn = gr.Button("ارسال سوال")
     file = gr.File(label="📎 آپلود فایل", file_types=[".pdf"])
     upload_status = gr.Textbox(label="وضعیت آپلود", interactive=False)
     upload_btn = gr.Button("ارسال فایل")
     upload_btn.click(save_uploaded_file, inputs=[file], outputs=[upload_status])
+    submit_btn.click(lambda q: format_response(chat_with_doc(q)), inputs=[query], outputs=[response])
+demo.launch()