Spaces:

teoo33
/

ThesisAnalyzer

Sleeping

App Files Files Community

teoo33 commited on Feb 20, 2025

Commit

dc185ff

verified ·

1 Parent(s): d9dbd06

Update app.py

Browse files

Files changed (1) hide show

app.py +195 -219

app.py CHANGED Viewed

@@ -1,219 +1,195 @@
-import os
-import google.generativeai as genai
-import gradio as gr
-from langchain_google_genai import ChatGoogleGenerativeAI, GoogleGenerativeAIEmbeddings
-from langchain.prompts import PromptTemplate
-from langchain.chains import ConversationalRetrievalChain, LLMChain
-from langchain_community.document_loaders import PyPDFLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain_community.vectorstores import FAISS
-import time
-import concurrent.futures
-import logging
-# تنظیم لاگ‌گیری
-logging.basicConfig(level=logging.INFO,
-                    format="%(asctime)s - %(levelname)s - %(message)s")
-logger = logging.getLogger(name)
-# تنظیم API Key از متغیر محیطی
-gemini_api_key = os.environ.get('GEMINI_API_KEY')
-if not gemini_api_key:
-    raise ValueError(
-        "GOOGLE_API_KEY پیدا نشد. لطفاً آن را در تنظیمات Space تنظیم کنید.")
-genai.configure(api_key=gemini_api_key)
-# تست اتصال به Gemini
-try:
-    test_model = genai.GenerativeModel('gemini-pro')
-    test_response = test_model.generate_content("تست ساده")
-    logger.info(f"تست API Gemini موفق: {test_response.text[:50]}...")
-except Exception as e:
-    logger.error(f"خطا در تست API Gemini: {str(e)}")
-    raise
-# بقیه توابع بدون تغییر
-def process_single_pdf(pdf_file):
-    pdf_path = pdf_file.name if hasattr(pdf_file, 'name') else pdf_file
-    logger.info(f"شروع پردازش فایل: {pdf_path}")
-    if not os.path.isfile(pdf_path):
-        logger.error(f"فایل {pdf_path} وجود ندارد.")
-        return None
-    text_splitter = RecursiveCharacterTextSplitter(
-        chunk_size=800, chunk_overlap=150)
-    loader = PyPDFLoader(pdf_path)
-    try:
-        pages = loader.load_and_split()
-        docs = text_splitter.split_documents(pages)[:50]
-        logger.info(f"پردازش فایل: {pdf_path} - تعداد تکه‌ها: {len(docs)}")
-        return docs
-    except Exception as e:
-        logger.error(f"خطا در پردازش {pdf_path}: {str(e)}")
-        return None
-def upload_and_process_pdf(pdf_files):
-    if not pdf_files:
-        return None, None, "لطفاً حداقل یک فایل PDF آپلود کنید."
-    logger.info(f"تعداد فایل‌های ورودی: {len(pdf_files)}")
-    all_docs = []
-    with concurrent.futures.ThreadPoolExecutor() as executor:
-        future_to_file = {executor.submit(
-            process_single_pdf, pdf_file): pdf_file for pdf_file in pdf_files}
-        for future in concurrent.futures.as_completed(future_to_file):
-            docs = future.result()
-            if docs:
-                all_docs.extend(docs)
-            else:
-                pdf_file = future_to_file[future]
-                return None, None, f"خطا در پردازش فایل: {pdf_file.name if hasattr(pdf_file, 'name') else pdf_file}"
-    logger.info(f"تعداد کل اسناد پردازش‌شده: {len(all_docs)}")
-    return None, all_docs, None
-def create_vector_db(docs):
-    if not docs:
-        return None, "هیچ محتوایی پردازش نشد."
-    embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
-    try:
-        logger.info("شروع ساخت FAISS بدون کش...")
-        vector_store = FAISS.from_documents(docs, embedding=embeddings)
-        logger.info(f"پایگاه داده وکتوری با {len(docs)} سند ساخته شد.")
-    except Exception as e:
-        logger.error(f"خطا در ایجاد پایگاه داده وکتوری: {str(e)}")
-        return None, f"خطا در پردازش وکتوری: {str(e)}"
-    return vector_store, None
-llm_gemini = ChatGoogleGenerativeAI(
-    model="gemini-pro", convert_system_message_to_human=True, temperature=0.5)
-academic_analysis_prompt_template = """شما یک تحلیلگر آکادمیک حرفه‌ای و متخصص در بررسی پایان‌نامه‌های علمی هستید. وظیفه شما ارائه تحلیلی عمیق، دقیق و ساختارمند بر اساس محتوای ارائه‌شده است. پاسخ شما باید:
-1. صرفاً بر اساس اطلاعات موجود در متن‌های مرتبط باشد.
-2. شامل مرور موضوع اصلی، روش‌شناسی، یافته‌ها و نکات قابل انتقاد (در صورت وجود) باشد.
-3. با زبانی رسمی و آکادمیک به {language} نوشته شود.
-4. سطح جزئیات پاسخ {detail_level} باشد.
-5. در صورت امکان، پیشنهادهایی برای بهبود یا تحقیقات آینده ارائه دهد.
-متن‌های مرتبط:
-{context}
-سوال کاربر: {question}
-تحلیل آکادمیک:
-"""
-ACADEMIC_ANALYSIS_PROMPT = PromptTemplate(template=academic_analysis_prompt_template, input_variables=[
-                                          "context", "question", "language", "detail_level"])
-general_qa_prompt_template = """شما یک دستیار هوشمند هستید. به سوالات کاربر به‌طور دقیق و به زبان {language} پاسخ دهید.
-سوال کاربر: {question}
-پاسخ:"""
-GENERAL_QA_PROMPT = PromptTemplate(
-    template=general_qa_prompt_template, input_variables=["question", "language"])
-def create_conversation_chain(vector_store, docs, answer_source, language, detail_level):
-    logger.info(f"ایجاد زنجیره - منبع: {answer_source}")
-    if answer_source == "تحلیل آکادمیک پایان‌نامه (RAG)":
-        retriever = vector_store.as_retriever(search_kwargs={"k": 3})
-        logger.info("Retriever ساخته شد.")
-        academic_chain = ConversationalRetrievalChain.from_llm(
-            llm=llm_gemini,
-            retriever=retriever,
-            return_source_documents=True,
-            combine_docs_chain_kwargs={"prompt": ACADEMIC_ANALYSIS_PROMPT.partial(
-                language=language, detail_level=detail_level)},
-            verbose=True
-        )
-        logger.info("زنجیره RAG ساخته شد.")
-        return academic_chain
-    else:
-        general_chain = LLMChain(
-            llm=llm_gemini, prompt=GENERAL_QA_PROMPT.partial(language=language))
-        logger.info("زنجیره استاندارد ساخته شد.")
-        return general_chain
-def academic_chatbot(pdf_file, answer_source, query, language, detail_level):
-    start_time = time.time()
-    logger.info(f"شروع پردازش - منبع: {answer_source}, سوال: {
-                query}, زبان: {language}, جزئیات: {detail_level}")
-    if len(query) > 500:
-        return "❌ سوال شما بیش از حد طولانی است (حداکثر 500 کاراکتر)."
-    if answer_source == "پاسخ استاندارد Gemini":
-        logger.info("شروع پردازش استاندارد...")
-        general_chain = create_conversation_chain(
-            None, None, answer_source, language, detail_level)
-        try:
-            result = general_chain.invoke({"question": query})["text"]
-            logger.info(f"پاسخ استاندارد تولید شد: {result[:50]}...")
-            return f"{result}\n\n⏱ زمان پردازش: {time.time() - start_time:.2f} ثانیه"
-        except Exception as e:
-            logger.error(f"خطا در پردازش استاندارد: {str(e)}")
-            return f"خطا در پردازش استاندارد: {str(e)}"
-    logger.info("شروع پردازش RAG...")
-    if not pdf_file:
-        logger.error("هیچ فایلی آپلود نشده است.")
-        return "لطفاً یک فایل PDF آپلود کنید."
-    pdf_files = pdf_file if isinstance(pdf_file, list) else [pdf_file]
-    logger.info(f"فایل‌های دریافت‌شده: {
-                [f.name if hasattr(f, 'name') else f for f in pdf_files]}")
-    for f in pdf_files:
-        pdf_path = f.name if hasattr(f, 'name') else f
-        if not os.path.isfile(pdf_path):
-            logger.error(f"فایل {pdf_path} پیدا نشد.")
-            return f"فایل {pdf_path} پیدا نشد. لطفاً مطمئن شوید که فایل به درستی آپلود شده است."
-    pdf_path, docs, pdf_error = upload_and_process_pdf(pdf_files)
-    if pdf_error:
-        logger.error(f"خطای پردازش PDF: {pdf_error}")
-        return pdf_error
-    logger.info("ساخت پایگاه داده وکتوری...")
-    vector_store, vectordb_error = create_vector_db(docs)
-    if vectordb_error:
-        logger.error(f"خطای Vector DB: {vectordb_error}")
-        return vectordb_error
-    logger.info("ایجاد زنجیره RAG...")
-    academic_chain = create_conversation_chain(
-        vector_store, docs, answer_source, language, detail_level)
-    logger.info("فراخوانی زنجیره RAG...")
-    try:
-        result = academic_chain({"question": query, "chat_history": []})
-        answer = result["answer"]
-        logger.info(f"تحلیل آکادمیک تولید شد: {answer[:50]}...")
-        return f"{answer}\n\n⏱ زمان پردازش: {time.time() - start_time:.2f} ثانیه"
-    except Exception as e:
-        logger.error(f"خطا در پردازش RAG: {str(e)}")
-        return f"خطا در پردازش RAG: {str(e)}"
-iface = gr.Interface(
-    fn=academic_chatbot,
-    inputs=[
-        gr.File(file_types=[
-                '.pdf'], label="فایل‌های PDF پایان‌نامه را آپلود کنید", file_count="multiple"),
-        gr.Radio(["تحلیل آکادمیک پایان‌نامه (RAG)", "پاسخ استاندارد Gemini"],
-                 label="نوع پاسخ", value="تحلیل آکادمیک پایان‌نامه (RAG)"),
-        gr.Textbox(
-            lines=3, placeholder="سوال یا درخواست تحل��ل خود را بنویسید...", label="سوال/تحلیل"),
-        gr.Dropdown(["فارسی", "English"], label="زبان پاسخ", value="فارسی"),
-        gr.Dropdown(["خلاصه", "جامع"], label="سطح جزئیات", value="جامع")
-    ],
-    outputs=[gr.Textbox(label="تحلیل یا پاسخ:")],
-    title="تحلیلگر حرفه‌ای پایان‌نامه با Gemini",
-    description="فایل‌های PDF پایان‌نامه خود را آپلود کنید و تحلیل آکادمیک یا پاسخ عمومی دریافت کنید."
-)
-if name == "main":
-    iface.launch()

+import os
+import google.generativeai as genai
+import gradio as gr
+from langchain_google_genai import ChatGoogleGenerativeAI, GoogleGenerativeAIEmbeddings
+from langchain.prompts import PromptTemplate
+from langchain.chains import ConversationalRetrievalChain, LLMChain
+from langchain_community.document_loaders import PyPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.vectorstores import FAISS
+import time
+import concurrent.futures
+import logging
+# تنظیم لاگ‌گیری
+logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
+logger = logging.getLogger(__name__)
+# تنظیم API Key از متغیر محیطی
+gemini_api_key = os.environ.get('GEMINI_API_KEY')
+if not gemini_api_key:
+    raise ValueError("GOOGLE_API_KEY پیدا نشد. لطفاً آن را در تنظیمات Space تنظیم کنید.")
+genai.configure(api_key=gemini_api_key)
+# تست اتصال به Gemini
+try:
+    test_model = genai.GenerativeModel('gemini-pro')
+    test_response = test_model.generate_content("تست ساده")
+    logger.info(f"تست API Gemini موفق: {test_response.text[:50]}...")
+except Exception as e:
+    logger.error(f"خطا در تست API Gemini: {str(e)}")
+    raise
+def process_single_pdf(pdf_file):
+    pdf_path = pdf_file.name if hasattr(pdf_file, 'name') else pdf_file
+    logger.info(f"شروع پردازش فایل: {pdf_path}")
+    if not os.path.isfile(pdf_path):
+        logger.error(f"فایل {pdf_path} وجود ندارد.")
+        return None
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=800, chunk_overlap=150)
+    loader = PyPDFLoader(pdf_path)
+    try:
+        pages = loader.load_and_split()
+        docs = text_splitter.split_documents(pages)[:50]
+        logger.info(f"پردازش فایل: {pdf_path} - تعداد تکه‌ها: {len(docs)}")
+        return docs
+    except Exception as e:
+        logger.error(f"خطا در پردازش {pdf_path}: {str(e)}")
+        return None
+def upload_and_process_pdf(pdf_files):
+    if not pdf_files:
+        return None, None, "لطفاً حداقل یک فایل PDF آپلود کنید."
+    logger.info(f"تعداد فایل‌های ورودی: {len(pdf_files)}")
+    all_docs = []
+    with concurrent.futures.ThreadPoolExecutor() as executor:
+        future_to_file = {executor.submit(process_single_pdf, pdf_file): pdf_file for pdf_file in pdf_files}
+        for future in concurrent.futures.as_completed(future_to_file):
+            docs = future.result()
+            if docs:
+                all_docs.extend(docs)
+            else:
+                pdf_file = future_to_file[future]
+                return None, None, f"خطا در پردازش فایل: {pdf_file.name if hasattr(pdf_file, 'name') else pdf_file}"
+    logger.info(f"تعداد کل اسناد پردازش‌شده: {len(all_docs)}")
+    return None, all_docs, None
+def create_vector_db(docs):
+    if not docs:
+        return None, "هیچ محتوایی پردازش نشد."
+    embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
+    try:
+        logger.info("شروع ساخت FAISS بدون کش...")
+        vector_store = FAISS.from_documents(docs, embedding=embeddings)
+        logger.info(f"پایگاه داده وکتوری با {len(docs)} سند ساخته شد.")
+    except Exception as e:
+        logger.error(f"خطا در ایجاد پایگاه داده وکتوری: {str(e)}")
+        return None, f"خطا در پردازش وکتوری: {str(e)}"
+    return vector_store, None
+llm_gemini = ChatGoogleGenerativeAI(model="gemini-pro", convert_system_message_to_human=True, temperature=0.5)
+academic_analysis_prompt_template = """شما یک تحلیلگر آکادمیک حرفه‌ای و متخصص در بررسی پایان‌نامه‌های علمی هستید. وظیفه شما ارائه تحلیلی عمیق، دقیق و ساختارمند بر اساس محتوای ارائه‌شده است. پاسخ شما باید:
+1. صرفاً بر اساس اطلاعات موجود در متن‌های مرتبط باشد.
+2. شامل مرور موضوع اصلی، روش‌شناسی، یافته‌ها و نکات قابل انتقاد (در صورت وجود) باشد.
+3. با زبانی رسمی و آکادمیک به {language} نوشته شود.
+4. سطح جزئیات پاسخ {detail_level} باشد.
+5. در صورت امکان، پیشنهادهایی برای بهبود یا تحقیقات آینده ارائه دهد.
+**متن‌های مرتبط:**
+{context}
+**سوال کاربر:** {question}
+**تحلیل آکادمیک:**
+"""
+ACADEMIC_ANALYSIS_PROMPT = PromptTemplate(template=academic_analysis_prompt_template, input_variables=["context", "question", "language", "detail_level"])
+general_qa_prompt_template = """شما یک دستیار هوشمند هستید. به سوالات کاربر به‌طور دقیق و به زبان {language} پاسخ دهید.
+**سوال کاربر:** {question}
+پاسخ:"""
+GENERAL_QA_PROMPT = PromptTemplate(template=general_qa_prompt_template, input_variables=["question", "language"])
+def create_conversation_chain(vector_store, docs, answer_source, language, detail_level):
+    logger.info(f"ایجاد زنجیره - منبع: {answer_source}")
+    if answer_source == "تحلیل آکادمیک پایان‌نامه (RAG)":
+        retriever = vector_store.as_retriever(search_kwargs={"k": 3})
+        logger.info("Retriever ساخته شد.")
+        academic_chain = ConversationalRetrievalChain.from_llm(
+            llm=llm_gemini,
+            retriever=retriever,
+            return_source_documents=True,
+            combine_docs_chain_kwargs={"prompt": ACADEMIC_ANALYSIS_PROMPT.partial(language=language, detail_level=detail_level)},
+            verbose=True
+        )
+        logger.info("زنجیره RAG ساخته شد.")
+        return academic_chain
+    else:
+        general_chain = LLMChain(llm=llm_gemini, prompt=GENERAL_QA_PROMPT.partial(language=language))
+        logger.info("زنجیره استاندارد ساخته شد.")
+        return general_chain
+def academic_chatbot(pdf_file, answer_source, query, language, detail_level):
+    start_time = time.time()
+    # خط اصلاح‌شده
+    logger.info(f"شروع پردازش - منبع: {answer_source}, سوال: {query}, زبان: {language}, جزئیات: {detail_level}")
+    if len(query) > 500:
+        return "❌ سوال شما بیش از حد طولانی است (حداکثر 500 کاراکتر)."
+    if answer_source == "پاسخ استاندارد Gemini":
+        logger.info("شروع پردازش استاندارد...")
+        general_chain = create_conversation_chain(None, None, answer_source, language, detail_level)
+        try:
+            result = general_chain.invoke({"question": query})["text"]
+            logger.info(f"پاسخ استاندارد تولید شد: {result[:50]}...")
+            return f"{result}\n\n⏱ زمان پردازش: {time.time() - start_time:.2f} ثانیه"
+        except Exception as e:
+            logger.error(f"خطا در پردازش استاندارد: {str(e)}")
+            return f"خطا در پردازش استاندارد: {str(e)}"
+    logger.info("شروع پردازش RAG...")
+    if not pdf_file:
+        logger.error("هیچ فایلی آپلود نشده است.")
+        return "لطفاً یک فایل PDF آپلود کنید."
+    pdf_files = pdf_file if isinstance(pdf_file, list) else [pdf_file]
+    logger.info(f"فایل‌های دریافت‌شده: {[f.name if hasattr(f, 'name') else f for f in pdf_files]}")
+    for f in pdf_files:
+        pdf_path = f.name if hasattr(f, 'name') else f
+        if not os.path.isfile(pdf_path):
+            logger.error(f"فایل {pdf_path} پیدا نشد.")
+            return f"فایل {pdf_path} پیدا نشد. لطفاً مطمئن شوید که فایل به درستی آپلود شده است."
+    pdf_path, docs, pdf_error = upload_and_process_pdf(pdf_files)
+    if pdf_error:
+        logger.error(f"خطای پردازش PDF: {pdf_error}")
+        return pdf_error
+    logger.info("ساخت پایگاه داده وکتوری...")
+    vector_store, vectordb_error = create_vector_db(docs)
+    if vectordb_error:
+        logger.error(f"خطای Vector DB: {vectordb_error}")
+        return vectordb_error
+    logger.info("ایجاد زنجیره RAG...")
+    academic_chain = create_conversation_chain(vector_store, docs, answer_source, language, detail_level)
+    logger.info("فراخوانی زنجیره RAG...")
+    try:
+        result = academic_chain({"question": query, "chat_history": []})
+        answer = result["answer"]
+        logger.info(f"تحلیل آکادمیک تولید شد: {answer[:50]}...")
+        return f"{answer}\n\n⏱ زمان پردازش: {time.time() - start_time:.2f} ثانیه"
+    except Exception as e:
+        logger.error(f"خطا در پردازش RAG: {str(e)}")
+        return f"خطا در پردازش RAG: {str(e)}"
+iface = gr.Interface(
+    fn=academic_chatbot,
+    inputs=[
+        gr.File(file_types=['.pdf'], label="فایل‌های PDF پایان‌نامه را آپلود کنید", file_count="multiple"),
+        gr.Radio(["تحلیل آکادمیک پایان‌نامه (RAG)", "پاسخ استاندار�� Gemini"], label="نوع پاسخ", value="تحلیل آکادمیک پایان‌نامه (RAG)"),
+        gr.Textbox(lines=3, placeholder="سوال یا درخواست تحلیل خود را بنویسید...", label="سوال/تحلیل"),
+        gr.Dropdown(["فارسی", "English"], label="زبان پاسخ", value="فارسی"),
+        gr.Dropdown(["خلاصه", "جامع"], label="سطح جزئیات", value="جامع")
+    ],
+    outputs=[gr.Textbox(label="تحلیل یا پاسخ:")],
+    title="تحلیلگر حرفه‌ای پایان‌نامه با Gemini",
+    description="فایل‌های PDF پایان‌نامه خود را آپلود کنید و تحلیل آکادمیک یا پاسخ عمومی دریافت کنید."
+)
+if __name__ == "__main__":
+    iface.launch()