Spaces:

teoo33
/

ThesisAnalyzer

Sleeping

App Files Files Community

teoo33 commited on Feb 20, 2025

Commit

d9dbd06

verified ·

1 Parent(s): 5c27d0d

Upload 2 files

Browse files

Files changed (2) hide show

app.py +219 -0
requirements.txt +10 -0

app.py ADDED Viewed

	@@ -0,0 +1,219 @@

+import os
+import google.generativeai as genai
+import gradio as gr
+from langchain_google_genai import ChatGoogleGenerativeAI, GoogleGenerativeAIEmbeddings
+from langchain.prompts import PromptTemplate
+from langchain.chains import ConversationalRetrievalChain, LLMChain
+from langchain_community.document_loaders import PyPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.vectorstores import FAISS
+import time
+import concurrent.futures
+import logging
+# تنظیم لاگ‌گیری
+logging.basicConfig(level=logging.INFO,
+                    format="%(asctime)s - %(levelname)s - %(message)s")
+logger = logging.getLogger(name)
+# تنظیم API Key از متغیر محیطی
+gemini_api_key = os.environ.get('GEMINI_API_KEY')
+if not gemini_api_key:
+    raise ValueError(
+        "GOOGLE_API_KEY پیدا نشد. لطفاً آن را در تنظیمات Space تنظیم کنید.")
+genai.configure(api_key=gemini_api_key)
+# تست اتصال به Gemini
+try:
+    test_model = genai.GenerativeModel('gemini-pro')
+    test_response = test_model.generate_content("تست ساده")
+    logger.info(f"تست API Gemini موفق: {test_response.text[:50]}...")
+except Exception as e:
+    logger.error(f"خطا در تست API Gemini: {str(e)}")
+    raise
+# بقیه توابع بدون تغییر
+def process_single_pdf(pdf_file):
+    pdf_path = pdf_file.name if hasattr(pdf_file, 'name') else pdf_file
+    logger.info(f"شروع پردازش فایل: {pdf_path}")
+    if not os.path.isfile(pdf_path):
+        logger.error(f"فایل {pdf_path} وجود ندارد.")
+        return None
+    text_splitter = RecursiveCharacterTextSplitter(
+        chunk_size=800, chunk_overlap=150)
+    loader = PyPDFLoader(pdf_path)
+    try:
+        pages = loader.load_and_split()
+        docs = text_splitter.split_documents(pages)[:50]
+        logger.info(f"پردازش فایل: {pdf_path} - تعداد تکه‌ها: {len(docs)}")
+        return docs
+    except Exception as e:
+        logger.error(f"خطا در پردازش {pdf_path}: {str(e)}")
+        return None
+def upload_and_process_pdf(pdf_files):
+    if not pdf_files:
+        return None, None, "لطفاً حداقل یک فایل PDF آپلود کنید."
+    logger.info(f"تعداد فایل‌های ورودی: {len(pdf_files)}")
+    all_docs = []
+    with concurrent.futures.ThreadPoolExecutor() as executor:
+        future_to_file = {executor.submit(
+            process_single_pdf, pdf_file): pdf_file for pdf_file in pdf_files}
+        for future in concurrent.futures.as_completed(future_to_file):
+            docs = future.result()
+            if docs:
+                all_docs.extend(docs)
+            else:
+                pdf_file = future_to_file[future]
+                return None, None, f"خطا در پردازش فایل: {pdf_file.name if hasattr(pdf_file, 'name') else pdf_file}"
+    logger.info(f"تعداد کل اسناد پردازش‌شده: {len(all_docs)}")
+    return None, all_docs, None
+def create_vector_db(docs):
+    if not docs:
+        return None, "هیچ محتوایی پردازش نشد."
+    embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
+    try:
+        logger.info("شروع ساخت FAISS بدون کش...")
+        vector_store = FAISS.from_documents(docs, embedding=embeddings)
+        logger.info(f"پایگاه داده وکتوری با {len(docs)} سند ساخته شد.")
+    except Exception as e:
+        logger.error(f"خطا در ایجاد پایگاه داده وکتوری: {str(e)}")
+        return None, f"خطا در پردازش وکتوری: {str(e)}"
+    return vector_store, None
+llm_gemini = ChatGoogleGenerativeAI(
+    model="gemini-pro", convert_system_message_to_human=True, temperature=0.5)
+academic_analysis_prompt_template = """شما یک تحلیلگر آکادمیک حرفه‌ای و متخصص در بررسی پایان‌نامه‌های علمی هستید. وظیفه شما ارائه تحلیلی عمیق، دقیق و ساختارمند بر اساس محتوای ارائه‌شده است. پاسخ شما باید:
+1. صرفاً بر اساس اطلاعات موجود در متن‌های مرتبط باشد.
+2. شامل مرور موضوع اصلی، روش‌شناسی، یافته‌ها و نکات قابل انتقاد (در صورت وجود) باشد.
+3. با زبانی رسمی و آکادمیک به {language} نوشته شود.
+4. سطح جزئیات پاسخ {detail_level} باشد.
+5. در صورت امکان، پیشنهادهایی برای بهبود یا تحقیقات آینده ارائه دهد.
+متن‌های مرتبط:
+{context}
+سوال کاربر: {question}
+تحلیل آکادمیک:
+"""
+ACADEMIC_ANALYSIS_PROMPT = PromptTemplate(template=academic_analysis_prompt_template, input_variables=[
+                                          "context", "question", "language", "detail_level"])
+general_qa_prompt_template = """شما یک دستیار هوشمند هستید. به سوالات کاربر به‌طور دقیق و به زبان {language} پاسخ دهید.
+سوال کاربر: {question}
+پاسخ:"""
+GENERAL_QA_PROMPT = PromptTemplate(
+    template=general_qa_prompt_template, input_variables=["question", "language"])
+def create_conversation_chain(vector_store, docs, answer_source, language, detail_level):
+    logger.info(f"ایجاد زنجیره - منبع: {answer_source}")
+    if answer_source == "تحلیل آکادمیک پایان‌نامه (RAG)":
+        retriever = vector_store.as_retriever(search_kwargs={"k": 3})
+        logger.info("Retriever ساخته شد.")
+        academic_chain = ConversationalRetrievalChain.from_llm(
+            llm=llm_gemini,
+            retriever=retriever,
+            return_source_documents=True,
+            combine_docs_chain_kwargs={"prompt": ACADEMIC_ANALYSIS_PROMPT.partial(
+                language=language, detail_level=detail_level)},
+            verbose=True
+        )
+        logger.info("زنجیره RAG ساخته شد.")
+        return academic_chain
+    else:
+        general_chain = LLMChain(
+            llm=llm_gemini, prompt=GENERAL_QA_PROMPT.partial(language=language))
+        logger.info("زنجیره استاندارد ساخته شد.")
+        return general_chain
+def academic_chatbot(pdf_file, answer_source, query, language, detail_level):
+    start_time = time.time()
+    logger.info(f"شروع پردازش - منبع: {answer_source}, سوال: {
+                query}, زبان: {language}, جزئیات: {detail_level}")
+    if len(query) > 500:
+        return "❌ سوال شما بیش از حد طولانی است (حداکثر 500 کاراکتر)."
+    if answer_source == "پاسخ استاندارد Gemini":
+        logger.info("شروع پردازش استاندارد...")
+        general_chain = create_conversation_chain(
+            None, None, answer_source, language, detail_level)
+        try:
+            result = general_chain.invoke({"question": query})["text"]
+            logger.info(f"پاسخ استاندارد تولید شد: {result[:50]}...")
+            return f"{result}\n\n⏱ زمان پردازش: {time.time() - start_time:.2f} ثانیه"
+        except Exception as e:
+            logger.error(f"خطا در پردازش استاندارد: {str(e)}")
+            return f"خطا در پردازش استاندارد: {str(e)}"
+    logger.info("شروع پردازش RAG...")
+    if not pdf_file:
+        logger.error("هیچ فایلی آپلود نشده است.")
+        return "لطفاً یک فایل PDF آپلود کنید."
+    pdf_files = pdf_file if isinstance(pdf_file, list) else [pdf_file]
+    logger.info(f"فایل‌های دریافت‌شده: {
+                [f.name if hasattr(f, 'name') else f for f in pdf_files]}")
+    for f in pdf_files:
+        pdf_path = f.name if hasattr(f, 'name') else f
+        if not os.path.isfile(pdf_path):
+            logger.error(f"فایل {pdf_path} پیدا نشد.")
+            return f"فایل {pdf_path} پیدا نشد. لطفاً مطمئن شوید که فایل به درستی آپلود شده است."
+    pdf_path, docs, pdf_error = upload_and_process_pdf(pdf_files)
+    if pdf_error:
+        logger.error(f"خطای پردازش PDF: {pdf_error}")
+        return pdf_error
+    logger.info("ساخت پایگاه داده وکتوری...")
+    vector_store, vectordb_error = create_vector_db(docs)
+    if vectordb_error:
+        logger.error(f"خطای Vector DB: {vectordb_error}")
+        return vectordb_error
+    logger.info("ایجاد زنجیره RAG...")
+    academic_chain = create_conversation_chain(
+        vector_store, docs, answer_source, language, detail_level)
+    logger.info("فراخوانی زنجیره RAG...")
+    try:
+        result = academic_chain({"question": query, "chat_history": []})
+        answer = result["answer"]
+        logger.info(f"تحلیل آکادمیک تولید شد: {answer[:50]}...")
+        return f"{answer}\n\n⏱ زمان پردازش: {time.time() - start_time:.2f} ثانیه"
+    except Exception as e:
+        logger.error(f"خطا در پردازش RAG: {str(e)}")
+        return f"خطا در پردازش RAG: {str(e)}"
+iface = gr.Interface(
+    fn=academic_chatbot,
+    inputs=[
+        gr.File(file_types=[
+                '.pdf'], label="فایل‌های PDF پایان‌نامه را آپلود کنید", file_count="multiple"),
+        gr.Radio(["تحلیل آکادمیک پایان‌نامه (RAG)", "پاسخ استاندارد Gemini"],
+                 label="نوع پاسخ", value="تحلیل آکادمیک پایان‌نامه (RAG)"),
+        gr.Textbox(
+            lines=3, placeholder="سوال یا درخواست تحلی�� خود را بنویسید...", label="سوال/تحلیل"),
+        gr.Dropdown(["فارسی", "English"], label="زبان پاسخ", value="فارسی"),
+        gr.Dropdown(["خلاصه", "جامع"], label="سطح جزئیات", value="جامع")
+    ],
+    outputs=[gr.Textbox(label="تحلیل یا پاسخ:")],
+    title="تحلیلگر حرفه‌ای پایان‌نامه با Gemini",
+    description="فایل‌های PDF پایان‌نامه خود را آپلود کنید و تحلیل آکادمیک یا پاسخ عمومی دریافت کنید."
+)
+if name == "main":
+    iface.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,10 @@

+gradio
+langchain
+langchain-community
+pypdf
+pypdf2
+sentence-transformers
+faiss-cpu
+google-generativeai
+langchain-google-genai
+rank_bm25