Spaces:

teoo33
/

ThesisAnalyzer

Sleeping

App Files Files Community

teoo33 commited on Feb 20, 2025

Commit

141644a

verified ·

1 Parent(s): b5bde1d

Update app.py

Browse files

Files changed (1) hide show

app.py +52 -24

app.py CHANGED Viewed

@@ -87,48 +87,72 @@ def create_vector_db(docs):
         return None, f"خطا در پردازش وکتوری: {str(e)}"
 def check_plagiarism(text):
-    # یه چک ساده با مقایسه متن با نتایج گوگل
     try:
-        query = text[:100]  # 100 کاراکتر اول برای جستجو
-        url = f"https://www.google.com/search?q={query}"
-        response = requests.get(url, headers={"User-Agent": "Mozilla/5.0"})
-        soup = BeautifulSoup(response.text, 'html.parser')
-        results = [h.get_text() for h in soup.find_all('h3')[:3]]  # سه نتیجه اول
         max_similarity = 0
-        for result in results:
             similarity = SequenceMatcher(None, text[:500], result).ratio()
             max_similarity = max(max_similarity, similarity)
-        return max_similarity * 100  # درصد تشابه
     except Exception as e:
         logger.error(f"خطا در چک سرقت ادبی: {str(e)}")
         return None
 def suggest_resources(text):
-    # پیشنهاد منابع با جستجوی ساده در arXiv
     try:
-        query = " ".join(text.split()[:5])  # 5 کلمه اول برای جستجو
-        url = f"https://arxiv.org/search/?query={query}&searchtype=all&source=header"
-        response = requests.get(url, headers={"User-Agent": "Mozilla/5.0"})
-        soup = BeautifulSoup(response.text, 'html.parser')
-        papers = soup.find_all('p', class_='title')[:3]  # سه عنوان اول
-        return [paper.get_text().strip() for paper in papers] if papers else ["منبعی یافت نشد."]
     except Exception as e:
         logger.error(f"خطا در پیشنهاد منابع: {str(e)}")
         return ["خطا در جستجوی منابع"]
 def evaluate_quality(docs):
-    # ارزیابی ساده کیفیت
     text = " ".join([doc.page_content for doc in docs])
     score = 0
     if re.search(r"منابع|References|Bibliography", text, re.I):
-        score += 30  # وجود منابع
     if len(text.split()) > 5000:
-        score += 30  # طول مناسب
     if re.search(r"جدول|شکل|Table|Figure", text, re.I):
-        score += 20  # استفاده از جداول/شکل‌ها
     if re.search(r"نتیجه‌گیری|Conclusion", text, re.I):
-        score += 20  # وجود نتیجه‌گیری
-    return max(min(score, 100), 10)  # حداقل 10، حداکثر 100
 llm_gemini = ChatGoogleGenerativeAI(model="gemini-pro", google_api_key=gemini_api_key, convert_system_message_to_human=True, temperature=0.5)
@@ -160,7 +184,7 @@ general_qa_prompt = PromptTemplate(
 )
 plagiarism_prompt = PromptTemplate(
-    template="""درصد تشابه متن زیر با منابع عمومی را گزارش دهید:
 **متن:**
 {context}
 **نتیجه:** {similarity}%""",
@@ -228,7 +252,8 @@ def academic_chatbot(pdf_file, mode, query, language, detail_level, section_drop
     try:
         if mode == "خلاصه خودکار":
             context = " ".join([doc.page_content for doc in docs])
-            result = chain.invoke({"context": context})["text"]
         elif mode == "چک سرقت ادبی":
             context = " ".join([doc.page_content for doc in docs if section_dropdown == "کل سند" or doc in sections.get(section_dropdown, [])])
             similarity = check_plagiarism(context)
@@ -237,7 +262,8 @@ def academic_chatbot(pdf_file, mode, query, language, detail_level, section_drop
             context = " ".join([doc.page_content for doc in docs if section_dropdown == "کل سند" or doc in sections.get(section_dropdown, [])])
             score = evaluate_quality(docs if section_dropdown == "کل سند" else sections.get(section_dropdown, []))
             explanation = "امتیاز بر اساس وجود منابع، طول متن، جداول/شکل‌ها و نتیجه‌گیری محاسبه شده است."
-            result = chain.invoke({"context": context, "score": score, "explanation": explanation})["text"]
         else:
             result = chain.invoke({"question": query, "chat_history": []})["answer"]
@@ -248,6 +274,8 @@ def academic_chatbot(pdf_file, mode, query, language, detail_level, section_drop
         return f"{result}\n\n⏱ زمان پردازش: {time.time() - start_time:.2f} ثانیه"
     except Exception as e:
         logger.error(f"خطا در پردازش: {str(e)}")
         return f"خطا: {str(e)}"
 with gr.Blocks(title="تحلیلگر حرفه‌ای پایان‌نامه") as iface:

         return None, f"خطا در پردازش وکتوری: {str(e)}"
 def check_plagiarism(text):
     try:
+        query = text[:100]
+        # جستجوی گوگل (جهانی)
+        url_global = f"https://www.google.com/search?q={query}"
+        response_global = requests.get(url_global, headers={"User-Agent": "Mozilla/5.0"})
+        soup_global = BeautifulSoup(response_global.text, 'html.parser')
+        results_global = [h.get_text() for h in soup_global.find_all('h3')[:3]]
+        # جستجوی گوگل با تنظیم فارسی
+        url_fa = f"https://www.google.com/search?q={query}&hl=fa"
+        response_fa = requests.get(url_fa, headers={"User-Agent": "Mozilla/5.0"})
+        soup_fa = BeautifulSoup(response_fa.text, 'html.parser')
+        results_fa = [h.get_text() for h in soup_fa.find_all('h3')[:3]]
+        # جستجو در SID.ir
+        url_sid = f"https://www.sid.ir/Fa/Journal/SearchPaper.aspx?str={query}"
+        response_sid = requests.get(url_sid, headers={"User-Agent": "Mozilla/5.0"})
+        soup_sid = BeautifulSoup(response_sid.text, 'html.parser')
+        results_sid = [item.get_text() for item in soup_sid.select('.title')[:3]]  # عناوین مقالات
+        all_results = results_global + results_fa + results_sid
         max_similarity = 0
+        for result in all_results:
             similarity = SequenceMatcher(None, text[:500], result).ratio()
             max_similarity = max(max_similarity, similarity)
+        time.sleep(1)  # فاصله بین درخواست‌ها برای جلوگیری از 429
+        return max_similarity * 100
     except Exception as e:
         logger.error(f"خطا در چک سرقت ادبی: {str(e)}")
         return None
 def suggest_resources(text):
     try:
+        query = " ".join(text.split()[:5])
+        # arXiv
+        url_arxiv = f"https://arxiv.org/search/?query={query}&searchtype=all&source=header"
+        response_arxiv = requests.get(url_arxiv, headers={"User-Agent": "Mozilla/5.0"})
+        soup_arxiv = BeautifulSoup(response_arxiv.text, 'html.parser')
+        papers_arxiv = [paper.get_text().strip() for paper in soup_arxiv.find_all('p', class_='title')[:2]]
+        # SID.ir
+        url_sid = f"https://www.sid.ir/Fa/Journal/SearchPaper.aspx?str={query}"
+        response_sid = requests.get(url_sid, headers={"User-Agent": "Mozilla/5.0"})
+        soup_sid = BeautifulSoup(response_sid.text, 'html.parser')
+        papers_sid = [item.get_text().strip() for item in soup_sid.select('.title')[:2]]
+        resources = papers_arxiv + papers_sid if papers_sid else papers_arxiv
+        time.sleep(1)  # فاصله برای جلوگیری از 429
+        return resources if resources else ["منبعی یافت نشد."]
     except Exception as e:
         logger.error(f"خطا در پیشنهاد منابع: {str(e)}")
         return ["خطا در جستجوی منابع"]
 def evaluate_quality(docs):
     text = " ".join([doc.page_content for doc in docs])
     score = 0
     if re.search(r"منابع|References|Bibliography", text, re.I):
+        score += 30
     if len(text.split()) > 5000:
+        score += 30
     if re.search(r"جدول|شکل|Table|Figure", text, re.I):
+        score += 20
     if re.search(r"نتیجه‌گیری|Conclusion", text, re.I):
+        score += 20
+    return max(min(score, 100), 10)
 llm_gemini = ChatGoogleGenerativeAI(model="gemini-pro", google_api_key=gemini_api_key, convert_system_message_to_human=True, temperature=0.5)
 )
 plagiarism_prompt = PromptTemplate(
+    template="""درصد تشابه متن زیر با منابع عمومی و فارسی را گزارش دهید:
 **متن:**
 {context}
 **نتیجه:** {similarity}%""",
     try:
         if mode == "خلاصه خودکار":
             context = " ".join([doc.page_content for doc in docs])
+            time.sleep(2)  # فاصله برای کاهش درخواست‌ها
+            result = chain.invoke({"context": context[:5000]})["text"]  # محدود کردن ورودی
         elif mode == "چک سرقت ادبی":
             context = " ".join([doc.page_content for doc in docs if section_dropdown == "کل سند" or doc in sections.get(section_dropdown, [])])
             similarity = check_plagiarism(context)
             context = " ".join([doc.page_content for doc in docs if section_dropdown == "کل سند" or doc in sections.get(section_dropdown, [])])
             score = evaluate_quality(docs if section_dropdown == "کل سند" else sections.get(section_dropdown, []))
             explanation = "امتیاز بر اساس وجود منابع، طول متن، جداول/شکل‌ها و نتیجه‌گیری محاسبه شده است."
+            time.sleep(2)  # فاصله برای کاهش درخواست‌ها
+            result = chain.invoke({"context": context[:5000], "score": score, "explanation": explanation})["text"]
         else:
             result = chain.invoke({"question": query, "chat_history": []})["answer"]
         return f"{result}\n\n⏱ زمان پردازش: {time.time() - start_time:.2f} ثانیه"
     except Exception as e:
         logger.error(f"خطا در پردازش: {str(e)}")
+        if "429" in str(e):
+            return "خطا: محدودیت درخواست به API Gemini. لطفاً چند دقیقه صبر کنید و دوباره امتحان کنید."
         return f"خطا: {str(e)}"
 with gr.Blocks(title="تحلیلگر حرفه‌ای پایان‌نامه") as iface: