Spaces:

teoo33
/

ThesisAnalyzer

Sleeping

App Files Files Community

teoo33 commited on Feb 21, 2025

Commit

2ff6e30

verified ·

1 Parent(s): 39c829b

Update app.py

Browse files

Files changed (1) hide show

app.py +54 -33

app.py CHANGED Viewed

@@ -100,11 +100,10 @@ def translate_to_english(text):
         return translated_text
     except Exception as e:
         logger.error(f"خطا در ترجمه: {str(e)}")
-        return text  # در صورت خطا، متن اصلی رو برگردون
 def check_plagiarism(text):
     try:
-        # ترجمه به انگلیسی
         translated_text = translate_to_english(text)
         query = translated_text[:100]
@@ -112,14 +111,22 @@ def check_plagiarism(text):
         url_scholar = f"https://scholar.google.com/scholar?q={query}"
         response_scholar = requests.get(url_scholar, headers={"User-Agent": "Mozilla/5.0"})
         soup_scholar = BeautifulSoup(response_scholar.text, 'html.parser')
-        results_scholar = [h.get_text() for h in soup_scholar.find_all('h3')[:5]]
         logger.info(f"نتایج Google Scholar: {results_scholar}")
         # جستجو در arXiv
         url_arxiv = f"https://arxiv.org/search/?query={query}&searchtype=all&source=header"
         response_arxiv = requests.get(url_arxiv, headers={"User-Agent": "Mozilla/5.0"})
         soup_arxiv = BeautifulSoup(response_arxiv.text, 'html.parser')
-        results_arxiv = [paper.get_text() for paper in soup_arxiv.find_all('p', class_='title')[:5]]
         logger.info(f"نتایج arXiv: {results_arxiv}")
         all_results = results_scholar + results_arxiv
@@ -128,13 +135,13 @@ def check_plagiarism(text):
         max_similarity = 0
         matched_texts = []
-        for result in all_results:
-            similarity = SequenceMatcher(None, translated_text[:500], result).ratio()
             if similarity > max_similarity:
                 max_similarity = similarity
-                matched_texts = [result]
             elif similarity == max_similarity:
-                matched_texts.append(result)
         time.sleep(1)
         similarity_percent = max_similarity * 100
@@ -151,12 +158,13 @@ def suggest_resources(text):
         url_scholar = f"https://scholar.google.com/scholar?q={query}"
         response_scholar = requests.get(url_scholar, headers={"User-Agent": "Mozilla/5.0"})
         soup_scholar = BeautifulSoup(response_scholar.text, 'html.parser')
-        papers_scholar = [h.get_text().strip() for h in soup_scholar.find_all('h3')[:3]]
         url_arxiv = f"https://arxiv.org/search/?query={query}&searchtype=all&source=header"
         response_arxiv = requests.get(url_arxiv, headers={"User-Agent": "Mozilla/5.0"})
         soup_arxiv = BeautifulSoup(response_arxiv.text, 'html.parser')
-        papers_arxiv = [paper.get_text().strip() for paper in soup_arxiv.find_all('p', class_='title')[:2]]
         resources = papers_scholar + papers_arxiv if papers_scholar else papers_arxiv
         time.sleep(1)
@@ -170,52 +178,65 @@ def evaluate_quality(docs, sections):
     score = 0
     explanation = []
     suggestions = []
     # معیار 1: منابع
     ref_count = len(re.findall(r"\[\d+\]|[A-Za-z]+\s+\d{4}", text))
     if ref_count > 10:
-        score += 35
         explanation.append("منابع کافی و قابل استناد (بیش از 10 ارجاع).")
     elif ref_count > 0:
-        score += 20
         explanation.append("منابع موجود اما محدود (کمتر از 10 ارجاع).")
-        suggestions.append("حداقل 5 منبع معتبر و مرتبط با موضوع اضافه کنید.")
     else:
         explanation.append("منابع کافی یافت نشد.")
-        suggestions.append("بخش منابع را با حداقل 10 ارجاع معتبر تکمیل کنید.")
-    # معیار 2: انسجام متن
     words = text.split()
     word_freq = Counter(words).most_common(10)
     if word_freq and word_freq[0][1] > len(words) * 0.02:
         score += 25
         explanation.append("انسجام متنی خوب (تمرکز بر موضوع اصلی).")
     else:
         explanation.append("انسجام متنی ضعیف (پراکندگی موضوعی).")
-        suggestions.append(f"کلمات کلیدی مرتبط با موضوع (مثل {word_freq[0][0] if word_freq else 'موضوع'}) را بیشتر به کار ببرید.")
-    # معیار 3: جداول/شکل‌ها
     if re.search(r"جدول|شکل|Table|Figure", text, re.I):
         score += 20
         explanation.append("استفاده از جداول یا شکل‌ها برای پشتیبانی یافته‌ها.")
     else:
         explanation.append("عدم استفاده از جداول یا شکل‌ها.")
-        suggestions.append("حداقل یک جدول یا شکل برای نمایش داده‌ها اضافه کنید.")
-    # معیار 4: عمق تحلیل
     analysis_text = " ".join([doc.page_content for doc in sections.get("نتایج", []) + sections.get("بحث", [])])
     if len(analysis_text.split()) > 1000:
-        score += 20
         explanation.append("عمق تحلیل قابل قبول (بخش نتایج/بحث طولانی).")
     else:
         explanation.append("عمق تحلیل محدود (بخش نتایج/بحث کوتاه).")
-        suggestions.append("بخش نتایج و بحث را با جزئیات بیشتر (حداقل 1000 کلمه) گسترش دهید.")
-    # اصلاح خودکار ساده: اضافه کردن کلمات کلیدی به متن
-    auto_fix = ""
-    if "انسجام متنی ضعیف" in "; ".join(explanation):
-        keywords = [word[0] for word in word_freq[:3]] if word_freq else ["تحقیق", "نتایج", "روش"]
-        auto_fix = f"\n\n**اصلاح خودکار - کلمات کلیدی پیشنهادی:**\nدر متن از کلمات کلیدی زیر بیشتر استفاده شده است: {', '.join(keywords)}."
     score = max(min(score, 100), 10)
     return score, "; ".join(explanation), "; ".join(suggestions), auto_fix
@@ -312,33 +333,33 @@ def academic_chatbot(pdf_file, mode, query, language, detail_level, section_drop
     if error:
         return error
     vector_store = None
     if mode in ["تحلیل آکادمیک (RAG)", "چک سرقت ادبی", "ارزیابی کیفیت"]:
-        target_docs = docs if section_dropdown == "کل سند" else sections.get(section_dropdown, docs)
         vector_store, vectordb_error = create_vector_db(target_docs)
         if vectordb_error:
             return vectordb_error
-    chain = create_conversation_chain(vector_store, docs, mode, language, detail_level, section_dropdown)
     try:
         if mode == "خلاصه خودکار":
-            context = " ".join([doc.page_content for doc in docs])
             time.sleep(2)
             result = chain.invoke({"context": context[:5000]})["text"]
         elif mode == "چک سرقت ادبی":
-            context = " ".join([doc.page_content for doc in docs if section_dropdown == "کل سند" or doc in sections.get(section_dropdown, [])])
             plagiarism_result = check_plagiarism(context)
             result = plagiarism_result
         elif mode == "ارزیابی کیفیت":
-            context = " ".join([doc.page_content for doc in docs if section_dropdown == "کل سند" or doc in sections.get(section_dropdown, [])])
-            score, explanation, suggestions, auto_fix = evaluate_quality(docs, sections)
             time.sleep(2)
             result = chain.invoke({"context": context[:5000], "score": score, "explanation": explanation, "suggestions": suggestions})["text"] + auto_fix
         else:
             result = chain.invoke({"question": query, "chat_history": []})["answer"]
         if mode not in ["چک سرقت ادبی", "ارزیابی کیفیت"]:
-            resources = suggest_resources(" ".join([doc.page_content for doc in docs[:5]]))
             result += "\n\n**منابع پیشنهادی:**\n" + "\n".join(resources)
         return f"{result}\n\n⏱ زمان پردازش: {time.time() - start_time:.2f} ثانیه"

         return translated_text
     except Exception as e:
         logger.error(f"خطا در ترجمه: {str(e)}")
+        return text
 def check_plagiarism(text):
     try:
         translated_text = translate_to_english(text)
         query = translated_text[:100]
         url_scholar = f"https://scholar.google.com/scholar?q={query}"
         response_scholar = requests.get(url_scholar, headers={"User-Agent": "Mozilla/5.0"})
         soup_scholar = BeautifulSoup(response_scholar.text, 'html.parser')
+        results_scholar = []
+        for item in soup_scholar.find_all('h3', class_='gs_rt')[:5]:
+            title = item.get_text()
+            link = item.find('a')['href'] if item.find('a') else "لینک موجود نیست"
+            results_scholar.append((title, link))
         logger.info(f"نتایج Google Scholar: {results_scholar}")
         # جستجو در arXiv
         url_arxiv = f"https://arxiv.org/search/?query={query}&searchtype=all&source=header"
         response_arxiv = requests.get(url_arxiv, headers={"User-Agent": "Mozilla/5.0"})
         soup_arxiv = BeautifulSoup(response_arxiv.text, 'html.parser')
+        results_arxiv = []
+        for item in soup_arxiv.find_all('p', class_='title')[:5]:
+            title = item.get_text().strip()
+            link = item.find_previous('a', class_='arxiv-url')['href'] if item.find_previous('a', class_='arxiv-url') else "لینک موجود نیست"
+            results_arxiv.append((title, link))
         logger.info(f"نتایج arXiv: {results_arxiv}")
         all_results = results_scholar + results_arxiv
         max_similarity = 0
         matched_texts = []
+        for title, link in all_results:
+            similarity = SequenceMatcher(None, translated_text[:500], title).ratio()
             if similarity > max_similarity:
                 max_similarity = similarity
+                matched_texts = [f"{title} (لینک: {link})"]
             elif similarity == max_similarity:
+                matched_texts.append(f"{title} (لینک: {link})")
         time.sleep(1)
         similarity_percent = max_similarity * 100
         url_scholar = f"https://scholar.google.com/scholar?q={query}"
         response_scholar = requests.get(url_scholar, headers={"User-Agent": "Mozilla/5.0"})
         soup_scholar = BeautifulSoup(response_scholar.text, 'html.parser')
+        papers_scholar = [f"{h.get_text().strip()} (لینک: {h.find('a')['href']})" for h in soup_scholar.find_all('h3')[:3] if h.find('a')]
         url_arxiv = f"https://arxiv.org/search/?query={query}&searchtype=all&source=header"
         response_arxiv = requests.get(url_arxiv, headers={"User-Agent": "Mozilla/5.0"})
         soup_arxiv = BeautifulSoup(response_arxiv.text, 'html.parser')
+        papers_arxiv = [f"{paper.get_text().strip()} (لینک: {paper.find_previous('a', class_='arxiv-url')['href']})"
+                        for paper in soup_arxiv.find_all('p', class_='title')[:2] if paper.find_previous('a', class_='arxiv-url')]
         resources = papers_scholar + papers_arxiv if papers_scholar else papers_arxiv
         time.sleep(1)
     score = 0
     explanation = []
     suggestions = []
+    auto_fix = ""
     # معیار 1: منابع
     ref_count = len(re.findall(r"\[\d+\]|[A-Za-z]+\s+\d{4}", text))
     if ref_count > 10:
+        score += 30
         explanation.append("منابع کافی و قابل استناد (بیش از 10 ارجاع).")
     elif ref_count > 0:
+        score += 15
         explanation.append("منابع موجود اما محدود (کمتر از 10 ارجاع).")
+        suggestions.append("حداقل 5 منبع معتبر از مجلات علمی معتبر (مانند IEEE یا Springer) اضافه کنید.")
     else:
         explanation.append("منابع کافی یافت نشد.")
+        suggestions.append("بخش منابع را با حداقل 10 ارجاع از مقالات Peer-Reviewed تکمیل کنید.")
+        auto_fix += "\n**اصلاح خودکار - نمونه ارجاعات:**\n[1] Smith, J. (2020). 'Sample Study', Journal of Science."
+    # معیار 2: انسجام و بار علمی
     words = text.split()
     word_freq = Counter(words).most_common(10)
+    keywords = [word[0] for word in word_freq[:3]] if word_freq else ["تحقیق", "نتایج", "روش"]
     if word_freq and word_freq[0][1] > len(words) * 0.02:
         score += 25
         explanation.append("انسجام متنی خوب (تمرکز بر موضوع اصلی).")
     else:
         explanation.append("انسجام متنی ضعیف (پراکندگی موضوعی).")
+        suggestions.append(f"تمرکز متن را با استفاده بیشتر از کلمات کلیدی مثل {', '.join(keywords)} تقویت کنید.")
+        auto_fix += f"\n**اصلاح خودکار - جمله پیشنهادی:**\nاین تحقیق بر {keywords[0]} و {keywords[1]} متمرکزه و نتایج مهمی ارائه می‌ده."
+    # معیار 3: استفاده از جداول/شکل‌ها
     if re.search(r"جدول|شکل|Table|Figure", text, re.I):
         score += 20
         explanation.append("استفاده از جداول یا شکل‌ها برای پشتیبانی یافته‌ها.")
     else:
         explanation.append("عدم استفاده از جداول یا شکل‌ها.")
+        suggestions.append("برای پشتیبانی از یافته‌ها، حداقل یک جدول برای داده‌ها و یک شکل برای روندها اضافه کنید.")
+    # معیار 4: عمق تحلیل و بار علمی
     analysis_text = " ".join([doc.page_content for doc in sections.get("نتایج", []) + sections.get("بحث", [])])
     if len(analysis_text.split()) > 1000:
+        score += 25
         explanation.append("عمق تحلیل قابل قبول (بخش نتایج/بحث طولانی).")
     else:
         explanation.append("عمق تحلیل محدود (بخش نتایج/بحث کوتاه).")
+        suggestions.append("بخش نتایج و بحث را با تحلیل دقیق‌تر (مثل مقایسه با مقالات مشابه) گسترش دهید.")
+    # سنجش بار علمی با منابع جهانی
+    try:
+        translated_text = translate_to_english(text[:1000])
+        query = " ".join(translated_text.split()[:5])
+        url_arxiv = f"https://arxiv.org/search/?query={query}&searchtype=all&source=header"
+        response_arxiv = requests.get(url_arxiv, headers={"User-Agent": "Mozilla/5.0"})
+        soup_arxiv = BeautifulSoup(response_arxiv.text, 'html.parser')
+        arxiv_titles = [paper.get_text().strip() for paper in soup_arxiv.find_all('p', class_='title')[:3]]
+        if arxiv_titles:
+            suggestions.append(f"برای افزایش بار علمی، به موضوعات مشابه در مقالات arXiv مثل '{arxiv_titles[0]}' رجوع کنید.")
+        time.sleep(1)
+    except Exception as e:
+        logger.error(f"خطا در سنجش بار علمی: {str(e)}")
+        suggestions.append("مقایسه با منابع علمی جهانی به دلیل خطا انجام نشد.")
     score = max(min(score, 100), 10)
     return score, "; ".join(explanation), "; ".join(suggestions), auto_fix
     if error:
         return error
+    # انتخاب بخش موردنظر
+    target_docs = docs if section_dropdown == "کل سند" else sections.get(section_dropdown, docs)
+    context = " ".join([doc.page_content for doc in target_docs])
     vector_store = None
     if mode in ["تحلیل آکادمیک (RAG)", "چک سرقت ادبی", "ارزیابی کیفیت"]:
         vector_store, vectordb_error = create_vector_db(target_docs)
         if vectordb_error:
             return vectordb_error
+    chain = create_conversation_chain(vector_store, target_docs, mode, language, detail_level, section_dropdown)
     try:
         if mode == "خلاصه خودکار":
             time.sleep(2)
             result = chain.invoke({"context": context[:5000]})["text"]
         elif mode == "چک سرقت ادبی":
             plagiarism_result = check_plagiarism(context)
             result = plagiarism_result
         elif mode == "ارزیابی کیفیت":
+            score, explanation, suggestions, auto_fix = evaluate_quality(target_docs, sections)
             time.sleep(2)
             result = chain.invoke({"context": context[:5000], "score": score, "explanation": explanation, "suggestions": suggestions})["text"] + auto_fix
         else:
             result = chain.invoke({"question": query, "chat_history": []})["answer"]
         if mode not in ["چک سرقت ادبی", "ارزیابی کیفیت"]:
+            resources = suggest_resources(context)
             result += "\n\n**منابع پیشنهادی:**\n" + "\n".join(resources)
         return f"{result}\n\n⏱ زمان پردازش: {time.time() - start_time:.2f} ثانیه"