Spaces:

citoreh
/

Chekideh

Sleeping

App Files Files Community

citoreh commited on Jul 29, 2025

Commit

16f05bf

verified ·

1 Parent(s): 63c81e2

Update app.py

Browse files

Files changed (1) hide show

app.py +105 -125

app.py CHANGED Viewed

@@ -1,39 +1,12 @@
 import gradio as gr
-import torch
-from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM, MT5Tokenizer
 import re
 import warnings
 warnings.filterwarnings("ignore")
-class PersianSummarizer:
     def __init__(self):
-        self.model_name = "nafisehNik/mt5-persian-summary"
-        self.tokenizer = None
-        self.model = None
-        self.load_model()
-    def load_model(self):
-        """Load the Persian-specific summarization model"""
-        try:
-            print("Loading Persian summarization model...")
-            # Using Persian-specific MT5 model
-            self.tokenizer = MT5Tokenizer.from_pretrained(self.model_name)
-            self.model = AutoModelForSeq2SeqLM.from_pretrained(self.model_name)
-            print("Persian MT5 model loaded successfully!")
-        except Exception as e:
-            print(f"Error loading Persian model: {e}")
-            print("Falling back to multilingual model...")
-            try:
-                # Fallback to mT5 base model
-                self.model_name = "google/mt5-small"
-                self.tokenizer = MT5Tokenizer.from_pretrained(self.model_name)
-                self.model = AutoModelForSeq2SeqLM.from_pretrained(self.model_name)
-                print("Fallback model loaded!")
-            except Exception as e2:
-                print(f"Fallback failed: {e2}")
-                # Last resort - simple extractive summarization
-                self.model = None
-                self.tokenizer = None
     def preprocess_persian_text(self, text):
         """Clean and preprocess Persian text"""
@@ -45,8 +18,76 @@ class PersianSummarizer:
         return text
     def summarize_text(self, text, max_length=150, min_length=50):
-        """Summarize Persian text using Persian-specific model"""
         if not text or len(text.strip()) < 50:
             return "❌ متن ورودی کوتاه است. لطفاً متن طولانی‌تری وارد کنید."
@@ -58,83 +99,21 @@ class PersianSummarizer:
             if len(clean_text) < 100:
                 return "❌ متن پس از پردازش کوتاه است. متن بلندتری وارد کنید."
-            if self.model is None or self.tokenizer is None:
-                # Fallback to extractive summarization
-                return self.extractive_summary(clean_text, max_length)
-            # Persian-specific summarization using MT5
-            input_ids = self.tokenizer(
-                clean_text,
-                max_length=1000,
-                padding="max_length",
-                truncation=True,
-                return_attention_mask=True,
-                add_special_tokens=True,
-                return_tensors="pt"
-            )
-            # Generate summary
-            with torch.no_grad():
-                generated_ids = self.model.generate(
-                    input_ids=input_ids["input_ids"],
-                    attention_mask=input_ids["attention_mask"],
-                    num_beams=3,
-                    max_length=max_length,
-                    min_length=min_length,
-                    repetition_penalty=1.2,
-                    length_penalty=1.0,
-                    early_stopping=True,
-                    use_cache=True,
-                    do_sample=False
-                )
-            # Decode the summary
-            summary = self.tokenizer.decode(
-                generated_ids[0],
-                skip_special_tokens=True,
-                clean_up_tokenization_spaces=True
-            )
-            # Clean the output
-            summary = self.clean_output(summary)
-            return summary if summary else "❌ نتوانستم خلاصه مناسبی تولید کنم. لطفاً متن دیگری امتحان کنید."
         except Exception as e:
-            print(f"Error in summarization: {e}")
-            # Fallback to extractive method
-            return self.extractive_summary(clean_text, max_length)
-    def extractive_summary(self, text, max_length):
-        """Simple extractive summarization fallback"""
-        sentences = re.split(r'[.!?؟]', text)
-        sentences = [s.strip() for s in sentences if len(s.strip()) > 20]
-        if len(sentences) <= 2:
-            return text[:max_length] + "..."
-        # Take first, middle, and last sentences for a simple summary
-        summary_sentences = []
-        if len(sentences) >= 3:
-            summary_sentences = [sentences[0], sentences[len(sentences)//2], sentences[-1]]
-        else:
-            summary_sentences = sentences
-        summary = ". ".join(summary_sentences)
-        return summary[:max_length] + ("..." if len(summary) > max_length else "")
-    def clean_output(self, text):
-        """Clean the generated summary"""
-        # Remove any potential English artifacts
-        text = re.sub(r'[a-zA-Z]+', '', text)
-        # Remove extra spaces
-        text = re.sub(r'\s+', ' ', text.strip())
-        # Ensure proper Persian punctuation
-        text = text.replace('.', '.')
-        return text
 # Initialize the summarizer
-persian_summarizer = PersianSummarizer()
 def summarize_persian_text(text, summary_length):
     """Main function to handle summarization requests"""
@@ -150,21 +129,21 @@ def summarize_persian_text(text, summary_length):
 # Sample Persian texts for demonstration
 sample_texts = {
     "خبر سیاسی": """
-    مجلس شورای اسلامی ایران در جلسه علنی روز گذشته لایحه بودجه سال آینده را بررسی کرد. نمایندگان مجلس در این جلسه به بحث و بررسی جزئیات بودجه پرداختند و پیشنهادات مختلفی برای بهبود آن ارائه دادند. وزیر اقتصاد نیز در این جلسه حضور یافت و به سوالات نمایندگان پاسخ داد. بر اساس این لایحه، بودجه عمومی کشور نسبت به سال جاری افزایش قابل توجهی خواهد داشت. همچنین اعتبارات ویژه‌ای برای توسعه زیرساخت‌های کشور در نظر گرفته شده است.
     """,
     "مقاله علمی": """
-    هوش مصنوعی در دهه‌های اخیر به یکی از مهم‌ترین فناوری‌های نوین تبدیل شده است. این فناوری کاربردهای گسترده‌ای در زمینه‌های مختلف نظیر پزشکی، آموزش، حمل و نقل و صنعت دارد. یادگیری ماشین که بخش مهمی از هوش مصنوعی محسوب می‌شود، امکان تحلیل داده‌های پیچیده و الگویابی را فراهم می‌کند. شبکه‌های عصبی مصنوعی نیز با الهام از مغز انسان طراحی شده‌اند و قابلیت‌های شگفت‌انگیزی در تشخیص الگو و پردازش تصویر دارند. با این حال، چالش‌هایی نظیر اخلاق در هوش مصنوعی و حفظ حریم خصوصی همچنان وجود دارد.
     """,
     "متن ادبی": """
-    در باغ گل‌های سرخ، پیرمردی با موهای سفید نشسته بود و به آسمان آبی نگاه می‌کرد. نسیم ملایم صبحگاهی برگ‌های درختان را به رقص درآورده بود. صدای آب نهری که از دور می‌آمد، آرامش خاصی به فضا می‌بخشید. پیرمرد در دل خود به یاد روزهای جوانی‌اش بود، زمانی که این باغ را با دستان خود کاشته بود. اکنون پس از سال‌ها، میوه زحماتش را می‌دید. گل‌های رنگارنگ، درختان سایه‌دار و آرامش این مکان، همه نشان از عشق و دلبستگی او به این باغ داشت.
     """
 }
 # Create Gradio interface
 with gr.Blocks(
-    title="خلاصه‌ساز متن فارسی",
     theme=gr.themes.Soft(),
     css="""
     .persian-text {
@@ -183,8 +162,8 @@ with gr.Blocks(
     gr.HTML("""
     <div class="main-header">
         <h1>🤖 خلاصه‌ساز هوشمند متن فارسی</h1>
-        <p><strong>Persian Text Summarization Tool</strong></p>
-        <p>این ابزار با استفاده از هوش مصنوعی، متن‌های فارسی را خلاصه می‌کند</p>
     </div>
     """)
@@ -192,13 +171,14 @@ with gr.Blocks(
         with gr.Column(scale=2):
             gr.Markdown("## 📝 متن ورودی")
-            # Model status
-            model_status = gr.HTML(
-                f"""<div style="padding: 10px; background-color: #e8f5e8; border-radius: 5px; margin-bottom: 10px;">
-                <strong>🤖 مدل فعال:</strong> {persian_summarizer.model_name}<br>
-                <strong>📊 وضعیت:</strong> {'آماده برای خلاصه‌سازی فارسی' if persian_summarizer.model else 'حالت استخراجی (fallback)'}
-                </div>"""
-            )
             # Sample text selector
             sample_selector = gr.Dropdown(
@@ -252,19 +232,19 @@ with gr.Blocks(
         3. **طول خلاصه را تعیین کنید**: کوتاه، متوسط یا بلند
         4. **دکمه خلاصه‌سازی را بزنید**: منتظر بمانید تا خلاصه تولید شود
-        ### ویژگی‌ها:
-        - ✅ پشتیبانی کامل از زبان فارسی با مدل تخصصی
-        - ✅ خروجی کاملاً فارسی (بدون ترجمه)
-        - ✅ سه سطح طول خلاصه
-        - ✅ نمونه متن‌های آماده
-        - ✅ نمایش آمار متن
-        - ✅ رابط کاربری فارسی
         ### نکات:
         - متن ورودی باید حداقل 100 کاراکتر باشد
-        - کیفیت خلاصه با متن‌های طولانی‌تر بهتر است
-        - این ابزار از مدل MT5 فارسی استفاده می‌کند
-        - خلاصه تولیدی کاملاً به زبان فارسی است
         """)
     # Event handlers

 import gradio as gr
 import re
 import warnings
 warnings.filterwarnings("ignore")
+class LightweightPersianSummarizer:
     def __init__(self):
+        """Lightweight Persian summarizer using extractive methods"""
+        print("Initializing lightweight Persian summarizer...")
     def preprocess_persian_text(self, text):
         """Clean and preprocess Persian text"""
         return text
+    def score_sentence(self, sentence, position, total_sentences):
+        """Score sentences for importance"""
+        # Position score (earlier sentences are more important)
+        position_score = 1.0 - (position / total_sentences) * 0.3
+        # Length score (moderate length sentences are preferred)
+        length = len(sentence.strip())
+        if length < 20:
+            length_score = 0.1
+        elif length > 200:
+            length_score = 0.7
+        else:
+            length_score = 1.0
+        # Keyword density score (sentences with more Persian content)
+        persian_chars = len(re.findall(r'[\u0600-\u06FF]', sentence))
+        total_chars = len(sentence.replace(' ', ''))
+        persian_ratio = persian_chars / max(total_chars, 1)
+        # Combined score
+        final_score = (position_score * 0.4) + (length_score * 0.3) + (persian_ratio * 0.3)
+        return final_score
+    def extractive_summary(self, text, target_length):
+        """Advanced extractive summarization for Persian text"""
+        # Split into sentences
+        sentences = re.split(r'[.!?؟]', text)
+        sentences = [s.strip() for s in sentences if len(s.strip()) > 15]
+        if len(sentences) <= 2:
+            return text[:target_length] + ("..." if len(text) > target_length else "")
+        # Score all sentences
+        scored_sentences = []
+        for i, sentence in enumerate(sentences):
+            score = self.score_sentence(sentence, i, len(sentences))
+            scored_sentences.append((sentence, score, i))
+        # Sort by score (highest first)
+        scored_sentences.sort(key=lambda x: x[1], reverse=True)
+        # Select sentences up to target length
+        selected_sentences = []
+        current_length = 0
+        for sentence, score, original_index in scored_sentences:
+            sentence_length = len(sentence)
+            if current_length + sentence_length <= target_length:
+                selected_sentences.append((sentence, original_index))
+                current_length += sentence_length
+            elif len(selected_sentences) == 0:  # At least include one sentence
+                # Truncate the sentence if needed
+                truncated = sentence[:target_length-10] + "..."
+                selected_sentences.append((truncated, original_index))
+                break
+        # Sort selected sentences by original order
+        selected_sentences.sort(key=lambda x: x[1])
+        # Join sentences
+        summary = ". ".join([sent[0] for sent in selected_sentences])
+        # Final cleanup
+        summary = re.sub(r'\s+', ' ', summary.strip())
+        return summary
     def summarize_text(self, text, max_length=150, min_length=50):
+        """Main summarization function"""
         if not text or len(text.strip()) < 50:
             return "❌ متن ورودی کوتاه است. لطفاً متن طولانی‌تری وارد کنید."
             if len(clean_text) < 100:
                 return "❌ متن پس از پردازش کوتاه است. متن بلندتری وارد کنید."
+            # Use extractive summarization
+            summary = self.extractive_summary(clean_text, max_length)
+            # Ensure minimum length
+            if len(summary) < min_length and len(clean_text) > min_length:
+                # Try with higher target length
+                summary = self.extractive_summary(clean_text, min(max_length + 50, len(clean_text)))
+            return summary if summary else "❌ نتوانستم خلاصه مناسبی تولید کنم."
         except Exception as e:
+            return f"❌ خطا در خلاصه‌سازی: {str(e)}"
 # Initialize the summarizer
+persian_summarizer = LightweightPersianSummarizer()
 def summarize_persian_text(text, summary_length):
     """Main function to handle summarization requests"""
 # Sample Persian texts for demonstration
 sample_texts = {
     "خبر سیاسی": """
+    مجلس شورای اسلامی ایران در جلسه علنی روز گذشته لایحه بودجه سال آینده را بررسی کرد. نمایندگان مجلس در این جلسه به بحث و بررسی جزئیات بودجه پرداختند و پیشنهادات مختلفی برای بهبود آن ارائه دادند. وزیر اقتصاد نیز در این جلسه حضور یافت و به سوالات نمایندگان پاسخ داد. بر اساس این لایحه، بودجه عمومی کشور نسبت به سال جاری افزایش قابل توجهی خواهد داشت. همچنین اعتبارات ویژه‌ای برای توسعه زیرساخت‌های کشور در نظر گرفته شده است. نمایندگان بر لزوم شفافیت در هزینه‌کرد بودجه تأکید کردند و خواستار نظارت دقیق‌تر بر اجرای برنامه‌های توسعه‌ای شدند.
     """,
     "مقاله علمی": """
+    هوش مصنوعی در دهه‌های اخیر به یکی از مهم‌ترین فناوری‌های نوین تبدیل شده است. این فناوری کاربردهای گسترده‌ای در زمینه‌های مختلف نظیر پزشکی، آموزش، حمل و نقل و صنعت دارد. یادگیری ماشین که بخش مهمی از هوش مصنوعی محسوب می‌شود، امکان تحلیل داده‌های پیچیده و الگویابی را فراهم می‌کند. شبکه‌های عصبی مصنوعی نیز با الهام از مغز انسان طراحی شده‌اند و قابلیت‌های شگفت‌انگیزی در تشخیص الگو و پردازش تصویر دارند. با این حال، چالش‌هایی نظیر اخلاق در هوش مصنوعی و حفظ حریم خصوصی همچنان وجود دارد. محققان بر لزوم توسعه هوش مصنوعی مسئولانه تأکید می‌کنند تا از مزایای این فناوری استفاده کرده و از مضرات احتمالی آن جلوگیری شود.
     """,
     "متن ادبی": """
+    در باغ گل‌های سرخ، پیرمردی با موهای سفید نشسته بود و به آسمان آبی نگاه می‌کرد. نسیم ملایم صبحگاهی برگ‌های درختان را به رقص درآورده بود. صدای آب نهری که از دور می‌آمد، آرامش خاصی به فضا می‌بخشید. پیرمرد در دل خود به یاد روزهای جوانی‌اش بود، زمانی که این باغ را با دستان خود کاشته بود. اکنون پس از سال‌ها، میوه زحماتش را می‌دید. گل‌های رنگارنگ، درختان سایه‌دار و آرامش این مکان، همه نشان از عشق و دلبستگی او به این باغ داشت. او لبخندی بر لب داشت، لبخندی که حاکی از رضایت و آرامش درونی بود. این باغ نه تنها مکانی برای استراحت، بلکه خانه‌ای برای خاطرات شیرین او بود.
     """
 }
 # Create Gradio interface
 with gr.Blocks(
+    title="خلاصه‌ساز متن فارسی - نسخه سبک",
     theme=gr.themes.Soft(),
     css="""
     .persian-text {
     gr.HTML("""
     <div class="main-header">
         <h1>🤖 خلاصه‌ساز هوشمند متن فارسی</h1>
+        <p><strong>Persian Text Summarization Tool - Lightweight Version</strong></p>
+        <p>این ابزار با روش استخراجی پیشرفته، متن‌های فارسی را خلاصه می‌کند</p>
     </div>
     """)
         with gr.Column(scale=2):
             gr.Markdown("## 📝 متن ورودی")
+            # Method info
+            gr.HTML("""
+            <div style="padding: 10px; background-color: #e3f2fd; border-radius: 5px; margin-bottom: 10px;">
+                <strong>⚡ روش:</strong> خلاصه‌سازی استخراجی پیشرفته<br>
+                <strong>✅ مزیت:</strong> سریع، پایدار و کاملاً فارسی<br>
+                <strong>🎯 کیفیت:</strong> بالا برای متن‌های فارسی
+            </div>
+            """)
             # Sample text selector
             sample_selector = gr.Dropdown(
         3. **طول خلاصه را تعیین کنید**: کوتاه، متوسط یا بلند
         4. **دکمه خلاصه‌سازی را بزنید**: منتظر بمانید تا خلاصه تولید شود
+        ### ویژگی‌های نسخه سبک:
+        - ✅ سریع و پایدار (بدون نیاز به مدل‌های سنگین)
+        - ✅ کاملاً فارسی (هیچ ترجمه‌ای انجام نمی‌شود)
+        - ✅ کیفیت بالا برای متن‌های فارسی
+        - ✅ مناسب برای همه سرورها
+        - ✅ روش استخراجی هوشمند
+        - ✅ امتیازدهی پیشرفته به جملات
         ### نکات:
         - متن ورودی باید حداقل 100 کاراکتر باشد
+        - جملات ابتدایی و میانی متن امتیاز بیشتری دریافت می‌کنند
+        - این نسخه برای استقرار آسان طراحی شده است
+        - هیچ وابستگی پیچیده‌ای ندارد
         """)
     # Event handlers