Spaces:

leilaghomashchi
/

Benchmark-data-anonymization

Sleeping

App Files Files Community

leilaghomashchi commited on Sep 29, 2025

Commit

fc2da02

verified ·

1 Parent(s): 90a6f53

Update app.py

Browse files

Files changed (1) hide show

app.py +171 -140

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ NER Anonymization Evaluator for Hugging Face Spaces
 ابزار ارزیابی استاندارد سیستم‌های ناشناس‌سازی با NER
 Author: Your Name
-Version: 1.0.0
 License: MIT
 """
@@ -14,6 +14,8 @@ from typing import Dict, List, Tuple
 import gradio as gr
 from datetime import datetime
 import io
 # ==================== Import seqeval ====================
 try:
@@ -286,30 +288,59 @@ class StandardNEREvaluator:
         try:
             # بارگذاری فایل
-            df = pd.read_csv(file_path)
-            # تشخیص ستون‌ها
             if 'Reference_text' in df.columns and 'anonymized_text' in df.columns:
                 reference_col = 'Reference_text'
                 predicted_col = 'anonymized_text'
             elif 'original_text' in df.columns and 'anonymized_text' in df.columns:
                 reference_col = 'original_text'
                 predicted_col = 'anonymized_text'
             else:
                 return (
                     False,
-                    "❌ فایل باید شامل ستون‌های 'original_text' و 'anonymized_text' باشد",
                     pd.DataFrame()
                 )
             # ارزیابی هر سطر
             results = []
             for index, row in df.iterrows():
-                metrics = self.evaluate_single_row(
-                    str(row[reference_col]),
-                    str(row[predicted_col])
-                )
-                results.append(metrics)
             # ایجاد DataFrame نتایج
             results_df = pd.DataFrame(results)
@@ -355,7 +386,11 @@ class StandardNEREvaluator:
 • کل False Negatives: {total_fn}
 • تعداد سطرها: {len(df)}
-🔬 **مقایسه با Exact Match:**
 • F1 (seqeval): {avg_seqeval_f1:.4f}
 • F1 (Exact): {avg_exact_f1:.4f}
 • اختلاف: {abs(avg_seqeval_f1 - avg_exact_f1):.4f}
@@ -365,7 +400,10 @@ class StandardNEREvaluator:
             return True, status, results_df
         except Exception as e:
-            return False, f"❌ خطا در پردازش: {str(e)}", pd.DataFrame()
     def generate_report(self, df: pd.DataFrame) -> str:
         """
@@ -397,11 +435,11 @@ class StandardNEREvaluator:
         # تفسیر نتایج
         if avg_seqeval_f1 >= 0.9:
-            interpretation = "✅ عملکرد عالی - سیستم شما بسیار دقیق است"
         elif avg_seqeval_f1 >= 0.7:
             interpretation = "⚠️ عملکرد خوب - اما قابل بهبود"
         else:
-            interpretation = "❌ عملکرد ضعیف - نیاز به بهبود اساسی"
         report = f"""
 ## 📊 گزارش جامع ارزیابی NER
@@ -412,6 +450,7 @@ class StandardNEREvaluator:
 ### 📈 آمار کلی:
 - **تعداد کل سطرها:** {total_rows}
 - **روش ارزیابی:** IOB2 Tagging (استاندارد CoNLL-2003)
 ### ✅ نتایج seqeval (استاندارد):
 - **میانگین Precision:** {avg_seqeval_p:.4f}
@@ -429,30 +468,38 @@ class StandardNEREvaluator:
 - **بدترین F1:** {df.loc[worst_idx, 'seqeval_f1']:.4f} (سطر {worst_idx + 1})
 ### 💡 توصیه‌ها:
-{"- سیستم شما عملکرد بسیار خوبی دارد" if avg_seqeval_f1 >= 0.9 else ""}
-{"- روی بهبود Precision تمرکز کنید" if avg_seqeval_p < avg_seqeval_r else ""}
-{"- روی بهبود Recall تمرکز کنید" if avg_seqeval_r < avg_seqeval_p else ""}
-{"- نیاز به بازنگری اساسی در مدل دارید" if avg_seqeval_f1 < 0.5 else ""}
         """
         return report
-    def create_csv(self) -> bytes:
         """
         ایجاد فایل CSV برای دانلود
         Returns:
-            محتوای CSV به صورت bytes
         """
         if self.results_df is None or self.results_df.empty:
             return None
         try:
-            csv_buffer = io.StringIO()
-            self.results_df.to_csv(csv_buffer, index=False, encoding='utf-8')
-            return csv_buffer.getvalue().encode('utf-8-sig')
         except Exception as e:
-            print(f"خطا در ایجاد CSV: {str(e)}")
             return None
@@ -494,14 +541,6 @@ def create_interface():
         border-radius: 5px;
         margin: 10px 0;
     }
-    .metric-good {
-        color: #059669;
-        font-weight: bold;
-    }
-    .metric-bad {
-        color: #dc2626;
-        font-weight: bold;
-    }
     """
     # ساخت Interface
@@ -515,25 +554,23 @@ def create_interface():
     ) as demo:
         # هدر
-        with gr.Row():
-            gr.Markdown(f"""
-            <div class="header-box">
-            <h1 style="margin:0; text-align:center;">🎯 ابزار ارزیابی استاندارد NER</h1>
-            <p style="margin:5px 0 0 0; text-align:center;">
-                Named Entity Recognition Evaluation Tool
-            </p>
-            </div>
-            """)
         # وضعیت seqeval
-        with gr.Row():
-            gr.Markdown(f"""
-            <div class="status-box rtl">
-            <strong>وضعیت seqeval:</strong> {seqeval_emoji} {seqeval_status}
-            <br>
-            <small>این ابزار برای ارزیابی سیستم‌های ناشناس‌سازی متن با استفاده از الگوریتم‌های استاندارد NER طراحی شده است.</small>
-            </div>
-            """)
         # بخش اصلی
         with gr.Row():
@@ -542,16 +579,17 @@ def create_interface():
                 gr.Markdown("### 📁 بارگذاری فایل", elem_classes=["rtl"])
                 file_input = gr.File(
-                    label="فایل CSV",
                     file_types=[".csv"],
                     type="filepath"
                 )
                 gr.Markdown("""
                 <div class="rtl" style="font-size:0.9em; color:#666;">
-                فایل باید شامل دو ستون باشد:<br>
-                • <code>original_text</code> یا <code>Reference_text</code><br>
-                • <code>anonymized_text</code>
                 </div>
                 """)
@@ -561,8 +599,8 @@ def create_interface():
                     size="lg"
                 )
-                download_btn = gr.DownloadButton(
-                    label="💾 دانلود نتایج CSV",
                     visible=False,
                     variant="secondary"
                 )
@@ -570,7 +608,7 @@ def create_interface():
             # ستون راست: وضعیت
             with gr.Column(scale=2):
                 status_output = gr.Markdown(
-                    "آماده دریافت فایل CSV...",
                     elem_classes=["rtl"]
                 )
@@ -587,96 +625,50 @@ def create_interface():
             wrap=True
         )
         # راهنما
         with gr.Accordion("📖 راهنمای استفاده", open=False):
             gr.Markdown("""
             <div class="rtl">
-            ## 🎯 نحوه استفاده:
-            ### 1. آماده‌سازی فایل CSV:
-            فایل شما باید شامل دو ستون باشد:
             ```csv
-            original_text,anonymized_text
-            "شرکت فولاد مبارکه","شرکت company-01"
-            "آقای احمد رضایی","person-02"
-            "سود 15 درصد","سود percent-03"
             ```
-            ### 2. فرمت‌های پشتیبانی شده:
-            #### شرکت‌ها (Company):
-            - `company-01`, `Company-01`, `COMPANY-01`
-            - `COMPANY_001`, `COMPANY_001_REGEX`
-            #### افراد (Person):
-            - `person-02`, `Person-02`, `PERSON-02`
-            - `PERSON_002`, `PERSON_002_REGEX`
-            #### مبالغ (Amount):
-            - `amount-03`, `AMOUNT-03`
-            - `AMOUNT_003`, `AMOUNT_003_REGEX`
-            #### درصدها (Percent):
-            - `percent-04`, `PERCENT-04`
-            #### گروه‌ها (Group):
             - `group-05`, `GROUP-05`
-            #### سهام (Stock):
             - `stock-06`, `STOCK-06`
-            - `STOCK_SYMBOL_006`
             ### 3. معیارهای ارزیابی:
-            - **Precision**: از entities شناسایی شده، چند درصد درست بودند؟
-            - **Recall**: از entities واقعی، چند درصد پیدا شدند؟
             - **F1-Score**: میانگین هماهنگ Precision و Recall
-            - **Accuracy**: دقت کلی
-            ### 4. روش‌های ارزیابی:
-            1. **seqeval (پیشنهادی)**: استفاده از IOB2 tagging - استاندارد CoNLL-2003
-            2. **Exact Match**: مقایسه مستقیم شناسه‌ها
-            ### 5. تفسیر نتایج:
-            - **F1 ≥ 0.9**: عملکرد عالی ✅
-            - **F1 ≥ 0.7**: عملکرد خوب ⚠️
-            - **F1 < 0.7**: نیاز به بهبود ❌
-            </div>
-            """)
-        # مثال
-        with gr.Accordion("💡 مثال عملی", open=False):
-            gr.Markdown("""
-            <div class="rtl">
-            ## مثال:
-            ### ورودی:
-            ```
-            متن مرجع:     "شرکت company-01 با person-02 کار می‌کند"
-            متن پیش‌بینی: "شرکت company-01 با person-99 کار می‌کند"
-            ```
-            ### تحلیل:
-            - ✅ `company-01` درست شناسایی شد
-            - ❌ `person-02` باید بود اما `person-99` شد
-            ### نتایج:
-            - **True Positive**: 1 (company-01)
-            - **False Positive**: 1 (person-99)
-            - **False Negative**: 1 (person-02)
-            - **Precision**: 0.50
-            - **Recall**: 0.50
-            - **F1-Score**: 0.50
-            ### تفسیر:
-            سیستم 50% دقت دارد - نیمی از entities را درست تشخیص داده است.
             </div>
             """)
@@ -696,7 +688,7 @@ def create_interface():
         Made with ❤️ for Persian NLP Community
-        <small>Version 1.0.0 • MIT License</small>
         </div>
         """)
@@ -710,52 +702,85 @@ def create_interface():
                     "❌ لطفاً فایل CSV را بارگذاری کنید",
                     gr.Markdown(visible=False),
                     gr.Dataframe(visible=False),
-                    gr.DownloadButton(visible=False)
                 )
             try:
                 # ارزیابی
                 success, message, df = evaluator.evaluate_dataset(file)
                 if not success:
                     return (
                         f"❌ {message}",
                         gr.Markdown(visible=False),
                         gr.Dataframe(visible=False),
-                        gr.DownloadButton(visible=False)
                     )
                 # تولید گزارش
                 summary = evaluator.generate_report(df)
-                # ایجاد CSV
-                csv_content = evaluator.create_csv()
                 # نمایش نتایج
                 return (
                     message,
                     gr.Markdown(value=summary, visible=True),
                     gr.Dataframe(value=df.head(10), visible=True),
-                    gr.DownloadButton(
-                        label="💾 دانلود نتایج کامل CSV",
-                        value=csv_content,
-                        visible=True
-                    )
                 )
             except Exception as e:
                 return (
-                    f"❌ خطای غیرمنتظره: {str(e)}",
                     gr.Markdown(visible=False),
                     gr.Dataframe(visible=False),
-                    gr.DownloadButton(visible=False)
                 )
-        # اتصال event
         evaluate_btn.click(
             fn=evaluate_file,
             inputs=[file_input],
-            outputs=[status_output, summary_output, results_table, download_btn]
         )
     return demo
@@ -763,10 +788,16 @@ def create_interface():
 # ==================== Main ====================
 if __name__ == "__main__":
     # ایجاد و اجرای interface
     demo = create_interface()
     demo.launch(
         server_name="0.0.0.0",
         server_port=7860,
         share=False
-    )

 ابزار ارزیابی استاندارد سیستم‌های ناشناس‌سازی با NER
 Author: Your Name
+Version: 1.0.1
 License: MIT
 """
 import gradio as gr
 from datetime import datetime
 import io
+import tempfile
+import os
 # ==================== Import seqeval ====================
 try:
         try:
             # بارگذاری فایل
+            print(f"📁 در حال خواندن فایل: {file_path}")
+            df = pd.read_csv(file_path, encoding='utf-8-sig')
+            print(f"✅ فایل خوانده شد: {len(df)} سطر")
+            print(f"📋 ستون‌ها: {list(df.columns)}")
+            # تشخیص ستون‌ها با اولویت Reference_text
             if 'Reference_text' in df.columns and 'anonymized_text' in df.columns:
                 reference_col = 'Reference_text'
                 predicted_col = 'anonymized_text'
+                print(f"✅ حالت 3 ستونه: Reference_text (مرجع) vs anonymized_text (LLM)")
             elif 'original_text' in df.columns and 'anonymized_text' in df.columns:
                 reference_col = 'original_text'
                 predicted_col = 'anonymized_text'
+                print(f"⚠️ حالت 2 ستونه: original_text به عنوان مرجع")
             else:
+                available_cols = list(df.columns)
                 return (
                     False,
+                    f"❌ ستون‌های مورد نیاز یافت نشد!\n\nستون‌های موجود: {available_cols}\n\nستون‌های مورد نیاز:\n• Reference_text (مرجع انسانی)\n• anonymized_text (پیش‌بینی LLM)",
                     pd.DataFrame()
                 )
+            print(f"🔍 شروع ارزیابی {len(df)} سطر...")
             # ارزیابی هر سطر
             results = []
             for index, row in df.iterrows():
+                if (index + 1) % 10 == 0:
+                    print(f"   پردازش سطر {index + 1}/{len(df)}...")
+                try:
+                    metrics = self.evaluate_single_row(
+                        str(row[reference_col]),
+                        str(row[predicted_col])
+                    )
+                    results.append(metrics)
+                except Exception as e:
+                    print(f"⚠️ خطا در سطر {index + 1}: {str(e)}")
+                    # افزودن نتایج صفر برای این سطر
+                    results.append({
+                        'seqeval_precision': 0.0,
+                        'seqeval_recall': 0.0,
+                        'seqeval_f1': 0.0,
+                        'seqeval_accuracy': 0.0,
+                        'exact_precision': 0.0,
+                        'exact_recall': 0.0,
+                        'exact_f1': 0.0,
+                        'tp_count': 0,
+                        'fp_count': 0,
+                        'fn_count': 0
+                    })
+            print(f"✅ ارزیابی کامل شد!")
             # ایجاد DataFrame نتایج
             results_df = pd.DataFrame(results)
 • کل False Negatives: {total_fn}
 • تعداد سطرها: {len(df)}
+🔬 **مقایسه:**
+• مرجع (انسانی): {reference_col}
+• پیش‌بینی (LLM): {predicted_col}
+🔬 **مقایسه روش‌ها:**
 • F1 (seqeval): {avg_seqeval_f1:.4f}
 • F1 (Exact): {avg_exact_f1:.4f}
 • اختلاف: {abs(avg_seqeval_f1 - avg_exact_f1):.4f}
             return True, status, results_df
         except Exception as e:
+            import traceback
+            error_details = traceback.format_exc()
+            print(f"❌ خطا: {error_details}")
+            return False, f"❌ خطا در پردازش:\n\n{str(e)}\n\nجزئیات:\n{error_details[:500]}", pd.DataFrame()
     def generate_report(self, df: pd.DataFrame) -> str:
         """
         # تفسیر نتایج
         if avg_seqeval_f1 >= 0.9:
+            interpretation = "✅ عملکرد عالی - سیستم LLM شما بسیار دقیق است"
         elif avg_seqeval_f1 >= 0.7:
             interpretation = "⚠️ عملکرد خوب - اما قابل بهبود"
         else:
+            interpretation = "❌ عملکرد ضعیف - نیاز به بهبود اساسی در مدل LLM"
         report = f"""
 ## 📊 گزارش جامع ارزیابی NER
 ### 📈 آمار کلی:
 - **تعداد کل سطرها:** {total_rows}
 - **روش ارزیابی:** IOB2 Tagging (استاندارد CoNLL-2003)
+- **مقایسه:** مرجع انسانی (Reference_text) vs پیش‌بینی LLM (anonymized_text)
 ### ✅ نتایج seqeval (استاندارد):
 - **میانگین Precision:** {avg_seqeval_p:.4f}
 - **بدترین F1:** {df.loc[worst_idx, 'seqeval_f1']:.4f} (سطر {worst_idx + 1})
 ### 💡 توصیه‌ها:
+{"- مدل LLM شما عملکرد بسیار خوبی دارد" if avg_seqeval_f1 >= 0.9 else ""}
+{"- روی بهبود Precision تمرکز کنید (کاهش False Positives)" if avg_seqeval_p < avg_seqeval_r else ""}
+{"- روی بهبود Recall تمرکز کنید (کاهش False Negatives)" if avg_seqeval_r < avg_seqeval_p else ""}
+{"- نیاز به بازنگری اساسی در prompt یا fine-tuning مدل LLM دارید" if avg_seqeval_f1 < 0.5 else ""}
         """
         return report
+    def create_downloadable_csv(self) -> str:
         """
         ایجاد فایل CSV برای دانلود
         Returns:
+            مسیر فایل موقت
         """
         if self.results_df is None or self.results_df.empty:
             return None
         try:
+            # ایجاد فایل موقت
+            timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
+            temp_filename = f"evaluation_results_{timestamp}.csv"
+            temp_path = os.path.join(tempfile.gettempdir(), temp_filename)
+            # ذخیره DataFrame
+            self.results_df.to_csv(temp_path, index=False, encoding='utf-8-sig')
+            print(f"✅ فایل CSV ایجاد شد: {temp_path}")
+            return temp_path
         except Exception as e:
+            print(f"❌ خطا در ایجاد CSV: {str(e)}")
             return None
         border-radius: 5px;
         margin: 10px 0;
     }
     """
     # ساخت Interface
     ) as demo:
         # هدر
+        gr.Markdown(f"""
+        <div class="header-box">
+        <h1 style="margin:0; text-align:center;">🎯 ابزار ارزیابی استاندارد NER</h1>
+        <p style="margin:5px 0 0 0; text-align:center;">
+            Named Entity Recognition Evaluation Tool
+        </p>
+        </div>
+        """)
         # وضعیت seqeval
+        gr.Markdown(f"""
+        <div class="status-box rtl">
+        <strong>وضعیت seqeval:</strong> {seqeval_emoji} {seqeval_status}
+        <br>
+        <small>این ابزار مرجع انسانی (Reference_text) را با خروجی LLM (anonymized_text) مقایسه می‌کند.</small>
+        </div>
+        """)
         # بخش اصلی
         with gr.Row():
                 gr.Markdown("### 📁 بارگذاری فایل", elem_classes=["rtl"])
                 file_input = gr.File(
+                    label="فایل CSV (3 ستون)",
                     file_types=[".csv"],
                     type="filepath"
                 )
                 gr.Markdown("""
                 <div class="rtl" style="font-size:0.9em; color:#666;">
+                فایل باید شامل سه ستون باشد:<br>
+                • <code>original_text</code> - متن خام<br>
+                • <code>Reference_text</code> - ناشناس‌سازی انسانی (مرجع)<br>
+                • <code>anonymized_text</code> - ناشناس‌سازی LLM (پیش‌بینی)
                 </div>
                 """)
                     size="lg"
                 )
+                download_btn = gr.Button(
+                    "💾 دانلود نتایج CSV",
                     visible=False,
                     variant="secondary"
                 )
             # ستون راست: وضعیت
             with gr.Column(scale=2):
                 status_output = gr.Markdown(
+                    "آماده دریافت فایل CSV با 3 ستون (original_text, Reference_text, anonymized_text)...",
                     elem_classes=["rtl"]
                 )
             wrap=True
         )
+        # فایل دانلود
+        download_file = gr.File(
+            visible=False,
+            label="فایل نتایج"
+        )
         # راهنما
         with gr.Accordion("📖 راهنمای استفاده", open=False):
             gr.Markdown("""
             <div class="rtl">
+            ## 🎯 ساختار فایل CSV:
+            فایل شما باید **3 ستون** داشته باشد:
             ```csv
+            original_text,Reference_text,anonymized_text
+            "شرکت فولاد با درآمد 500 میلیارد","شرکت company-01 با درآمد amount-02 میلیارد","شرکت company-01 با درآمد amount-03 میلیارد"
             ```
+            ### توضیح ستون‌ها:
+            1. **original_text**: متن اصلی و خام (بدون ناشناس‌سازی)
+            2. **Reference_text**: متن ناشناس‌سازی شده توسط انسان - **این مرجع (Gold Standard) است**
+            3. **anonymized_text**: متن ناشناس‌سازی شده توسط مدل LLM شما - **این پیش‌بینی است**
+            ### نحوه ارزیابی:
+            ابزار **Reference_text** را به عنوان جواب صحیح در نظر می‌گیرد و **anonymized_text** را با آن مقایسه می‌کند.
+            ### 2. فرمت‌های پشتیبانی شده:
+            - `company-01`, `COMPANY-01`, `COMPANY_001_REGEX`
+            - `person-02`, `PERSON-02`, `PERSON_002_REGEX`
+            - `amount-03`, `AMOUNT-03`
+            - `percent-04`, `PERCENT-04`
             - `group-05`, `GROUP-05`
             - `stock-06`, `STOCK-06`
             ### 3. معیارهای ارزیابی:
+            - **Precision**: از entities که LLM شناسایی کرده، چند درصد درست بودند؟
+            - **Recall**: از entities مرجع، چند درصد توسط LLM پیدا شدند؟
             - **F1-Score**: میانگین هماهنگ Precision و Recall
             </div>
             """)
         Made with ❤️ for Persian NLP Community
+        <small>Version 1.0.1</small>
         </div>
         """)
                     "❌ لطفاً فایل CSV را بارگذاری کنید",
                     gr.Markdown(visible=False),
                     gr.Dataframe(visible=False),
+                    gr.Button(visible=False),
+                    gr.File(visible=False)
                 )
             try:
+                print(f"\n{'='*60}")
+                print(f"شروع ارزیابی فایل: {file}")
+                print(f"{'='*60}\n")
                 # ارزیابی
                 success, message, df = evaluator.evaluate_dataset(file)
                 if not success:
+                    print(f"❌ ارزیابی ناموفق: {message}")
                     return (
                         f"❌ {message}",
                         gr.Markdown(visible=False),
                         gr.Dataframe(visible=False),
+                        gr.Button(visible=False),
+                        gr.File(visible=False)
                     )
+                print(f"✅ ارزیابی موفق!")
                 # تولید گزارش
                 summary = evaluator.generate_report(df)
                 # نمایش نتایج
                 return (
                     message,
                     gr.Markdown(value=summary, visible=True),
                     gr.Dataframe(value=df.head(10), visible=True),
+                    gr.Button(visible=True),
+                    gr.File(visible=False)
                 )
             except Exception as e:
+                import traceback
+                error_details = traceback.format_exc()
+                print(f"❌ خطای غیرمنتظره:\n{error_details}")
                 return (
+                    f"❌ خطای غیرمنتظره:\n\n{str(e)}\n\nلطفاً فایل CSV را بررسی کنید.",
                     gr.Markdown(visible=False),
                     gr.Dataframe(visible=False),
+                    gr.Button(visible=False),
+                    gr.File(visible=False)
+                )
+        def download_results():
+            """تابع دانلود نتایج"""
+            try:
+                csv_path = evaluator.create_downloadable_csv()
+                if csv_path and os.path.exists(csv_path):
+                    return (
+                        "✅ فایل نتایج آماده دانلود است",
+                        gr.File(value=csv_path, visible=True)
+                    )
+                else:
+                    return (
+                        "❌ خطا در ایجاد فایل نتایج",
+                        gr.File(visible=False)
+                    )
+            except Exception as e:
+                return (
+                    f"❌ خطا: {str(e)}",
+                    gr.File(visible=False)
                 )
+        # اتصال event ها
         evaluate_btn.click(
             fn=evaluate_file,
             inputs=[file_input],
+            outputs=[status_output, summary_output, results_table, download_btn, download_file]
+        )
+        download_btn.click(
+            fn=download_results,
+            outputs=[status_output, download_file]
         )
     return demo
 # ==================== Main ====================
 if __name__ == "__main__":
+    print("="*60)
+    print("🎯 NER Anonymization Evaluator")
+    print("="*60)
+    print(f"seqeval available: {SEQEVAL_AVAILABLE}")
+    print("="*60)
     # ایجاد و اجرای interface
     demo = create_interface()
     demo.launch(
         server_name="0.0.0.0",
         server_port=7860,
         share=False
+    )