Spaces:

leilaghomashchi
/

Benchmark-data-anonymization

Sleeping

App Files Files Community

leilaghomashchi commited on Sep 29, 2025

Commit

b419e86

verified ·

1 Parent(s): fc2da02

Update app.py

Browse files

Files changed (1) hide show

app.py +149 -9

app.py CHANGED Viewed

@@ -349,14 +349,28 @@ class StandardNEREvaluator:
             for col in df.columns:
                 results_df[col] = df[col].values
-            # ترتیب ستون‌ها
             metric_cols = [
                 'seqeval_precision', 'seqeval_recall', 'seqeval_f1', 'seqeval_accuracy',
                 'exact_precision', 'exact_recall', 'exact_f1',
                 'tp_count', 'fp_count', 'fn_count'
             ]
-            other_cols = [col for col in results_df.columns if col not in metric_cols]
-            results_df = results_df[metric_cols + other_cols]
             self.results_df = results_df
@@ -390,11 +404,19 @@ class StandardNEREvaluator:
 • مرجع (انسانی): {reference_col}
 • پیش‌بینی (LLM): {predicted_col}
-🔬 **مقایسه روش‌ها:**
 • F1 (seqeval): {avg_seqeval_f1:.4f}
 • F1 (Exact): {avg_exact_f1:.4f}
 • اختلاف: {abs(avg_seqeval_f1 - avg_exact_f1):.4f}
 ✅ این ارزیابی مطابق با استانداردهای CoNLL-2003 است"""
             return True, status, results_df
@@ -620,9 +642,10 @@ def create_interface():
         # جدول نتایج
         results_table = gr.Dataframe(
-            label="نتایج تفصیلی (10 سطر اول)",
             visible=False,
-            wrap=True
         )
         # فایل دانلود
@@ -655,7 +678,50 @@ def create_interface():
             ابزار **Reference_text** را به عنوان جواب صحیح در نظر می‌گیرد و **anonymized_text** را با آن مقایسه می‌کند.
-            ### 2. فرمت‌های پشتیبانی شده:
             - `company-01`, `COMPANY-01`, `COMPANY_001_REGEX`
             - `person-02`, `PERSON-02`, `PERSON_002_REGEX`
@@ -664,15 +730,89 @@ def create_interface():
             - `group-05`, `GROUP-05`
             - `stock-06`, `STOCK-06`
-            ### 3. معیارهای ارزیابی:
             - **Precision**: از entities که LLM شناسایی کرده، چند درصد درست بودند؟
             - **Recall**: از entities مرجع، چند درصد توسط LLM پیدا شدند؟
-            - **F1-Score**: میانگین هماهنگ Precision و Recall
             </div>
             """)
         # فوتر
         gr.Markdown("""
         ---

             for col in df.columns:
                 results_df[col] = df[col].values
+            # ترتیب ستون‌ها: متریک‌ها + سه ستون اصلی + بقیه
             metric_cols = [
                 'seqeval_precision', 'seqeval_recall', 'seqeval_f1', 'seqeval_accuracy',
                 'exact_precision', 'exact_recall', 'exact_f1',
                 'tp_count', 'fp_count', 'fn_count'
             ]
+            # سه ستون اصلی (اگر موجود باشند)
+            main_cols = []
+            if 'original_text' in results_df.columns:
+                main_cols.append('original_text')
+            if 'Reference_text' in results_df.columns:
+                main_cols.append('Reference_text')
+            if 'anonymized_text' in results_df.columns:
+                main_cols.append('anonymized_text')
+            # بقیه ستون‌ها (اگر چیز دیگری هست)
+            other_cols = [col for col in results_df.columns
+                         if col not in metric_cols and col not in main_cols]
+            # ترتیب نهایی: متریک‌ها + ستون‌های اصلی + بقیه
+            results_df = results_df[metric_cols + main_cols + other_cols]
             self.results_df = results_df
 • مرجع (انسانی): {reference_col}
 • پیش‌بینی (LLM): {predicted_col}
+📊 **مقایسه روش‌ها:**
 • F1 (seqeval): {avg_seqeval_f1:.4f}
 • F1 (Exact): {avg_exact_f1:.4f}
 • اختلاف: {abs(avg_seqeval_f1 - avg_exact_f1):.4f}
+📋 **ستون‌های خروجی:**
+• 10 متریک ارزیابی (seqeval & exact match)
+• original_text - متن خام اصلی
+• Reference_text - ناشناس‌سازی انسانی (مرجع)
+• anonymized_text - ناشناس‌سازی LLM (پیش‌بینی)
+💾 **نکته:** فایل CSV دانلودی شامل همه {len(df)} سطر و تمام ستون‌ها است
 ✅ این ارزیابی مطابق با استانداردهای CoNLL-2003 است"""
             return True, status, results_df
         # جدول نتایج
         results_table = gr.Dataframe(
+            label="نتایج تفصیلی (10 سطر اول) - شامل متریک‌ها و هر 3 ستون متن",
             visible=False,
+            wrap=True,
+            column_widths=["10%", "10%", "10%", "10%", "10%", "10%", "10%", "5%", "5%", "5%", "20%", "20%", "20%"]
         )
         # فایل دانلود
             ابزار **Reference_text** را به عنوان جواب صحیح در نظر می‌گیرد و **anonymized_text** را با آن مقایسه می‌کند.
+            ---
+            ## 📊 ستون‌های خروجی (جدول و CSV):
+            ### بخش 1️⃣: متریک‌های seqeval (4 ستون)
+            - `seqeval_precision` - دقت با IOB2 tagging
+            - `seqeval_recall` - بازخوانی با IOB2 tagging
+            - `seqeval_f1` - **F1-Score (مهم‌ترین متریک)**
+            - `seqeval_accuracy` - دقت کلی
+            ### بخش 2️⃣: متریک‌های Exact Match (3 ستون)
+            - `exact_precision` - دقت با مقایسه مستقیم
+            - `exact_recall` - بازخوانی با مقایسه مستقیم
+            - `exact_f1` - F1 برای مقایسه
+            ### بخش 3️⃣: آمار خطاها (3 ستون)
+            - `tp_count` - تعداد True Positives (درست)
+            - `fp_count` - تعداد False Positives (اضافی)
+            - `fn_count` - تعداد False Negatives (فراموش شده)
+            ### بخش 4️⃣: متن‌های اصلی (3 ستون)
+            - `original_text` - متن خام
+            - `Reference_text` - ناشناس‌سازی انسانی
+            - `anonymized_text` - ناشناس‌سازی LLM
+            **جمع کل: 13 ستون در فایل خروجی** ✅
+            ---
+            ## 🎯 مثال خروجی:
+            ```csv
+            seqeval_f1,tp_count,fp_count,fn_count,original_text,Reference_text,anonymized_text
+            0.5000,1,1,1,"شرکت فولاد...","شرکت company-01...","شرکت company-01..."
+            ```
+            ### تفسیر این سطر:
+            - F1 = 0.5 (متوسط)
+            - 1 entity درست، 1 اضافی، 1 فراموش شده
+            - LLM نیمی از entities را درست تشخیص داده
+            ---
+            ## 2️⃣ فرمت‌های پشتیبانی شده:
             - `company-01`, `COMPANY-01`, `COMPANY_001_REGEX`
             - `person-02`, `PERSON-02`, `PERSON_002_REGEX`
             - `group-05`, `GROUP-05`
             - `stock-06`, `STOCK-06`
+            ---
+            ## 3️⃣ معیارهای ارزیابی:
             - **Precision**: از entities که LLM شناسایی کرده، چند درصد درست بودند؟
             - **Recall**: از entities مرجع، چند درصد توسط LLM پیدا شدند؟
+            - **F1-Score**: میانگین هماهنگ Precision و Recall ← **مهم‌ترین!**
+            ### راهنمای F1-Score:
+            - 🟢 F1 ≥ 0.9: عالی
+            - 🟡 F1 = 0.7-0.9: خوب
+            - 🔴 F1 < 0.7: نیاز به بهبود
             </div>
             """)
+        # مثال
+        with gr.Accordion("💡 مثال تفسیر نتایج", open=False):
+            gr.Markdown("""
+            <div class="rtl">
+            ## مثال کامل:
+            ### ورودی:
+            ```
+            original_text:   "شرکت فولاد با person و amount"
+            Reference_text:  "شرکت company-01 با person-02 و amount-03"
+            anonymized_text: "شرکت company-01 با person-99 و amount-03"
+            ```
+            ### تحلیل:
+            - ✅ `company-01` درست (TP)
+            - ✅ `amount-03` درست (TP)
+            - ❌ `person-99` اشتباه (FP + FN)
+            - ❌ `person-02` فراموش شد
+            ### نتایج:
+            ```
+            seqeval_precision: 0.6667  (2 از 3 درست)
+            seqeval_recall: 0.6667     (2 از 3 پیدا شد)
+            seqeval_f1: 0.6667
+            tp_count: 2
+            fp_count: 1
+            fn_count: 1
+            ```
+            ### تفسیر:
+            - F1 = 0.67 (عملکرد متوسط)
+            - مشکل: LLM شناسه person را اشتباه تشخیص داده
+            - **راه‌حل:** بهبود prompt برای تشخیص دقیق‌تر شناسه‌ها
+            ---
+            ## نحوه استفاده از CSV خروجی:
+            ### 1. در Excel:
+            - ستون‌های متریک را با conditional formatting رنگ کنید
+            - سطرهای با F1 < 0.5 را پررنگ کنید
+            - برای بهبود مدل، این سطرها را بررسی کنید
+            ### 2. در Python:
+            ```python
+            import pandas as pd
+            df = pd.read_csv('evaluation_results.csv')
+            # سطرهای ضعیف
+            weak = df[df['seqeval_f1'] < 0.5]
+            print(f"سطرهای ضعیف: {len(weak)}")
+            # بررسی خطاها
+            print(f"کل FP: {df['fp_count'].sum()}")
+            print(f"کل FN: {df['fn_count'].sum()}")
+            ```
+            ### 3. برای تحلیل:
+            - سطرهای با `fp_count` زیاد → LLM entities اضافی می‌سازد
+            - سطرهای با `fn_count` زیاد → LLM entities را فراموش می‌کند
+            - سطرهای با `F1 = 1.0` → الگوهای موفق
+            </div>
+            """)
         # فوتر
         gr.Markdown("""
         ---