Update app.py
Browse files
app.py
CHANGED
|
@@ -43,8 +43,10 @@ class AdvancedCerebrasAnonymizer:
|
|
| 43 |
- اگر "مهدی احمدی" اولبار person-01 شد، در تمام متن همان باشد
|
| 44 |
|
| 45 |
### **3. تشخیص صحیح انواع:**
|
| 46 |
-
**شرکت/سازمان:** همراه اول، بانک ملی، ایرانخودرو، سایپا، بانک مرکزی، سامانه کدال، وزارت
|
| 47 |
**⚠️ CRITICAL - گروهها:** "گروه همراه اول"، "گروه اقتصادی آزادگان"، "گروه مالی صبا" → همه company-XX هستند (نه group-XX)
|
|
|
|
|
|
|
| 48 |
**شخص:** مهدی اخوان بهابادی، محمدرضا فرزین، ابوالفضل نجارزاده
|
| 49 |
**عدد:** 37، 70، 677، 73.7، 178 (هر عددی)
|
| 50 |
**درصد:** 37 درصدی، 15 درصدی، 53 درصد، 43%
|
|
@@ -74,6 +76,21 @@ class AdvancedCerebrasAnonymizer:
|
|
| 74 |
**خروجی:** company-01 در ۹ ماه سال amount-01 درآمد کسب کرد. عملکرد ۵ ماهه شرکت نشاندهنده رشد percent-01 است. در ۳ ماهه اول سال سود amount-02 شناسایی شد.
|
| 75 |
⚠️ **توجه:** "۹ ماه" و "۵ ماهه" و "۳ ماهه اول" → حفظ شوند (نه amount)
|
| 76 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 77 |
## **تشخیص دقیق درصدها:**
|
| 78 |
- "37 درصدی" → percent-01 (نه amount)
|
| 79 |
- "15 درصد" → percent-02 (نه amount)
|
|
@@ -103,9 +120,11 @@ class AdvancedCerebrasAnonymizer:
|
|
| 103 |
|
| 104 |
## **موارد حفظ شده:**
|
| 105 |
- تاریخها: 1404/04/23، 30 آذر 1403، پاییز 1401
|
|
|
|
| 106 |
- عناوین شغلی: مدیرعامل، رئیس کل، مدیرکل
|
| 107 |
- واحدها: میلیارد تومان، همت، ریال، ماه، سال
|
| 108 |
- مکانها: تهران، اصفهان، ایران
|
|
|
|
| 109 |
- ⚠️ **CRITICAL - دورههای زمانی:** "۵ ماهه سال"، "۹ ماهه"، "۳ ماهه اول"، "۶ ماهه منتهی به" → حفظ شوند (نه amount-XX)
|
| 110 |
|
| 111 |
## **ممنوع:**
|
|
@@ -121,8 +140,10 @@ class AdvancedCerebrasAnonymizer:
|
|
| 121 |
|
| 122 |
انواع موجودیتها:
|
| 123 |
|
| 124 |
-
company-XX: نام شرکتها، سازمانها، بانکها، هلدینگها، گروههای مالی (مثال: ایران خودرو، بانک ملی، گروه مالی صبا، گروه اقتصادی آزادگان، سازمان
|
| 125 |
-
⚠️
|
|
|
|
|
|
|
| 126 |
|
| 127 |
person-XX: نام و نام خانوادگی اشخاص (مثال: محمد رضایی، مهدی اخوان بهابادی، فرجاله قدمی)
|
| 128 |
|
|
@@ -136,15 +157,17 @@ percent-XX: درصدها و نسبتها (مثال: ۴.۵۸ درصد، ۷۵
|
|
| 136 |
|
| 137 |
2. حفظ هویت یکسان: اگر همان موجودیت دوباره آمد، از همان شماره استفاده کن. مثلا "ایران خودرو" در جمله اول و "این شرکت" در جمله دوم هر دو company-01 هستند.
|
| 138 |
|
| 139 |
-
3. تشخیص نامهای مختلف: "فولاد مبارکه اصفهان" و "فولاد مبارکه" و "این شرکت" همه company-01 هستند. "همراه اول" و "گروه همراه اول" و "این اپراتور" همه company-01 هستند. اما "بانک پاسارگاد" و "سرزمین هوشمند پاد" دو company مختلف هستند.
|
|
|
|
|
|
|
| 140 |
|
| 141 |
-
|
| 142 |
|
| 143 |
-
|
| 144 |
|
| 145 |
-
|
| 146 |
|
| 147 |
-
|
| 148 |
|
| 149 |
نمونههای آموزشی:
|
| 150 |
|
|
@@ -174,6 +197,22 @@ percent-XX: درصدها و نسبتها (مثال: ۴.۵۸ درصد، ۷۵
|
|
| 174 |
متن اصلی: گزارش عملکرد ۵ ماهه سال 1403 نشان میدهد همراه اول در ۹ ماه سال 49 هزار میلیارد تومان درآمد کسب کرده و رشد 37 درصدی داشته است. سود ۳ ماهه اول به 8003 میلیارد تومان رسید.
|
| 175 |
متن ناشناسشده: گزارش عملکرد ۵ ماهه سال 1403 نشان میدهد company-01 در ۹ ماه سال amount-01 درآمد کسب کرده و رشد percent-01 داشته است. سود ۳ ماهه اول به amount-02 رسید.
|
| 176 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 177 |
حالا وظیفه شما: متن زیر را طبق الگوی بالا ناشناسسازی کنید. فقط متن ناشناسشده را بدون هیچ توضیح اضافه برگردانید.
|
| 178 |
|
| 179 |
|
|
@@ -700,12 +739,12 @@ def create_advanced_interface():
|
|
| 700 |
# مثالهای پیشرفته
|
| 701 |
gr.Examples(
|
| 702 |
examples=[
|
|
|
|
|
|
|
|
|
|
| 703 |
["گزارش عملکرد ۵ ماهه سال 1403 نشان میدهد همراه اول در ۹ ماه سال 49 هزار میلیارد تومان درآمد کسب کرده و رشد 37 درصدی داشته است. سود ۳ ماهه اول به 8003 میلیارد تومان رسید."],
|
| 704 |
-
["شرکت صنایع غذایی مینو شرق جزء واحدهای تجاری فرعی شرکت صنعتی مینو و واحدهای تجاری نهایی گروه شرکت اقتصادی و خودکفایی آزادگان میباشد.
|
| 705 |
-
["
|
| 706 |
-
["بانک پاسارگاد با شناسایی سود خالص 155 هزار میلیارد ریالی در رده دوم سودآورترین بانکهای کشور قرار گرفت."],
|
| 707 |
-
["مهدی اخوان بهابادی، مدیرعامل همراه اول، اعلام کرد درآمد عملیاتی شرکت با رشد 37 درصدی به 70 هزار و 677 میلیارد تومان رسیده است."],
|
| 708 |
-
["گروه دتا با سود خالص 45.3 میلیارد تومان و EPS برابر 2850 ریال، رشد 15.7 درصدی نسبت به مدت مشابه سال قبل داشته است."]
|
| 709 |
],
|
| 710 |
inputs=input_text,
|
| 711 |
label="📚 مثالهای پیشرفته آزمایشی"
|
|
@@ -725,17 +764,22 @@ def create_advanced_interface():
|
|
| 725 |
### 🏷️ انواع برچسبها:
|
| 726 |
- **company-XX:** شرکتها، سازمانها، برندها، نهادها، **گروهها**
|
| 727 |
- ⚠️ **مهم:** "گروه همراه اول"، "گروه اقتصادی آزادگان" → همه company-XX هستند
|
|
|
|
|
|
|
|
|
|
| 728 |
- **person-XX:** اشخاص حقیقی (نام و نامخانوادگی)
|
| 729 |
- **amount-XX:** تمام اعداد (پولی، تعدادی، حجمی، زمانی)
|
| 730 |
- **percent-XX:** درصدها و بازههای درصدی
|
| 731 |
|
| 732 |
### ✅ موارد حفظ شده:
|
| 733 |
- 📅 تاریخها و ساعتها
|
|
|
|
| 734 |
- 🏢 عناوین شغلی و نقشها
|
| 735 |
- 📏 واحدها (تومان، ریال، میلیارد، تن، ...)
|
| 736 |
- 📈 شاخصهای مالی (EPS, P/E, ARPU, NPL)
|
| 737 |
- 🗺️ نام مکانها و آدرسها
|
| 738 |
- 📝 ساختار جمله و لحن
|
|
|
|
| 739 |
- ⏰ **دورههای زمانی:** "۵ ماهه سال"، "۹ ماهه"، "۳ ماهه اول" (حفظ میشوند)
|
| 740 |
|
| 741 |
### 🔍 کنترل کیفیت:
|
|
|
|
| 43 |
- اگر "مهدی احمدی" اولبار person-01 شد، در تمام متن همان باشد
|
| 44 |
|
| 45 |
### **3. تشخیص صحیح انواع:**
|
| 46 |
+
**شرکت/سازمان:** همراه اول، بانک ملی، ایرانخودرو، سایپا، بانک مرکزی، سامانه کدال، وزارت نفت، سازمان تنظیم مقررات رادیویی، سازمان تامین اجتماعی
|
| 47 |
**⚠️ CRITICAL - گروهها:** "گروه همراه اول"، "گروه اقتصادی آزادگان"، "گروه مالی صبا" → همه company-XX هستند (نه group-XX)
|
| 48 |
+
**⚠️ CRITICAL - کلمات عمومی:** "سه شرکت دارویی"، "چند بانک"، "یک شرکت" → کلمات عمومی هستند، موجودیت نیستند (حفظ شوند)
|
| 49 |
+
**⚠️ CRITICAL - نامهای مستعار:** "فاما" همان "فولاد مبارکه اصفهان" است → هر دو company-01
|
| 50 |
**شخص:** مهدی اخوان بهابادی، محمدرضا فرزین، ابوالفضل نجارزاده
|
| 51 |
**عدد:** 37، 70، 677، 73.7، 178 (هر عددی)
|
| 52 |
**درصد:** 37 درصدی، 15 درصدی، 53 درصد، 43%
|
|
|
|
| 76 |
**خروجی:** company-01 در ۹ ماه سال amount-01 درآمد کسب کرد. عملکرد ۵ ماهه شرکت نشاندهنده رشد percent-01 است. در ۳ ماهه اول سال سود amount-02 شناسایی شد.
|
| 77 |
⚠️ **توجه:** "۹ ماه" و "۵ ماهه" و "۳ ماهه اول" → حفظ شوند (نه amount)
|
| 78 |
|
| 79 |
+
### **مثال 6 (مهم - کلمات عمومی):**
|
| 80 |
+
**ورودی:** سازمان تامین اجتماعی دارای سه شرکت دارویی است که از مراکز درمانی وابسته به وزارت بهداشت مطالباتی دارند.
|
| 81 |
+
**خروجی:** company-01 دارای سه شرکت دارویی است که از مراکز درمانی وابسته به company-02 مطالباتی دارند.
|
| 82 |
+
⚠️ **توجه:** "سه شرکت دارویی" و "مراکز درمانی" → کلمات عمومی هستند، حفظ شوند
|
| 83 |
+
|
| 84 |
+
### **مثال 7 (مهم - نامهای مستعار و فصلها):**
|
| 85 |
+
**ورودی:** براساس آخرین گزارش سازمان تنظیم مقررات رادیویی در پاییز ۱۴۰۱ تعداد مشترکین تلفن همراه در ایران به بالای ۱۴۵ میلیون نفر رسیده است. همراه اول با سهمی ۵۳ درصدی بیشترین نقش را دارد.
|
| 86 |
+
**خروجی:** براساس آخرین گزارش company-01 در پاییز ۱۴۰۱ تعداد مشترکین تلفن همراه در ایران به بالای amount-01 رسیده است. company-02 با سهمی percent-01 بیشترین نقش را دارد.
|
| 87 |
+
⚠️ **توجه:** "پاییز" → حفظ شود (فصل سال)
|
| 88 |
+
|
| 89 |
+
### **مثال 8 (مهم - نام مستعار):**
|
| 90 |
+
**ورودی:** شرکت فولاد مبارکه اصفهان با همکاری شرکت ملی نفت ایران، قرارداد توسعه میدان گازی مدار را امضا کرد. شرکت فاما قصد دارد سرمایه خود را از ۸،۷۰۰ میلیارد ریال به ۱۲،۵۰۰ میلیارد ریال افزایش دهد.
|
| 91 |
+
**خروجی:** company-01 با همکاری company-02، قرارداد توسعه میدان گازی مدار را امضا کرد. company-01 قصد دارد سرمایه خود را از amount-01 به amount-02 افزایش دهد.
|
| 92 |
+
⚠️ **توجه:** "فاما" همان "فولاد مبارکه اصفهان" است → هر دو company-01
|
| 93 |
+
|
| 94 |
## **تشخیص دقیق درصدها:**
|
| 95 |
- "37 درصدی" → percent-01 (نه amount)
|
| 96 |
- "15 درصد" → percent-02 (نه amount)
|
|
|
|
| 120 |
|
| 121 |
## **موارد حفظ شده:**
|
| 122 |
- تاریخها: 1404/04/23، 30 آذر 1403، پاییز 1401
|
| 123 |
+
- فصلهای سال: پاییز، بهار، تابستان، زمستان (حفظ شوند، موجودیت نیستند)
|
| 124 |
- عناوین شغلی: مدیرعامل، رئیس کل، مدیرکل
|
| 125 |
- واحدها: میلیارد تومان، همت، ریال، ماه، سال
|
| 126 |
- مکانها: تهران، اصفهان، ایران
|
| 127 |
+
- کلمات عمومی: "سه شرکت دارویی"، "چند بانک"، "یک شرکت"، "مراکز درمانی" (بدون نام خاص)
|
| 128 |
- ⚠️ **CRITICAL - دورههای زمانی:** "۵ ماهه سال"، "۹ ماهه"، "۳ ماهه اول"، "۶ ماهه منتهی به" → حفظ شوند (نه amount-XX)
|
| 129 |
|
| 130 |
## **ممنوع:**
|
|
|
|
| 140 |
|
| 141 |
انواع موجودیتها:
|
| 142 |
|
| 143 |
+
company-XX: نام شرکتها، سازمانها، بانکها، هلدینگها، گروههای مالی (مثال: ایران خودرو، بانک ملی، گروه مالی صبا، گروه اقتصادی آزادگان، سازمان حسابرسی، سازمان تنظیم مقررات رادیویی، سازمان تامین اجتماعی)
|
| 144 |
+
⚠️ **توجه 1:** "گروه X" همیشه company-XX است، نه group-XX
|
| 145 |
+
⚠️ **توجه 2:** "فاما" = "فولاد مبارکه اصفهان" → هر دو company-01
|
| 146 |
+
⚠️ **توجه 3:** کلمات عمومی مثل "سه شرکت دارویی"، "چند بانک"، "مراکز درمانی" → حفظ شوند (موجودیت نیستند)
|
| 147 |
|
| 148 |
person-XX: نام و نام خانوادگی اشخاص (مثال: محمد رضایی، مهدی اخوان بهابادی، فرجاله قدمی)
|
| 149 |
|
|
|
|
| 157 |
|
| 158 |
2. حفظ هویت یکسان: اگر همان موجودیت دوباره آمد، از همان شماره استفاده کن. مثلا "ایران خودرو" در جمله اول و "این شرکت" در جمله دوم هر دو company-01 هستند.
|
| 159 |
|
| 160 |
+
3. تشخیص نامهای مختلف: "فولاد مبارکه اصفهان" و "فولاد مبارکه" و "این شرکت" و "فاما" همه company-01 هستند. "همراه اول" و "گروه همراه اول" و "این اپراتور" همه company-01 هستند. اما "بانک پاسارگاد" و "سرزمین هوشمند پاد" دو company مختلف هستند.
|
| 161 |
+
|
| 162 |
+
4. ⚠️ **کلمات عمومی را موجودیت نگیر:** "سه شرکت دارویی"، "چند بانک"، "یک شرکت"، "مراکز درمانی" → حفظ شوند (موجودیت نیستند). فقط زمانی که نام خاص همراه است، موجودیت است: "شرکت ملی نفت" → company-XX
|
| 163 |
|
| 164 |
+
5. ⚠️ **گروهها = company:** "گروه X" همیشه company-XX است، نه group-XX. مثلاً "گروه اقتصادی آزادگان" → company-03
|
| 165 |
|
| 166 |
+
6. مبالغ و درصدهای مختلف: هر عدد جدید، شماره جدید میگیرد
|
| 167 |
|
| 168 |
+
7. حفظ ساختار: ساختار جمله را حفظ کن، تاریخها و فصلها را تغییر نده، کلمات توصیفی مثل "شرکت"، "بانک"، "گروه" را قبل از برچسب حفظ کن
|
| 169 |
|
| 170 |
+
8. هیچ توضیح اضافهای نده: فقط متن ناشناسشده را برگردان، بدون توضیح یا تفسیر
|
| 171 |
|
| 172 |
نمونههای آموزشی:
|
| 173 |
|
|
|
|
| 197 |
متن اصلی: گزارش عملکرد ۵ ماهه سال 1403 نشان میدهد همراه اول در ۹ ماه سال 49 هزار میلیارد تومان درآمد کسب کرده و رشد 37 درصدی داشته است. سود ۳ ماهه اول به 8003 میلیارد تومان رسید.
|
| 198 |
متن ناشناسشده: گزارش عملکرد ۵ ماهه سال 1403 نشان میدهد company-01 در ۹ ماه سال amount-01 درآمد کسب کرده و رشد percent-01 داشته است. سود ۳ ماهه اول به amount-02 رسید.
|
| 199 |
|
| 200 |
+
نمونه ۷:
|
| 201 |
+
متن اصلی: سازمان تامین اجتماعی دارای سه شرکت دارویی است که از مراکز درمانی وابسته به وزارت بهداشت مطالباتی دارند.
|
| 202 |
+
متن ناشناسشده: company-01 دارای سه شرکت دارویی است که از مراکز درمانی وابسته به company-02 مطالباتی دارند.
|
| 203 |
+
|
| 204 |
+
نمونه ۸:
|
| 205 |
+
متن اصلی: براساس آخرین گزارش سازمان تنظیم مقررات رادیویی در پاییز ۱۴۰�� تعداد مشترکین تلفن همراه در ایران به بالای ۱۴۵ میلیون نفر رسیده که نسبت به سال گذشته حدود ۷.۲ درصد رشد داشته است. در حال حاضر همراه اول با سهمی ۵۳ درصدی از بازار مشترکین فعال بیشترین نقش را در ارتباطات تلفن همراه دارد. بعد از آن ایرانسل با ۴۳ درصد و رایتل با ۴ درصد در رتبههای بعدی قرار دارند.
|
| 206 |
+
متن ناشناسشده: براساس آخرین گزارش company-01 در پاییز ۱۴۰۱ تعداد مشترکین تلفن همراه در ایران به بالای amount-01 رسیده که نسبت به سال گذشته حدود percent-01 رشد داشته است. در حال حاضر company-02 با سهمی percent-02 از بازار مشترکین فعال بیشترین نقش را در ارتباطات تلفن همراه دارد. بعد از آن company-03 با percent-03 و company-04 با percent-04 در رتبههای بعدی قرار دارند.
|
| 207 |
+
|
| 208 |
+
نمونه ۹:
|
| 209 |
+
متن اصلی: شرکت فولاد مبارکه اصفهان با همکاری شرکت ملی نفت ایران، قرارداد توسعه میدان گازی مدار را امضا کرد. شرکت فاما قصد دارد سرمایه خود را از ۸،۷۰۰ میلیارد ریال به ۱۲،۵۰۰ میلیارد ریال افزایش دهد. این افزایش از محل سود انباشته و با هدف اصلاح ساختار مالی و بهرهمندی از معافیتهای مالیاتی صورت میگیرد.
|
| 210 |
+
متن ناشناسشده: company-01 با همکاری company-02، قرارداد توسعه میدان گازی مدار را امضا کرد. company-01 قصد دارد سرمایه خود را از amount-01 به amount-02 افزایش دهد. این افزایش از محل سود انباشته و با هدف اصلاح ساختار مالی و بهرهمندی از معافیتهای مالیاتی صورت میگیرد.
|
| 211 |
+
|
| 212 |
+
نمونه ۱۰:
|
| 213 |
+
متن اصلی: دو بانک ملت و پاسارگاد به ترتیب با شناسایی سود خالص 157 و 155 هزار میلیارد ریالی رقابت تنگاتنگی داشته و در ردههای اول و دوم جای دارند. مجموع بانکهای مورد بررسی در پایان اسفند ماه سال 1400 زیان انباشتهای معادل 1388 هزار میلیارد ریال داشتهاند که نسبت به اسفند ماه سال 1399 این زیان انباشته 10 درصد افزایش یافته است. بررسی آخرین صورتهای مالی بانکهای دولتی و خصوصی حاکی از آن است که 12 بانک کشور، در پایان سال 1401 در مجموع زیان انباشته سنگین 336 هزار میلیارد تومانی را رقم زدهاند.
|
| 214 |
+
متن ناشناسشده: دو بانک company-01 و company-02 به ترتیب با شناسایی سود خالص amount-01 و amount-02 رقابت تنگاتنگی داشته و در ردههای اول و دوم جای دارند. مجموع بانکهای مورد بررسی در پایان اسفند ماه سال 1400 زیان انباشتهای معادل amount-03 داشتهاند که نسبت به اسفند ماه سال 1399 این زیان انباشته percent-01 افزایش یافته است. بررسی آخرین صورتهای مالی بانکهای دولتی و خصوصی حاکی از آن است که 12 بانک کشور، در پایان سال 1401 در مجموع زیان انباشته سنگین amount-04 را رقم زدهاند.
|
| 215 |
+
|
| 216 |
حالا وظیفه شما: متن زیر را طبق الگوی بالا ناشناسسازی کنید. فقط متن ناشناسشده را بدون هیچ توضیح اضافه برگردانید.
|
| 217 |
|
| 218 |
|
|
|
|
| 739 |
# مثالهای پیشرفته
|
| 740 |
gr.Examples(
|
| 741 |
examples=[
|
| 742 |
+
["سازمان تامین اجتماعی دارای سه شرکت دارویی است که از مراکز درمانی وابسته به وزارت بهداشت مطالباتی دارند."],
|
| 743 |
+
["براساس آخرین گزارش سازمان تنظیم مقررات رادیویی در پاییز ۱۴۰۱ تعداد مشترکین تلفن همراه در ایران به بالای ۱۴۵ میلیون نفر رسیده که نسبت به سال گذشته حدود ۷.۲ درصد رشد داشته است. در حال حاضر همراه اول با سهمی ۵۳ درصدی از بازار مشترکین فعال بیشترین نقش را در ارتباطات تلفن همراه دارد. بعد از آن ایرانسل با ۴۳ درصد و رایتل با ۴ درصد در رتبههای بعدی قرار دارند."],
|
| 744 |
+
["شرکت فولاد مبارکه اصفهان با ه��کاری شرکت ملی نفت ایران، قرارداد توسعه میدان گازی مدار را امضا کرد. شرکت فاما قصد دارد سرمایه خود را از ۸،۷۰۰ میلیارد ریال به ۱۲،۵۰۰ میلیارد ریال افزایش دهد."],
|
| 745 |
["گزارش عملکرد ۵ ماهه سال 1403 نشان میدهد همراه اول در ۹ ماه سال 49 هزار میلیارد تومان درآمد کسب کرده و رشد 37 درصدی داشته است. سود ۳ ماهه اول به 8003 میلیارد تومان رسید."],
|
| 746 |
+
["شرکت صنایع غذایی مینو شرق جزء واحدهای تجاری فرعی شرکت صنعتی مینو و واحدهای تجاری نهایی گروه شرکت اقتصادی و خودکفایی آزادگان میباشد."],
|
| 747 |
+
["مهدی اخوان بهابادی، مدیرعامل همراه اول، اعلام کرد درآمد عملیاتی شرکت با رشد 37 درصدی به 70 هزار و 677 میلیارد تومان رسیده است."]
|
|
|
|
|
|
|
|
|
|
| 748 |
],
|
| 749 |
inputs=input_text,
|
| 750 |
label="📚 مثالهای پیشرفته آزمایشی"
|
|
|
|
| 764 |
### 🏷️ انواع برچسبها:
|
| 765 |
- **company-XX:** شرکتها، سازمانها، برندها، نهادها، **گروهها**
|
| 766 |
- ⚠️ **مهم:** "گروه همراه اول"، "گروه اقتصادی آزادگان" → همه company-XX هستند
|
| 767 |
+
- ⚠️ **مهم:** "فاما" = "فولاد مبارکه اصفهان" → هر دو company-01
|
| 768 |
+
- ⚠️ **مهم:** "سازمان تنظیم مقررات"، "سازمان تامین اجتماعی" → company-XX
|
| 769 |
+
- ❌ **نه:** "سه شرکت دارویی"، "چند بانک" → کلمات عمومی (حفظ شوند)
|
| 770 |
- **person-XX:** اشخاص حقیقی (نام و نامخانوادگی)
|
| 771 |
- **amount-XX:** تمام اعداد (پولی، تعدادی، حجمی، زمانی)
|
| 772 |
- **percent-XX:** درصدها و بازههای درصدی
|
| 773 |
|
| 774 |
### ✅ موارد حفظ شده:
|
| 775 |
- 📅 تاریخها و ساعتها
|
| 776 |
+
- 🍂 فصلهای سال (پاییز، بهار، تابستان، زمستان)
|
| 777 |
- 🏢 عناوین شغلی و نقشها
|
| 778 |
- 📏 واحدها (تومان، ریال، میلیارد، تن، ...)
|
| 779 |
- 📈 شاخصهای مالی (EPS, P/E, ARPU, NPL)
|
| 780 |
- 🗺️ نام مکانها و آدرسها
|
| 781 |
- 📝 ساختار جمله و لحن
|
| 782 |
+
- 🔤 کلمات عمومی بدون نام ("سه شرکت"، "چند بانک"، "مراکز درمانی")
|
| 783 |
- ⏰ **دورههای زمانی:** "۵ ماهه سال"، "۹ ماهه"، "۳ ماهه اول" (حفظ میشوند)
|
| 784 |
|
| 785 |
### 🔍 کنترل کیفیت:
|