Spaces:
Sleeping
Sleeping
Update app.py
Browse files
app.py
CHANGED
|
@@ -4,71 +4,12 @@ import os
|
|
| 4 |
import requests
|
| 5 |
import time
|
| 6 |
import logging
|
| 7 |
-
from packaging import version
|
| 8 |
|
| 9 |
# تنظیم logging
|
| 10 |
logging.basicConfig(level=logging.INFO)
|
| 11 |
logger = logging.getLogger(__name__)
|
| 12 |
|
| 13 |
-
|
| 14 |
-
"""راهاندازی خودکار مدلها در صورت عدم وجود"""
|
| 15 |
-
models_dir = "./models"
|
| 16 |
-
required_models = {
|
| 17 |
-
'bert-fa-ner': 'HooshvareLab/bert-fa-zwnj-base-ner',
|
| 18 |
-
'bert-base-NER': 'dslim/bert-base-NER',
|
| 19 |
-
}
|
| 20 |
-
|
| 21 |
-
missing_models = []
|
| 22 |
-
for model_name in required_models.keys():
|
| 23 |
-
model_path = os.path.join(models_dir, model_name)
|
| 24 |
-
if not os.path.exists(model_path) or not os.listdir(model_path):
|
| 25 |
-
missing_models.append(model_name)
|
| 26 |
-
|
| 27 |
-
if not missing_models:
|
| 28 |
-
logger.info("✅ All models are already available")
|
| 29 |
-
return True
|
| 30 |
-
|
| 31 |
-
logger.info(f"📥 Auto-downloading missing models: {missing_models}")
|
| 32 |
-
|
| 33 |
-
try:
|
| 34 |
-
from transformers import AutoTokenizer, AutoModelForTokenClassification
|
| 35 |
-
os.makedirs(models_dir, exist_ok=True)
|
| 36 |
-
|
| 37 |
-
for model_name in missing_models:
|
| 38 |
-
hf_repo = required_models[model_name]
|
| 39 |
-
model_path = os.path.join(models_dir, model_name)
|
| 40 |
-
logger.info(f"📥 Downloading {model_name} from {hf_repo}...")
|
| 41 |
-
try:
|
| 42 |
-
tokenizer = AutoTokenizer.from_pretrained(hf_repo)
|
| 43 |
-
model = AutoModelForTokenClassification.from_pretrained(hf_repo)
|
| 44 |
-
tokenizer.save_pretrained(model_path)
|
| 45 |
-
model.save_pretrained(model_path)
|
| 46 |
-
logger.info(f"✅ {model_name} downloaded successfully")
|
| 47 |
-
del tokenizer, model
|
| 48 |
-
except Exception as e:
|
| 49 |
-
logger.error(f"❌ Failed to download {model_name}: {e}")
|
| 50 |
-
if os.path.exists(model_path):
|
| 51 |
-
import shutil
|
| 52 |
-
shutil.rmtree(model_path)
|
| 53 |
-
|
| 54 |
-
logger.info("🎉 Auto-setup completed!")
|
| 55 |
-
return True
|
| 56 |
-
|
| 57 |
-
except ImportError:
|
| 58 |
-
logger.error("❌ transformers library not available for auto-download")
|
| 59 |
-
return False
|
| 60 |
-
except Exception as e:
|
| 61 |
-
logger.error(f"❌ Auto-setup failed: {e}")
|
| 62 |
-
return False
|
| 63 |
-
|
| 64 |
-
# اجرای auto-setup در startup
|
| 65 |
-
try:
|
| 66 |
-
auto_setup_models()
|
| 67 |
-
except Exception as e:
|
| 68 |
-
logger.warning(f"⚠️ Auto-setup encountered an issue: {e}")
|
| 69 |
-
logger.info("ℹ️ Continuing with manual setup...")
|
| 70 |
-
|
| 71 |
-
class SimpleAnonymizer:
|
| 72 |
def __init__(self):
|
| 73 |
self.mapping_table = {}
|
| 74 |
self.counters = {
|
|
@@ -80,7 +21,7 @@ class SimpleAnonymizer:
|
|
| 80 |
self.api_key = os.getenv("OPENAI_API_KEY", "")
|
| 81 |
|
| 82 |
def anonymize_text(self, original_text, lang='fa'):
|
| 83 |
-
"""ناشناسسازی
|
| 84 |
try:
|
| 85 |
if not original_text or not original_text.strip():
|
| 86 |
return "❌ Please enter input text!" if lang == 'en' else "❌ لطفاً متن ورودی را وارد کنید!"
|
|
@@ -91,33 +32,74 @@ class SimpleAnonymizer:
|
|
| 91 |
|
| 92 |
anonymized = original_text
|
| 93 |
|
| 94 |
-
# الگوهای
|
| 95 |
patterns = [
|
| 96 |
-
# شرکتها -
|
| 97 |
-
(r'
|
| 98 |
-
(r'
|
| 99 |
-
(r'
|
| 100 |
-
(r'
|
| 101 |
-
(r'
|
| 102 |
-
(r'
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 103 |
|
| 104 |
-
#
|
| 105 |
-
(r'
|
| 106 |
-
(r'
|
| 107 |
-
(r'\d+(?:\.\d+)?\s*(?:میلیارد|میلیون|هزار)\s*(?:ریال|تومان|همت)', 'amount'),
|
| 108 |
-
(r'\d+\s*همت', 'amount'),
|
| 109 |
-
(r'\d+\s*میلیون\s*تومان', 'amount'),
|
| 110 |
-
(r'بیش\s+از\s+\d+\s*همت', 'amount'),
|
| 111 |
-
(r'حدود\s+\d+\s*میلیون\s*تومان', 'amount'),
|
| 112 |
|
| 113 |
-
#
|
| 114 |
-
(r'\d
|
| 115 |
-
(r'\d
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 116 |
|
| 117 |
-
#
|
| 118 |
-
(r'
|
| 119 |
-
(r'
|
| 120 |
-
(r'
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 121 |
]
|
| 122 |
|
| 123 |
# پردازش الگوها به ترتیب از طولانیترین به کوتاهترین
|
|
@@ -266,7 +248,7 @@ def get_mapping_table(language):
|
|
| 266 |
if not anonymizer.mapping_table:
|
| 267 |
return "❌ Mapping table is empty! Please process some text first." if lang == 'en' else "❌ جدول نگاشت خالی است! ابتدا متنی را پردازش کنید."
|
| 268 |
|
| 269 |
-
result = "📋 **
|
| 270 |
|
| 271 |
# گروهبندی بر اساس نوع
|
| 272 |
categories = {
|
|
@@ -299,28 +281,28 @@ def update_ui_text(language):
|
|
| 299 |
"""بهروزرسانی متنهای رابط کاربری"""
|
| 300 |
if language == 'English':
|
| 301 |
return {
|
| 302 |
-
'title': '
|
| 303 |
'step1': 'Input Text & Settings',
|
| 304 |
'step2': 'Anonymized Text',
|
| 305 |
'step3': 'Raw ChatGPT Response',
|
| 306 |
'step4': 'Final Restored Response',
|
| 307 |
-
'input_placeholder': 'Enter your business text here...\
|
| 308 |
-
'process_btn': 'Process with
|
| 309 |
'clear_btn': 'Clear All',
|
| 310 |
-
'mapping_btn': 'Show
|
| 311 |
'direction': 'ltr'
|
| 312 |
}
|
| 313 |
else:
|
| 314 |
return {
|
| 315 |
-
'title': 'سیستم ناشناسسازی
|
| 316 |
'step1': 'متن ورودی و تنظیمات',
|
| 317 |
'step2': 'متن ناشناسشده',
|
| 318 |
'step3': 'پاسخ خام ChatGPT',
|
| 319 |
'step4': 'پاسخ نهایی بازگردانده شده',
|
| 320 |
-
'input_placeholder': 'متن تجاری خود را اینجا وارد کنید...\n
|
| 321 |
-
'process_btn': 'پردازش با تشخیص
|
| 322 |
'clear_btn': 'پاک کردن همه',
|
| 323 |
-
'mapping_btn': 'نمایش جدول نگاشت
|
| 324 |
'direction': 'rtl'
|
| 325 |
}
|
| 326 |
|
|
@@ -350,9 +332,9 @@ def update_interface(language):
|
|
| 350 |
]
|
| 351 |
|
| 352 |
# ایجاد instance
|
| 353 |
-
anonymizer =
|
| 354 |
|
| 355 |
-
# CSS
|
| 356 |
custom_css = """
|
| 357 |
body, .gradio-container {
|
| 358 |
font-family: 'Segoe UI', Tahoma, Arial, sans-serif !important;
|
|
@@ -381,28 +363,9 @@ body, .gradio-container {
|
|
| 381 |
grid-auto-rows: auto !important;
|
| 382 |
}
|
| 383 |
|
| 384 |
-
.workflow > * {
|
| 385 |
-
align-self: start !important;
|
| 386 |
-
vertical-align: top !important;
|
| 387 |
-
margin-top: 0 !important;
|
| 388 |
-
}
|
| 389 |
-
|
| 390 |
-
.workflow .gradio-column,
|
| 391 |
-
.workflow-column {
|
| 392 |
-
display: flex !important;
|
| 393 |
-
flex-direction: column !important;
|
| 394 |
-
align-items: stretch !important;
|
| 395 |
-
justify-content: flex-start !important;
|
| 396 |
-
height: auto !important;
|
| 397 |
-
min-height: 0 !important;
|
| 398 |
-
margin-top: 0 !important;
|
| 399 |
-
padding-top: 0 !important;
|
| 400 |
-
}
|
| 401 |
-
|
| 402 |
.gradio-textbox {
|
| 403 |
border-radius: 10px !important;
|
| 404 |
box-shadow: 0 4px 15px rgba(0,0,0,0.1) !important;
|
| 405 |
-
flex-grow: 1 !important;
|
| 406 |
min-height: 380px !important;
|
| 407 |
max-height: 380px !important;
|
| 408 |
height: 380px !important;
|
|
@@ -415,30 +378,6 @@ body, .gradio-container {
|
|
| 415 |
resize: vertical !important;
|
| 416 |
}
|
| 417 |
|
| 418 |
-
.workflow.rtl {
|
| 419 |
-
direction: rtl !important;
|
| 420 |
-
}
|
| 421 |
-
|
| 422 |
-
.workflow.ltr {
|
| 423 |
-
direction: ltr !important;
|
| 424 |
-
}
|
| 425 |
-
|
| 426 |
-
h1, h2, h3 {
|
| 427 |
-
text-shadow: 2px 2px 4px rgba(0,0,0,0.3) !important;
|
| 428 |
-
margin-top: 0 !important;
|
| 429 |
-
margin-bottom: 10px !important;
|
| 430 |
-
padding-top: 0 !important;
|
| 431 |
-
line-height: 1.2 !important;
|
| 432 |
-
}
|
| 433 |
-
|
| 434 |
-
h2 {
|
| 435 |
-
min-height: 40px !important;
|
| 436 |
-
max-height: 40px !important;
|
| 437 |
-
display: flex !important;
|
| 438 |
-
align-items: center !important;
|
| 439 |
-
margin-bottom: 15px !important;
|
| 440 |
-
}
|
| 441 |
-
|
| 442 |
.status-box {
|
| 443 |
background: linear-gradient(135deg, #4CAF50, #45a049) !important;
|
| 444 |
border: 3px solid #2E7D32 !important;
|
|
@@ -451,18 +390,6 @@ h2 {
|
|
| 451 |
max-height: 120px !important;
|
| 452 |
}
|
| 453 |
|
| 454 |
-
.status-box textarea {
|
| 455 |
-
background: rgba(255, 255, 255, 0.95) !important;
|
| 456 |
-
border: none !important;
|
| 457 |
-
border-radius: 10px !important;
|
| 458 |
-
font-weight: bold !important;
|
| 459 |
-
font-size: 1.1em !important;
|
| 460 |
-
color: #1B5E20 !important;
|
| 461 |
-
text-shadow: 1px 1px 2px rgba(255, 255, 255, 0.8) !important;
|
| 462 |
-
min-height: 80px !important;
|
| 463 |
-
max-height: 80px !important;
|
| 464 |
-
}
|
| 465 |
-
|
| 466 |
@keyframes pulse {
|
| 467 |
0% { box-shadow: 0 8px 32px rgba(76, 175, 80, 0.3); }
|
| 468 |
50% { box-shadow: 0 8px 40px rgba(76, 175, 80, 0.6); }
|
|
@@ -478,11 +405,6 @@ h2 {
|
|
| 478 |
max-height: 50px !important;
|
| 479 |
}
|
| 480 |
|
| 481 |
-
.gradio-button:hover {
|
| 482 |
-
transform: translateY(-2px) !important;
|
| 483 |
-
box-shadow: 0 6px 20px rgba(0,0,0,0.2) !important;
|
| 484 |
-
}
|
| 485 |
-
|
| 486 |
h1 {
|
| 487 |
background: linear-gradient(45deg, #FFD700, #FFA500) !important;
|
| 488 |
-webkit-background-clip: text !important;
|
|
@@ -490,30 +412,10 @@ h1 {
|
|
| 490 |
background-clip: text !important;
|
| 491 |
min-height: 80px !important;
|
| 492 |
}
|
| 493 |
-
|
| 494 |
-
@media (max-width: 1200px) {
|
| 495 |
-
.workflow {
|
| 496 |
-
grid-template-columns: 1fr 1fr !important;
|
| 497 |
-
gap: 20px !important;
|
| 498 |
-
}
|
| 499 |
-
}
|
| 500 |
-
|
| 501 |
-
@media (max-width: 768px) {
|
| 502 |
-
.workflow {
|
| 503 |
-
grid-template-columns: 1fr !important;
|
| 504 |
-
gap: 15px !important;
|
| 505 |
-
}
|
| 506 |
-
|
| 507 |
-
.gradio-textbox {
|
| 508 |
-
min-height: 300px !important;
|
| 509 |
-
max-height: 300px !important;
|
| 510 |
-
height: 300px !important;
|
| 511 |
-
}
|
| 512 |
-
}
|
| 513 |
"""
|
| 514 |
|
| 515 |
# رابط کاربری Gradio
|
| 516 |
-
with gr.Blocks(title="📊
|
| 517 |
|
| 518 |
with gr.Row():
|
| 519 |
language_selector = gr.Radio(
|
|
@@ -524,20 +426,20 @@ with gr.Blocks(title="📊 Simple Anonymization System", theme=gr.themes.Soft(),
|
|
| 524 |
)
|
| 525 |
|
| 526 |
with gr.Column():
|
| 527 |
-
title = gr.HTML("<h1 style='text-align: center; color: #FFD700; font-size: 3.5em; font-weight: bold; text-shadow: 3px 3px 6px rgba(0,0,0,0.5); margin: 20px 0; background: linear-gradient(45deg, #FFD700, #FFA500); -webkit-background-clip: text; -webkit-text-fill-color: transparent; background-clip: text;'>📊 سیستم ناشناسسازی
|
| 528 |
|
| 529 |
with gr.Row(elem_classes="workflow rtl") as workflow_row:
|
| 530 |
-
with gr.Column(
|
| 531 |
step1_title = gr.HTML('<h2 style="direction: rtl;">📁 متن ورودی و تنظیمات</h2>')
|
| 532 |
|
| 533 |
input_text = gr.Textbox(
|
| 534 |
lines=15,
|
| 535 |
-
placeholder="متن تجاری خود را اینجا وارد کنید...\n
|
| 536 |
label="",
|
| 537 |
rtl=True
|
| 538 |
)
|
| 539 |
|
| 540 |
-
process_btn = gr.Button("🚀 پردازش با تشخیص
|
| 541 |
clear_btn = gr.Button("🗑️ پاک کردن همه", variant="stop")
|
| 542 |
|
| 543 |
status = gr.Textbox(
|
|
@@ -548,7 +450,7 @@ with gr.Blocks(title="📊 Simple Anonymization System", theme=gr.themes.Soft(),
|
|
| 548 |
elem_classes=["status-box"]
|
| 549 |
)
|
| 550 |
|
| 551 |
-
with gr.Column(
|
| 552 |
step2_title = gr.HTML('<h2 style="direction: rtl;">🎭 متن ناشناسشده</h2>')
|
| 553 |
|
| 554 |
anonymized_output = gr.Textbox(
|
|
@@ -559,7 +461,7 @@ with gr.Blocks(title="📊 Simple Anonymization System", theme=gr.themes.Soft(),
|
|
| 559 |
rtl=True
|
| 560 |
)
|
| 561 |
|
| 562 |
-
with gr.Column(
|
| 563 |
step3_title = gr.HTML('<h2 style="direction: rtl;">🤖 پاسخ خام ChatGPT</h2>')
|
| 564 |
|
| 565 |
gpt_output = gr.Textbox(
|
|
@@ -570,7 +472,7 @@ with gr.Blocks(title="📊 Simple Anonymization System", theme=gr.themes.Soft(),
|
|
| 570 |
rtl=True
|
| 571 |
)
|
| 572 |
|
| 573 |
-
with gr.Column(
|
| 574 |
step4_title = gr.HTML('<h2 style="direction: rtl;">✅ پاسخ نهایی بازگردانده شده</h2>')
|
| 575 |
|
| 576 |
final_output = gr.Textbox(
|
|
@@ -583,8 +485,8 @@ with gr.Blocks(title="📊 Simple Anonymization System", theme=gr.themes.Soft(),
|
|
| 583 |
|
| 584 |
with gr.Row():
|
| 585 |
with gr.Column():
|
| 586 |
-
mapping_title = gr.HTML('<h2>🗂️ جدول نگاشت
|
| 587 |
-
mapping_btn = gr.Button("📋 نمایش جدول نگاشت
|
| 588 |
|
| 589 |
mapping_output = gr.Textbox(
|
| 590 |
lines=10,
|
|
|
|
| 4 |
import requests
|
| 5 |
import time
|
| 6 |
import logging
|
|
|
|
| 7 |
|
| 8 |
# تنظیم logging
|
| 9 |
logging.basicConfig(level=logging.INFO)
|
| 10 |
logger = logging.getLogger(__name__)
|
| 11 |
|
| 12 |
+
class PreciseAnonymizer:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 13 |
def __init__(self):
|
| 14 |
self.mapping_table = {}
|
| 15 |
self.counters = {
|
|
|
|
| 21 |
self.api_key = os.getenv("OPENAI_API_KEY", "")
|
| 22 |
|
| 23 |
def anonymize_text(self, original_text, lang='fa'):
|
| 24 |
+
"""ناشناسسازی دقیق براساس مثالهای واقعی"""
|
| 25 |
try:
|
| 26 |
if not original_text or not original_text.strip():
|
| 27 |
return "❌ Please enter input text!" if lang == 'en' else "❌ لطفاً متن ورودی را وارد کنید!"
|
|
|
|
| 32 |
|
| 33 |
anonymized = original_text
|
| 34 |
|
| 35 |
+
# الگوهای دقیق براساس مثالهای واقعی
|
| 36 |
patterns = [
|
| 37 |
+
# شرکتها - الگوهای مشخص
|
| 38 |
+
(r'شرکت سرمایهگذاری دارویی تأمین \(تیپیکو\)', 'company'),
|
| 39 |
+
(r'شرکت پتروشیمی بوعلی سینا', 'company'),
|
| 40 |
+
(r'شرکت پتروشیمی پارس', 'company'),
|
| 41 |
+
(r'شرکت آسان پادرو', 'company'),
|
| 42 |
+
(r'شرکت پالایش نفت اصفهان', 'company'),
|
| 43 |
+
(r'شرکت گروه توسعه مالی مهر آیندگان \(ومهان\)', 'company'),
|
| 44 |
+
(r'شرکت وانیا نیک تدبیر', 'company'),
|
| 45 |
+
(r'تدوین و همکاران', 'company'),
|
| 46 |
+
(r'سازمان حسابرسی', 'company'),
|
| 47 |
+
(r'سرزمین هوشمند پاد \(زیرمجموعه بانک پاسارگاد\)', 'company'),
|
| 48 |
+
(r'ایران خودرو', 'company'),
|
| 49 |
+
(r'بانک پاسارگاد', 'company'),
|
| 50 |
+
(r'بانک ملت', 'company'),
|
| 51 |
+
(r'بانک سرمایه', 'company'),
|
| 52 |
+
(r'همراه اول', 'company'),
|
| 53 |
+
(r'گروه همراه اول', 'company'),
|
| 54 |
|
| 55 |
+
# نام اشخاص با عناوین
|
| 56 |
+
(r'مهدی اخوان بهابادی، مدیرعامل همراه اول', 'person'),
|
| 57 |
+
(r'فرجاله قدمی', 'person'),
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 58 |
|
| 59 |
+
# مبالغ مالی - الگوهای دقیق
|
| 60 |
+
(r'\d+,\d{3} میلیارد ریال', 'amount'), # 681,667 میلیارد ریال
|
| 61 |
+
(r'\d+ هزار و \d+ میلیارد تومان', 'amount'), # 23 هزار و 296 میلیارد تومان
|
| 62 |
+
(r'\d+ هزار و \d+ دستگاه', 'amount'), # 537 هزار و 736 دستگاه
|
| 63 |
+
(r'بیش از \d+ همت', 'amount'), # بیش از 37 همت
|
| 64 |
+
(r'حدود \d+ میلیون تومان', 'amount'), # حدود 69 میلیون تومان
|
| 65 |
+
(r'بیش از \d+ همت', 'amount'), # بیش از 111 همت
|
| 66 |
+
(r'\d+,\d{3},\d{3} میلیارد ریال', 'amount'), # 681,667 میلیارد ریال
|
| 67 |
+
(r'\d+,\d{3} میلیارد ریال', 'amount'), # 86,278 میلیارد ریال
|
| 68 |
+
(r'\d+,\d{3} میلیارد ریال', 'amount'), # 12,140 میلیارد ریال
|
| 69 |
+
(r'\d+,\d{3} میلیارد ریال', 'amount'), # 51,670 میلیارد ریال
|
| 70 |
+
(r'\d+,\d{3} میلیارد ریال', 'amount'), # 33,000 میلیارد ریال
|
| 71 |
+
(r'\d+ هزار میلیارد ریالی', 'amount'), # 155 هزار میلیارد ریالی
|
| 72 |
+
(r'\d+ میلیارد تومانی', 'amount'), # 2700 میلیارد تومانی
|
| 73 |
+
(r'نزدیک به \d+ هزار میلیارد تومان', 'amount'), # نزدیک به 67 هزار میلیارد تومان
|
| 74 |
+
(r'بیش از \d+ میلیارد تومان', 'amount'), # بیش از 6 میلیارد تومان
|
| 75 |
+
(r'حدود \d+ میلیارد تومان', 'amount'), # حدود 30 میلیارد تومان
|
| 76 |
+
(r'حدود \d+ میلیون دلار', 'amount'), # حدود 100 میلیون دلار
|
| 77 |
+
(r'\d+ تا \d+\.\d+ میلیون تن', 'amount'), # 1 تا 1.5 میلیون تن
|
| 78 |
+
(r'\d+ ریال', 'amount'), # 936 ریال
|
| 79 |
+
(r'\d+ ریال', 'amount'), # 446 ریال
|
| 80 |
+
(r'\d+ ریال', 'amount'), # 610 ریال
|
| 81 |
+
(r'\d+ هزار و \d+ میلیارد تومان', 'amount'), # 70 هزار و 677 میلیارد تومان
|
| 82 |
+
(r'\d+ میلیارد تومان', 'amount'), # 7101 میلیارد تومان
|
| 83 |
+
(r'\d+ میلیارد تومان', 'amount'), # 8003 میلیارد تومان
|
| 84 |
+
(r'\d+ هزار میلیارد تومان', 'amount'), # 49 هزار میلیارد تومان
|
| 85 |
+
(r'\d+ میلیارد تومانی', 'amount'), # 178 میلیارد تومانی
|
| 86 |
+
(r'\d+\.\d+ میلیون نفر', 'amount'), # 73.7 میلیون نفر
|
| 87 |
+
(r'\d+ هزار و \d+ میلیارد تومان', 'amount'), # 16 هزار و 495 میلیارد تومان
|
| 88 |
+
(r'\d+ هزار و \d+ میلیارد تومان', 'amount'), # 31 هزار و 756 میلیارد تومان
|
| 89 |
|
| 90 |
+
# درصدها - الگوهای دقیق
|
| 91 |
+
(r'\d+\.\d+ درصد', 'percent'), # 4.58 درصد
|
| 92 |
+
(r'\d+ درصد', 'percent'), # 75 درصد
|
| 93 |
+
(r'منفی \d+ درصد', 'percent'), # منفی 345 درصد
|
| 94 |
+
(r'\d+ درصد', 'percent'), # 97 درصد
|
| 95 |
+
(r'بیش از \d+ درصد', 'percent'), # بیش از 60 درصد
|
| 96 |
+
(r'\d+ درصد', 'percent'), # 37 درصد
|
| 97 |
+
(r'\d+ درصد', 'percent'), # 15 درصد
|
| 98 |
+
(r'\d+ درصد', 'percent'), # 14 درصد
|
| 99 |
+
(r'\d+ الی \d+ درصد', 'percent'), # 50 الی 70 درصد
|
| 100 |
+
(r'\d+ درصدی', 'percent'), # 14 درصدی
|
| 101 |
+
(r'\d+ درصدی', 'percent'), # 37 درصدی
|
| 102 |
+
(r'\d+ درصدی', 'percent'), # 15 درصدی
|
| 103 |
]
|
| 104 |
|
| 105 |
# پردازش الگوها به ترتیب از طولانیترین به کوتاهترین
|
|
|
|
| 248 |
if not anonymizer.mapping_table:
|
| 249 |
return "❌ Mapping table is empty! Please process some text first." if lang == 'en' else "❌ جدول نگاشت خالی است! ابتدا متنی را پردازش کنید."
|
| 250 |
|
| 251 |
+
result = "📋 **Precise Mapping Table:**\n\n" if lang == 'en' else "📋 **جدول نگاشت دقیق:**\n\n"
|
| 252 |
|
| 253 |
# گروهبندی بر اساس نوع
|
| 254 |
categories = {
|
|
|
|
| 281 |
"""بهروزرسانی متنهای رابط کاربری"""
|
| 282 |
if language == 'English':
|
| 283 |
return {
|
| 284 |
+
'title': 'Precise Business Data Anonymization System',
|
| 285 |
'step1': 'Input Text & Settings',
|
| 286 |
'step2': 'Anonymized Text',
|
| 287 |
'step3': 'Raw ChatGPT Response',
|
| 288 |
'step4': 'Final Restored Response',
|
| 289 |
+
'input_placeholder': 'Enter your business text here...\nThe system will precisely detect company names, financial amounts, percentages, and executive names...',
|
| 290 |
+
'process_btn': 'Process with Precise Detection',
|
| 291 |
'clear_btn': 'Clear All',
|
| 292 |
+
'mapping_btn': 'Show Precise Mapping Table',
|
| 293 |
'direction': 'ltr'
|
| 294 |
}
|
| 295 |
else:
|
| 296 |
return {
|
| 297 |
+
'title': 'سیستم ناشناسسازی دقیق اطلاعات تجاری',
|
| 298 |
'step1': 'متن ورودی و تنظیمات',
|
| 299 |
'step2': 'متن ناشناسشده',
|
| 300 |
'step3': 'پاسخ خام ChatGPT',
|
| 301 |
'step4': 'پاسخ نهایی بازگردانده شده',
|
| 302 |
+
'input_placeholder': 'متن تجاری خود را اینجا وارد کنید...\nسیستم به طور دقیق نام شرکتها، مبالغ مالی، درصدها و نام مدیران را تشخیص میدهد...',
|
| 303 |
+
'process_btn': 'پردازش با تشخیص دقیق',
|
| 304 |
'clear_btn': 'پاک کردن همه',
|
| 305 |
+
'mapping_btn': 'نمایش جدول نگاشت دقیق',
|
| 306 |
'direction': 'rtl'
|
| 307 |
}
|
| 308 |
|
|
|
|
| 332 |
]
|
| 333 |
|
| 334 |
# ایجاد instance
|
| 335 |
+
anonymizer = PreciseAnonymizer()
|
| 336 |
|
| 337 |
+
# CSS
|
| 338 |
custom_css = """
|
| 339 |
body, .gradio-container {
|
| 340 |
font-family: 'Segoe UI', Tahoma, Arial, sans-serif !important;
|
|
|
|
| 363 |
grid-auto-rows: auto !important;
|
| 364 |
}
|
| 365 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 366 |
.gradio-textbox {
|
| 367 |
border-radius: 10px !important;
|
| 368 |
box-shadow: 0 4px 15px rgba(0,0,0,0.1) !important;
|
|
|
|
| 369 |
min-height: 380px !important;
|
| 370 |
max-height: 380px !important;
|
| 371 |
height: 380px !important;
|
|
|
|
| 378 |
resize: vertical !important;
|
| 379 |
}
|
| 380 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 381 |
.status-box {
|
| 382 |
background: linear-gradient(135deg, #4CAF50, #45a049) !important;
|
| 383 |
border: 3px solid #2E7D32 !important;
|
|
|
|
| 390 |
max-height: 120px !important;
|
| 391 |
}
|
| 392 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 393 |
@keyframes pulse {
|
| 394 |
0% { box-shadow: 0 8px 32px rgba(76, 175, 80, 0.3); }
|
| 395 |
50% { box-shadow: 0 8px 40px rgba(76, 175, 80, 0.6); }
|
|
|
|
| 405 |
max-height: 50px !important;
|
| 406 |
}
|
| 407 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 408 |
h1 {
|
| 409 |
background: linear-gradient(45deg, #FFD700, #FFA500) !important;
|
| 410 |
-webkit-background-clip: text !important;
|
|
|
|
| 412 |
background-clip: text !important;
|
| 413 |
min-height: 80px !important;
|
| 414 |
}
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 415 |
"""
|
| 416 |
|
| 417 |
# رابط کاربری Gradio
|
| 418 |
+
with gr.Blocks(title="📊 Precise Anonymization System", theme=gr.themes.Soft(), css=custom_css) as app:
|
| 419 |
|
| 420 |
with gr.Row():
|
| 421 |
language_selector = gr.Radio(
|
|
|
|
| 426 |
)
|
| 427 |
|
| 428 |
with gr.Column():
|
| 429 |
+
title = gr.HTML("<h1 style='text-align: center; color: #FFD700; font-size: 3.5em; font-weight: bold; text-shadow: 3px 3px 6px rgba(0,0,0,0.5); margin: 20px 0; background: linear-gradient(45deg, #FFD700, #FFA500); -webkit-background-clip: text; -webkit-text-fill-color: transparent; background-clip: text;'>📊 سیستم ناشناسسازی دقیق اطلاعات تجاری</h1>")
|
| 430 |
|
| 431 |
with gr.Row(elem_classes="workflow rtl") as workflow_row:
|
| 432 |
+
with gr.Column():
|
| 433 |
step1_title = gr.HTML('<h2 style="direction: rtl;">📁 متن ورودی و تنظیمات</h2>')
|
| 434 |
|
| 435 |
input_text = gr.Textbox(
|
| 436 |
lines=15,
|
| 437 |
+
placeholder="متن تجاری خود را اینجا وارد کنید...\nسیستم به طور دقیق نام شرکتها، مبالغ مالی، درصدها و نام مدیران را تشخیص میدهد...",
|
| 438 |
label="",
|
| 439 |
rtl=True
|
| 440 |
)
|
| 441 |
|
| 442 |
+
process_btn = gr.Button("🚀 پردازش با تشخیص دقیق", variant="primary")
|
| 443 |
clear_btn = gr.Button("🗑️ پاک کردن همه", variant="stop")
|
| 444 |
|
| 445 |
status = gr.Textbox(
|
|
|
|
| 450 |
elem_classes=["status-box"]
|
| 451 |
)
|
| 452 |
|
| 453 |
+
with gr.Column():
|
| 454 |
step2_title = gr.HTML('<h2 style="direction: rtl;">🎭 متن ناشناسشده</h2>')
|
| 455 |
|
| 456 |
anonymized_output = gr.Textbox(
|
|
|
|
| 461 |
rtl=True
|
| 462 |
)
|
| 463 |
|
| 464 |
+
with gr.Column():
|
| 465 |
step3_title = gr.HTML('<h2 style="direction: rtl;">🤖 پاسخ خام ChatGPT</h2>')
|
| 466 |
|
| 467 |
gpt_output = gr.Textbox(
|
|
|
|
| 472 |
rtl=True
|
| 473 |
)
|
| 474 |
|
| 475 |
+
with gr.Column():
|
| 476 |
step4_title = gr.HTML('<h2 style="direction: rtl;">✅ پاسخ نهایی بازگردانده شده</h2>')
|
| 477 |
|
| 478 |
final_output = gr.Textbox(
|
|
|
|
| 485 |
|
| 486 |
with gr.Row():
|
| 487 |
with gr.Column():
|
| 488 |
+
mapping_title = gr.HTML('<h2>🗂️ جدول نگاشت دقیق</h2>')
|
| 489 |
+
mapping_btn = gr.Button("📋 نمایش جدول نگاشت دقیق")
|
| 490 |
|
| 491 |
mapping_output = gr.Textbox(
|
| 492 |
lines=10,
|