Spaces:
Sleeping
Sleeping
Delete app.py
Browse files
app.py
DELETED
|
@@ -1,1621 +0,0 @@
|
|
| 1 |
-
import gradio as gr
|
| 2 |
-
import re
|
| 3 |
-
import os
|
| 4 |
-
import requests
|
| 5 |
-
import json
|
| 6 |
-
import logging
|
| 7 |
-
import csv
|
| 8 |
-
import io
|
| 9 |
-
import tempfile
|
| 10 |
-
import time
|
| 11 |
-
from typing import Dict, List, Tuple, Optional
|
| 12 |
-
from llm_sender_unified import create_llm_sender
|
| 13 |
-
|
| 14 |
-
logging.basicConfig(level=logging.INFO)
|
| 15 |
-
logger = logging.getLogger(__name__)
|
| 16 |
-
|
| 17 |
-
# ─────────────────────────────────────────────────────────────
|
| 18 |
-
# مدلهای موجود — برای تحلیل LLM
|
| 19 |
-
# ─────────────────────────────────────────────────────────────
|
| 20 |
-
AVAILABLE_MODELS = {
|
| 21 |
-
"chatgpt": ["gpt-5.1", "gpt-5", "gpt-4.1", "gpt-4o", "gpt-4o-mini", "gpt-4-turbo"],
|
| 22 |
-
"grok": ["grok-4-0709", "grok-3", "grok-3-mini", "grok-2-1212"],
|
| 23 |
-
"deepinfra": [
|
| 24 |
-
"Qwen/Qwen3-14B", "Qwen/Qwen3-32B", "Qwen/Qwen3-30B-A3B",
|
| 25 |
-
"Qwen/Qwen2.5-72B-Instruct", "Qwen/Qwen2.5-14B-Instruct",
|
| 26 |
-
],
|
| 27 |
-
}
|
| 28 |
-
|
| 29 |
-
ANON_MODEL = "Qwen/Qwen3-14B"
|
| 30 |
-
ANON_API_URL = "https://api.deepinfra.com/v1/openai/chat/completions"
|
| 31 |
-
|
| 32 |
-
# ─────────────────────────────────────────────────────────────
|
| 33 |
-
# SYSTEM PROMPT — برگرفته از نسخه بنچمارک ۹۰٪+
|
| 34 |
-
# ترکیب با قابلیت JSON output برای single call
|
| 35 |
-
# Thinking mode فعال — همان چیزی که دقت بالا میداد
|
| 36 |
-
# ─────────────────────────────────────────────────────────────
|
| 37 |
-
ANON_SYSTEM_PROMPT = """شما یک «ناشناسساز متون مالی/خبری فارسی» هستید. وظیفهتان جایگزینی اسامی خاص و مقادیر عددی با شناسههای بیمعناست.
|
| 38 |
-
|
| 39 |
-
قبل از دادن پاسخ نهایی، ابتدا در تگ <thinking> گامبهگام تحلیل کنید:
|
| 40 |
-
1. موجودیتهای موجود در متن را شناسایی کنید (شرکت، شخص، مبلغ، درصد)
|
| 41 |
-
2. ترتیب ظهور آنها را مشخص کنید
|
| 42 |
-
3. نامهای مختصر/تکرار را به همان توکن اول نسبت دهید
|
| 43 |
-
4. سپس JSON نهایی را بدهید
|
| 44 |
-
|
| 45 |
-
### قوانین اندیسگذاری:
|
| 46 |
-
- شرکتها: company-01, company-02, ... (بر اساس ترتیب ظهور)
|
| 47 |
-
- اشخاص: person-01, person-02, ...
|
| 48 |
-
- اعداد/مبالغ: amount-01, amount-02, ... (هر amount ایندکس یکتا دارد، هیچوقت تکرار نشود)
|
| 49 |
-
- درصدها: percent-01, percent-02, ...
|
| 50 |
-
- هر بار که همان موجودیت تکرار میشود → همان توکن قبلی
|
| 51 |
-
- فقط: company, person, amount, percent ❌ ممنوع: bank-01, sazman-01, group-XX
|
| 52 |
-
|
| 53 |
-
### تشخیص شرکتها (قانون کلی: هر نهاد با نام خاص = company-XX):
|
| 54 |
-
- شرکتهای خصوصی: با پیشوند شرکت/گروه/هلدینگ/بیمه/پتروشیمی/سرمایهگذاری + نام خاص
|
| 55 |
-
- بانکها: بانک ملت، بانک پارسیان، بانک مرکزی، بانک ملی ایران → همه company-XX
|
| 56 |
-
- وزارتخانهها: وزارت نفت، وزارت اقتصاد، وزارت صمت → company-XX
|
| 57 |
-
- سازمانهای دولتی: سازمان بورس، سازمان ثبت احوال، سازمان مالیاتی → company-XX
|
| 58 |
-
- ادارات دولتی: اداره کل مالیات تهران، اداره ثبت اسناد → company-XX
|
| 59 |
-
- نهادهای انقلابی/عمومی با نام خاص: ستاد اجرایی فرمان امام، بنیاد مستضعفان → company-XX
|
| 60 |
-
- دادگاهها/دادستانی با نام خاص: دادگاه تجدیدنظر استان تهران، دادستانی کل کشور → company-XX
|
| 61 |
-
- نمادهای بورسی: شپنا، وبملت، وتجارت، خودرو، شتران، فملی، فولاد، کگل، شپدیس → company-XX
|
| 62 |
-
- نام مختصر = همان توکن: «شرکت پتروشیمی بوعلی سینا» = «بوعلی» → هر دو company-01
|
| 63 |
-
- نام در پرانتز = همان توکن: «هلدینگ غدیر (وکغدیر)» → هر دو company-01
|
| 64 |
-
- حسابرس/بازرس قانونی با نام خاص: «وانیا نیک تدبیر» → company-XX
|
| 65 |
-
- ضمیر اشاره به شرکت قبلاً ذکرشده: «این شرکت»، «آن بانک»، «شرکت مزبور» → همان توکن قبلی
|
| 66 |
-
- قانون طلایی: اگر شک داری نام خاص است یا عمومی → آن را company-XX بگیر
|
| 67 |
-
|
| 68 |
-
### ❌ فقط این موارد company نیستند (ناشناس نشوند):
|
| 69 |
-
- میدانهای نفتی/گازی/معدنی: «پارس جنوبی»، «فرزاد ب»، «آزادگان» → مکان/میدا��
|
| 70 |
-
- واحدهای داخلی بدون نام مستقل: «واحد حسابرسی داخلی»، «اداره بازرسی داخلی» → بخش سازمانی
|
| 71 |
-
- نقشهای شغلی بدون نام: «حسابرس مستقل»، «بازرس» (بدون اسم بعدی) → عنوان شغلی
|
| 72 |
-
- توصیفهای کاملاً عمومی: «یک شرکت»، «چند بانک»، «این اداره»، «بانکهای کشور» → بدون نام خاص
|
| 73 |
-
- «صندوق دولت»، «خزانه دولت»، «بیتالمال» → عبارت عمومی
|
| 74 |
-
- اسامی مکان صرف: تهران، اصفهان، ایران، خوزستان → مکان جغرافیایی
|
| 75 |
-
|
| 76 |
-
### قوانین amount — چه چیزی amount است:
|
| 77 |
-
✅ مبلغ پولی: «100 میلیون دلار»، «283 ریال»، «41.5 همت»، «1,429,349 میلیون ریال»
|
| 78 |
-
✅ مقدار فیزیکی: «320,000 تن»، «1.6 میلیون فوت مکعب در روز»، «800 هزار بشکه»
|
| 79 |
-
✅ تعداد شمارشی قابل اندازهگیری: «16 قرارداد»، «200 فرصت»، «23 میدان»، «12 فقره»، «500 نفر»
|
| 80 |
-
✅ بازه مقداری: «یک تا 1.5 میلیون تن» → یک توکن amount-01
|
| 81 |
-
❌ «amount-01 دلار» — واحد باید داخل توکن باشد
|
| 82 |
-
|
| 83 |
-
### ❌ این موارد amount نیستند:
|
| 84 |
-
- روز/ماه: «8 ماه»، «20 روز»، «6 ماهه»، «3 سال» — دوره زمانی، ناشناس نشود
|
| 85 |
-
- تاریخ: «30 آذر 1403»، «1403/04/12»، «سال 1401» — ناشناس نشود
|
| 86 |
-
- مجازات قضایی: «5 سال حبس»، «36 ضربه شلاق»، «3 سال انفصال» — ناشناس نشود
|
| 87 |
-
- عبارت تقریبی: «هزاران نفر»، «صدها شاکی»، «چند نفر» — ناشناس نشود
|
| 88 |
-
- ترتیبی و رتبهای: «ردیف اول»، «مرحله سوم»، «فاز 39» — ناشناس نشود
|
| 89 |
-
|
| 90 |
-
### قوانین percent (عدد + درصد = یک موجودیت):
|
| 91 |
-
✅ «80 درصد» → percent-01
|
| 92 |
-
✅ «14%» → percent-01
|
| 93 |
-
✅ «منفی 345 درصد» → percent-01 ❌ «منفی percent-01»
|
| 94 |
-
✅ «37 درصدی» → percent-01
|
| 95 |
-
✅ «50 الی 70 درصد» → percent-01 ❌ «percent-01 الی percent-02»
|
| 96 |
-
|
| 97 |
-
### موارد که باید حفظ شوند (ناشناس نشوند):
|
| 98 |
-
- تاریخ: «30 آذر 1403»، «1403/04/12»، «1404/04/29»، «سال 1401»
|
| 99 |
-
- دوره/بازه زمانی: «8 ماه»، «20 روز»، «9 ماهه»، «3 ساله»، «سال مالی منتهی به»، «سهماهه نخست»
|
| 100 |
-
- زمان: «راس ساعت 10:00»، «روز سه شنبه»، «مردادماه»
|
| 101 |
-
- مکان: تهران، اصفهان، ایران، خوزستان، عسلویه
|
| 102 |
-
- میدانهای نفتی/گازی: پارس جنوبی، فرزاد ب، آزادگان
|
| 103 |
-
- عناوین شغلی: مدیرعامل، رئیس کل، بازرس قانونی، حسابرس، دادستان، وزیر
|
| 104 |
-
- مجازات قضایی: سال حبس، ضربه شلاق، سال انفصال
|
| 105 |
-
- نماد بورسی → با company-XX جایگزین شود اگر نام شرکت مربوطه در متن نیست؛ وگرنه همان توکن شرکت
|
| 106 |
-
|
| 107 |
-
### فرمت خروجی نهایی (بعد از thinking):
|
| 108 |
-
{
|
| 109 |
-
"anonymized": "متن ناشناس شده اینجا",
|
| 110 |
-
"mapping": {"company-01": "نام کامل", "amount-01": "عدد+واحد", ...}
|
| 111 |
-
}"""
|
| 112 |
-
|
| 113 |
-
|
| 114 |
-
# ─────────────────────────────────────────────────────────────
|
| 115 |
-
# few-shot examples — از باگهای واقعی شناساییشده
|
| 116 |
-
# ─────────────────────────────────────────────────────────────
|
| 117 |
-
FEW_SHOT_EXAMPLES = """
|
| 118 |
-
=== EXAMPLES ===
|
| 119 |
-
|
| 120 |
-
EXAMPLE 1 — نام مختصر + نام در پرانتز + تکرار:
|
| 121 |
-
INPUT: شرکت گروه توسعه مالی مهر آیندگان (ومهان) رشد 14 درصدی داشت. سرمایهگذاریهای ومهان به 16 هزار و 495 میلیارد تومان رسید.
|
| 122 |
-
OUTPUT json:
|
| 123 |
-
{"anonymized": "company-01 رشد percent-01 داشت. سرمایهگذاریهای company-01 به amount-01 رسید.", "mapping": {"company-01": "شرکت گروه توسعه مالی مهر آیندگان (ومهان)", "percent-01": "14 درصد", "amount-01": "16 هزار و 495 میلیارد تومان"}}
|
| 124 |
-
KEY: «ومهان» = company-01 (same token, NOT company-02)
|
| 125 |
-
|
| 126 |
-
EXAMPLE 2 — نام کوتاه متفاوت برای شرکتهای متفاوت:
|
| 127 |
-
INPUT: مجمع شرکت پتروشیمی بوعلی سینا برگزار شد و وانیا نیک تدبیر بازرس شد. هزینه بوعلی 100 میلیون دلار بود. تحلیل شپنا (شرکت پالایش نفت اصفهان) نشان میدهد EPS به 936 ریال برسد.
|
| 128 |
-
OUTPUT json:
|
| 129 |
-
{"anonymized": "مجمع company-01 برگزار شد و company-02 بازرس شد. هزینه company-01 amount-01 بود. تحلیل company-03 نشان میدهد EPS به amount-02 برسد.", "mapping": {"company-01": "شرکت پتروشیمی بوعلی سینا", "company-02": "وانیا نیک تدبیر", "amount-01": "100 میلیون دلار", "company-03": "شرکت پالایش نفت اصفهان", "amount-02": "936 ریال"}}
|
| 130 |
-
KEY: «بوعلی» = company-01. «شپنا» = company-03 (شرکت پالایش نفت اصفهان، موجودیت جداگانه از بوعلی)
|
| 131 |
-
|
| 132 |
-
EXAMPLE 3 — کلمات عمومی ناشناس نشوند + بانکهای مشخص:
|
| 133 |
-
INPUT: دو بانک ملت و پاسارگاد سود 157 و 155 هزار میلیارد ریال داشتند. مجموع بانکهای مورد بررسی زیان 1388 هزار میلیارد ریال داشتند که 10 درصد افزایش یافت. 12 بانک کشور زیان 336 هزار میلیارد تومانی رقم زدند.
|
| 134 |
-
OUTPUT json:
|
| 135 |
-
{"anonymized": "دو company-01 و company-02 سود amount-01 و amount-02 داشتند. مجموع بانکهای مورد بررسی زیان amount-03 داشتند که percent-01 افزایش یافت. 12 بانک کشور زیان amount-04 رقم زدند.", "mapping": {"company-01": "بانک ملت", "company-02": "بانک پاسارگاد", "amount-01": "157 هزار میلیارد ریال", "amount-02": "155 هزار میلیارد ریال", "amount-03": "1388 هزار میلیارد ریال", "percent-01": "10 درصد", "amount-04": "336 هزار میلیارد تومانی"}}
|
| 136 |
-
KEY: «بانکهای مورد بررسی» و «12 بانک کشور» = generic → ناشناس نشوند
|
| 137 |
-
|
| 138 |
-
EXAMPLE 4 — نام چندکلمهای با مکان + بازه درصد:
|
| 139 |
-
INPUT: شرکت فولاد مبارکه اصفهان با شرکت ملی نفت ایران قرارداد امضا کرد. شرکت فاما سرمایه را از 8,700 میلیارد ریال به 12,500 میلیارد ریال افزایش میدهد. سهم سودهای ارزی 40 الی 60 درصد است.
|
| 140 |
-
OUTPUT json:
|
| 141 |
-
{"anonymized": "company-01 با company-02 قرارداد امضا کرد. company-03 سرمایه را از amount-01 به amount-02 افزایش میدهد. سهم سودهای ارزی percent-01 است.", "mapping": {"company-01": "شرکت فولاد مبارکه اصفهان", "company-02": "شرکت ملی نفت ایران", "company-03": "شرکت فاما", "amount-01": "8,700 میلیارد ریال", "amount-02": "12,500 میلیارد ریال", "percent-01": "40 الی 60 درصد"}}
|
| 142 |
-
KEY: «اصفهان» داخل company-01. «شرکت فاما» = company-03. بازه «40 الی 60 درصد» = یک توکن percent-01
|
| 143 |
-
|
| 144 |
-
EXAMPLE 5 — چند شرکت همنام + مبالغ کوچک + درصد با %:
|
| 145 |
-
INPUT: شرکت بیمه پارسیان از شرکت سرمایه گذاری پارسیان 1,429,349 میلیون ریال سود شناسایی کرد که 89 ریال برای هر سهم است. جواد شکرخواه مدیرعامل بانک پارسیان گفت سود 41.5 همت شد و 99.99 درصد سهام در اختیار است.
|
| 146 |
-
OUTPUT json:
|
| 147 |
-
{"anonymized": "company-01 از company-02 amount-01 سود شناسایی کرد که amount-02 برای هر سهم است. person-01 مدیرعامل company-03 گفت سود amount-03 شد و percent-01 سهام در اختیار است.", "mapping": {"company-01": "شرکت بیمه پارسیان", "company-02": "شرکت سرمایه گذاری پارسیان", "amount-01": "1,429,349 میلیون ریال", "amount-02": "89 ریال", "person-01": "جواد شکرخواه", "company-03": "بانک پارسیان", "amount-03": "41.5 همت", "percent-01": "99.99 درصد"}}
|
| 148 |
-
KEY: واحد داخل توکن. مبالغ کوچک ریال هم ناشناس میشوند.
|
| 149 |
-
|
| 150 |
-
EXAMPLE 6 — نام مختصر + پادرو + تیپیکو + شپنا:
|
| 151 |
-
INPUT: شرکت سرمایهگذاری دارویی تأمین (تیپیکو) درآمد 681,667 میلیارد ریال داشت. صورتهای مالی شرکت آسان پادرو 6 میلیارد تومان زیان نشان داد. پادرو 30 میلیارد تومان درآمد کسب کرد. شپنا EPS 936 ریال گزارش داد.
|
| 152 |
-
OUTPUT json:
|
| 153 |
-
{"anonymized": "company-01 درآمد amount-01 داشت. صورتهای مالی company-02 amount-02 زیان نشان داد. company-02 amount-03 درآمد کسب کرد. company-03 EPS amount-04 گزارش داد.", "mapping": {"company-01": "شرکت سرمایهگذاری دارویی تأمین (تیپیکو)", "amount-01": "681,667 میلیارد ریال", "company-02": "شرکت آسان پادرو", "amount-02": "6 میلیارد تومان", "amount-03": "30 میلیارد تومان", "company-03": "شرکت پالایش نفت اصفهان", "amount-04": "936 ریال"}}
|
| 154 |
-
KEY: «تیپیکو» = company-01. «پادرو» = company-02 (همان شرکت آس��ن پادرو). «شپنا» = company-03 (شرکت پالایش نفت اصفهان)
|
| 155 |
-
|
| 156 |
-
EXAMPLE 7 — میدان نفتی/گازی = مکان نه شرکت + این شرکت = همان توکن:
|
| 157 |
-
INPUT: قرارداد توسعه میدان گازی پارس جنوبی میان شرکت ملی نفت ایران و گروه پتروپارس به ارزش 20 میلیارد دلار امضا شد. این شرکت تا پایان سال تولید را افزایش خواهد داد.
|
| 158 |
-
OUTPUT json:
|
| 159 |
-
{"anonymized": "قرارداد توسعه میدان گازی پارس جنوبی میان company-01 و company-02 به ارزش amount-01 امضا شد. company-02 تا پایان سال تولید را افزایش خواهد داد.", "mapping": {"company-01": "شرکت ملی نفت ایران", "company-02": "گروه پتروپارس", "amount-01": "20 میلیارد دلار"}}
|
| 160 |
-
KEY: «پارس جنوبی» = میدان گازی (مکان) → ناشناس نشود. «این شرکت» = company-02 (همان گروه پتروپارس). وزارت نفت اگر ذکر شود = ناشناس نشود.
|
| 161 |
-
|
| 162 |
-
EXAMPLE 8 — توصیف بدون نام خاص + واحد داخلی + حسابرس بدون نام + مجازات قضایی:
|
| 163 |
-
INPUT: طبق گزارش واحد حسابرسی داخلی، این شرکت بازرگانی مبلغ 78 میلیارد تومان اختلاف مالیاتی دارد. حسابرس مستقل تأیید کرد. شورای شهر درخواست بررسی کرد. متهم به 5 سال حبس و 36 ضربه شلاق محکوم شد.
|
| 164 |
-
OUTPUT json:
|
| 165 |
-
{"anonymized": "طبق گزارش واحد حسابرسی داخلی، این شرکت بازرگانی مبلغ amount-01 اختلاف مالیاتی دارد. حسابرس مستقل تأیید کرد. شورای شهر درخواست بررسی کرد. متهم به 5 سال حبس و 36 ضربه شلاق محکوم شد.", "mapping": {"amount-01": "78 میلیارد تومان"}}
|
| 166 |
-
KEY: «واحد حسابرسی داخلی» = بخش داخلی، ناشناس نشود. «این شرکت بازرگانی» = توصیف بدون نام خاص، ناشناس نشود. «حسابرس مستقل» = عنوان شغلی بدون نام. «شورای شهر» = عمومی. «5 سال حبس»، «36 ضربه شلاق» = مجازات، نه مبلغ مالی.
|
| 167 |
-
|
| 168 |
-
EXAMPLE 9 — نماد بورسی (وکغدیر) = همان شرکت + «این شرکت» ارجاع:
|
| 169 |
-
INPUT: دکتر علی رضایی مدیرعامل هلدینگ صنایع و معادن غدیر گفت سال مالی وکغدیر به پایان رسید و سود خالص این شرکت 5 هزار میلیارد تومان شد که 120 درصد رشد داشت.
|
| 170 |
-
OUTPUT json:
|
| 171 |
-
{"anonymized": "person-01 مدیرعامل company-01 گفت سال مالی company-01 به پایان رسید و سود خالص company-01 amount-01 شد که percent-01 رشد داشت.", "mapping": {"person-01": "دکتر علی رضایی", "company-01": "هلدینگ صنایع و معادن غدیر", "amount-01": "5 هزار میلیارد تومان", "percent-01": "120 درصد"}}
|
| 172 |
-
KEY: «وکغدیر» = نماد بورسی هلدینگ غدیر = company-01 (نه company-02). «این شرکت» = company-01 (ارجاع به همان موجودیت).
|
| 173 |
-
|
| 174 |
-
|
| 175 |
-
EXAMPLE 10 — روز/ماه ناشناس نشود + ایندکس یکتا:
|
| 176 |
-
INPUT: طبق قوانین بازار سرمایه شرکتهای بورسی موظفاند سود تقسیمی را حداکثر ظرف مدت 8 ماه پس از برگزاری مجمع به حساب سهامداران پرداخت کنند. شپدیس در سه سال اخیر سود سهامداران را در کمتر از 20 روز پرداخت کرده است.
|
| 177 |
-
OUTPUT json:
|
| 178 |
-
{"anonymized": "طبق قوانین بازار سرمایه شرکتهای بورسی موظفاند سود تقسیمی را حداکثر ظرف مدت 8 ماه پس از برگزاری مجمع به حساب سهامداران پرداخت کنند. company-01 در سه سال اخیر سود سهامداران را در کمتر از 20 روز پرداخت کرده است.", "mapping": {"company-01": "شپدیس"}}
|
| 179 |
-
KEY: «8 ماه»، «20 روز»، «سه سال» = دوره زمانی → ناشناس نشوند. هرگز روز/ماه/سال را amount نکنید.
|
| 180 |
-
|
| 181 |
-
EXAMPLE 11 — اعداد شمارشی + واحد فیزیکی + 6 amount با ایندکس یکتا:
|
| 182 |
-
INPUT: وزارت نفت تاکنون 16 قرارداد برای توسعه 23 میدان با سرمایهگذاری بیش از 27 میلیارد دلار امضا کرده که 9 قرارداد با ارزش 13 میلیارد دلار در اجرا است. تولید روزانه 1.6 میلیون فوت مکعب گاز هدفگذاری شده.
|
| 183 |
-
OUTPUT json:
|
| 184 |
-
{"anonymized": "وزارت نفت تاکنون amount-01 قرارداد برای توسعه amount-02 میدان با سرمایهگذاری بیش از amount-03 امضا کرده که amount-04 قرارداد با ارزش amount-05 در اجرا است. تولید روزانه amount-06 هدفگذاری شده.", "mapping": {"amount-01": "16 قرارداد", "amount-02": "23 میدان", "amount-03": "27 میلیارد دلار", "amount-04": "9 قرارداد", "amount-05": "13 میلیارد دلار", "amount-06": "1.6 میلیون فوت مکعب گاز"}}
|
| 185 |
-
KEY: «وزارت نفت» ناشناس نشود. هر amount ایندکس یکتا: 01,02,03,04,05,06. «فوت مکعب» = واحد فیزیکی معتبر. هرگز یک ایندکس را دوبار استفاده نکنید.
|
| 186 |
-
|
| 187 |
-
|
| 188 |
-
EXAMPLE 12 — وزارتخانه + سازمان دولتی + بانک مرکزی + نهاد انقلابی = همه company:
|
| 189 |
-
INPUT: وزارت نفت اعلام کرد سازمان مالیاتی کشور ۱۲۰ میلیارد تومان مطالبه دارد. بانک مرکزی نرخ بهره را ۲۳ درصد تعیین کرد. ستاد اجرایی فرمان امام ۵۰۰ میلیارد تومان تامین مالی کرد.
|
| 190 |
-
OUTPUT json:
|
| 191 |
-
{"anonymized": "company-01 اعلام کرد company-02 amount-01 مطالبه دارد. company-03 نرخ بهره را percent-01 تعیین کرد. company-04 amount-02 تامین مالی کرد.", "mapping": {"company-01": "وزارت نفت", "company-02": "سازمان مالیاتی کشور", "amount-01": "۱۲۰ میلیارد تومان", "company-03": "بانک مرکزی", "percent-01": "۲۳ درصد", "company-04": "ستاد اجرایی فرمان امام", "amount-02": "۵۰۰ میلیارد تومان"}}
|
| 192 |
-
KEY: وزارت/سازمان/بانک مرکزی/ستاد = همه company-XX. هیچ نهاد دولتی با نام خاصی استثنا ندارد.
|
| 193 |
-
|
| 194 |
-
EXAMPLE 13 — اداره دولتی + دادگاه + دادستانی = company:
|
| 195 |
-
INPUT: اداره کل مالیات تهران پرونده را به دادگاه تجدیدنظر استان تهران ارجاع داد. دادستانی کل کشور اعلام کرد بیش از ۲۰۰ میلیارد تومان اختلاس صورت گرفته است.
|
| 196 |
-
OUTPUT json:
|
| 197 |
-
{"anonymized": "company-01 پرونده را به company-02 ارجاع داد. company-03 اعلام کرد بیش از amount-01 اختلاس صورت گرفته است.", "mapping": {"company-01": "اداره کل مالیات تهران", "company-02": "دادگاه تجدیدنظر استان تهران", "company-03": "دادستانی کل کشور", "amount-01": "۲۰۰ میلیارد تومان"}}
|
| 198 |
-
KEY: ادارات/دادگاه/دادستانی با نام خاص = company-XX. فقط عبارات کاملاً عمومی ناشناس نمیشوند.
|
| 199 |
-
|
| 200 |
-
=== END EXAMPLES ===
|
| 201 |
-
"""
|
| 202 |
-
|
| 203 |
-
|
| 204 |
-
# ─────────────────────────────────────────────────────────────
|
| 205 |
-
# ساخت prompt
|
| 206 |
-
# ─────────────────────────────────────────────────────────────
|
| 207 |
-
|
| 208 |
-
def build_single_call_prompt(text: str, entities: list) -> str:
|
| 209 |
-
"""
|
| 210 |
-
یک prompt = یک call
|
| 211 |
-
Thinking mode فعال — برای دقت بالا (نسخه ۹۰٪+)
|
| 212 |
-
"""
|
| 213 |
-
active = []
|
| 214 |
-
if "company" in entities: active.append("company-XX (همه سازمانها)")
|
| 215 |
-
if "person" in entities: active.append("person-XX (نام اشخاص)")
|
| 216 |
-
if "amount" in entities: active.append("amount-XX (اعداد+واحد)")
|
| 217 |
-
if "percent" in entities: active.append("percent-XX (درصدها)")
|
| 218 |
-
|
| 219 |
-
mapping_hints = []
|
| 220 |
-
if "person" in entities: mapping_hints.append('"person-XX": "نام کامل"')
|
| 221 |
-
if "company" in entities: mapping_hints.append('"company-XX": "نام کامل سازمان"')
|
| 222 |
-
if "amount" in entities: mapping_hints.append('"amount-XX": "عدد + واحد کامل"')
|
| 223 |
-
if "percent" in entities: mapping_hints.append('"percent-XX": "عدد + درصد/% کامل"')
|
| 224 |
-
|
| 225 |
-
return f"""{FEW_SHOT_EXAMPLES}
|
| 226 |
-
|
| 227 |
-
موجودیتهای فعال: {' | '.join(active)}
|
| 228 |
-
|
| 229 |
-
متن زیر را ناشناس کن. ابتدا در <thinking> تحلیل کن، سپس JSON نهایی بده:
|
| 230 |
-
|
| 231 |
-
فرمت خروجی نهایی (بعد از </thinking>):
|
| 232 |
-
{{
|
| 233 |
-
"anonymized": "متن ناشناس شده",
|
| 234 |
-
"mapping": {{ {", ".join(mapping_hints)} }}
|
| 235 |
-
}}
|
| 236 |
-
|
| 237 |
-
متن:
|
| 238 |
-
{text}"""
|
| 239 |
-
|
| 240 |
-
|
| 241 |
-
def build_verification_prompt(
|
| 242 |
-
original_text: str,
|
| 243 |
-
anonymized_text: str,
|
| 244 |
-
current_mapping: Dict[str, str],
|
| 245 |
-
entities: list
|
| 246 |
-
) -> str:
|
| 247 |
-
"""
|
| 248 |
-
پاس تأیید: متن اصلی و ناشناسشده رو مقایسه کن
|
| 249 |
-
موجودیتهای جامانده رو پیدا کن
|
| 250 |
-
"""
|
| 251 |
-
active = []
|
| 252 |
-
if "company" in entities: active.append("company-XX (سازمان/شرکت/بانک)")
|
| 253 |
-
if "person" in entities: active.append("person-XX (نام اشخاص)")
|
| 254 |
-
if "amount" in entities: active.append("amount-XX (عدد+واحد)")
|
| 255 |
-
if "percent" in entities: active.append("percent-XX (درصد)")
|
| 256 |
-
|
| 257 |
-
# لیست توکنهای فعلی
|
| 258 |
-
existing_tokens = ""
|
| 259 |
-
if current_mapping:
|
| 260 |
-
existing_lines = [f" {tok} → {val}" for tok, val in sorted(current_mapping.items())]
|
| 261 |
-
existing_tokens = "\n".join(existing_lines)
|
| 262 |
-
|
| 263 |
-
# بالاترین شماره هر نوع برای ادامه شمارهگذاری
|
| 264 |
-
next_numbers = {}
|
| 265 |
-
for etype in entities:
|
| 266 |
-
nums = [int(t.split("-")[1]) for t in current_mapping.keys() if t.startswith(f"{etype}-")]
|
| 267 |
-
next_numbers[etype] = max(nums) + 1 if nums else 1
|
| 268 |
-
|
| 269 |
-
next_info = ", ".join(f"{e}: از {next_numbers[e]:02d}" for e in entities if e in next_numbers)
|
| 270 |
-
|
| 271 |
-
return f"""تو یک بازبین ناشناسسازی هستی. متن اصلی و نسخه ناشناسشده رو مقایسه کن.
|
| 272 |
-
|
| 273 |
-
موجودیتهای فعال: {' | '.join(active)}
|
| 274 |
-
|
| 275 |
-
=== توکنهای فعلی ===
|
| 276 |
-
{existing_tokens}
|
| 277 |
-
|
| 278 |
-
=== متن اصلی ===
|
| 279 |
-
{original_text}
|
| 280 |
-
|
| 281 |
-
=== متن ناشناسشده فعلی ===
|
| 282 |
-
{anonymized_text}
|
| 283 |
-
|
| 284 |
-
وظیفه: متن اصلی و ناشناسشده رو کلمهبهکلمه مقایسه کن.
|
| 285 |
-
- فقط موجودیتهایی که ۱۰۰٪ مطمئنی جا ماندهاند را اضافه کن.
|
| 286 |
-
- اگر شک داری، اضافه نکن. بهتره یک موجودیت جا بمونه تا اینکه کلمه عادی ناشناس بشه.
|
| 287 |
-
- اگر نام مختصر یکی از توکنهای موجود است → از همان توکن استفاده کن.
|
| 288 |
-
- شمارهگذاری توکنهای جدید: {next_info}
|
| 289 |
-
|
| 290 |
-
مهم — ناشناس نکن:
|
| 291 |
-
- تاریخ، مکان، نام کشور، نام شهر
|
| 292 |
-
- عنوان شغلی: مدیرعامل، رئیس، وزیر، معاون
|
| 293 |
-
- کلمات عمومی: «بانکها»، «شرکتها»، «این بانک»، «12 بانک کشور»
|
| 294 |
-
- واحد مبلغ داخل توکن: ✅ amount-XX (شامل عدد+واحد) ❌ amount-XX ریال
|
| 295 |
-
- واحد درصد داخل توکن: ✅ percent-XX (شامل عدد+درصد) ❌ percent-XX درصد
|
| 296 |
-
|
| 297 |
-
خروجی: فقط JSON (بدون توضیح):
|
| 298 |
-
{{
|
| 299 |
-
"fixed_text": "متن ناشناسشده اصلاحشده با توکنهای جدید",
|
| 300 |
-
"new_mapping": {{"token": "مقدار اصلی"}}
|
| 301 |
-
}}
|
| 302 |
-
|
| 303 |
-
اگر هیچ موجودیتی جا نمانده یا مطمئن نیستی:
|
| 304 |
-
{{
|
| 305 |
-
"fixed_text": "",
|
| 306 |
-
"new_mapping": {{}}
|
| 307 |
-
}}
|
| 308 |
-
|
| 309 |
-
مثال — اینها جا نماندهاند (ناشناس نکن):
|
| 310 |
-
❌ «تهران» → مکان است، ناشناس نشود
|
| 311 |
-
❌ «مدیرعامل» → عنوان شغلی
|
| 312 |
-
❌ «بانکهای مورد بررسی» → عمومی
|
| 313 |
-
❌ «12 بانک کشور» → عمومی
|
| 314 |
-
❌ «سال ۱۴۰۳» → تاریخ"""
|
| 315 |
-
|
| 316 |
-
|
| 317 |
-
def build_analysis_prompt(anonymized_text: str, analysis_prompt: str, entities: list) -> str:
|
| 318 |
-
tokens = []
|
| 319 |
-
if "person" in entities: tokens.append("person-XX")
|
| 320 |
-
if "company" in entities: tokens.append("company-XX")
|
| 321 |
-
if "amount" in entities: tokens.append("amount-XX")
|
| 322 |
-
if "percent" in entities: tokens.append("percent-XX")
|
| 323 |
-
|
| 324 |
-
return f"""متن ناشناسسازی شده:
|
| 325 |
-
{anonymized_text}
|
| 326 |
-
|
| 327 |
-
دستورات:
|
| 328 |
-
{analysis_prompt}
|
| 329 |
-
|
| 330 |
-
قوانین:
|
| 331 |
-
- فقط از توکنهای موجود استفاده کن: {', '.join(tokens)}
|
| 332 |
-
- هیچ کلمهای قبل/بعد از توکنها اضافه نکن
|
| 333 |
-
- توکن جدید ایجاد نکن"""
|
| 334 |
-
|
| 335 |
-
|
| 336 |
-
# ─────────────────────────────────────────────────────────────
|
| 337 |
-
# توابع کمکی
|
| 338 |
-
# ─────────────────────────────────────────────────────────────
|
| 339 |
-
|
| 340 |
-
def strip_thinking(text: str) -> str:
|
| 341 |
-
"""
|
| 342 |
-
حذف بلوکهای think/thinking از خروجی
|
| 343 |
-
thinking mode فعال است — برای دقت استفاده میشود ولی در خروجی نهایی نمیآید
|
| 344 |
-
"""
|
| 345 |
-
if not text:
|
| 346 |
-
return text
|
| 347 |
-
# تگهای Qwen3 thinking
|
| 348 |
-
text = re.sub(r"<think>.*?</think>", "", text, flags=re.DOTALL)
|
| 349 |
-
# تگهای نسخه قدیمی
|
| 350 |
-
text = re.sub(r"<thinking>.*?</thinking>", "", text, flags=re.DOTALL)
|
| 351 |
-
return text.strip()
|
| 352 |
-
|
| 353 |
-
|
| 354 |
-
def parse_json_response(raw: str) -> dict:
|
| 355 |
-
"""parse JSON مقاوم — thinking block + markdown fence"""
|
| 356 |
-
raw = strip_thinking(raw)
|
| 357 |
-
raw = re.sub(r"```(?:json)?", "", raw).replace("```", "").strip()
|
| 358 |
-
start = raw.find("{")
|
| 359 |
-
end = raw.rfind("}") + 1
|
| 360 |
-
if start == -1 or end == 0:
|
| 361 |
-
raise ValueError("JSON یافت نشد")
|
| 362 |
-
return json.loads(raw[start:end])
|
| 363 |
-
|
| 364 |
-
|
| 365 |
-
def post_deepinfra(prompt: str, system: str, max_tokens: int = 6000, timeout: int = 60) -> str:
|
| 366 |
-
"""
|
| 367 |
-
DeepInfra Qwen3-14B
|
| 368 |
-
Thinking mode فعال — برای دقت بالا
|
| 369 |
-
timeout = (connect, read) — سریع شناسایی مشکل اتصال
|
| 370 |
-
"""
|
| 371 |
-
api_key = os.getenv("DEEPINFRA_API_KEY")
|
| 372 |
-
if not api_key:
|
| 373 |
-
raise ValueError("DEEPINFRA_API_KEY موجود نیست")
|
| 374 |
-
|
| 375 |
-
# connect: 10s | read: بقیه timeout
|
| 376 |
-
connect_timeout = 10
|
| 377 |
-
read_timeout = max(timeout - connect_timeout, 30)
|
| 378 |
-
|
| 379 |
-
resp = requests.post(
|
| 380 |
-
ANON_API_URL,
|
| 381 |
-
headers={
|
| 382 |
-
"Authorization": f"Bearer {api_key}",
|
| 383 |
-
"Content-Type": "application/json"
|
| 384 |
-
},
|
| 385 |
-
json={
|
| 386 |
-
"model": ANON_MODEL,
|
| 387 |
-
"messages": [
|
| 388 |
-
{"role": "system", "content": system},
|
| 389 |
-
{"role": "user", "content": prompt}
|
| 390 |
-
],
|
| 391 |
-
"max_tokens": max_tokens,
|
| 392 |
-
"temperature": 0.3,
|
| 393 |
-
"top_p": 0.9,
|
| 394 |
-
},
|
| 395 |
-
timeout=(connect_timeout, read_timeout)
|
| 396 |
-
)
|
| 397 |
-
|
| 398 |
-
if resp.status_code != 200:
|
| 399 |
-
raise Exception(f"DeepInfra {resp.status_code}: {resp.text[:300]}")
|
| 400 |
-
|
| 401 |
-
content = resp.json()["choices"][0]["message"]["content"]
|
| 402 |
-
if "<think>" in content or "<thinking>" in content:
|
| 403 |
-
thinking = re.search(r"<think(?:ing)?>(.*?)</think(?:ing)?>", content, re.DOTALL)
|
| 404 |
-
if thinking:
|
| 405 |
-
logger.info(f"🧠 Thinking ({len(thinking.group(1))} chars)...")
|
| 406 |
-
|
| 407 |
-
return strip_thinking(content)
|
| 408 |
-
|
| 409 |
-
|
| 410 |
-
# ─────────────────────────────────────────────────────────────
|
| 411 |
-
# تخمین هوشمند max_tokens و Chunking
|
| 412 |
-
# ─────────────────────────────────────────────────────────────
|
| 413 |
-
|
| 414 |
-
# آستانههای chunking
|
| 415 |
-
CHUNK_MAX_CHARS = 900 # حداکثر کاراکتر هر chunk
|
| 416 |
-
CHUNK_MAX_ENTITIES = 12 # حداکثر موجودیت تخمینی هر chunk
|
| 417 |
-
LONG_TEXT_THRESHOLD = 1200 # بالای این → chunking فعال
|
| 418 |
-
|
| 419 |
-
# ── حالت batch سریع ──
|
| 420 |
-
# True = CSV batch: retry=1، timeout=45s، بدون verification pass → سریع
|
| 421 |
-
# False = UI تک متن: retry=2، timeout=60/90s، با verification pass → دقیق
|
| 422 |
-
BATCH_FAST_MODE = False
|
| 423 |
-
|
| 424 |
-
def estimate_entity_count(text: str) -> int:
|
| 425 |
-
"""تخمین تعداد موجودیتها بر اساس نشانههای متن"""
|
| 426 |
-
markers = 0
|
| 427 |
-
# شرکتها
|
| 428 |
-
markers += len(re.findall(r'(?:شرکت|بانک|سازمان|گروه|هلدینگ|صندوق|بیمه|پتروشیمی|سرمایه\s*گذاری)\s+', text))
|
| 429 |
-
# اشخاص (نام و نام خانوادگی فارسی)
|
| 430 |
-
markers += len(re.findall(r'(?:آقای|خانم|دکتر|مهندس|حجت\s*الاسلام)\s+', text))
|
| 431 |
-
markers += len(re.findall(r'[ء-ی]+\s+[ء-ی]+(?:?زاده|?پور|?نژاد|?فر)', text))
|
| 432 |
-
# مبالغ
|
| 433 |
-
markers += len(re.findall(r'[\d۰-۹][,،\d۰-۹]*(?:\.\d+)?\s*(?:میلیارد|میلیون|هزار|همت|تومان|ریال|دلار|یورو)', text))
|
| 434 |
-
markers += len(re.findall(r'[\d۰-۹][,،\d۰-۹]*\s*(?:نفر|تن|دستگاه|واحد|فقره)', text))
|
| 435 |
-
# درصدها
|
| 436 |
-
markers += len(re.findall(r'[\d۰-۹]+(?:\.\d+)?\s*(?:درصد|%|٪)', text))
|
| 437 |
-
return max(markers, 1)
|
| 438 |
-
|
| 439 |
-
|
| 440 |
-
def estimate_max_tokens(text: str) -> int:
|
| 441 |
-
"""محاسبه max_tokens بر اساس طول متن و تعداد موجودیت تخمینی"""
|
| 442 |
-
entity_est = estimate_entity_count(text)
|
| 443 |
-
text_len = len(text)
|
| 444 |
-
|
| 445 |
-
# thinking ≈ 1500-3000 tok + JSON output ≈ text_len*0.8 + mapping ≈ entity*80
|
| 446 |
-
base_thinking = 2500
|
| 447 |
-
json_output = int(text_len * 0.7)
|
| 448 |
-
mapping_space = entity_est * 100
|
| 449 |
-
buffer = 1500
|
| 450 |
-
|
| 451 |
-
tokens = base_thinking + json_output + mapping_space + buffer
|
| 452 |
-
# حداقل 6000، حداکثر 16000
|
| 453 |
-
return max(6000, min(tokens, 16000))
|
| 454 |
-
|
| 455 |
-
|
| 456 |
-
def split_text_to_chunks(text: str, max_chars: int = CHUNK_MAX_CHARS) -> List[str]:
|
| 457 |
-
"""
|
| 458 |
-
تقسیم متن به chunkهای کوچکتر بر اساس پاراگراف و جمله
|
| 459 |
-
"""
|
| 460 |
-
# اول تقسیم بر اساس خط جدید
|
| 461 |
-
paragraphs = re.split(r'\n+', text)
|
| 462 |
-
paragraphs = [p.strip() for p in paragraphs if p.strip()]
|
| 463 |
-
|
| 464 |
-
# اگر فقط یک پاراگراف بلند داریم، بر اساس نقطه تقسیم کن
|
| 465 |
-
if len(paragraphs) == 1 and len(paragraphs[0]) > max_chars:
|
| 466 |
-
sentences = re.split(r'(?<=[.،؛!؟\n])\s+', paragraphs[0])
|
| 467 |
-
paragraphs = [s.strip() for s in sentences if s.strip()]
|
| 468 |
-
|
| 469 |
-
chunks = []
|
| 470 |
-
current_chunk = ""
|
| 471 |
-
|
| 472 |
-
for para in paragraphs:
|
| 473 |
-
# اگه پاراگراف خودش بلندتر از حد هست
|
| 474 |
-
if len(para) > max_chars:
|
| 475 |
-
if current_chunk:
|
| 476 |
-
chunks.append(current_chunk.strip())
|
| 477 |
-
current_chunk = ""
|
| 478 |
-
# تقسیم بر اساس جمله
|
| 479 |
-
sents = re.split(r'(?<=[.،؛!؟])\s+', para)
|
| 480 |
-
sub_chunk = ""
|
| 481 |
-
for s in sents:
|
| 482 |
-
if len(sub_chunk) + len(s) + 1 <= max_chars:
|
| 483 |
-
sub_chunk += (" " if sub_chunk else "") + s
|
| 484 |
-
else:
|
| 485 |
-
if sub_chunk:
|
| 486 |
-
chunks.append(sub_chunk.strip())
|
| 487 |
-
sub_chunk = s
|
| 488 |
-
if sub_chunk:
|
| 489 |
-
chunks.append(sub_chunk.strip())
|
| 490 |
-
elif len(current_chunk) + len(para) + 1 <= max_chars:
|
| 491 |
-
current_chunk += ("\n" if current_chunk else "") + para
|
| 492 |
-
else:
|
| 493 |
-
if current_chunk:
|
| 494 |
-
chunks.append(current_chunk.strip())
|
| 495 |
-
current_chunk = para
|
| 496 |
-
|
| 497 |
-
if current_chunk:
|
| 498 |
-
chunks.append(current_chunk.strip())
|
| 499 |
-
|
| 500 |
-
# اگر هنوز خالیه، کل متن رو برگردون
|
| 501 |
-
if not chunks:
|
| 502 |
-
chunks = [text]
|
| 503 |
-
|
| 504 |
-
return chunks
|
| 505 |
-
|
| 506 |
-
|
| 507 |
-
def merge_chunk_mappings(
|
| 508 |
-
chunk_results: List[Tuple[str, Dict]],
|
| 509 |
-
entities: List[str]
|
| 510 |
-
) -> Tuple[str, Dict]:
|
| 511 |
-
"""
|
| 512 |
-
ادغام نتایج chunkها + بازشمارهگذاری توکنها به صورت سراسری
|
| 513 |
-
"""
|
| 514 |
-
merged_text = ""
|
| 515 |
-
merged_mapping = {}
|
| 516 |
-
global_counters = {e: 0 for e in entities}
|
| 517 |
-
|
| 518 |
-
for chunk_text, chunk_mapping in chunk_results:
|
| 519 |
-
if not chunk_mapping:
|
| 520 |
-
merged_text += ("\n" if merged_text else "") + chunk_text
|
| 521 |
-
continue
|
| 522 |
-
|
| 523 |
-
# نگاشت توکنهای محلی chunk به شماره سراسری
|
| 524 |
-
local_to_global = {}
|
| 525 |
-
|
| 526 |
-
# مرتبسازی بر اساس ترتیب ظاهر شدن در متن
|
| 527 |
-
sorted_tokens = sorted(
|
| 528 |
-
chunk_mapping.keys(),
|
| 529 |
-
key=lambda t: (t.split("-")[0], int(t.split("-")[1]))
|
| 530 |
-
)
|
| 531 |
-
|
| 532 |
-
for local_token in sorted_tokens:
|
| 533 |
-
original_value = chunk_mapping[local_token]
|
| 534 |
-
etype = local_token.split("-")[0]
|
| 535 |
-
|
| 536 |
-
# بررسی آیا این مقدار قبلاً در mapping سراسری هست
|
| 537 |
-
existing_token = None
|
| 538 |
-
for g_token, g_value in merged_mapping.items():
|
| 539 |
-
if g_value == original_value and g_token.startswith(etype):
|
| 540 |
-
existing_token = g_token
|
| 541 |
-
break
|
| 542 |
-
|
| 543 |
-
if existing_token:
|
| 544 |
-
local_to_global[local_token] = existing_token
|
| 545 |
-
else:
|
| 546 |
-
global_counters[etype] += 1
|
| 547 |
-
new_token = f"{etype}-{global_counters[etype]:02d}"
|
| 548 |
-
local_to_global[local_token] = new_token
|
| 549 |
-
merged_mapping[new_token] = original_value
|
| 550 |
-
|
| 551 |
-
# جایگزینی توکنهای محلی با سراسری در متن chunk
|
| 552 |
-
renamed_text = chunk_text
|
| 553 |
-
# از بلندترین شروع کن تا تداخل نباشه
|
| 554 |
-
for local_token in sorted(local_to_global.keys(), key=len, reverse=True):
|
| 555 |
-
global_token = local_to_global[local_token]
|
| 556 |
-
if local_token != global_token:
|
| 557 |
-
renamed_text = renamed_text.replace(local_token, global_token)
|
| 558 |
-
|
| 559 |
-
merged_text += ("\n" if merged_text else "") + renamed_text
|
| 560 |
-
|
| 561 |
-
return merged_text, merged_mapping
|
| 562 |
-
|
| 563 |
-
|
| 564 |
-
# ─────────────────────────────────────────────────────────────
|
| 565 |
-
# کلاس اصلی
|
| 566 |
-
# ─────────────────────────────────────────────────────────────
|
| 567 |
-
class AnonymizerAdvanced:
|
| 568 |
-
|
| 569 |
-
def __init__(
|
| 570 |
-
self,
|
| 571 |
-
llm_provider: str = "chatgpt",
|
| 572 |
-
llm_model: str = None,
|
| 573 |
-
entities_to_anonymize: List[str] = None
|
| 574 |
-
):
|
| 575 |
-
self.llm_provider = llm_provider
|
| 576 |
-
self.llm_model = llm_model
|
| 577 |
-
self.entities_to_anonymize = entities_to_anonymize or ["person", "company", "amount", "percent"]
|
| 578 |
-
self.mapping_table: Dict[str, str] = {}
|
| 579 |
-
self.reverse_mapping: Dict[str, str] = {}
|
| 580 |
-
self._create_llm_sender()
|
| 581 |
-
logger.info(f"✅ Anonymizer — {llm_provider}")
|
| 582 |
-
|
| 583 |
-
# ── LLM sender (تحلیل) ──────────────────────────────────
|
| 584 |
-
|
| 585 |
-
def _create_llm_sender(self):
|
| 586 |
-
try:
|
| 587 |
-
key_map = {
|
| 588 |
-
"chatgpt": os.getenv("OPENAI_API_KEY"),
|
| 589 |
-
"grok": os.getenv("XAI_API_KEY"),
|
| 590 |
-
"deepinfra": os.getenv("DEEPINFRA_API_KEY"),
|
| 591 |
-
}
|
| 592 |
-
self.llm_sender = create_llm_sender(
|
| 593 |
-
provider=self.llm_provider,
|
| 594 |
-
api_key=key_map.get(self.llm_provider),
|
| 595 |
-
model=self.llm_model
|
| 596 |
-
)
|
| 597 |
-
logger.info(f"✅ LLM Sender: {self.llm_provider} — {self.llm_sender.model}")
|
| 598 |
-
except Exception as e:
|
| 599 |
-
logger.error(f"❌ LLM Sender خطا: {e}")
|
| 600 |
-
self.llm_sender = create_llm_sender("chatgpt")
|
| 601 |
-
|
| 602 |
-
def set_llm_provider(self, provider: str, model: str = None, entities: List[str] = None):
|
| 603 |
-
self.llm_provider = provider
|
| 604 |
-
self.llm_model = model
|
| 605 |
-
if entities is not None:
|
| 606 |
-
self.entities_to_anonymize = entities
|
| 607 |
-
self._create_llm_sender()
|
| 608 |
-
|
| 609 |
-
# ── ناشناسسازی — thinking فعال، retry + chunking + verify ──
|
| 610 |
-
|
| 611 |
-
def anonymize(self, text: str) -> Tuple[str, Dict]:
|
| 612 |
-
"""
|
| 613 |
-
ناشناسسازی هوشمند:
|
| 614 |
-
1. متن کوتاه → single call
|
| 615 |
-
2. متن طولانی → chunking
|
| 616 |
-
3. هر call با retry
|
| 617 |
-
4. پاس تأیید (verification) برای پیدا کردن موجودیتهای جامانده
|
| 618 |
-
"""
|
| 619 |
-
if not self.entities_to_anonymize:
|
| 620 |
-
return text, {}
|
| 621 |
-
|
| 622 |
-
text_len = len(text)
|
| 623 |
-
entity_est = estimate_entity_count(text)
|
| 624 |
-
|
| 625 |
-
logger.info(f"🧠 ورودی: {text_len} char | ~{entity_est} موجودیت تخمینی")
|
| 626 |
-
|
| 627 |
-
# ── مرحله ۱: ناشناسسازی اولیه ──
|
| 628 |
-
needs_chunking = (
|
| 629 |
-
text_len > LONG_TEXT_THRESHOLD or
|
| 630 |
-
entity_est > CHUNK_MAX_ENTITIES
|
| 631 |
-
)
|
| 632 |
-
|
| 633 |
-
if needs_chunking:
|
| 634 |
-
anon_text, mapping = self._anonymize_chunked(text)
|
| 635 |
-
else:
|
| 636 |
-
anon_text, mapping = self._anonymize_single(text)
|
| 637 |
-
|
| 638 |
-
# ── مرحله ۲: پاس تأیید ──
|
| 639 |
-
if anon_text and anon_text.strip() != text.strip():
|
| 640 |
-
anon_text, mapping = self._verification_pass(text, anon_text, mapping)
|
| 641 |
-
|
| 642 |
-
return anon_text, mapping
|
| 643 |
-
|
| 644 |
-
def _verification_pass(
|
| 645 |
-
self,
|
| 646 |
-
original_text: str,
|
| 647 |
-
anonymized_text: str,
|
| 648 |
-
current_mapping: Dict[str, str]
|
| 649 |
-
) -> Tuple[str, Dict]:
|
| 650 |
-
"""
|
| 651 |
-
پاس تأیید محافظهکارانه:
|
| 652 |
-
فقط وقتی اجرا شو که شواهد قوی از miss وجود داره
|
| 653 |
-
"""
|
| 654 |
-
found_count = len(current_mapping)
|
| 655 |
-
entity_est = estimate_entity_count(original_text)
|
| 656 |
-
|
| 657 |
-
# ── تصمیم: آیا verify لازمه؟ فقط وقتی شکاف بزرگ باشه ──
|
| 658 |
-
# شرط ۱: تعداد تخمینی خیلی بیشتر از یافتهها باشه (حداقل ۳ تا شکاف)
|
| 659 |
-
# شرط ۲: متن طولانی باشه (بالای ۸۰۰ کاراکتر)
|
| 660 |
-
gap = entity_est - found_count
|
| 661 |
-
# در حالت batch سریع: verification کاملاً skip میشود
|
| 662 |
-
needs_verify = (
|
| 663 |
-
not BATCH_FAST_MODE and
|
| 664 |
-
found_count > 0 and
|
| 665 |
-
gap >= 3 and
|
| 666 |
-
len(original_text) > 800
|
| 667 |
-
)
|
| 668 |
-
|
| 669 |
-
if not needs_verify:
|
| 670 |
-
logger.info(f" ⏭️ Verify skip: {found_count} found, ~{entity_est} est, gap={gap}")
|
| 671 |
-
return anonymized_text, current_mapping
|
| 672 |
-
|
| 673 |
-
logger.info(f" 🔍 Verification Pass: {found_count} یافته، ~{entity_est} تخمینی، gap={gap}")
|
| 674 |
-
|
| 675 |
-
try:
|
| 676 |
-
prompt = build_verification_prompt(
|
| 677 |
-
original_text, anonymized_text,
|
| 678 |
-
current_mapping, self.entities_to_anonymize
|
| 679 |
-
)
|
| 680 |
-
|
| 681 |
-
raw = post_deepinfra(
|
| 682 |
-
prompt,
|
| 683 |
-
"You are a conservative verification agent. Only flag entities you are VERY SURE were missed. When in doubt, do NOT flag. Output ONLY valid JSON.",
|
| 684 |
-
max_tokens=estimate_max_tokens(original_text),
|
| 685 |
-
timeout=60
|
| 686 |
-
)
|
| 687 |
-
|
| 688 |
-
result = parse_json_response(raw)
|
| 689 |
-
fixed_text = result.get("fixed_text", "")
|
| 690 |
-
new_mapping = result.get("new_mapping", {})
|
| 691 |
-
|
| 692 |
-
# اگه مدل گفت هیچی جا نمونده
|
| 693 |
-
if not fixed_text or not new_mapping:
|
| 694 |
-
logger.info(f" ✅ Verify: هیچ موجودیت جاماندهای یافت نشد")
|
| 695 |
-
return anonymized_text, current_mapping
|
| 696 |
-
|
| 697 |
-
# ── اعتبارسنجی سختگیرانه ──
|
| 698 |
-
|
| 699 |
-
# ۱) توکنهای قبلی نباید حذف شن
|
| 700 |
-
old_tokens = set(re.findall(r'(?:company|person|amount|percent)-\d+', anonymized_text))
|
| 701 |
-
new_tokens = set(re.findall(r'(?:company|person|amount|percent)-\d+', fixed_text))
|
| 702 |
-
lost_tokens = old_tokens - new_tokens
|
| 703 |
-
if lost_tokens:
|
| 704 |
-
logger.warning(f" ⚠️ Verify reject: {len(lost_tokens)} توکن قبلی حذف شده: {lost_tokens}")
|
| 705 |
-
return anonymized_text, current_mapping
|
| 706 |
-
|
| 707 |
-
# ۲) تعداد توکنهای جدید نباید خیلی زیاد باشه (حداکثر ۲ برابر gap)
|
| 708 |
-
added_tokens = new_tokens - old_tokens
|
| 709 |
-
max_allowed_new = min(gap * 2, 10)
|
| 710 |
-
if len(added_tokens) > max_allowed_new:
|
| 711 |
-
logger.warning(f" ⚠️ Verify reject: {len(added_tokens)} توکن جدید > حد مجاز {max_allowed_new}")
|
| 712 |
-
return anonymized_text, current_mapping
|
| 713 |
-
|
| 714 |
-
# ۳) new_mapping فقط شامل توکنهای معتبر باشه
|
| 715 |
-
valid_new_mapping = {}
|
| 716 |
-
for token, value in new_mapping.items():
|
| 717 |
-
if not re.match(r'(company|person|amount|percent)-\d+', token):
|
| 718 |
-
continue
|
| 719 |
-
if token in current_mapping:
|
| 720 |
-
continue # تکراری
|
| 721 |
-
if token not in new_tokens:
|
| 722 |
-
continue # در متن نیست
|
| 723 |
-
# مقدار نباید خیلی کوتاه باشه
|
| 724 |
-
if len(str(value).strip()) < 2:
|
| 725 |
-
continue
|
| 726 |
-
valid_new_mapping[token] = value
|
| 727 |
-
|
| 728 |
-
if not valid_new_mapping:
|
| 729 |
-
logger.info(f" ✅ Verify: mapping معتبر جدیدی نیست")
|
| 730 |
-
return anonymized_text, current_mapping
|
| 731 |
-
|
| 732 |
-
# ادغام mapping
|
| 733 |
-
merged_mapping = dict(current_mapping)
|
| 734 |
-
merged_mapping.update(valid_new_mapping)
|
| 735 |
-
|
| 736 |
-
# پاکسازی نهایی
|
| 737 |
-
final_tokens = set(re.findall(r'(?:company|person|amount|percent)-\d+', fixed_text))
|
| 738 |
-
merged_mapping = {k: v for k, v in merged_mapping.items() if k in final_tokens}
|
| 739 |
-
|
| 740 |
-
self.mapping_table = merged_mapping
|
| 741 |
-
self.reverse_mapping = {v: k for k, v in merged_mapping.items()}
|
| 742 |
-
|
| 743 |
-
logger.info(f" ✅ Verify: +{len(valid_new_mapping)} موجودیت | کل: {len(merged_mapping)}")
|
| 744 |
-
return fixed_text, merged_mapping
|
| 745 |
-
|
| 746 |
-
except Exception as e:
|
| 747 |
-
logger.warning(f" ⚠️ Verify fail: {e} — نتیجه اولیه حفظ میشود")
|
| 748 |
-
return anonymized_text, current_mapping
|
| 749 |
-
|
| 750 |
-
def _anonymize_single(self, text: str, max_retries: int = 2, is_chunk: bool = False) -> Tuple[str, Dict]:
|
| 751 |
-
"""
|
| 752 |
-
ناشناسسازی تکتکه با retry سریع
|
| 753 |
-
is_chunk=True → بدون fallback به chunking (جلوگیری از حلقه بازگشتی)
|
| 754 |
-
"""
|
| 755 |
-
base_max_tokens = estimate_max_tokens(text)
|
| 756 |
-
|
| 757 |
-
# حالت سریع: retry=1 و timeout=45s
|
| 758 |
-
if BATCH_FAST_MODE:
|
| 759 |
-
max_retries = 1
|
| 760 |
-
base_timeout = 45
|
| 761 |
-
else:
|
| 762 |
-
base_timeout = 60
|
| 763 |
-
|
| 764 |
-
for attempt in range(max_retries):
|
| 765 |
-
current_max_tokens = min(base_max_tokens + (attempt * 1500), 16000)
|
| 766 |
-
current_timeout = base_timeout + (attempt * 30) # fast:45s | normal:60s,90s
|
| 767 |
-
|
| 768 |
-
logger.info(f" 🔄 تلاش {attempt+1}/{max_retries} | max_tokens={current_max_tokens} | timeout={current_timeout}s")
|
| 769 |
-
|
| 770 |
-
prompt = build_single_call_prompt(text, self.entities_to_anonymize)
|
| 771 |
-
|
| 772 |
-
try:
|
| 773 |
-
raw = post_deepinfra(
|
| 774 |
-
prompt, ANON_SYSTEM_PROMPT,
|
| 775 |
-
max_tokens=current_max_tokens,
|
| 776 |
-
timeout=current_timeout
|
| 777 |
-
)
|
| 778 |
-
logger.info(f" ✅ پاسخ: {len(raw)} کاراکتر")
|
| 779 |
-
|
| 780 |
-
result = parse_json_response(raw)
|
| 781 |
-
anonymized_text = result.get("anonymized", "")
|
| 782 |
-
self.mapping_table = result.get("mapping", {})
|
| 783 |
-
|
| 784 |
-
# ── بررسی کیفیت: آیا واقعاً ناشناس شده؟ ──
|
| 785 |
-
if anonymized_text.strip() == text.strip():
|
| 786 |
-
logger.warning(f" ⚠️ متن تغییر نکرده! (attempt {attempt+1})")
|
| 787 |
-
if attempt < max_retries - 1:
|
| 788 |
-
time.sleep(0.5)
|
| 789 |
-
continue
|
| 790 |
-
# آخرین تلاش fail شد
|
| 791 |
-
if not is_chunk:
|
| 792 |
-
logger.warning(" ⚠️ retry fail → chunking")
|
| 793 |
-
return self._anonymize_chunked(text)
|
| 794 |
-
else:
|
| 795 |
-
return text, {} # در حالت chunk: متن اصلی برگرده
|
| 796 |
-
|
| 797 |
-
# آیا mapping خالی هست ولی توکن در متن هست؟
|
| 798 |
-
tokens_in_text = re.findall(r'(?:company|person|amount|percent)-\d+', anonymized_text)
|
| 799 |
-
if tokens_in_text and not self.mapping_table:
|
| 800 |
-
logger.warning(f" ⚠️ mapping خالی ولی {len(tokens_in_text)} توکن در متن!")
|
| 801 |
-
if attempt < max_retries - 1:
|
| 802 |
-
time.sleep(0.5)
|
| 803 |
-
continue
|
| 804 |
-
|
| 805 |
-
self._clean_orphan_tokens(anonymized_text)
|
| 806 |
-
self._fix_mapping()
|
| 807 |
-
self.reverse_mapping = {v: k for k, v in self.mapping_table.items()}
|
| 808 |
-
|
| 809 |
-
for etype in self.entities_to_anonymize:
|
| 810 |
-
found = sorted(set(re.findall(rf'{etype}-\d+', anonymized_text)))
|
| 811 |
-
if found:
|
| 812 |
-
logger.info(f" {etype}: {found}")
|
| 813 |
-
|
| 814 |
-
logger.info(f" ✅ mapping: {len(self.mapping_table)} موجودیت")
|
| 815 |
-
return anonymized_text, self.mapping_table
|
| 816 |
-
|
| 817 |
-
except json.JSONDecodeError as e:
|
| 818 |
-
logger.warning(f" ⚠️ JSON خطا (attempt {attempt+1}): {e}")
|
| 819 |
-
if attempt < max_retries - 1:
|
| 820 |
-
time.sleep(0.5)
|
| 821 |
-
continue
|
| 822 |
-
# آخرین تلاش: fallback
|
| 823 |
-
if not is_chunk:
|
| 824 |
-
logger.info(" 🔄 fallback دو-call...")
|
| 825 |
-
try:
|
| 826 |
-
return self._anonymize_fallback(text)
|
| 827 |
-
except Exception:
|
| 828 |
-
return self._anonymize_chunked(text)
|
| 829 |
-
return text, {}
|
| 830 |
-
|
| 831 |
-
except (requests.exceptions.Timeout, requests.exceptions.ConnectionError) as e:
|
| 832 |
-
logger.warning(f" ⏳ اتصال/Timeout (attempt {attempt+1}): {type(e).__name__}")
|
| 833 |
-
if attempt < max_retries - 1:
|
| 834 |
-
time.sleep(1)
|
| 835 |
-
continue
|
| 836 |
-
# timeout → chunking فقط اگه chunk نیستیم
|
| 837 |
-
if not is_chunk:
|
| 838 |
-
return self._anonymize_chunked(text)
|
| 839 |
-
return text, {}
|
| 840 |
-
|
| 841 |
-
except Exception as e:
|
| 842 |
-
logger.error(f" ❌ Exception (attempt {attempt+1}): {e}")
|
| 843 |
-
if attempt < max_retries - 1:
|
| 844 |
-
time.sleep(0.5)
|
| 845 |
-
continue
|
| 846 |
-
if is_chunk:
|
| 847 |
-
return text, {}
|
| 848 |
-
raise
|
| 849 |
-
|
| 850 |
-
# اگه هیچکدوم جواب نداد
|
| 851 |
-
if not is_chunk:
|
| 852 |
-
logger.warning(" ⚠️ همه retryها fail → chunking")
|
| 853 |
-
return self._anonymize_chunked(text)
|
| 854 |
-
return text, {}
|
| 855 |
-
|
| 856 |
-
def _anonymize_chunked(self, text: str) -> Tuple[str, Dict]:
|
| 857 |
-
"""
|
| 858 |
-
تقسیم متن به chunk و ناشناسسازی جداگانه + ادغام
|
| 859 |
-
هر chunk فقط ۱ retry و بدون بازگشت به chunking
|
| 860 |
-
"""
|
| 861 |
-
chunks = split_text_to_chunks(text, max_chars=CHUNK_MAX_CHARS)
|
| 862 |
-
logger.info(f" 📦 Chunking: {len(chunks)} قطعه از {len(text)} کاراکتر")
|
| 863 |
-
|
| 864 |
-
chunk_results = []
|
| 865 |
-
for i, chunk in enumerate(chunks):
|
| 866 |
-
logger.info(f" 📦 Chunk {i+1}/{len(chunks)}: {len(chunk)} char")
|
| 867 |
-
|
| 868 |
-
# ریست mapping برای هر chunk
|
| 869 |
-
self.mapping_table = {}
|
| 870 |
-
self.reverse_mapping = {}
|
| 871 |
-
|
| 872 |
-
try:
|
| 873 |
-
# is_chunk=True → بدون fallback بازگشتی به chunking
|
| 874 |
-
anon_chunk, mapping = self._anonymize_single(chunk, max_retries=2, is_chunk=True)
|
| 875 |
-
chunk_results.append((anon_chunk, mapping))
|
| 876 |
-
except Exception as e:
|
| 877 |
-
logger.error(f" ❌ Chunk {i+1} fail: {e} — متن اصلی حفظ میشود")
|
| 878 |
-
chunk_results.append((chunk, {}))
|
| 879 |
-
|
| 880 |
-
time.sleep(0.3)
|
| 881 |
-
|
| 882 |
-
# ادغام chunkها
|
| 883 |
-
merged_text, merged_mapping = merge_chunk_mappings(
|
| 884 |
-
chunk_results, self.entities_to_anonymize
|
| 885 |
-
)
|
| 886 |
-
|
| 887 |
-
self.mapping_table = merged_mapping
|
| 888 |
-
self.reverse_mapping = {v: k for k, v in merged_mapping.items()}
|
| 889 |
-
|
| 890 |
-
logger.info(f" ✅ Chunked: {len(merged_mapping)} موجودیت از {len(chunks)} chunk")
|
| 891 |
-
return merged_text, merged_mapping
|
| 892 |
-
|
| 893 |
-
def _anonymize_fallback(self, text: str) -> Tuple[str, Dict]:
|
| 894 |
-
"""Fallback: دو call — اگر JSON parse شکست خورد"""
|
| 895 |
-
logger.info("🔄 fallback: دو call...")
|
| 896 |
-
|
| 897 |
-
rules_fa = (
|
| 898 |
-
"متن زیر را ناشناس کن.\n"
|
| 899 |
-
"- company-XX: نام کامل سازمان (بانک/شرکت/بیمه/پتروشیمی/...) — نام مختصر = همان توکن\n"
|
| 900 |
-
"- person-XX: نام کامل اشخاص\n"
|
| 901 |
-
"- amount-XX: عدد + واحد با هم\n"
|
| 902 |
-
"- percent-XX: عدد + درصد با هم (بازه هم یک توکن)\n"
|
| 903 |
-
"کلمات عمومی را دست نزن. فقط متن ناشناس شده."
|
| 904 |
-
)
|
| 905 |
-
|
| 906 |
-
prompt1 = f"{FEW_SHOT_EXAMPLES}\n{rules_fa}\n\nمتن:\n{text}"
|
| 907 |
-
anonymized_text = post_deepinfra(prompt1, ANON_SYSTEM_PROMPT, max_tokens=4096, timeout=60)
|
| 908 |
-
|
| 909 |
-
hints = []
|
| 910 |
-
if "person" in self.entities_to_anonymize: hints.append('"person-XX": "نام کامل"')
|
| 911 |
-
if "company" in self.entities_to_anonymize: hints.append('"company-XX": "نام کامل سازمان"')
|
| 912 |
-
if "amount" in self.entities_to_anonymize: hints.append('"amount-XX": "عدد+واحد"')
|
| 913 |
-
if "percent" in self.entities_to_anonymize: hints.append('"percent-XX": "عدد+درصد"')
|
| 914 |
-
|
| 915 |
-
prompt2 = (
|
| 916 |
-
f"متن اصلی: {text}\n"
|
| 917 |
-
f"متن ناشناس: {anonymized_text}\n\n"
|
| 918 |
-
f"فقط JSON mapping:\n{{ {', '.join(hints)} }}"
|
| 919 |
-
)
|
| 920 |
-
|
| 921 |
-
try:
|
| 922 |
-
raw2 = post_deepinfra(prompt2, "Output ONLY valid JSON. No explanation.", max_tokens=2048, timeout=45)
|
| 923 |
-
self.mapping_table = parse_json_response(raw2)
|
| 924 |
-
except Exception:
|
| 925 |
-
self._extract_mapping_fallback(text, anonymized_text)
|
| 926 |
-
|
| 927 |
-
self._clean_orphan_tokens(anonymized_text)
|
| 928 |
-
self._fix_mapping()
|
| 929 |
-
self.reverse_mapping = {v: k for k, v in self.mapping_table.items()}
|
| 930 |
-
return anonymized_text, self.mapping_table
|
| 931 |
-
|
| 932 |
-
# ── پاکسازی mapping ────────────────────────────────────
|
| 933 |
-
|
| 934 |
-
def _clean_orphan_tokens(self, anonymized_text: str):
|
| 935 |
-
to_remove = [t for t in self.mapping_table if t not in anonymized_text]
|
| 936 |
-
for t in to_remove:
|
| 937 |
-
logger.info(f" 🗑️ توکن اضافی: {t}")
|
| 938 |
-
del self.mapping_table[t]
|
| 939 |
-
|
| 940 |
-
def _fix_mapping(self):
|
| 941 |
-
"""اطمینان از صحت مقادیر — فقط percent بدون واحد"""
|
| 942 |
-
for token, value in list(self.mapping_table.items()):
|
| 943 |
-
val = str(value).strip()
|
| 944 |
-
if token.startswith("percent-") and not re.search(r"(درصد|%|٪|درصدی)", val):
|
| 945 |
-
self.mapping_table[token] = f"{val} درصد"
|
| 946 |
-
logger.info(f" اصلاح {token}: '{val}' → '{val} درصد'")
|
| 947 |
-
|
| 948 |
-
# ── fallback mapping با regex ────────────────────────────
|
| 949 |
-
|
| 950 |
-
def _extract_mapping_fallback(self, original: str, anonymized: str):
|
| 951 |
-
pats: Dict[str, str] = {}
|
| 952 |
-
if "person" in self.entities_to_anonymize:
|
| 953 |
-
pats["person"] = r'(?<![ء-یa-zA-Z])[ء-ی]+\s+[ء-ی]+(?:\s+[ء-ی]+)*(?![ء-یa-zA-Z])'
|
| 954 |
-
if "company" in self.entities_to_anonymize:
|
| 955 |
-
pats["company"] = (
|
| 956 |
-
r'(?:(?:شرکت|بانک|سازمان|گروه|هلدینگ|صندوق|بیمه|پتروشیمی|ملی|سرمایه\s*گذاری)\s+)'
|
| 957 |
-
r'[ء-ی][ء-ی\s]+(?:\([ء-یa-zA-Z۰-۹]+\))?'
|
| 958 |
-
)
|
| 959 |
-
if "amount" in self.entities_to_anonymize:
|
| 960 |
-
pats["amount"] = r'[\d۰-۹][,،\d۰-۹]*(?:\.\d+)?\s*(?:هزار\s+و\s+\d+|هزار|میلیون|میلیارد|همت)?\s*(?:میلیارد|میلیون|هزار|تومان|ریال|دلار|دستگاه|تن)?'
|
| 961 |
-
if "percent" in self.entities_to_anonymize:
|
| 962 |
-
pats["percent"] = r'[\d۰-۹]+(?:\.\d+)?\s*(?:الی|تا)?\s*(?:[\d۰-۹]+(?:\.\d+)?\s*)?(?:درصد|%|٪|درصدی)'
|
| 963 |
-
|
| 964 |
-
orig_entities = {
|
| 965 |
-
etype: [m.strip() for m in re.findall(pat, original) if m.strip()]
|
| 966 |
-
for etype, pat in pats.items()
|
| 967 |
-
}
|
| 968 |
-
|
| 969 |
-
for etype in self.entities_to_anonymize:
|
| 970 |
-
tokens = sorted(set(re.findall(rf'{etype}-(\d+)', anonymized)), key=int)
|
| 971 |
-
values = orig_entities.get(etype, [])
|
| 972 |
-
for tok_num in tokens:
|
| 973 |
-
token = f"{etype}-{tok_num}"
|
| 974 |
-
idx = int(tok_num) - 1
|
| 975 |
-
self.mapping_table[token] = values[idx] if idx < len(values) else (values[-1] if values else token)
|
| 976 |
-
|
| 977 |
-
self.reverse_mapping = {v: k for k, v in self.mapping_table.items()}
|
| 978 |
-
logger.info(f"✅ Fallback mapping: {len(self.mapping_table)} موجودیت")
|
| 979 |
-
|
| 980 |
-
# ── تحلیل LLM ───────────────────────────────────────────
|
| 981 |
-
|
| 982 |
-
def analyze_with_llm(self, anonymized_text: str, analysis_prompt: str = None) -> str:
|
| 983 |
-
logger.info(f"🤖 {self.llm_provider.upper()} تحلیل...")
|
| 984 |
-
|
| 985 |
-
if not analysis_prompt or not analysis_prompt.strip():
|
| 986 |
-
return "⚠️ هیچ دستور تحلیل داده نشده است"
|
| 987 |
-
|
| 988 |
-
prompt = build_analysis_prompt(anonymized_text, analysis_prompt, self.entities_to_anonymize)
|
| 989 |
-
try:
|
| 990 |
-
response = self.llm_sender.send(prompt, lang="fa", temperature=0.2, max_tokens=2000)
|
| 991 |
-
logger.info(f"✅ {self.llm_provider.upper()}: {len(response)} کاراکتر")
|
| 992 |
-
return response
|
| 993 |
-
except Exception as e:
|
| 994 |
-
logger.error(f"❌ {self.llm_provider.upper()} Exception: {e}")
|
| 995 |
-
return f"❌ خطا: {str(e)}"
|
| 996 |
-
|
| 997 |
-
# ── بازگردانی ────────────────────────────────────────────
|
| 998 |
-
|
| 999 |
-
def restore_text(self, anonymized_text: str) -> str:
|
| 1000 |
-
logger.info("🔄 بازگردانی...")
|
| 1001 |
-
|
| 1002 |
-
if not self.mapping_table:
|
| 1003 |
-
return anonymized_text
|
| 1004 |
-
|
| 1005 |
-
restored = self._normalize_tokens(anonymized_text)
|
| 1006 |
-
count = 0
|
| 1007 |
-
|
| 1008 |
-
for placeholder, original in sorted(
|
| 1009 |
-
self.mapping_table.items(), key=lambda x: len(x[0]), reverse=True
|
| 1010 |
-
):
|
| 1011 |
-
if placeholder in restored:
|
| 1012 |
-
restored = restored.replace(placeholder, original)
|
| 1013 |
-
count += 1
|
| 1014 |
-
logger.info(f" ✅ {placeholder} → {original[:40]}")
|
| 1015 |
-
else:
|
| 1016 |
-
logger.warning(f" ⚠️ {placeholder} یافت نشد")
|
| 1017 |
-
|
| 1018 |
-
logger.info(f"✅ {count}/{len(self.mapping_table)} بازگردانی شد")
|
| 1019 |
-
|
| 1020 |
-
if count < len(self.mapping_table):
|
| 1021 |
-
restored = self._restore_with_regex(restored)
|
| 1022 |
-
|
| 1023 |
-
return restored
|
| 1024 |
-
|
| 1025 |
-
def _normalize_tokens(self, text: str) -> str:
|
| 1026 |
-
normalized = text
|
| 1027 |
-
unicode_hyphens = r'[\u2010\u2011\u2012\u2013\u2014\u2212]'
|
| 1028 |
-
for etype in self.entities_to_anonymize:
|
| 1029 |
-
normalized = re.sub(rf'{etype}{unicode_hyphens}(\d+)', rf'{etype}-\1', normalized)
|
| 1030 |
-
normalized = re.sub(rf'{etype}\s+-\s+(\d+)', rf'{etype}-\1', normalized)
|
| 1031 |
-
normalized = re.sub(rf'({etype}-\d+)([ء-ی])', r'\1 \2', normalized)
|
| 1032 |
-
normalized = re.sub(rf'({etype}-\d+)([،؛:.!?])', r'\1 \2', normalized)
|
| 1033 |
-
return normalized
|
| 1034 |
-
|
| 1035 |
-
def _restore_with_regex(self, text: str) -> str:
|
| 1036 |
-
restored = text
|
| 1037 |
-
for placeholder, original in self.mapping_table.items():
|
| 1038 |
-
if placeholder not in restored:
|
| 1039 |
-
continue
|
| 1040 |
-
etype, num = placeholder.split("-")
|
| 1041 |
-
if re.search(rf'{etype}\s*-\s*{num}', restored):
|
| 1042 |
-
restored = re.sub(rf'{etype}\s*-\s*{num}', original, restored)
|
| 1043 |
-
logger.info(f" ✅ regex: {placeholder} → {original[:40]}")
|
| 1044 |
-
return restored
|
| 1045 |
-
|
| 1046 |
-
def get_mapping_table_md(self) -> str:
|
| 1047 |
-
if not self.mapping_table:
|
| 1048 |
-
return "### 📋 جدول نگاشت\n\nهیچ موجودیتی شناسایی نشد"
|
| 1049 |
-
table = "### 📋 جدول نگاشت\n\n| شناسه | متن اصلی |\n|-------|----------|\n"
|
| 1050 |
-
for token, original in sorted(self.mapping_table.items()):
|
| 1051 |
-
table += f"| **{token}** | {original} |\n"
|
| 1052 |
-
return table
|
| 1053 |
-
|
| 1054 |
-
|
| 1055 |
-
# ─────────────────────────────────────────────────────────────
|
| 1056 |
-
# متغیر سراسری
|
| 1057 |
-
# ─────────────────────────────────────────────────────────────
|
| 1058 |
-
anonymizer: Optional[AnonymizerAdvanced] = None
|
| 1059 |
-
|
| 1060 |
-
|
| 1061 |
-
# ─────────────────────────────────────────────────────────────
|
| 1062 |
-
# تابع اصلی
|
| 1063 |
-
# ─────────────────────────────────────────────────────────────
|
| 1064 |
-
def process(
|
| 1065 |
-
input_text: str,
|
| 1066 |
-
analysis_prompt: str,
|
| 1067 |
-
llm_provider: str,
|
| 1068 |
-
llm_model: str,
|
| 1069 |
-
anonymize_all: bool,
|
| 1070 |
-
anonymize_person: bool,
|
| 1071 |
-
anonymize_company: bool,
|
| 1072 |
-
anonymize_amount: bool,
|
| 1073 |
-
anonymize_percent: bool
|
| 1074 |
-
):
|
| 1075 |
-
global BATCH_FAST_MODE
|
| 1076 |
-
BATCH_FAST_MODE = False
|
| 1077 |
-
global anonymizer
|
| 1078 |
-
|
| 1079 |
-
if not input_text.strip():
|
| 1080 |
-
return "", "", "", ""
|
| 1081 |
-
|
| 1082 |
-
entities = ["person", "company", "amount", "percent"] if anonymize_all else [
|
| 1083 |
-
e for e, flag in [
|
| 1084 |
-
("person", anonymize_person),
|
| 1085 |
-
("company", anonymize_company),
|
| 1086 |
-
("amount", anonymize_amount),
|
| 1087 |
-
("percent", anonymize_percent),
|
| 1088 |
-
] if flag
|
| 1089 |
-
]
|
| 1090 |
-
|
| 1091 |
-
if not entities:
|
| 1092 |
-
return "", "❌ لطفاً حداقل یک موجودیت انتخاب کنید", "", ""
|
| 1093 |
-
|
| 1094 |
-
if not anonymizer:
|
| 1095 |
-
anonymizer = AnonymizerAdvanced(
|
| 1096 |
-
llm_provider=llm_provider,
|
| 1097 |
-
llm_model=llm_model,
|
| 1098 |
-
entities_to_anonymize=entities
|
| 1099 |
-
)
|
| 1100 |
-
else:
|
| 1101 |
-
anonymizer.set_llm_provider(llm_provider, llm_model, entities)
|
| 1102 |
-
anonymizer.mapping_table = {}
|
| 1103 |
-
anonymizer.reverse_mapping = {}
|
| 1104 |
-
|
| 1105 |
-
try:
|
| 1106 |
-
logger.info("=" * 60)
|
| 1107 |
-
logger.info(f"🧠 Qwen3-14B (thinking ON | single-call)")
|
| 1108 |
-
logger.info(f"🤖 تحلیل: {llm_provider} ({llm_model})")
|
| 1109 |
-
logger.info(f"🎯 موجودیتها: {entities}")
|
| 1110 |
-
logger.info("=" * 60)
|
| 1111 |
-
|
| 1112 |
-
anon_text, _ = anonymizer.anonymize(input_text)
|
| 1113 |
-
|
| 1114 |
-
has_analysis = bool(analysis_prompt and analysis_prompt.strip())
|
| 1115 |
-
llm_response = anonymizer.analyze_with_llm(anon_text, analysis_prompt) if has_analysis \
|
| 1116 |
-
else "⚠️ هیچ دستور تحلیل داده نشده است"
|
| 1117 |
-
|
| 1118 |
-
source = llm_response if has_analysis else anon_text
|
| 1119 |
-
restored = anonymizer.restore_text(source)
|
| 1120 |
-
|
| 1121 |
-
return restored, llm_response, anon_text, anonymizer.get_mapping_table_md()
|
| 1122 |
-
|
| 1123 |
-
except Exception as e:
|
| 1124 |
-
logger.error(f"❌ خطا: {e}", exc_info=True)
|
| 1125 |
-
return "", f"❌ خطا: {str(e)}", "", ""
|
| 1126 |
-
|
| 1127 |
-
|
| 1128 |
-
def clear_all():
|
| 1129 |
-
return "", "", "", "", "", "", True, False, False, False, False
|
| 1130 |
-
|
| 1131 |
-
|
| 1132 |
-
# ─────────────────────────────────────────────────────────────
|
| 1133 |
-
# توابع CSV — پردازش دستهای
|
| 1134 |
-
# ─────────────────────────────────────────────────────────────
|
| 1135 |
-
|
| 1136 |
-
def read_csv_columns(file):
|
| 1137 |
-
"""خواندن نام ستونها و تعداد ردیفهای CSV"""
|
| 1138 |
-
if file is None:
|
| 1139 |
-
return gr.update(choices=[], value=[]), "⚠️ فایلی آپلود نشده", gr.update(value=1), gr.update(value=1, maximum=1)
|
| 1140 |
-
|
| 1141 |
-
file_path = file if isinstance(file, str) else file.name
|
| 1142 |
-
|
| 1143 |
-
try:
|
| 1144 |
-
with open(file_path, "r", encoding="utf-8-sig") as f:
|
| 1145 |
-
reader = csv.reader(f)
|
| 1146 |
-
headers = next(reader)
|
| 1147 |
-
headers = [h.strip() for h in headers if h.strip()]
|
| 1148 |
-
row_count = sum(1 for _ in reader)
|
| 1149 |
-
|
| 1150 |
-
if not headers:
|
| 1151 |
-
return gr.update(choices=[], value=[]), "❌ ستونی یافت نشد", gr.update(value=1), gr.update(value=1, maximum=1)
|
| 1152 |
-
|
| 1153 |
-
return (
|
| 1154 |
-
gr.update(choices=headers, value=headers),
|
| 1155 |
-
f"✅ {len(headers)} ستون | {row_count} ردیف — ستونها: {' | '.join(headers)}",
|
| 1156 |
-
gr.update(value=1, minimum=1, maximum=row_count),
|
| 1157 |
-
gr.update(value=min(row_count, 50), minimum=1, maximum=row_count),
|
| 1158 |
-
)
|
| 1159 |
-
except Exception as e:
|
| 1160 |
-
return gr.update(choices=[], value=[]), f"❌ خطا: {str(e)}", gr.update(value=1), gr.update(value=1, maximum=1)
|
| 1161 |
-
|
| 1162 |
-
|
| 1163 |
-
def process_csv(
|
| 1164 |
-
file,
|
| 1165 |
-
selected_columns: list,
|
| 1166 |
-
csv_anonymize_all: bool,
|
| 1167 |
-
csv_anonymize_person: bool,
|
| 1168 |
-
csv_anonymize_company: bool,
|
| 1169 |
-
csv_anonymize_amount: bool,
|
| 1170 |
-
csv_anonymize_percent: bool,
|
| 1171 |
-
row_start: int,
|
| 1172 |
-
row_end: int,
|
| 1173 |
-
batch_size: int,
|
| 1174 |
-
delay_between_batches: float,
|
| 1175 |
-
progress=gr.Progress()
|
| 1176 |
-
):
|
| 1177 |
-
"""ناشناسسازی دستهای ستونهای انتخابشده فایل CSV"""
|
| 1178 |
-
global BATCH_FAST_MODE
|
| 1179 |
-
BATCH_FAST_MODE = True
|
| 1180 |
-
if file is None:
|
| 1181 |
-
return None, "❌ فایلی آپلود نشده", ""
|
| 1182 |
-
|
| 1183 |
-
file_path = file if isinstance(file, str) else file.name
|
| 1184 |
-
|
| 1185 |
-
if not selected_columns:
|
| 1186 |
-
return None, "❌ حداقل یک ستون انتخاب کنید", ""
|
| 1187 |
-
|
| 1188 |
-
# تعیین موجودیتها
|
| 1189 |
-
entities = ["person", "company", "amount", "percent"] if csv_anonymize_all else [
|
| 1190 |
-
e for e, flag in [
|
| 1191 |
-
("person", csv_anonymize_person),
|
| 1192 |
-
("company", csv_anonymize_company),
|
| 1193 |
-
("amount", csv_anonymize_amount),
|
| 1194 |
-
("percent", csv_anonymize_percent),
|
| 1195 |
-
] if flag
|
| 1196 |
-
]
|
| 1197 |
-
|
| 1198 |
-
if not entities:
|
| 1199 |
-
return None, "❌ حداقل یک نوع موجودیت انتخاب کنید", ""
|
| 1200 |
-
|
| 1201 |
-
try:
|
| 1202 |
-
# خواندن CSV
|
| 1203 |
-
with open(file_path, "r", encoding="utf-8-sig") as f:
|
| 1204 |
-
reader = csv.DictReader(f)
|
| 1205 |
-
headers = reader.fieldnames
|
| 1206 |
-
all_rows = list(reader)
|
| 1207 |
-
|
| 1208 |
-
total_rows = len(all_rows)
|
| 1209 |
-
if total_rows == 0:
|
| 1210 |
-
return None, "❌ فایل خالی است", ""
|
| 1211 |
-
|
| 1212 |
-
# تنظیم بازه ردیفها (1-indexed → 0-indexed)
|
| 1213 |
-
start_idx = max(0, int(row_start) - 1)
|
| 1214 |
-
end_idx = min(total_rows, int(row_end))
|
| 1215 |
-
if start_idx >= end_idx:
|
| 1216 |
-
return None, f"❌ بازه نامعتبر: ردیف {row_start} تا {row_end} (کل: {total_rows})", ""
|
| 1217 |
-
|
| 1218 |
-
selected_rows = all_rows[start_idx:end_idx]
|
| 1219 |
-
num_selected = len(selected_rows)
|
| 1220 |
-
batch_sz = max(1, int(batch_size))
|
| 1221 |
-
|
| 1222 |
-
logger.info("=" * 60)
|
| 1223 |
-
logger.info(f"📄 CSV: {total_rows} ردیف کل | بازه: {start_idx+1}-{end_idx} ({num_selected} ردیف)")
|
| 1224 |
-
logger.info(f"📦 دسته: {batch_sz} ردیف | ستونها: {selected_columns}")
|
| 1225 |
-
logger.info(f"🎯 موجودیتها: {entities}")
|
| 1226 |
-
logger.info("=" * 60)
|
| 1227 |
-
|
| 1228 |
-
# ساخت anonymizer
|
| 1229 |
-
csv_anon = AnonymizerAdvanced(
|
| 1230 |
-
llm_provider="deepinfra",
|
| 1231 |
-
llm_model=ANON_MODEL,
|
| 1232 |
-
entities_to_anonymize=entities
|
| 1233 |
-
)
|
| 1234 |
-
|
| 1235 |
-
# ساخت ستونهای جدید برای خروجی ناشناسشده
|
| 1236 |
-
# هر ستون انتخابی → ستون جدید با پسوند _Anonymized
|
| 1237 |
-
anon_col_map = {}
|
| 1238 |
-
output_headers = list(headers)
|
| 1239 |
-
for col in selected_columns:
|
| 1240 |
-
if len(selected_columns) == 1:
|
| 1241 |
-
new_col = "Anonymization_text"
|
| 1242 |
-
else:
|
| 1243 |
-
new_col = f"{col}_Anonymized"
|
| 1244 |
-
anon_col_map[col] = new_col
|
| 1245 |
-
if new_col not in output_headers:
|
| 1246 |
-
output_headers.append(new_col)
|
| 1247 |
-
|
| 1248 |
-
logger.info(f"📝 ستونهای خروجی: {anon_col_map}")
|
| 1249 |
-
|
| 1250 |
-
# جدول نگاشت کلی
|
| 1251 |
-
global_mapping = {}
|
| 1252 |
-
processed_rows = []
|
| 1253 |
-
errors = []
|
| 1254 |
-
total_cells = 0
|
| 1255 |
-
start_time = time.time()
|
| 1256 |
-
|
| 1257 |
-
# تعداد دستهها
|
| 1258 |
-
num_batches = (num_selected + batch_sz - 1) // batch_sz
|
| 1259 |
-
|
| 1260 |
-
for batch_num in range(num_batches):
|
| 1261 |
-
batch_start = batch_num * batch_sz
|
| 1262 |
-
batch_end = min(batch_start + batch_sz, num_selected)
|
| 1263 |
-
batch_rows = selected_rows[batch_start:batch_end]
|
| 1264 |
-
|
| 1265 |
-
actual_start = start_idx + batch_start + 1
|
| 1266 |
-
actual_end = start_idx + batch_end
|
| 1267 |
-
|
| 1268 |
-
progress(
|
| 1269 |
-
(batch_num + 1) / num_batches,
|
| 1270 |
-
desc=f"دسته {batch_num+1}/{num_batches} | ردیف {actual_start}-{actual_end}"
|
| 1271 |
-
)
|
| 1272 |
-
|
| 1273 |
-
logger.info(f"📦 دسته {batch_num+1}/{num_batches}: ردیف {actual_start}-{actual_end}")
|
| 1274 |
-
|
| 1275 |
-
for j, row in enumerate(batch_rows):
|
| 1276 |
-
row_idx = actual_start + j
|
| 1277 |
-
new_row = dict(row)
|
| 1278 |
-
|
| 1279 |
-
# مقدار پیشفرض خالی برای ستونهای جدید
|
| 1280 |
-
for col in selected_columns:
|
| 1281 |
-
new_row[anon_col_map[col]] = ""
|
| 1282 |
-
|
| 1283 |
-
for col in selected_columns:
|
| 1284 |
-
if col not in row or not row[col].strip():
|
| 1285 |
-
new_row[anon_col_map[col]] = row.get(col, "")
|
| 1286 |
-
continue
|
| 1287 |
-
|
| 1288 |
-
cell_text = row[col].strip()
|
| 1289 |
-
total_cells += 1
|
| 1290 |
-
|
| 1291 |
-
# ریست mapping برای هر سلول
|
| 1292 |
-
csv_anon.mapping_table = {}
|
| 1293 |
-
csv_anon.reverse_mapping = {}
|
| 1294 |
-
|
| 1295 |
-
try:
|
| 1296 |
-
anon_text, mapping = csv_anon.anonymize(cell_text)
|
| 1297 |
-
# متن اصلی دستنخورده باقی میماند، ناشناسشده در ستون جدید
|
| 1298 |
-
new_row[anon_col_map[col]] = anon_text
|
| 1299 |
-
|
| 1300 |
-
for token, original in mapping.items():
|
| 1301 |
-
if token not in global_mapping:
|
| 1302 |
-
global_mapping[token] = original
|
| 1303 |
-
|
| 1304 |
-
logger.info(f" ✅ ردیف {row_idx}, '{col}' → '{anon_col_map[col]}': {len(mapping)} موجودیت")
|
| 1305 |
-
|
| 1306 |
-
except Exception as e:
|
| 1307 |
-
logger.error(f" ❌ ردیف {row_idx}, '{col}': {e}")
|
| 1308 |
-
errors.append(f"ردیف {row_idx}, ستون '{col}': {str(e)}")
|
| 1309 |
-
# در صورت خطا متن اصلی در ستون جدید قرار میگیرد
|
| 1310 |
-
new_row[anon_col_map[col]] = cell_text
|
| 1311 |
-
|
| 1312 |
-
# تاخیر کوتاه بین سلولها
|
| 1313 |
-
time.sleep(0.2)
|
| 1314 |
-
|
| 1315 |
-
processed_rows.append(new_row)
|
| 1316 |
-
|
| 1317 |
-
# تاخیر بین دستهها
|
| 1318 |
-
if batch_num < num_batches - 1:
|
| 1319 |
-
pause = max(0.5, float(delay_between_batches))
|
| 1320 |
-
logger.info(f" ⏸️ مکث {pause} ثانیه بین دستهها...")
|
| 1321 |
-
time.sleep(pause)
|
| 1322 |
-
|
| 1323 |
-
elapsed = time.time() - start_time
|
| 1324 |
-
|
| 1325 |
-
# نوشتن CSV خروجی
|
| 1326 |
-
output_dir = tempfile.gettempdir()
|
| 1327 |
-
output_path = os.path.join(output_dir, f"anonymized_{int(time.time())}.csv")
|
| 1328 |
-
with open(output_path, "w", encoding="utf-8-sig", newline="") as f:
|
| 1329 |
-
writer = csv.DictWriter(f, fieldnames=output_headers)
|
| 1330 |
-
writer.writeheader()
|
| 1331 |
-
writer.writerows(processed_rows)
|
| 1332 |
-
|
| 1333 |
-
# ساخت گزارش
|
| 1334 |
-
mins, secs = divmod(int(elapsed), 60)
|
| 1335 |
-
time_str = f"{mins} دقیقه و {secs} ثانیه" if mins > 0 else f"{secs} ثانیه"
|
| 1336 |
-
avg_time = elapsed / total_cells if total_cells > 0 else 0
|
| 1337 |
-
|
| 1338 |
-
anon_cols_str = " | ".join(f"{c} → {anon_col_map[c]}" for c in selected_columns)
|
| 1339 |
-
status_parts = [
|
| 1340 |
-
f"✅ **{len(processed_rows)}** ردیف پردازش شد (ردیف {start_idx+1} تا {end_idx} از {total_rows})",
|
| 1341 |
-
f"📋 **{len(global_mapping)}** موجودیت یکتا ناشناسسازی شد",
|
| 1342 |
-
f"📦 **{num_batches}** دسته × **{batch_sz}** ردیف",
|
| 1343 |
-
f"🔢 **{total_cells}** سلول پردازش شد",
|
| 1344 |
-
f"📝 ستونها: {anon_cols_str}",
|
| 1345 |
-
f"⏱️ زمان: {time_str} (میانگین {avg_time:.1f} ثانیه/سلول)",
|
| 1346 |
-
]
|
| 1347 |
-
if errors:
|
| 1348 |
-
status_parts.append(f"\n⚠️ **{len(errors)}** خطا:")
|
| 1349 |
-
for err in errors[:15]:
|
| 1350 |
-
status_parts.append(f" - {err}")
|
| 1351 |
-
if len(errors) > 15:
|
| 1352 |
-
status_parts.append(f" - ... و {len(errors)-15} خطای دیگر")
|
| 1353 |
-
|
| 1354 |
-
status = "\n".join(status_parts)
|
| 1355 |
-
|
| 1356 |
-
# جدول نگاشت
|
| 1357 |
-
if global_mapping:
|
| 1358 |
-
mapping_md = "### 📋 جدول نگاشت کلی\n\n| شناسه | متن اصلی |\n|-------|----------|\n"
|
| 1359 |
-
for token, original in sorted(global_mapping.items()):
|
| 1360 |
-
mapping_md += f"| **{token}** | {original} |\n"
|
| 1361 |
-
else:
|
| 1362 |
-
mapping_md = "### 📋 جدول نگاشت\n\nهیچ موجودیتی شناسایی نشد"
|
| 1363 |
-
|
| 1364 |
-
logger.info(f"✅ CSV کامل شد: {len(processed_rows)} ردیف | {time_str}")
|
| 1365 |
-
return output_path, status, mapping_md
|
| 1366 |
-
|
| 1367 |
-
except Exception as e:
|
| 1368 |
-
logger.error(f"❌ خطای CSV: {e}", exc_info=True)
|
| 1369 |
-
return None, f"❌ خطا: {str(e)}", ""
|
| 1370 |
-
|
| 1371 |
-
|
| 1372 |
-
def clear_csv():
|
| 1373 |
-
return (None, gr.update(choices=[], value=[]), "", None,
|
| 1374 |
-
"⏳ هنوز پردازشی انجام نشده",
|
| 1375 |
-
"### 📋 جدول نگاشت\n\nهنوز پردازشی انجام نشده",
|
| 1376 |
-
True, False, False, False, False,
|
| 1377 |
-
1, 50, 10, 1.0)
|
| 1378 |
-
|
| 1379 |
-
|
| 1380 |
-
# ─────────────────────────────────────────────────────────────
|
| 1381 |
-
# رابط کاربری Gradio
|
| 1382 |
-
# ───────────��─────────────────────────────────────────────────
|
| 1383 |
-
css_rtl = """
|
| 1384 |
-
.textbox textarea { direction: rtl; text-align: right; font-family: 'Tahoma', serif; }
|
| 1385 |
-
.input-box { direction: rtl; text-align: right; }
|
| 1386 |
-
.compact-checkbox label { padding: 5px 10px !important; font-size: 0.95em !important; }
|
| 1387 |
-
"""
|
| 1388 |
-
|
| 1389 |
-
with gr.Blocks(title="سیستم ناشناسسازی متون", theme=gr.themes.Soft(), css=css_rtl) as app:
|
| 1390 |
-
|
| 1391 |
-
gr.Markdown(
|
| 1392 |
-
"# 🔐 پلتفرم ناشناسسازی متون فارسی\n"
|
| 1393 |
-
"> 🧠 **Qwen3-14B** با thinking mode — دقت بالا (بنچمارک ۹۰٪+)",
|
| 1394 |
-
elem_classes="input-box"
|
| 1395 |
-
)
|
| 1396 |
-
|
| 1397 |
-
# ═══════════════════════════════════════════════════════════
|
| 1398 |
-
# تبها
|
| 1399 |
-
# ═══════════════════════════════════════════════════════════
|
| 1400 |
-
with gr.Tabs():
|
| 1401 |
-
|
| 1402 |
-
# ─── تب ۱: ناشناسسازی متن ────────────────────────────
|
| 1403 |
-
with gr.TabItem("📝 ناشناسسازی متن"):
|
| 1404 |
-
|
| 1405 |
-
with gr.Row():
|
| 1406 |
-
with gr.Column(scale=1):
|
| 1407 |
-
with gr.Group():
|
| 1408 |
-
gr.Markdown("### ⚙️ مدل تحلیل", elem_classes="input-box")
|
| 1409 |
-
llm_provider = gr.Dropdown(
|
| 1410 |
-
choices=["chatgpt", "grok", "deepinfra"],
|
| 1411 |
-
value="chatgpt", label="🤖 مدل زبانی تحلیل", interactive=True
|
| 1412 |
-
)
|
| 1413 |
-
llm_model = gr.Dropdown(
|
| 1414 |
-
choices=AVAILABLE_MODELS["chatgpt"],
|
| 1415 |
-
value="gpt-4o-mini", label="📦 نسخه مدل", interactive=True
|
| 1416 |
-
)
|
| 1417 |
-
|
| 1418 |
-
with gr.Column(scale=1):
|
| 1419 |
-
with gr.Group():
|
| 1420 |
-
gr.Markdown("### 🎯 موجودیتهای ناشناسسازی", elem_classes="input-box")
|
| 1421 |
-
anonymize_all = gr.Checkbox(label="✅ همه", value=True, elem_classes="compact-checkbox")
|
| 1422 |
-
anonymize_person = gr.Checkbox(label="👤 اشخاص", value=False, elem_classes="compact-checkbox")
|
| 1423 |
-
anonymize_company = gr.Checkbox(label="🏢 سازمانها", value=False, elem_classes="compact-checkbox")
|
| 1424 |
-
anonymize_amount = gr.Checkbox(label="💰 ارقام مالی", value=False, elem_classes="compact-checkbox")
|
| 1425 |
-
anonymize_percent = gr.Checkbox(label="📊 درصدها", value=False, elem_classes="compact-checkbox")
|
| 1426 |
-
|
| 1427 |
-
gr.Markdown("---")
|
| 1428 |
-
|
| 1429 |
-
with gr.Row():
|
| 1430 |
-
with gr.Column(scale=1):
|
| 1431 |
-
gr.Markdown("### 📋 دستورات تحلیل (اختیاری)", elem_classes="input-box")
|
| 1432 |
-
analysis_prompt = gr.Textbox(
|
| 1433 |
-
lines=20, placeholder="مثال: این متن را خلاصه کن",
|
| 1434 |
-
label="", elem_classes="textbox"
|
| 1435 |
-
)
|
| 1436 |
-
with gr.Column(scale=1):
|
| 1437 |
-
gr.Markdown("### 📝 متن ورودی", elem_classes="input-box")
|
| 1438 |
-
input_text = gr.Textbox(
|
| 1439 |
-
lines=20, placeholder="متن فارسی را وارد کنید...",
|
| 1440 |
-
label="", elem_classes="textbox"
|
| 1441 |
-
)
|
| 1442 |
-
|
| 1443 |
-
with gr.Row():
|
| 1444 |
-
process_btn = gr.Button("▶️ پردازش", variant="primary", size="lg", scale=2)
|
| 1445 |
-
clear_btn = gr.Button("🗑️ پاک کردن", variant="stop", size="lg", scale=1)
|
| 1446 |
-
|
| 1447 |
-
gr.Markdown("## 📊 نتایج", elem_classes="input-box")
|
| 1448 |
-
|
| 1449 |
-
with gr.Row():
|
| 1450 |
-
restored_text = gr.Textbox(lines=12, label="✅ متن بازگردانی شده", interactive=False, elem_classes="textbox")
|
| 1451 |
-
llm_analysis = gr.Textbox(lines=12, label="🤖 تحلیل LLM", interactive=False, elem_classes="textbox")
|
| 1452 |
-
anonymized_output = gr.Textbox(lines=12, label="🔒 متن ناشناسشده", interactive=False, elem_classes="textbox")
|
| 1453 |
-
|
| 1454 |
-
mapping_table = gr.Markdown("### 📋 جدول نگاشت\n\nهنوز پردازشی انجام نشده", elem_classes="input-box")
|
| 1455 |
-
|
| 1456 |
-
# ── رویدادهای تب متن ──
|
| 1457 |
-
def handle_provider_change(provider):
|
| 1458 |
-
models = AVAILABLE_MODELS.get(provider, [])
|
| 1459 |
-
return gr.update(choices=models, value=models[0] if models else None)
|
| 1460 |
-
|
| 1461 |
-
llm_provider.change(fn=handle_provider_change, inputs=[llm_provider], outputs=[llm_model])
|
| 1462 |
-
|
| 1463 |
-
def handle_select_all(select_all):
|
| 1464 |
-
s = gr.update(value=False, interactive=not select_all)
|
| 1465 |
-
return s, s, s, s
|
| 1466 |
-
|
| 1467 |
-
anonymize_all.change(
|
| 1468 |
-
fn=handle_select_all, inputs=[anonymize_all],
|
| 1469 |
-
outputs=[anonymize_person, anonymize_company, anonymize_amount, anonymize_percent]
|
| 1470 |
-
)
|
| 1471 |
-
|
| 1472 |
-
process_btn.click(
|
| 1473 |
-
fn=process,
|
| 1474 |
-
inputs=[
|
| 1475 |
-
input_text, analysis_prompt, llm_provider, llm_model,
|
| 1476 |
-
anonymize_all, anonymize_person, anonymize_company, anonymize_amount, anonymize_percent
|
| 1477 |
-
],
|
| 1478 |
-
outputs=[restored_text, llm_analysis, anonymized_output, mapping_table]
|
| 1479 |
-
)
|
| 1480 |
-
|
| 1481 |
-
clear_btn.click(
|
| 1482 |
-
fn=clear_all,
|
| 1483 |
-
outputs=[
|
| 1484 |
-
input_text, analysis_prompt, restored_text, llm_analysis,
|
| 1485 |
-
anonymized_output, mapping_table,
|
| 1486 |
-
anonymize_all, anonymize_person, anonymize_company, anonymize_amount, anonymize_percent
|
| 1487 |
-
]
|
| 1488 |
-
)
|
| 1489 |
-
|
| 1490 |
-
# ─── تب ۲: ناشناسسازی CSV ────────────────────────────
|
| 1491 |
-
with gr.TabItem("📄 ناشناسسازی CSV"):
|
| 1492 |
-
|
| 1493 |
-
gr.Markdown(
|
| 1494 |
-
"### 📄 ناشناسسازی دستهای فایل CSV\n"
|
| 1495 |
-
"> فایل CSV را آپلود کنید، بازه ردیفها و اندازه دسته را تنظیم کنید و ناشناسسازی را اجرا کنید.",
|
| 1496 |
-
elem_classes="input-box"
|
| 1497 |
-
)
|
| 1498 |
-
|
| 1499 |
-
with gr.Row():
|
| 1500 |
-
# ── ستون ۱: فایل و ستونها ──
|
| 1501 |
-
with gr.Column(scale=1):
|
| 1502 |
-
with gr.Group():
|
| 1503 |
-
gr.Markdown("### 📂 فایل ورودی", elem_classes="input-box")
|
| 1504 |
-
csv_file = gr.File(
|
| 1505 |
-
label="فایل CSV را آپلود کنید",
|
| 1506 |
-
file_types=[".csv"],
|
| 1507 |
-
type="filepath"
|
| 1508 |
-
)
|
| 1509 |
-
csv_column_status = gr.Textbox(
|
| 1510 |
-
label="وضعیت", interactive=False,
|
| 1511 |
-
value="⏳ فایل آپلود نشده", elem_classes="textbox"
|
| 1512 |
-
)
|
| 1513 |
-
with gr.Group():
|
| 1514 |
-
gr.Markdown("### 📋 ستونهای قابل ناشناسسازی", elem_classes="input-box")
|
| 1515 |
-
csv_columns = gr.CheckboxGroup(
|
| 1516 |
-
choices=[], value=[],
|
| 1517 |
-
label="ستونهایی که میخواهید ناشناس شوند",
|
| 1518 |
-
interactive=True
|
| 1519 |
-
)
|
| 1520 |
-
|
| 1521 |
-
# ── ستون ۲: بازه ردیفها و دستهبندی ──
|
| 1522 |
-
with gr.Column(scale=1):
|
| 1523 |
-
with gr.Group():
|
| 1524 |
-
gr.Markdown("### 📐 بازه ردیفها", elem_classes="input-box")
|
| 1525 |
-
with gr.Row():
|
| 1526 |
-
csv_row_start = gr.Number(
|
| 1527 |
-
label="از ردیف", value=1, minimum=1, maximum=99999,
|
| 1528 |
-
precision=0, interactive=True
|
| 1529 |
-
)
|
| 1530 |
-
csv_row_end = gr.Number(
|
| 1531 |
-
label="تا ردیف", value=50, minimum=1, maximum=99999,
|
| 1532 |
-
precision=0, interactive=True
|
| 1533 |
-
)
|
| 1534 |
-
with gr.Group():
|
| 1535 |
-
gr.Markdown("### 📦 تنظیمات دستهای", elem_classes="input-box")
|
| 1536 |
-
csv_batch_size = gr.Slider(
|
| 1537 |
-
label="اندازه هر دسته (تعداد ردیف)",
|
| 1538 |
-
minimum=1, maximum=50, value=10, step=1,
|
| 1539 |
-
interactive=True
|
| 1540 |
-
)
|
| 1541 |
-
csv_delay = gr.Slider(
|
| 1542 |
-
label="مکث بین دستهها (ثانیه)",
|
| 1543 |
-
minimum=0.5, maximum=10.0, value=1.0, step=0.5,
|
| 1544 |
-
interactive=True
|
| 1545 |
-
)
|
| 1546 |
-
gr.Markdown(
|
| 1547 |
-
"> 💡 **راهنما:** دسته کوچکتر = پایدارتر ولی کندتر | "
|
| 1548 |
-
"مکث بیشتر = جلوگیری از rate limit",
|
| 1549 |
-
elem_classes="input-box"
|
| 1550 |
-
)
|
| 1551 |
-
|
| 1552 |
-
# ── ستون ۳: موجودیتها ──
|
| 1553 |
-
with gr.Column(scale=1):
|
| 1554 |
-
with gr.Group():
|
| 1555 |
-
gr.Markdown("### 🎯 موجودیتها", elem_classes="input-box")
|
| 1556 |
-
csv_anonymize_all = gr.Checkbox(label="✅ همه", value=True, elem_classes="compact-checkbox")
|
| 1557 |
-
csv_anonymize_person = gr.Checkbox(label="👤 اشخاص", value=False, elem_classes="compact-checkbox")
|
| 1558 |
-
csv_anonymize_company = gr.Checkbox(label="🏢 سازمانها", value=False, elem_classes="compact-checkbox")
|
| 1559 |
-
csv_anonymize_amount = gr.Checkbox(label="💰 ارقام مالی", value=False, elem_classes="compact-checkbox")
|
| 1560 |
-
csv_anonymize_percent = gr.Checkbox(label="📊 درصدها", value=False, elem_classes="compact-checkbox")
|
| 1561 |
-
|
| 1562 |
-
with gr.Row():
|
| 1563 |
-
csv_process_btn = gr.Button("▶️ ناشناسسازی CSV", variant="primary", size="lg", scale=2)
|
| 1564 |
-
csv_clear_btn = gr.Button("🗑️ پاک کردن", variant="stop", size="lg", scale=1)
|
| 1565 |
-
|
| 1566 |
-
gr.Markdown("## 📊 نتایج CSV", elem_classes="input-box")
|
| 1567 |
-
|
| 1568 |
-
with gr.Row():
|
| 1569 |
-
with gr.Column(scale=1):
|
| 1570 |
-
csv_output_file = gr.File(label="📥 دانلود فایل ناشناسشده")
|
| 1571 |
-
with gr.Column(scale=2):
|
| 1572 |
-
csv_status = gr.Markdown("⏳ هنوز پردازشی انجام نشده", elem_classes="input-box")
|
| 1573 |
-
|
| 1574 |
-
csv_mapping_table = gr.Markdown("### 📋 جدول نگاشت\n\nهنوز پردازشی انجام نشده", elem_classes="input-box")
|
| 1575 |
-
|
| 1576 |
-
# ── رویدادهای تب CSV ──
|
| 1577 |
-
|
| 1578 |
-
csv_file.change(
|
| 1579 |
-
fn=read_csv_columns,
|
| 1580 |
-
inputs=[csv_file],
|
| 1581 |
-
outputs=[csv_columns, csv_column_status, csv_row_start, csv_row_end]
|
| 1582 |
-
)
|
| 1583 |
-
|
| 1584 |
-
def handle_csv_select_all(select_all):
|
| 1585 |
-
s = gr.update(value=False, interactive=not select_all)
|
| 1586 |
-
return s, s, s, s
|
| 1587 |
-
|
| 1588 |
-
csv_anonymize_all.change(
|
| 1589 |
-
fn=handle_csv_select_all, inputs=[csv_anonymize_all],
|
| 1590 |
-
outputs=[csv_anonymize_person, csv_anonymize_company, csv_anonymize_amount, csv_anonymize_percent]
|
| 1591 |
-
)
|
| 1592 |
-
|
| 1593 |
-
csv_process_btn.click(
|
| 1594 |
-
fn=process_csv,
|
| 1595 |
-
inputs=[
|
| 1596 |
-
csv_file, csv_columns,
|
| 1597 |
-
csv_anonymize_all, csv_anonymize_person,
|
| 1598 |
-
csv_anonymize_company, csv_anonymize_amount, csv_anonymize_percent,
|
| 1599 |
-
csv_row_start, csv_row_end, csv_batch_size, csv_delay
|
| 1600 |
-
],
|
| 1601 |
-
outputs=[csv_output_file, csv_status, csv_mapping_table]
|
| 1602 |
-
)
|
| 1603 |
-
|
| 1604 |
-
csv_clear_btn.click(
|
| 1605 |
-
fn=clear_csv,
|
| 1606 |
-
outputs=[
|
| 1607 |
-
csv_file, csv_columns, csv_column_status, csv_output_file,
|
| 1608 |
-
csv_status, csv_mapping_table,
|
| 1609 |
-
csv_anonymize_all, csv_anonymize_person, csv_anonymize_company,
|
| 1610 |
-
csv_anonymize_amount, csv_anonymize_percent,
|
| 1611 |
-
csv_row_start, csv_row_end, csv_batch_size, csv_delay
|
| 1612 |
-
]
|
| 1613 |
-
)
|
| 1614 |
-
|
| 1615 |
-
|
| 1616 |
-
if __name__ == "__main__":
|
| 1617 |
-
print("=" * 60)
|
| 1618 |
-
print("🧠 Qwen3-14B | thinking ON | retry+chunking | بنچمارک ۹۰٪+")
|
| 1619 |
-
print("=" * 60)
|
| 1620 |
-
app.queue(default_concurrency_limit=1)
|
| 1621 |
-
app.launch(server_name="0.0.0.0", server_port=7860, share=False, show_error=True)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|