leilaghomashchi commited on
Commit
e5febc4
·
verified ·
1 Parent(s): df649d8

Upload app_rtl_fa_fixed.py

Browse files
Files changed (1) hide show
  1. app_rtl_fa_fixed.py +282 -0
app_rtl_fa_fixed.py ADDED
@@ -0,0 +1,282 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import gradio as gr
2
+ import re
3
+ import os
4
+ import requests
5
+ import logging
6
+ from typing import Dict, List, Tuple
7
+ import json
8
+
9
+ logging.basicConfig(level=logging.INFO)
10
+ logger = logging.getLogger(__name__)
11
+
12
+ class AnonymizerCerebrasFixed:
13
+ def __init__(self, api_key: str = None):
14
+ self.api_key = api_key or os.getenv("CEREBRAS_API_KEY")
15
+ self.mapping_table = {}
16
+ self.counters = {
17
+ 'company': 0, 'person': 0, 'amount': 0, 'phone': 0,
18
+ 'email': 0, 'id_number': 0, 'date': 0, 'location': 0,
19
+ 'percent': 0
20
+ }
21
+
22
+ if not self.api_key:
23
+ raise ValueError("❌ کلید API Cerebras یافت نشد!")
24
+
25
+ logger.info("✅ Anonymizer Fixed مقداردهی شد")
26
+
27
+ def get_system_prompt(self) -> str:
28
+ """System Prompt برای ناشناس‌سازی مستقیم"""
29
+ return """شما یک «ناشناس‌ساز متون مالی فارسی پیشرفته» هستید.
30
+
31
+ ## وظایف:
32
+ 1. تمام اسامی خاص را ناشناس کنید
33
+ 2. تمام مقادیر عددی را ناشناس کنید
34
+ 3. Entity Linking دقیق اعمال کنید
35
+
36
+ ## قوانین CRITICAL:
37
+
38
+ ### برای اشخاص:
39
+ - "سروش خسروی" و "خسروی" و "سروش" و "وی" = person-01
40
+ - نام خانوادگی تنهایی را رها نکنید
41
+ - ضمیرهای اشاره را ناشناس کنید
42
+
43
+ ### برای شرکت‌ها:
44
+ - "پتروشیمی غدیر" و "غدیر" و "این شرکت" = company-01
45
+ - نام کوتاه را ناشناس کنید
46
+
47
+ ### برای مقادیر:
48
+ - واحد یکسان = ID یکسان
49
+ - "142 میلیارد" و "۱۴۲ میلیارد" = amount-01
50
+
51
+ ### برای درصدها:
52
+ - "21 درصد" و "21%" و "۲۱ درصدی" = percent-01
53
+
54
+ ## ترتیب شماره‌گذاری:
55
+ - company-01, company-02, ...
56
+ - person-01, person-02, ...
57
+ - amount-01, amount-02, ...
58
+ - percent-01, percent-02, ...
59
+
60
+ ## خروجی:
61
+ فقط متن ناشناس‌شده را برگردان - هیچ توضیح اضافی نیاز نیست."""
62
+
63
+ def get_user_prompt(self, text: str) -> str:
64
+ """User Prompt برای متن ورودی"""
65
+ return f"""متن مالی فارسی زیر را ناشناس کنید:
66
+
67
+ {text}
68
+
69
+ دستورات:
70
+ 1. نام کامل + نام تنهایی + ضمیرها = یک موجودیت
71
+ 2. واحد یکسان = موجودیت یکسان
72
+ 3. Entity Linking دقیق اعمال کنید
73
+ 4. جدول نگاشت بسازید
74
+
75
+ خروجی: متن ناشناس‌شده"""
76
+
77
+ def anonymize_with_api(self, text: str) -> Tuple[str, Dict]:
78
+ """ناشناس‌سازی با استفاده از API"""
79
+ logger.info("🚀 شروع ناشناس‌سازی...")
80
+
81
+ system_prompt = self.get_system_prompt()
82
+ user_prompt = self.get_user_prompt(text)
83
+
84
+ try:
85
+ logger.info("📡 ارسال به Cerebras API...")
86
+ response = requests.post(
87
+ "https://api.cerebras.ai/v1/chat/completions",
88
+ headers={
89
+ "Authorization": f"Bearer {self.api_key}",
90
+ "Content-Type": "application/json"
91
+ },
92
+ json={
93
+ "model": "llama-3.3-70b",
94
+ "messages": [
95
+ {"role": "system", "content": system_prompt},
96
+ {"role": "user", "content": user_prompt}
97
+ ],
98
+ "max_tokens": 4096,
99
+ "temperature": 0.1
100
+ },
101
+ timeout=60
102
+ )
103
+
104
+ if response.status_code != 200:
105
+ error_msg = response.text
106
+ logger.error(f"❌ خطای API: {error_msg}")
107
+ return text, {"error": error_msg}
108
+
109
+ result = response.json()
110
+ anonymized_text = result['choices'][0]['message']['content'].strip()
111
+
112
+ logger.info(f"✅ ناشناس‌سازی کامل شد")
113
+ logger.info(f"متن ورودی: {len(text)} کاراکتر")
114
+ logger.info(f"متن خروجی: {len(anonymized_text)} کاراکتر")
115
+
116
+ return anonymized_text, {"status": "success"}
117
+
118
+ except Exception as e:
119
+ logger.error(f"❌ خطا: {str(e)}")
120
+ return text, {"error": str(e)}
121
+
122
+ def anonymize_with_regex(self, text: str) -> Tuple[str, Dict]:
123
+ """ناشناس‌سازی ساده با Regex (بدون API)"""
124
+ logger.info("🔍 شروع ناشناس‌سازی Regex...")
125
+
126
+ anonymized = text
127
+ mapping = {}
128
+ entity_count = {'person': 0, 'company': 0, 'amount': 0, 'percent': 0}
129
+
130
+ # الگوهای Regex
131
+ patterns = {
132
+ 'person': r'\b[ء-ي]+\s+[ء-ي]+(?:\s+[ء-ي]+)*\b', # نام‌های فارسی
133
+ 'amount': r'\d+\s*(?:میلیارد|میلیون|هزار|تومان|��یال|دلار|تن|دستگاه)',
134
+ 'percent': r'\d+\s*(?:درصد|%|درصدی)',
135
+ 'company': r'(?:شرکت|بانک|سازمان|گروه|هلدینگ)\s+[ء-ي]+(?:\s+[ء-ي]+)*',
136
+ }
137
+
138
+ # ناشناس‌سازی
139
+ for entity_type, pattern in patterns.items():
140
+ matches = re.finditer(pattern, anonymized)
141
+ for match in matches:
142
+ text_match = match.group()
143
+ key = text_match.lower()
144
+
145
+ if key not in mapping:
146
+ entity_count[entity_type] += 1
147
+ placeholder = f"{entity_type}-{entity_count[entity_type]:02d}"
148
+ mapping[key] = placeholder
149
+ anonymized = anonymized.replace(text_match, placeholder, 1)
150
+
151
+ logger.info(f"✅ {sum(entity_count.values())} موجودیت ناشناس شد")
152
+
153
+ return anonymized, mapping
154
+
155
+ def get_mapping_table_str(self) -> str:
156
+ """تبدیل جدول نگاشت به string"""
157
+ if not self.mapping_table:
158
+ return "### جدول نگاشت خالی است"
159
+
160
+ table = "### 📋 جدول نگاشت\n\n"
161
+ table += "| ID | نوع | متن اصلی |\n"
162
+ table += "|----|----|----------|\n"
163
+
164
+ for token, info in self.mapping_table.items():
165
+ entity_type = info.get('type', 'نامشخص')
166
+ original = info.get('original', '')
167
+ table += f"| {token} | {entity_type} | {original} |\n"
168
+
169
+ return table
170
+
171
+ # متغیر سراسری
172
+ anonymizer = None
173
+
174
+ def process(input_text: str, api_choice: str = "cerebras"):
175
+ """پردازش متن"""
176
+ global anonymizer
177
+
178
+ if not input_text.strip():
179
+ return "", "", ""
180
+
181
+ # مقداردهی
182
+ api_key = os.getenv("CEREBRAS_API_KEY")
183
+
184
+ if not api_key and api_choice == "cerebras":
185
+ return "", "", "❌ API Key تنظیم نشده است"
186
+
187
+ if not anonymizer:
188
+ if api_key:
189
+ anonymizer = AnonymizerCerebrasFixed(api_key)
190
+ else:
191
+ anonymizer = AnonymizerCerebrasFixed("dummy") # Regex mode
192
+
193
+ try:
194
+ if api_choice == "cerebras" and api_key:
195
+ logger.info("استفاده از Cerebras API")
196
+ anonymized_text, result = anonymizer.anonymize_with_api(input_text)
197
+ else:
198
+ logger.info("استفاده از Regex")
199
+ anonymized_text, mapping = anonymizer.anonymize_with_regex(input_text)
200
+ anonymizer.mapping_table = {v: {'original': k, 'type': 'unknown'} for k, v in mapping.items()}
201
+
202
+ mapping_str = anonymizer.get_mapping_table_str()
203
+
204
+ return input_text, anonymized_text, mapping_str
205
+
206
+ except Exception as e:
207
+ logger.error(f"❌ خطا: {str(e)}")
208
+ return "", "", f"❌ خطا: {str(e)}"
209
+
210
+ def clear():
211
+ """پاک کردن"""
212
+ return "", "", ""
213
+
214
+ # Gradio Interface
215
+ css_rtl = """
216
+ #input_text textarea { direction: rtl; text-align: right; }
217
+ #anonymized_text textarea { direction: rtl; text-align: right; }
218
+ #mapping textarea { direction: rtl; text-align: right; }
219
+ """
220
+
221
+ with gr.Blocks(title="سیستم ناشناس‌سازی متون", theme=gr.themes.Soft(), css=css_rtl) as app:
222
+
223
+ gr.Markdown("# 🔐 سیستم ناشناس‌سازی متون مالی فارسی (اصلاح شده)")
224
+ gr.Markdown("#### استخراج موجودیت‌های حساس و ناشناس‌سازی آنها")
225
+
226
+ with gr.Row():
227
+ with gr.Column(scale=2):
228
+ input_text = gr.Textbox(
229
+ lines=12,
230
+ placeholder="متن مالی/خبری را وارد کنید...",
231
+ label="📝 متن ورودی",
232
+ elem_id="input_text"
233
+ )
234
+
235
+ with gr.Column(scale=1):
236
+ gr.HTML("<div style='text-align: center; margin-bottom: 10px;'></div>")
237
+
238
+ api_choice = gr.Radio(
239
+ ["cerebras", "regex"],
240
+ value="regex",
241
+ label="انتخاب روش"
242
+ )
243
+
244
+ process_btn = gr.Button("🔄 پردازش", variant="primary", size="lg")
245
+ clear_btn = gr.Button("🗑️ پاک کردن", variant="stop", size="lg")
246
+
247
+ with gr.Row():
248
+ anonymized_text = gr.Textbox(
249
+ lines=12,
250
+ label="🔒 متن ناشناس‌شده",
251
+ interactive=False,
252
+ elem_id="anonymized_text"
253
+ )
254
+
255
+ with gr.Row():
256
+ mapping = gr.Textbox(
257
+ lines=8,
258
+ label="📋 جدول نگاشت",
259
+ interactive=False,
260
+ elem_id="mapping"
261
+ )
262
+
263
+ # Event handlers
264
+ process_btn.click(
265
+ fn=process,
266
+ inputs=[input_text, api_choice],
267
+ outputs=[input_text, anonymized_text, mapping]
268
+ )
269
+
270
+ clear_btn.click(
271
+ fn=clear,
272
+ outputs=[input_text, anonymized_text, mapping]
273
+ )
274
+
275
+ if __name__ == "__main__":
276
+ print("🚀 سیستم ناشناس‌سازی متون در حال راه‌اندازی...")
277
+ app.launch(
278
+ server_name="0.0.0.0",
279
+ server_port=7860,
280
+ share=False,
281
+ show_error=True
282
+ )