Data-anonymization / app_rtl_fa_final_UPDATED (6).py
leilaghomashchi's picture
Upload app_rtl_fa_final_UPDATED (6).py
9155607 verified
raw
history blame
20.7 kB
import gradio as gr
import re
import os
import requests
import json
import logging
from typing import Dict, List, Tuple
from chatgpt_sender import ChatGPTSender # ✅ import ماژول جدید
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)
class AnonymizerAdvanced:
"""ناشناس‌ساز پیشرفته با روش‌های متعدد"""
def __init__(self, cerebras_key: str = None, gpt_key: str = None):
self.cerebras_key = cerebras_key or os.getenv("CEREBRAS_API_KEY")
self.gpt_key = gpt_key or os.getenv("OPENAI_API_KEY")
self.mapping_table = {} # {placeholder: original_text}
self.reverse_mapping = {} # {original_text: placeholder}
# ✅ ایجاد instance از ChatGPTSender
self.gpt_sender = ChatGPTSender(api_key=self.gpt_key, model="gpt-4o-mini")
logger.info("✅ Anonymizer Advanced مقداردهی شد")
def anonymize_with_cerebras(self, text: str) -> Tuple[str, Dict]:
"""ناشناس‌سازی با Cerebras - دریافت mapping از مدل"""
logger.info("🧠 روش Cerebras...")
if not self.cerebras_key:
logger.error("❌ Cerebras API Key موجود نیست")
raise ValueError("Cerebras API Key مورد نیاز است")
try:
# مرحله 1: ناشناس‌سازی متن
prompt1 = f"""متن زیر را ناشناس کنید. قوانین:
1. اسامی اشخاص → person-01, person-02, ...
2. نام شرکت‌ها/سازمان‌ها → company-01, company-02, ...
3. مقادیر پولی → amount-01, amount-02, ...
4. درصدها → percent-01, percent-02, ...
5. فقط این توکن‌ها استفاده کنید
6. شماره‌های نسخه را درست حفظ کنید
7. اگر موجودیت تکرار شود از شماره قدیمی استفاده کنید
متن:
{text}
خروجی: فقط متن ناشناس شده"""
response1 = requests.post(
"https://api.cerebras.ai/v1/chat/completions",
headers={
"Authorization": f"Bearer {self.cerebras_key}",
"Content-Type": "application/json"
},
json={
"model": "llama-3.3-70b",
"messages": [{"role": "user", "content": prompt1}],
"max_tokens": 4096,
"temperature": 0.1
},
timeout=60
)
if response1.status_code != 200:
logger.error(f"❌ Cerebras Error: {response1.status_code}")
raise Exception(f"Cerebras API Error: {response1.status_code}")
anonymized_text = response1.json()['choices'][0]['message']['content'].strip()
logger.info("✅ Cerebras: ناشناس‌سازی موفق")
# مرحله 2: استخراج mapping از مدل
prompt2 = f"""متن اصلی:
{text}
متن ناشناس شده:
{anonymized_text}
لطفاً یک جدول mapping برای همه توکن‌های ناشناس ایجاد کن.
برای هر توکن، متن اصلی کامل آن را مشخص کن.
**مهم:**
- برای person-XX: نام کامل شخص (مثلاً "علی احمدی")
- برای company-XX: نام کامل شرکت/سازمان (مثلاً "شرکت پتروشیمی")
- برای amount-XX: عدد + واحد (مثلاً "80 هزار تومان" یا "50 میلیارد ریال")
- برای percent-XX: عدد + کلمه "درصد" (مثلاً "40 درصد" نه فقط "40")
خروجی را به این فرمت JSON بده (فقط JSON، بدون توضیح اضافی):
{{
"person-01": "متن اصلی کامل",
"company-01": "متن اصلی کامل",
"amount-01": "متن اصلی کامل با واحد",
"percent-01": "عدد + درصد",
...
}}"""
response2 = requests.post(
"https://api.cerebras.ai/v1/chat/completions",
headers={
"Authorization": f"Bearer {self.cerebras_key}",
"Content-Type": "application/json"
},
json={
"model": "llama-3.3-70b",
"messages": [{"role": "user", "content": prompt2}],
"max_tokens": 2048,
"temperature": 0.1
},
timeout=60
)
if response2.status_code == 200:
mapping_text = response2.json()['choices'][0]['message']['content'].strip()
# پاک‌سازی و parse کردن JSON
# حذف markdown code blocks اگر وجود داشته باشه
mapping_text = mapping_text.replace('```json', '').replace('```', '').strip()
try:
self.mapping_table = json.loads(mapping_text)
# پست-پروسسینگ: اصلاح mapping برای percent ها
self._fix_percent_mapping()
# ساخت reverse mapping
self.reverse_mapping = {v: k for k, v in self.mapping_table.items()}
logger.info(f"✅ Mapping استخراج شد: {len(self.mapping_table)} موجودیت")
except json.JSONDecodeError:
logger.warning("⚠️ خطا در parse کردن JSON mapping - استفاده از روش fallback")
self._extract_mapping_from_text(text, anonymized_text)
else:
logger.warning("⚠️ خطا در دریافت mapping - استفاده از روش fallback")
self._extract_mapping_from_text(text, anonymized_text)
return anonymized_text, self.mapping_table
except Exception as e:
logger.error(f"❌ Cerebras Exception: {e}")
raise
def _fix_percent_mapping(self):
"""اصلاح mapping برای درصدها و مقادیر - اضافه کردن واحدها اگر فقط عدد باشد"""
for token, value in self.mapping_table.items():
value_str = str(value).strip()
if token.startswith('percent-'):
# چک کنیم آیا کلمه "درصد" یا "%" در value هست
if not re.search(r'(درصد|%|درصدی)', value_str):
# فقط عدد هست، کلمه "درصد" رو اضافه کن
self.mapping_table[token] = f"{value_str} درصد"
logger.info(f"✅ اصلاح {token}: '{value_str}' → '{value_str} درصد'")
elif token.startswith('amount-'):
# چک کنیم آیا واحد پولی در value هست
if not re.search(r'(میلیارد|میلیون|هزار|تومان|ریال|دلار|یورو|تن)', value_str):
# فقط عدد هست، احتمالاً باید واحد اضافه بشه
# اما نمی‌دونیم چه واحدی، پس warning بده
logger.warning(f"⚠️ {token}: فقط عدد '{value_str}' - واحد مشخص نیست")
def _extract_mapping_from_text(self, original: str, anonymized: str):
"""استخراج mapping از متن‌های اصلی و ناشناس شده - نسخه بهبود یافته"""
# استخراج همه توکن‌های ناشناس از متن ناشناس‌سازی شده
all_tokens = []
for entity_type in ['person', 'company', 'amount', 'percent']:
tokens = re.findall(f'{entity_type}-\\d+', anonymized)
all_tokens.extend([(t, entity_type) for t in tokens])
# حذف تکراری‌ها و مرتب‌سازی
all_tokens = sorted(set(all_tokens), key=lambda x: (x[1], int(x[0].split('-')[1])))
# الگوهای موجودیت در متن اصلی
patterns = {
'person': r'\b[ء-ي]+\s+[ء-ي]+(?:\s+[ء-ي]+)*\b',
'company': r'(?:شرکت|بانک|سازمان|گروه|هلدینگ)\s+[ء-ي]+(?:\s+[ء-ي]+)*',
'amount': r'\d+(?:\.\d+)?\s*(?:میلیارد|میلیون|هزار|تومان|ریال|دلار|یورو|تن)',
'percent': r'\d+(?:\.\d+)?\s*(?:درصد|%|درصدی)',
}
# استخراج موجودیت‌های اصلی
original_entities = {}
for entity_type, pattern in patterns.items():
matches = list(re.finditer(pattern, original))
original_entities[entity_type] = [m.group().strip() for m in matches]
# نگاشت توکن‌ها به موجودیت‌های اصلی
for token, entity_type in all_tokens:
if entity_type in original_entities and original_entities[entity_type]:
# گرفتن شماره توکن (مثلاً از person-01 عدد 1 رو میگیریم)
token_num = int(token.split('-')[1]) - 1
if token_num < len(original_entities[entity_type]):
original_text = original_entities[entity_type][token_num]
self.mapping_table[token] = original_text
self.reverse_mapping[original_text] = token
else:
# اگر شماره توکن بیشتر از تعداد موجودیت‌ها بود
# از آخرین موجودیت استفاده کن
original_text = original_entities[entity_type][-1]
if token not in self.mapping_table:
self.mapping_table[token] = original_text
self.reverse_mapping[original_text] = token
def analyze_with_gpt(self, anonymized_text: str, analysis_prompt: str = None) -> str:
"""
✅ اصلاح شده - استفاده از ماژول ChatGPTSender
اجرای پرامپت‌های درون متن ناشناس‌سازی شده با ChatGPT
"""
logger.info("🤖 ChatGPT اجرای پرامپت...")
# ✅ اگر پرامپتی نیست، فقط متن ناشناس‌سازی شده برگردان
if not analysis_prompt or analysis_prompt.strip() == "":
logger.info("📝 بدون دستورات - فقط متن ناشناس‌سازی شده برگردانده می‌شود")
return anonymized_text
if not self.gpt_key:
logger.warning("⚠️ GPT API Key نیست")
return "❌ API Key موجود نیست"
try:
# متن ارسالی شامل متن ناشناس‌سازی شده + دستورات کاربر
user_message = f"""متن ناشناس‌سازی شده:
---
{anonymized_text}
---
دستورات:
{analysis_prompt}
توکن‌های ناشناس را حتماً حفظ کن. فقط نتیجه اجرای دستورات را برگردان."""
logger.info(f"📋 متن ارسالی به ChatGPT:\n{user_message}\n")
# ✅ استفاده از ChatGPTSender به جای requests.post
system_msg = """شما دستیار اجرای دستورات روی متون ناشناس‌سازی شده‌اید.
توکن‌های ناشناس (person-01, company-01, amount-01, percent-01) را حتماً حفظ کن.
فقط دستورات دادشده را اجرا کن."""
gpt_response = self.gpt_sender.send(
text=user_message,
system_msg=system_msg,
max_tokens=4096,
temperature=0.3,
lang='fa'
)
# بررسی برای خطاهای API
if gpt_response.startswith("❌"):
logger.error(f"❌ GPT Error: {gpt_response}")
return gpt_response
logger.info("✅ ChatGPT: دستورات اجرا شدند")
logger.info(f"📤 پاسخ ChatGPT:\n{gpt_response}\n")
return gpt_response
except Exception as e:
logger.error(f"❌ GPT Exception: {e}")
return f"❌ خطا: {str(e)}"
def restore_text(self, anonymized_text: str) -> str:
"""بازگردانی متن اصلی"""
logger.info("🔄 بازگردانی...")
restored = anonymized_text
for placeholder, original in sorted(self.mapping_table.items()):
restored = restored.replace(placeholder, original)
logger.info("✅ بازگردانی کامل")
return restored
def get_mapping_table_md(self) -> str:
"""تبدیل جدول نگاشت به Markdown"""
if not self.mapping_table:
return "### 📋 جدول نگاشت\n\nهیچ موجودیتی شناسایی نشد"
table = "### 📋 جدول نگاشت\n\n"
table += "| شناسه | متن اصلی |\n"
table += "|-------|----------|\n"
for token, original in sorted(self.mapping_table.items()):
table += f"| **{token}** | {original} |\n"
return table
# متغیر سراسری
anonymizer = None
def process(input_text: str, analysis_prompt: str = None):
"""پردازش متن - 4 مرحله"""
global anonymizer
if not input_text.strip():
return "", "", "", ""
cerebras_key = os.getenv("CEREBRAS_API_KEY")
gpt_key = os.getenv("OPENAI_API_KEY")
if not anonymizer:
anonymizer = AnonymizerAdvanced(cerebras_key, gpt_key)
else:
anonymizer.mapping_table = {}
anonymizer.reverse_mapping = {}
try:
logger.info("=" * 70)
logger.info(f"🚀 شروع پردازش - روش: Cerebras")
logger.info("=" * 70)
# ============================================
# مرحله 1: ناشناس‌سازی
# ============================================
logger.info("📝 مرحله 1: ناشناس‌سازی...")
anonymized_text, _ = anonymizer.anonymize_with_cerebras(input_text)
logger.info(f"✅ ناشناس‌سازی: {len(anonymized_text)} کاراکتر")
# ============================================
# مرحله 2: ChatGPT با متن ناشناس‌سازی شده + دستورات
# ============================================
logger.info("🤖 مرحله 2: ChatGPT...")
gpt_response = anonymizer.analyze_with_gpt(anonymized_text, analysis_prompt)
logger.info(f"✅ ChatGPT: {len(gpt_response)} کاراکتر")
# ============================================
# مرحله 3: بازگردانی پاسخ ChatGPT
# ============================================
logger.info("🔄 مرحله 3: بازگردانی...")
restored_text = anonymizer.restore_text(gpt_response)
logger.info("✅ بازگردانی کامل")
# ============================================
# مرحله 4: جدول نگاشت
# ============================================
logger.info("📋 مرحله 4: جدول نگاشت...")
mapping_str = anonymizer.get_mapping_table_md()
logger.info(f"✅ {len(anonymizer.mapping_table)} موجودیت")
logger.info("=" * 70)
logger.info("✅ تمام مراحل کامل!")
logger.info("=" * 70)
return restored_text, gpt_response, anonymized_text, mapping_str
except Exception as e:
logger.error(f"❌ خطا: {str(e)}", exc_info=True)
return "", f"❌ خطا: {str(e)}", "", ""
def clear_all():
"""پاک کردن همه"""
return "", "", "", "", "", ""
# Gradio Interface
css_rtl = """
.input-box { direction: rtl; text-align: right; }
.textbox textarea { direction: rtl; text-align: right; font-family: 'Tahoma', serif; }
"""
with gr.Blocks(title="سیستم ناشناس‌سازی متون", theme=gr.themes.Soft(), css=css_rtl) as app:
gr.Markdown("# 🔐 سیستم ناشناس‌سازی متون مالی فارسی", elem_classes="input-box")
# ============================================
# صفحه اول: دکمه‌ها (راست) + ورودی (چپ)
# ============================================
with gr.Row():
# سمت راست: دکمه‌ها و دستورات
with gr.Column(scale=1):
analysis_prompt = gr.Textbox(
lines=8,
placeholder="",
label="📋 دستورات ChatGPT (اختیاری)",
elem_classes="textbox"
)
gr.Markdown("---")
with gr.Column():
process_btn = gr.Button(
"▶️ پردازش",
variant="primary",
size="lg"
)
clear_btn = gr.Button(
"🗑️ پاک کردن",
variant="stop",
size="lg"
)
# سمت چپ: متن ورودی (بزرگ‌تر)
with gr.Column(scale=3):
input_text = gr.Textbox(
lines=14,
placeholder="متن مالی/خبری را وارد کنید...",
label="📝 متن ورودی",
elem_classes="textbox"
)
# ============================================
# صفحه دوم: 3 باکس نتایج (وسط)
# ============================================
gr.Markdown("---")
gr.Markdown("## 📊 نتایج پردازش", elem_classes="input-box")
with gr.Row():
# باکس 1: متن بازگردانی شده (راست)
with gr.Column(scale=1):
restored_text = gr.Textbox(
lines=12,
label="✅ متن بازگردانی شده",
interactive=False,
elem_classes="textbox"
)
# باکس 2: تحلیل ChatGPT (وسط)
with gr.Column(scale=1):
gpt_analysis = gr.Textbox(
lines=12,
label="🤖 تحلیل ChatGPT",
interactive=False,
elem_classes="textbox"
)
# باکس 3: متن ناشناس‌شده (چپ)
with gr.Column(scale=1):
anonymized_text = gr.Textbox(
lines=12,
label="🔒 متن ناشناس‌شده",
interactive=False,
elem_classes="textbox"
)
# ============================================
# پایین: جدول نگاشت (Markdown)
# ============================================
gr.Markdown("---")
mapping_table = gr.Markdown(
value="### 📋 جدول نگاشت\n\nهنوز پردازشی انجام نشده",
label="📋 جدول نگاشت",
elem_classes="input-box"
)
# ============================================
# Event Handlers
# ============================================
process_btn.click(
fn=process,
inputs=[input_text, analysis_prompt],
outputs=[restored_text, gpt_analysis, anonymized_text, mapping_table]
)
clear_btn.click(
fn=clear_all,
outputs=[input_text, analysis_prompt, restored_text, gpt_analysis, anonymized_text, mapping_table]
)
if __name__ == "__main__":
print("=" * 70)
print("🚀 سیستم ناشناس‌سازی متون در حال راه‌اندازی...")
print("=" * 70)
print("\n📋 نحوه استفاده:\n")
print("1. CEREBRAS_API_KEY و OPENAI_API_KEY را تنظیم کنید")
print("2. http://localhost:7860 را باز کنید")
print("3. متن را وارد کنید")
print("4. 'پردازش' را کلیک کنید\n")
print("روش استفاده شده: Cerebras (Llama 3.3-70B)")
print("=" * 70 + "\n")
app.launch(
server_name="0.0.0.0",
server_port=7860,
share=False,
show_error=True
)