leilaghomashchi's picture
Rename app_unified (2).py to app.py
b0091cb verified
raw
history blame
22.8 kB
import gradio as gr
import re
import os
import requests
import json
import logging
from typing import Dict, List, Tuple
from llm_sender_unified import create_llm_sender, AVAILABLE_MODELS # ✅ import ماژول جدید
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)
class AnonymizerAdvanced:
"""ناشناس‌ساز پیشرفته با روش‌های متعدد"""
def __init__(self, cerebras_key: str = None, llm_provider: str = "chatgpt", llm_model: str = None):
self.cerebras_key = cerebras_key or os.getenv("CEREBRAS_API_KEY")
self.llm_provider = llm_provider
self.llm_model = llm_model
self.mapping_table = {} # {placeholder: original_text}
self.reverse_mapping = {} # {original_text: placeholder}
# ✅ ایجاد LLM sender بر اساس provider انتخابی
self._create_llm_sender()
logger.info(f"✅ Anonymizer Advanced مقداردهی شد با {llm_provider}")
def _create_llm_sender(self):
"""ایجاد LLM sender مناسب"""
try:
# گرفتن API key مناسب
if self.llm_provider == "chatgpt":
api_key = os.getenv("OPENAI_API_KEY")
elif self.llm_provider == "grok":
api_key = os.getenv("XAI_API_KEY")
else:
api_key = None
# ایجاد sender
self.llm_sender = create_llm_sender(
provider=self.llm_provider,
api_key=api_key,
model=self.llm_model
)
logger.info(f"✅ LLM Sender ایجاد شد: {self.llm_provider} - {self.llm_sender.model}")
except Exception as e:
logger.error(f"❌ خطا در ایجاد LLM Sender: {e}")
# fallback to ChatGPT
self.llm_sender = create_llm_sender("chatgpt")
def set_llm_provider(self, provider: str, model: str = None):
"""تغییر provider و مدل LLM"""
self.llm_provider = provider
self.llm_model = model
self._create_llm_sender()
logger.info(f"✅ LLM تغییر یافت به: {provider} - {model}")
def anonymize_with_cerebras(self, text: str) -> Tuple[str, Dict]:
"""ناشناس‌سازی با Cerebras - دریافت mapping از مدل"""
logger.info("🧠 روش Cerebras...")
if not self.cerebras_key:
logger.error("❌ Cerebras API Key موجود نیست")
raise ValueError("Cerebras API Key مورد نیاز است")
try:
# مرحله 1: ناشناس‌سازی متن
prompt1 = f"""متن زیر را ناشناس کنید. قوانین:
1. اسامی اشخاص → person-01, person-02, ...
2. نام شرکت‌ها/سازمان‌ها → company-01, company-02, ...
3. مقادیر پولی → amount-01, amount-02, ...
4. درصدها → percent-01, percent-02, ...
5. فقط این توکن‌ها استفاده کنید
6. شماره‌های نسخه را درست حفظ کنید
7. اگر موجودیت تکرار شود از شماره قدیمی استفاده کنید
متن:
{text}
خروجی: فقط متن ناشناس شده"""
response1 = requests.post(
"https://api.cerebras.ai/v1/chat/completions",
headers={
"Authorization": f"Bearer {self.cerebras_key}",
"Content-Type": "application/json"
},
json={
"model": "llama-3.3-70b",
"messages": [{"role": "user", "content": prompt1}],
"max_tokens": 4096,
"temperature": 0.1
},
timeout=60
)
if response1.status_code != 200:
logger.error(f"❌ Cerebras Error: {response1.status_code}")
raise Exception(f"Cerebras API Error: {response1.status_code}")
anonymized_text = response1.json()['choices'][0]['message']['content'].strip()
logger.info("✅ Cerebras: ناشناس‌سازی موفق")
# مرحله 2: استخراج mapping از مدل
prompt2 = f"""متن اصلی:
{text}
متن ناشناس شده:
{anonymized_text}
لطفاً یک جدول mapping برای همه توکن‌های ناشناس ایجاد کن.
برای هر توکن، متن اصلی کامل آن را مشخص کن.
**مهم:**
- برای person-XX: نام کامل شخص (مثلاً "علی احمدی")
- برای company-XX: نام کامل شرکت/سازمان (مثلاً "شرکت پتروشیمی")
- برای amount-XX: عدد + واحد (مثلاً "80 هزار تومان" یا "50 میلیارد ریال")
- برای percent-XX: عدد + کلمه "درصد" (مثلاً "40 درصد" نه فقط "40")
خروجی را به این فرمت JSON بده (فقط JSON، بدون توضیح اضافی):
{{
"person-01": "متن اصلی کامل",
"company-01": "متن اصلی کامل",
"amount-01": "متن اصلی کامل با واحد",
"percent-01": "عدد + درصد",
...
}}"""
response2 = requests.post(
"https://api.cerebras.ai/v1/chat/completions",
headers={
"Authorization": f"Bearer {self.cerebras_key}",
"Content-Type": "application/json"
},
json={
"model": "llama-3.3-70b",
"messages": [{"role": "user", "content": prompt2}],
"max_tokens": 2048,
"temperature": 0.1
},
timeout=60
)
if response2.status_code == 200:
mapping_text = response2.json()['choices'][0]['message']['content'].strip()
# پاک‌سازی و parse کردن JSON
# حذف markdown code blocks اگر وجود داشته باشه
mapping_text = mapping_text.replace('```json', '').replace('```', '').strip()
try:
self.mapping_table = json.loads(mapping_text)
# پست-پروسسینگ: اصلاح mapping برای percent ها
self._fix_percent_mapping()
# ساخت reverse mapping
self.reverse_mapping = {v: k for k, v in self.mapping_table.items()}
logger.info(f"✅ Mapping استخراج شد: {len(self.mapping_table)} موجودیت")
except json.JSONDecodeError:
logger.warning("⚠️ خطا در parse کردن JSON mapping - استفاده از روش fallback")
self._extract_mapping_from_text(text, anonymized_text)
else:
logger.warning("⚠️ خطا در دریافت mapping - استفاده از روش fallback")
self._extract_mapping_from_text(text, anonymized_text)
return anonymized_text, self.mapping_table
except Exception as e:
logger.error(f"❌ Cerebras Exception: {e}")
raise
def _fix_percent_mapping(self):
"""اصلاح mapping برای درصدها و مقادیر - اضافه کردن واحدها اگر فقط عدد باشد"""
for token, value in self.mapping_table.items():
value_str = str(value).strip()
if token.startswith('percent-'):
# چک کنیم آیا کلمه "درصد" یا "%" در value هست
if not re.search(r'(درصد|%|درصدی)', value_str):
# فقط عدد هست، کلمه "درصد" رو اضافه کن
self.mapping_table[token] = f"{value_str} درصد"
logger.info(f"✅ اصلاح {token}: '{value_str}' → '{value_str} درصد'")
elif token.startswith('amount-'):
# چک کنیم آیا واحد پولی در value هست
if not re.search(r'(میلیارد|میلیون|هزار|تومان|ریال|دلار|یورو|تن)', value_str):
# فقط عدد هست، احتمالاً باید واحد اضافه بشه
# اما نمی‌دونیم چه واحدی، پس warning بده
logger.warning(f"⚠️ {token}: فقط عدد '{value_str}' - واحد مشخص نیست")
def _extract_mapping_from_text(self, original: str, anonymized: str):
"""استخراج mapping از متن‌های اصلی و ناشناس شده - نسخه بهبود یافته"""
# استخراج همه توکن‌های ناشناس از متن ناشناس‌سازی شده
all_tokens = []
for entity_type in ['person', 'company', 'amount', 'percent']:
tokens = re.findall(f'{entity_type}-\\d+', anonymized)
all_tokens.extend([(t, entity_type) for t in tokens])
# حذف تکراری‌ها و مرتب‌سازی
all_tokens = sorted(set(all_tokens), key=lambda x: (x[1], int(x[0].split('-')[1])))
# الگوهای موجودیت در متن اصلی
patterns = {
'person': r'\b[ء-ي]+\s+[ء-ي]+(?:\s+[ء-ي]+)*\b',
'company': r'(?:شرکت|بانک|سازمان|گروه|هلدینگ)\s+[ء-ي]+(?:\s+[ء-ي]+)*',
'amount': r'\d+(?:\.\d+)?\s*(?:میلیارد|میلیون|هزار|تومان|ریال|دلار|یورو|تن)',
'percent': r'\d+(?:\.\d+)?\s*(?:درصد|%|درصدی)',
}
# استخراج موجودیت‌های اصلی
original_entities = {}
for entity_type, pattern in patterns.items():
matches = list(re.finditer(pattern, original))
original_entities[entity_type] = [m.group().strip() for m in matches]
# نگاشت توکن‌ها به موجودیت‌های اصلی
for token, entity_type in all_tokens:
if entity_type in original_entities and original_entities[entity_type]:
# گرفتن شماره توکن (مثلاً از person-01 عدد 1 رو میگیریم)
token_num = int(token.split('-')[1]) - 1
if token_num < len(original_entities[entity_type]):
original_text = original_entities[entity_type][token_num]
self.mapping_table[token] = original_text
self.reverse_mapping[original_text] = token
else:
# اگر شماره توکن بیشتر از تعداد موجودیت‌ها بود
# از آخرین موجودیت استفاده کن
original_text = original_entities[entity_type][-1]
if token not in self.mapping_table:
self.mapping_table[token] = original_text
self.reverse_mapping[original_text] = token
def analyze_with_llm(self, anonymized_text: str, analysis_prompt: str = None) -> str:
"""
✅ استفاده از LLM یکپارچه (ChatGPT یا Grok)
اجرای پرامپت‌های درون متن ناشناس‌سازی شده
"""
logger.info(f"🤖 {self.llm_provider.upper()} اجرای پرامپت...")
# اگر پرامپتی نیست، فقط متن ناشناس‌سازی شده برگردان
if not analysis_prompt or not analysis_prompt.strip():
logger.info("⚠️ پرامپت خالی - بدون تحلیل")
return "⚠️ هیچ دستور تحلیل داده نشده است"
# ترکیب متن ناشناس‌سازی شده + پرامپت کاربر
combined_text = f"""متن ناشناس‌سازی شده:
{anonymized_text}
دستورات:
{analysis_prompt}
توجه: در پاسخ از همان کدهای ناشناس (person-XX, company-XX, amount-XX, percent-XX) استفاده کن."""
try:
# ✅ ارسال به LLM انتخابی
response = self.llm_sender.send_simple(combined_text, lang='fa')
logger.info(f"✅ {self.llm_provider.upper()}: {len(response)} کاراکتر")
return response
except Exception as e:
logger.error(f"❌ {self.llm_provider.upper()} Exception: {e}")
return f"❌ خطا در ارتباط با {self.llm_provider.upper()}: {str(e)}"
def restore_text(self, anonymized_text: str) -> str:
"""بازگردانی متن ناشناس‌سازی شده به اصلی"""
logger.info("🔄 بازگردانی متن...")
if not self.mapping_table:
logger.warning("⚠️ جدول نگاشت خالی است")
return anonymized_text
restored = anonymized_text
# جایگزینی placeholder ها با متن اصلی
for placeholder, original in sorted(self.mapping_table.items()):
restored = restored.replace(placeholder, original)
logger.info("✅ بازگردانی کامل")
return restored
def get_mapping_table_md(self) -> str:
"""تبدیل جدول نگاشت به Markdown"""
if not self.mapping_table:
return "### 📋 جدول نگاشت\n\nهیچ موجودیتی شناسایی نشد"
table = "### 📋 جدول نگاشت\n\n"
table += "| شناسه | متن اصلی |\n"
table += "|-------|----------|\n"
for token, original in sorted(self.mapping_table.items()):
table += f"| **{token}** | {original} |\n"
return table
# متغیر سراسری
anonymizer = None
def process(
input_text: str,
analysis_prompt: str,
llm_provider: str,
llm_model: str
):
"""پردازش متن - 4 مرحله"""
global anonymizer
if not input_text.strip():
return "", "", "", ""
cerebras_key = os.getenv("CEREBRAS_API_KEY")
# ✅ ایجاد یا آپدیت anonymizer با provider و model جدید
if not anonymizer:
anonymizer = AnonymizerAdvanced(
cerebras_key,
llm_provider=llm_provider,
llm_model=llm_model
)
else:
# آپدیت provider و model
anonymizer.set_llm_provider(llm_provider, llm_model)
anonymizer.mapping_table = {}
anonymizer.reverse_mapping = {}
try:
logger.info("=" * 70)
logger.info(f"🚀 شروع پردازش - LLM: {llm_provider} ({llm_model})")
logger.info("=" * 70)
# مرحله 1: ناشناس‌سازی
logger.info("📝 مرحله 1: ناشناس‌سازی...")
anonymized_text, _ = anonymizer.anonymize_with_cerebras(input_text)
logger.info(f"✅ ناشناس‌سازی: {len(anonymized_text)} کاراکتر")
# مرحله 2: LLM با متن ناشناس‌سازی شده + دستورات
logger.info(f"🤖 مرحله 2: {llm_provider.upper()}...")
llm_response = anonymizer.analyze_with_llm(anonymized_text, analysis_prompt)
logger.info(f"✅ {llm_provider.upper()}: {len(llm_response)} کاراکتر")
# مرحله 3: بازگردانی پاسخ LLM
logger.info("🔄 مرحله 3: بازگردانی...")
restored_text = anonymizer.restore_text(llm_response)
logger.info("✅ بازگردانی کامل")
# مرحله 4: جدول نگاشت
logger.info("📋 مرحله 4: جدول نگاشت...")
mapping_str = anonymizer.get_mapping_table_md()
logger.info(f"✅ {len(anonymizer.mapping_table)} موجودیت")
logger.info("=" * 70)
logger.info("✅ تمام مراحل کامل!")
logger.info("=" * 70)
return restored_text, llm_response, anonymized_text, mapping_str
except Exception as e:
logger.error(f"❌ خطا: {str(e)}", exc_info=True)
return "", f"❌ خطا: {str(e)}", "", ""
def clear_all():
"""پاک کردن همه"""
return "", "", "", "", "", ""
def update_model_choices(provider: str):
"""آپدیت لیست مدل‌ها بر اساس provider انتخابی"""
models = AVAILABLE_MODELS.get(provider, [])
return gr.Dropdown(choices=models, value=models[0] if models else None)
# Gradio Interface
css_rtl = """
.input-box { direction: rtl; text-align: right; }
.textbox textarea { direction: rtl; text-align: right; font-family: 'Tahoma', serif; }
"""
with gr.Blocks(title="سیستم ناشناس‌سازی متون", theme=gr.themes.Soft(), css=css_rtl) as app:
gr.Markdown("# 🔐 سیستم ناشناس‌سازی متون مالی فارسی", elem_classes="input-box")
# ============================================
# صفحه اول: دکمه‌ها (راست) + ورودی (چپ)
# ============================================
with gr.Row():
# سمت راست: دکمه‌ها و دستورات
with gr.Column(scale=1):
# ✅ انتخاب LLM Provider
with gr.Group():
gr.Markdown("### ⚙️ تنظیمات مدل", elem_classes="input-box")
llm_provider = gr.Dropdown(
choices=["chatgpt", "grok"],
value="chatgpt",
label="🤖 انتخاب LLM",
interactive=True
)
llm_model = gr.Dropdown(
choices=AVAILABLE_MODELS["chatgpt"],
value="gpt-4o-mini",
label="📦 انتخاب مدل",
interactive=True
)
gr.Markdown("---")
analysis_prompt = gr.Textbox(
lines=6,
placeholder="مثال: این متن را خلاصه کن\nیا: نکات کلیدی را استخراج کن",
label="📋 دستورات LLM (اختیاری)",
elem_classes="textbox"
)
gr.Markdown("---")
with gr.Column():
process_btn = gr.Button(
"▶️ پردازش",
variant="primary",
size="lg"
)
clear_btn = gr.Button(
"🗑️ پاک کردن",
variant="stop",
size="lg"
)
# سمت چپ: متن ورودی (بزرگ‌تر)
with gr.Column(scale=3):
input_text = gr.Textbox(
lines=18,
placeholder="متن مالی/خبری را وارد کنید...",
label="📝 متن ورودی",
elem_classes="textbox"
)
# ============================================
# صفحه دوم: 3 باکس نتایج (وسط)
# ============================================
gr.Markdown("---")
gr.Markdown("## 📊 نتایج پردازش", elem_classes="input-box")
with gr.Row():
# باکس 1: متن بازگردانی شده (راست)
with gr.Column(scale=1):
restored_text = gr.Textbox(
lines=12,
label="✅ متن بازگردانی شده",
interactive=False,
elem_classes="textbox"
)
# باکس 2: تحلیل LLM (وسط)
with gr.Column(scale=1):
llm_analysis = gr.Textbox(
lines=12,
label="🤖 تحلیل LLM",
interactive=False,
elem_classes="textbox"
)
# باکس 3: متن ناشناس‌شده (چپ)
with gr.Column(scale=1):
anonymized_text = gr.Textbox(
lines=12,
label="🔒 متن ناشناس‌شده",
interactive=False,
elem_classes="textbox"
)
# ============================================
# پایین: جدول نگاشت (Markdown)
# ============================================
gr.Markdown("---")
mapping_table = gr.Markdown(
value="### 📋 جدول نگاشت\n\nهنوز پردازشی انجام نشده",
label="📋 جدول نگاشت",
elem_classes="input-box"
)
# ============================================
# Event Handlers
# ============================================
# ✅ آپدیت مدل‌ها هنگام تغییر provider
llm_provider.change(
fn=update_model_choices,
inputs=[llm_provider],
outputs=[llm_model]
)
# پردازش
process_btn.click(
fn=process,
inputs=[input_text, analysis_prompt, llm_provider, llm_model],
outputs=[restored_text, llm_analysis, anonymized_text, mapping_table]
)
# پاک کردن
clear_btn.click(
fn=clear_all,
outputs=[input_text, analysis_prompt, restored_text, llm_analysis, anonymized_text, mapping_table]
)
if __name__ == "__main__":
print("=" * 70)
print("🚀 سیستم ناشناس‌سازی متون در حال راه‌اندازی...")
print("=" * 70)
print("\n📋 نحوه استفاده:\n")
print("1. کلیدهای API را تنظیم کنید:")
print(" - CEREBRAS_API_KEY (ضروری)")
print(" - OPENAI_API_KEY (برای ChatGPT)")
print(" - XAI_API_KEY (برای Grok)")
print("2. http://localhost:7860 را باز کنید")
print("3. LLM و مدل را انتخاب کنید")
print("4. متن را وارد کنید")
print("5. 'پردازش' را کلیک کنید\n")
print("LLM‌های پشتیبانی‌شده:")
print(" 🤖 ChatGPT: gpt-4o-mini, gpt-4o, gpt-4-turbo")
print(" 🤖 Grok: grok-beta (رایگان), grok-3-mini, grok-3")
print("=" * 70 + "\n")
app.launch(
server_name="0.0.0.0",
server_port=7860,
share=False,
show_error=True
)