Spaces:

leilaghomashchi
/

Data-anonymization

Sleeping

App Files Files Community

Data-anonymization / app-24aban.py

leilaghomashchi

Rename app.py to app-24aban.py

65bcbcf verified 27 days ago

raw

history blame contribute delete

18.7 kB

	import gradio as gr
	import re
	import os
	import requests
	import json
	import logging
	from typing import Dict, List, Tuple
	from chatgpt_sender import ChatGPTSender # ✅ import ماژول جدید

	logging.basicConfig(level=logging.INFO)
	logger = logging.getLogger(__name__)

	class AnonymizerAdvanced:
	"""ناشناس‌ساز پیشرفته با روش‌های متعدد"""

	def __init__(self, cerebras_key: str = None, gpt_key: str = None):
	self.cerebras_key = cerebras_key or os.getenv("CEREBRAS_API_KEY")
	self.gpt_key = gpt_key or os.getenv("OPENAI_API_KEY")
	self.mapping_table = {} # {placeholder: original_text}
	self.reverse_mapping = {} # {original_text: placeholder}

	# ✅ ایجاد instance از ChatGPTSender
	self.gpt_sender = ChatGPTSender(api_key=self.gpt_key, model="gpt-4o-mini")

	logger.info("✅ Anonymizer Advanced مقداردهی شد")


	def anonymize_with_cerebras(self, text: str) -> Tuple[str, Dict]:
	"""ناشناس‌سازی با Cerebras - دریافت mapping از مدل"""
	logger.info("🧠 روش Cerebras...")

	if not self.cerebras_key:
	logger.error("❌ Cerebras API Key موجود نیست")
	raise ValueError("Cerebras API Key مورد نیاز است")

	try:
	# مرحله 1: ناشناس‌سازی متن
	prompt1 = f"""متن زیر را ناشناس کنید. قوانین:
	1. اسامی اشخاص → person-01, person-02, ...
	2. نام شرکت‌ها/سازمان‌ها → company-01, company-02, ...
	3. مقادیر پولی → amount-01, amount-02, ...
	4. درصدها → percent-01, percent-02, ...
	5. فقط این توکن‌ها استفاده کنید
	6. شماره‌های نسخه را درست حفظ کنید
	7. اگر موجودیت تکرار شود از شماره قدیمی استفاده کنید

	متن:
	{text}

	خروجی: فقط متن ناشناس شده"""

	response1 = requests.post(
	"https://api.cerebras.ai/v1/chat/completions",
	headers={
	"Authorization": f"Bearer {self.cerebras_key}",
	"Content-Type": "application/json"
	},
	json={
	"model": "llama-3.3-70b",
	"messages": [{"role": "user", "content": prompt1}],
	"max_tokens": 4096,
	"temperature": 0.1
	},
	timeout=60
	)

	if response1.status_code != 200:
	logger.error(f"❌ Cerebras Error: {response1.status_code}")
	raise Exception(f"Cerebras API Error: {response1.status_code}")

	anonymized_text = response1.json()['choices'][0]['message']['content'].strip()
	logger.info("✅ Cerebras: ناشناس‌سازی موفق")

	# مرحله 2: استخراج mapping از مدل
	prompt2 = f"""متن اصلی:
	{text}

	متن ناشناس شده:
	{anonymized_text}

	لطفاً یک جدول mapping برای همه توکن‌های ناشناس ایجاد کن.
	برای هر توکن (person-01, company-01, amount-01, percent-01, ...)، متن اصلی آن را مشخص کن.

	خروجی را به این فرمت JSON بده (فقط JSON، بدون توضیح اضافی):
	{{
	"person-01": "متن اصلی",
	"company-01": "متن اصلی",
	...
	}}"""

	response2 = requests.post(
	"https://api.cerebras.ai/v1/chat/completions",
	headers={
	"Authorization": f"Bearer {self.cerebras_key}",
	"Content-Type": "application/json"
	},
	json={
	"model": "llama-3.3-70b",
	"messages": [{"role": "user", "content": prompt2}],
	"max_tokens": 2048,
	"temperature": 0.1
	},
	timeout=60
	)

	if response2.status_code == 200:
	mapping_text = response2.json()['choices'][0]['message']['content'].strip()

	# پاک‌سازی و parse کردن JSON
	# حذف markdown code blocks اگر وجود داشته باشه
	mapping_text = mapping_text.replace('```json', '').replace('```', '').strip()

	try:
	self.mapping_table = json.loads(mapping_text)
	# ساخت reverse mapping
	self.reverse_mapping = {v: k for k, v in self.mapping_table.items()}
	logger.info(f"✅ Mapping استخراج شد: {len(self.mapping_table)} موجودیت")
	except json.JSONDecodeError:
	logger.warning("⚠️ خطا در parse کردن JSON mapping - استفاده از روش fallback")
	self._extract_mapping_from_text(text, anonymized_text)
	else:
	logger.warning("⚠️ خطا در دریافت mapping - استفاده از روش fallback")
	self._extract_mapping_from_text(text, anonymized_text)

	return anonymized_text, self.mapping_table

	except Exception as e:
	logger.error(f"❌ Cerebras Exception: {e}")
	raise


	def _extract_mapping_from_text(self, original: str, anonymized: str):
	"""استخراج mapping از متن‌های اصلی و ناشناس شده - نسخه بهبود یافته"""

	# استخراج همه توکن‌های ناشناس از متن ناشناس‌سازی شده
	all_tokens = []
	for entity_type in ['person', 'company', 'amount', 'percent']:
	tokens = re.findall(f'{entity_type}-\\d+', anonymized)
	all_tokens.extend([(t, entity_type) for t in tokens])

	# حذف تکراری‌ها و مرتب‌سازی
	all_tokens = sorted(set(all_tokens), key=lambda x: (x[1], int(x[0].split('-')[1])))

	# الگوهای موجودیت در متن اصلی
	patterns = {
	'person': r'\b[ء-ي]+\s+[ء-ي]+(?:\s+[ء-ي]+)*\b',
	'company': r'(?:شرکت\|بانک\|سازمان\|گروه\|هلدینگ)\s+[ء-ي]+(?:\s+[ء-ي]+)*',
	'amount': r'\d+(?:\.\d+)?\s*(?:میلیارد\|میلیون\|هزار\|تومان\|ریال\|دلار\|یورو\|تن)',
	'percent': r'\d+(?:\.\d+)?\s*(?:درصد\|%\|درصدی)',
	}

	# استخراج موجودیت‌های اصلی
	original_entities = {}
	for entity_type, pattern in patterns.items():
	matches = list(re.finditer(pattern, original))
	original_entities[entity_type] = [m.group().strip() for m in matches]

	# نگاشت توکن‌ها به موجودیت‌های اصلی
	for token, entity_type in all_tokens:
	if entity_type in original_entities and original_entities[entity_type]:
	# گرفتن شماره توکن (مثلاً از person-01 عدد 1 رو میگیریم)
	token_num = int(token.split('-')[1]) - 1

	if token_num < len(original_entities[entity_type]):
	original_text = original_entities[entity_type][token_num]
	self.mapping_table[token] = original_text
	self.reverse_mapping[original_text] = token
	else:
	# اگر شماره توکن بیشتر از تعداد موجودیت‌ها بود
	# از آخرین موجودیت استفاده کن
	original_text = original_entities[entity_type][-1]
	if token not in self.mapping_table:
	self.mapping_table[token] = original_text
	self.reverse_mapping[original_text] = token

	def analyze_with_gpt(self, anonymized_text: str, analysis_prompt: str = None) -> str:
	"""
	✅ اصلاح شده - استفاده از ماژول ChatGPTSender
	اجرای پرامپت‌های درون متن ناشناس‌سازی شده با ChatGPT
	"""
	logger.info("🤖 ChatGPT اجرای پرامپت...")

	# ✅ اگر پرامپتی نیست، فقط متن ناشناس‌سازی شده برگردان
	if not analysis_prompt or analysis_prompt.strip() == "":
	logger.info("📝 بدون دستورات - فقط متن ناشناس‌سازی شده برگردانده می‌شود")
	return anonymized_text

	if not self.gpt_key:
	logger.warning("⚠️ GPT API Key نیست")
	return "❌ API Key موجود نیست"

	try:
	# متن ارسالی شامل متن ناشناس‌سازی شده + دستورات کاربر
	user_message = f"""متن ناشناس‌سازی شده:
	---
	{anonymized_text}
	---

	دستورات:
	{analysis_prompt}

	توکن‌های ناشناس را حتماً حفظ کن. فقط نتیجه اجرای دستورات را برگردان."""

	logger.info(f"📋 متن ارسالی به ChatGPT:\n{user_message}\n")

	# ✅ استفاده از ChatGPTSender به جای requests.post
	system_msg = """شما دستیار اجرای دستورات روی متون ناشناس‌سازی شده‌اید.
	توکن‌های ناشناس (person-01, company-01, amount-01, percent-01) را حتماً حفظ کن.
	فقط دستورات دادشده را اجرا کن."""

	gpt_response = self.gpt_sender.send(
	text=user_message,
	system_msg=system_msg,
	max_tokens=4096,
	temperature=0.3,
	lang='fa'
	)

	# بررسی برای خطاهای API
	if gpt_response.startswith("❌"):
	logger.error(f"❌ GPT Error: {gpt_response}")
	return gpt_response

	logger.info("✅ ChatGPT: دستورات اجرا شدند")
	logger.info(f"📤 پاسخ ChatGPT:\n{gpt_response}\n")
	return gpt_response

	except Exception as e:
	logger.error(f"❌ GPT Exception: {e}")
	return f"❌ خطا: {str(e)}"

	def restore_text(self, anonymized_text: str) -> str:
	"""بازگردانی متن اصلی"""
	logger.info("🔄 بازگردانی...")

	restored = anonymized_text
	for placeholder, original in sorted(self.mapping_table.items()):
	restored = restored.replace(placeholder, original)

	logger.info("✅ بازگردانی کامل")
	return restored

	def get_mapping_table_md(self) -> str:
	"""تبدیل جدول نگاشت به Markdown"""
	if not self.mapping_table:
	return "### 📋 جدول نگاشت\n\nهیچ موجودیتی شناسایی نشد"

	table = "### 📋 جدول نگاشت\n\n"
	table += "\| شناسه \| متن اصلی \|\n"
	table += "\|-------\|----------\|\n"

	for token, original in sorted(self.mapping_table.items()):
	table += f"\| {token} \| {original} \|\n"

	return table

	# متغیر سراسری
	anonymizer = None

	def process(input_text: str, analysis_prompt: str = None):
	"""پردازش متن - 4 مرحله"""
	global anonymizer

	if not input_text.strip():
	return "", "", "", ""

	cerebras_key = os.getenv("CEREBRAS_API_KEY")
	gpt_key = os.getenv("OPENAI_API_KEY")

	if not anonymizer:
	anonymizer = AnonymizerAdvanced(cerebras_key, gpt_key)
	else:
	anonymizer.mapping_table = {}
	anonymizer.reverse_mapping = {}

	try:
	logger.info("=" * 70)
	logger.info(f"🚀 شروع پردازش - روش: Cerebras")
	logger.info("=" * 70)

	# ============================================
	# مرحله 1: ناشناس‌سازی
	# ============================================
	logger.info("📝 مرحله 1: ناشناس‌سازی...")

	anonymized_text, _ = anonymizer.anonymize_with_cerebras(input_text)

	logger.info(f"✅ ناشناس‌سازی: {len(anonymized_text)} کاراکتر")

	# ============================================
	# مرحله 2: ChatGPT با متن ناشناس‌سازی شده + دستورات
	# ============================================
	logger.info("🤖 مرحله 2: ChatGPT...")
	gpt_response = anonymizer.analyze_with_gpt(anonymized_text, analysis_prompt)
	logger.info(f"✅ ChatGPT: {len(gpt_response)} کاراکتر")

	# ============================================
	# مرحله 3: بازگردانی پاسخ ChatGPT
	# ============================================
	logger.info("🔄 مرحله 3: بازگردانی...")
	restored_text = anonymizer.restore_text(gpt_response)
	logger.info("✅ بازگردانی کامل")

	# ============================================
	# مرحله 4: جدول نگاشت
	# ============================================
	logger.info("📋 مرحله 4: جدول نگاشت...")
	mapping_str = anonymizer.get_mapping_table_md()
	logger.info(f"✅ {len(anonymizer.mapping_table)} موجودیت")

	logger.info("=" * 70)
	logger.info("✅ تمام مراحل کامل!")
	logger.info("=" * 70)

	return restored_text, gpt_response, anonymized_text, mapping_str

	except Exception as e:
	logger.error(f"❌ خطا: {str(e)}", exc_info=True)
	return "", f"❌ خطا: {str(e)}", "", ""

	def clear_all():
	"""پاک کردن همه"""
	return "", "", "", "", "", ""

	# Gradio Interface
	css_rtl = """
	.input-box { direction: rtl; text-align: right; }
	.textbox textarea { direction: rtl; text-align: right; font-family: 'Tahoma', serif; }
	"""

	with gr.Blocks(title="سیستم ناشناس‌سازی متون", theme=gr.themes.Soft(), css=css_rtl) as app:

	gr.Markdown("# 🔐 سیستم ناشناس‌سازی متون مالی فارسی", elem_classes="input-box")

	# ============================================
	# صفحه اول: دکمه‌ها (راست) + ورودی (چپ)
	# ============================================
	with gr.Row():
	# سمت راست: دکمه‌ها و دستورات
	with gr.Column(scale=1):
	analysis_prompt = gr.Textbox(
	lines=8,
	placeholder="",
	label="📋 دستورات ChatGPT (اختیاری)",
	elem_classes="textbox"
	)

	gr.Markdown("---")

	with gr.Column():
	process_btn = gr.Button(
	"▶️ پردازش",
	variant="primary",
	size="lg"
	)

	clear_btn = gr.Button(
	"🗑️ پاک کردن",
	variant="stop",
	size="lg"
	)

	# سمت چپ: متن ورودی (بزرگ‌تر)
	with gr.Column(scale=3):
	input_text = gr.Textbox(
	lines=14,
	placeholder="متن مالی/خبری را وارد کنید...",
	label="📝 متن ورودی",
	elem_classes="textbox"
	)

	# ============================================
	# صفحه دوم: 3 باکس نتایج (وسط)
	# ============================================
	gr.Markdown("---")
	gr.Markdown("## 📊 نتایج پردازش", elem_classes="input-box")

	with gr.Row():
	# باکس 1: متن بازگردانی شده (راست)
	with gr.Column(scale=1):
	restored_text = gr.Textbox(
	lines=12,
	label="✅ متن بازگردانی شده",
	interactive=False,
	elem_classes="textbox"
	)

	# باکس 2: تحلیل ChatGPT (وسط)
	with gr.Column(scale=1):
	gpt_analysis = gr.Textbox(
	lines=12,
	label="🤖 تحلیل ChatGPT",
	interactive=False,
	elem_classes="textbox"
	)

	# باکس 3: متن ناشناس‌شده (چپ)
	with gr.Column(scale=1):
	anonymized_text = gr.Textbox(
	lines=12,
	label="🔒 متن ناشناس‌شده",
	interactive=False,
	elem_classes="textbox"
	)

	# ============================================
	# پایین: جدول نگاشت (Markdown)
	# ============================================
	gr.Markdown("---")

	mapping_table = gr.Markdown(
	value="### 📋 جدول نگاشت\n\nهنوز پردازشی انجام نشده",
	label="📋 جدول نگاشت",
	elem_classes="input-box"
	)

	# ============================================
	# Event Handlers
	# ============================================
	process_btn.click(
	fn=process,
	inputs=[input_text, analysis_prompt],
	outputs=[restored_text, gpt_analysis, anonymized_text, mapping_table]
	)

	clear_btn.click(
	fn=clear_all,
	outputs=[input_text, analysis_prompt, restored_text, gpt_analysis, anonymized_text, mapping_table]
	)

	if __name__ == "__main__":
	print("=" * 70)
	print("🚀 سیستم ناشناس‌سازی متون در حال راه‌اندازی...")
	print("=" * 70)
	print("\n📋 نحوه استفاده:\n")
	print("1. CEREBRAS_API_KEY و OPENAI_API_KEY را تنظیم کنید")
	print("2. http://localhost:7860 را باز کنید")
	print("3. متن را وارد کنید")
	print("4. 'پردازش' را کلیک کنید\n")
	print("روش استفاده شده: Cerebras (Llama 3.3-70B)")
	print("=" * 70 + "\n")

	app.launch(
	server_name="0.0.0.0",
	server_port=7860,
	share=False,
	show_error=True
	)