Spaces:

DrAbdulmalek
/

OmniFile-Processor

Sleeping

OmniFile-Processor / modules /security /file_scanner.py

Dr. Abdulmalek

deploy: OmniFile AI Processor v4.3.0

900df0b 19 days ago

25.8 kB

	"""
	ماسح أمان الملفات (File Security Scanner)
	============================================
	يفحص الملفات بحثاً عن بيانات حساسة وأنماط أمنية مشبوهة.

	القدرات:
	- كشف أنماط البيانات الحساسة (كلمات مرور، مفاتيح API، رموز، بريد إلكتروني)
	- تصنيف النتائج حسب الخطورة (منخفض، متوسط، عالٍ، حرج)
	- فحص ملفات فردية أو مجلدات كاملة
	- تجاهل الملفات حسب أنماط .gitignore
	- دعم أنماط مخصصة
	- عرض آمن للتقارير
	"""

	import fnmatch
	import logging
	import re
	from pathlib import Path
	from typing import Optional

	logger = logging.getLogger(__name__)


	class FileScanner:
	"""
	ماسح أمان الملفات — يفحص الملفات بحثاً عن بيانات حساسة.

	الاستخدام:
	scanner = FileScanner()
	report = scanner.scan_file("config.py")
	report = scanner.scan_directory("/path/to/project")
	"""

	# ======== أنماط الفحص الافتراضية ========
	DEFAULT_PATTERNS: list[dict[str, str]] = [
	# === CRITICAL: مفاتيح ومصادقة ===
	{
	"name": "AWS Access Key",
	"pattern": r"(?:AKIA\|ABIA\|ACCA\|ASIA)[0-9A-Z]{16}",
	"severity": "critical",
	"description": "مفتاح وصول AWS",
	},
	{
	"name": "AWS Secret Key",
	"pattern": r"(?i)aws[_\-]?secret[_\-]?(?:access[_\-]?)?key\s[=:]\s['\"]?([A-Za-z0-9/+=]{40})['\"]?",
	"severity": "critical",
	"description": "مفتاح سري AWS",
	},
	{
	"name": "Private Key (RSA/DSA/EC)",
	"pattern": r"-----BEGIN (?:RSA \|DSA \|EC \|OPENSSH )?PRIVATE KEY-----",
	"severity": "critical",
	"description": "مفتاح خاص (RSA/DSA/EC)",
	},
	{
	"name": "SSH Private Key",
	"pattern": r"ssh-rsa\s+[A-Za-z0-9+/=]+",
	"severity": "critical",
	"description": "مفتاح SSH خاص",
	},
	{
	"name": "Google API Key",
	"pattern": r"(?:AIza)[0-9A-Za-z\-_]{35}",
	"severity": "critical",
	"description": "مفتاح Google API",
	},
	{
	"name": "GitHub Token",
	"pattern": r"(?:ghp\|gho\|ghu\|ghs\|ghr)_[A-Za-z0-9_]{36,255}",
	"severity": "critical",
	"description": "رمز GitHub",
	},
	{
	"name": "Slack Token",
	"pattern": r"xox[bpors]-[A-Za-z0-9\-]{10,}",
	"severity": "critical",
	"description": "رمز Slack",
	},
	{
	"name": "Stripe API Key",
	"pattern": r"(?:sk\|pk)_(?:test\|live)_[A-Za-z0-9]{24,}",
	"severity": "critical",
	"description": "مفتاح Stripe API",
	},
	{
	"name": "JWT Token",
	"pattern": r"eyJ[A-Za-z0-9\-_]+\.eyJ[A-Za-z0-9\-_]+\.[A-Za-z0-9\-_]+",
	"severity": "critical",
	"description": "رمز JWT",
	},

	# === HIGH: كلمات مرور وبيانات حساسة ===
	{
	"name": "Password Assignment",
	"pattern": r"(?i)(?:password\|passwd\|pwd)\s[=:]\s['\"]([^'\"]{4,})['\"]",
	"severity": "high",
	"description": "كلمة مرور صريحة في الكود",
	},
	{
	"name": "Database Connection String",
	"pattern": r"(?i)(?:mongodb\|postgres\|mysql\|redis\|amqp)://[^\s'\"]+:[^\s'\"]+@[^\s'\"]+",
	"severity": "high",
	"description": "سلسلة اتصال قاعدة بيانات",
	},
	{
	"name": "API Key in URL",
	"pattern": r"(?i)api[_\-]?key\s=\s[A-Za-z0-9\-_]{20,}",
	"severity": "high",
	"description": "مفتاح API في رابط",
	},
	{
	"name": "Authorization Header",
	"pattern": r"(?i)Authorization\s:\s(?:Bearer\|Basic\|Token)\s+[A-Za-z0-9\-._~+/]+=*",
	"severity": "high",
	"description": "رأس مصادقة صريح",
	},
	{
	"name": "Secret/Token Assignment",
	"pattern": r"(?i)(?:secret\|token\|auth[_\-]?token\|access[_\-]?token)\s[=:]\s['\"]([A-Za-z0-9\-_\.]{20,})['\"]",
	"severity": "high",
	"description": "سر أو رمز صريح",
	},

	# === MEDIUM: بيانات شخصية ومعلومات ===
	{
	"name": "Email Address",
	"pattern": r"[a-zA-Z0-9._%+\-]+@[a-zA-Z0-9.\-]+\.[a-zA-Z]{2,}",
	"severity": "medium",
	"description": "عنوان بريد إلكتروني",
	},
	{
	"name": "Phone Number (International)",
	"pattern": r"(?:\+\|00)[\d\s\-]{8,15}",
	"severity": "medium",
	"description": "رقم هاتف دولي",
	},
	{
	"name": "IP Address",
	"pattern": r"\b(?:\d{1,3}\.){3}\d{1,3}\b",
	"severity": "medium",
	"description": "عنوان IP",
	},
	{
	"name": "Internal URL",
	"pattern": r"(?i)(?:https?://)(?:localhost\|127\.0\.0\.1\|10\.\d+\.\d+\.\d+\|172\.(?:1[6-9]\|2\d\|3[01])\.\d+\.\d+\|192\.168\.\d+\.\d+)",
	"severity": "medium",
	"description": "رابط داخلي (localhost/شبكة داخلية)",
	},

	# === LOW: معلومات عامة ===
	{
	"name": "URL",
	"pattern": r"https?://[^\s<>\"]+",
	"severity": "low",
	"description": "رابط URL",
	},
	{
	"name": "Credit Card (Basic)",
	"pattern": r"\b(?:\d[ \-]*?){13,19}\b",
	"severity": "low",
	"description": "رقم بطاقة ائتمان (محتمل)",
	},
	]

	# ======== الامتدادات التي لا يتم فحصها ========
	SKIP_EXTENSIONS: set[str] = {
	".png", ".jpg", ".jpeg", ".gif", ".bmp", ".tiff", ".tif",
	".webp", ".ico", ".svg", ".heic", ".heif", ".avif", ".jxl",
	".mp3", ".mp4", ".avi", ".mov", ".mkv", ".flv", ".wmv",
	".wav", ".ogg", ".flac", ".aac",
	".zip", ".tar", ".gz", ".bz2", ".xz", ".7z", ".rar",
	".exe", ".dll", ".so", ".dylib", ".bin",
	".pyc", ".pyo", ".class", ".o", ".obj",
	".woff", ".woff2", ".ttf", ".otf", ".eot",
	}

	# ======== المجلدات التي لا يتم فحصها ========
	SKIP_DIRECTORIES: set[str] = {
	"__pycache__", ".git", ".svn", ".hg", "node_modules",
	".tox", ".venv", "venv", "env", ".env",
	".mypy_cache", ".pytest_cache", ".ruff_cache",
	"dist", "build", ".eggs", "*.egg-info",
	}

	def __init__(
	self,
	custom_patterns: Optional[list[dict[str, str]]] = None,
	min_severity: str = "low",
	max_file_size: int = 10 * 1024 * 1024, # 10 ميغابايت
	ignore_patterns: Optional[list[str]] = None,
	) -> None:
	"""
	تهيئة ماسح الأمان.

	المعاملات:
	custom_patterns: أنماط مخصصة إضافية
	min_severity: أدنى مستوى خطورة يتم الإبلاغ عنه
	max_file_size: أقصى حجم ملف (بايت) للفحص
	ignore_patterns: أنماط glob لتجاهل الملفات (مثل .gitignore)
	"""
	severity_order = {"low": 0, "medium": 1, "high": 2, "critical": 3}
	if min_severity not in severity_order:
	raise ValueError(f"مستوى خطورة غير صالح: {min_severity}")

	self.min_severity: str = min_severity
	self.max_file_size: int = max_file_size
	self.ignore_patterns: list[str] = ignore_patterns or []

	# دمج الأنماط
	self.patterns: list[dict[str, str]] = list(self.DEFAULT_PATTERNS)
	if custom_patterns:
	self.patterns.extend(custom_patterns)

	# تجميع الأنماط في كائنات regex مجمّعة
	self._compiled_patterns: list[dict] = []
	for pat_info in self.patterns:
	try:
	compiled = re.compile(pat_info["pattern"])
	self._compiled_patterns.append({
	"name": pat_info["name"],
	"pattern": compiled,
	"severity": pat_info.get("severity", "medium"),
	"description": pat_info.get("description", ""),
	})
	except re.error as exc:
	logger.warning("نمط regex غير صالح '%s': %s", pat_info["name"], exc)

	# تحميل أنماط .gitignore إذا وُجدت
	self._gitignore_patterns: list[str] = []
	if not self.ignore_patterns:
	self._load_gitignore()

	logger.info(
	"تم تهيئة ماسح الأمان — الأنماط: %d \| الحد الأدنى للخطورة: %s",
	len(self._compiled_patterns), min_severity,
	)

	# ===================================================================
	# تحميل .gitignore
	# ===================================================================

	def _load_gitignore(self, directory: Optional[Path] = None) -> None:
	"""
	يحمل أنماط التجاهل من ملف .gitignore.

	المعاملات:
	directory: المجلد الذي يحتوي على .gitignore
	"""
	search_dirs = [directory] if directory else [Path.cwd()]
	if not any(search_dirs):
	return

	for d in search_dirs:
	gitignore_path = d / ".gitignore"
	if gitignore_path.is_file():
	try:
	content = gitignore_path.read_text(encoding="utf-8", errors="ignore")
	patterns = [
	line.strip()
	for line in content.splitlines()
	if line.strip() and not line.strip().startswith("#")
	]
	self._gitignore_patterns.extend(patterns)
	self.ignore_patterns.extend(patterns)
	logger.info("تم تحميل %d نمط من .gitignore", len(patterns))
	except PermissionError:
	logger.warning("لا صلاحية لقراءة .gitignore")

	def _should_ignore(self, file_path: Path, base_dir: Path) -> bool:
	"""
	يتحقق مما إذا كان يجب تجاهل الملف.

	المعاملات:
	file_path: مسار الملف
	base_dir: المجلد الأساسي

	المعاد:
	True إذا كان يجب تجاهل الملف
	"""
	rel_path = file_path.relative_to(base_dir)

	# فحص المجلدات الممنوعة
	for part in rel_path.parts:
	for skip_dir in self.SKIP_DIRECTORIES:
	if fnmatch.fnmatch(part, skip_dir):
	return True

	# فحص الامتدادات الممنوعة
	if file_path.suffix.lower() in self.SKIP_EXTENSIONS:
	return True

	# فحص أنماط .gitignore
	for pattern in self.ignore_patterns:
	try:
	if fnmatch.fnmatch(str(rel_path), pattern):
	return True
	if fnmatch.fnmatch(rel_path.name, pattern):
	return True
	except Exception:
	continue

	# فحص حجم الملف
	try:
	if file_path.stat().st_size > self.max_file_size:
	logger.debug("تجاهل %s (حجم كبير: %d)", file_path.name, file_path.stat().st_size)
	return True
	except OSError:
	pass

	return False

	# ===================================================================
	# فحص ملف واحد
	# ===================================================================

	def scan_file(self, file_path: str \| Path) -> dict:
	"""
	يفحص ملفاً واحداً بحثاً عن بيانات حساسة.

	المعاملات:
	file_path: مسار الملف

	المعاد:
	تقرير الفحص:
	{
	"file": str,
	"size": int,
	"findings": [
	{
	"type": str,
	"severity": str,
	"description": str,
	"line": int,
	"column": int,
	"match": str,
	"context": str,
	}, ...
	],
	"summary": {
	"critical": int,
	"high": int,
	"medium": int,
	"low": int,
	},
	"status": "clean" \| "issues_found" \| "error"
	}
	"""
	path = Path(file_path)
	severity_order = {"low": 0, "medium": 1, "high": 2, "critical": 3}
	min_level = severity_order[self.min_severity]

	report: dict = {
	"file": str(path.resolve()),
	"size": 0,
	"findings": [],
	"summary": {"critical": 0, "high": 0, "medium": 0, "low": 0},
	"status": "clean",
	}

	# التحقق من وجود الملف
	if not path.is_file():
	logger.warning("الملف غير موجود: %s", path)
	report["status"] = "error"
	report["error"] = "الملف غير موجود"
	return report

	# قراءة الملف
	try:
	file_size = path.stat().st_size
	report["size"] = file_size
	except PermissionError as exc:
	logger.warning("لا صلاحية لقراءة: %s", path)
	report["status"] = "error"
	report["error"] = f"لا صلاحية: {exc}"
	return report
	except OSError as exc:
	logger.warning("خطأ في الملف %s: %s", path, exc)
	report["status"] = "error"
	report["error"] = f"خطأ: {exc}"
	return report

	try:
	content = path.read_text(encoding="utf-8", errors="ignore")
	except PermissionError as exc:
	report["status"] = "error"
	report["error"] = f"لا صلاحية للقراءة: {exc}"
	return report
	except OSError as exc:
	report["status"] = "error"
	report["error"] = f"خطأ أثناء القراءة: {exc}"
	return report

	lines = content.splitlines()

	# فحص كل سطر بكل نمط
	for line_num, line in enumerate(lines, 1):
	for pat_info in self._compiled_patterns:
	pattern_severity = severity_order.get(pat_info["severity"], 0)
	if pattern_severity < min_level:
	continue

	match = pat_info["pattern"].search(line)
	if match:
	finding = {
	"type": pat_info["name"],
	"severity": pat_info["severity"],
	"description": pat_info["description"],
	"line": line_num,
	"column": match.start() + 1,
	"match": match.group(),
	"context": self._extract_context(line, match.start(), match.end()),
	}
	report["findings"].append(finding)
	report["summary"][pat_info["severity"]] += 1

	# تحديد الحالة
	total_findings = sum(report["summary"].values())
	report["status"] = "issues_found" if total_findings > 0 else "clean"

	if total_findings > 0:
	logger.warning(
	"تم اكتشاف %d مشكلة أمنية في %s",
	total_findings, path.name,
	)
	else:
	logger.debug("الملف آمن: %s", path.name)

	return report

	def _extract_context(self, line: str, start: int, end: int, context_chars: int = 30) -> str:
	"""
	يستخرج السياق المحيط بالنتيجة المطابقة.

	المعاملات:
	line: السطر الكامل
	start: بداية المطابقة
	end: نهاية المطابقة
	context_chars: عدد الأحرف في كل اتجاه

	المعاد:
	النص مع السياق المحيط (القيم الحساسة تُحجب)
	"""
	ctx_start = max(0, start - context_chars)
	ctx_end = min(len(line), end + context_chars)

	before = line[ctx_start:start]
	matched = line[start:end]
	after = line[end:ctx_end]

	# حجب القيمة الحساسة — إظهار أول 4 أحرف فقط
	if len(matched) > 8:
	masked = matched[:4] + "****"
	else:
	masked = matched[:2] + "****"

	return f"...{before}{masked}{after}..."

	# ===================================================================
	# فحص مجلد
	# ===================================================================

	def scan_directory(self, directory: str \| Path) -> dict:
	"""
	يفحص جميع الملفات في مجلد ومجلداته الفرعية.

	المعاملات:
	directory: مسار المجلد

	المعاد:
	تقرير شامل:
	{
	"directory": str,
	"total_files_scanned": int,
	"files_with_issues": int,
	"total_findings": int,
	"summary": {...},
	"file_reports": [report, ...],
	"top_issues": [finding, ...],
	}
	"""
	dir_path = Path(directory).resolve()

	if not dir_path.is_dir():
	raise FileNotFoundError(f"المجلد غير موجود: {dir_path}")

	# تحميل .gitignore من المجلد
	self._load_gitignore(dir_path)

	report: dict = {
	"directory": str(dir_path),
	"total_files_scanned": 0,
	"files_with_issues": 0,
	"total_findings": 0,
	"summary": {"critical": 0, "high": 0, "medium": 0, "low": 0},
	"file_reports": [],
	"top_issues": [],
	}

	logger.info("بدء فحص المجلد: %s", dir_path)

	# جمع الملفات
	try:
	all_files = sorted([
	f for f in dir_path.rglob("*")
	if f.is_file() and not self._should_ignore(f, dir_path)
	])
	except PermissionError as exc:
	logger.error("لا صلاحية لقراءة المجلد: %s", exc)
	raise

	report["total_files_scanned"] = len(all_files)

	# فحص كل ملف
	for file_path in all_files:
	try:
	file_report = self.scan_file(file_path)
	report["file_reports"].append(file_report)

	if file_report["status"] == "issues_found":
	report["files_with_issues"] += 1
	report["total_findings"] += len(file_report["findings"])

	for sev in ("critical", "high", "medium", "low"):
	report["summary"][sev] += file_report["summary"][sev]

	# إضافة إلى أعلى المشاكل
	for finding in file_report["findings"]:
	if finding["severity"] in ("critical", "high"):
	report["top_issues"].append({
	"file": file_report["file"],
	**finding,
	})

	except Exception as exc:
	logger.error("خطأ أثناء فحص %s: %s", file_path, exc)

	# ترتيب أعلى المشاكل حسب الخطورة
	severity_order = {"critical": 0, "high": 1, "medium": 2, "low": 3}
	report["top_issues"].sort(
	key=lambda x: severity_order.get(x["severity"], 4)
	)

	# الحد الأقصى لعرض أعلى المشاكل
	report["top_issues"] = report["top_issues"][:50]

	logger.info(
	"اكتمل فحص المجلد — ملفات: %d \| مشاكل: %d \| حرجة: %d \| عالية: %d",
	report["total_files_scanned"],
	report["total_findings"],
	report["summary"]["critical"],
	report["summary"]["high"],
	)

	return report

	# ===================================================================
	# عرض آمن للتقرير
	# ===================================================================

	def sanitize_report(self, report: dict) -> dict:
	"""
	ينظّف التقرير لإخفاء القيم الحساسة قبل العرض.

	المعاملات:
	report: تقرير الفحص (ملف أو مجلد)

	المعاد:
	تقرير منقّح مع حجب القيم الحساسة
	"""
	import copy
	safe_report = copy.deepcopy(report)

	# تنظيف نتائج الملفات
	if "findings" in safe_report:
	for finding in safe_report["findings"]:
	match = finding.get("match", "")
	if len(match) > 8:
	finding["match"] = match[:4] + "****"
	else:
	finding["match"] = match[:2] + "****"

	# حجب السياق
	if "context" in finding:
	finding["context"] = self._sanitize_context(finding["context"])

	# تنظيف تقارير الملفات الفرعية
	if "file_reports" in safe_report:
	for file_report in safe_report["file_reports"]:
	if "findings" in file_report:
	for finding in file_report["findings"]:
	match = finding.get("match", "")
	if len(match) > 8:
	finding["match"] = match[:4] + "****"
	else:
	finding["match"] = match[:2] + "****"
	if "context" in finding:
	finding["context"] = self._sanitize_context(finding["context"])

	logger.debug("تم تنظيف التقرير لإخفاء القيم الحساسة")
	return safe_report

	def _sanitize_context(self, context: str, max_reveal: int = 3) -> str:
	"""
	يحجب الأجزاء الحساسة من السياق.

	المعاملات:
	context: النص الأصلي
	max_reveal: أقصى عدد أحرف مكشوفة

	المعاد:
	النص المنظّف
	"""
	# إبقاء أول 3 أحرف فقط من كل كلمة طويلة
	words = context.split()
	sanitized = []
	for word in words:
	if len(word) > 8:
	sanitized.append(word[:max_reveal] + "****")
	else:
	sanitized.append(word)
	return " ".join(sanitized)

	# ===================================================================
	# أدوات مساعدة
	# ===================================================================

	def add_pattern(
	self,
	name: str,
	pattern: str,
	severity: str = "medium",
	description: str = "",
	) -> None:
	"""
	يضيف نمط فحص مخصص.

	المعاملات:
	name: اسم النمط
	pattern: تعبير regex
	severity: مستوى الخطورة
	description: وصف مختصر
	"""
	try:
	compiled = re.compile(pattern)
	self._compiled_patterns.append({
	"name": name,
	"pattern": compiled,
	"severity": severity,
	"description": description,
	})
	logger.info("تم إضافة نمط مخصص: %s (الخطورة: %s)", name, severity)
	except re.error as exc:
	logger.error("نمط regex غير صالح: %s — %s", name, exc)
	raise ValueError(f"نمط regex غير صالح: {exc}") from exc

	def remove_pattern(self, name: str) -> bool:
	"""
	يزيل نمط فحص بالاسم.

	المعاملات:
	name: اسم النمط

	المعاد:
	True إذا تم الحذف، False إذا لم يُعثر عليه
	"""
	original_len = len(self._compiled_patterns)
	self._compiled_patterns = [
	p for p in self._compiled_patterns if p["name"] != name
	]
	removed = len(self._compiled_patterns) < original_len
	if removed:
	logger.info("تم إزالة النمط: %s", name)
	return removed

	def get_patterns(self) -> list[dict[str, str]]:
	"""
	يعرض قائمة بجميع أنماط الفحص النشطة.

	المعاد:
	قائمة بالأنماط مع معلوماتها
	"""
	return [
	{
	"name": p["name"],
	"severity": p["severity"],
	"description": p["description"],
	"pattern": p["pattern"].pattern,
	}
	for p in self._compiled_patterns
	]