Spaces:

DrAbdulmalek
/

OmniFile-Processor

Running

OmniFile-Processor / scripts /benchmark_kitab.py

Dr. Abdulmalek

deploy: OmniFile AI Processor v4.3.0

900df0b 7 days ago

6.32 kB

	#!/usr/bin/env python3
	"""
	scripts/benchmark_kitab.py
	═══════════════════════════
	تقييم محركات OCR على مجموعة بيانات KITAB-Bench.
	المرجع: suggestions/projects_formatted/KITAB-Bench.txt

	الاستخدام:
	python scripts/benchmark_kitab.py --images /path/to/images --refs /path/to/refs
	python scripts/benchmark_kitab.py --demo # وضع تجريبي بصور مُنشأة تلقائياً

	المخرجات:
	- تقرير CER/WER لكل محرك
	- مقارنة جانبية بين المحركات
	- ملف JSON بالنتائج الكاملة
	"""

	import argparse
	import json
	import os
	import sys
	import time
	import logging
	from pathlib import Path
	from datetime import datetime

	logging.basicConfig(level=logging.INFO, format="%(asctime)s [%(levelname)s] %(message)s")
	logger = logging.getLogger("KITAB-Bench")

	sys.path.insert(0, str(Path(__file__).parent.parent))


	def compute_cer(ref: str, hyp: str) -> float:
	"""Character Error Rate."""
	if not ref:
	return 0.0
	import difflib
	ops = difflib.SequenceMatcher(None, ref, hyp).get_opcodes()
	errors = sum(max(e2-e1, e4-e3) for op, e1, e2, e3, e4 in ops if op != "equal")
	return errors / len(ref)


	def compute_wer(ref: str, hyp: str) -> float:
	"""Word Error Rate."""
	r, h = ref.split(), hyp.split()
	if not r:
	return 0.0
	import difflib
	ops = difflib.SequenceMatcher(None, r, h).get_opcodes()
	errors = sum(max(e2-e1, e4-e3) for op, e1, e2, e3, e4 in ops if op != "equal")
	return errors / len(r)


	def run_ocr_engine(engine_name: str, image_path: str) -> tuple[str, float]:
	"""تشغيل محرك OCR وإرجاع النص + الوقت."""
	start = time.time()
	text = ""
	try:
	if engine_name == "tesseract":
	import pytesseract
	from PIL import Image
	text = pytesseract.image_to_string(Image.open(image_path), lang="ara+eng")
	elif engine_name == "easyocr":
	import easyocr
	reader = easyocr.Reader(["ar","en"], gpu=False, verbose=False)
	results = reader.readtext(image_path)
	text = " ".join(r[1] for r in results)
	elif engine_name == "omnifile":
	from modules.vision.ocr_engine import OCREngine
	engine = OCREngine()
	result = engine.process(image_path)
	text = getattr(result, "text", str(result))
	except Exception as e:
	logger.warning(f"{engine_name}: {e}")
	return text, time.time() - start


	def benchmark(images_dir: str, refs_dir: str, engines: list[str]) -> dict:
	"""تشغيل المعيار على مجموعة البيانات."""
	results = {eng: {"cer": [], "wer": [], "times": []} for eng in engines}
	image_files = sorted(Path(images_dir).glob("*.{jpg,jpeg,png,tif,tiff}"))
	if not image_files:
	# glob workaround
	for ext in ["jpg","jpeg","png","tif","tiff"]:
	image_files.extend(Path(images_dir).glob(f"*.{ext}"))
	image_files = sorted(set(image_files))

	logger.info(f"Found {len(image_files)} images")

	for img_path in image_files:
	ref_path = Path(refs_dir) / (img_path.stem + ".txt")
	if not ref_path.exists():
	continue
	ref_text = ref_path.read_text(encoding="utf-8").strip()

	for engine in engines:
	hyp_text, elapsed = run_ocr_engine(engine, str(img_path))
	cer = compute_cer(ref_text, hyp_text.strip())
	wer = compute_wer(ref_text, hyp_text.strip())
	results[engine]["cer"].append(cer)
	results[engine]["wer"].append(wer)
	results[engine]["times"].append(elapsed)
	logger.info(f" {engine}: CER={cer:.3f} WER={wer:.3f} t={elapsed:.1f}s")

	# Summary
	summary = {}
	for eng, data in results.items():
	if data["cer"]:
	summary[eng] = {
	"avg_cer": round(sum(data["cer"])/len(data["cer"]), 4),
	"avg_wer": round(sum(data["wer"])/len(data["wer"]), 4),
	"avg_time_s": round(sum(data["times"])/len(data["times"]), 2),
	"samples": len(data["cer"]),
	}
	return summary


	def print_report(summary: dict) -> None:
	"""طباعة تقرير منسّق."""
	print("\n" + "═"*65)
	print(" KITAB-Bench — تقرير أداء محركات OCR")
	print("═"*65)
	print(f" {'المحرك':<15} {'CER↓':>8} {'WER↓':>8} {'الوقت':>10} {'العينات':>8}")
	print("─"*65)
	for eng, s in sorted(summary.items(), key=lambda x: x[1]["avg_cer"]):
	grade = "A" if s["avg_cer"]<0.05 else "B" if s["avg_cer"]<0.10 else "C" if s["avg_cer"]<0.20 else "F"
	print(f" {eng:<15} {s['avg_cer']:>8.3f} {s['avg_wer']:>8.3f} {s['avg_time_s']:>9.1f}s {s['samples']:>8} [{grade}]")
	print("═"*65)


	if __name__ == "__main__":
	parser = argparse.ArgumentParser(description="KITAB-Bench OCR Evaluator")
	parser.add_argument("--images", default="data/kitab_bench/images")
	parser.add_argument("--refs", default="data/kitab_bench/ground_truth")
	parser.add_argument("--engines", nargs="+", default=["tesseract","easyocr","omnifile"])
	parser.add_argument("--output", default="data/kitab_bench_results.json")
	parser.add_argument("--demo", action="store_true", help="وضع تجريبي")
	args = parser.parse_args()

	if args.demo:
	print("وضع تجريبي — نتائج افتراضية:")
	demo = {
	"omnifile": {"avg_cer":0.042, "avg_wer":0.089, "avg_time_s":1.2, "samples":20},
	"easyocr": {"avg_cer":0.071, "avg_wer":0.143, "avg_time_s":2.1, "samples":20},
	"tesseract": {"avg_cer":0.118, "avg_wer":0.223, "avg_time_s":0.4, "samples":20},
	}
	print_report(demo)
	else:
	summary = benchmark(args.images, args.refs, args.engines)
	print_report(summary)
	Path(args.output).parent.mkdir(parents=True, exist_ok=True)
	with open(args.output, "w", encoding="utf-8") as f:
	json.dump({"timestamp": datetime.now().isoformat(), "results": summary}, f,
	ensure_ascii=False, indent=2)
	logger.info(f"النتائج محفوظة: {args.output}")