hungnha
/

DoAn

Model card Files Files and versions

DoAn / core /preprocessing /pdf_parser.py

hungnha's picture

change commit

b91b0a5 18 days ago

history blame contribute delete

906 Bytes

	from docling_processor import DoclingProcessor

	# Cấu hình đường dẫn
	PDF_FILE = "" # File đơn lẻ (để trống nếu muốn parse cả thư mục)
	SOURCE_DIR = "data/data_raw" # Thư mục chứa PDFs
	OUTPUT_DIR = "data" # Thư mục xuất Markdown
	USE_OCR = False # Bật OCR cho PDF scan


	if __name__ == "__main__":
	processor = DoclingProcessor(OUTPUT_DIR, use_ocr=USE_OCR)

	if PDF_FILE:
	# Parse 1 file đơn lẻ
	print(f"Đang xử lý: {PDF_FILE}")
	result = processor.parse_document(PDF_FILE)
	print("Xong!" if result else "Lỗi hoặc bỏ qua")
	else:
	# Parse cả thư mục
	print(f"Đang xử lý thư mục: {SOURCE_DIR}")
	r = processor.parse_directory(SOURCE_DIR)
	print(f"Tổng: {r['total']} \| Thành công: {r['parsed']} \| Bỏ qua: {r['skipped']} \| Lỗi: {r['errors']}")