DoAn / core /preprocessing /pdf_parser.py
hungnha's picture
change commit
b91b0a5
raw
history blame contribute delete
906 Bytes
from docling_processor import DoclingProcessor
# Cấu hình đường dẫn
PDF_FILE = "" # File đơn lẻ (để trống nếu muốn parse cả thư mục)
SOURCE_DIR = "data/data_raw" # Thư mục chứa PDFs
OUTPUT_DIR = "data" # Thư mục xuất Markdown
USE_OCR = False # Bật OCR cho PDF scan
if __name__ == "__main__":
processor = DoclingProcessor(OUTPUT_DIR, use_ocr=USE_OCR)
if PDF_FILE:
# Parse 1 file đơn lẻ
print(f"Đang xử lý: {PDF_FILE}")
result = processor.parse_document(PDF_FILE)
print("Xong!" if result else "Lỗi hoặc bỏ qua")
else:
# Parse cả thư mục
print(f"Đang xử lý thư mục: {SOURCE_DIR}")
r = processor.parse_directory(SOURCE_DIR)
print(f"Tổng: {r['total']} | Thành công: {r['parsed']} | Bỏ qua: {r['skipped']} | Lỗi: {r['errors']}")