from docling_processor import DoclingProcessor # Cấu hình đường dẫn PDF_FILE = "" # File đơn lẻ (để trống nếu muốn parse cả thư mục) SOURCE_DIR = "data/data_raw" # Thư mục chứa PDFs OUTPUT_DIR = "data" # Thư mục xuất Markdown USE_OCR = False # Bật OCR cho PDF scan if __name__ == "__main__": processor = DoclingProcessor(OUTPUT_DIR, use_ocr=USE_OCR) if PDF_FILE: # Parse 1 file đơn lẻ print(f"Đang xử lý: {PDF_FILE}") result = processor.parse_document(PDF_FILE) print("Xong!" if result else "Lỗi hoặc bỏ qua") else: # Parse cả thư mục print(f"Đang xử lý thư mục: {SOURCE_DIR}") r = processor.parse_directory(SOURCE_DIR) print(f"Tổng: {r['total']} | Thành công: {r['parsed']} | Bỏ qua: {r['skipped']} | Lỗi: {r['errors']}")