Spaces:

Spanicin
/

pdfextraction

Paused

App Files Files Community

Spanicin commited on Feb 14, 2025

Commit

752b8f4

verified ·

1 Parent(s): 340e9ec

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -6

app.py CHANGED Viewed

@@ -25,12 +25,12 @@ CORS(app, resources={r"/*": {"origins": ["http://localhost:*", "https://play.dev
 process_status = {}
 process_results = {}
 app.config['file_path'] = None
 data_ready = False  # Flag to check if extraction is complete
 lock = threading.Lock()  # Lock to manage concurrent access
 extracted_texts = {}
-os.environ["HF_HOME"] = "/app/cache"
 ocr_tokenizer = AutoTokenizer.from_pretrained('ucaslcl/GOT-OCR2_0', trust_remote_code=True)
 ocr_model = AutoModel.from_pretrained(
     'ucaslcl/GOT-OCR2_0', trust_remote_code=True,
@@ -45,8 +45,8 @@ class DynamicTableExtractor:
     def __init__(self, pdf_bytes: bytes, output_folder: str):
         self.pdf_bytes = pdf_bytes
         self.images = convert_from_bytes(pdf_bytes)
-        self.output_folder = output_folder
-        os.makedirs(output_folder, exist_ok=True)
     def detect_lines(self, img_array):
         gray = cv2.cvtColor(img_array, cv2.COLOR_RGB2GRAY)
@@ -209,6 +209,7 @@ def extract_text_from_image(image_path):
     return ocr_model.chat(ocr_tokenizer, image_path, ocr_type='ocr')
 def save_text_pages_as_images(pdf_path, categorized_pages, output_dir="output_images"):
     os.makedirs(output_dir, exist_ok=True)
     text_only_pages = [page_num for page_num, category in categorized_pages.items() if category == "only text"]
     extracted_texts = {}
@@ -220,6 +221,8 @@ def save_text_pages_as_images(pdf_path, categorized_pages, output_dir="output_im
     return extracted_texts
 def extract_text_from_table_pages(pdf_path, categorized_pages, output_folder="extracted_tables"):
     extracted_texts = {}
     table_pages = [page_num for page_num, category in categorized_pages.items() if category in ["only table", "text & table"]]
     with open(pdf_path, "rb") as f:
@@ -278,7 +281,8 @@ def process_pdf(pdf_path, process_id):
     extracted_texts = save_text_pages_as_images(pdf_path, categorized_pages)
     table_texts = extract_text_from_table_pages(pdf_path, categorized_pages)
     extracted_texts.update(table_texts)
-    temp_file_path = tempfile.mktemp(suffix='.txt')
     filepath = save_extracted_text(extracted_texts, temp_file_path)  # Save extracted text to file
     app.config['file_path'] = filepath
     process_status[process_id] = "completed"
@@ -298,7 +302,9 @@ def upload_pdf():
         return jsonify({'error': 'No file provided'}), 400
     file = request.files['file']
-    pdf_path = os.path.join("uploads", file.filename)
     os.makedirs("uploads", exist_ok=True)
     file.save(pdf_path)
     process_id = str(uuid.uuid4())

 process_status = {}
 process_results = {}
 app.config['file_path'] = None
+TEMP_DIR = tempfile.mkdtemp()
 data_ready = False  # Flag to check if extraction is complete
 lock = threading.Lock()  # Lock to manage concurrent access
 extracted_texts = {}
+os.environ["HF_HOME"] = os.path.join(TEMP_DIR, "cache")  #"/app/cache"
 ocr_tokenizer = AutoTokenizer.from_pretrained('ucaslcl/GOT-OCR2_0', trust_remote_code=True)
 ocr_model = AutoModel.from_pretrained(
     'ucaslcl/GOT-OCR2_0', trust_remote_code=True,
     def __init__(self, pdf_bytes: bytes, output_folder: str):
         self.pdf_bytes = pdf_bytes
         self.images = convert_from_bytes(pdf_bytes)
+        self.output_folder = os.path.join(TEMP_DIR, output_folder)
+        os.makedirs(self.output_folder, exist_ok=True)
     def detect_lines(self, img_array):
         gray = cv2.cvtColor(img_array, cv2.COLOR_RGB2GRAY)
     return ocr_model.chat(ocr_tokenizer, image_path, ocr_type='ocr')
 def save_text_pages_as_images(pdf_path, categorized_pages, output_dir="output_images"):
+    output_dir = os.path.join(TEMP_DIR, output_dir)
     os.makedirs(output_dir, exist_ok=True)
     text_only_pages = [page_num for page_num, category in categorized_pages.items() if category == "only text"]
     extracted_texts = {}
     return extracted_texts
 def extract_text_from_table_pages(pdf_path, categorized_pages, output_folder="extracted_tables"):
+    output_folder = os.path.join(TEMP_DIR, output_folder)
+    os.makedirs(output_folder, exist_ok=True)
     extracted_texts = {}
     table_pages = [page_num for page_num, category in categorized_pages.items() if category in ["only table", "text & table"]]
     with open(pdf_path, "rb") as f:
     extracted_texts = save_text_pages_as_images(pdf_path, categorized_pages)
     table_texts = extract_text_from_table_pages(pdf_path, categorized_pages)
     extracted_texts.update(table_texts)
+    temp_file_path = os.path.join(TEMP_DIR, f"extracted_{process_id}.txt")
+    # temp_file_path = tempfile.mktemp(suffix='.txt')
     filepath = save_extracted_text(extracted_texts, temp_file_path)  # Save extracted text to file
     app.config['file_path'] = filepath
     process_status[process_id] = "completed"
         return jsonify({'error': 'No file provided'}), 400
     file = request.files['file']
+    pdf_path = os.path.join(TEMP_DIR, "uploads", file.filename)
+    os.makedirs(os.path.dirname(pdf_path), exist_ok=True)
+    # pdf_path = os.path.join("uploads", file.filename)
     os.makedirs("uploads", exist_ok=True)
     file.save(pdf_path)
     process_id = str(uuid.uuid4())