Spaces:

Overglitch
/

document-summarizer

Sleeping

App Files Files Community

Overglitch commited on Dec 14, 2024

Commit

03e00e5

verified ·

1 Parent(s): 287692a

Update modules/preprocessing.py

Browse files

Files changed (1) hide show

modules/preprocessing.py +21 -8

modules/preprocessing.py CHANGED Viewed

@@ -100,42 +100,55 @@ class PDFProcessor:
     def pdf_to_text(self, pdf_path):
         """
         Convierte un archivo PDF a texto usando OCR.
-        Si el archivo no está en disco, lo guarda temporalmente.
         """
         # Asegurarse de que el archivo está disponible temporalmente
         temp_dir = Path("temp")
         temp_dir.mkdir(exist_ok=True)
         # Manejar el archivo temporalmente
         temp_file_path = temp_dir / Path(pdf_path).name
         if not temp_file_path.exists():
             shutil.copy(pdf_path, temp_file_path)
         try:
             # 1) Cargar el PDF
             doc = DocumentFile.from_pdf(temp_file_path)
             # 2) Limitar el número de páginas si es necesario
             if len(doc.pages) > self.max_pages:
                 doc.pages = doc.pages[:self.max_pages]
             # 3) Aplicar el modelo OCR al documento
             ocr_result = self.ocr_model(doc)
             # 4) Extraer texto de cada bloque
             text_pages = []
             for page in ocr_result.pages:
                 for block in page.blocks:
                     text_pages.append(block.text)
             # 5) Unir todo el texto y devolverlo
             return "\n".join(text_pages)
         finally:
             # Limpiar el archivo temporal después del procesamiento
             if temp_file_path.exists():
                 temp_file_path.unlink()
     @staticmethod
     def clear_temp_directory():
         """Limpia todos los archivos en el directorio temporal."""

     def pdf_to_text(self, pdf_path):
         """
         Convierte un archivo PDF a texto usando OCR.
+        Si el archivo no es válido o está corrupto, maneja la excepción.
         """
         # Asegurarse de que el archivo está disponible temporalmente
         temp_dir = Path("temp")
         temp_dir.mkdir(exist_ok=True)
         # Manejar el archivo temporalmente
         temp_file_path = temp_dir / Path(pdf_path).name
         if not temp_file_path.exists():
             shutil.copy(pdf_path, temp_file_path)
         try:
             # 1) Cargar el PDF
             doc = DocumentFile.from_pdf(temp_file_path)
+            # Verificar si el documento tiene páginas válidas
+            if not hasattr(doc, "pages") or not doc.pages:
+                raise ValueError("El archivo no contiene páginas procesables.")
             # 2) Limitar el número de páginas si es necesario
             if len(doc.pages) > self.max_pages:
                 doc.pages = doc.pages[:self.max_pages]
             # 3) Aplicar el modelo OCR al documento
             ocr_result = self.ocr_model(doc)
             # 4) Extraer texto de cada bloque
             text_pages = []
             for page in ocr_result.pages:
                 for block in page.blocks:
                     text_pages.append(block.text)
             # 5) Unir todo el texto y devolverlo
             return "\n".join(text_pages)
+        except ValueError as ve:
+            print(f"Error al procesar el archivo PDF: {ve}")
+            return "El archivo PDF no es válido o está corrupto."
+        except Exception as e:
+            print(f"Error inesperado al procesar el PDF: {e}")
+            return "Ocurrió un error inesperado al procesar el archivo."
         finally:
             # Limpiar el archivo temporal después del procesamiento
             if temp_file_path.exists():
                 temp_file_path.unlink()
     @staticmethod
     def clear_temp_directory():
         """Limpia todos los archivos en el directorio temporal."""