Spaces:
Runtime error
Runtime error
Commit ·
0d5c6ec
1
Parent(s): b1e68da
Update app.py
Browse files
app.py
CHANGED
|
@@ -16,8 +16,8 @@ from PIL import Image
|
|
| 16 |
|
| 17 |
#print('HOLA:', os.walk('../'))
|
| 18 |
|
| 19 |
-
pytesseract.pytesseract.tesseract_cmd = r"./lib/Tesseract-OCR/tesseract.exe"
|
| 20 |
-
path_to_poppler_exe = r"./lib/poppler-0.68.0/bin"
|
| 21 |
|
| 22 |
def ocrtotext(filename):
|
| 23 |
# Almacena todas las páginas del PDF en una variable
|
|
@@ -26,7 +26,8 @@ def ocrtotext(filename):
|
|
| 26 |
text_file = (f'{filename}.txt') # Nombre del archivo de texto de salida
|
| 27 |
|
| 28 |
# Parte #1: Convirtiendo el PDF a imágenes
|
| 29 |
-
pdf_pages = convert_from_path(PDF_file, 300, poppler_path=path_to_poppler_exe)
|
|
|
|
| 30 |
# Lee el archivo PDF a 300 DPI
|
| 31 |
|
| 32 |
# Itera a través de todas las páginas almacenadas arriba
|
|
|
|
| 16 |
|
| 17 |
#print('HOLA:', os.walk('../'))
|
| 18 |
|
| 19 |
+
#pytesseract.pytesseract.tesseract_cmd = r"./lib/Tesseract-OCR/tesseract.exe"
|
| 20 |
+
#path_to_poppler_exe = r"./lib/poppler-0.68.0/bin"
|
| 21 |
|
| 22 |
def ocrtotext(filename):
|
| 23 |
# Almacena todas las páginas del PDF en una variable
|
|
|
|
| 26 |
text_file = (f'{filename}.txt') # Nombre del archivo de texto de salida
|
| 27 |
|
| 28 |
# Parte #1: Convirtiendo el PDF a imágenes
|
| 29 |
+
#pdf_pages = convert_from_path(PDF_file, 300, poppler_path=path_to_poppler_exe)
|
| 30 |
+
pdf_pages = convert_from_path(PDF_file, 300)
|
| 31 |
# Lee el archivo PDF a 300 DPI
|
| 32 |
|
| 33 |
# Itera a través de todas las páginas almacenadas arriba
|