Spaces:

haryde
/

marker-pdf

Sleeping

App Files Files Community

marker-pdf / app.py

haryde

Update app.py

9e8b5e4 verified 8 months ago

raw

history blame contribute delete

6.88 kB

	import os
	import shutil
	import subprocess
	import requests
	import gradio as gr
	from urllib.parse import urlparse
	import time
	import re

	def sanear_nombre(nombre):
	nombre_base = os.path.splitext(nombre)[0]
	return re.sub(r"[^\w\-_.]", "_", nombre_base)

	def obtener_ruta_segura(base_dir, nombre_archivo):
	nombre_base = sanear_nombre(nombre_archivo)
	ruta_final = os.path.join(base_dir, nombre_base)
	contador = 1
	while os.path.exists(ruta_final + ".pdf"):
	ruta_final = os.path.join(base_dir, f"{nombre_base}_{contador}")
	contador += 1
	return ruta_final + ".pdf"

	def ejecutar_marker(cmd):
	result = subprocess.run(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True, timeout=900)
	return result

	def procesar_pdf(pdf_file=None, url_pdf=None, formatos=[], verbose="auto"):
	output_base = "./marker_output"
	os.makedirs(output_base, exist_ok=True)
	estado = ""

	try:
	subprocess.run(["marker_single", "--help"], stdout=subprocess.PIPE, stderr=subprocess.PIPE)
	except FileNotFoundError:
	yield "Error: el comando 'marker_single' no está disponible.\nVerifica que marker-pdf esté en requirements.txt", None, None
	return

	if not formatos:
	yield "Debes seleccionar al menos un formato de salida.", None, None
	return

	try:
	if url_pdf:
	parsed = urlparse(url_pdf)
	nombre_pdf = parsed.path.split("/")[-1] or "documento"
	ruta_pdf = obtener_ruta_segura(output_base, nombre_pdf)
	response = requests.get(url_pdf)
	if response.status_code != 200:
	yield "No se pudo descargar el PDF desde la URL proporcionada.", None, None
	return
	with open(ruta_pdf, "wb") as f:
	f.write(response.content)
	elif pdf_file:
	nombre_pdf = pdf_file.name or "documento"
	ruta_pdf = obtener_ruta_segura(output_base, nombre_pdf)
	shutil.copyfile(pdf_file.name, ruta_pdf)
	else:
	yield "No se proporcionó ni archivo ni URL.", None, None
	return

	with open(ruta_pdf, "rb") as f:
	if f.read(4) != b"%PDF":
	yield "El archivo proporcionado no es un PDF válido.", None, None
	return

	if os.path.getsize(ruta_pdf) > 3 * 1024 * 1024:
	estado += "Aviso: el PDF es grande y puede tardar más de lo normal.\n"

	nombre_sin_ext = os.path.splitext(os.path.basename(ruta_pdf))[0]
	carpeta_salida = os.path.join(output_base, nombre_sin_ext)
	if os.path.exists(carpeta_salida):
	shutil.rmtree(carpeta_salida)
	os.makedirs(carpeta_salida, exist_ok=True)

	for fmt in formatos:
	estado += f"\nProcesando formato '{fmt}'..."
	yield estado, None, None

	# Primer intento sin OCR (si aplica)
	if fmt == "md":
	cmd = ["marker_single", ruta_pdf, "--output_format", "markdown", "--disable_ocr", "--output_dir", carpeta_salida]
	elif fmt == "md + ocr":
	cmd = ["marker_single", ruta_pdf, "--output_format", "markdown", "--output_dir", carpeta_salida]
	else:
	cmd = ["marker_single", ruta_pdf, "--output_format", fmt, "--output_dir", carpeta_salida]

	result = ejecutar_marker(cmd)

	md_path = os.path.join(carpeta_salida, f"{nombre_sin_ext}.md")
	if fmt == "md" and not os.path.exists(md_path):
	estado += "\nNo se generó el archivo Markdown en el primer intento."
	estado += f"\n\n---\nSalida del comando marker_single:\n{result.stderr.strip()}\n"
	estado += "\nReintentando con OCR..."
	yield estado, None, None

	start_time = time.time()
	cmd = ["marker_single", ruta_pdf, "--output_format", "markdown", "--output_dir", carpeta_salida]
	result = ejecutar_marker(cmd)

	if not os.path.exists(md_path):
	estado += "\nEl reintento con OCR también falló."
	estado += f"\n\n---\nSalida del reintento:\n{result.stderr.strip()}"
	yield estado, None, None
	return

	elif result.returncode != 0:
	estado += f"\n\nError ejecutando marker_single:\n{result.stderr.strip()}"
	yield estado, None, None
	return

	if not os.path.exists(md_path):
	estado += "\nNo se generó el archivo Markdown. Puede que el PDF no contenga texto reconocible."
	yield estado, None, None
	return

	with open(md_path, "r", encoding="utf-8") as f:
	md_content = f.read()

	palabras = len(md_content.split())
	caracteres = len(md_content)
	figuras = len([f for f in os.listdir(carpeta_salida) if f.lower().endswith(".jpeg")])
	tablas = len(os.listdir(os.path.join(carpeta_salida, "tables"))) if os.path.exists(os.path.join(carpeta_salida, "tables")) else 0
	tamaño_kb = os.path.getsize(md_path) / 1024
	tiempo_total = round(time.time() - start_time, 1)

	resumen = f"\n\n---\nResumen del procesamiento:\n"
	resumen += f"- Palabras: {palabras}\n"
	resumen += f"- Caracteres: {caracteres}\n"
	resumen += f"- Tamaño Markdown: {tamaño_kb:.2f} KB\n"
	resumen += f"- Imágenes extraídas: {figuras}\n"
	resumen += f"- Tablas detectadas: {tablas}\n"
	resumen += f"- Tiempo total: {tiempo_total} s"

	zip_path = os.path.join(output_base, f"{nombre_sin_ext}.zip")
	shutil.make_archive(base_name=zip_path.replace(".zip", ""), format="zip", root_dir=carpeta_salida)

	estado += "\n\nProcesamiento finalizado correctamente."
	yield estado + resumen, gr.update(value=md_path, visible=True), gr.update(value=zip_path, visible=True)

	except Exception as e:
	yield f"Error general inesperado: {str(e)}", None, None

	demo = gr.Interface(
	fn=procesar_pdf,
	inputs=[
	gr.File(label="Sube un PDF (opcional)", file_types=[".pdf"]),
	gr.Textbox(label="O introduce una URL directa", placeholder="https://arxiv.org/pdf/..."),
	gr.CheckboxGroup(
	choices=["md", "md + ocr", "html", "json"],
	value=["md"],
	label="Formatos de salida (elige al menos uno)"
	)
	],
	outputs=[
	gr.Textbox(label="Estado del procesamiento", lines=12),
	gr.File(label="Descargar Markdown (.md)", visible=False),
	gr.File(label="Descargar ZIP completo", visible=False)
	],
	title="Marker PDF",
	description="Convierte artículos científicos en Markdown, HTML o JSON. Reintenta automáticamente con OCR si es necesario.",
	flagging_mode="never"
	)

	if __name__ == "__main__":
	demo.launch()