Spaces:

DaniFera
/

PDFree

Sleeping

App Files Files Community

DaniFera commited on Jan 16

Commit

7dfc046

verified ·

1 Parent(s): 94a82f1

Update core.py

Browse files

Files changed (1) hide show

core.py +65 -60

core.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# Versión 2.2: Core con Comparación de Texto (ReportLab)
 # Autor: Gemini (AI Assistant)
 import os
@@ -20,12 +20,13 @@ from reportlab.lib.pagesizes import A4
 from reportlab.lib import colors
 from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer
 from reportlab.lib.styles import getSampleStyleSheet, ParagraphStyle
 from config import TEMP_DIR
 class PDFEngine:
-    # --- UTILIDADES ---
     @staticmethod
     def _get_output_path(filename: str) -> str:
         unique_name = f"{uuid.uuid4().hex[:8]}_{filename}"
@@ -40,7 +41,6 @@ class PDFEngine:
         except: return {"pages": 0, "name": "Error", "title": ""}
     def _parse_range_groups(self, range_str: str, max_pages: int) -> list:
-        # (Lógica idéntica versiones anteriores)
         groups = []
         parts = range_str.split(',')
         for part in parts:
@@ -85,7 +85,6 @@ class PDFEngine:
         except: return None
     def get_preview_indices_from_string(self, range_str: str, max_pages: int) -> list:
-        # (Igual que antes)
         key_pages = []
         parts = range_str.split(',')
         for part in parts:
@@ -150,7 +149,6 @@ class PDFEngine:
     def compress_pdf(self, file_path: str, power: int = 3) -> str:
         if not file_path: raise ValueError("Falta archivo.")
-        # power: 1=Baja, 3=Media/eBook, 4=Alta/Screen
         q = {1: "/prepress", 3: "/ebook", 4: "/screen"}
         gs_set = q.get(power, "/ebook")
         out = self._get_output_path("comprimido.pdf")
@@ -210,88 +208,97 @@ class PDFEngine:
             return out
         except Exception as e: raise RuntimeError(f"Error: {e}")
-    # --- NUEVA COMPARACIÓN DE TEXTO (v2.2) ---
     def compare_pdfs_text(self, path_a: str, path_b: str) -> str:
         """
-        Compara el TEXTO de dos PDFs y genera un informe PDF con diferencias resaltadas.
-        Rojo/Tachado: Eliminado. Verde/Negrita: Añadido.
         """
         if not path_a or not path_b: raise ValueError("Faltan archivos.")
-        # 1. Extraer texto completo
-        def get_text_lines(path):
             try:
                 reader = PdfReader(path)
                 text = ""
                 for page in reader.pages:
                     extracted = page.extract_text()
-                    if extracted: text += extracted + "\n"
-                # Dividir por líneas para comparación
-                return text.splitlines()
             except Exception as e:
                 raise RuntimeError(f"Error leyendo PDF: {e}")
-        lines_a = get_text_lines(path_a)
-        lines_b = get_text_lines(path_b)
-        # 2. Calcular diferencias (Difflib)
-        diff = difflib.ndiff(lines_a, lines_b)
-        # 3. Generar PDF con ReportLab
-        output_path = self._get_output_path("informe_diferencias.pdf")
         doc = SimpleDocTemplate(output_path, pagesize=A4)
         styles = getSampleStyleSheet()
-        # Estilos personalizados
-        style_normal = styles['BodyText']
-        style_del = ParagraphStyle('Deleted', parent=style_normal, textColor=colors.red, backColor=colors.mistyrose, strike=True)
-        style_add = ParagraphStyle('Added', parent=style_normal, textColor=colors.darkgreen, backColor=colors.honeydew, fontName='Helvetica-Bold')
-        style_header = styles['Heading1']
         story = []
-        story.append(Paragraph("Informe de Comparación de Texto", style_header))
         story.append(Spacer(1, 12))
-        story.append(Paragraph(f"<b>Archivo A (Original):</b> {os.path.basename(path_a)}", style_normal))
-        story.append(Paragraph(f"<b>Archivo B (Modificado):</b> {os.path.basename(path_b)}", style_normal))
-        story.append(Spacer(1, 24))
-        # Procesar diferencias
-        # ndiff devuelve: '- texto' (borrado), '+ texto' (añadido), '  texto' (igual), '? ...' (metadatos intralínea)
-        has_changes = False
-        for line in diff:
-            code = line[:2]
-            content = line[2:].strip()
-            # Escapar XML/HTML para ReportLab (evitar crash con <, >)
-            content = content.replace('&', '&amp;').replace('<', '&lt;').replace('>', '&gt;')
-            if not content: continue # Saltar líneas vacías
             if code == '- ':
-                # Eliminado (Rojo)
-                p = Paragraph(f"<strike>{content}</strike>", style_del)
-                story.append(p)
-                story.append(Spacer(1, 4))
-                has_changes = True
             elif code == '+ ':
-                # Añadido (Verde)
-                p = Paragraph(f"{content}", style_add)
-                story.append(p)
-                story.append(Spacer(1, 4))
-                has_changes = True
             elif code == '  ':
-                # Contexto (Grisáceo o normal)
-                # Para no hacer el informe eterno, podríamos recortar contexto,
-                # pero mejor ponerlo todo para leer el documento fluido.
-                p = Paragraph(content, style_normal)
-                story.append(p)
-                story.append(Spacer(1, 2))
-            # Ignoramos líneas que empiezan por '?' (son pistas de difflib sobre dónde está el cambio en la palabra)
-        if not has_changes:
-            story.append(Paragraph("<b>No se encontraron diferencias textuales entre los documentos.</b>", style_normal))
         doc.build(story)
         return output_path
@@ -325,13 +332,11 @@ class PDFEngine:
         try:
             imgs = convert_from_path(f, dpi=150)
             prs = Presentation()
-            # Layout blanco
             blank = 6
             for i, img in enumerate(imgs):
                 ip = self._get_output_path(f"slide_{i}.jpg")
                 img.save(ip, "JPEG")
                 slide = prs.slides.add_slide(prs.slide_layouts[blank])
-                # Ajustar imagen al ancho de la slide
                 slide.shapes.add_picture(ip, Inches(0), Inches(0), width=prs.slide_width)
             out = self._get_output_path(os.path.basename(f).replace(".pdf", ".pptx"))
             prs.save(out)

+# Versión 2.3: Core con Comparación Palabra por Palabra (Precisión Alta)
 # Autor: Gemini (AI Assistant)
 import os
 from reportlab.lib import colors
 from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer
 from reportlab.lib.styles import getSampleStyleSheet, ParagraphStyle
+from reportlab.lib.enums import TA_JUSTIFY
 from config import TEMP_DIR
 class PDFEngine:
+    # --- UTILIDADES INTERNAS ---
     @staticmethod
     def _get_output_path(filename: str) -> str:
         unique_name = f"{uuid.uuid4().hex[:8]}_{filename}"
         except: return {"pages": 0, "name": "Error", "title": ""}
     def _parse_range_groups(self, range_str: str, max_pages: int) -> list:
         groups = []
         parts = range_str.split(',')
         for part in parts:
         except: return None
     def get_preview_indices_from_string(self, range_str: str, max_pages: int) -> list:
         key_pages = []
         parts = range_str.split(',')
         for part in parts:
     def compress_pdf(self, file_path: str, power: int = 3) -> str:
         if not file_path: raise ValueError("Falta archivo.")
         q = {1: "/prepress", 3: "/ebook", 4: "/screen"}
         gs_set = q.get(power, "/ebook")
         out = self._get_output_path("comprimido.pdf")
             return out
         except Exception as e: raise RuntimeError(f"Error: {e}")
+    # --- COMPARACIÓN DE TEXTO PALABRA POR PALABRA (v2.3) ---
     def compare_pdfs_text(self, path_a: str, path_b: str) -> str:
         """
+        Compara el TEXTO de dos PDFs tokenizando por PALABRAS.
+        Esto evita que líneas enteras se marquen como erróneas si solo cambia una palabra.
         """
         if not path_a or not path_b: raise ValueError("Faltan archivos.")
+        def get_all_words(path):
             try:
                 reader = PdfReader(path)
                 text = ""
                 for page in reader.pages:
                     extracted = page.extract_text()
+                    if extracted: text += extracted + " "
+                # Tokenizar por palabras (split elimina espacios extra y saltos de línea)
+                return text.split()
             except Exception as e:
                 raise RuntimeError(f"Error leyendo PDF: {e}")
+        # Obtenemos listas de palabras ['La', 'casa', 'es', 'roja'...]
+        words_a = get_all_words(path_a)
+        words_b = get_all_words(path_b)
+        # Calculamos diferencias palabra por palabra
+        diff = difflib.ndiff(words_a, words_b)
+        # Generar PDF
+        output_path = self._get_output_path("informe_diferencias_palabras.pdf")
         doc = SimpleDocTemplate(output_path, pagesize=A4)
         styles = getSampleStyleSheet()
+        # Estilo para el cuerpo del texto
+        style_body = ParagraphStyle(
+            'Body',
+            parent=styles['BodyText'],
+            alignment=TA_JUSTIFY,
+            fontSize=11,
+            leading=14
+        )
         story = []
+        story.append(Paragraph("Informe de Comparación (Modo Palabras)", styles['Heading1']))
+        story.append(Spacer(1, 12))
+        # Leyenda
+        legend = '<b>Leyenda:</b> <font color="red"><strike>Eliminado</strike></font> | <font color="green"><b>Añadido</b></font> | Texto Común'
+        story.append(Paragraph(legend, style_body))
+        story.append(Spacer(1, 12))
+        story.append(Paragraph(f"<b>A:</b> {os.path.basename(path_a)} | <b>B:</b> {os.path.basename(path_b)}", style_body))
         story.append(Spacer(1, 12))
+        # Reconstrucción del texto
+        # Acumularemos fragmentos HTML para crear párrafos.
+        # ReportLab tiene límites de tamaño por párrafo, así que hacemos "flush" cada cierto tiempo.
+        current_html = ""
+        word_count = 0
+        for token in diff:
+            code = token[:2]
+            word = token[2:]
+            # Escapar caracteres especiales XML
+            safe_word = word.replace('&', '&amp;').replace('<', '&lt;').replace('>', '&gt;')
+            chunk = ""
             if code == '- ':
+                # Eliminado (Rojo + Tachado)
+                chunk = f'<font color="red"><strike>{safe_word}</strike></font> '
             elif code == '+ ':
+                # Añadido (Verde + Negrita)
+                chunk = f'<font color="green"><b>{safe_word}</b></font> '
             elif code == '  ':
+                # Igual (Negro)
+                chunk = f'{safe_word} '
+            # Ignoramos líneas '?'
+            current_html += chunk
+            word_count += 1
+            # Crear un nuevo párrafo cada ~300 palabras para evitar problemas de renderizado
+            if word_count > 300 and code == '  ': # Cortar preferiblemente en texto normal
+                story.append(Paragraph(current_html, style_body))
+                story.append(Spacer(1, 6))
+                current_html = ""
+                word_count = 0
+        # Añadir el resto
+        if current_html:
+            story.append(Paragraph(current_html, style_body))
         doc.build(story)
         return output_path
         try:
             imgs = convert_from_path(f, dpi=150)
             prs = Presentation()
             blank = 6
             for i, img in enumerate(imgs):
                 ip = self._get_output_path(f"slide_{i}.jpg")
                 img.save(ip, "JPEG")
                 slide = prs.slides.add_slide(prs.slide_layouts[blank])
                 slide.shapes.add_picture(ip, Inches(0), Inches(0), width=prs.slide_width)
             out = self._get_output_path(os.path.basename(f).replace(".pdf", ".pptx"))
             prs.save(out)