Spaces:

angelsg213
/

TESTING22

Sleeping

App Files Files Community

angelsg213 commited on 17 days ago

Commit

e141ab7

verified ·

1 Parent(s): 4691b65

Update app.py

Browse files

Files changed (1) hide show

app.py +236 -46

app.py CHANGED Viewed

@@ -1,6 +1,10 @@
 import gradio as gr
 import PyPDF2
 import os
 from huggingface_hub import InferenceClient
 # ============= EXTRAER TEXTO DEL PDF =============
@@ -14,31 +18,62 @@ def extraer_texto_pdf(pdf_file):
     except Exception as e:
         return f"Error: {str(e)}"
-# ============= ANALIZAR CON LLM =============
-def analizar_con_llm(texto):
-    """El LLM analiza la factura y devuelve un resumen en un párrafo"""
     token = os.getenv("aa")
     if not token:
-        return "❌ Error: Falta configurar HF_TOKEN en Settings → Secrets"
     # Limitar texto
     texto_limpio = texto[:8000]
-    # Prompt simple
-    prompt = f"""Analiza esta factura y dame un resumen en UN SOLO PÁRRAFO con:
-- Número de factura
-- Fecha
-- Emisor y cliente
-- Productos/servicios
-- Total a pagar
 TEXTO DE LA FACTURA:
 {texto_limpio}
-Responde en un solo párrafo claro y conciso en español:"""
-    # Lista de modelos que SÍ funcionan (probados)
     modelos = [
         "Qwen/Qwen2.5-72B-Instruct",
         "meta-llama/Llama-3.2-3B-Instruct",
@@ -48,7 +83,7 @@ Responde en un solo párrafo claro y conciso en español:"""
     for modelo in modelos:
         try:
-            print(f"🤖 Probando: {modelo}")
             client = InferenceClient(token=token)
             # Llamar al modelo
@@ -57,79 +92,234 @@ Responde en un solo párrafo claro y conciso en español:"""
                 messages=[
                     {"role": "user", "content": prompt}
                 ],
-                max_tokens=500,
-                temperature=0.3
             )
             # Extraer respuesta
             resultado = response.choices[0].message.content
-            print(f"✅ Funcionó con {modelo}")
-            return resultado
         except Exception as e:
             print(f"❌ {modelo} falló: {str(e)[:100]}")
             continue
-    return "❌ Ningún modelo LLM funcionó. Verifica tu HF_TOKEN o intenta más tarde."
 # ============= FUNCIÓN PRINCIPAL =============
 def procesar_factura(pdf_file):
     if pdf_file is None:
-        return "", "⚠️ Sube un PDF primero"
-    # Extraer texto
     texto = extraer_texto_pdf(pdf_file)
     if texto.startswith("Error"):
-        return "", f"❌ {texto}"
-    # Mostrar texto extraído
-    texto_preview = f"**Texto extraído ({len(texto)} caracteres):**\n\n{texto[:1000]}..."
-    # Analizar con LLM
-    analisis = analizar_con_llm(texto)
-    # Resultado final
-    resultado = f"""## 📄 Análisis de la Factura
-{analisis}
 ---
-### 📝 Texto Original:
-{texto_preview}
 """
-    return texto, resultado
 # ============= INTERFAZ GRADIO =============
-with gr.Blocks(title="Analizador de Facturas con IA") as demo:
     gr.Markdown("""
-    # 🤖 Analizador de Facturas con IA
-    ### Sube un PDF y el LLM lo analizará en un párrafo
     """)
     with gr.Row():
-        with gr.Column():
-            pdf_input = gr.File(label="📎 Subir PDF de Factura", file_types=[".pdf"])
-            btn = gr.Button("🚀 Analizar", variant="primary", size="lg")
-        with gr.Column():
-            texto_salida = gr.Textbox(label="📝 Texto Extraído", lines=10, max_lines=15)
-            resultado = gr.Markdown(label="🤖 Análisis del LLM")
     btn.click(
         fn=procesar_factura,
         inputs=[pdf_input],
-        outputs=[texto_salida, resultado]
     )
     gr.Markdown("""
     ---
-    **Configuración necesaria:**
-    1. Instala: `pip install huggingface_hub`
-    2. Ve a Settings → Secrets
-    3. Crea: `HF_TOKEN` = tu token de https://huggingface.co/settings/tokens
     """)
 if __name__ == "__main__":

 import gradio as gr
 import PyPDF2
 import os
+import json
+import pandas as pd
+import re
+from datetime import datetime
 from huggingface_hub import InferenceClient
 # ============= EXTRAER TEXTO DEL PDF =============
     except Exception as e:
         return f"Error: {str(e)}"
+# ============= ANALIZAR CON LLM Y CONVERTIR A JSON =============
+def analizar_y_convertir_json(texto):
+    """El LLM lee la factura, decide cómo estructurarla y devuelve JSON"""
     token = os.getenv("aa")
     if not token:
+        return None, "❌ Error: Falta configurar HF_TOKEN en Settings → Secrets"
     # Limitar texto
     texto_limpio = texto[:8000]
+    # Prompt para que el LLM decida la estructura JSON
+    prompt = f"""Eres un experto en análisis de facturas. Lee esta factura y conviértela a JSON.
 TEXTO DE LA FACTURA:
 {texto_limpio}
+INSTRUCCIONES:
+1. Analiza el texto y decide qué información es importante extraer
+2. Crea un JSON estructurado con TODOS los datos que encuentres
+3. Incluye: número de factura, fecha, emisor, cliente, productos/servicios, importes
+4. Para los números: usa formato numérico puro (ejemplo: 250 no "250€")
+5. Si hay tabla de productos, extrae CADA producto con cantidad, precio y total
+FORMATO JSON (ajusta según lo que encuentres):
+{{
+  "numero_factura": "string",
+  "fecha": "DD/MM/YYYY",
+  "emisor": {{
+    "nombre": "string",
+    "nif": "string",
+    "direccion": "string"
+  }},
+  "cliente": {{
+    "nombre": "string",
+    "nif": "string"
+  }},
+  "productos": [
+    {{
+      "descripcion": "string",
+      "cantidad": number,
+      "precio_unitario": number,
+      "total": number
+    }}
+  ],
+  "totales": {{
+    "base_imponible": number,
+    "iva": number,
+    "porcentaje_iva": number,
+    "total": number
+  }}
+}}
+Responde SOLO con el JSON válido (sin explicaciones, sin markdown):"""
+    # Lista de modelos que funcionan
     modelos = [
         "Qwen/Qwen2.5-72B-Instruct",
         "meta-llama/Llama-3.2-3B-Instruct",
     for modelo in modelos:
         try:
+            print(f"\n🤖 Probando: {modelo}")
             client = InferenceClient(token=token)
             # Llamar al modelo
                 messages=[
                     {"role": "user", "content": prompt}
                 ],
+                max_tokens=2000,
+                temperature=0.1
             )
             # Extraer respuesta
             resultado = response.choices[0].message.content
+            # Limpiar respuesta (quitar markdown si existe)
+            resultado = resultado.strip()
+            resultado = re.sub(r'```json\s*', '', resultado)
+            resultado = re.sub(r'```\s*', '', resultado)
+            resultado = resultado.strip()
+            # Buscar JSON en la respuesta
+            match = re.search(r'\{.*\}', resultado, re.DOTALL)
+            if match:
+                json_str = match.group(0)
+                try:
+                    datos_json = json.loads(json_str)
+                    print(f"✅ JSON válido extraído con {modelo}")
+                    return datos_json, f"✅ Procesado con {modelo}"
+                except json.JSONDecodeError as e:
+                    print(f"⚠️ JSON inválido: {str(e)[:50]}")
+                    continue
+            else:
+                print(f"⚠️ No se encontró JSON en la respuesta")
+                continue
         except Exception as e:
             print(f"❌ {modelo} falló: {str(e)[:100]}")
             continue
+    return None, "❌ Ningún modelo LLM pudo extraer el JSON. Verifica tu HF_TOKEN."
+# ============= CONVERTIR JSON A CSV =============
+def json_a_csv(datos_json):
+    """Convierte el JSON en un DataFrame para CSV"""
+    if not datos_json:
+        return None
+    filas = []
+    # === INFORMACIÓN GENERAL ===
+    filas.append({'Campo': '=== INFORMACIÓN GENERAL ===', 'Valor': ''})
+    filas.append({'Campo': 'Número de Factura', 'Valor': datos_json.get('numero_factura', 'N/A')})
+    filas.append({'Campo': 'Fecha', 'Valor': datos_json.get('fecha', 'N/A')})
+    # === EMISOR ===
+    if 'emisor' in datos_json:
+        filas.append({'Campo': '', 'Valor': ''})
+        filas.append({'Campo': '=== EMISOR ===', 'Valor': ''})
+        emisor = datos_json['emisor']
+        if isinstance(emisor, dict):
+            for key, value in emisor.items():
+                filas.append({'Campo': key.replace('_', ' ').title(), 'Valor': str(value)})
+        else:
+            filas.append({'Campo': 'Nombre', 'Valor': str(emisor)})
+    # === CLIENTE ===
+    if 'cliente' in datos_json:
+        filas.append({'Campo': '', 'Valor': ''})
+        filas.append({'Campo': '=== CLIENTE ===', 'Valor': ''})
+        cliente = datos_json['cliente']
+        if isinstance(cliente, dict):
+            for key, value in cliente.items():
+                filas.append({'Campo': key.replace('_', ' ').title(), 'Valor': str(value)})
+        else:
+            filas.append({'Campo': 'Nombre', 'Valor': str(cliente)})
+    # === PRODUCTOS/SERVICIOS ===
+    productos = datos_json.get('productos', datos_json.get('conceptos', datos_json.get('items', [])))
+    if productos and len(productos) > 0:
+        filas.append({'Campo': '', 'Valor': ''})
+        filas.append({'Campo': '=== PRODUCTOS/SERVICIOS ===', 'Valor': ''})
+        for i, prod in enumerate(productos, 1):
+            filas.append({'Campo': f'Producto {i}', 'Valor': prod.get('descripcion', 'N/A')})
+            filas.append({'Campo': '  Cantidad', 'Valor': str(prod.get('cantidad', ''))})
+            filas.append({'Campo': '  Precio Unitario', 'Valor': f"{prod.get('precio_unitario', 0)}€"})
+            filas.append({'Campo': '  Total', 'Valor': f"{prod.get('total', 0)}€"})
+            filas.append({'Campo': '', 'Valor': ''})
+    # === TOTALES ===
+    totales = datos_json.get('totales', {})
+    if totales or 'base_imponible' in datos_json or 'total' in datos_json:
+        filas.append({'Campo': '', 'Valor': ''})
+        filas.append({'Campo': '=== TOTALES ===', 'Valor': ''})
+        # Buscar totales en varios lugares del JSON
+        base = totales.get('base_imponible', datos_json.get('base_imponible', 0))
+        iva = totales.get('iva', datos_json.get('iva', 0))
+        porcentaje_iva = totales.get('porcentaje_iva', datos_json.get('porcentaje_iva', 0))
+        total = totales.get('total', datos_json.get('total', 0))
+        filas.append({'Campo': 'Base Imponible', 'Valor': f"{base}€"})
+        if porcentaje_iva > 0:
+            filas.append({'Campo': f'IVA ({porcentaje_iva}%)', 'Valor': f"{iva}€"})
+        else:
+            filas.append({'Campo': 'IVA', 'Valor': f"{iva}€"})
+        filas.append({'Campo': 'TOTAL', 'Valor': f"{total}€"})
+    return pd.DataFrame(filas)
 # ============= FUNCIÓN PRINCIPAL =============
 def procesar_factura(pdf_file):
     if pdf_file is None:
+        return "", None, None, "⚠️ Sube un PDF primero"
+    # PASO 1: Extraer texto del PDF
+    print("\n📄 Extrayendo texto del PDF...")
     texto = extraer_texto_pdf(pdf_file)
     if texto.startswith("Error"):
+        return "", None, None, f"❌ {texto}"
+    # Mostrar preview del texto
+    texto_preview = f"{texto[:1500]}..." if len(texto) > 1500 else texto
+    # PASO 2: LLM analiza y convierte a JSON
+    print("🤖 El LLM está analizando la factura y creando el JSON...")
+    datos_json, mensaje = analizar_y_convertir_json(texto)
+    if not datos_json:
+        return texto_preview, None, None, mensaje
+    # PASO 3: Convertir JSON a DataFrame
+    print("📊 Convirtiendo JSON a CSV...")
+    df = json_a_csv(datos_json)
+    # PASO 4: Guardar CSV
+    timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
+    numero = datos_json.get('numero_factura', 'factura')
+    numero = re.sub(r'[^\w\-]', '_', str(numero))  # Limpiar caracteres especiales
+    csv_filename = f"{numero}_{timestamp}.csv"
+    df.to_csv(csv_filename, index=False, encoding='utf-8-sig')
+    # PASO 5: Crear resumen
+    resumen = f"""## ✅ Factura Procesada Exitosamente
+{mensaje}
+---
+### 📊 JSON Generado por el LLM:
+```json
+{json.dumps(datos_json, indent=2, ensure_ascii=False)}
+```
 ---
+### 💾 Archivo CSV:
+- **Nombre:** `{csv_filename}`
+- **Filas:** {len(df)}
+### 📋 Datos Extraídos:
+- **Número:** {datos_json.get('numero_factura', 'N/A')}
+- **Fecha:** {datos_json.get('fecha', 'N/A')}
+- **Productos:** {len(datos_json.get('productos', datos_json.get('conceptos', [])))}
+- **Total:** {datos_json.get('totales', {}).get('total', datos_json.get('total', 'N/A'))}€
 """
+    print(f"✅ CSV guardado: {csv_filename}")
+    return texto_preview, df, csv_filename, resumen
 # ============= INTERFAZ GRADIO =============
+with gr.Blocks(title="Extractor IA de Facturas", theme=gr.themes.Soft()) as demo:
     gr.Markdown("""
+    # 🤖 Extractor Inteligente de Facturas con IA
+    ### 📋 Proceso automático:
+    1. 📄 Extrae el texto del PDF
+    2. 🤖 El LLM analiza y decide cómo estructurar el JSON
+    3. 📊 Convierte el JSON a CSV
+    4. 👁️ Previsualiza los datos
+    5. 💾 Descarga el archivo CSV
     """)
     with gr.Row():
+        with gr.Column(scale=1):
+            pdf_input = gr.File(
+                label="📎 Subir Factura (PDF)",
+                file_types=[".pdf"],
+                type="filepath"
+            )
+            btn = gr.Button("🚀 Procesar Factura", variant="primary", size="lg")
+            gr.Markdown("""
+            ---
+            ### ⚙️ Configuración:
+            1. Instala: `pip install huggingface_hub gradio PyPDF2 pandas`
+            2. Settings → Secrets
+            3. Crea: `HF_TOKEN`
+            4. Token: [huggingface.co/settings/tokens](https://huggingface.co/settings/tokens)
+            """)
+        with gr.Column(scale=2):
+            texto_extraido = gr.Textbox(
+                label="📝 Texto Extraído del PDF",
+                lines=8,
+                max_lines=10
+            )
+            tabla_preview = gr.DataFrame(
+                label="👁️ Previsualización CSV",
+                wrap=True,
+                interactive=False
+            )
+            resumen = gr.Markdown(label="📊 Resumen del Análisis")
+            csv_output = gr.File(label="💾 Descargar CSV")
     btn.click(
         fn=procesar_factura,
         inputs=[pdf_input],
+        outputs=[texto_extraido, tabla_preview, csv_output, resumen]
     )
     gr.Markdown("""
     ---
+    ### 🎯 Características:
+    - ✅ El LLM **decide automáticamente** cómo estructurar el JSON
+    - ✅ Extrae número, fecha, emisor, cliente, productos y totales
+    - ✅ Genera CSV limpio y organizado
+    - ✅ Previsualización en tiempo real
+    - ✅ Modelos LLM gratuitos y potentes
     """)
 if __name__ == "__main__":