Spaces:

tbluhm
/

seinfra-app

Runtime error

App Files Files Community

tbluhm commited on Mar 11, 2025

Commit

7f0d652

verified ·

1 Parent(s): 791c769

Upload app.py

Browse files

Files changed (1) hide show

app.py +182 -0

app.py ADDED Viewed

	@@ -0,0 +1,182 @@

+import gradio as gr
+import os
+import time
+import fitz  # PyMuPDF
+from docx import Document
+from docx.shared import Inches
+from docx.oxml import OxmlElement
+from docx.oxml.ns import qn
+from tqdm import tqdm
+from dotenv import load_dotenv
+from modelo_clip import ValidatorVITImgTexto
+from openai import OpenAI
+import re
+from threading import Thread
+from queue import Queue
+from gradio_pdf import PDF
+# 🔹 Carregar variáveis de ambiente
+load_dotenv()
+secretk = os.environ.get("OPENAI_API_KEY")
+cliente_openai = OpenAI(api_key=secretk)
+# 🔹 Criar pastas para armazenar arquivos
+os.makedirs("uploads", exist_ok=True)
+os.makedirs("clippings", exist_ok=True)
+# 🔹 Justificar parágrafos no Word
+def justify_paragraph(paragraph):
+    p = paragraph._element
+    pPr = p.get_or_add_pPr()
+    jc = OxmlElement('w:jc')
+    jc.set(qn('w:val'), 'both')
+    pPr.append(jc)
+# 🔹 Função para extrair texto do PDF
+def extract_content(pdf_path):
+    doc = fitz.open(pdf_path)
+    extracted_data = []
+    for page_num, page in enumerate(doc, start=1):
+        page_data = {
+            "page_number": page_num,
+            "text": page.get_text("text"),
+            "link": f"{os.path.basename(pdf_path)}#page={page_num}"
+        }
+        extracted_data.append(page_data)
+    return extracted_data
+# 🔹 Função para identificar palavras-chave no texto
+def find_keywords(text, keywords):
+    detected = [kw for kw in keywords if kw.lower() in text.lower()]
+    return detected
+# 🔹 Função para gerar resumos via OpenAI
+def generate_summary(text):
+    prompt = f"Resuma o seguinte texto em poucas frases mantendo os pontos principais:\n\n{text}"
+    try:
+        response = cliente_openai.chat.completions.create(
+            model="gpt-4o",
+            messages=[{"role": "system", "content": "Você é um assistente que resume textos de forma objetiva."},
+                      {"role": "user", "content": prompt}],
+            temperature=0.3,
+            max_tokens=150
+        )
+        return response.choices[0].message.content.strip()
+    except Exception as e:
+        return f"Erro ao gerar resumo: {e}"
+# 🔹 Filtrar conteúdo com base nas palavras-chave e gerar resumos
+def filter_content(extracted_data, keywords):
+    filtered_data = []
+    for page in extracted_data:
+        detected_keywords = find_keywords(page["text"], keywords)
+        if detected_keywords:
+            summary = generate_summary(page["text"])
+            filtered_data.append({
+                "page_number": page["page_number"],
+                "summary": summary,
+                "text": page["text"],
+                "keywords": ", ".join(detected_keywords),
+                "link": page["link"]
+            })
+    return filtered_data
+# 🔹 Criar um documento Word com os resumos
+def generate_word_from_summary(filtered_data, output_path):
+    doc = Document()
+    if not filtered_data:
+        doc.add_paragraph("Nenhum conteúdo relevante encontrado.")
+    else:
+        for page in filtered_data:
+            doc.add_heading(f"Resumo da Página {page['page_number']}", level=2)
+            doc.add_paragraph(f"**Palavras-chave encontradas:** {page['keywords']}")
+            doc.add_paragraph(f"**Resumo:** {page['summary']}")
+            doc.add_paragraph(f"📎 [Acesse a Página]({page['link']})")
+            doc.add_paragraph("-" * 50)
+    doc.save(output_path)
+def generate_clickable_link(pdf_path, page_number):
+    """
+    Gera um link funcional para acessar uma página específica do PDF dentro do Gradio.
+    """
+    pdf_filename = os.path.basename(pdf_path)  # Pega apenas o nome do arquivo
+    link = f'<a href="{pdf_filename}#page={page_number}" target="_blank">📄 Acesse a Página {page_number}</a>'
+    return link
+# 🔹 Processamento do PDF no Gradio
+def process_pdf(uploaded_pdf):
+    if not uploaded_pdf:
+        return "Nenhum arquivo enviado.", None
+    pdf_path = uploaded_pdf
+    output_docx = os.path.join("clippings", f"clipping_{int(time.time())}.docx")
+    keywords = ["Governo Federal", "Ceará", "infraestrutura", "saúde", "educação", "segurança pública"]
+    extracted_data = extract_content(pdf_path)
+    filtered_data = filter_content(extracted_data, keywords)
+    generate_word_from_summary(filtered_data, output_docx)
+    resumos = []
+    for page in extracted_data:
+        summary = generate_summary(page["text"])
+        resumos.append({
+            "page_number": page["page_number"],
+            "summary": summary
+        })
+    return resumos
+# 🔹 Criar botões e resumos interativos em Markdown com HTML
+def create_summary_buttons(resumos):
+    markdown_content = ""
+    for r in resumos:
+        page_num = r["page_number"]
+        summary = r["summary"]
+        markdown_content += f"""
+        <button style='padding:5px;margin:5px;' onclick='
+            const pages = document.querySelectorAll(".pdf-container .page");
+            if(pages && pages.length >= {page_num}){{
+                pages[{page_num}-1].scrollIntoView({{ behavior: "smooth" }});
+            }}
+        '>📄 Ir para Página {page_num}</button>
+        <strong>🔑 Resumo:</strong> {summary}<br><hr>
+        """
+    return markdown_content if markdown_content else "Nenhum resumo disponível."
+# 🔹 Interface Gradio
+with gr.Blocks() as demo:
+    gr.Markdown("### 📑 Clipapptor - IA para Resumo de PDFs")
+    with gr.Row():
+        with gr.Column(scale=1):  # Lado esquerdo
+            uploaded_pdf = PDF(label="📤 Faça upload do PDF", interactive=True, height=650)
+            #page_input = gr.Number(value=1, label="Página", interactive=True)
+            #go_to_page_button = gr.Button("Ir para Página", elem_id="go-to-page-button")
+        with gr.Column(scale=1):  # Lado direito
+            process_button = gr.Button("📄 Gerar Clippings do Jornal")
+            resumo_output = gr.Markdown("Aguardando resumos...", render=True, height=650)
+    # 🔹 Função para navegação no PDF
+    # def go_to_page(page_number):
+    #     return page_number
+    def process_and_create_buttons(pdf):
+        resumos = process_pdf(pdf)
+        return create_summary_buttons(resumos)
+    process_button.click(
+        fn=process_and_create_buttons,
+        inputs=[uploaded_pdf],
+        outputs=[resumo_output]
+    )
+    # go_to_page_button.click(fn=go_to_page, inputs=[page_input], outputs=[page_input])
+demo.launch(share=True)