Spaces:

ESJL
/

CUB_PDF

Sleeping

App Files Files Community

ESJL commited on Feb 11

Commit

10d228a

verified ·

1 Parent(s): cb983a8

Create app.py

Browse files

Files changed (1) hide show

app.py +146 -0

app.py ADDED Viewed

	@@ -0,0 +1,146 @@

+import re
+import os
+import tempfile
+from datetime import datetime
+from io import BytesIO
+from pypdf import PdfReader
+from openpyxl import Workbook
+from openpyxl.styles import Font, PatternFill, Alignment
+import gradio as gr
+# Configurações de Estrutura do CUB-RS
+LINHAS = [
+    "R 1-B (Res. Unifamiliar)", "R 1-N (Res. Unifamiliar)", "R 1-A (Res. Unifamiliar)",
+    "PP 4-B (Prédio Popular)", "PP 4-N (Prédio Popular)", "R 8-B (Res. Multifamiliar)",
+    "R 8-N (Res. Multifamiliar)", "R 8-A (Res. Multifamiliar)", "R 16-N (Res. Multifamiliar)",
+    "R 16-A (Res. Multifamiliar)", "PIS (Projeto Inter. Social)", "RP1Q (Residência Popular)",
+    "CAL 8-N (Com. Andar Livres)", "CAL 8-A (Com. Andar Livres)", "CSL 8-N (Com.Salas e Lojas)",
+    "CSL 8-A (Com.Salas e Lojas)", "CSL 16-N (Com.Salas e Lojas)", "CSL 16-A (Com.Salas e Lojas)",
+    "GI (Galpão Industrial)"
+]
+NUM_LINHAS = len(LINHAS)
+DATA_MINIMA = datetime(2007, 2, 1)
+MESES_PT = {
+    1: "Janeiro", 2: "Fevereiro", 3: "Março", 4: "Abril",
+    5: "Maio", 6: "Junho", 7: "Julho", 8: "Agosto",
+    9: "Setembro", 10: "Outubro", 11: "Novembro", 12: "Dezembro"
+}
+GRUPOS_LINHAS = [
+    (2, 4), (5, 6), (7, 9), (10, 11), (12, 12),
+    (13, 13), (14, 15), (16, 17), (18, 19), (20, 20),
+]
+CINZA = PatternFill(start_color="D9D9D9", end_color="D9D9D9", fill_type="solid")
+# Funções Auxiliares de Processamento
+def br_to_float(v):
+    return float(v.replace(".", "").replace(",", "."))
+def extract_numbers(text):
+    return [br_to_float(n) for n in re.findall(r"\d{1,3}(?:\.\d{3})*,\d{2}", text)]
+def extract_year_from_page(text):
+    match = re.search(r"EVOLUÇÃO\s*%?/?\s*(20\d{2})", text)
+    if match: return int(match.group(1))
+    years = re.findall(r"(20\d{2})", text)
+    return max(map(int, years)) if years else None
+def detect_start_month(num_meses, ano, ano_mais_recente):
+    return 1 if (num_meses == 12 or ano == ano_mais_recente) else (12 - num_meses + 1)
+def format_month_header(col_name):
+    ano, mes = col_name.split("-")
+    return f"{MESES_PT[int(mes)]}/{ano}"
+def apply_formatting(ws, num_colunas):
+    ws.column_dimensions['A'].width = 30
+    for col_idx in range(1, num_colunas + 1):
+        cell = ws.cell(row=1, column=col_idx)
+        cell.font = Font(bold=True)
+        cell.alignment = Alignment(horizontal='center')
+        if col_idx > 1:
+            ws.column_dimensions[ws.cell(1, col_idx).column_letter].width = 15
+    for grupo_idx, (ini, fim) in enumerate(GRUPOS_LINHAS):
+        if grupo_idx % 2 == 0:
+            for r in range(ini, fim + 1):
+                for c in range(1, num_colunas + 1):
+                    ws.cell(r, c).fill = CINZA
+# Função Principal
+def processar_pdf_upload(arquivo_pdf):
+    if arquivo_pdf is None:
+        return None, "Por favor, faça o upload de um arquivo PDF."
+    log = []
+    try:
+        reader = PdfReader(arquivo_pdf.name)
+        log.append(f"Arquivo lido: {os.path.basename(arquivo_pdf.name)}")
+        # Detectar ano mais recente para lógica de meses parciais
+        primeira_pag_texto = reader.pages[0].extract_text()
+        ano_mais_recente = extract_year_from_page(primeira_pag_texto)
+        dados = {}
+        for page in reader.pages:
+            text = page.extract_text()
+            ano = extract_year_from_page(text)
+            if not ano: continue
+            valores = extract_numbers(text)
+            if not valores: continue
+            num_meses = len(valores) // NUM_LINHAS
+            mes_inicial = detect_start_month(num_meses, ano, ano_mais_recente)
+            for linha_idx in range(NUM_LINHAS):
+                for mes_idx in range(num_meses):
+                    pos = linha_idx * num_meses + mes_idx
+                    if pos >= len(valores): break
+                    mes_atual = mes_inicial + mes_idx
+                    if mes_atual > 12: break # Prevenção de erro de data
+                    data = datetime(ano, mes_atual, 1)
+                    if data < DATA_MINIMA: continue
+                    dados[(linha_idx, data.strftime("%Y-%m"))] = valores[pos]
+        if not dados:
+            return None, "Não foi possível extrair dados válidos do PDF. Verifique o formato."
+        # Montar Excel
+        colunas = sorted(set(c for _, c in dados.keys()))
+        wb = Workbook()
+        ws = wb.active
+        ws.title = "CUB Histórico"
+        ws.append(["CÓDIGO"] + [format_month_header(c) for c in colunas])
+        for i, codigo in enumerate(LINHAS):
+            row = [codigo] + [dados.get((i, c)) for c in colunas]
+            ws.append(row)
+        apply_formatting(ws, len(colunas) + 1)
+        temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".xlsx")
+        wb.save(temp_file.name)
+        log.append(f"Excel gerado com {len(colunas)} meses processados.")
+        return temp_file.name, "\n".join(log)
+    except Exception as e:
+        return None, f"Erro ao processar: {str(e)}"
+# Interface Gradio
+interface = gr.Interface(
+    fn=processar_pdf_upload,
+    inputs=gr.File(label="Upload do PDF (Série Histórica CUB-RS)", file_types=[".pdf"]),
+    outputs=[
+        gr.File(label="📥 Baixar Excel Gerado"),
+        gr.Textbox(label="Status do Processamento")
+    ],
+    title="Conversor CUB/RS: PDF ➔ Excel",
+    description="Faça o upload do PDF da 'Série Histórica - Valor' baixado do site do Sinduscon-RS para gerar a planilha estruturada."
+)
+if __name__ == "__main__":
+    interface.launch()