Spaces:

caarleexx
/

ToM

Sleeping

App Files Files Community

caarleexx commited on Dec 6, 2025

Commit

de54042

verified ·

1 Parent(s): 22d6f06

Upload app (11).py

Browse files

Files changed (1) hide show

app (11).py +486 -0

app (11).py ADDED Viewed

	@@ -0,0 +1,486 @@

+import os
+import json
+import time
+import hashlib
+from datetime import datetime
+from concurrent.futures import ThreadPoolExecutor, as_completed
+import gradio as gr
+import google.generativeai as genai
+# Dependências para PDF
+try:
+    import PyPDF2
+    PDF_SUPPORT = True
+except ImportError:
+    PDF_SUPPORT = False
+    print("⚠️  PyPDF2 não instalado. Install: pip install PyPDF2")
+# ==================== 1. CONFIGURAÇÃO ====================
+api_key = os.getenv("GOOGLE_API_KEY", "SUA_API_KEY_AQUI")
+if api_key and api_key != "SUA_API_KEY_AQUI":
+    genai.configure(api_key=api_key)
+model_flash = genai.GenerativeModel("gemini-flash-latest")
+model_pro = genai.GenerativeModel("gemini-pro-latest")
+ARQUIVO_CONFIG = "protocolo.json"
+PASTA_TRANSCRICOES = "transcricoes"
+PAGES_PER_CHUNK = 10
+MAX_WORKERS = 5  # Limite de chamadas paralelas
+os.makedirs(PASTA_TRANSCRICOES, exist_ok=True)
+# ==================== 2. UTILIDADES ====================
+def carregar_protocolo():
+    try:
+        with open(ARQUIVO_CONFIG, "r", encoding="utf-8") as f:
+            return f.read()
+    except:
+        return json.dumps([
+            {"nome": "Leitor", "modelo": "flash", "missao": "Resumir o documento"},
+            {"nome": "Investigador", "modelo": "pro", "missao": "Encontrar inconsistências"}
+        ], indent=2)
+def salvar_protocolo(conteudo):
+    try:
+        json.loads(conteudo)
+        with open(ARQUIVO_CONFIG, "w", encoding="utf-8") as f:
+            f.write(conteudo)
+        return "✅ Salvo"
+    except:
+        return "❌ Erro JSON"
+def limpar_nome_arquivo(nome):
+    nome_base = os.path.basename(nome)
+    nome_limpo = "".join([c for c in nome_base if c.isalnum() or c in (' ', '.', '_', '-')]).strip()
+    return nome_limpo + ".json"
+def extrair_texto_pdf(caminho_pdf):
+    try:
+        with open(caminho_pdf, 'rb') as f:
+            reader = PyPDF2.PdfReader(f)
+            paginas = []
+            for i, page in enumerate(reader.pages):
+                texto = page.extract_text()
+                paginas.append({
+                    "numero": i + 1,
+                    "texto": texto,
+                    "metadata": str(page)[:200]
+                })
+            return paginas, None
+    except Exception as e:
+        return None, str(e)
+def fragmentar_pdf(paginas, tamanho_chunk=PAGES_PER_CHUNK):
+    chunks = []
+    for i in range(0, len(paginas), tamanho_chunk):
+        chunk = paginas[i:i + tamanho_chunk]
+        num_inicio = chunk[0]["numero"]
+        num_fim = chunk[-1]["numero"]
+        texto_consolidado = "\n---QUEBRA DE PÁGINA---\n".join(
+            [f"[PÁGINA {p['numero']}]\n{p['texto']}" for p in chunk]
+        )
+        chunks.append({
+            "id": f"chunk_{num_inicio}_{num_fim}",
+            "paginas": f"{num_inicio}-{num_fim}",
+            "num_paginas": len(chunk),
+            "texto": texto_consolidado,
+            "metadata": [p["metadata"] for p in chunk]
+        })
+    return chunks
+def processar_pdf_completo(arquivo_pdf):
+    if not PDF_SUPPORT:
+        return None, "❌ PyPDF2 não disponível"
+    try:
+        paginas, erro = extrair_texto_pdf(arquivo_pdf.name if hasattr(arquivo_pdf, 'name') else arquivo_pdf)
+        if erro:
+            return None, f"❌ Erro ao ler PDF: {erro}"
+        chunks = fragmentar_pdf(paginas)
+        nome_arquivo = os.path.basename(arquivo_pdf.name if hasattr(arquivo_pdf, 'name') else arquivo_pdf)
+        return {
+            "arquivo": nome_arquivo,
+            "total_paginas": len(paginas),
+            "total_chunks": len(chunks),
+            "chunks": chunks,
+            "tipo": "pdf"
+        }, None
+    except Exception as e:
+        return None, f"❌ Erro no processamento: {str(e)}"
+def ler_arquivo_texto(arquivo):
+    if arquivo is None: return None
+    try:
+        with open(arquivo.name, "r", encoding="utf-8") as f:
+            conteudo = f.read()
+        return {
+            "arquivo": os.path.basename(arquivo.name),
+            "conteudo": conteudo,
+            "tipo": "texto"
+        }
+    except: return None
+# ==================== 3. PIPELINE DE IA ====================
+def transcrever_chunk(chunk_data, config_agentes):
+    # Função auxiliar para ser executada na thread
+    modelo = model_flash
+    try:
+        if config_agentes and isinstance(config_agentes, list):
+            if config_agentes[0].get("modelo") == "pro":
+                modelo = model_pro
+    except:
+        pass
+    prompt = f"""
+ANÁLISE DE DOCUMENTO (OCR/LEITURA):
+Transcreva e estruture o conteúdo das páginas {chunk_data['paginas']}.
+Texto extraído:
+{chunk_data['texto']}
+Retorne JSON: {{ "transcricao": "...", "objetos": ["..."], "resumo": "..." }}
+"""
+    try:
+        # Retry simples em caso de erro 429 (rate limit)
+        for tentativa in range(3):
+            try:
+                resposta = modelo.generate_content(prompt)
+                texto_resp = resposta.text.replace("```json", "").replace("```", "")
+                return json.loads(texto_resp.strip()), None
+            except Exception as inner_e:
+                if "429" in str(inner_e):
+                    time.sleep(2 * (tentativa + 1))
+                    continue
+                raise inner_e
+    except Exception as e:
+        return None, str(e)
+# ==================== 4. GERENCIADOR DE ARQUIVOS ====================
+class GerenciadorArquivos:
+    def __init__(self):
+        self.arquivos = {}
+    def adicionar(self, arquivo, arquivo_id):
+        self.arquivos[arquivo_id] = {
+            "arquivo": arquivo,
+            "nome": os.path.basename(arquivo.name),
+            "status": "adicionado",
+            "processado": None,
+            "transcricao": None
+        }
+    def gerar_prompt_com_transcricoes(self, texto_usuario):
+        prompt = texto_usuario + "\n\n--- CONTEXTO DOS ARQUIVOS ---\n"
+        count = 0
+        for _, item in self.arquivos.items():
+            if item["status"] == "processado" and item["transcricao"]:
+                count += 1
+                trans = item["transcricao"]
+                nome = item["nome"]
+                prompt += f"\n[ARQUIVO: {nome}]\n"
+                if isinstance(trans, dict) and "chunks_processados" in trans:
+                    # Como garantimos a ordem na lista chunks_processados, iteramos normalmente
+                    for chunk in trans["chunks_processados"]:
+                        if chunk.get("status") == "OK":
+                            resumo = chunk.get('resumo', '')
+                            resumo = str(resumo) if resumo else ""
+                            prompt += f"Páginas {chunk['paginas']}: {resumo}\n"
+                            texto_full = chunk.get('transcricao', '')
+                            if texto_full:
+                                texto_seguro = str(texto_full)
+                                prompt += f"Trecho: {texto_seguro[:400]}...\n"
+                            else:
+                                prompt += "Trecho: (vazio)\n"
+                elif isinstance(trans, dict) and "conteudo" in trans:
+                    conteudo = str(trans['conteudo'])
+                    prompt += f"Conteúdo: {conteudo[:1000]}...\n"
+        if count == 0:
+            prompt += "(Nenhum arquivo processado ainda)"
+        return prompt
+# Instância Global
+gerenciador = GerenciadorArquivos()
+# ==================== 5. FUNÇÕES DE ORQUESTRAÇÃO ====================
+def automacao_upload_processamento(files, history, config_json):
+    if not files:
+        return history
+    try:
+        config_agentes = json.loads(config_json)
+    except:
+        config_agentes = []
+    if history is None:
+        history = []
+    history.append([None, f"📂 **SISTEMA:** Recebi {len(files)} arquivo(s). Verificando cache e processando..."])
+    yield history
+    ids_para_processar = []
+    for f in files:
+        arquivo_id = f"arq_{int(time.time()*1000)}_{f.name}"
+        gerenciador.adicionar(f, arquivo_id)
+        ids_para_processar.append(arquivo_id)
+    for arq_id in ids_para_processar:
+        item = gerenciador.arquivos[arq_id]
+        nome = item["nome"]
+        # --- VERIFICAÇÃO DE CACHE ---
+        nome_cache = limpar_nome_arquivo(nome)
+        caminho_cache = os.path.join(PASTA_TRANSCRICOES, nome_cache)
+        if os.path.exists(caminho_cache):
+            try:
+                with open(caminho_cache, "r", encoding="utf-8") as cache_file:
+                    dados_cache = json.load(cache_file)
+                item["transcricao"] = dados_cache
+                item["status"] = "processado"
+                if nome.lower().endswith('.pdf') and "chunks_processados" in dados_cache:
+                     item["processado"] = {"tipo": "pdf", "chunks": []}
+                history.append([None, f"♻️ **Cache Encontrado:** `{nome}` já foi processado. Carregando..."])
+                yield history
+                continue
+            except Exception as e:
+                history.append([None, f"⚠️ Erro cache `{nome}`: {e}. Reprocessando..."])
+        # ---------------------------
+        history.append([None, f"⚙️ **Processando:** `{nome}`..."])
+        yield history
+        if nome.lower().endswith('.pdf'):
+            if not PDF_SUPPORT:
+                history.append([None, f"❌ Erro em `{nome}`: Biblioteca PDF ausente."])
+                yield history
+                continue
+            pdf_proc, erro = processar_pdf_completo(item["arquivo"])
+            if erro:
+                history.append([None, f"❌ Erro em `{nome}`: {erro}"])
+                yield history
+                continue
+            item["processado"] = pdf_proc
+            chunks = pdf_proc["chunks"]
+            total_chunks = len(chunks)
+            # Inicializa lista com o tamanho exato para garantir a ordem
+            chunks_ordenados = [None] * total_chunks
+            history.append([None, f"📄 `{nome}` fragmentado em {total_chunks} partes. Iniciando IA (Paralelo: {MAX_WORKERS} threads)..."])
+            yield history
+            # --- PROCESSAMENTO PARALELO ---
+            with ThreadPoolExecutor(max_workers=MAX_WORKERS) as executor:
+                # Dicionário para mapear Future -> Índice Original
+                futures_map = {}
+                # Submeter todas as tarefas
+                for i, chunk in enumerate(chunks):
+                    future = executor.submit(transcrever_chunk, chunk, config_agentes)
+                    futures_map[future] = i
+                # Coletar resultados conforme ficam prontos
+                concluidos = 0
+                for future in as_completed(futures_map):
+                    index_original = futures_map[future]
+                    res, err = future.result()
+                    if err:
+                        chunks_ordenados[index_original] = {"status": "ERRO", "paginas": chunks[index_original]["paginas"]}
+                    else:
+                        chunks_ordenados[index_original] = {
+                            "status": "OK",
+                            "paginas": chunks[index_original]["paginas"],
+                            "transcricao": res.get("transcricao"),
+                            "resumo": res.get("resumo")
+                        }
+                    concluidos += 1
+                    # Atualiza a UI a cada 2 chunks ou no final para não flodar
+                    if concluidos % 2 == 0 or concluidos == total_chunks:
+                        msg_base = f"📄 `{nome}`: Processando partes... ({concluidos}/{total_chunks})"
+                        history[-1][1] = msg_base
+                        yield history
+            # ------------------------------
+            dados_finais = {
+                "arquivo": nome,
+                "data_processamento": str(datetime.now()),
+                "chunks_processados": chunks_ordenados # Agora contém a lista na ordem correta
+            }
+            item["transcricao"] = dados_finais
+            item["status"] = "processado"
+            try:
+                with open(caminho_cache, "w", encoding="utf-8") as f_out:
+                    json.dump(dados_finais, f_out, indent=2, ensure_ascii=False)
+                history.append([None, f"💾 `{nome}` processado e salvo no cache."])
+            except Exception as e:
+                 history.append([None, f"⚠️ Erro ao salvar cache: {e}"])
+            yield history
+        else:
+            # Processamento de Texto Simples (não precisa de paralelismo pois é 1 chunk)
+            res = ler_arquivo_texto(item["arquivo"])
+            if res:
+                item["processado"] = res
+                dados_finais = {"conteudo": res["conteudo"], "data_processamento": str(datetime.now())}
+                item["transcricao"] = dados_finais
+                item["status"] = "processado"
+                with open(caminho_cache, "w", encoding="utf-8") as f_out:
+                    json.dump(dados_finais, f_out, indent=2, ensure_ascii=False)
+                history.append([None, f"✅ `{nome}` (Texto) lido e salvo."])
+            else:
+                history.append([None, f"❌ Falha ao ler `{nome}`."])
+            yield history
+    history.append([None, "🏁 **Processamento de lote finalizado.** Os arquivos estão prontos para análise."])
+    yield history
+def chat_orquestrador(message, history, config_json):
+    try:
+        prompt_contexto = gerenciador.gerar_prompt_com_transcricoes(message)
+    except Exception as e:
+        history.append([message, f"❌ Erro ao gerar contexto: {str(e)}"])
+        yield history
+        return
+    try:
+        protocolo = json.loads(config_json)
+    except:
+        history.append([message, "❌ Erro no JSON de Configuração."])
+        yield history
+        return
+    history.append([message, None])
+    yield history
+    timeline_execucao = [{"role": "user", "content": prompt_contexto}]
+    for cfg in protocolo:
+        nome_agente = cfg.get("nome", "Agente")
+        modelo_agente = model_pro if cfg.get("modelo") == "pro" else model_flash
+        history[-1][1] = f"⏳ **{nome_agente}** está analisando..."
+        yield history
+        prompt_agente = f"""
+--- HISTÓRICO ---
+{json.dumps(timeline_execucao, ensure_ascii=False)}
+-----------------
+Você é: {nome_agente}
+Sua Missão: {cfg['missao']}
+Responda de forma concisa e direta.
+"""
+        try:
+            inicio = time.time()
+            resp = modelo_agente.generate_content(prompt_agente)
+            texto_resp = resp.text
+            duracao = time.time() - inicio
+            timeline_execucao.append({"role": "model", "content": f"[{nome_agente}]: {texto_resp}"})
+            msg_atual = history[-1][1]
+            if "⏳" in msg_atual: msg_atual = ""
+            novo_trecho = f"**[{nome_agente}]** ({duracao:.1f}s):\n{texto_resp}\n\n"
+            history[-1][1] = msg_atual + novo_trecho
+            yield history
+        except Exception as e:
+            msg_atual = history[-1][1]
+            history[-1][1] = msg_atual + f"\n❌ Erro em {nome_agente}: {str(e)}\n"
+            yield history
+# ==================== 6. UI (Gradio) ====================
+def ui_v28_corrected():
+    css = """
+    footer {display: none !important;}
+    .contain {border: none !important;}
+    """
+    config_inicial = carregar_protocolo()
+    with gr.Blocks(title="AI Forensics Auto", css=css, theme=gr.themes.Soft()) as app:
+        state_config = gr.State(config_inicial)
+        with gr.Tabs():
+            with gr.Tab("💬 Investigação"):
+                chatbot = gr.Chatbot(
+                    height=550,
+                    show_label=False,
+                    show_copy_button=True,
+                    render_markdown=True
+                )
+                with gr.Row():
+                    txt_input = gr.Textbox(
+                        scale=8,
+                        show_label=False,
+                        placeholder="Digite sua instrução ou pergunta sobre o caso...",
+                        lines=1
+                    )
+                    btn_enviar = gr.Button("Enviar 📨", variant="primary", scale=1)
+                with gr.Accordion("📂 Adicionar Arquivos para Análise", open=False):
+                    gr.Markdown("Selecione arquivos (PDF, TXT). A transcrição iniciará **automaticamente** e os logs aparecerão no chat acima.")
+                    file_uploader = gr.File(
+                        file_count="multiple",
+                        file_types=[".pdf", ".txt", ".json", ".md"],
+                        label="Arraste arquivos aqui ou clique para selecionar"
+                    )
+            with gr.Tab("⚙️ Contexto & Config"):
+                gr.Markdown("### Protocolo dos Agentes")
+                with gr.Row():
+                    btn_save_cfg = gr.Button("💾 Salvar Alterações")
+                    lbl_cfg_status = gr.Label(show_label=False)
+                code_config = gr.Code(value=config_inicial, language="json", label="protocolo.json")
+                btn_save_cfg.click(salvar_protocolo, inputs=[code_config], outputs=[lbl_cfg_status])
+                btn_save_cfg.click(lambda x: x, inputs=[code_config], outputs=[state_config])
+        btn_enviar.click(
+            chat_orquestrador,
+            inputs=[txt_input, chatbot, state_config],
+            outputs=[chatbot]
+        ).then(
+            lambda: "", outputs=[txt_input]
+        )
+        file_uploader.upload(
+            automacao_upload_processamento,
+            inputs=[file_uploader, chatbot, state_config],
+            outputs=[chatbot]
+        )
+    return app
+if __name__ == "__main__":
+    ui_v28_corrected().launch()