Spaces:

Madras1
/

AetherMap

Sleeping

App Files Files Community

Madras1 commited on Nov 18, 2025

Commit

5eabe6b

verified ·

1 Parent(s): d4d91b0

Update app.py

Browse files

Files changed (1) hide show

app.py +72 -37

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 # ==============================================================================
-#  API do AetherMap — VERSÃO SÁBIA 5.2 (COMPLETA E SEGURA)
-#  Backend com TODAS as funcionalidades originais + descrição de cluster por IA.
 # ==============================================================================
 import numpy as np
@@ -40,8 +41,7 @@ UMAP_N_NEIGHBORS = 30
 # A Câmara do Tesouro (Cache de Sessão)
 cache: Dict[str, Any] = {}
-# <<< NOVA SEÇÃO: INICIALIZAÇÃO SEGURA DO ORÁCULO >>>
-# Busca a chave dos segredos do Hugging Face ou do ambiente local
 GROQ_API_KEY = os.environ.get("GROQ_API_KEY")
 try:
     if not GROQ_API_KEY:
@@ -52,7 +52,7 @@ except Exception as e:
     logging.error(f"FALHA CRÍTICA AO INICIALIZAR GROQ: {e}")
     groq_client = None
-# Palavras de Parada (mantidas do seu original)
 STOP_WORDS_PT = [
     'de','a','o','que','e','do','da','em','um','para','é','com','não','uma','os','no',
     'se','na','por','mais','as','dos','como','mas','foi','ao','ele','das','tem','à',
@@ -80,7 +80,7 @@ STOP_WORDS_PT = [
 # ==============================================================================
-# FUNÇÕES DE ANÁLISE (TODAS RESTAURADAS E INTACTAS)
 # ==============================================================================
 @lru_cache(maxsize=1)
 def load_model():
@@ -97,19 +97,14 @@ def processar_pipeline(textos: List[str]) -> (pd.DataFrame, np.ndarray):
     logging.info(f"Iniciando pipeline para {len(textos)} textos...")
     model = load_model()
     embeddings = model.encode(textos, batch_size=BATCH_SIZE, show_progress_bar=False, convert_to_numpy=True)
     reducer = umap.UMAP(n_components=3, n_neighbors=UMAP_N_NEIGHBORS, min_dist=0.0, metric="cosine", random_state=42)
     emb_3d = reducer.fit_transform(embeddings)
     emb_3d = StandardScaler().fit_transform(emb_3d)
-    # <<< AJUSTE SUTIL E IMPORTANTE: HDBSCAN DINÂMICO >>>
     num_textos = len(textos)
-    min_size = max(10, int(num_textos * 0.03))
     logging.info(f"HDBSCAN min_cluster_size dinâmico definido para: {min_size}")
     clusterer = hdbscan.HDBSCAN(min_cluster_size=min_size)
     clusters = clusterer.fit_predict(emb_3d)
     df = pd.DataFrame({"x": emb_3d[:, 0], "y": emb_3d[:, 1], "z": emb_3d[:, 2], "full_text": textos, "cluster": clusters.astype(str)})
     del reducer, clusterer, emb_3d; gc.collect()
     return df, embeddings
@@ -124,15 +119,12 @@ def calcular_metricas(textos: List[str]) -> Dict[str, Any]:
         tfidf_matrix = vectorizer_tfidf.fit_transform(textos)
     except ValueError:
         return {"riqueza_lexical": 0, "top_tfidf_palavras": [], "entropia": 0.0}
     vocab_count = vectorizer_count.get_feature_names_out()
     contagens = counts_matrix.sum(axis=0).A1
     vocab_tfidf = vectorizer_tfidf.get_feature_names_out()
     soma_tfidf = tfidf_matrix.sum(axis=0).A1
     top_idx_tfidf = np.argsort(soma_tfidf)[-10:][::-1]
     top_tfidf = [{"palavra": vocab_tfidf[i], "score": round(float(soma_tfidf[i]), 4)} for i in top_idx_tfidf]
     return {
         "riqueza_lexical": len(vocab_count),
         "top_tfidf_palavras": top_tfidf,
@@ -149,16 +141,11 @@ def encontrar_duplicados(df: pd.DataFrame, embeddings: np.ndarray) -> Dict[str,
         triu_indices = np.triu_indices_from(sim, k=1)
         sim_vetor = sim[triu_indices]
         pares_idx = np.where(sim_vetor > 0.98)[0]
-        # Pegamos os 5 mais similares para não sobrecarregar
         top_pares_idx = pares_idx[np.argsort(sim_vetor[pares_idx])[-5:][::-1]]
         for i in top_pares_idx:
             idx1, idx2 = triu_indices[0][i], triu_indices[1][i]
             if df["full_text"].iloc[idx1] != df["full_text"].iloc[idx2]:
-                pares_semanticos.append({
-                    "similaridade": float(sim[idx1, idx2]),
-                    "texto1": df["full_text"].iloc[idx1],
-                    "texto2": df["full_text"].iloc[idx2]
-                })
     return {"grupos_exatos": grupos_exatos, "pares_semanticos": pares_semanticos}
 def analisar_clusters(df: pd.DataFrame) -> Dict[str, Any]:
@@ -180,10 +167,11 @@ def analisar_clusters(df: pd.DataFrame) -> Dict[str, Any]:
         analise[cid] = {"num_documentos": len(textos_cluster), "top_palavras": top_palavras}
     return analise
 # ==============================================================================
 # FASTAPI — DEFINIÇÃO DA API (COMPLETA)
 # ==============================================================================
-app = FastAPI(title="API do AetherMap (Versão Sábia e Completa)", version="5.2.0")
 @app.post("/process/")
 async def process_api(n_samples: int = Form(10000), file: UploadFile = File(...)):
@@ -199,7 +187,6 @@ async def process_api(n_samples: int = Form(10000), file: UploadFile = File(...)
         cache[job_id] = {"embeddings": embeddings, "df": df}
         logging.info(f"Resultados salvos no cache com o ID: {job_id}")
-        # TODAS AS ANÁLISES SENDO FEITAS E RETORNADAS
         metricas_globais = calcular_metricas(df["full_text"].tolist())
         analise_de_duplicados = encontrar_duplicados(df, embeddings)
         analise_por_cluster_tfidf = analisar_clusters(df)
@@ -220,21 +207,68 @@ async def process_api(n_samples: int = Form(10000), file: UploadFile = File(...)
         raise HTTPException(status_code=500, detail=f"Erro interno do servidor: {str(e)}")
-# Endpoint de Busca Semântica (INTACTO)
 @app.post("/search/")
 async def search_api(query: str = Form(...), job_id: str = Form(...)):
-    # ... (código do /search/ inalterado)
-    if job_id not in cache: raise HTTPException(status_code=404, detail="Job ID não encontrado ou expirado.")
-    model = load_model()
-    cached_data = cache[job_id]
-    corpus_embeddings = cached_data["embeddings"]
-    query_embedding = model.encode([query], convert_to_numpy=True)
-    similarities = cosine_similarity(query_embedding, corpus_embeddings)[0]
-    top_indices = np.argsort(similarities)[-100:][::-1]
-    results = [{"index": int(i), "score": float(similarities[i])} for i in top_indices if similarities[i] > 0.3]
-    return {"results": results}
-# <<< NOVO FEITIÇO IMPERIAL, ACOPLADO AO REINO >>>
 @app.post("/describe_clusters/")
 async def describe_clusters_api(job_id: str = Form(...)):
     logging.info(f"Requisição recebida para descrever clusters do job '{job_id}'.")
@@ -277,13 +311,14 @@ async def describe_clusters_api(job_id: str = Form(...)):
             messages=[
                 {"role": "system", "content": "Siga as instruções e responda apenas com um objeto JSON válido."},
                 {"role": "user", "content": master_prompt},
-            ], model="meta-llama/llama-4-scout-17b-16e-instruct", temperature=0.2,
         )
         response_content = chat_completion.choices[0].message.content
         try:
             insights = json.loads(response_content.strip().replace("```json", "").replace("```", ""))
         except json.JSONDecodeError:
             raise HTTPException(status_code=500, detail="O Oráculo respondeu em um formato inesperado.")
         return {"insights": insights}

 # ==============================================================================
+#  API do AetherMap — VERSÃO SÁBIA 6.0 (O SÁBIO INVOCADO)
+#  Backend com RAG (Retrieval-Augmented Generation) na busca semântica.
+#  Todas as funcionalidades anteriores estão presentes e aprimoradas.
 # ==============================================================================
 import numpy as np
 # A Câmara do Tesouro (Cache de Sessão)
 cache: Dict[str, Any] = {}
+# Inicialização segura do Oráculo Groq
 GROQ_API_KEY = os.environ.get("GROQ_API_KEY")
 try:
     if not GROQ_API_KEY:
     logging.error(f"FALHA CRÍTICA AO INICIALIZAR GROQ: {e}")
     groq_client = None
+# Palavras de Parada
 STOP_WORDS_PT = [
     'de','a','o','que','e','do','da','em','um','para','é','com','não','uma','os','no',
     'se','na','por','mais','as','dos','como','mas','foi','ao','ele','das','tem','à',
 # ==============================================================================
+# FUNÇÕES DE ANÁLISE (INTACTAS DA VERSÃO COMPLETA)
 # ==============================================================================
 @lru_cache(maxsize=1)
 def load_model():
     logging.info(f"Iniciando pipeline para {len(textos)} textos...")
     model = load_model()
     embeddings = model.encode(textos, batch_size=BATCH_SIZE, show_progress_bar=False, convert_to_numpy=True)
     reducer = umap.UMAP(n_components=3, n_neighbors=UMAP_N_NEIGHBORS, min_dist=0.0, metric="cosine", random_state=42)
     emb_3d = reducer.fit_transform(embeddings)
     emb_3d = StandardScaler().fit_transform(emb_3d)
     num_textos = len(textos)
+    min_size = max(10, int(num_textos * 0.02))
     logging.info(f"HDBSCAN min_cluster_size dinâmico definido para: {min_size}")
     clusterer = hdbscan.HDBSCAN(min_cluster_size=min_size)
     clusters = clusterer.fit_predict(emb_3d)
     df = pd.DataFrame({"x": emb_3d[:, 0], "y": emb_3d[:, 1], "z": emb_3d[:, 2], "full_text": textos, "cluster": clusters.astype(str)})
     del reducer, clusterer, emb_3d; gc.collect()
     return df, embeddings
         tfidf_matrix = vectorizer_tfidf.fit_transform(textos)
     except ValueError:
         return {"riqueza_lexical": 0, "top_tfidf_palavras": [], "entropia": 0.0}
     vocab_count = vectorizer_count.get_feature_names_out()
     contagens = counts_matrix.sum(axis=0).A1
     vocab_tfidf = vectorizer_tfidf.get_feature_names_out()
     soma_tfidf = tfidf_matrix.sum(axis=0).A1
     top_idx_tfidf = np.argsort(soma_tfidf)[-10:][::-1]
     top_tfidf = [{"palavra": vocab_tfidf[i], "score": round(float(soma_tfidf[i]), 4)} for i in top_idx_tfidf]
     return {
         "riqueza_lexical": len(vocab_count),
         "top_tfidf_palavras": top_tfidf,
         triu_indices = np.triu_indices_from(sim, k=1)
         sim_vetor = sim[triu_indices]
         pares_idx = np.where(sim_vetor > 0.98)[0]
         top_pares_idx = pares_idx[np.argsort(sim_vetor[pares_idx])[-5:][::-1]]
         for i in top_pares_idx:
             idx1, idx2 = triu_indices[0][i], triu_indices[1][i]
             if df["full_text"].iloc[idx1] != df["full_text"].iloc[idx2]:
+                pares_semanticos.append({"similaridade": float(sim[idx1, idx2]), "texto1": df["full_text"].iloc[idx1], "texto2": df["full_text"].iloc[idx2]})
     return {"grupos_exatos": grupos_exatos, "pares_semanticos": pares_semanticos}
 def analisar_clusters(df: pd.DataFrame) -> Dict[str, Any]:
         analise[cid] = {"num_documentos": len(textos_cluster), "top_palavras": top_palavras}
     return analise
 # ==============================================================================
 # FASTAPI — DEFINIÇÃO DA API (COMPLETA)
 # ==============================================================================
+app = FastAPI(title="API do AetherMap (O Sábio Invocado)", version="6.0.0")
 @app.post("/process/")
 async def process_api(n_samples: int = Form(10000), file: UploadFile = File(...)):
         cache[job_id] = {"embeddings": embeddings, "df": df}
         logging.info(f"Resultados salvos no cache com o ID: {job_id}")
         metricas_globais = calcular_metricas(df["full_text"].tolist())
         analise_de_duplicados = encontrar_duplicados(df, embeddings)
         analise_por_cluster_tfidf = analisar_clusters(df)
         raise HTTPException(status_code=500, detail=f"Erro interno do servidor: {str(e)}")
 @app.post("/search/")
 async def search_api(query: str = Form(...), job_id: str = Form(...)):
+    logging.info(f"Busca RAG recebida para a query '{query}' no job '{job_id}'.")
+    if job_id not in cache:
+        raise HTTPException(status_code=404, detail="Job ID não encontrado ou expirado.")
+    try:
+        # ETAPA 1: RECUPERAÇÃO (RETRIEVAL)
+        model = load_model()
+        cached_data = cache[job_id]
+        df = cached_data["df"]
+        corpus_embeddings = cached_data["embeddings"]
+        query_embedding = model.encode([query], convert_to_numpy=True)
+        similarities = cosine_similarity(query_embedding, corpus_embeddings)[0]
+        top_k = 10
+        top_indices = np.argsort(similarities)[-top_k:][::-1]
+        results = [
+            {"index": int(i), "score": float(similarities[i])}
+            for i in top_indices if similarities[i] > 0.3
+        ]
+        if not results:
+            return {"summary": "Não foram encontrados resultados relevantes para sua busca.", "results": []}
+        # ETAPA 2: GERAÇÃO AUMENTADA (AUGMENTED GENERATION)
+        summary = ""
+        if groq_client:
+            context_docs = [df.iloc[res["index"]]["full_text"] for res in results[:5]]
+            context_str = "\n\n".join([f"Documento de referência {i+1}:\n'''{doc}'''" for i, doc in enumerate(context_docs)])
+            rag_prompt = (
+                "Você é Aetherius, um Sábio Conselheiro. Sua tarefa é responder à pergunta do usuário de forma concisa e direta, "
+                "baseando-se **estritamente** nas informações contidas nos documentos de referência fornecidos. "
+                "Não use nenhum conhecimento externo. Responda em uma ou duas frases.\n\n"
+                f"**Pergunta do Usuário:** \"{query}\"\n\n"
+                f"{context_str}\n\n"
+                "**Sua Resposta Direta:**"
+            )
+            try:
+                chat_completion = groq_client.chat.completions.create(
+                    messages=[{"role": "user", "content": rag_prompt}],
+                    model="llama3-8b-8192",
+                    temperature=0.2,
+                )
+                summary = chat_completion.choices[0].message.content.strip()
+                logging.info(f"Resumo RAG gerado com sucesso.")
+            except Exception as e:
+                logging.warning(f"Falha ao gerar resumo RAG com a Groq: {e}")
+                summary = "O Oráculo está indisponível para gerar um resumo, mas aqui estão os documentos encontrados."
+        logging.info(f"Encontrados {len(results)} resultados. Resumo: {summary[:50]}...")
+        return {"summary": summary, "results": results}
+    except Exception as e:
+        logging.error(f"ERRO CRÍTICO EM /search/: {e}", exc_info=True)
+        raise HTTPException(status_code=500, detail=f"Erro interno na busca semântica: {str(e)}")
 @app.post("/describe_clusters/")
 async def describe_clusters_api(job_id: str = Form(...)):
     logging.info(f"Requisição recebida para descrever clusters do job '{job_id}'.")
             messages=[
                 {"role": "system", "content": "Siga as instruções e responda apenas com um objeto JSON válido."},
                 {"role": "user", "content": master_prompt},
+            ], model="llama3-8b-8192", temperature=0.2,
         )
         response_content = chat_completion.choices[0].message.content
         try:
             insights = json.loads(response_content.strip().replace("```json", "").replace("```", ""))
         except json.JSONDecodeError:
+            logging.error(f"Falha ao decodificar JSON da Groq. Resposta: {response_content}")
             raise HTTPException(status_code=500, detail="O Oráculo respondeu em um formato inesperado.")
         return {"insights": insights}