Spaces:

Madras1
/

AetherMap

Sleeping

App Files Files Community

Madras1 commited on Nov 17, 2025

Commit

88b1fb5

verified ·

1 Parent(s): d21f330

Update app.py

Browse files

Files changed (1) hide show

app.py +159 -220

app.py CHANGED Viewed

@@ -1,263 +1,202 @@
 # ==============================================================================
-#  API de Análise de Textos com FastAPI — VERSÃO PROFISSIONAL
-#  Totalmente reescrita para estabilidade, paralelismo seguro e isolamento.
 # ==============================================================================
 import numpy as np
 import pandas as pd
-import torch
-import gc
-from fastapi import FastAPI, UploadFile, File, Form, HTTPException
-from typing import List, Dict, Any
-from functools import lru_cache
 from sentence_transformers import SentenceTransformer
 import umap
 import hdbscan
 from sklearn.preprocessing import StandardScaler
 from sklearn.metrics.pairwise import cosine_similarity
-from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
 from scipy.stats import entropy
-# ==============================================================================
-# CONFIGURAÇÕES GERAIS
-# ==============================================================================
-DEFAULT_MODEL = "all-MiniLM-L6-v2"
 BATCH_SIZE = 256
-UMAP_N_NEIGHBORS = 30
-HDBSCAN_MIN_SIZE = 50
-STOP_WORDS_PT = [
-    'de','a','o','que','e','do','da','em','um','para','é','com','não','uma','os','no',
-    'se','na','por','mais','as','dos','como','mas','foi','ao','ele','das','tem','à',
-    'seu','sua','ou','ser','quando','muito','há','nos','já','está','eu','também','só',
-    'pelo','pela','até','isso','ela','entre','era','depois','sem','mesmo','aos','ter',
-    'seus','quem','nas','me','esse','eles','estão','você','tinha','foram','essa','num',
-    'nem','suas','meu','às','minha','numa','pelos','elas','havia','seja','qual','será',
-    'nós','tenho','lhe','deles','essas','esses','pelas','este','fosse','dele','tu','te',
-    'vocês','vos','lhes','meus','minhas','teu','tua','teus','tuas','nosso','nossa',
-    'nossos','nossas','dela','delas','esta','estes','estas','aquele','aquela','aqueles',
-    'aquelas','isto','aquilo','estou','está','estamos','estão','estive','esteve',
-    'estivemos','estiveram','estava','estávamos','estavam','estivera','estivéramos',
-    'esteja','estejamos','estejam','estivesse','estivéssemos','estivessem','estiver',
-    'estivermos','estiverem','hei','há','havemos','hão','houve','houvemos','houveram',
-    'houvera','houvéramos','haja','hajamos','hajam','houvesse','houvéssemos','houvessem',
-    'houver','houvermos','houverem','houverei','houverá','houveremos','houverão',
-    'houveria','houveríamos','houveriam','sou','somos','são','era','éramos','eram',
-    'fui','foi','fomos','foram','fora','fôramos','seja','sejamos','sejam','fosse',
-    'fôssemos','fossem','for','formos','forem','serei','será','seremos','serão','seria',
-    'seríamos','seriam','tenho','tem','temos','tém','tinha','tínhamos','tinham','tive',
-    'teve','tivemos','tiveram','tivera','tivéramos','tenha','tenhamos','tenham',
-    'tivesse','tivéssemos','tivessem','tiver','tivermos','tiverem','terei','terá',
-    'teremos','terão','teria','teríamos','teriam','dá','pergunta','resposta'
-]
-# ==============================================================================
-# MODELO — Carregado uma vez e reaproveitado (seguro e imutável)
-# ==============================================================================
-@lru_cache(maxsize=1)
 def load_model():
     device = "cuda" if torch.cuda.is_available() else "cpu"
-    print(f"[MODEL] Carregando modelo '{DEFAULT_MODEL}' em: {device}")
-    return SentenceTransformer(DEFAULT_MODEL, device=device)
-# ==============================================================================
-# FUNÇÃO: Preparar textos
-# ==============================================================================
-def preparar_textos(file_bytes: bytes, n_samples: int) -> List[str]:
-    linhas = file_bytes.decode("utf-8", errors="ignore").splitlines()
-    textos = [s for line in linhas if (s := line.strip()) and len(s.split()) > 3]
-    return textos[:n_samples]
-# ==============================================================================
-# FUNÇÃO: Pipeline principal (um por requisição, seguro)
-# ==============================================================================
-def processar_pipeline(textos: List[str]) -> (pd.DataFrame, np.ndarray):
-    print(f"[PIPELINE] Iniciando pipeline para {len(textos)} textos...")
     model = load_model()
-    # Embeddings
-    print("[PIPELINE] Gerando embeddings...")
-    embeddings = model.encode(
-        textos,
-        batch_size=BATCH_SIZE,
-        show_progress_bar=False,
-        convert_to_numpy=True
-    )
-    # UMAP
-    print("[PIPELINE] Reduzindo dimensionalidade com UMAP...")
-    reducer = umap.UMAP(
-        n_components=3,
-        n_neighbors=UMAP_N_NEIGHBORS,
-        min_dist=0.0,
-        metric="cosine",
-        random_state=42
-    )
-    emb_3d = reducer.fit_transform(embeddings)
-    # Normalize
-    emb_3d = StandardScaler().fit_transform(emb_3d)
-    # HDBSCAN
-    print("[PIPELINE] Clusterizando com HDBSCAN...")
-    clusterer = hdbscan.HDBSCAN(min_cluster_size=HDBSCAN_MIN_SIZE)
-    clusters = clusterer.fit_predict(emb_3d)
     df = pd.DataFrame({
-        "x": emb_3d[:, 0],
-        "y": emb_3d[:, 1],
-        "z": emb_3d[:, 2],
-        "full_text": textos,
-        "cluster": clusters.astype(str)
     })
-    del reducer, clusterer, emb_3d
     gc.collect()
-    return df, embeddings
-# ==============================================================================
-# FUNÇÃO: Métricas globais do corpus
-# ==============================================================================
-def calcular_metricas(textos: List[str]) -> Dict[str, Any]:
-    print("[METRICAS] Calculando métricas globais...")
-    # Riqueza lexical
-    try:
-        vectorizer_count = CountVectorizer(stop_words=STOP_WORDS_PT, max_features=20000)
-        vectorizer_count.fit(textos)
-        riqueza = len(vectorizer_count.get_feature_names_out())
-    except ValueError:
-        riqueza = 0
-    # TF-IDF
     try:
         vectorizer_tfidf = TfidfVectorizer(stop_words=STOP_WORDS_PT, max_features=20000)
-        tfidf_matrix = vectorizer_tfidf.fit_transform(textos)
         vocab = vectorizer_tfidf.get_feature_names_out()
-        soma = tfidf_matrix.sum(axis=0).A1
-        top_idx = np.argsort(soma)[-10:][::-1]
-        palavras_relevantes = [vocab[i] for i in top_idx]
-    except ValueError:
         palavras_relevantes = []
-    # Entropia
-    try:
-        contagens = vectorizer_count.transform(textos).sum(axis=0).A1
-        ent = entropy(contagens / contagens.sum(), base=2)
-    except Exception:
-        ent = 0.0
-    return {
-        "riqueza_lexical": int(riqueza),
-        "palavras_relevantes": palavras_relevantes,
-        "entropia": float(ent)
-    }
-# ==============================================================================
-# FUNÇÃO: Duplicados exatos e semânticos
-# ==============================================================================
-def encontrar_duplicados(df: pd.DataFrame, embeddings: np.ndarray) -> Dict[str, Any]:
-    print("[DUPLICADOS] Detectando duplicados...")
-    # Duplicados exatos
-    mask = df["full_text"].duplicated(keep=False)
-    df_dup = df[mask]
-    grupos_exatos = {}
-    if not df_dup.empty:
-        grupos_exatos = {
-            texto: [int(i) for i in indices]
-            for texto, indices in df_dup.groupby("full_text").groups.items()
         }
-    # Duplicados semânticos (limite)
     pares_semanticos = []
-    limite = 5000
-    if len(embeddings) < limite:
-        sim = cosine_similarity(embeddings)
-        triu = np.triu_indices_from(sim, k=1)
-        pares = np.where(sim[triu] > 0.98)[0]
-        for i in pares:
-            idx1, idx2 = triu[0][i], triu[1][i]
-            if df["full_text"].iloc[idx1] != df["full_text"].iloc[idx2]:
-                pares_semanticos.append({
-                    "doc1_idx": int(idx1),
-                    "doc2_idx": int(idx2),
-                    "similaridade": float(sim[idx1, idx2]),
-                    "texto1": df["full_text"].iloc[idx1],
-                    "texto2": df["full_text"].iloc[idx2],
-                })
-    return {
-        "grupos_exatos": grupos_exatos,
-        "pares_semanticos": pares_semanticos
-    }
-# ==============================================================================
-# FASTAPI — DEFINIÇÃO DA API
-# ==============================================================================
-app = FastAPI(
-    title="API do AetherMap (Versão Profissional)",
-    version="2.0.0",
-)
-@app.post("/process/")
-async def process_api(
-    n_samples: int = Form(10000),
-    file: UploadFile = File(...)
-):
-    print(f"[API] Requisição recebida para {file.filename} ({n_samples} amostras).")
     try:
         file_bytes = await file.read()
-        textos = preparar_textos(file_bytes, n_samples)
-        if not textos:
-            raise HTTPException(status_code=400, detail="Nenhum texto válido encontrado.")
-        df, embeddings = processar_pipeline(textos)
-        metricas = calcular_metricas(df["full_text"].tolist())
-        duplicados = encontrar_duplicados(df, embeddings)
-        n_clusters = len(df["cluster"].unique()) - (1 if "-1" in df["cluster"].unique() else 0)
-        n_ruido = (df["cluster"] == "-1").sum()
-        resposta = {
             "metadata": {
                 "filename": file.filename,
                 "num_documents_processed": int(len(df)),
-                "n_samples_requested": n_samples,
                 "num_clusters_found": int(n_clusters),
                 "num_noise_points": int(n_ruido),
             },
             "metrics": metricas,
-            "duplicates": duplicados,
-            "plot_data": df[["x", "y", "z", "cluster", "full_text"]].to_dict("records"),
         }
-        print("[API] Processamento finalizado com sucesso.")
-        return resposta
     except Exception as e:
         import traceback
-        print("[ERRO] ERRO CRÍTICO NA REQUISIÇÃO:", e)
         traceback.print_exc()
-        raise HTTPException(status_code=500, detail=f"Erro interno do servidor: {str(e)}")

 # ==============================================================================
+#  API de Análise de Textos com FastAPI (VERSÃO IMPERIAL 2.0)
+# Arquivo: app.py
+# Backend para o AetherMap by Strand DataOps
 # ==============================================================================
+import streamlit as st
 import numpy as np
 import pandas as pd
 from sentence_transformers import SentenceTransformer
 import umap
 import hdbscan
 from sklearn.preprocessing import StandardScaler
 from sklearn.metrics.pairwise import cosine_similarity
+from sklearn.feature_extraction.text import TfidfVectorizer
 from scipy.stats import entropy
+import torch
+import gc
+from fastapi import FastAPI, UploadFile, File, Form, HTTPException
+from typing import Dict, Any, List
+from leia import SentimentIntensityAnalyzer # NOVO FEITIÇO: Importando o analisador de sentimento
+# ================================
+# CONFIGURAÇÕES E CONSTANTES
+# ================================
+DEFAULT_MODEL = 'all-MiniLM-L6-v2'
 BATCH_SIZE = 256
+UMAP_N_NEIGHBORS = 15
+HDBSCAN_MIN_SIZE = 20
+HDBSCAN_MIN_SAMPLES = 5
+STOP_WORDS_PT = ['de', 'a', 'o', 'que', 'e', 'do', 'da', 'em', 'um', 'para', 'é', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'foi', 'ao', 'ele', 'das', 'tem', 'à', 'seu', 'sua', 'ou', 'ser', 'quando', 'muito', 'há', 'nos', 'já', 'está', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'era', 'depois', 'sem', 'mesmo', 'aos', 'ter', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'estão', 'você', 'tinha', 'foram', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'havia', 'seja', 'qual', 'será', 'nós', 'tenho', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'fosse', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estivermos', 'estiverem', 'hei', 'há', 'havemos', 'hão', 'houve', 'houvemos', 'houveram', 'houvera', 'houvéramos', 'haja', 'hajamos', 'hajam', 'houvesse', 'houvéssemos', 'houvessem', 'houver', 'houvermos', 'houverem', 'houverei', 'houverá', 'houveremos', 'houverão', 'houveria', 'houveríamos', 'houveriam', 'sou', 'somos', 'são', 'era', 'éramos', 'eram', 'fui', 'foi', 'fomos', 'foram', 'fora', 'fôramos', 'seja', 'sejamos', 'sejam', 'fosse', 'fôssemos', 'fossem', 'for', 'formos', 'forem', 'serei', 'será', 'seremos', 'serão', 'seria', 'seríamos', 'seriam', 'tenho', 'tem', 'temos', 'tém', 'tinha', 'tínhamos', 'tinham', 'tive', 'teve', 'tivemos', 'tiveram', 'tivera', 'tivéramos', 'tenha', 'tenhamos', 'tenham', 'tivesse', 'tivéssemos', 'tivessem', 'tiver', 'tivermos', 'tiverem', 'terei', 'terá', 'teremos', 'terão', 'teria', 'teríamos', 'teriam']
+# ================================
+# LÓGICA DE PROCESSAMENTO
+# ================================
+@st.cache_resource
 def load_model():
     device = "cuda" if torch.cuda.is_available() else "cpu"
+    print(f"Carregando modelo para o dispositivo: {device}")
+    model = SentenceTransformer(DEFAULT_MODEL, device=device)
+    return model
+@st.cache_data
+def process_data_pipeline(file_bytes, n_samples):
+    print("Iniciando o pipeline de processamento de dados...")
+    lines = file_bytes.decode('utf-8').splitlines()
+    _texts = [s for line in lines if (s := line.strip()) and len(s.split()) > 3][:n_samples]
+    if not _texts: return None, None, None
     model = load_model()
+    print("Gerando embeddings...")
+    embeddings = model.encode(_texts, batch_size=BATCH_SIZE, show_progress_bar=False, convert_to_numpy=True)
+    print("Reduzindo dimensionalidade com UMAP...")
+    reducer = umap.UMAP(n_components=3, n_neighbors=UMAP_N_NEIGHBORS, min_dist=0.0, metric='cosine', random_state=42)
+    embedding_3d = reducer.fit_transform(embeddings)
+    embedding_3d = StandardScaler().fit_transform(embedding_3d)
+    print("Clusterizando com HDBSCAN...")
+    clusterer = hdbscan.HDBSCAN(min_cluster_size=HDBSCAN_MIN_SIZE, min_samples=HDBSCAN_MIN_SAMPLES, prediction_data=True)
+    clusters = clusterer.fit_predict(embedding_3d)
+    print("Montando o DataFrame final...")
     df = pd.DataFrame({
+        'x': embedding_3d[:, 0], 'y': embedding_3d[:, 1], 'z': embedding_3d[:, 2],
+        'full_text': _texts, 'cluster': clusters,
+        'probability': clusterer.probabilities_
     })
+    s = SentimentIntensityAnalyzer()
+    df['sentiment'] = df['full_text'].apply(lambda text: s.polarity_scores(text)['compound'])
+    del reducer, clusterer, embedding_3d
     gc.collect()
+    print("Pipeline de processamento de dados concluído.")
+    return df, embeddings, _texts
+@st.cache_data
+def calcular_metricas_globais_api(_texts: List[str]) -> Dict[str, Any]:
+    print("Calculando métricas globais...")
     try:
         vectorizer_tfidf = TfidfVectorizer(stop_words=STOP_WORDS_PT, max_features=20000)
+        tfidf_matrix = vectorizer_tfidf.fit_transform(_texts)
         vocab = vectorizer_tfidf.get_feature_names_out()
+        riqueza_lexical = len(vocab)
+        soma_tfidf = tfidf_matrix.sum(axis=0).A1
+        indices_top_tfidf = np.argsort(soma_tfidf)[-10:][::-1]
+        palavras_relevantes = [vocab[i] for i in indices_top_tfidf]
+        contagens_palavras = np.array(tfidf_matrix.sum(axis=0)).flatten()
+        entropia_corpus = entropy(contagens_palavras / np.sum(contagens_palavras), base=2)
+    except (ValueError, ZeroDivisionError):
+        riqueza_lexical = 0
         palavras_relevantes = []
+        entropia_corpus = 0.0
+    return {"riqueza_lexical": int(riqueza_lexical), "palavras_relevantes": palavras_relevantes, "entropia": float(entropia_corpus)}
+@st.cache_data
+def analisar_clusters_api(_df: pd.DataFrame, _embeddings: np.ndarray, _texts: List[str]) -> Dict[str, Any]:
+    print("Analisando detalhes de cada cluster...")
+    analise = {}
+    text_df = pd.DataFrame({'full_text': _texts, 'cluster': _df['cluster']})
+    for cluster_id in sorted(_df['cluster'].unique()):
+        if cluster_id == -1: continue
+        cluster_indices = _df[_df['cluster'] == cluster_id].index
+        cluster_texts = text_df.loc[cluster_indices, 'full_text'].tolist()
+        cluster_embeddings = _embeddings[cluster_indices]
+        try:
+            vectorizer = TfidfVectorizer(stop_words=STOP_WORDS_PT, max_features=100, ngram_range=(1,2))
+            vectorizer.fit(cluster_texts)
+            keywords = vectorizer.get_feature_names_out()[:10]
+        except ValueError:
+            keywords = []
+        centroid = np.mean(cluster_embeddings, axis=0).reshape(1, -1)
+        similarities = cosine_similarity(cluster_embeddings, centroid)
+        representative_idx_in_cluster = np.argmax(similarities)
+        original_idx = cluster_indices[representative_idx_in_cluster]
+        representative_doc = _texts[original_idx]
+        cohesion = _df.loc[cluster_indices, 'probability'].mean()
+        analise[str(cluster_id)] = {
+            "size": len(cluster_texts),
+            "keywords": list(keywords),
+            "representative_doc": representative_doc,
+            "cohesion_score": float(cohesion),
+            "avg_sentiment": float(_df.loc[cluster_indices, 'sentiment'].mean())
         }
+    return analise
+@st.cache_data
+def encontrar_duplicados_api(_df: pd.DataFrame, _embeddings: np.ndarray, similaridade_minima: float = 0.98) -> Dict[str, Any]:
+    print("Procurando por duplicados...")
+    duplicados_exatos_mask = _df['full_text'].duplicated(keep=False)
+    df_duplicados_exatos = _df[duplicados_exatos_mask].copy()
+    grupos_exatos = {}
+    if not df_duplicados_exatos.empty:
+        grupos_exatos = {text: [int(i) for i in list(indices)] for text, indices in df_duplicados_exatos.groupby('full_text').groups.items()}
     pares_semanticos = []
+    limite_semantico = 5000
+    if len(_embeddings) < limite_semantico:
+        sim_matrix = cosine_similarity(_embeddings)
+        indices_superiores = np.triu_indices_from(sim_matrix, k=1)
+        pares_altamente_similares = sim_matrix[indices_superiores] > similaridade_minima
+        indices_pares = np.where(pares_altamente_similares)[0]
+        for i in indices_pares:
+            idx1, idx2 = indices_superiores[0][i], indices_superiores[1][i]
+            if _df['full_text'].iloc[int(idx1)] != _df['full_text'].iloc[int(idx2)]:
+                pares_semanticos.append({'doc1_idx': int(idx1), 'doc2_idx': int(idx2), 'similaridade': float(sim_matrix[int(idx1), int(idx2)]), 'texto1': _df['full_text'].iloc[int(idx1)], 'texto2': _df['full_text'].iloc[int(idx2)]})
+    return {"grupos_exatos": grupos_exatos, "pares_semanticos": pares_semanticos}
+# ================================
+# DEFINIÇÃO DA API COM FASTAPI
+# ================================
+app = FastAPI(title="API do AetherMap by Strand DataOps", version="2.0.0")
+@app.post("/process/", summary="Processa e Analisa um Arquivo de Texto")
+async def process_text_file(n_samples: int = Form(10000), file: UploadFile = File(...)):
+    print(f"Recebida requisição para processar {n_samples} amostras do arquivo: {file.filename}")
     try:
         file_bytes = await file.read()
+        df, embeddings, texts = process_data_pipeline(file_bytes, n_samples)
+        if df is None:
+            raise HTTPException(status_code=400, detail="Nenhum texto válido encontrado no arquivo.")
+        metricas = calcular_metricas_globais_api(texts)
+        analise_duplicidade = encontrar_duplicados_api(df, embeddings)
+        analise_clusters = analisar_clusters_api(df, embeddings, texts)
+        plot_data = df[['x', 'y', 'z', 'cluster', 'full_text', 'sentiment']].to_dict('records')
+        n_clusters = len([c for c in df['cluster'].unique() if c != -1])
+        n_ruido = int((df['cluster'] == -1).sum())
+        response = {
             "metadata": {
                 "filename": file.filename,
                 "num_documents_processed": int(len(df)),
                 "num_clusters_found": int(n_clusters),
                 "num_noise_points": int(n_ruido),
             },
             "metrics": metricas,
+            "duplicates": analise_duplicidade,
+            "plot_data": plot_data,
+            "cluster_analysis": analise_clusters,
         }
+        print("Processamento concluído com sucesso. Retornando resposta.")
+        return response
     except Exception as e:
         import traceback
+        print(f"Erro CRÍTICO durante o processamento: {e}")
         traceback.print_exc()
+        raise HTTPException(status_code=500, detail=f"Ocorreu um erro interno no servidor: {str(e)}")