Spaces:

cmbtest
/

trendtopics

Sleeping

App Files Files Community

cmbtest commited on Dec 15, 2025

Commit

8fa16c7

verified ·

1 Parent(s): b6b71c4

create app.py

Browse files

Files changed (1) hide show

app.py +74 -0

app.py ADDED Viewed

	@@ -0,0 +1,74 @@

+import gradio as gr
+import pandas as pd
+import requests
+from collections import Counter
+from io import StringIO
+# ==============================
+# CONFIGURAÇÃO
+# ==============================
+# Coloque aqui seu token do Hugging Face
+API_URL = "https://api-inference.huggingface.co/models/rebeccakoganlee/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext-finetuned-ner"
+HEADERS =  f"Bearer {HF_TOKEN}"} if HF_TOKEN else {}
+# ==============================
+# FUNÇÃO DE ANÁLISE
+# ==============================
+def analyze_abstracts(csv_text):
+    """
+    Recebe CSV com colunas: date, abstract
+    Retorna tabela com termos médicos, frequência e hot terms
+    """
+    try:
+        # Ler CSV colado
+        df = pd.read_csv(StringIO(csv_text))
+    except Exception as e:
+        return pd.DataFrame([["Erro ao ler CSV", str(e), ""]], columns=["Term", "Frequency", "Hot"])
+    if 'abstract' not in df.columns:
+        return pd.DataFrame([["Erro", "Coluna 'abstract' não encontrada", ""]], columns=["Term", "Frequency", "Hot"])
+    all_terms = []
+    for abstract in df['abstract']:
+        payload = {"inputs": abstract, "parameters": {"task": "token-classification"}}
+        try:
+            response = requests.post(API_URL, headers=HEADERS, json=payload)
+            result = response.json()
+            # Extrair palavras das entidades
+            if isinstance(result, list):
+                terms = [r.get('word', '') for r in result if 'word' in r]
+                all_terms.extend(terms)
+        except Exception as e:
+            print("Erro na API:", e)
+            continue
+    if not all_terms:
+        return pd.DataFrame([["Nenhum termo encontrado", "", ""]], columns=["Term", "Frequency", "Hot"])
+    # Contar frequência dos termos
+    term_counts = Counter(all_terms)
+    term_df = pd.DataFrame(term_counts.items(), columns=['Term', 'Frequency']).sort_values(by='Frequency', ascending=False)
+    # Marcar hot terms (top 10%)
+    threshold = term_df['Frequency'].quantile(0.9)
+    term_df['Hot'] = term_df['Frequency'] >= threshold
+    return term_df
+# ==============================
+# INTERFACE GRADIO
+# ==============================
+iface = gr.Interface(
+    fn=analyze_abstracts,
+    inputs=gr.Textbox(lines=15, placeholder="Cole aqui seu CSV com colunas: date,abstract"),
+    outputs=gr.Dataframe(headers=["Term", "Frequency", "Hot"]),
+    title="Hot Terms Médicos",
+    description="Cole o CSV com data e abstract. O app identifica termos médicos e mostra os hot terms (top 10% mais frequentes)."
+)
+# ==============================
+# RODAR APP
+# ==============================
+if __name__ == "__main__":
+    iface.launch()