Spaces:

Danielfonseca1212
/

RelGNNDeepRelationalLearning

Sleeping

App Files Files Community

Danielfonseca1212 commited on Mar 4

Commit

d4d8ec1

verified ·

1 Parent(s): c20c869

Update app.py

Browse files

Files changed (1) hide show

app.py +101 -75

app.py CHANGED Viewed

@@ -1,8 +1,25 @@
 """
-RelGNN — Deep Relational Learning para Detecção de Fraude
 Projeto 8: Do SQL ao Graph AI sem Engenharia Manual
 """
 import gradio as gr
 import pandas as pd
 import numpy as np
@@ -17,9 +34,10 @@ from relgnn.model import RelGNN, RelGNNConfig
 from baseline.graphsage_baseline import GraphSAGEBaseline
 from baseline.xgboost_baseline import XGBoostBaseline
 def run_full_pipeline(n_customers, n_orders, fraud_rate, hidden_dim, num_epochs, max_hops, progress=gr.Progress()):
     logs = []
-    def log(msg): logs.append(msg)
     progress(0.05, desc="Gerando dataset TPC-H...")
     tables = generate_tpch_data(int(n_customers), int(n_orders), float(fraud_rate)/100.0, seed=42)
@@ -29,24 +47,23 @@ def run_full_pipeline(n_customers, n_orders, fraud_rate, hidden_dim, num_epochs,
     routes = discover_atomic_routes(tables, RouteConfig(max_hops=int(max_hops)))
     log(f"✅ {len(routes)} rotas atômicas descobertas")
     for r in routes:
-        log(f"   → {' → '.join(r.path)}  (α={r.attention_weight:.3f})")
     progress(0.30, desc="Treinando RelGNN...")
     relgnn = RelGNN(RelGNNConfig(hidden_dim=int(hidden_dim), num_epochs=int(num_epochs)))
     rm, rh = relgnn.fit(tables, routes, log_fn=log, progress_fn=progress)
-    log(f"✅ RelGNN    AUC={rm['auc']:.4f}  F1={rm['f1']:.4f}  {rm['train_time']:.1f}s")
     progress(0.70, desc="Treinando GraphSAGE...")
     gs = GraphSAGEBaseline(hidden_dim=int(hidden_dim), num_epochs=int(num_epochs))
     gm, gh = gs.fit(tables, log_fn=log)
-    log(f"✅ GraphSAGE AUC={gm['auc']:.4f}  F1={gm['f1']:.4f}  {gm['train_time']:.1f}s")
     progress(0.85, desc="Treinando XGBoost...")
-    xgb_metrics = XGBoostBaseline().fit(tables, log_fn=log)
-    xm = xgb_metrics
-    log(f"✅ XGBoost   AUC={xm['auc']:.4f}  F1={xm['f1']:.4f}  {xm['train_time']:.1f}s")
-    progress(0.93, desc="Plotando...")
     fig = build_figure(rm, gm, xm, rh, gh, routes)
     metrics_df = pd.DataFrame([
@@ -60,90 +77,98 @@ def run_full_pipeline(n_customers, n_orders, fraud_rate, hidden_dim, num_epochs,
         "Peso α": round(r.attention_weight, 4), "Ativa": "✅" if r.active else "—",
     } for r in routes])
-    da = (rm["auc"]-gm["auc"])*100
-    dt = (1-rm["train_time"]/max(gm["train_time"],0.1))*100
     summary = (
         f"## 🎯 Resultado Final\n\n"
         f"| | RelGNN | GraphSAGE | Δ |\n|---|---|---|---|\n"
-        f"| AUC | **{rm['auc']:.4f}** | {gm['auc']:.4f} | **+{da:.1f}%** |\n"
-        f"| F1  | **{rm['f1']:.4f}** | {gm['f1']:.4f} | **+{(rm['f1']-gm['f1'])*100:.1f}%** |\n"
         f"| Tempo | **{rm['train_time']:.1f}s** | {gm['train_time']:.1f}s | **−{dt:.0f}%** |\n\n"
-        f"🚀 **{len(routes)} rotas atômicas** · Zero conversão para grafo · Zero feature engineering"
     )
     progress(1.0)
-    log("🏁 Concluído!")
     return fig, metrics_df, routes_df, summary, "\n".join(logs)
 def build_figure(rm, gm, xm, rh, gh, routes):
-    BG=  "#0a0e1a"; PANEL="#0f1629"
-    CYAN="#00d4ff"; PURP="#7c3aed"; AMBER="#f59e0b"; GREEN="#10b981"; GRAY="#64748b"
     fig = make_subplots(rows=2, cols=3,
-        subplot_titles=["Convergência AUC-ROC","Métricas Comparativas","Tempo de Treino (s)",
-                        "Pesos Atenção (Rotas)","Δ RelGNN vs GraphSAGE","Radar de Performance"],
-        vertical_spacing=0.20, horizontal_spacing=0.10,
-        specs=[[{"type":"xy"},{"type":"xy"},{"type":"xy"}],
-               [{"type":"xy"},{"type":"xy"},{"type":"polar"}]])
-    # 1. Curvas
     fig.add_trace(go.Scatter(x=[h["epoch"] for h in rh], y=[h["auc"] for h in rh],
-        name="RelGNN", line=dict(color=CYAN,width=3), fill="tozeroy", fillcolor="rgba(0,212,255,0.07)"), row=1,col=1)
     fig.add_trace(go.Scatter(x=[h["epoch"] for h in gh], y=[h["auc"] for h in gh],
-        name="GraphSAGE", line=dict(color=PURP,width=2,dash="dash"), showlegend=True), row=1,col=1)
-    # 2. Barras métricas
-    mnames=["AUC","F1","Precisão","Recall"]
-    for vals,name,col in [([rm["auc"],rm["f1"],rm["precision"],rm["recall"]],"RelGNN",CYAN),
-                           ([gm["auc"],gm["f1"],gm["precision"],gm["recall"]],"GraphSAGE",PURP),
-                           ([xm["auc"],xm["f1"],xm["precision"],xm["recall"]],"XGBoost",AMBER)]:
-        fig.add_trace(go.Bar(x=mnames,y=vals,name=name,marker_color=col,opacity=0.85,showlegend=False),row=1,col=2)
-    # 3. Tempo
-    fig.add_trace(go.Bar(x=["RelGNN","GraphSAGE","XGBoost"],
-        y=[rm["train_time"],gm["train_time"],xm["train_time"]],
-        marker_color=[CYAN,PURP,AMBER], showlegend=False, opacity=0.85,
-        text=[f"{rm['train_time']:.1f}s",f"{gm['train_time']:.1f}s",f"{xm['train_time']:.1f}s"],
-        textposition="outside"), row=1,col=3)
-    # 4. Rotas atenção
-    rlabels=[" → ".join(r.path[-2:]) if len(r.path)>2 else " → ".join(r.path) for r in routes]
-    rweights=[r.attention_weight for r in routes]
-    rcolors=[GREEN if r.active else GRAY for r in routes]
-    fig.add_trace(go.Bar(x=rweights,y=rlabels,orientation="h",
-        marker_color=rcolors,opacity=0.85,showlegend=False,
-        text=[f"α={w:.3f}" for w in rweights],textposition="outside"), row=2,col=1)
     # 5. Deltas
-    deltas=[(rm["auc"]-gm["auc"])*100,(rm["f1"]-gm["f1"])*100,
-            (rm["precision"]-gm["precision"])*100,(rm["recall"]-gm["recall"])*100]
-    fig.add_trace(go.Bar(x=mnames,y=deltas,
-        marker_color=[GREEN if d>=0 else "#ef4444" for d in deltas],
-        showlegend=False, opacity=0.85,
-        text=[f"+{d:.1f}%" if d>=0 else f"{d:.1f}%" for d in deltas],
-        textposition="outside"), row=2,col=2)
-    fig.add_hline(y=0,line_color=GRAY,line_width=1,row=2,col=2)
     # 6. Radar
-    cats=["AUC","F1","Precisão","Recall","Velocidade"]
-    mx_t=max(rm["train_time"],gm["train_time"],xm["train_time"])
-    for vals,name,col in [
-        ([rm["auc"],rm["f1"],rm["precision"],rm["recall"],1-rm["train_time"]/mx_t],"RelGNN",CYAN),
-        ([gm["auc"],gm["f1"],gm["precision"],gm["recall"],1-gm["train_time"]/mx_t],"GraphSAGE",PURP),
-        ([xm["auc"],xm["f1"],xm["precision"],xm["recall"],1-xm["train_time"]/mx_t],"XGBoost",AMBER),
     ]:
-        fig.add_trace(go.Scatterpolar(r=vals+[vals[0]],theta=cats+[cats[0]],
-            name=name,fill="toself",line_color=col,opacity=0.55,showlegend=False),row=2,col=3)
-    fig.update_layout(height=680, paper_bgcolor=BG, plot_bgcolor=PANEL,
-        font=dict(color="#e2e8f0",family="monospace",size=11),
-        title=dict(text="RelGNN · TPC-H Fraud Detection",font=dict(size=14,color=CYAN),x=0.5),
-        legend=dict(bgcolor="#141c33",bordercolor="#1e2d4a"),
-        barmode="group")
-    fig.update_xaxes(gridcolor="#1e2d4a"); fig.update_yaxes(gridcolor="#1e2d4a")
-    fig.update_yaxes(range=[0.35,1.05],row=1,col=1)
-    fig.update_yaxes(range=[0.35,1.05],row=1,col=2)
     return fig
@@ -161,7 +186,7 @@ with gr.Blocks(css=CSS, title="RelGNN") as demo:
             gr.Markdown("### 🧠 Modelo")
             hidden_dim  = gr.Slider(16,  128, value=64, step=16, label="Hidden Dim")
             num_epochs  = gr.Slider(10,  100, value=50, step=10, label="Épocas")
-            max_hops    = gr.Slider(1,   4,   value=3,  step=1,  label="Max Hops")
             btn = gr.Button("🚀 Rodar Pipeline", variant="primary", size="lg")
         with gr.Column(scale=3):
@@ -169,14 +194,15 @@ with gr.Blocks(css=CSS, title="RelGNN") as demo:
                 with gr.Tab("📊 Visualizações"):
                     plot_out = gr.Plot()
                 with gr.Tab("📋 Métricas"):
-                    metrics_out = gr.Dataframe(label="Comparação")
                     routes_out  = gr.Dataframe(label="Rotas Atômicas")
                 with gr.Tab("📝 Resumo"):
                     summary_out = gr.Markdown()
                 with gr.Tab("🔧 Log"):
                     log_out = gr.Textbox(lines=22, max_lines=35)
-    btn.click(fn=run_full_pipeline,
         inputs=[n_customers, n_orders, fraud_rate, hidden_dim, num_epochs, max_hops],
         outputs=[plot_out, metrics_out, routes_out, summary_out, log_out])

 """
+RelGNN — Deep Relational Learning
 Projeto 8: Do SQL ao Graph AI sem Engenharia Manual
 """
+# ── Auto-install (garante dependências no HF Spaces) ──────────────────────────
+import subprocess, sys
+def install(pkg):
+    subprocess.check_call([sys.executable, "-m", "pip", "install", pkg, "-q"])
+try:
+    import plotly
+except ImportError:
+    install("plotly")
+try:
+    import sklearn
+except ImportError:
+    install("scikit-learn")
+# ── Imports principais ─────────────────────────────────────────────────────────
 import gradio as gr
 import pandas as pd
 import numpy as np
 from baseline.graphsage_baseline import GraphSAGEBaseline
 from baseline.xgboost_baseline import XGBoostBaseline
 def run_full_pipeline(n_customers, n_orders, fraud_rate, hidden_dim, num_epochs, max_hops, progress=gr.Progress()):
     logs = []
+    def log(msg): logs.append(str(msg))
     progress(0.05, desc="Gerando dataset TPC-H...")
     tables = generate_tpch_data(int(n_customers), int(n_orders), float(fraud_rate)/100.0, seed=42)
     routes = discover_atomic_routes(tables, RouteConfig(max_hops=int(max_hops)))
     log(f"✅ {len(routes)} rotas atômicas descobertas")
     for r in routes:
+        log(f"   → {' → '.join(r.path)}  (hops={r.n_hops}, α={r.attention_weight:.3f})")
     progress(0.30, desc="Treinando RelGNN...")
     relgnn = RelGNN(RelGNNConfig(hidden_dim=int(hidden_dim), num_epochs=int(num_epochs)))
     rm, rh = relgnn.fit(tables, routes, log_fn=log, progress_fn=progress)
+    log(f"✅ RelGNN    AUC={rm['auc']:.4f}  F1={rm['f1']:.4f}  Tempo={rm['train_time']:.1f}s")
     progress(0.70, desc="Treinando GraphSAGE...")
     gs = GraphSAGEBaseline(hidden_dim=int(hidden_dim), num_epochs=int(num_epochs))
     gm, gh = gs.fit(tables, log_fn=log)
+    log(f"✅ GraphSAGE AUC={gm['auc']:.4f}  F1={gm['f1']:.4f}  Tempo={gm['train_time']:.1f}s")
     progress(0.85, desc="Treinando XGBoost...")
+    xm = XGBoostBaseline().fit(tables, log_fn=log)
+    log(f"✅ XGBoost   AUC={xm['auc']:.4f}  F1={xm['f1']:.4f}  Tempo={xm['train_time']:.1f}s")
+    progress(0.93, desc="Plotando resultados...")
     fig = build_figure(rm, gm, xm, rh, gh, routes)
     metrics_df = pd.DataFrame([
         "Peso α": round(r.attention_weight, 4), "Ativa": "✅" if r.active else "—",
     } for r in routes])
+    da = (rm["auc"] - gm["auc"]) * 100
+    df1 = (rm["f1"]  - gm["f1"])  * 100
+    dt = (1 - rm["train_time"] / max(gm["train_time"], 0.1)) * 100
     summary = (
         f"## 🎯 Resultado Final\n\n"
         f"| | RelGNN | GraphSAGE | Δ |\n|---|---|---|---|\n"
+        f"| AUC-ROC | **{rm['auc']:.4f}** | {gm['auc']:.4f} | **+{da:.1f}%** |\n"
+        f"| F1-Score | **{rm['f1']:.4f}** | {gm['f1']:.4f} | **+{df1:.1f}%** |\n"
         f"| Tempo | **{rm['train_time']:.1f}s** | {gm['train_time']:.1f}s | **−{dt:.0f}%** |\n\n"
+        f"🚀 **{len(routes)} rotas atômicas** descobertas automaticamente via FK paths\n\n"
+        f"🔑 Zero conversão para grafo · Zero feature engineering manual"
     )
     progress(1.0)
+    log("🏁 Pipeline completo!")
     return fig, metrics_df, routes_df, summary, "\n".join(logs)
 def build_figure(rm, gm, xm, rh, gh, routes):
+    BG = "#0a0e1a"; PANEL = "#0f1629"
+    CYAN = "#00d4ff"; PURP = "#7c3aed"; AMBER = "#f59e0b"; GREEN = "#10b981"; GRAY = "#64748b"
+    specs = [[{"type":"xy"},{"type":"xy"},{"type":"xy"}],
+             [{"type":"xy"},{"type":"xy"},{"type":"polar"}]]
     fig = make_subplots(rows=2, cols=3,
+        subplot_titles=["Convergência AUC-ROC", "Métricas Comparativas", "Tempo de Treino (s)",
+                        "Pesos de Atenção (Rotas)", "Δ RelGNN vs GraphSAGE (%)", "Radar de Performance"],
+        specs=specs, vertical_spacing=0.20, horizontal_spacing=0.10)
+    # 1. Curvas de convergência
     fig.add_trace(go.Scatter(x=[h["epoch"] for h in rh], y=[h["auc"] for h in rh],
+        name="RelGNN", line=dict(color=CYAN, width=3),
+        fill="tozeroy", fillcolor="rgba(0,212,255,0.07)"), row=1, col=1)
     fig.add_trace(go.Scatter(x=[h["epoch"] for h in gh], y=[h["auc"] for h in gh],
+        name="GraphSAGE", line=dict(color=PURP, width=2, dash="dash")), row=1, col=1)
+    # 2. Barras de métricas
+    mnames = ["AUC", "F1", "Precisão", "Recall"]
+    for vals, name, col in [
+        ([rm["auc"],rm["f1"],rm["precision"],rm["recall"]], "RelGNN",    CYAN),
+        ([gm["auc"],gm["f1"],gm["precision"],gm["recall"]], "GraphSAGE", PURP),
+        ([xm["auc"],xm["f1"],xm["precision"],xm["recall"]], "XGBoost",   AMBER),
+    ]:
+        fig.add_trace(go.Bar(x=mnames, y=vals, name=name,
+            marker_color=col, opacity=0.85, showlegend=False), row=1, col=2)
+    # 3. Tempo de treino
+    fig.add_trace(go.Bar(
+        x=["RelGNN","GraphSAGE","XGBoost"],
+        y=[rm["train_time"], gm["train_time"], xm["train_time"]],
+        marker_color=[CYAN, PURP, AMBER], opacity=0.85, showlegend=False,
+        text=[f"{rm['train_time']:.1f}s", f"{gm['train_time']:.1f}s", f"{xm['train_time']:.1f}s"],
+        textposition="outside"), row=1, col=3)
+    # 4. Pesos de atenção das rotas
+    rlabels  = [" → ".join(r.path[-2:]) if len(r.path) > 2 else " → ".join(r.path) for r in routes]
+    rweights = [r.attention_weight for r in routes]
+    rcolors  = [GREEN if r.active else GRAY for r in routes]
+    fig.add_trace(go.Bar(x=rweights, y=rlabels, orientation="h",
+        marker_color=rcolors, opacity=0.85, showlegend=False,
+        text=[f"α={w:.3f}" for w in rweights], textposition="outside"), row=2, col=1)
     # 5. Deltas
+    deltas = [(rm[k]-gm[k])*100 for k in ["auc","f1","precision","recall"]]
+    fig.add_trace(go.Bar(x=mnames, y=deltas,
+        marker_color=[GREEN if d >= 0 else "#ef4444" for d in deltas],
+        opacity=0.85, showlegend=False,
+        text=[f"+{d:.1f}%" if d >= 0 else f"{d:.1f}%" for d in deltas],
+        textposition="outside"), row=2, col=2)
+    fig.add_hline(y=0, line_color=GRAY, line_width=1, row=2, col=2)
     # 6. Radar
+    cats = ["AUC","F1","Precisão","Recall","Velocidade"]
+    mx_t = max(rm["train_time"], gm["train_time"], xm["train_time"])
+    for vals, name, col in [
+        ([rm["auc"],rm["f1"],rm["precision"],rm["recall"],1-rm["train_time"]/mx_t], "RelGNN",    CYAN),
+        ([gm["auc"],gm["f1"],gm["precision"],gm["recall"],1-gm["train_time"]/mx_t], "GraphSAGE", PURP),
+        ([xm["auc"],xm["f1"],xm["precision"],xm["recall"],1-xm["train_time"]/mx_t], "XGBoost",   AMBER),
     ]:
+        fig.add_trace(go.Scatterpolar(r=vals+[vals[0]], theta=cats+[cats[0]],
+            name=name, fill="toself", line_color=col, opacity=0.55, showlegend=False), row=2, col=3)
+    fig.update_layout(
+        height=680, paper_bgcolor=BG, plot_bgcolor=PANEL, barmode="group",
+        font=dict(color="#e2e8f0", family="monospace", size=11),
+        title=dict(text="RelGNN · TPC-H Fraud Detection", font=dict(size=14, color=CYAN), x=0.5),
+        legend=dict(bgcolor="#141c33", bordercolor="#1e2d4a"))
+    fig.update_xaxes(gridcolor="#1e2d4a")
+    fig.update_yaxes(gridcolor="#1e2d4a")
+    fig.update_yaxes(range=[0.35, 1.05], row=1, col=1)
+    fig.update_yaxes(range=[0.35, 1.05], row=1, col=2)
     return fig
             gr.Markdown("### 🧠 Modelo")
             hidden_dim  = gr.Slider(16,  128, value=64, step=16, label="Hidden Dim")
             num_epochs  = gr.Slider(10,  100, value=50, step=10, label="Épocas")
+            max_hops    = gr.Slider(1,     4, value=3,  step=1,  label="Max Hops")
             btn = gr.Button("🚀 Rodar Pipeline", variant="primary", size="lg")
         with gr.Column(scale=3):
                 with gr.Tab("📊 Visualizações"):
                     plot_out = gr.Plot()
                 with gr.Tab("📋 Métricas"):
+                    metrics_out = gr.Dataframe(label="Comparação de Modelos")
                     routes_out  = gr.Dataframe(label="Rotas Atômicas")
                 with gr.Tab("📝 Resumo"):
                     summary_out = gr.Markdown()
                 with gr.Tab("🔧 Log"):
                     log_out = gr.Textbox(lines=22, max_lines=35)
+    btn.click(
+        fn=run_full_pipeline,
         inputs=[n_customers, n_orders, fraud_rate, hidden_dim, num_epochs, max_hops],
         outputs=[plot_out, metrics_out, routes_out, summary_out, log_out])