Spaces:

hedtorresca
/

ExploratorioVasculitis

Build error

App Files Files Community

hedtorresca commited on Mar 25, 2025

Commit

ab04ad9

verified ·

1 Parent(s): 98578e8

Update app.py

Browse files

Files changed (1) hide show

app.py +113 -154

app.py CHANGED Viewed

@@ -1,173 +1,132 @@
-# Vasculitis ANCA - App de Análisis Estadístico y Geoespacial (Unificada con PM2.5 y lista para Hugging Face)
 import gradio as gr
 import pandas as pd
 import numpy as np
-import seaborn as sns
 import matplotlib.pyplot as plt
 import plotly.express as px
 import folium
 from folium.plugins import HeatMap
 from scipy.stats import chi2_contingency
-import geopandas as gpd
-from sklearn.cluster import DBSCAN
-from sklearn.preprocessing import StandardScaler
-# Cargar datos
-df = pd.read_csv("data.csv")
-pm25 = pd.read_csv("pm25_promedio_por_estacion.csv")
-# Limpieza básica
-df.columns = df.columns.str.strip()
-to_exclude = [20685087, 2998627, 1978488, 196634, 945893623091961, 30285097, 19244622, 5473678, 20566938, 14249650]
-df = df[~df['Documento de identidad'].isin(to_exclude)]
-df = df[(df['Edad en años del paciente'] >= 0) & (df['Edad en años del paciente'] <= 120)]
-# Mapeo de antecedentes
-transform_dict = {
-    'Antecedente personal de diabetes': {0: 'No', 1: 'Sí'},
-    'Antecedente personal de falla cardíaca': {0: 'No', 1: 'Sí'},
-    'Antecedente personal de EPOC': {0: 'No', 1: 'Sí'},
-    'Antecedente personal de Hipertensión arterial': {0: 'No', 1: 'Sí'}
 }
-for col, mapping in transform_dict.items():
-    if col in df.columns:
-        df[col] = df[col].map(mapping)
-# Asegurar formato correcto para coordenadas PM2.5
-pm25['LATITUD'] = pm25['LATITUD'].astype(str).str.replace(',', '.').astype(float)
-pm25['LONGITUD'] = pm25['LONGITUD'].astype(str).str.replace(',', '.').astype(float)
-# Variables descriptivas clave
-vars_desc = ['Edad en años del paciente', 'Género', 'Régimen de afiliación', 'Estrato socioeconómico',
-             'Síndrome renal al ingreso', 'Proteinuria', 'Creatinina']
-# Análisis univariado
-def univariado(var):
-    fig = px.histogram(df, x=var, color=var if df[var].dtype == 'object' else None, marginal="box")
-    fig.update_layout(title=f"Distribución de {var}")
-    fig.write_html("univariado.html")
-    return "univariado.html"
-# Análisis bivariado
-def bivariado(x, y):
     if df[x].dtype == 'object' and df[y].dtype == 'object':
-        fig = px.histogram(df, x=x, color=y, barmode='group')
-    elif df[x].dtype == 'object' or df[y].dtype == 'object':
-        fig = px.box(df, x=x, y=y, color=x if df[x].dtype == 'object' else y)
     else:
-        fig = px.scatter(df, x=x, y=y, trendline="ols")
-    fig.update_layout(title=f"Relación entre {x} y {y}")
-    fig.write_html("bivariado.html")
-    return "bivariado.html"
-# Chi-cuadrado
-def chi2_test(var1, var2):
-    table = pd.crosstab(df[var1], df[var2])
-    chi2, p, dof, _ = chi2_contingency(table)
-    fig = px.imshow(table.values, x=table.columns.astype(str), y=table.index.astype(str),
-                    text_auto=True, color_continuous_scale='Blues',
-                    title=f"Contingencia: {var1} vs {var2}")
-    fig.write_html("chi2_heatmap.html")
-    return f"Chi2 = {chi2:.2f}, p = {p:.4f}, gl = {dof}", table, "chi2_heatmap.html"
-# Mapa de calor
-def mapa_calor():
-    mapa = folium.Map(location=[4.7,-74.1], zoom_start=11)
-    puntos = df.dropna(subset=['Coordenada de residencia-latitud','Coordenada de residencia-longitud'])
-    heat = [[row['Coordenada de residencia-latitud'], row['Coordenada de residencia-longitud']] for _, row in puntos.iterrows()]
-    HeatMap(heat).add_to(mapa)
-    for _, row in puntos.iterrows():
         folium.Marker(
-            location=[row['Coordenada de residencia-latitud'], row['Coordenada de residencia-longitud']],
-            popup=folium.Popup(
-                f"<b>Género:</b> {row.get('Género', 'N/A')}<br>"
-                f"<b>Estrato:</b> {row.get('Estrato socioeconómico', 'N/A')}<br>"
-                f"<b>Proteinuria:</b> {row.get('Proteinuria', 'N/A')}<br>"
-                f"<b>Creatinina:</b> {row.get('Creatinina', 'N/A')}"
-            )
-        ).add_to(mapa)
-    mapa.save("mapa.html")
-    with open("mapa.html", 'r', encoding='utf-8') as f:
         return f.read()
-# Mapa de estaciones PM2.5
-def mapa_pm():
-    mapa = folium.Map(location=[4.7,-74.1], zoom_start=11)
-    for _, row in pm25.iterrows():
-        folium.CircleMarker(
-            location=[row['LATITUD'], row['LONGITUD']],
-            radius=7,
-            fill=True,
-            popup=f"{row['Estacion']} ({row['LOCALIDAD']}): {row['PM25_promedio_2019']} ug/m3",
-            color="red",
-            fill_opacity=0.7
-        ).add_to(mapa)
-    mapa.save("pm25.html")
-    with open("pm25.html", 'r', encoding='utf-8') as f:
-        return f.read()
-# Cluster DBSCAN
-def mapa_cluster():
-    puntos = df.dropna(subset=['Coordenada de residencia-latitud','Coordenada de residencia-longitud'])
-    coords = puntos[['Coordenada de residencia-latitud', 'Coordenada de residencia-longitud']].copy()
-    scaled = StandardScaler().fit_transform(coords)
-    clustering = DBSCAN(eps=0.5, min_samples=3).fit(scaled)
-    puntos['Cluster'] = clustering.labels_
-    mapa = folium.Map(location=[4.7,-74.1], zoom_start=11)
-    for _, row in puntos.iterrows():
-        folium.CircleMarker(
-            location=[row['Coordenada de residencia-latitud'], row['Coordenada de residencia-longitud']],
-            radius=5,
-            fill=True,
-            color="#%06x" % (hash(row['Cluster']) & 0xFFFFFF),
-            popup=f"Cluster {row['Cluster']}"
-        ).add_to(mapa)
-    mapa.save("cluster.html")
-    with open("cluster.html", 'r', encoding='utf-8') as f:
-        return f.read()
-# Interfaz Gradio
 with gr.Blocks() as demo:
-    gr.Markdown("# Tablero Vasculitis ANCA - Integrado para Hugging Face")
-    with gr.Tab("Gráficos Interactivos"):
-        gr.Plot(lambda: px.histogram(df, x='Género', title='Distribución por Género'))
-        gr.Plot(lambda: px.histogram(df, x='Edad en años del paciente', nbins=10, title='Distribución por Edad', marginal='box'))
-        gr.Plot(lambda: px.histogram(df, x='Régimen de afiliación', title='Régimen de Afiliación'))
-        gr.Plot(lambda: px.histogram(df, x='Estrato socioeconómico', title='Estrato Socioeconómico'))
-        gr.Plot(lambda: px.histogram(df, x='Síndrome renal al ingreso', title='Síndrome Renal al Ingreso'))
-    with gr.Tab("Análisis Univariado"):
-        col = gr.Dropdown(vars_desc, label="Variable")
-        salida = gr.HTML()
-        col.change(univariado, inputs=col, outputs=salida)
-    with gr.Tab("Análisis Bivariado"):
-        x = gr.Dropdown(vars_desc, label="X")
-        y = gr.Dropdown(vars_desc, label="Y")
-        out2 = gr.HTML()
-        gr.Button("Analizar").click(lambda a, b: bivariado(a, b), inputs=[x,y], outputs=out2)
     with gr.Tab("Chi-cuadrado"):
-        v1 = gr.Dropdown(df.select_dtypes(include='object').columns.tolist(), label="Variable 1")
-        v2 = gr.Dropdown(df.select_dtypes(include='object').columns.tolist(), label="Variable 2")
-        salida_chi = gr.Textbox()
-        tabla = gr.DataFrame()
-        fig_html = gr.HTML()
-        gr.Button("Calcular").click(chi2_test, inputs=[v1,v2], outputs=[salida_chi, tabla, fig_html])
-    with gr.Tab("Mapa de Calor"):
-        htmlmap = gr.HTML()
-        gr.Button("Generar Mapa").click(mapa_calor, outputs=htmlmap)
-    with gr.Tab("Clúster Espacial"):
-        htmlmap3 = gr.HTML()
-        gr.Button("Detectar Clústeres").click(mapa_cluster, outputs=htmlmap3)
-    with gr.Tab("Mapa Calidad Aire PM2.5"):
-        htmlmap4 = gr.HTML()
-        gr.Button("Visualizar PM2.5").click(mapa_pm, outputs=htmlmap4)
-# Ejecutar app
-demo.launch()

 import gradio as gr
 import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt
+import seaborn as sns
 import plotly.express as px
 import folium
 from folium.plugins import HeatMap
 from scipy.stats import chi2_contingency
+# ===========================
+# 1. CARGA Y PREPROCESAMIENTO
+# ===========================
+df = pd.read_csv("/mnt/data/VasculitisAsociadasA-BDD10jul24_DATA_2025-03-19_1033.csv")
+# Derivar variables categóricas
+categorias = {
+    'genero_cat': df['genero'].map({0: 'Masculino', 1: 'Femenino'}),
+    'regimen_cat': df['regimen'].map({1: 'Contributivo', 2: 'Subsidiado'}),
+    'estrato_cat': df['estrato'].map({0: 'Bajo', 1: 'Bajo', 2: 'Bajo', 3: 'Medio', 4: 'Medio', 5: 'Alto', 6: 'Alto'})
 }
+df = df.assign(**categorias)
+# ANCA positivo
+df['anca_cat'] = df['ancas'].map({0: 'Negativo', 1: 'Positivo'}).fillna('No definido')
+df['mpo_cat'] = df['mpo'].map({0: 'Negativo', 1: 'Positivo'}).fillna('No definido')
+df['pr3_cat'] = df['pr3'].map({0: 'Negativo', 1: 'Positivo'}).fillna('No definido')
+# Compromiso renal por biopsia
+biopsia_cols = [col for col in df.columns if col.startswith('biopsia___')]
+df['biopsia_positiva'] = df[biopsia_cols].sum(axis=1).apply(lambda x: 'Sí' if x > 0 else 'No')
+# Caso confirmado: ANCA+ y biopsia positiva
+df['anca_y_renal'] = np.where((df['ancas'] == 1) & (df['biopsia_positiva'] == 'Sí'), 'Sí', 'No')
+# Simulación de fechas para tendencia temporal
+df['fecha_diag'] = pd.date_range(start='2012-01-01', periods=len(df), freq='30D')
+# ===========================
+# 2. FUNCIONES ANALÍTICAS
+# ===========================
+def plot_univariado(col):
+    plt.figure(figsize=(8, 5))
+    if df[col].dtype == 'object':
+        sns.countplot(data=df, x=col, order=df[col].value_counts().index)
+        plt.xticks(rotation=45)
+    else:
+        sns.histplot(df[col], kde=True)
+    plt.title(f"Distribución de {col}")
+    plt.tight_layout()
+    plt.savefig("univariado.png")
+    return "univariado.png"
+def plot_bivariado(x, y):
+    plt.figure(figsize=(8, 5))
     if df[x].dtype == 'object' and df[y].dtype == 'object':
+        sns.countplot(data=df, x=x, hue=y)
+    elif df[x].dtype == 'object':
+        sns.boxplot(data=df, x=x, y=y)
+    elif df[y].dtype == 'object':
+        sns.boxplot(data=df, x=y, y=x)
     else:
+        sns.scatterplot(data=df, x=x, y=y)
+    plt.xticks(rotation=45)
+    plt.tight_layout()
+    plt.savefig("bivariado.png")
+    return "bivariado.png"
+def mapa():
+    m = folium.Map(location=[4.65, -74.1], zoom_start=11)
+    casos = df.dropna(subset=['latitud', 'longitud'])
+    heat = casos[['latitud', 'longitud']].values.tolist()
+    HeatMap(heat).add_to(m)
+    for _, r in casos.iterrows():
         folium.Marker(
+            location=[r['latitud'], r['longitud']],
+            popup=f"ID: {r['id']}<br>ANCA: {r['anca_cat']}<br>Compromiso Renal: {r['biopsia_positiva']}"
+        ).add_to(m)
+    m.save("mapa.html")
+    with open("mapa.html", "r", encoding="utf-8") as f:
         return f.read()
+def chi2(var1, var2):
+    tab = pd.crosstab(df[var1], df[var2])
+    chi, p, dof, _ = chi2_contingency(tab)
+    return f"<h4>Chi2: {chi:.2f}, p-valor: {p:.4f}, gl: {dof}</h4><br>{tab.to_html()}"
+def tendencia():
+    conteo = df.groupby(df['fecha_diag'].dt.to_period('M')).size().reset_index(name='casos')
+    conteo['fecha'] = conteo['fecha_diag'].astype(str)
+    fig = px.line(conteo, x='fecha', y='casos', title="Tendencia mensual de diagnósticos")
+    return fig
+# ===========================
+# 3. INTERFAZ GRADIO AVANZADA
+# ===========================
 with gr.Blocks() as demo:
+    gr.Markdown("# Tablero Avanzado de Vasculitis ANCA con Compromiso Renal")
+    with gr.Tab("Distribuciones Univariadas"):
+        col_uni = gr.Dropdown(choices=df.columns.tolist(), label="Variable")
+        btn_uni = gr.Button("Graficar")
+        out_uni = gr.Image()
+        btn_uni.click(fn=plot_univariado, inputs=col_uni, outputs=out_uni)
+    with gr.Tab("Relaciones Bivariadas"):
+        col1 = gr.Dropdown(df.columns.tolist(), label="Variable 1")
+        col2 = gr.Dropdown(df.columns.tolist(), label="Variable 2")
+        btn_bi = gr.Button("Graficar")
+        out_bi = gr.Image()
+        btn_bi.click(fn=plot_bivariado, inputs=[col1, col2], outputs=out_bi)
+    with gr.Tab("Mapa Geoespacial"):
+        gr.Markdown("Mapa de calor y puntos individuales")
+        btn_map = gr.Button("Generar Mapa")
+        out_map = gr.HTML()
+        btn_map.click(fn=mapa, outputs=out_map)
     with gr.Tab("Chi-cuadrado"):
+        cat1 = gr.Dropdown(df.select_dtypes('object').columns.tolist(), label="Categorica 1")
+        cat2 = gr.Dropdown(df.select_dtypes('object').columns.tolist(), label="Categorica 2")
+        btn_chi = gr.Button("Calcular")
+        out_chi = gr.HTML()
+        btn_chi.click(fn=chi2, inputs=[cat1, cat2], outputs=out_chi)
+    with gr.Tab("Tendencia Temporal"):
+        out_line = gr.Plot()
+        btn_line = gr.Button("Mostrar Gráfico")
+        btn_line.click(fn=tendencia, outputs=out_line)
+demo.launch()