Spaces:

poplabmx
/

repda-data-explorer

Running

File size: 9,706 Bytes

import streamlit as st
import pandas as pd

# import geopandas as gpd
# from diagnostics import run_df_diagnostics
import plotly.express as px


# Utils


def exclusive_categorical_search(df, filters: dict[str, list[str]]):
    filtered_df = df.copy()
    for column, values in filters.items():
        if "Todos" in values:
            continue
        filtered_df = filtered_df[filtered_df[column].isin(values)]

        # [ 1, 2, 3, 4] -> [TRUE, FALSE, TRUE, FALSE] -> [1, 3]
        # [1, 3] -> [False, TRUE, ] -> [3]
        # True and True -> True
        # False and True -> False

    return filtered_df


def exclusive_numerical_search(df, filters: dict[str, list[float]]):
    """Performs an exclusive search on a dataframe
    Args:
        df (pd.DataFrame): Dataframe to search
        filters (dict[str, list[float]]): Dictionary of filters with a list of two values min and max
    """
    filtered_df = df.copy()
    for column, values in filters.items():
        filtered_df = filtered_df[filtered_df[column] >= values[0]]
        filtered_df = filtered_df[filtered_df[column] <= values[1]]

        # [ 1, 2, 3, 4] -> [TRUE, FALSE, TRUE, FALSE] -> [1, 3]
        # [1, 3] -> [False, TRUE, ] -> [3]
        # True and True -> True
        # False and True -> False
    return filtered_df


def inclusive_categorical_search(df: pd.DataFrame, filters: dict[str, list[str]]):
    filtered_dfs = []
    if len(filters) == 0:
        return df
    for column, values in filters.items():
        st.write(column)
        if "Todos" in values:
            filtered_dfs.append(df)
            continue
        filtered_dfs.append(df[df[column].isin(values)])
    filtered_df = pd.concat(filtered_dfs)
    filtered_df = filtered_df.drop_duplicates()

    # d1 [1, 2, 3, 4] -> [TRUE, FALSE, TRUE, FALSE] -> [1, 3]
    # d2 [1, 2, 3, 4] -> [FALSE, TRUE, TRUE, FALSE] -> [2, 3]
    # [1, 3] + [2, 3] -> [1, 3, 2, 3] -> [1, 3, 2, 3]
    # [1, 3, 2, 3] -> [1, 3, 2]

    return filtered_df


def inclusive_numerical_search(df: pd.DataFrame, filters: dict[str, list[float]]):
    filtered_dfs = []
    if len(filters) == 0:
        return df
    for column, values in filters.items():
        column = get_option_value(column)
        temp_df = df.copy()
        temp_df = temp_df[temp_df[column] >= values[0]]
        temp_df = temp_df[temp_df[column] <= values[1]]
        filtered_dfs.append(temp_df)
    filtered_df = pd.concat(filtered_dfs)
    filtered_df = filtered_df.drop_duplicates()

    # d1 [1, 2, 3, 4] -> [TRUE, FALSE, TRUE, FALSE] -> [1, 3]
    # d2 [1, 2, 3, 4] -> [FALSE, TRUE, TRUE, FALSE] -> [2, 3]
    # [1, 3] + [2, 3] -> [1, 3, 2, 3] -> [1, 3, 2, 3]
    # [1, 3, 2, 3] -> [1, 3, 2]

    return filtered_df


# CONSTANTS
CATEGORICAL_COLUMNS = {
    "Titular": "titular",
    # "Título": "titulo",
    "Uso amparado": "uso_amparado",
    # "Anotaciones marginales": "anotaciones_marginales",
    # "Tipo de anexo": "tipo_de_anexo",
    # "Estado": "estado",
    "Municipio": "municipio",
    # "Región hidrológica": "region_hidrologica",
    # "Cuenca": "cuenca",
    "Acuífero": "acuifero",
    # "Acuifero homologado": "acuifero_homologado",
}

NUMERIC_COLUMNS = {
    # "Volumen total de aguas nacionales": "volumen_total_de_aguas_nacionales",
    # "Volumen total de aguas superficiales": "volumen_total_de_aguas_superficiales",
    # "Volumen total de aguas subterráneas": "volumen_total_de_aguas_subterraneas",
    # "Volumen total de descargas": "volumen_total_de_descargas",
    # "Número de descargas en el título": "anexos_descargas",
    # "Número de tomas subtarráneas en el título": "anexos_subterraneos",
    # "Número de tomas superficiales en el título": "anexos_superficiales",
    # "Número de tomas en zonas federales en el título": "anexos_zonas_federales",
    "Volumen de extracción": "volumen",
    # "Superficie": "superficie",
    # "Volumen de descarga diario": "volumen_de_descarga_diario",
    "Volumen de descarga anual": "volumen_de_descarga_anual",
}


def get_option_value(key):
    if key in CATEGORICAL_COLUMNS.keys():
        return CATEGORICAL_COLUMNS[key]
    elif key in NUMERIC_COLUMNS.keys():
        return NUMERIC_COLUMNS[key]
    else:
        return None


# PAGE CONFIG
st.set_page_config(
    page_title="Explorador de datos REPDA Guanajuato",
    page_icon="💧",
    layout="wide",
)

_, cent_co, _ = st.columns(3)
with cent_co:
    st.image("media/poplab.png", width=500, use_column_width=True)


st.title("Explorador de datos REPDA Guanajuato")
st.subheader("Datos de concesiones de aguas nacionales en Guanajuato")
st.markdown(
    """
<iframe src="https://poplab.mx/especiales/Pese-a-insuficiencia-de-agua-Guanajuato-prioriza-expansion-industrial/counter"
  style="width: 100%; height: 1px; border: none; position: absolute; top: 0; left: 0; right: 0; bottom: 0;"
></iframe>

<div style="text-align: justify;max-width: 800px;">

Este explorador permite filtrar y examinar los datos de concesiones de aguas nacionales en Guanajuato.
Los datos han sido obtenidos del Registro Público de Derechos de Agua (REPDA) y han sido procesados para su visualización y análisis.

#### Instrucciones

En el menú de la izquierda, se podran realizar filtros categóricos y numéricos para explorar los datos.

Arriba del mapa se podrá seleccionar una columna para colorear el mapa. También se podrán seleccionar las columnas para visualizar al pasar el cursor sobre los puntos del mapa.

**Nota:** Algunos datos no cuentan con coordenadas, por lo que se les asignó latitud y longitud 1.

</div>
""",
    unsafe_allow_html=True,
)

st.sidebar.header("Filtros")

# DATA LOADING


@st.cache_data
def load_complete_data():
    df = pd.read_json("data.json")
    df = df.drop_duplicates()
    return df


options = ["Explorador de datos filtrados", "Explorador de datos completos del REPDA"]


df = load_complete_data()
# run_df_diagnostics(df, "Datos iniciales")

# color = st.sidebar.selectbox(
#     "Selecciona una columna para colorear el mapa", list(CATEGORICAL_COLUMNS.keys()), index=0
# )
# if not color:
#     color = "Estado"

filters = {}

categorical_search_type = "Inclusiva"
st.sidebar.subheader("Categorías")
active_filters = st.sidebar.multiselect(
    "Filtros activos",
    list(CATEGORICAL_COLUMNS.keys()),
)

for column_name in active_filters:
    column = get_option_value(column_name)
    st.sidebar.write(f"Selecciona {column}")
    options = df[column].unique().tolist()
    if column == "estado":
        options = sorted(options)
    options.insert(0, "Todos")

    values = st.sidebar.multiselect(
        column,
        options,
        default=["Todos"],
    )
    filters[column] = values
    st.sidebar.divider()

if categorical_search_type == "Inclusiva":
    if len(filters) > 0:
        filtered_df = inclusive_categorical_search(df, filters)
    else:
        filtered_df = df
else:
    filtered_df = exclusive_categorical_search(df, filters)

st.sidebar.subheader("Volúmenes")
numerical_search_type = "Exclusiva"
active_filters = st.sidebar.multiselect(
    "Filtros activos",
    list(NUMERIC_COLUMNS.keys()),
)

numerical_filters = {}

for column_name in active_filters:
    column = get_option_value(column_name)
    range_type = st.sidebar.radio(f"Selecciona {column}", ["Mayor que", "Menor que", "Entre"])
    min = filtered_df[column].min()
    max = filtered_df[column].max()
    if range_type == "Mayor que":
        min_value = st.sidebar.slider(f"Valor mínimo para {column}", min_value=min, max_value=max, value=min)
        max_value = max

    elif range_type == "Menor que":
        min_value = min
        max_value = st.sidebar.slider(f"Valor máximo para {column}", min_value=min, max_value=max, value=max)
    else:
        min_value = st.sidebar.slider(f"Valor mínimo para {column}", min_value=min, max_value=max, value=min)
        max_value = st.sidebar.slider(f"Valor máximo para {column}", min_value=min, max_value=max, value=max)
    numerical_filters[column] = [min_value, max_value]
    st.sidebar.divider()

if numerical_search_type == "Inclusiva":
    if len(numerical_filters) > 0:
        filtered_df = inclusive_numerical_search(filtered_df, numerical_filters)
    else:
        filtered_df = filtered_df
else:
    filtered_df = exclusive_numerical_search(filtered_df, numerical_filters)


color_options = list(CATEGORICAL_COLUMNS.keys()) + list(NUMERIC_COLUMNS.keys())
hover_options = color_options.copy() + ["lat", "lon"]
color_options.remove("Titular")
# color_options.remove("Título")

color = st.selectbox("Selecciona una columna para colorear el mapa", color_options, index=2)

hover = st.multiselect(
    "Selecciona columnas para visualizar al pasar el cursor sobre los puntos del mapa",
    hover_options,
    default=["lat", "lon", "Titular"],
)

# st.plotly_chart(px.colors.qualitative.swatches())

# st.plotly_chart(px.colors.sequential.swatches())

fig = px.scatter_mapbox(
    filtered_df,
    lat="lat",
    lon="lon",
    # color=CATEGORICAL_COLUMNS[color],
    color=get_option_value(color),
    width=1000,
    height=600,
    hover_name="titulo",
    hover_data=map(get_option_value, hover),
    mapbox_style="carto-positron",
    color_continuous_scale=px.colors.sequential.Reds,
    color_discrete_sequence=px.colors.qualitative.Dark24,
    center={"lat": 23.634501, "lon": -102.552784},
    zoom=4,
)

fig.update_traces(marker=dict(size=8, opacity=0.4))

st.plotly_chart(fig)
# st.write("Algunos datos no cuentan con coordenadas, por lo que se les asignó latitud y longitud 1")
st.dataframe(df)

st.download_button(
    label="Descargar datos",
    data=df.to_csv().encode("utf-8"),
    file_name="data.csv",
    mime="text/csv",
)