Spaces:

albertoakel
/

Dash_apps_docker_vs

Sleeping

App Files Files Community

albertoakel commited on Dec 20, 2025

Commit

a832d75

1 Parent(s): 75c6e74

Finaliza integração com HF Dataset

Browse files

Files changed (3) hide show

app_04.py +6 -0
download_data.py +48 -18
load_process.py +63 -55

app_04.py CHANGED Viewed

@@ -6,7 +6,13 @@ from load_process import load_files
 from layout_01 import criar_layout
 from callbacks import registrar_callbacks
 from flask_caching import Cache
 # Leitura dos dados

 from layout_01 import criar_layout
 from callbacks import registrar_callbacks
 from flask_caching import Cache
+from load_process import load_bairros, load_coleta, load_descartes
+print("📦 Carregando dados geoespaciais...")
+gdf_bairros = load_bairros()
+gdf_coleta = load_coleta()
+gdf_descartes = load_descartes()
+print("✅ Dados carregados")
 # Leitura dos dados

download_data.py CHANGED Viewed

@@ -1,25 +1,55 @@
 import os
 from huggingface_hub import hf_hub_download
-REPO_ID = "albertoakel/dados_belem"
 SUBDIR = "data/process"
-FILES = [
-    "shape_bairros.gpkg",
-    "shape_coleta.gpkg",
-    "Pontos_descartes_ML.gpkg",
-    "tabela_total_com_DIEs.csv",
-    "Bairros_Ncoleta.csv",
-]
-def ensure_data():
-    paths = {}
-    for f in FILES:
-        path = hf_hub_download(
-            repo_id=REPO_ID,
-            filename=f"{SUBDIR}/{f}",
-            repo_type="dataset"
         )
-        paths[f] = path
-    return paths

 import os
 from huggingface_hub import hf_hub_download
+# REPO_ID = "albertoakel/dados_belem"
+# SUBDIR = "data/process"
+# FILES = [
+#     "shape_bairros.gpkg",
+#     "shape_coleta.gpkg",
+#     "Pontos_descartes_ML.gpkg",
+#     "tabela_total_com_DIEs.csv",
+#     "Bairros_Ncoleta.csv",
+# ]
+# def ensure_data():
+#     paths = {}
+#     for f in FILES:
+#         path = hf_hub_download(
+#             repo_id=REPO_ID,
+#             filename=f"{SUBDIR}/{f}",
+#             repo_type="dataset"
+#         )
+#         paths[f] = path
+#     return paths
+DATASET_ID = "albertoakel/dados_belem"
 SUBDIR = "data/process"
+# diretório temporário (persistente durante o runtime)
+BASE_DIR = "/tmp/dados_belem"
+os.makedirs(BASE_DIR, exist_ok=True)
+def get_data_file(filename: str) -> str:
+    """
+    Baixa o arquivo do HF Dataset apenas se não existir localmente.
+    Retorna o caminho local do arquivo.
+    """
+    local_path = os.path.join(BASE_DIR, filename)
+    if not os.path.exists(local_path):
+        print(f"⬇️ Baixando {filename} do Hugging Face Dataset...")
+        hf_hub_download(
+            repo_id=DATASET_ID,
+            filename=f"{SUBDIR}/{filename}",
+            repo_type="dataset",
+            local_dir=BASE_DIR,
+            local_dir_use_symlinks=False
         )
+    else:
+        print(f"✅ Usando cache local: {filename}")
+    return local_path

load_process.py CHANGED Viewed

@@ -1,44 +1,48 @@
 # load_process.py
 import pandas as pd
 import geopandas as gpd
-import os
-from download_data import ensure_data
-def load_files(ponto_descarte=None):
-    # Leitura dos DADOS & organização
-    paths = ensure_data()
-    gdf = gpd.read_file(paths["shape_bairros.gpkg"]).rename(columns={'NM_BAIRRO': 'Bairro'})
-    df1 = pd.read_csv(paths["tabela_total_com_DIEs.csv"])
-    df2 = pd.read_csv(paths["Bairros_Ncoleta.csv"])
-#    BASE_DIR = os.path.dirname(os.path.abspath(__file__))
-#    DATA_DIR = os.path.join(BASE_DIR, "data", "process")
-#    gdf = gpd.read_file(os.path.join(DATA_DIR, "shape_bairros.gpkg")).rename(columns={'NM_BAIRRO': 'Bairro'})
-#    df1 = pd.read_csv(os.path.join(DATA_DIR, "tabela_total_com_DIEs.csv"))
-#    df2 = pd.read_csv(os.path.join(DATA_DIR, "Bairros_Ncoleta.csv"))
-    #gdf = gpd.read_file(path + 'shape_bairros.gpkg').rename(columns={'NM_BAIRRO': 'Bairro'})
-    #df1 = pd.read_csv(path + 'tabela_total_com_DIEs.csv')
-    #df2 = pd.read_csv(path + 'Bairros_Ncoleta.csv')
     df = df1.merge(df2, on='Bairro', how='left')
     gdf_m = gdf.merge(df, on='Bairro', how='left')
-    #add % de Moradores sem renda
-    gdf_m['NS']=(gdf_m['Mor']-gdf_m['N_ren'])/gdf_m['Mor']
     colunas = list(gdf_m.columns)
     colunas.remove('NS')
     colunas.insert(7, 'NS')
     gdf_m = gdf_m[colunas]
-    # Função de categorização
     def categorizar_dies(dies):
         if dies == 0:
             return 1
@@ -51,40 +55,44 @@ def load_files(ponto_descarte=None):
     gdf_m['Risco'] = gdf_m['DIEs'].apply(categorizar_dies)
-    df_plot = gdf_m.drop(columns=['geometry','V_setores_val'])
     list_feature = df_plot.drop(columns='Risco').select_dtypes(include=['number']).columns
-    feat_options = []
-    for feature in list_feature:
-        feat_options.append({'label': feature, 'value': feature, 'description': None})
-    feat_options[0]['description'] = 'Área do Bairro (km²)'
-    feat_options[1]['description'] = 'Número Total de Habitações'
-    feat_options[2]['description'] = 'Número Total de Moradores'
-    feat_options[3]['description'] = 'relação Moradores/Habitação'
-    feat_options[4]['description'] = 'Números totais de Moradores com Renda'
-    feat_options[5]['description'] = '% de moradores sem renda'
-    feat_options[6]['description'] = 'Renda média do Morador'
-    feat_options[7]['description'] = 'Mediana da renda do Morador'
-    feat_options[8]['description'] = 'Taxa de alfabetização'
-    feat_options[9]['description'] = 'IDH Renda'
-    feat_options[10]['description'] = 'IDH Longevidade'
-    feat_options[11]['description'] = 'IDH Educação'
-    feat_options[12]['description'] = 'Indice de desenvolvimento Humano'
-    feat_options[13]['description'] = 'Quantidade de Deposito Irregulares '
-    feat_options[14]['description'] = 'Concentração Riqueza por area( Ren_avg x (Mor/Hab)/Area_km)'
-    feat_options[15]['description'] = 'Percentual da populção com rendimento'
-    feat_options[16]['description'] = 'Quantidade de Depósitos Irregulares estimado'
-    feat_options[17]['description'] = 'Média de dias de coleta de lixo'
-    feat_options[18]['description'] = 'Quantidade de setores/rotas de coleta'
-    if ponto_descarte is not None:
-        #gdf_p = gpd.read_file(os.path.join(DATA_DIR, "Pontos_descartes_ML.gpkg"))
-        gdf_p = gpd.read_file(paths["Pontos_descartes_ML.gpkg"])
-        #gdf_p = gpd.read_file(path + 'Pontos_descartes_ML.gpkg')
-        return gdf_m,df_plot,list_feature, feat_options, gdf_p
-    else:
-        print('debub: sem arquivo descartes')
-        return gdf_m,df_plot,list_feature, feat_options

 # load_process.py
+import os
 import pandas as pd
 import geopandas as gpd
+from download_data import get_data_file
+#modify to freehun
+def load_bairros():
+    return gpd.read_file(get_data_file("shape_bairros.gpkg"))
+def load_coleta():
+    return gpd.read_file(get_data_file("shape_coleta.gpkg"))
+def load_descartes():
+    return gpd.read_file(get_data_file("Pontos_descartes_ML.gpkg"))
+def load_tabelas():
+    df1 = pd.read_csv(get_data_file("tabela_total_com_DIEs.csv"))
+    df2 = pd.read_csv(get_data_file("Bairros_Ncoleta.csv"))
+    return df1, df2
+def load_files(ponto_descarte=None):
+    # Leitura dos dados principais
+    gdf = gpd.read_file(get_data_file("shape_bairros.gpkg")).rename(columns={'NM_BAIRRO': 'Bairro'})
+    df1 = pd.read_csv(get_data_file("tabela_total_com_DIEs.csv"))
+    df2 = pd.read_csv(get_data_file("Bairros_Ncoleta.csv"))
+    # Merge das tabelas
     df = df1.merge(df2, on='Bairro', how='left')
     gdf_m = gdf.merge(df, on='Bairro', how='left')
+    # % de moradores sem renda
+    gdf_m['NS'] = (gdf_m['Mor'] - gdf_m['N_ren']) / gdf_m['Mor']
     colunas = list(gdf_m.columns)
     colunas.remove('NS')
     colunas.insert(7, 'NS')
     gdf_m = gdf_m[colunas]
+    # Classificação de risco
     def categorizar_dies(dies):
         if dies == 0:
             return 1
     gdf_m['Risco'] = gdf_m['DIEs'].apply(categorizar_dies)
+    # Dados para gráficos
+    df_plot = gdf_m.drop(columns=['geometry', 'V_setores_val'])
     list_feature = df_plot.drop(columns='Risco').select_dtypes(include=['number']).columns
+    feat_options = [{'label': f, 'value': f, 'description': None} for f in list_feature]
+    descr = [
+        'Área do Bairro (km²)',
+        'Número Total de Habitações',
+        'Número Total de Moradores',
+        'Relação Moradores/Habitação',
+        'Número de Moradores com Renda',
+        '% de moradores sem renda',
+        'Renda média do Morador',
+        'Mediana da renda do Morador',
+        'Taxa de alfabetização',
+        'IDH Renda',
+        'IDH Longevidade',
+        'IDH Educação',
+        'Índice de Desenvolvimento Humano',
+        'Quantidade de Depósitos Irregulares',
+        'Concentração de riqueza por área',
+        'Percentual da população com rendimento',
+        'Quantidade estimada de Depósitos Irregulares',
+        'Média de dias de coleta de lixo',
+        'Quantidade de setores/rotas de coleta'
+    ]
+    for i, d in enumerate(descr):
+        if i < len(feat_options):
+            feat_options[i]['description'] = d
+    if ponto_descarte:
+        gdf_p = gpd.read_file(
+            get_data_file("Pontos_descartes_ML.gpkg")
+        )
+        return gdf_m, df_plot, list_feature, feat_options, gdf_p
+    return gdf_m, df_plot, list_feature, feat_options