Spaces:

reddgr
/

sss

Running

App Files Files Community

reddgr commited on May 3, 2025

Commit

8e7eb7e

1 Parent(s): 1ef75e5

clean app.py

Browse files

Files changed (1) hide show

app.py +24 -56

app.py CHANGED Viewed

@@ -1,5 +1,17 @@
-import time
-start_time = time.time()
 from pathlib import Path
 from typing import Tuple
 import pandas as pd
@@ -15,64 +27,29 @@ USE_DOTENV = False
 ROOT = Path(__file__).parent
 JSON_PATH = ROOT / "json"
-# DATASET_PATH = ROOT / "pkl" / "app_dataset.pkl"
 DOTENV_PATH = ROOT.parent.parent / "apis" / ".env"
 # DUCKDB_PATH = ROOT / "db" / "sss_vectordb.duckdb"
 from src import front_dataset_handler as fdh, app_utils as utils, semantic_search as ss, env_options
 tokens = env_options.check_env(use_dotenv=USE_DOTENV, dotenv_path=DOTENV_PATH, env_tokens = ["HF_TOKEN"])
-print(f"Libraries loaded. {time.time() - start_time:.2f} seconds.")
-# Carga de modelo de embeddings y conexión a DuckDB
-emb_model = SentenceTransformer("FinLang/finance-embeddings-investopedia", token = tokens.get("HF_TOKEN"))
-# con = duckdb.connect(DUCKDB_PATH)
-print(f"Model loaded. {time.time() - start_time:.2f} seconds.")
-#### CONEXIÓN DUCKDB A HUGGING FACE HUB ####
 print("Initializing DuckDB connection...")
 con = duckdb.connect()
-hf_token = tokens.get("HF_TOKEN")
-##################################
-masked_hf_token = hf_token[:4] + "*" * (len(hf_token) - 8) + hf_token[-4:]
-print(f"Using Hugging Face token: {masked_hf_token}")
-##################################
-hf_token = tokens.get("HF_TOKEN")
-masked_hf_token = hf_token[:4] + "*" * (len(hf_token) - 8) + hf_token[-4:]
-'''
-create_secret_query = f"""
-    INSTALL httpfs;
-    LOAD httpfs;
-    CREATE PERSISTENT SECRET hf_token (
-        TYPE huggingface,
-        TOKEN '{hf_token}'
-    );
-    """
-'''
-# con.sql(create_secret_query)
-# print(con.sql("SELECT * FROM duckdb_secrets()").fetchdf())
-dataset_name = "reddgr/swift-stock-screener"
-# con.sql(query="INSTALL vss; LOAD vss;")
-create_secret_query = f"""
-        INSTALL httpfs;
-        LOAD httpfs;
-        CREATE PERSISTENT SECRET hf_token (
-            TYPE huggingface,
-            TOKEN '{hf_token}'
-        );
-        """
-con.sql(create_secret_query)
-print(con.sql("SELECT * FROM duckdb_secrets()").fetchdf().iloc[0,-2])
-print(con.sql("SELECT * FROM duckdb_secrets()").fetchdf().iloc[0,-1])
-print(con.sql("SELECT * FROM duckdb_secrets()").fetchdf())
-# FROM 'hf://datasets/reddgr/swift-stock-screener/data/train-00000-of-00001.parquet';
 create_table_query = f"""
         INSTALL vss;
         LOAD vss;
         SET hnsw_enable_experimental_persistence = true;
         CREATE TABLE vector_table AS
         SELECT *, embeddings::float[{emb_model.get_sentence_embedding_dimension()}] as embeddings_float
-        FROM 'parquet/app_dataset.parquet';
         """
 con.sql(create_table_query)
@@ -83,28 +60,19 @@ create_index_query = f"""
         """
 con.sql(create_index_query)
-# print(con.sql("SELECT * FROM duckdb_secrets()").fetchdf())
-print(f"Created search index. {time.time() - start_time:.2f} seconds.")
-########################################
 # ESTADO GLOBAL
 last_result_df: pd.DataFrame = pd.DataFrame()
-######################
 last_search_type: str = ""
 last_search_query: str = ""
-# last_filtros_values: Tuple = ()
 last_column_filters: list[tuple[str, str]] = []
 last_sort_col_label: str = ""
 last_sort_dir: str = ""
-#######################
 # ---------------------------------------------------------------------------
 # CONFIG --------------------------------------------------------------------
 # ---------------------------------------------------------------------------
-app_dataset = load_dataset("reddgr/swift-stock-screener", split="train", token = tokens.get("HF_TOKEN")).to_pandas()
-# dh_app = fdh.FrontDatasetHandler(app_dataset=pd.read_pickle(DATASET_PATH))
 dh_app = fdh.FrontDatasetHandler(app_dataset=app_dataset)
 maestro = dh_app.app_dataset[dh_app.app_dataset['quoteType']=='EQUITY'].copy()
 maestro_etf = dh_app.app_dataset[dh_app.app_dataset['quoteType']=='ETF'].copy()

+'''
+Swift Stock Screener (SSS)
+Copyright 2025 David González Romero
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+    http://www.apache.org/licenses/LICENSE-2.0
+App URL: https://huggingface.co/spaces/reddgr/sss
+'''
+# cd C:\Users\david\Documents\git\miax-tfm-dgr; python app.py
 from pathlib import Path
 from typing import Tuple
 import pandas as pd
 ROOT = Path(__file__).parent
 JSON_PATH = ROOT / "json"
+DATASET_PATH = "reddgr/swift-stock-screener" # Hugging Face hub dataset name
+EMB_MODEL_PATH = "FinLang/finance-embeddings-investopedia" # Hugging Face Hub embeddings model name
 DOTENV_PATH = ROOT.parent.parent / "apis" / ".env"
+PARQUET_PATH = ROOT / "parquet" / "app_dataset.parquet"
 # DUCKDB_PATH = ROOT / "db" / "sss_vectordb.duckdb"
 from src import front_dataset_handler as fdh, app_utils as utils, semantic_search as ss, env_options
 tokens = env_options.check_env(use_dotenv=USE_DOTENV, dotenv_path=DOTENV_PATH, env_tokens = ["HF_TOKEN"])
+emb_model = SentenceTransformer(EMB_MODEL_PATH, token = tokens.get("HF_TOKEN"))
+#### CONEXIÓN DE DUCKDB CON EL DATASET PARA INDEXAR ####
 print("Initializing DuckDB connection...")
 con = duckdb.connect()
 create_table_query = f"""
         INSTALL vss;
         LOAD vss;
         SET hnsw_enable_experimental_persistence = true;
         CREATE TABLE vector_table AS
         SELECT *, embeddings::float[{emb_model.get_sentence_embedding_dimension()}] as embeddings_float
+        FROM '{PARQUET_PATH}';
         """
 con.sql(create_table_query)
         """
 con.sql(create_index_query)
 # ESTADO GLOBAL
 last_result_df: pd.DataFrame = pd.DataFrame()
 last_search_type: str = ""
 last_search_query: str = ""
 last_column_filters: list[tuple[str, str]] = []
 last_sort_col_label: str = ""
 last_sort_dir: str = ""
 # ---------------------------------------------------------------------------
 # CONFIG --------------------------------------------------------------------
 # ---------------------------------------------------------------------------
+app_dataset = load_dataset(DATASET_PATH, split="train", token = tokens.get("HF_TOKEN")).to_pandas()
 dh_app = fdh.FrontDatasetHandler(app_dataset=app_dataset)
 maestro = dh_app.app_dataset[dh_app.app_dataset['quoteType']=='EQUITY'].copy()
 maestro_etf = dh_app.app_dataset[dh_app.app_dataset['quoteType']=='ETF'].copy()