Spaces:

wbrooks
/

CoUL-document-search

Sleeping

App Files Files Community

wbrooks commited on Jan 16

Commit

49257b2

1 Parent(s): f4c877a

use valid columns for the result

Browse files

Files changed (2) hide show

.gitignore +2 -0
app.py +7 -8

.gitignore CHANGED Viewed

@@ -1,3 +1,5 @@
 # pixi environments
 .pixi/*
 !.pixi/config.toml

 # pixi environments
 .pixi/*
 !.pixi/config.toml
+*/.DS_Store

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 from fastapi import FastAPI, Query
 from fastapi.responses import JSONResponse
-from src.embeddings_search import create_embeddings_search_function_from_embeddings_df
-from src.tfidf_search import create_tfidf_search_function
 import polars as pl
 #from jinja2 import Template
@@ -13,6 +13,7 @@ path_prefix = "/Users/wes/Google Drive/Shared drives/datalab/projects/2025_coul_
 block_embeddings_df_path = "block_embeddings/block-embeddings.parquet"
 doc_tfidf_df_path = "block_tfidf/TF-IDF-doc-text.parquet"
 tfidf_vectorizer_path = "block_tfidf/tfidf_vectorizer_doc_text.joblib"
 sbert_query_docs = create_embeddings_search_function_from_embeddings_df(
     model_name = "sentence-transformers/all-MiniLM-L6-v2",
@@ -22,9 +23,8 @@ tfidf_query_docs = create_tfidf_search_function(
     dtm_df_path = doc_tfidf_df_path,
     vectorizer_path = tfidf_vectorizer_path,
     model_name = "facebook/fasttext-en-vectors")
-doc_embeddings_df = (pl.read_parquet(block_embeddings_df_path)
-    .unique(subset = "file", keep="first")
-    .with_columns(("/" + pl.col('file').str.strip_prefix(path_prefix)).alias("tail_path")))
 app = FastAPI()
@@ -41,16 +41,15 @@ def search(q: str = Query(..., description="Search query")):
     res_sbert = sbert_query_docs(q)
     joined = (res_sbert.join(res_tfidf, on='file', how = 'inner')
-        .join(doc_embeddings_df, left_on="file", right_on = "tail_path", how="inner")
         .with_columns(
             pl.format('<a href="https://drive.google.com/file/d/{}/view" target="_blank" rel="noopener">{}</a>',
                 pl.col("id"),
-                pl.col("name")).alias('link')))
     res_combined = joined.with_columns(
         (0.7 * pl.col("rank-sbert") + 0.3 * pl.col("rank-tfidf")).alias("rank-combined"),
         #pl.col("file").str.strip_prefix(path_prefix).alias("file"),
-        pl.col("link").str.strip_prefix(path_prefix).alias("link"),
     ).sort("rank-combined").with_columns(
         (20.0 / pl.col('rank-combined')).round(2).alias('confidence')
     ).select(['link', 'confidence'])

 from fastapi import FastAPI, Query
 from fastapi.responses import JSONResponse
+from src.coul_search.embeddings_search import create_embeddings_search_function_from_embeddings_df
+from src.coul_search.tfidf_search import create_tfidf_search_function
 import polars as pl
 #from jinja2 import Template
 block_embeddings_df_path = "block_embeddings/block-embeddings.parquet"
 doc_tfidf_df_path = "block_tfidf/TF-IDF-doc-text.parquet"
 tfidf_vectorizer_path = "block_tfidf/tfidf_vectorizer_doc_text.joblib"
+googledrive_metadata_path = "coul_files.csv"
 sbert_query_docs = create_embeddings_search_function_from_embeddings_df(
     model_name = "sentence-transformers/all-MiniLM-L6-v2",
     dtm_df_path = doc_tfidf_df_path,
     vectorizer_path = tfidf_vectorizer_path,
     model_name = "facebook/fasttext-en-vectors")
+coul_files_df = (pl.read_csv(googledrive_metadata_path)
+    .with_columns(pl.col("path").str.strip_prefix("/").alias("path")))
 app = FastAPI()
     res_sbert = sbert_query_docs(q)
     joined = (res_sbert.join(res_tfidf, on='file', how = 'inner')
+        .join(coul_files_df, left_on="file", right_on = "path", how="inner")
         .with_columns(
             pl.format('<a href="https://drive.google.com/file/d/{}/view" target="_blank" rel="noopener">{}</a>',
                 pl.col("id"),
+                pl.col("file")).alias('link')))
     res_combined = joined.with_columns(
         (0.7 * pl.col("rank-sbert") + 0.3 * pl.col("rank-tfidf")).alias("rank-combined"),
         #pl.col("file").str.strip_prefix(path_prefix).alias("file"),
     ).sort("rank-combined").with_columns(
         (20.0 / pl.col('rank-combined')).round(2).alias('confidence')
     ).select(['link', 'confidence'])