QueryExpansionForEtsy

Runtime error

App Files Files Community

yinlinfu commited on Jun 16, 2023

Commit

7693508

1 Parent(s): af0ed7b

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -39

app.py CHANGED Viewed

@@ -84,7 +84,10 @@ windowSize = 3
 numOfKeywords = 3
 custom_kw_extractor = yake.KeywordExtractor(lan=language, n=max_ngram_size, dedupLim=deduplication_threshold, dedupFunc=deduplication_algo, windowsSize=windowSize, top=numOfKeywords, features=None)
 # We lower case our text and remove stop-words from indexing
 def bm25_tokenizer(text):
     tokenized_doc = []
@@ -123,6 +126,13 @@ def clean_string(input_string):
         output_string.append(string_strip)
     return output_string
 def generate_query_expansion_candidates(query):
     print("Input query:", query)
     expanded_query_set = {}
@@ -170,21 +180,16 @@ def generate_query_expansion_candidates(query):
     # remove the query itself from candidates
     if query in final_candidates:
         del final_candidates[query]
     # Total Results
     st.write("E-Commerce Query Expansion Candidates: \n")
     return final_candidates
-with open('query_gms.json', 'r') as file:
-    query_gms_dict = json.load(file)
-def add_gms_score_for_candidates(candidates, query_gms_dict):
-    for query_candidate in candidates:
-        value = candidates[query_candidate]
-        value['gms'] = query_gms_dict.get(query_candidate, 0)
-        candidates[query_candidate] = value
-    return candidates
 def re_rank_candidates(query, candidates, method):
     if method == 'bm25':
         # Filter and sort by bm25_score
@@ -229,36 +234,19 @@ def re_rank_candidates(query, candidates, method):
     return df
-# def reranking():
-#     rerank_list = []
-#     reres = []
-#     rerank_list = search_nolog(query = user_query)
-#     unique_list = list(set(rerank_list))
-#     new_unique_list = [item for item in unique_list if item != user_query]
-#     Lowercasing_list = [item.lower() for item in new_unique_list]
-#     # st.write("E-Commerce Query Expansion Results: \n")
-#     st.write(Lowercasing_list[0:maxtags_sidebar])
-#     for i in Lowercasing_list[0:maxtags_sidebar]:
-#         reres.append(i)
-#     np.random.seed(7)
-#     np.random.shuffle(reres)
-#     test_res = {'front door': 0.5, 'family':0.3}
-#     st.write("Reranking Results: \n")
-#     st.write(test_res)
 # st.write("## Raw Candidates:")
 if st.button('Generated Expansion'):
-    raw_candidates = generate_query_expansion_candidates(query = user_query)
-    st.write(list(raw_candidates.keys())[0:maxtags_sidebar])
-    st.success(raw_candidates)
 if st.button('Rerank By Encoder'):
-    raw_candidates = generate_query_expansion_candidates(query = user_query)
-    candidates = add_gms_score_for_candidates(raw_candidates, query_gms_dict)
     out_res = re_rank_candidates(user_query, candidates, method='encoder')
     st.write("Reranking By Encoder: \n")
-    st.write(out_res[:maxtags_sidebar])
-    st.success(out_res)

 numOfKeywords = 3
 custom_kw_extractor = yake.KeywordExtractor(lan=language, n=max_ngram_size, dedupLim=deduplication_threshold, dedupFunc=deduplication_algo, windowsSize=windowSize, top=numOfKeywords, features=None)
+# load query GMS information
+with open('query_gms.json', 'r') as file:
+    query_gms_dict = json.load(file)
 # We lower case our text and remove stop-words from indexing
 def bm25_tokenizer(text):
     tokenized_doc = []
         output_string.append(string_strip)
     return output_string
+def add_gms_score_for_candidates(candidates, query_gms_dict):
+    for query_candidate in candidates:
+        value = candidates[query_candidate]
+        value['gms'] = query_gms_dict.get(query_candidate, 0)
+        candidates[query_candidate] = value
+    return candidates
 def generate_query_expansion_candidates(query):
     print("Input query:", query)
     expanded_query_set = {}
     # remove the query itself from candidates
     if query in final_candidates:
         del final_candidates[query]
+    # add gms column
+    for query_candidate in final_candidates:
+        value = final_candidates[query_candidate]
+        value['gms'] = query_gms_dict.get(query_candidate, 0)
+        final_candidates[query_candidate] = value
     # Total Results
     st.write("E-Commerce Query Expansion Candidates: \n")
     return final_candidates
 def re_rank_candidates(query, candidates, method):
     if method == 'bm25':
         # Filter and sort by bm25_score
     return df
 # st.write("## Raw Candidates:")
 if st.button('Generated Expansion'):
+    candidates = generate_query_expansion_candidates(query = user_query)
+    # convert into dataframe
+    data_dicts = [{'query': key, **values} for key, values in candidates.items()]
+    df = pd.DataFrame(data_dicts)
+    # st.write(list(candidates.keys())[0:maxtags_sidebar])
+    st.write(df)
+    # st.success(raw_candidates)
 if st.button('Rerank By Encoder'):
+    # raw_candidates = generate_query_expansion_candidates(query = user_query)
+    # candidates = add_gms_score_for_candidates(raw_candidates, query_gms_dict)
     out_res = re_rank_candidates(user_query, candidates, method='encoder')
     st.write("Reranking By Encoder: \n")
+    st.write(out_res[:maxtags_sidebar])