Spaces:

miniproject1
/

part4

Sleeping

App Files Files Community

Arko Banik commited on Jan 19, 2024

Commit

5c9e161

1 Parent(s): d02c4b6

produces pie chart but breaks when trying to change category

Browse files

Files changed (7) hide show

README.md +4 -4
app.py +45 -54
embeddings_25d_temp.npy +3 -0
embeddings_50d_temp.npy +3 -0
requirements.txt +0 -0
word_index_dict_25d_temp.pkl +3 -0
word_index_dict_50d_temp.pkl +3 -0

README.md CHANGED Viewed

@@ -1,8 +1,8 @@
 ---
-title: Part4
-emoji: 📈
-colorFrom: gray
-colorTo: blue
 sdk: streamlit
 sdk_version: 1.30.0
 app_file: app.py

 ---
+title: MiniProject1 P4
+emoji: 🌍
+colorFrom: blue
+colorTo: red
 sdk: streamlit
 sdk_version: 1.30.0
 app_file: app.py

app.py CHANGED Viewed

@@ -4,7 +4,6 @@ import numpy.linalg as la
 import pickle
 import os
 import gdown
-#import sentence_transformers
 from sentence_transformers import SentenceTransformer
 import matplotlib.pyplot as plt
 import math
@@ -21,11 +20,8 @@ def cosine_similarity(x, y):
     """
     ##################################
     ### TODO: Add code here ##########
-    cos_sim = np.dot(x,y)/(np.linalg.norm(x)*np.linalg.norm(y))
-    exp_cos = np.exp(cos_sim) ######## find formula for exponentiated cosine similarity
     ##################################
-    return exp_cos
 # Function to Load Glove Embeddings
@@ -67,7 +63,7 @@ def download_glove_embeddings_gdrive(model_type):
     gdown.download(id=embeddings_id, output=embeddings_temp, quiet=False)
-@st.cache_data()
 def load_glove_embeddings_gdrive(model_type):
     word_index_temp = "word_index_dict_" + str(model_type) + "_temp.pkl"
     embeddings_temp = "embeddings_" + str(model_type) + "_temp.npy"
@@ -128,22 +124,18 @@ def averaged_glove_embeddings_gdrive(sentence, word_index_dict, embeddings, mode
     embedding = np.zeros(int(model_type.split("d")[0]))
     ##################################
     ##### TODO: Add code here ########
-    #glove_word_set= load_glove_embeddings_gdrive(model_type)
-    for word in sentence:
-        #print(sentence)
-        words = [word.strip('.,?!').lower() for word in sentence.split()]
-        total = 0
-        for w in words:
-            if w in embeddings:
-                embed += embeddings[w]
-                total +=1
-        if total != 0:
-            embed = embed/total
-    return embed
     ##################################
 def get_category_embeddings(embeddings_metadata):
@@ -182,7 +174,7 @@ def get_sorted_cosine_similarity(embeddings_metadata):
     (50 pts)
     """
     categories = st.session_state.categories.split(" ")
     if embeddings_metadata["embedding_model"] == "glove":
         word_index_dict = embeddings_metadata["word_index_dict"]
         embeddings = embeddings_metadata["embeddings"]
@@ -194,11 +186,10 @@ def get_sorted_cosine_similarity(embeddings_metadata):
         ##########################################
         ## TODO: Get embeddings for categories ###
-        cat_embed = []
-        for cat in categories:
-            cat_embed.append(get_glove_embeddings(cat))
         ##########################################
     else:
         model_name = embeddings_metadata["model_name"]
@@ -208,38 +199,36 @@ def get_sorted_cosine_similarity(embeddings_metadata):
         category_embeddings = st.session_state["cat_embed_" + model_name]
         print("text_search = ", st.session_state.text_search)
         if model_name:
             input_embedding = get_sentence_transformer_embeddings(st.session_state.text_search, model_name=model_name)
         else:
             input_embedding = get_sentence_transformer_embeddings(st.session_state.text_search)
-        #for index in range(len(categories)):
-            #pass
-            ##########################################
-            # TODO: Compute cosine similarity between input sentence and categories
-            cat_scores = []
-            cat_idx = 0
-            for cat_embed in category_embeddings:
-                # Calc cosine sim
-                cat_scores.append((cat_idx, np.dot(input,cat_embed)))
-                # Store doc_id and score as a tuple
-                cat_idx +=1
-            sorted_list = sorted(cat_scores, key=lambda x: x[1])
-            sorted_cats = [element[0] for element in sorted_list]
-            #flip sorting order
-            sorted_cats = sorted_cats[::-1]
-            # Add list to Map
-            result = sorted_cats[0]
-            selected_cat = categories[result]
-            print(selected_cat)
-            # TODO: Update category embeddings if category not found
-            ##########################################
-    return selected_cat
 def plot_piechart(sorted_cosine_scores_items):
@@ -397,7 +386,8 @@ if st.session_state.text_search:
     }
     with st.spinner("Obtaining Cosine similarity for Glove..."):
         sorted_cosine_sim_glove = get_sorted_cosine_similarity(
-            st.session_state.text_search, embeddings_metadata
         )
     # Sentence transformer embeddings
@@ -405,7 +395,8 @@ if st.session_state.text_search:
     embeddings_metadata = {"embedding_model": "transformers", "model_name": ""}
     with st.spinner("Obtaining Cosine similarity for 384d sentence transformer..."):
         sorted_cosine_sim_transformer = get_sorted_cosine_similarity(
-            st.session_state.text_search, embeddings_metadata
         )
     # Results and Plot Pie Chart for Glove

 import pickle
 import os
 import gdown
 from sentence_transformers import SentenceTransformer
 import matplotlib.pyplot as plt
 import math
     """
     ##################################
     ### TODO: Add code here ##########
     ##################################
+    return np.exp(np.dot(x,y)/(np.linalg.norm(x)*np.linalg.norm(y)))
 # Function to Load Glove Embeddings
     gdown.download(id=embeddings_id, output=embeddings_temp, quiet=False)
+# @st.cache_data()
 def load_glove_embeddings_gdrive(model_type):
     word_index_temp = "word_index_dict_" + str(model_type) + "_temp.pkl"
     embeddings_temp = "embeddings_" + str(model_type) + "_temp.npy"
     embedding = np.zeros(int(model_type.split("d")[0]))
     ##################################
     ##### TODO: Add code here ########
     ##################################
+    words = [word.strip('.,?!').lower() for word in sentence.split()]
+    total = 0
+    for w in words:
+        if w in word_index_dict:
+            embedding += embeddings[word_index_dict[w]]
+            total +=1
+    if total != 0:
+        embedding = embedding/total
+    return embedding
 def get_category_embeddings(embeddings_metadata):
     (50 pts)
     """
     categories = st.session_state.categories.split(" ")
+    cosine_sim = {}
     if embeddings_metadata["embedding_model"] == "glove":
         word_index_dict = embeddings_metadata["word_index_dict"]
         embeddings = embeddings_metadata["embeddings"]
         ##########################################
         ## TODO: Get embeddings for categories ###
         ##########################################
+        category_embeddings = {}
+        for cat in categories:
+            category_embeddings[cat] = get_glove_embeddings(cat, word_index_dict, embeddings, model_type)
     else:
         model_name = embeddings_metadata["model_name"]
         category_embeddings = st.session_state["cat_embed_" + model_name]
         print("text_search = ", st.session_state.text_search)
+        print(category_embeddings)
         if model_name:
             input_embedding = get_sentence_transformer_embeddings(st.session_state.text_search, model_name=model_name)
         else:
             input_embedding = get_sentence_transformer_embeddings(st.session_state.text_search)
+    cat_scores = []
+    for index in range(len(categories)):
+        ##########################################
+        # TODO: Compute cosine similarity between input sentence and categories
+        # TODO: Update category embeddings if category not found
+        ##########################################
+        cat = categories[index]
+        cat_embed = category_embeddings[cat]
+        # Calc cosine sim
+        cat_scores.append((index, np.dot(input_embedding,cat_embed)))
+        # Store doc_id and score as a tuple
+    sorted_list = sorted(cat_scores, key=lambda x: x[1])
+    sorted_list = sorted_list[::-1]
+    sorted_cats = [element[0] for element in sorted_list]
+    #flip sorting order
+    # Add list to Map
+    # for cat_pair in sorted_cats:
+    #     cosine_sim[cat_pair[0]] = cat_pair[1]
+    return sorted_list
 def plot_piechart(sorted_cosine_scores_items):
     }
     with st.spinner("Obtaining Cosine similarity for Glove..."):
         sorted_cosine_sim_glove = get_sorted_cosine_similarity(
+            # st.session_state.text_search,
+            embeddings_metadata
         )
     # Sentence transformer embeddings
     embeddings_metadata = {"embedding_model": "transformers", "model_name": ""}
     with st.spinner("Obtaining Cosine similarity for 384d sentence transformer..."):
         sorted_cosine_sim_transformer = get_sorted_cosine_similarity(
+            # st.session_state.text_search,
+            embeddings_metadata
         )
     # Results and Plot Pie Chart for Glove

embeddings_25d_temp.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5eec0acf13b5c7d7c3bd178c1c84332347b9c0d55a474e37f4313e5289aacde3
+size 238702880

embeddings_50d_temp.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e74f88cde3ff2e36c815d13955c67983cf6f81829d2582cb6789c10786e5ef66
+size 477405680

requirements.txt CHANGED Viewed

Binary files a/requirements.txt and b/requirements.txt differ

word_index_dict_25d_temp.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:674af352f703098ef122f6a8db7c5e08c5081829d49daea32e5aeac1fe582900
+size 60284151

word_index_dict_50d_temp.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:674af352f703098ef122f6a8db7c5e08c5081829d49daea32e5aeac1fe582900
+size 60284151