Spaces:

jadenhochh
/

Expert_Finder_TF_IDF

Sleeping

jadenhochh commited on Jan 10

Commit

72dc1c4

verified ·

1 Parent(s): beedacb

Update src/streamlit_app.py

Files changed (1) hide show

src/streamlit_app.py CHANGED Viewed

@@ -2,17 +2,28 @@ import streamlit as st
 import pandas as pd
 from sklearn.metrics.pairwise import cosine_similarity
 import joblib
 import re
 from nltk.stem import PorterStemmer
-tfidf_matrix = joblib.load(r'https://huggingface.co/datasets/jadenhochh/TF_IDF/resolve/main/tfidf_matrix.pkl')
-tfidf_vectorizer = joblib.load(r'https://huggingface.co/datasets/jadenhochh/TF_IDF/resolve/main/tfidf_vectorizer.pkl')
-df = pd.read_csv("https://huggingface.co/datasets/jadenhochh/TF_IDF/resolve/main/clean_processed_dataset.csv")
 st.title("Arxiv Expert Finder")
 st.sidebar.header("Query")
-user_query = st.sidebar.text_input("Suchtext eingeben", "")
 if user_query:
     # Remove numbers and special characters, convert to lowercase
@@ -21,7 +32,6 @@ if user_query:
     stemmer = PorterStemmer()
     user_query = " ".join([stemmer.stem(word) for word in user_query.split()])
 num_experts = st.sidebar.number_input("Anzahl Experten", min_value=1, max_value=10, value=5, step=1)
 if user_query:

 import pandas as pd
 from sklearn.metrics.pairwise import cosine_similarity
 import joblib
+import requests
+import io
 import re
 from nltk.stem import PorterStemmer
+@st.cache_resource
+def load_data():
+    matrix_res = requests.get('https://huggingface.co/datasets/jadenhochh/TF_IDF/resolve/main/tfidf_matrix.pkl')
+    vectorizer_res = requests.get('https://huggingface.co/datasets/jadenhochh/TF_IDF/resolve/main/tfidf_vectorizer.pkl')
+    tfidf_matrix = joblib.load(io.BytesIO(matrix_res.content))
+    tfidf_vectorizer = joblib.load(io.BytesIO(vectorizer_res.content))
+    df = pd.read_csv("https://huggingface.co/datasets/jadenhochh/TF_IDF/resolve/main/clean_processed_dataset.csv")
+    return tfidf_matrix, tfidf_vectorizer, df
+tfidf_matrix, tfidf_vectorizer, df = load_data()
 st.title("Arxiv Expert Finder")
 st.sidebar.header("Query")
+user_query = st.text_input("Suchtext eingeben", "")
 if user_query:
     # Remove numbers and special characters, convert to lowercase
     stemmer = PorterStemmer()
     user_query = " ".join([stemmer.stem(word) for word in user_query.split()])
 num_experts = st.sidebar.number_input("Anzahl Experten", min_value=1, max_value=10, value=5, step=1)
 if user_query: