Spaces:

jadenhochh
/

Expert_Finder_TF_IDF

Sleeping

jadenhochh commited on Jan 17

Commit

6ed60e1

verified ·

1 Parent(s): 4a6436f

Update src/streamlit_app.py

Files changed (1) hide show

src/streamlit_app.py CHANGED Viewed

@@ -7,6 +7,7 @@ import io
 import re
 from nltk.stem import PorterStemmer
 import nltk
 nltk.download('stopwords')
@@ -26,14 +27,19 @@ tfidf_matrix, tfidf_vectorizer, df = load_data()
 st.title("Arxiv Expert Finder")
 st.sidebar.header("Query")
 user_query = st.text_input("Suchtext eingeben", "")
-if user_query:
-    # Remove numbers and special characters, convert to lowercase
-    user_query = re.sub(r'[^a-zA-Z\s]', ' ', user_query).lower()
-    # Stem words
-    stemmer = PorterStemmer()
-    user_query = " ".join([stemmer.stem(word) for word in user_query.split()])
 num_experts = st.sidebar.number_input("Anzahl Experten", min_value=1, max_value=10, value=5, step=1)

 import re
 from nltk.stem import PorterStemmer
 import nltk
+from functools import lru_cache
 nltk.download('stopwords')
 st.title("Arxiv Expert Finder")
 st.sidebar.header("Query")
+@lru_cache(maxsize=200_000)
+def stem_cached(w: str) -> str:
+    return stemmer.stem(w)
+def text_reinigen_fast(text: str) -> str:
+    if not isinstance(text, str) or not text:
+        return ""
+    words = re_words.findall(text.lower())
+    return " ".join(stem_cached(w) for w in words if w not in stop)
 user_query = st.text_input("Suchtext eingeben", "")
+user_query = text_reinigen_fast(user_query)
 num_experts = st.sidebar.number_input("Anzahl Experten", min_value=1, max_value=10, value=5, step=1)