SucheRAG

Sleeping

alexkueck commited on Jul 2, 2024

Commit

28815ea

verified ·

1 Parent(s): 5301d93

Update utils.py

Files changed (1) hide show

utils.py CHANGED Viewed

@@ -63,12 +63,15 @@ import nltk
 from nltk.corpus import stopwords
 from nltk.tokenize import word_tokenize
 from nltk.stem import WordNetLemmatizer
-nltk.download('punkt')
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
 ################################################
@@ -109,9 +112,7 @@ def normalise_prompt (prompt):
     tokens = [word for word in tokens if word.isalnum()]
     # Stop Word Entfernung
-    nltk.download('stopwords')
-    stop_words = set(stopwords.words('deutsch'))
-    tokens = [word for word in tokens if not word in stop_words]
     # 5. Lemmatisierung: Worte in Grundform bringen, um Text besser vergleichen zu können
     nltk.download('wordnet')
     lemmatizer = WordNetLemmatizer()

 from nltk.corpus import stopwords
 from nltk.tokenize import word_tokenize
 from nltk.stem import WordNetLemmatizer
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
+#für die Normalisierung
+nltk.download('punkt')
+nltk.download('stopwords')
+german_stopwords = set(stopwords.words('german'))
 ################################################
     tokens = [word for word in tokens if word.isalnum()]
     # Stop Word Entfernung
+    tokens = [word for word in tokens if not word in german_stopwords]
     # 5. Lemmatisierung: Worte in Grundform bringen, um Text besser vergleichen zu können
     nltk.download('wordnet')
     lemmatizer = WordNetLemmatizer()