Spaces:

Preethamreddy799
/

NLP_PROJECT

Sleeping

Preethamreddy799 commited on Dec 18, 2024

Commit

d40f814

1 Parent(s): 935cbd6

new update

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,26 +18,38 @@ lemmatizer = WordNetLemmatizer()
 # Function to preprocess input text
 def preprocess_text(input_text, word2vec_model):
     input_text = input_text.lower()
     tokens = input_text.split()
     tokens = [token for token in tokens if token not in stop_words]
     tokens = [lemmatizer.lemmatize(token, pos='v') for token in tokens]
-    embeddings = []
     for token in tokens:
         if token in word2vec_model.wv:
             embeddings.append(word2vec_model.wv[token])
         else:
-            embeddings.append(np.zeros(word2vec_model.vector_size))
-    max_timesteps = 100
-    if len(embeddings) > max_timesteps:
-        embeddings = embeddings[:max_timesteps]
     else:
-        padding = [np.zeros(word2vec_model.vector_size)] * (max_timesteps - len(embeddings))
         embeddings.extend(padding)
-    input_features = np.array(embeddings).reshape((1, max_timesteps, word2vec_model.vector_size))
     return input_features
 # Load Word2Vec model

 # Function to preprocess input text
 def preprocess_text(input_text, word2vec_model):
+    # Convert to lowercase
     input_text = input_text.lower()
+    # Tokenize words
     tokens = input_text.split()
+    # Remove stop words
     tokens = [token for token in tokens if token not in stop_words]
+    # Lemmatize tokens
     tokens = [lemmatizer.lemmatize(token, pos='v') for token in tokens]
+    # Generate Word2Vec embeddings for tokens
+    embeddings = []
     for token in tokens:
         if token in word2vec_model.wv:
             embeddings.append(word2vec_model.wv[token])
         else:
+            embeddings.append(np.zeros(word2vec_model.vector_size))  # Handle OOV words
+    # Pad or truncate embeddings to match model's time_steps
+    time_steps = lstm_model.input_shape[1]  # Dynamically get time_steps from model
+    vector_size = word2vec_model.vector_size
+    if len(embeddings) > time_steps:
+        embeddings = embeddings[:time_steps]
     else:
+        padding = [np.zeros(vector_size)] * (time_steps - len(embeddings))
         embeddings.extend(padding)
+    # Convert to NumPy array with shape (1, time_steps, vector_size)
+    input_features = np.array(embeddings).reshape((1, time_steps, vector_size))
     return input_features
 # Load Word2Vec model