Spaces:

ddiddu
/

simsearch

Runtime error

App Files Files Community

ddiddu commited on May 31, 2023

Commit

9b08db0

1 Parent(s): e0c1f53

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -6

app.py CHANGED Viewed

@@ -123,24 +123,33 @@ def get_recommendations_TFIDF(abstract):
   tfidf_vectorizer = TfidfVectorizer()
   # Generate the tf-idf vectors for the corpus
   tfidf_matrix = tfidf_vectorizer.fit_transform(corpus)
   # compute and print the cosine similarity matrix
   cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
   # Get the pairwise similarity scores
   sim_scores = list(enumerate(cosine_sim[-1]))
   sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
-  paper_indices = sim_scores[2][0]
   title = train_df['title'].iloc[paper_indices]
   categories = train_df['categories'].iloc[paper_indices]
   abstract = train_df['abstract'].iloc[paper_indices]
-  similarity = "{:.2f}%".format(sim_scores[2][1] * 100)  # Format similarity as a string with two decimal places and a percentage sign
   return title, categories, abstract, similarity
-get_recommendations_TFIDF('''
-In this paper we consider permutations of sequences of partitions, obtaining\na result which parallels von Neumann's theorem on permutations of dense\nsequences and uniformly distributed sequences of points.\n
-''')
 """# Doc2Vec"""
 import time

   tfidf_vectorizer = TfidfVectorizer()
   # Generate the tf-idf vectors for the corpus
   tfidf_matrix = tfidf_vectorizer.fit_transform(corpus)
   # compute and print the cosine similarity matrix
   cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
   # Get the pairwise similarity scores
   sim_scores = list(enumerate(cosine_sim[-1]))
   sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
+  # Check if the first result is the input abstract
+  if corpus[int(sim_scores[0][0])].split() == abstract.split() and corpus[int(sim_scores[1][0])].split() == abstract.split():
+    print(corpus[int(sim_scores[0][0])].split() == abstract.split())
+    print(corpus[int(sim_scores[1][0])].split() == abstract.split())
+    paper_indices = int(sim_scores[2][0])
+    similarity = "{:.2f}%".format(sim_scores[2][1] * 100)  # Format similarity as a string with two decimal places and a percentage sign
+  elif sim_scores[0][0] == 500:
+    paper_indices = int(sim_scores[1][0])
+    similarity = "{:.2f}%".format(sim_scores[1][1] * 100)  # Format similarity as a string with two decimal places and a percentage sign
+  else:
+    paper_indices = int(sim_scores[0][0])
+    similarity = "{:.2f}%".format(sim_scores[0][1] * 100)  # Format similarity as a string with two decimal places and a percentage sign
   title = train_df['title'].iloc[paper_indices]
   categories = train_df['categories'].iloc[paper_indices]
   abstract = train_df['abstract'].iloc[paper_indices]
   return title, categories, abstract, similarity
 """# Doc2Vec"""
 import time