Spaces:

fortuala
/

CitingLLM

Build error

fortuala commited on Oct 27, 2024

Commit

80bd751

verified ·

1 Parent(s): c92f52a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,8 +1,11 @@
 import gradio as gr
 import pandas as pd
-from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 # Function to process the uploaded file and find top 5 matching notes
 def find_matching_notes(uploaded_file, user_input):
     # Read the uploaded CSV file
@@ -22,13 +25,12 @@ def find_matching_notes(uploaded_file, user_input):
         # Combine 'Notes' and 'Section' for processing
         df['Combined'] = df['Notes'] + ' ' + df['Section']
-        # Create TF-IDF vectorizer and transform the texts
-        vectorizer = TfidfVectorizer()
         all_texts = df['Combined'].tolist() + [user_input]
-        tfidf_matrix = vectorizer.fit_transform(all_texts)
         # Compute cosine similarity
-        cosine_similarities = cosine_similarity(tfidf_matrix[-1], tfidf_matrix[:-1])
         # Get the top 5 indices of the most similar entries
         top_indices = cosine_similarities[0].argsort()[-5:][::-1]

 import gradio as gr
 import pandas as pd
+from sentence_transformers import SentenceTransformer
 from sklearn.metrics.pairwise import cosine_similarity
+# Load the Sentence Transformer model
+model = SentenceTransformer('all-MiniLM-L6-v2')  # You can choose a different model if preferred
 # Function to process the uploaded file and find top 5 matching notes
 def find_matching_notes(uploaded_file, user_input):
     # Read the uploaded CSV file
         # Combine 'Notes' and 'Section' for processing
         df['Combined'] = df['Notes'] + ' ' + df['Section']
+        # Encode the combined text using the Sentence Transformer
         all_texts = df['Combined'].tolist() + [user_input]
+        embeddings = model.encode(all_texts, convert_to_tensor=True)
         # Compute cosine similarity
+        cosine_similarities = cosine_similarity(embeddings[-1].unsqueeze(0), embeddings[:-1])
         # Get the top 5 indices of the most similar entries
         top_indices = cosine_similarities[0].argsort()[-5:][::-1]