Spaces:

croeasusking
/

Articles_Retrieve

Sleeping

App Files Files Community

croeasusking commited on May 5, 2025

Commit

7839fd1

verified ·

1 Parent(s): 642f26f

Update app.py

Browse files

Files changed (1) hide show

app.py +3 -24

app.py CHANGED Viewed

@@ -4,48 +4,27 @@ from datetime import datetime
 from sentence_transformers import SentenceTransformer
 from sklearn.metrics.pairwise import cosine_similarity
-# Load dataset (ensure the file is in the same directory)
 df = pd.read_csv("analytics_vidhya_articles.csv", parse_dates=["Date"])
 df['Date'] = pd.to_datetime(df['Date'])
-# Combine Title and Description for similarity search
 df["combined_text"] = df["Title"].astype(str) + " " + df["Description"].astype(str)
-# Load sentence transformer model
 model = SentenceTransformer("all-MiniLM-L6-v2")
 # Function to retrieve top-N records
 def retrieve_records(query, top_n):
-    # Filter by date
-    # filtered_df = df[df["Date"] >= pd.to_datetime(min_date)]
-    # if filtered_df.empty or not query.strip():
-    #     return pd.DataFrame(columns=["Title", "Description", "Date", "Link"])
-    # Compute embeddings
     text_embeddings = model.encode(df["combined_text"].tolist(), convert_to_tensor=False)
     query_embedding = model.encode([query], convert_to_tensor=False)
-    # Compute cosine similarity
-    # scores = cosine_similarity([query_embedding], text_embeddings)[0]
-    # filtered_df = filtered_df.copy()
-    # filtered_df["similarity"] = scores
-    # # Return top-N results
-    # top_results = filtered_df.sort_values(by="similarity", ascending=False).head(top_n)
-    # return top_results[["Title", "Description", "Date", "Link"]]
     scores = cosine_similarity(query_embedding, text_embeddings).flatten()
-    # filtered_df = filtered_df.copy()
-    # filtered_df["similarity"] = scores
     df["similarity"] = scores
-    # Return top-N results
     top_results = df.sort_values(by=['similarity', 'Date'], ascending=[False, False]).head(top_n)
     return top_results[["Title", "Description", "Date", "Link", 'similarity']]
 # Gradio interface
 demo = gr.Interface(

 from sentence_transformers import SentenceTransformer
 from sklearn.metrics.pairwise import cosine_similarity
+# Load dataset
 df = pd.read_csv("analytics_vidhya_articles.csv", parse_dates=["Date"])
+# Preprocessing
 df['Date'] = pd.to_datetime(df['Date'])
 df["combined_text"] = df["Title"].astype(str) + " " + df["Description"].astype(str)
+# Load model
 model = SentenceTransformer("all-MiniLM-L6-v2")
 # Function to retrieve top-N records
 def retrieve_records(query, top_n):
     text_embeddings = model.encode(df["combined_text"].tolist(), convert_to_tensor=False)
     query_embedding = model.encode([query], convert_to_tensor=False)
     scores = cosine_similarity(query_embedding, text_embeddings).flatten()
     df["similarity"] = scores
     top_results = df.sort_values(by=['similarity', 'Date'], ascending=[False, False]).head(top_n)
     return top_results[["Title", "Description", "Date", "Link", 'similarity']]
 # Gradio interface
 demo = gr.Interface(