Spaces:

croeasusking
/

Articles_Retrieve

Sleeping

App Files Files Community

croeasusking commited on May 14, 2025

Commit

0f5de25

verified ·

1 Parent(s): 8a8348b

Update original.py

Browse files

Files changed (1) hide show

original.py +51 -30

original.py CHANGED Viewed

@@ -3,6 +3,8 @@ import gradio as gr
 from datetime import datetime
 from sentence_transformers import SentenceTransformer
 from sklearn.metrics.pairwise import cosine_similarity
 # Load dataset
 df = pd.read_csv("analyticsvidhyacomplete.csv", parse_dates=["Date"])
@@ -11,46 +13,51 @@ df = pd.read_csv("analyticsvidhyacomplete.csv", parse_dates=["Date"])
 df['Date'] = pd.to_datetime(df['Date'], format='mixed', dayfirst=True, errors='coerce')
 df["combined_text"] = df["Title"].astype(str) + " " + df["Description"].astype(str)  + " " + df["Content"].astype(str)
 # Load model
 model = SentenceTransformer("all-MiniLM-L6-v2")
 text_embeddings = model.encode(df["combined_text"].tolist(), convert_to_tensor=False)
-# Function to retrieve top-N records
-# def retrieve_records(query, top_n):
-#     text_embeddings = model.encode(df["combined_text"].tolist(), convert_to_tensor=False)
-#     query_embedding = model.encode([query], convert_to_tensor=False)
-#     scores = cosine_similarity(query_embedding, text_embeddings).flatten()
-#     df["similarity"] = scores
-#     top_results = df.sort_values(by=['similarity', 'Date'], ascending=[False, False]).head(top_n)
-#     return top_results[["Title", "Description", "Date", "Link", 'similarity']]
-# Gradio interface
-# iface = gr.Interface(
-#     fn=retrieve_records,
-#     inputs=[
-#         gr.Textbox(label="Enter your query"),
-#         # gr.Textbox(label="Minimum date (YYYY-MM-DD)", value=str(datetime.today().date())),
-#         gr.Slider(5, 20,step=1, label="Top N results")
-#     ],
-#     outputs=gr.Dataframe(label="Top Similar Records"),
-#     title="Top-N Article Retriever",
-#     description="Search articles using Title and Description similarity, filtered by a minimum date."
-# )
-def retrieve_records(query, top_n):
-    query_embedding = model.encode([query], convert_to_tensor=False)
     scores = cosine_similarity(query_embedding, text_embeddings).flatten()
     df["similarity"] = scores
-    top_results = df.sort_values(by=['similarity', 'Date'], ascending=[False, False]).head(top_n)
     markdown_output = ""
     for _, row in top_results.iterrows():
         markdown_output += f"### [{row['Title']}]({row['Link']})\n"
@@ -60,17 +67,31 @@ def retrieve_records(query, top_n):
     return markdown_output
 iface = gr.Interface(
     fn=retrieve_records,
     inputs=[
-        gr.Textbox(label="Enter your query"),
-        gr.Slider(5, 15, step=5, label="Top N results")
     ],
     outputs=gr.Markdown(label="Top Similar Records"),
-    title="Top-N Article Retriever with Clickable Links"
 )
 if __name__ == "__main__":
     iface.launch()

 from datetime import datetime
 from sentence_transformers import SentenceTransformer
 from sklearn.metrics.pairwise import cosine_similarity
+import re
 # Load dataset
 df = pd.read_csv("analyticsvidhyacomplete.csv", parse_dates=["Date"])
 df['Date'] = pd.to_datetime(df['Date'], format='mixed', dayfirst=True, errors='coerce')
 df["combined_text"] = df["Title"].astype(str) + " " + df["Description"].astype(str)  + " " + df["Content"].astype(str)
+# Load query CSV with columns: Topic, Subtopic, TopN
+query_df = pd.read_csv("query.csv")
+query_df.dropna(subset=["Topic", "Subtopic", "TopN"], inplace=True)
+# Build dropdown options
+query_df["QueryOption"] = query_df.apply(
+    lambda row: f"{row['Topic']} - {row['Subtopic']} (TopN: {int(row['TopN'])})", axis=1
+)
+query_options = query_df["QueryOption"].tolist()
 # Load model
 model = SentenceTransformer("all-MiniLM-L6-v2")
 text_embeddings = model.encode(df["combined_text"].tolist(), convert_to_tensor=False)
+def retrieve_records(selected_query):
+    # query_embedding = model.encode([query], convert_to_tensor=False)
+    # scores = cosine_similarity(query_embedding, text_embeddings).flatten()
+    # df["similarity"] = scores
+    # top_results = df.sort_values(by=['similarity', 'Date'], ascending=[False, False]).head(top_n)
+    # Extract Topic, Subtopic, and TopN from dropdown text
+    match = re.match(r"(.+?) - (.+?) \(TopN: (\d+)\)", selected_query)
+    if not match:
+        return "Invalid query format selected."
+    topic, subtopic, top_n = match.groups()
+    top_n = int(top_n)
+    full_query = f"{topic} {subtopic}"
+    query_embedding = model.encode([full_query], convert_to_tensor=False)
     scores = cosine_similarity(query_embedding, text_embeddings).flatten()
     df["similarity"] = scores
+    top_results = df.sort_values(by=["similarity", "Date"], ascending=[False, False]).head(top_n)
+    # Format markdown output
     markdown_output = ""
     for _, row in top_results.iterrows():
         markdown_output += f"### [{row['Title']}]({row['Link']})\n"
     return markdown_output
 iface = gr.Interface(
     fn=retrieve_records,
     inputs=[
+        gr.Dropdown(choices=query_options, label="Select a query"),
     ],
     outputs=gr.Markdown(label="Top Similar Records"),
+    title="Top-N Article Retriever"
 )
+# iface = gr.Interface(
+#     fn=retrieve_records,
+#     inputs=[
+#         gr.Textbox(label="Enter your query"),
+#         gr.Slider(5, 15, step=5, label="Top N results")
+#     ],
+#     outputs=gr.Markdown(label="Top Similar Records"),
+#     title="Top-N Article Retriever with Clickable Links"
+# )
 if __name__ == "__main__":
     iface.launch()