Spaces:

jaydeep123423
/

new_week_13_Semantic_Search

Runtime error

App Files Files Community

jaydeep123423 commited on Nov 25, 2025

Commit

cdb89d7

verified ·

1 Parent(s): 4c9bcc3

Upload app.py

Browse files

Files changed (1) hide show

app.py +111 -0

app.py ADDED Viewed

	@@ -0,0 +1,111 @@

+import gradio as gr
+from sentence_transformers import SentenceTransformer
+import chromadb
+from datasets import load_dataset
+import pandas as pd
+import os
+# Initialize model
+print("Loading model...")
+model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
+# Initialize ChromaDB
+chroma_path = "./chroma_db"
+os.makedirs(chroma_path, exist_ok=True)
+client = chromadb.PersistentClient(path=chroma_path)
+# Check if collection exists, if not create it
+try:
+    collection = client.get_collection("quotes_collection")
+    print(f"Loaded existing collection with {collection.count()} documents")
+except:
+    print("Creating new collection...")
+    # Load and prepare data
+    dataset = load_dataset("Abirate/english_quotes", split="train")
+    df = pd.DataFrame(dataset)
+    texts = []
+    metadata = []
+    for idx, row in df.iterrows():
+        quote = row['quote']
+        author = row['author']
+        tags = ', '.join(row['tags']) if row['tags'] else 'No tags'
+        text = f"{quote} - {author}"
+        texts.append(text)
+        metadata.append({'quote': quote, 'author': author, 'tags': tags})
+        if idx >= 499:
+            break
+    # Generate embeddings
+    print("Generating embeddings...")
+    embeddings = model.encode(texts, show_progress_bar=True)
+    # Create collection and add data
+    collection = client.create_collection("quotes_collection")
+    ids = [f"quote_{i}" for i in range(len(texts))]
+    batch_size = 100
+    for i in range(0, len(texts), batch_size):
+        end_idx = min(i + batch_size, len(texts))
+        collection.add(
+            documents=texts[i:end_idx],
+            embeddings=embeddings[i:end_idx].tolist(),
+            ids=ids[i:end_idx],
+            metadatas=metadata[i:end_idx]
+        )
+    print(f"Collection created with {collection.count()} documents!")
+def semantic_search(query, n_results=5):
+    query_embedding = model.encode([query])
+    results = collection.query(
+        query_embeddings=query_embedding.tolist(),
+        n_results=n_results,
+        include=['documents', 'metadatas', 'distances']
+    )
+    output = []
+    for i in range(len(results['documents'][0])):
+        meta = results['metadatas'][0][i]
+        distance = results['distances'][0][i]
+        similarity = 1 - (distance / 2)
+        result_text = f"""
+**Result {i+1}** (Similarity: {similarity:.2%})
+📝 "{meta['quote']}"
+✍️ — {meta['author']}
+🏷️ Tags: {meta['tags']}
+"""
+        output.append(result_text)
+    return "\n---\n".join(output)
+def search_quotes(query, num_results):
+    if not query.strip():
+        return "Please enter a search query!"
+    return semantic_search(query, n_results=int(num_results))
+demo = gr.Interface(
+    fn=search_quotes,
+    inputs=[
+        gr.Textbox(
+            label="🔍 Search Query",
+            placeholder="Enter your search...",
+            lines=2
+        ),
+        gr.Slider(minimum=1, maximum=10, value=5, step=1, label="Number of Results")
+    ],
+    outputs=gr.Markdown(label="Search Results"),
+    title="📚 Semantic Quote Search Engine",
+    description="Search through famous quotes using semantic similarity!",
+    examples=[
+        ["finding inner peace", 5],
+        ["never giving up", 3],
+        ["the meaning of life", 5]
+    ],
+    theme=gr.themes.Soft()
+)
+demo.launch()