Spaces:

faisalsns
/

ai-copilot-wikipedia

Runtime error

App Files Files Community

ai-copilot-wikipedia / app.py

faisalsns

Update app.py

a8688fc verified 9 months ago

raw

history blame contribute delete

8.71 kB

	import threading
	import queue
	import time
	import json
	import wikipedia
	from sentence_transformers import SentenceTransformer
	import faiss
	import gradio as gr
	import numpy as np
	import logging

	# Globals
	TOPICS = ["Art", "Science", "Technology", "Movies", "Sports", "Politics"]
	embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
	index = faiss.IndexFlatL2(384)
	faiss_store = []
	metadatas = []

	# In-memory queue replacing Kafka
	article_queue = queue.Queue()

	# Links for sidebar
	hf_links = [
	("AI Reasoning Copilot", "https://huggingface.co/spaces/faisalsns/ai-reasoning-copilot"),
	("Language Detection Compare Models", "https://huggingface.co/spaces/faisalsns/language-detection-compare-models/"),
	("Prompt Playground v1 - Compare Models Output", "https://huggingface.co/spaces/faisalsns/prompt-canvas-engine"),
	("Mental Disorders Symptoms", "https://huggingface.co/spaces/faisalsns/mental-disorders-symptoms")
	]

	def get_links():
	otherlinks = "<br>".join([f"[{name}]({url})" for name, url in hf_links])
	return f"### Other Applications To Explore!\n{otherlinks}"

	# Wikipedia disambiguation handling
	def get_wikipedia_page(topic):
	"""Get Wikipedia page with disambiguation handling"""
	try:
	return wikipedia.page(topic)
	except wikipedia.exceptions.DisambiguationError as e:
	# Try the first option from disambiguation
	return wikipedia.page(e.options[0])
	except wikipedia.exceptions.PageError:
	# Try searching for alternatives
	search_results = wikipedia.search(topic, results=1)
	if search_results:
	return wikipedia.page(search_results[0])
	raise Exception(f"No page found for topic: {topic}")

	# Agent 1: Scrape articles and push to queue
	def agent1_scrape_and_publish(selected_topics, count):
	if not selected_topics:
	return "Please select at least one topic."

	titles = []
	count = min(count, 5) # Limit to prevent overload

	for topic in selected_topics:
	try:
	# Get the main page for the topic
	page = get_wikipedia_page(topic)
	content = page.content[:3000] # Limit content size

	article_queue.put({
	"title": page.title,
	"content": content
	})
	titles.append(page.title)

	# Also get related articles if count > 1
	if count > 1:
	try:
	search_results = wikipedia.search(topic, results=count-1)
	for result in search_results[:count-1]:
	try:
	sub_page = wikipedia.page(result)
	sub_content = sub_page.content[:3000]
	article_queue.put({
	"title": sub_page.title,
	"content": sub_content
	})
	titles.append(sub_page.summary)
	except Exception:
	continue
	except Exception:
	pass

	except Exception as e:
	logging.error(f"Error fetching {topic}: {e}")
	titles.append(f"ERROR: {topic} - {str(e)}")

	success_count = len([t for t in titles if not t.startswith('ERROR')])
	return f"Scraped {success_count} articles:\n" + "\n".join(titles)

	# Agent 2: Consume from queue and index
	def agent2_consume_and_index():
	while True:
	try:
	article = article_queue.get(timeout=1)

	# Skip if already indexed
	if any(meta["title"] == article["title"] for meta in metadatas):
	continue

	content = article["content"]

	# Create embedding
	vector = embedding_model.encode(content)

	# Add to FAISS index
	faiss_store.append(vector)
	metadatas.append({
	"title": article["title"],
	"content": content
	})

	# Add to FAISS index (reshape to 2D array)
	index.add(np.array([vector]))

	logging.info(f"Indexed: {article['title']}")

	except queue.Empty:
	time.sleep(0.5)
	continue
	except Exception as e:
	logging.error(f"Error indexing article: {e}")
	continue

	# QA function
	def ask_question(question):
	if not faiss_store:
	return "Index is empty. Please scrape some articles first by selecting topics and clicking 'Generate from Wikipedia'."

	if not question or not question.strip():
	return "Please enter a question."

	try:
	# Create query embedding
	query_vector = embedding_model.encode(question)

	# Search FAISS index
	D, I = index.search(np.array([query_vector]), k=3)

	if len(I[0]) == 0 or I[0][0] == -1:
	return "No relevant articles found for your question."

	# Get relevant content
	relevant_articles = []
	for idx, score in zip(I[0], D[0]):
	if idx >= 0 and idx < len(metadatas):
	try:
	title = metadatas[idx]["title"]
	content = metadatas[idx]["content"]
	# Limit response length safely
	content_preview = content[:500] if len(content) > 500 else content
	relevant_articles.append(f"{title}:\n{content_preview}...")
	except (KeyError, IndexError) as e:
	logging.error(f"Error accessing metadata at index {idx}: {e}")
	continue

	if not relevant_articles:
	return "No relevant articles found."

	return f"Found {len(relevant_articles)} relevant articles:\n\n" + "\n\n".join(relevant_articles)

	except Exception as e:
	logging.error(f"Error in ask_question: {e}")
	return f"Error processing your question: {str(e)}"

	# Status function
	def get_status():
	return f"Indexed Articles: {len(metadatas)}\nQueue Size: {article_queue.qsize()}"

	# Gradio UI
	with gr.Blocks(title="AI Wikipedia Copilot") as demo:
	gr.Markdown("## AI Copilot for Wikipedia")

	with gr.Row():
	with gr.Column(scale=1):
	topic_list = gr.CheckboxGroup(
	choices=TOPICS,
	label="Select Topics",
	value=["Science"] # Default selection
	)
	topic_count = gr.Slider(
	minimum=1,
	maximum=10,
	step=1,
	value=2,
	label="Articles per Topic"
	)
	scrape_btn = gr.Button("Generate from Wikipedia", variant="primary")
	status_box = gr.Textbox(label="Status", lines=2)
	output_titles = gr.Textbox(label="Scraped Articles", lines=8)

	with gr.Column(scale=2):
	question_box = gr.Textbox(
	label="Ask a question about the scraped articles",
	placeholder="What is artificial intelligence?",
	lines=2
	)
	submit_btn = gr.Button("Submit Question", variant="primary")
	answer_box = gr.Textbox(label="Answer", lines=10)

	gr.Markdown(
	"""
	How it works:
	1. Select topics and click 'Generate from Wikipedia' to scrape articles
	2. Wait for indexing to complete (check status)
	3. Ask questions about the scraped content

	Note: I am on a self-directed AI journey. This app scrapes Wikipedia,
	indexes articles in FAISS, and answers questions using embeddings.
	There's no better way to learn than build it yourself 🚀
	"""
	)

	gr.Markdown(get_links())

	# Event handlers
	scrape_btn.click(
	fn=agent1_scrape_and_publish,
	inputs=[topic_list, topic_count],
	outputs=output_titles
	)

	submit_btn.click(
	fn=ask_question,
	inputs=question_box,
	outputs=answer_box
	)

	# Auto-refresh status every 2 seconds
	status_timer = gr.Timer(2.0)
	status_timer.tick(fn=get_status, outputs=status_box)

	if __name__ == "__main__":
	# Set up logging
	logging.basicConfig(level=logging.INFO)

	# Start the background indexing thread
	indexing_thread = threading.Thread(target=agent2_consume_and_index, daemon=True)
	indexing_thread.start()

	# Launch the app
	demo.launch(server_name="0.0.0.0", server_port=7860)