Spaces:

Lightified
/

YorubaRag_chatbot

Sleeping

App Files Files Community

YorubaRag_chatbot / app.py

Lightified

Update app.py

53bb3eb verified about 2 months ago

raw

history blame contribute delete

24.5 kB


	import os
	import gc
	import logging
	import unicodedata
	import re
	import collections
	from llama_index.core.schema import NodeWithScore # Explicitly import NodeWithScore for clarity
	from typing import List, Dict, Any, Optional, Callable
	import time
	import random
	import torch
	import unicodedata
	import re
	from functools import lru_cache
	from typing import Any, List, Optional
	import torch
	from weaviate.classes.init import Auth
	from weaviate.agents.query import QueryAgent
	from weaviate_agents.classes import QueryAgentCollectionConfig
	import warnings
	warnings.filterwarnings("ignore", category=DeprecationWarning)


	# Chainlit
	import chainlit as cl
	from chainlit.input_widget import Select
	from chainlit.types import ThreadDict
	from chainlit.input_widget import Select

	import asyncio
	# Lazy imports for heavy libraries -- imported inside startup
	# from llama_index.core.settings import Settings
	# from llama_index.core import Document, StorageContext, VectorStoreIndex
	# from llama_index.vector_stores.weaviate import WeaviateVectorStore

	logger = logging.getLogger(__name__)
	logging.basicConfig(level=logging.INFO)

	# Best practice: store your credentials in environment variables
	WEAVIATE_URL = "puifkdlvt8kgh7ga2rtuca.c0.us-west3.gcp.weaviate.cloud"
	WEAVIATE_API_KEY = os.getenv("WEAVIATE_API_KEY")
	GEMINI_API_KEY=os.getenv("api_key")


	# For CPU-only environments
	os.environ["CUDA_VISIBLE_DEVICES"] = os.getenv("CUDA_VISIBLE_DEVICES", "-1")

	import collections
	from typing import List, Any, Optional
	import uuid


	import uuid # Added missing import
	from llama_index.core.schema import TextNode, NodeWithScore # Added missing imports
	# Use LlamaIndex standard schemas if available, otherwise simulate them
	try:
	from llama_index.core.schema import NodeWithScore, TextNode
	except ImportError:
	# Fallback if you don't have llama_index installed but want the structure
	class TextNode:
	def __init__(self, text: str, id_: str = None):
	self.text = text
	self.node_id = id_ or str(uuid.uuid4())

	class NodeWithScore:
	def __init__(self, node: TextNode, score: float = None):
	self.node = node
	self.score = score

	@property
	def text(self):
	return self.node.text

	class WeaviateAgentRetriever:
	def __init__(self, agent):
	self.agent = agent

	def retrieve(self, queries: List[str], top_k=5, llm=None) -> List[NodeWithScore]:
	results = []
	# FIX 1: Ensure we handle single strings gracefully, though we expect a list
	if isinstance(queries, str):
	queries = [queries]

	for q in queries:
	# Call the agent
	response = self.agent.search(q, limit=top_k)

	# Parse results
	# Note: Adjust 'response.search_results.objects' based on actual Weaviate response structure
	if hasattr(response, 'search_results') and hasattr(response.search_results, 'objects'):
	iterator = response.search_results.objects
	else:
	iterator = [] # Handle empty/error cases safely

	for obj in iterator:
	text = obj.properties.get("text") or obj.properties.get("content")
	if text:
	# FIX 2: Create a TextNode first
	node = TextNode(text=text)

	# FIX 3: Wrap it in NodeWithScore (default score to 1.0 or fetch from Weaviate metadata)
	# Weaviate usually returns certainty or distance, usually mapped to score
	# Corrected: Access certainty from obj._additional
	score = obj.metadata.get("score", 1.0)

	results.append(NodeWithScore(node=node, score=score))
	return results




	# -----------------------------
	# Utilities
	# -----------------------------

	def normalize_yoruba(text: str) -> str:
	if not text:
	return ""
	text = unicodedata.normalize("NFC", text)
	text = re.sub(r"\s+", " ", text).strip()
	return text


	def free_memory():
	gc.collect()
	try:
	import torch

	if torch.cuda.is_available():
	torch.cuda.empty_cache()
	except Exception:
	pass




	# Paste your HuggingFace access token here
	HUGGINGFACE_TOKEN = os.getenv("hf_api")
	try:
	login(HUGGINGFACE_TOKEN)
	except Exception as e:
	print(f"Warning: HuggingFace login failed: {e}")
	print("Continuing without authentication...")

	from llama_index.core.embeddings import BaseEmbedding
	from typing import Any, List

	import torch
	import torch.nn.functional as F
	from transformers import AutoTokenizer, AutoModel
	class AfriBERTaEmbedding(BaseEmbedding):
	_model: Any = None
	_tokenizer: Any = None
	_device: Any = None

	def __init__(
	self,
	model_name: str = "Davlan/afro-xlmr-mini",
	**kwargs: Any
	) -> None:
	super().__init__(model_name=model_name, **kwargs)

	# CPU device
	self._device = torch.device("cpu")

	# 2. Load tokenizer (use_fast=False to avoid tokenizer.json issues)
	self._tokenizer = AutoTokenizer.from_pretrained(
	model_name,
	use_fast=False
	)

	# 3. Load model on CPU
	self._model = AutoModel.from_pretrained(model_name).to(self._device)
	self._model.eval()

	def _mean_pooling(self, token_embeddings, attention_mask):
	input_mask_expanded = (
	attention_mask.unsqueeze(-1)
	.expand(token_embeddings.size())
	.float()
	)
	return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(
	input_mask_expanded.sum(1), min=1e-9
	)

	def _embed(self, texts: List[str]) -> List[List[float]]:
	"""Core embedding logic"""
	inputs = self._tokenizer(
	texts,
	return_tensors="pt",
	padding=True,
	truncation=True,
	max_length=512 # important for RAG
	).to(self._device)

	with torch.no_grad():
	outputs = self._model(**inputs)

	# Pool
	embeddings = self._mean_pooling(
	outputs.last_hidden_state,
	inputs["attention_mask"]
	)

	# Normalize
	embeddings = F.normalize(embeddings, p=2, dim=1)

	return embeddings.tolist()

	# --- LlamaIndex required methods ---
	def _get_query_embedding(self, query: str) -> List[float]:
	return self._embed([query])[0]

	def _get_text_embedding(self, text: str) -> List[float]:
	return self._embed([text])[0]

	def _get_text_embedding_batch(self, texts: List[str]) -> List[List[float]]:
	return self._embed(texts)

	async def _aget_query_embedding(self, query: str) -> List[float]:
	return self._get_query_embedding(query)

	async def _aget_text_embedding(self, text: str) -> List[float]:
	return self._get_text_embedding(text)





	# -----------------------------
	# Safe LLM completion wrapper
	# -----------------------------
	logger = logging.getLogger(__name__)
	def safe_llm_complete(llm, prompt: str) -> Optional[str]:
	if llm is None:
	logger.warning("LLM is None — cannot complete prompt.")
	return None
	try:
	if hasattr(llm, "complete"):
	resp = llm.complete(prompt)
	if resp is None:
	return None
	if hasattr(resp, "text") and resp.text:
	return str(resp.text).strip()
	if hasattr(resp, "output_text") and resp.output_text:
	return str(resp.output_text).strip()
	return str(resp).strip()

	if hasattr(llm, "chat"):
	resp = llm.chat(messages=[{"role": "user", "content": prompt}])
	# Try common response shapes
	if hasattr(resp, "message") and hasattr(resp.message, "content"):
	return str(resp.message.content).strip()
	if hasattr(resp, "output_text"):
	return str(resp.output_text).strip()
	return str(resp).strip()

	# Generic fallback
	return str(llm(prompt)).strip()
	except Exception as e:
	logger.warning(f"Safe LLM call failed: {e}")
	return None


	# -----------------------------
	# Gemini loader (cached)
	# -----------------------------
	@lru_cache(maxsize=4)
	def load_gemini_llm(api_key: str, model: str = "models/gemini-2.5-flash"):
	try:
	from llama_index.llms.gemini import Gemini

	llm = Gemini(model=model, api_key=api_key)
	logger.info("Gemini LLM loaded")
	return llm
	except Exception as e:
	logger.warning(f"Could not load Gemini LLM: {e}")
	return None



	class PreRetrievalModule:
	"""Expands query using HyDE (Hypothetical Document Embedding)."""
	def __init__(self, llm: Optional[Any] = None, enable_hyde: bool = True, enable_expansion: bool = True):
	self.llm = llm
	self.enable_hyde = enable_hyde
	self.enable_expansion = enable_expansion

	def process(self, query: str) -> List[str]:
	"""Apply HyDE and query expansion to produce query variants."""
	queries = [query]

	if self.enable_hyde and self.llm:
	hyde_prompt = f"Write a short factual paragraph that could answer: '{query}'"
	hypo_doc = safe_llm_complete(self.llm, hyde_prompt)
	if hypo_doc:
	queries.append(hypo_doc)

	if self.enable_expansion and self.llm:
	expansion_prompt = f"Expand this question with related terms: '{query}'"
	expansion = safe_llm_complete(self.llm, expansion_prompt)
	if expansion:
	queries.append(expansion)

	return queries


	class RetrievalModule:
	"""Combines dense and sparse retrieval (hybrid)."""
	def __init__(self, dense_retriever: Any, sparse_retriever: Optional[Any] = None, hybrid_alpha: float = 0.5):
	self.dense = dense_retriever
	self.sparse = sparse_retriever
	self.hybrid_alpha = hybrid_alpha

	def retrieve(self, queries: List[str], top_k: int = 10) -> List[NodeWithScore]: # Adjusted return type hint
	all_results_raw = [] # Store raw NodeWithScore objects

	for q in queries:
	# Dense retrieval
	dense_results = self.dense.retrieve(q)
	all_results_raw.extend(dense_results)

	if self.sparse:
	# Sparse retrieval
	sparse_results = self.sparse.retrieve(q)
	all_results_raw.extend(sparse_results)

	# Use a dictionary to deduplicate based on node_id, preserving NodeWithScore
	unique_nodes_map = collections.OrderedDict()
	for node_with_score in all_results_raw:
	# Assuming node_with_score.node.node_id is unique enough
	unique_nodes_map[node_with_score.node.node_id] = node_with_score

	# Return list of NodeWithScore objects, limited by top_k
	return list(unique_nodes_map.values())[:top_k]


	class PostRetrievalModule:
	"""Applies reranking, filtering, and compression."""
	def __init__(self, embed_model):
	self.embed_model = embed_model

	def rerank(self, nodes, query, top_k=3):
	if not nodes:
	return []
	# Use _embed and convert to tensor
	query_emb = torch.tensor(self.embed_model._embed(query)[0])
	node_texts = [n.text for n in nodes]
	node_embs = torch.tensor(self.embed_model._embed(node_texts))

	scores = torch.nn.functional.cosine_similarity(query_emb.unsqueeze(0), node_embs)
	ranked = sorted(zip(nodes, scores.tolist()), key=lambda x: x[1], reverse=True)
	return [n for n, _ in ranked[:top_k]]

	def context_filter(self, nodes, diversity_threshold=0.8):
	unique_nodes, seen = [], []
	for n in nodes:
	text = n.text.strip()
	if not text:
	continue
	# Use _embed and convert to tensor
	emb = torch.tensor(self.embed_model._embed(text[:512])[0])
	if all(torch.nn.functional.cosine_similarity(emb, s, dim=0) < diversity_threshold for s in seen):
	unique_nodes.append(n)
	seen.append(emb)
	return unique_nodes

	def compress_contexts(self, nodes, max_len=1500):
	texts = []
	total_len = 0
	for n in nodes:
	t = n.text.strip()
	if total_len + len(t) > max_len:
	break
	texts.append(t)
	total_len += len(t)
	return "\n\n".join(texts)



	class GenerationModule:
	def __init__(self, llm, verify: bool = True):
	self.llm = llm
	self.verify = verify

	def generate_with_fallback(self, query: str, domain: str = "General", context: str = "") -> str:
	fallback_prompt = f"""
	Ìwọ jẹ́ ọ̀jọ̀gbọ́n nínú {domain}. Fún ìdáhùn kan sí ìbéèrè yìí ní èdè Yorùbá:
	Ìbéèrè: {query}
	Jọwọ pèsè ìdáhùn tó dájú.
	Answer in clear Yoruba with proper paragraph spacing
	"""
	resp = safe_llm_complete(self.llm, fallback_prompt)
	if resp:
	return resp
	return "⚠️ Ko ṣee ṣe lati gba ìdáhùn lọwọ LLM."

	def generate(self, query: str, context: str, domain: str = "General") -> str:
	prompt = build_yoruba_prompt(query=query, context=context, domain=domain)
	raw = safe_llm_complete(self.llm, prompt)
	if raw is None:
	return "⚠️ Ko ṣee ṣe lati gba ìdáhùn lọwọ LLM."
	return raw.strip()

	# -----------------------------
	# Dummy retriever fallback
	# -----------------------------
	class DummyRetriever:
	def retrieve(self, queries, top_k=10):
	return []

	class OrchestrationModule:
	"""Coordinates all plug-in modules."""
	def __init__(self, pre, retriever, post, generator,llm_fallback_threshold: float = 0.3):
	self.pre = pre
	self.retriever = retriever
	self.post = post
	self.generator = generator
	self.llm_fallback_threshold = llm_fallback_threshold
	def modular_query(self, question: str, domain: str = "General", top_k: int = 5):
	query = normalize_yoruba(question)
	queries=self.pre.process(query)
	print(f"🔍 Expanded Queries: {queries}")
	nodes=[]
	if self.retriever:
	nodes= self.retriever.retrieve(queries, top_k=top_k)
	if not nodes:
	return {
	"question": question,
	"answer": self.generator.generate_with_fallback(question, domain, ""),
	"context": "",
	"num_docs": 0,
	"expanded_queries": queries,
	"mode": "llm_fallback",
	"show_warning": True

	}
	print(f"📚 Retrieved {len(nodes)} documents")
	# Step 3: Post-Retrieval Filtering
	joined_query=" ".join(queries)
	nodes = self.post.rerank(nodes, joined_query, top_k=top_k)
	nodes = self.post.context_filter(nodes)
	context = self.post.compress_contexts(nodes)

	# Step 4: Generate
	answer = self.generator.generate(joined_query, context)

	# Step 5: Verification
	# The generate method handles internal verification based on self.generator.verify
	verified = self.generator.verify

	return {
	"question": question,
	"answer": answer,
	"verified": verified,
	"context": context,
	"num_docs": len(nodes),
	"expanded_queries": queries,
	"mode": "retrieval_augmented",
	"show_warning": False
	}



	# -----------------------------
	# Prompt builder
	# -----------------------------

	def build_yoruba_prompt(query: str, context: str = "", domain: str = "General") -> str:
	if context:
	prompt = f"""
	Ìwọ jẹ́ ọ̀jọ̀gbọ́n nínú {domain}. Fún ìdáhùn kan sí ìbéèrè yìí ní èdè Yorùbá nípa lílo àkíyèsí àwọn ìwé ìtọ́ni tí a fún ní ìsàlẹ̀.

	Àwọn ìwé ìtọ́ni (Context):
	{context}

	Ìbéèrè: {query}

	Jọwọ:
	1. Dáhùn ní èdè Yorùbá
	2. Bá ìbéèrè mu
	3. Tó o jẹ́ òtító
	4.Answer in clear Yoruba with proper paragraph spacing.

	Ìdáhùn:
	"""
	else:
	prompt = f"""
	Ìwọ jẹ́ ọ̀jọ̀gbọ́n nínú {domain}. Fún ìdáhùn kan sí ìbéèrè yìí ní èdè Yorùbá:

	Ìbéèrè: {query}

	Jọwọ:
	1. Dáhùn ní èdè Yorùbá
	2. Bá ìbéèrè mu
	3. Tó o jẹ́ òtító
	4. Answer in clear Yoruba with proper paragraph spacing.

	Ìdáhùn:
	"""
	return prompt

	# -----------------------------
	# STARTUP: Chainlit handlers
	# -----------------------------
	DOMAINS = ["Entertainment", "Current Affairs", "Social Life", "Culture", "Religion"]


	@cl.on_chat_start
	async def start():
	"""Load heavy resources lazily here. This reduces top-level startup time and avoids Docker startup timeouts.
	"""
	await cl.Message("🔧 Initializing application — this may take a few seconds...").send()

	# Prepare objects to store in user session
	state = {}

	# 1) Load embedding model lazily
	from llama_index.core import Settings
	try:
	embedder = AfriBERTaEmbedding()
	Settings.embed_model = embedder
	# Do not call embedder.load() synchronously to avoid long startup; but the first call will load it.
	state["embedder"] = Settings.embed_model
	except Exception as e:
	logger.warning(f"Embedding init failed: {e}")
	state["embedder"] = None

	# 2) Load or fallback LLM
	llm = None
	if GEMINI_API_KEY:
	Settings.llm = load_gemini_llm(GEMINI_API_KEY)
	else:
	logger.info("GEMINI_API_KEY not set. LLM will be None (fallback to safe messages).")

	# 3) Setup simple modules (no vector store unless weaviate configured)
	generation_module = GenerationModule(llm=Settings.llm, verify=True)

	# If weaviate is available, try to create a retriever
	retrieval_module = None
	try:
	if WEAVIATE_URL and WEAVIATE_API_KEY:
	import weaviate
	from llama_index.vector_stores.weaviate import WeaviateVectorStore
	from llama_index.core import StorageContext, VectorStoreIndex

	client = weaviate.connect_to_weaviate_cloud(
	cluster_url=WEAVIATE_URL,
	auth_credentials=weaviate.auth.AuthApiKey(WEAVIATE_API_KEY),
	skip_init_checks=True,
	)
	agent = QueryAgent(client=client,
	collections=[
	QueryAgentCollectionConfig(
	name="Yoruba_rag",
	),
	],
	)




	# Build minimal vector store wrapper — this assumes index already exists in Weaviate
	vector_store = WeaviateVectorStore(weaviate_client=client, index_name="YorubaChunk")
	storage_context = StorageContext.from_defaults(vector_store=vector_store)
	vector_index = VectorStoreIndex.from_vector_store(vector_store=vector_store, storage_context=storage_context, embed_model=embedder)
	#retriever = vector_index.as_retriever(similarity_top_k=5)
	retriever = WeaviateAgentRetriever(agent=agent)
	retrieval_module = RetrievalModule(dense_retriever=retriever,sparse_retriever=None)
	logger.info("Weaviate retriever initialized")
	else:
	logger.info("Weaviate not configured — continuing without a retriever.")
	except Exception as e:
	logger.warning(f"Weaviate initialization failed: {e}")
	retrieval_module = None

	# 4) Post module
	pre = PreRetrievalModule(llm=Settings.llm, enable_hyde=True)
	post_module = PostRetrievalModule(embed_model=state.get("embedder"))

	# 5) Orchestrator
	orchestrator = OrchestrationModule(pre=pre, retriever=retrieval_module, post=post_module, generator=generation_module)

	# Save into session
	cl.user_session.set("state", state)
	cl.user_session.set("orchestrator", orchestrator)
	cl.user_session.set("settings", {"domain": DOMAINS[0]})

	# Send a friendly welcome with domain selector
	settings = await cl.ChatSettings(
	[
	Select(id="domain", label="Select Domain (Ọ̀nà ìbéèrè)", values=DOMAINS, initial_index=0),
	]
	).send()

	# Welcome message in both Yoruba and English
	welcome_message = """
	## 🇳🇬 Pẹ̀lẹ́ o! \| Welcome to the Yorùbá Question Answering Assistant

	This assistant helps you ask and receive answers in Yorùbá, powered by advanced artificial intelligence and curated knowledge sources.

	Please help us improve by evaluating this response.
	[👉 Click here to fill the form](https://forms.gle/owiYWgNgoeLtjr3N7)
	---


	### 📘 Bí o ṣe lè lo ìrànlọ́wọ́ yìí \| How to Use This Assistant

	1. 📁 Yan apakan (Domain) — Select a domain using the settings (⚙️).
	2. 💬 Beere ìbéèrè rẹ — Ask your question in Yorùbá (or English if needed).
	3. 🔍 Gba ìdáhùn tó péye — The system retrieves relevant information and generates a clear response.

	---

	### 🌍 Àwọn Apakan tí ó wà \| Available Domains

	- 🎬 Entertainment — Movies, music, sports, and popular culture
	- 📰 Current Affairs — News, politics, economy
	- 👥 Social Life — Relationships, community, etiquette
	- 🎭 Culture — Traditions, history, festivals
	- 🙏 Religion — Beliefs, practices, spirituality


	---

	### ✅ Bẹrẹ nípa yíyan apakan kan, lẹ́yìn náà beere ìbéèrè rẹ
	### Start by selecting a domain and asking your question
	"""
	await cl.Message(content=welcome_message).send()

	# ============================================================
	@cl.on_settings_update
	async def load_thread(settings):
	pass # not needed yet


	@cl.on_message
	async def main(message: cl.Message):
	question = message.content.strip()
	if not question:
	await cl.Message(content="⚠️ Jọwọ beere ìbéèrè kan — ask a question.").send()
	return

	orchestrator: OrchestrationModule = cl.user_session.get("orchestrator")
	settings = cl.user_session.get("settings") or {"domain": DOMAINS[0]}
	domain = settings.get("domain", DOMAINS[0])

	# Send an initial typing message and stream tokens
	msg = await cl.Message(content="🔄 Processing your question...").send()

	# If orchestrator not available, reply with fallback
	if orchestrator is None:
	await msg.update(content="⚠️ System not initialized. Try again shortly.")
	return

	# Run query (synchronous call inside async — if heavy, consider running in threadpool)
	try:
	result = await asyncio.to_thread(orchestrator.modular_query,
	question,
	domain,
	20)
	except Exception as e:
	logger.exception("Query failed")
	await msg.update(content=f"⚠️ Query failed: {e}")
	return

	answer = result.get("answer", "⚠️ Ko ṣee ṣe lati gba ìdáhùn.")
	show_warming=result.get("show_warning", False)

	# Stream simple token chunks (word by word)
	import re
	tokens= re.findall(r'\S+\s*', answer)
	for token in tokens:
	await msg.stream_token(token + " ")
	await msg.update(content=answer)
	if show_warning:
	await cl.Message(
	content="⚠️ Ìkìlọ̀: Ìdáhùn yìí dá lórí ìmọ LLM nìkan (kò sí ìwé ìtọ́ni tí a lo)."
	).send()

	# Send metadata
	mode = result.get("mode", "unknown")
	num_docs = result.get("num_docs", 0)
	if mode == "retrieval_augmented":
	await cl.Message(content=f"📚 Used {num_docs} documents for context.",
	author="system").send()
	else:
	await cl.Message(content="ℹ️ Answer produced from LLM fallback (no retrieved docs).").send()


	# -----------------------------
	# If run as script, expose entrypoint name (useful for local testing)
	# -----------------------------
	if __name__ == "__main__":
	print("This file is intended to be run with: chainlit run fixed_chainlit_app.py")