Spaces:

vriddhisaini
/

multi-agent-verifier

Sleeping

vriddhi saini

Initial MLOps multi-agent system

6e9d8ea 29 days ago

50.7 kB

	# ══════════════════════════════════════════════════════════════════════════
	# MULTI AGENT SYSTEM — Research Verification Platform
	# Built on: Mistral API (mistral-small-latest) + FAISS RAG + xAI Layer
	#
	# Changes from local version:
	# - Local Mistral-7B replaced with Mistral API (~2-5s per agent vs ~8 mins)
	# - No GPU/VRAM required — runs on CPU only
	# - No bitsandbytes/accelerate/torch needed for inference
	# - torch only used for embedding model (CPU)
	# - Each agent call = one API request to mistral-small-latest
	# ══════════════════════════════════════════════════════════════════════════
	import os
	os.environ["TOKENIZERS_PARALLELISM"] = "false"
	os.environ["OMP_NUM_THREADS"] = "1"
	os.environ["MKL_NUM_THREADS"] = "1"
	os.environ["NUMEXPR_NUM_THREADS"] = "1"
	import os
	from dotenv import load_dotenv
	load_dotenv() # loads MISTRAL_API_KEY from .env
	import os, re, json, datetime
	import numpy as np
	import pandas as pd
	import faiss
	import gradio as gr
	import plotly.graph_objects as go

	#from mistralai import Mistral
	try:
	from mistralai import Mistral
	except ImportError:
	from mistralai.client import Mistral
	from datasets import load_dataset
	from sentence_transformers import SentenceTransformer

	import mlflow
	from monitoring import monitor_request
	from scripts.data_versioning import get_rag_stores
	# ══════════════════════════════════════════════════════════════════════════
	# SECTION 1 — MISTRAL API CLIENT + EMBEDDING MODEL
	# ══════════════════════════════════════════════════════════════════════════
	os.environ["TOKENIZERS_PARALLELISM"] = "false"
	print("Loading embedding model...")
	embed_model = SentenceTransformer("all-MiniLM-L6-v2", device="cpu")
	mistral_client = Mistral(api_key=os.environ.get("MISTRAL_API_KEY", ""))
	MISTRAL_MODEL = "mistral-small-latest"
	print("Ready.")

	def encode_single(text: str) -> np.ndarray:
	return embed_model.encode([text], convert_to_numpy=True, normalize_embeddings=True)[0]

	def encode_query(text: str) -> np.ndarray:
	return embed_model.encode([text], convert_to_numpy=True, normalize_embeddings=True)


	# ══════════════════════════════════════════════════════════════════════════
	# SECTION 2 — RAG STORES
	# ══════════════════════════════════════════════════════════════════════════

	CMV_PER_AGENT = 500
	WIKI_TOTAL = 1000
	WIKI_CHUNK_SZ = 150

	def build_faiss_index(embeddings: np.ndarray) -> faiss.IndexFlatIP:
	index = faiss.IndexFlatIP(embeddings.shape[1])
	index.add(embeddings)
	return index

	def build_rag_stores() -> dict:
	stores = {}

	print("\nLoading CMV dataset...")
	cmv = load_dataset("Siddish/change-my-view-subreddit-cleaned")
	df_cmv = pd.DataFrame(cmv["train"])
	text_col = "text" if "text" in df_cmv.columns else df_cmv.columns[0]
	df_cmv = df_cmv[[text_col]].rename(columns={text_col: "text"})
	df_cmv = df_cmv[df_cmv["text"].str.len() > 50].reset_index(drop=True)
	df_cmv["text"] = df_cmv["text"].str[:300]

	if "delta" in df_cmv.columns:
	df_prop = df_cmv[df_cmv["delta"] == True].head(CMV_PER_AGENT).reset_index(drop=True)
	df_opp = df_cmv[df_cmv["delta"] == False].head(CMV_PER_AGENT).reset_index(drop=True)
	else:
	mid = len(df_cmv) // 2
	df_prop = df_cmv.iloc[:mid].head(CMV_PER_AGENT).reset_index(drop=True)
	df_opp = df_cmv.iloc[mid:].head(CMV_PER_AGENT).reset_index(drop=True)

	print(f" Proposer: {len(df_prop)} \| Opposer: {len(df_opp)}")
	all_cmv = df_prop["text"].tolist() + df_opp["text"].tolist()
	all_embs = embed_model.encode(all_cmv, convert_to_numpy=True,
	batch_size=1, show_progress_bar=False,
	normalize_embeddings=True)
	stores["Proposer"] = {"texts": df_prop["text"].tolist(), "source": "CMV (pro-arguments)",
	"index": build_faiss_index(all_embs[:len(df_prop)])}
	stores["Opposer"] = {"texts": df_opp["text"].tolist(), "source": "CMV (counter-arguments)",
	"index": build_faiss_index(all_embs[len(df_prop):])}

	print("\nStreaming Wikipedia (~1000 chunks)...")
	wiki = load_dataset("wikimedia/wikipedia", "20231101.en", split="train", streaming=True)
	chunks = []
	for row in wiki:
	words = row["text"].split()
	for i in range(0, len(words), WIKI_CHUNK_SZ):
	chunk = " ".join(words[i:i+WIKI_CHUNK_SZ])
	if 60 <= len(chunk.split()) <= WIKI_CHUNK_SZ:
	chunks.append(chunk)
	if len(chunks) >= WIKI_TOTAL:
	break
	chunks = chunks[:WIKI_TOTAL]
	mid_wiki = len(chunks) // 2
	wiki_embs = embed_model.encode(chunks, convert_to_numpy=True,
	batch_size=1, show_progress_bar=False,
	normalize_embeddings=True)
	stores["Critic"] = {"texts": chunks[:mid_wiki], "source": "Wikipedia (factual)",
	"index": build_faiss_index(wiki_embs[:mid_wiki])}
	stores["Synthesizer"] = {"texts": chunks[mid_wiki:], "source": "Wikipedia (balanced)",
	"index": build_faiss_index(wiki_embs[mid_wiki:])}
	print("\nKnowledge stores ready.")
	return stores

	print("\nBuilding knowledge stores (~1-2 mins)...")
	#RAG_STORES = build_rag_stores()
	RAG_STORES = get_rag_stores(build_rag_stores)
	_last_sources = {}

	def retrieve_for_agent(agent_name: str, query_emb: np.ndarray, k: int = 3) -> list:
	store = RAG_STORES[agent_name]
	D, I = store["index"].search(query_emb, k)
	docs = [store["texts"][i] for i in I[0] if i < len(store["texts"])]
	_last_sources[agent_name] = {
	"source_label": store["source"],
	"snippets": [d[:120] for d in docs]
	}
	return docs


	# ══════════════════════════════════════════════════════════════════════════
	# SECTION 3 — AGENT DEFINITIONS
	# ══════════════════════════════════════════════════════════════════════════

	_FMT_RULES = """\
	STRICT OUTPUT RULES:
	1. Output ONLY the labeled fields below, nothing else.
	2. Each field starts at the beginning of a new line.
	3. CLAIM must be exactly ONE sentence.
	4. Each ARGUMENT must be ONE sentence on its own line.
	5. Do NOT add prose, explanations, or extra fields."""

	_PROPOSER_EX = """\
	CLAIM: Renewable energy is the most viable path to carbon neutrality.
	ARGUMENT 1: Solar costs have fallen 90% in the last decade making it cost-competitive.
	ARGUMENT 2: Wind and solar combined can meet baseload demand with sufficient storage.
	ARGUMENT 3: Renewable investment creates more jobs per dollar than fossil fuel investment.
	CONFIDENCE: 8
	INFLUENCED_BY: none
	POSITION_SHIFT: none"""

	_OPPOSER_EX = """\
	CLAIM: Renewable energy alone cannot reliably replace fossil fuels today.
	ARGUMENT 1: Grid-scale storage remains prohibitively expensive for 100% renewable grids.
	ARGUMENT 2: Manufacturing solar panels requires significant upfront carbon emissions.
	ARGUMENT 3: Energy demand in developing nations is growing faster than renewable capacity.
	CONFIDENCE: 7
	INFLUENCED_BY: Proposer Argument 1
	POSITION_SHIFT: none"""

	_CRITIC_EX = """\
	CLAIM: Both positions contain valid points but overstate certainty in key areas.
	ARGUMENT 1: Proposer's cost claims are accurate but ignore storage and grid upgrade costs.
	ARGUMENT 2: Opposer's manufacturing emissions argument ignores lifecycle carbon accounting.
	ARGUMENT 3: Neither position addresses policy and governance barriers adequately.
	CONFIDENCE: 8
	INFLUENCED_BY: Opposer
	POSITION_SHIFT: slight"""

	_SYNTH_EX = """\
	CLAIM: A balanced renewable transition is achievable but requires addressing storage and policy gaps.
	ARGUMENT 1: Cost trends strongly support renewables as the long-term primary energy source.
	ARGUMENT 2: Transition requires parallel investment in storage, grid infrastructure, and policy.
	ARGUMENT 3: The Critic's lifecycle analysis provides the most accurate framing of trade-offs.
	CONFIDENCE: 8
	TRUST_SCORE: 74
	INFLUENCED_BY: Critic
	POSITION_SHIFT: moderate"""

	AGENT_CONFIG = {
	"Proposer": {
	"temperature": 0.8, "color": "#22c55e",
	"display": "Proposer", "role_desc": "Defends the claim with evidence",
	"system": (
	"You are the Proposer in a research verification system. "
	"Present the strongest evidence-based case IN SUPPORT of the claim.\n\n"
	f"{_FMT_RULES}\n\nExample:\n{_PROPOSER_EX}"
	),
	},
	"Opposer": {
	"temperature": 0.8, "color": "#ef4444",
	"display": "Opposer", "role_desc": "Challenges with counter-evidence",
	"system": (
	"You are the Opposer in a research verification system. "
	"Present the strongest evidence-based case AGAINST the claim.\n\n"
	f"{_FMT_RULES}\n\nExample:\n{_OPPOSER_EX}"
	),
	},
	"Critic": {
	"temperature": 0.3, "color": "#3b82f6",
	"display": "Critic", "role_desc": "Audits logical consistency of both sides",
	"system": (
	"You are the Critic in a research verification system. "
	"Objectively evaluate logical consistency and evidential quality of BOTH "
	"the Proposer and Opposer. Identify overstatements and logical fallacies.\n\n"
	f"{_FMT_RULES}\n\nExample:\n{_CRITIC_EX}"
	),
	},
	"Synthesizer": {
	"temperature": 0.4, "color": "#f59e0b",
	"display": "Synthesizer", "role_desc": "Produces a calibrated final verdict",
	"system": (
	"You are the Synthesizer in a research verification system. "
	"Produce a calibrated, balanced verdict. "
	"TRUST_SCORE (0-100) = how well-supported the original claim is. "
	"0=completely unsupported, 50=contested, 100=strongly supported.\n\n"
	f"{_FMT_RULES}\n\nExample:\n{_SYNTH_EX}"
	),
	},
	}

	CONTEXT_MAP = {
	"Proposer": [],
	"Opposer": ["Proposer"],
	"Critic": ["Proposer", "Opposer"],
	"Synthesizer": ["Proposer", "Opposer", "Critic"],
	}

	AGENT_ORDER = ["Proposer", "Opposer", "Critic", "Synthesizer"]
	SCORE_DIMS = ["Logic", "Evidence", "Clarity", "Rigor", "Nuance"]
	COLOR_MAP = {
	"Proposer": ("34,197,94", "#22c55e"),
	"Opposer": ("239,68,68", "#ef4444"),
	"Critic": ("59,130,246", "#3b82f6"),
	"Synthesizer": ("245,158,11", "#f59e0b"),
	}


	# ══════════════════════════════════════════════════════════════════════════
	# SECTION 4 — MISTRAL API CALL
	# ══════════════════════════════════════════════════════════════════════════

	def generate_response(agent_name: str, system_prompt: str, user_prompt: str) -> str:
	temperature = AGENT_CONFIG[agent_name]["temperature"]
	try:
	response = mistral_client.chat.complete(
	model=MISTRAL_MODEL,
	messages=[
	{"role": "system", "content": system_prompt},
	{"role": "user", "content": user_prompt},
	],
	temperature=temperature,
	max_tokens=400,
	)
	return response.choices[0].message.content.strip()
	except Exception as e:
	if "api_key" in str(e).lower() or "authentication" in str(e).lower() or "401" in str(e):
	raise RuntimeError(
	"Mistral API key missing or invalid. "
	"Set os.environ['MISTRAL_API_KEY'] in Cell 1 and restart."
	)
	raise RuntimeError(f"API error for {agent_name}: {str(e)}")


	# ══════════════════════════════════════════════════════════════════════════
	# SECTION 5 — PROMPT BUILDER
	# ══════════════════════════════════════════════════════════════════════════

	def build_prompt(agent_name: str, topic: str, history: dict, mode: str,
	query_emb: np.ndarray, external_output: str = None) -> tuple:
	system = AGENT_CONFIG[agent_name]["system"]

	if mode == "verify" and external_output:
	seed = f"Research claim to verify:\n\"{external_output[:500]}\"\n\nOriginal topic: {topic}"
	else:
	seed = f"Research topic: {topic}"

	prior = ""
	for pa in CONTEXT_MAP[agent_name]:
	snippet = history.get(pa, "")[:500]
	prior += f"\n\n--- {pa} ---\n{snippet}"

	rag_docs = retrieve_for_agent(agent_name, query_emb, k=3)
	rag_text = "\n".join([f"• {doc[:120]}" for doc in rag_docs])

	user = (
	f"{seed}{prior}\n\n"
	f"Evidence from knowledge base:\n{rag_text}\n\n"
	f"Respond in the format specified. Be concise."
	)
	return system, user


	# ══════════════════════════════════════════════════════════════════════════
	# SECTION 6 — RESPONSE PARSER
	# ══════════════════════════════════════════════════════════════════════════

	def parse_response(text: str) -> dict:
	result = {"claim": "", "arguments": [], "confidence": 5,
	"influenced_by": "unknown", "position_shift": "unknown", "trust_score": None}

	def _get(pattern, default=""):
	m = re.search(pattern, text, re.DOTALL \| re.IGNORECASE)
	return m.group(1).strip() if m else default

	result["claim"] = _get(r"CLAIM:\s(.+?)(?=ARGUMENT\s1\|CONFIDENCE\|$)")
	for i in range(1, 4):
	arg = _get(rf"ARGUMENT\s{i}:\s(.+?)(?=ARGUMENT\s*{i+1}\|CONFIDENCE\|INFLUENCED\|TRUST\|$)")
	if arg: result["arguments"].append(arg)

	conf = re.search(r"CONFIDENCE:\s*(\d+)", text, re.IGNORECASE)
	if conf: result["confidence"] = min(10, max(1, int(conf.group(1))))

	trust = re.search(r"TRUST_SCORE:\s*(\d+)", text, re.IGNORECASE)
	if trust: result["trust_score"] = min(100, max(0, int(trust.group(1))))

	result["influenced_by"] = _get(r"INFLUENCED_BY:\s*(.+?)(?=\n\|POSITION\|TRUST\|$)", "unknown")
	result["position_shift"] = _get(r"POSITION_SHIFT:\s*(.+?)(?=\n\|$)", "unknown")

	if not result["claim"] and not result["arguments"]:
	lines = [l.strip() for l in text.split("\n") if l.strip()]
	result["claim"] = lines[0] if lines else "No claim extracted"
	result["arguments"] = lines[1:4] if len(lines) > 1 else ["No structured arguments found"]
	if not result["arguments"]:
	result["arguments"] = ["No structured arguments found"]
	return result


	# ══════════════════════════════════════════════════════════════════════════
	# SECTION 7 — AGENT SCORER
	# ══════════════════════════════════════════════════════════════════════════

	def score_agent(raw_text: str, parsed: dict) -> dict:
	t = raw_text.lower()
	return {
	"Logic": min(10, 4 + len(parsed["arguments"]) * 2),
	"Evidence": min(10, 3 + t.count("because")2 + t.count("evidence")2 + t.count("research") + t.count("study")),
	"Clarity": min(10, 5 + (3 if parsed["claim"] else 0) + (2 if len(parsed["arguments"]) >= 2 else 0)),
	"Rigor": min(10, 3 + t.count("however")2 + t.count("although")2 + t.count("data") + t.count("source")),
	"Nuance": min(10, 3 + t.count("while")*2 + t.count("despite") + t.count("context") + t.count("limitation")),
	}


	# ══════════════════════════════════════════════════════════════════════════
	# SECTION 8 — PIPELINE
	# ══════════════════════════════════════════════════════════════════════════

	def run_pipeline(topic: str, external_output: str = None, mode: str = "research"):
	history = {}; parsed_all = {}; raw_embs = {}; scores = {}
	print(" Computing topic embedding...")
	query_emb = encode_query(topic)

	for agent_name in AGENT_ORDER:
	cfg = AGENT_CONFIG[agent_name]
	print(f" Calling {cfg['display']} via API...")
	system, user = build_prompt(agent_name, topic, history, mode, query_emb, external_output)
	raw = generate_response(agent_name, system, user)
	history[agent_name] = raw
	parsed_all[agent_name] = parse_response(raw)
	raw_embs[agent_name] = encode_single(raw)
	scores[agent_name] = score_agent(raw, parsed_all[agent_name])
	print(f" Done: {(parsed_all[agent_name]['claim'] or '')[:80]}")

	from scripts.model_versioning import log_agent_run
	log_agent_run(topic, mode, parsed_all, scores)

	return history, parsed_all, raw_embs, scores, query_emb


	# ══════════════════════════════════════════════════════════════════════════
	# SECTION 9 — xAI LAYER
	# ══════════════════════════════════════════════════════════════════════════

	def compute_xai(history, parsed, embeddings, topic, mode, query_emb, external_output=None):
	xai = {"influence_matrix": {}, "argument_attribution": {},
	"counterfactual_scores": {}, "position_shifts": {}, "position_timeline": {}}

	pairs = [("Proposer","Opposer"),("Proposer","Critic"),("Proposer","Synthesizer"),
	("Opposer","Critic"),("Opposer","Synthesizer"),("Critic","Synthesizer")]
	for src, tgt in pairs:
	try: sim = float(np.dot(embeddings[src], embeddings[tgt]))
	except: sim = 0.0
	xai["influence_matrix"][f"{src} → {tgt}"] = round(sim, 3)

	opp_emb = embeddings.get("Opposer")
	if opp_emb is not None:
	for i, arg in enumerate(parsed.get("Proposer", {}).get("arguments", [])):
	if not arg: continue
	try:
	ae = encode_single(arg)
	xai["argument_attribution"][f"Prop Arg {i+1}: {arg[:40]}..."] = round(float(np.dot(ae, opp_emb)), 3)
	except: pass

	ce = embeddings.get("Critic"); se = embeddings.get("Synthesizer")
	for src in ["Proposer","Opposer"]:
	if ce is not None and src in embeddings:
	try: xai["argument_attribution"][f"{src} → Critic"] = round(float(np.dot(embeddings[src], ce)), 3)
	except: pass
	for src in ["Proposer","Opposer","Critic"]:
	if se is not None and src in embeddings:
	try: xai["argument_attribution"][f"{src} → Synth"] = round(float(np.dot(embeddings[src], se)), 3)
	except: pass

	# Counterfactual: re-run Synthesizer without Critic
	try:
	print(" Counterfactual: Synthesizer without Critic...")
	cf_hist = {k: history[k] for k in ["Proposer","Opposer"] if k in history}
	sys_cf, user_cf = build_prompt("Synthesizer", topic, cf_hist, mode, query_emb, external_output)
	cf_raw = generate_response("Synthesizer", sys_cf, user_cf)
	cf_emb = encode_single(cf_raw)
	causal = 1.0 - float(np.dot(cf_emb, se)) if se is not None else 0.0
	xai["counterfactual_scores"]["Critic → Synthesizer (causal)"] = round(causal, 3)
	except Exception as e:
	print(f" Counterfactual failed: {e}")
	xai["counterfactual_scores"]["Critic → Synthesizer (causal)"] = 0.0

	for a in ["Opposer","Critic","Synthesizer"]:
	if a in parsed:
	xai["position_shifts"][a] = {
	"influenced_by": parsed[a].get("influenced_by", "unknown"),
	"position_shift": parsed[a].get("position_shift", "unknown"),
	"confidence": parsed[a].get("confidence", 5),
	}
	xai["position_timeline"] = {a: parsed[a].get("confidence",5) for a in AGENT_ORDER if a in parsed}
	return xai


	# ══════════════════════════════════════════════════════════════════════════
	# SECTION 10 — EXPORT HELPERS
	# ══════════════════════════════════════════════════════════════════════════

	def build_export_json(topic, mode, parsed, xai, sources) -> str:
	export = {
	"multi_agent_system_report": {
	"timestamp": datetime.datetime.utcnow().isoformat() + "Z",
	"model": MISTRAL_MODEL,
	"topic": topic,
	"mode": mode,
	"agents": {
	a: {
	"claim": parsed[a].get("claim",""),
	"arguments": parsed[a].get("arguments",[]),
	"confidence": parsed[a].get("confidence",5),
	"influenced_by": parsed[a].get("influenced_by",""),
	"position_shift": parsed[a].get("position_shift",""),
	"trust_score": parsed[a].get("trust_score"),
	}
	for a in AGENT_ORDER if a in parsed
	},
	"xai": {
	"influence_matrix": xai.get("influence_matrix",{}),
	"argument_attribution": xai.get("argument_attribution",{}),
	"counterfactual_scores": xai.get("counterfactual_scores",{}),
	},
	"evidence_sources": sources,
	}
	}
	return json.dumps(export, indent=2)

	def build_export_text(topic, mode, parsed, xai) -> str:
	lines = ["="*60, "MULTI AGENT SYSTEM — RESEARCH VERIFICATION REPORT",
	f"Topic: {topic}", f"Mode: {mode}", f"Model: {MISTRAL_MODEL}",
	f"Timestamp: {datetime.datetime.utcnow().isoformat()}Z", "="*60, ""]
	for a in AGENT_ORDER:
	if a not in parsed: continue
	p = parsed[a]
	lines += [f"[ {a.upper()} ]", f"Claim: {p.get('claim','')}"]
	for i, arg in enumerate(p.get("arguments",[]), 1):
	lines.append(f" Argument {i}: {arg}")
	lines += [f" Confidence: {p.get('confidence',5)}/10",
	f" Influenced by: {p.get('influenced_by','')}",
	f" Position shift: {p.get('position_shift','')}"]
	if p.get("trust_score") is not None:
	lines.append(f" TRUST SCORE: {p['trust_score']}/100")
	lines.append("")
	lines += ["[ xAI — INFLUENCE ATTRIBUTION ]"]
	for k, v in xai.get("influence_matrix",{}).items():
	lines.append(f" {k}: {v:.3f}")
	lines += ["", "[ xAI — COUNTERFACTUAL ]"]
	for k, v in xai.get("counterfactual_scores",{}).items():
	lines.append(f" {k}: {v:.3f}")
	return "\n".join(lines)


	# ══════════════════════════════════════════════════════════════════════════
	# SECTION 11 — CHART BUILDERS
	# ══════════════════════════════════════════════════════════════════════════

	BG = "#0a0f1e"; TC = "#c9d1e0"
	LB = dict(paper_bgcolor=BG, plot_bgcolor=BG,
	font=dict(color=TC, family="DM Mono, monospace"),
	margin=dict(l=40, r=40, t=50, b=40))

	def _ef(title=""): fig=go.Figure(); fig.update_layout(title=title,**LB); return fig

	def chart_influence_matrix(im):
	if not im: return _ef("Influence Attribution Matrix")
	agents = AGENT_ORDER; mat = np.zeros((4,4))
	for pair, score in im.items():
	parts = pair.split(" → ")
	if len(parts)==2 and parts[0] in agents and parts[1] in agents:
	mat[agents.index(parts[0])][agents.index(parts[1])] = score
	fig = go.Figure(go.Heatmap(z=np.round(mat,2), x=AGENT_ORDER, y=AGENT_ORDER,
	colorscale=[[0,"#0a0f1e"],[0.5,"#1e3a5f"],[1,"#22c55e"]],
	zmin=0, zmax=1, text=np.round(mat,2),
	texttemplate="%{text}", showscale=True))
	fig.update_layout(title="Influence Attribution Matrix", **LB)
	return fig

	def chart_argument_attribution(arg_scores):
	if not arg_scores: return _ef("Argument Attribution")
	labels=list(arg_scores.keys()); values=list(arg_scores.values())
	colors=["#22c55e" if "Prop Arg" in l else "#3b82f6" if "Critic" in l
	else "#f59e0b" if "Synth" in l else "#ef4444" for l in labels]
	fig=go.Figure(go.Bar(x=labels,y=values,marker_color=colors,
	text=[f"{v:.2f}" for v in values],textposition="outside"))
	fig.update_layout(title="Argument Attribution Scores",
	yaxis=dict(range=[0,1.15],title="Cosine Similarity"),
	xaxis=dict(tickangle=-30),**LB)
	return fig

	def chart_counterfactual(cf_scores):
	if not cf_scores: return _ef("Counterfactual Causal Influence")
	labels=list(cf_scores.keys()); values=list(cf_scores.values())
	fig=go.Figure(go.Bar(x=labels,y=values,marker_color=["#3b82f6"],
	text=[f"{v:.3f}" for v in values],textposition="outside"))
	fig.update_layout(title="Counterfactual: Critic's Causal Impact",
	yaxis=dict(range=[0,max(max(values)1.4,0.1)],title="Causal Influence Score"),*LB)
	return fig

	def chart_timeline(timeline):
	if not timeline: return _ef("Confidence Timeline")
	fig=go.Figure()
	fig.add_trace(go.Scatter(x=list(timeline.keys()),y=list(timeline.values()),mode="lines",
	line=dict(color="#1e3a5f",dash="dot"),showlegend=False))
	for a,c in timeline.items():
	if a not in COLOR_MAP: continue
	_,hx=COLOR_MAP[a]
	fig.add_trace(go.Scatter(x=[a],y=[c],mode="markers+text",
	marker=dict(size=14,color=hx),
	text=[str(c)],textposition="top center",name=a))
	fig.update_layout(title="Agent Confidence Across Pipeline",
	yaxis=dict(range=[0,12],title="Confidence /10"),**LB)
	return fig

	def chart_radar(all_scores):
	if not all_scores: return _ef("Agent Rigor Radar")
	fig=go.Figure()
	for name,scores in all_scores.items():
	if name not in COLOR_MAP: continue
	rgb,hx=COLOR_MAP[name]
	vals=list(scores.values())+[list(scores.values())[0]]
	cats=SCORE_DIMS+[SCORE_DIMS[0]]
	fig.add_trace(go.Scatterpolar(r=vals,theta=cats,fill="toself",name=name,
	line=dict(color=hx,width=2),fillcolor=f"rgba({rgb},0.12)"))
	fig.update_layout(polar=dict(radialaxis=dict(visible=True,range=[0,10])),
	title="Agent Rigor Radar",legend=dict(bgcolor=BG),**LB)
	return fig

	def chart_confidence(parsed):
	agents=[a for a in AGENT_ORDER if a in parsed]
	if not agents: return _ef("Agent Confidence")
	fig=go.Figure(go.Bar(x=agents,y=[parsed[a].get("confidence",5) for a in agents],
	marker_color=[COLOR_MAP[a][1] for a in agents],
	text=[parsed[a].get("confidence",5) for a in agents],textposition="outside"))
	fig.update_layout(title="Agent Self-Reported Confidence",
	yaxis=dict(range=[0,12],title="Confidence /10"),**LB)
	return fig

	def chart_heatmap(all_scores):
	agents=[a for a in AGENT_ORDER if a in all_scores]
	if not agents: return _ef("Rigor Heatmap")
	mat=[[all_scores[a].get(d,0) for d in SCORE_DIMS] for a in agents]
	fig=go.Figure(go.Heatmap(z=mat,x=SCORE_DIMS,y=agents,colorscale="YlGnBu",
	zmin=0,zmax=10,text=mat,texttemplate="%{text}",showscale=True))
	fig.update_layout(title="Agent Rigor Heatmap",**LB)
	return fig


	# ══════════════════════════════════════════════════════════════════════════
	# SECTION 12 — HTML BUILDERS
	# ══════════════════════════════════════════════════════════════════════════

	PRODUCT_CSS = """
	@import url('https://fonts.googleapis.com/css2?family=DM+Serif+Display:ital@0;1&family=DM+Mono:wght@400;500&family=DM+Sans:wght@300;400;500&display=swap');
	:root{--bg:#0a0f1e;--surface:#0f1729;--border:#1a2744;--text:#c9d1e0;--muted:#4a5568;
	--green:#22c55e;--red:#ef4444;--blue:#3b82f6;--amber:#f59e0b;--purple:#a855f7}
	body,.gradio-container{background:var(--bg)!important}
	.mas-header{padding:3rem 2rem 2rem;border-bottom:1px solid var(--border);position:relative;overflow:hidden}
	.mas-header::before{content:'';position:absolute;inset:0;
	background:radial-gradient(ellipse 80% 60% at 50% -20%,rgba(34,197,94,.06),transparent);pointer-events:none}
	.mas-wordmark{font-family:'DM Serif Display',serif;font-size:3rem;letter-spacing:-.02em;
	color:#e8edf5;line-height:1;margin-bottom:.4rem}
	.mas-wordmark em{font-style:italic;color:var(--green)}
	.mas-tagline{font-family:'DM Mono',monospace;font-size:.72rem;letter-spacing:.2em;
	color:var(--muted);text-transform:uppercase}
	.mas-desc{font-family:'DM Sans',sans-serif;font-size:.95rem;color:#7a8ba0;
	margin-top:1rem;max-width:600px;line-height:1.6}
	.agent-grid{display:grid;grid-template-columns:1fr 1fr;gap:1rem;margin:1.5rem 0}
	@media(max-width:768px){.agent-grid{grid-template-columns:1fr}}
	.agent-card{background:var(--surface);border:1px solid var(--border);border-radius:12px;
	padding:1.4rem;position:relative;overflow:hidden}
	.agent-card::before{content:'';position:absolute;top:0;left:0;right:0;height:2px}
	.agent-card.proposer::before{background:var(--green)}
	.agent-card.opposer::before{background:var(--red)}
	.agent-card.critic::before{background:var(--blue)}
	.agent-card.synthesizer::before{background:var(--amber)}
	.agent-label{font-family:'DM Mono',monospace;font-size:.65rem;letter-spacing:.18em;
	text-transform:uppercase;margin-bottom:.6rem;display:flex;align-items:center;gap:.5rem}
	.agent-dot{width:7px;height:7px;border-radius:50%;display:inline-block}
	.agent-claim{font-family:'DM Serif Display',serif;font-size:1.05rem;color:#d8e0ed;
	line-height:1.45;margin-bottom:1rem;font-style:italic}
	.agent-args{list-style:none;padding:0;margin:0 0 1rem}
	.agent-args li{font-family:'DM Sans',sans-serif;font-size:.875rem;color:var(--text);
	padding:.45rem 0 .45rem 1rem;border-bottom:1px solid rgba(255,255,255,.04);
	line-height:1.5;position:relative}
	.agent-args li::before{content:'—';position:absolute;left:0;color:var(--muted)}
	.agent-meta{display:flex;gap:.6rem;flex-wrap:wrap;margin-top:.8rem}
	.meta-chip{font-family:'DM Mono',monospace;font-size:.65rem;padding:2px 10px;border-radius:100px;
	background:rgba(255,255,255,.04);color:var(--muted);border:1px solid var(--border);letter-spacing:.05em}
	.trust-banner{background:var(--surface);border:1px solid var(--border);border-radius:16px;
	padding:2.5rem 2rem;text-align:center;margin:1.5rem 0}
	.trust-score-num{font-family:'DM Serif Display',serif;font-size:5rem;line-height:1;font-weight:400}
	.trust-label{font-family:'DM Mono',monospace;font-size:.7rem;letter-spacing:.2em;
	text-transform:uppercase;color:var(--muted);margin-top:.3rem}
	.trust-verdict{font-family:'DM Serif Display',serif;font-size:1.1rem;color:#c9d1e0;
	margin-top:1.2rem;font-style:italic;max-width:600px;margin-left:auto;margin-right:auto;line-height:1.5}
	.trust-meter{width:240px;height:8px;background:var(--border);border-radius:100px;margin:1rem auto 0;overflow:hidden}
	.trust-fill{height:100%;border-radius:100px}
	.xai-panel{background:var(--surface);border:1px solid var(--border);border-left:3px solid var(--purple);
	border-radius:12px;padding:1.4rem;margin:1rem 0}
	.xai-title{font-family:'DM Mono',monospace;font-size:.7rem;letter-spacing:.18em;
	text-transform:uppercase;color:var(--purple);margin-bottom:1rem}
	.xai-row{display:flex;justify-content:space-between;align-items:center;
	padding:.4rem 0;border-bottom:1px solid rgba(255,255,255,.03)}
	.xai-key{font-family:'DM Mono',monospace;font-size:.75rem;color:var(--text)}
	.xai-val{font-family:'DM Mono',monospace;font-size:.8rem;color:var(--green);font-weight:500}
	.sources-panel{background:rgba(10,15,30,.8);border:1px solid var(--border);border-radius:12px;padding:1.4rem;margin:1rem 0}
	.sources-title{font-family:'DM Mono',monospace;font-size:.65rem;letter-spacing:.18em;
	text-transform:uppercase;color:var(--muted);margin-bottom:1rem}
	.source-item{margin-bottom:1rem}
	.source-agent{font-family:'DM Mono',monospace;font-size:.7rem;color:var(--blue);margin-bottom:.3rem}
	.source-snippet{font-family:'DM Sans',sans-serif;font-size:.8rem;color:#5a6a7e;line-height:1.5;
	padding-left:.8rem;border-left:2px solid var(--border)}
	.section-divider{font-family:'DM Mono',monospace;font-size:.65rem;letter-spacing:.2em;text-transform:uppercase;
	color:var(--muted);text-align:center;padding:1.5rem 0 .5rem;
	display:flex;align-items:center;gap:1rem}
	.section-divider::before,.section-divider::after{content:'';flex:1;height:1px;background:var(--border)}
	"""

	def _tc(s):
	if s is None: return "#4a5568"
	if s>=75: return "#22c55e"
	if s>=50: return "#f59e0b"
	if s>=25: return "#ef4444"
	return "#7f1d1d"

	def _tl(s):
	if s is None: return "UNSCORED"
	if s>=75: return "WELL SUPPORTED"
	if s>=50: return "CONTESTED"
	if s>=25: return "WEAKLY SUPPORTED"
	return "UNSUPPORTED"

	def build_results_html(topic, mode, parsed, xai, sources):
	synth = parsed.get("Synthesizer", {})
	score = synth.get("trust_score")
	color = _tc(score)
	label = _tl(score)
	score_disp = str(score) if score is not None else "—"
	fill_pct = score if score is not None else 0
	verdict = synth.get("claim", "No verdict extracted.")
	mode_label = "CLAIM VERIFICATION" if mode=="verify" else "RESEARCH ANALYSIS"

	trust_html = f"""
	<div class="trust-banner" style="border-color:{color}30">
	<div style="font-family:'DM Mono',monospace;font-size:.65rem;letter-spacing:.2em;
	color:var(--muted);text-transform:uppercase;margin-bottom:.5rem">
	{mode_label} · {topic[:60].upper()}
	</div>
	<div class="trust-score-num" style="color:{color}">{score_disp}</div>
	<div style="font-family:'DM Mono',monospace;font-size:.6rem;color:var(--muted);letter-spacing:.1em">/ 100</div>
	<div class="trust-label" style="color:{color}">{label}</div>
	<div class="trust-meter"><div class="trust-fill" style="width:{fill_pct}%;background:{color}"></div></div>
	<div class="trust-verdict">"{verdict}"</div>
	</div>"""

	card_cls = {"Proposer":"proposer","Opposer":"opposer","Critic":"critic","Synthesizer":"synthesizer"}
	cards = '<div class="agent-grid">'
	for a in AGENT_ORDER:
	if a not in parsed: continue
	p = parsed[a]; cfg = AGENT_CONFIG[a]; cls = card_cls[a]
	args_html = "".join(f"<li>{arg}</li>" for arg in p.get("arguments",[]))
	trust_line = ""
	if p.get("trust_score") is not None:
	trust_line = f'<div style="font-family:DM Mono,monospace;font-size:.75rem;color:{_tc(p["trust_score"])};margin-top:.5rem">Trust Score: {p["trust_score"]}/100</div>'
	cards += f"""
	<div class="agent-card {cls}">
	<div class="agent-label">
	<span class="agent-dot" style="background:{cfg['color']}"></span>
	<span style="color:{cfg['color']}">{a}</span>
	<span style="color:var(--muted)">— {cfg['role_desc']}</span>
	</div>
	<div class="agent-claim">"{p.get('claim','No claim extracted.')}"</div>
	<ul class="agent-args">{args_html}</ul>
	{trust_line}
	<div class="agent-meta">
	<span class="meta-chip" style="color:{cfg['color']}">conf {p.get('confidence',5)}/10</span>
	<span class="meta-chip">shifted: {p.get('position_shift','—')}</span>
	<span class="meta-chip">influenced: {p.get('influenced_by','—')}</span>
	</div>
	</div>"""
	cards += "</div>"

	inf = xai.get("influence_matrix",{}); cf = xai.get("counterfactual_scores",{})
	arg_attr = xai.get("argument_attribution",{})
	top_inf = max(inf, key=inf.get) if inf else "N/A"
	top_score = inf.get(top_inf, 0) if inf else 0
	top_arg = max(arg_attr, key=arg_attr.get) if arg_attr else "N/A"
	inf_rows = "".join(f'<div class="xai-row"><span class="xai-key">{k}</span><span class="xai-val">{v:.3f}</span></div>' for k,v in inf.items())
	cf_rows = "".join(f'<div class="xai-row"><span class="xai-key">{k}</span><span class="xai-val">{v:.3f}</span></div>' for k,v in cf.items())

	xai_html = f"""
	<div class="xai-panel">
	<div class="xai-title">xAI — Influence Attribution Layer</div>
	<div style="font-family:'DM Sans',sans-serif;font-size:.85rem;color:#7a8ba0;margin-bottom:1rem">
	Strongest influence: <strong style="color:#e8edf5">{top_inf}</strong> ({top_score:.3f}) ·
	Most attributed argument: <strong style="color:#e8edf5">{top_arg}</strong>
	</div>
	<div style="display:grid;grid-template-columns:1fr 1fr;gap:1.5rem">
	<div>
	<div style="font-family:'DM Mono',monospace;font-size:.65rem;color:var(--muted);
	letter-spacing:.15em;text-transform:uppercase;margin-bottom:.5rem">Semantic Influence Matrix</div>
	{inf_rows}
	</div>
	<div>
	<div style="font-family:'DM Mono',monospace;font-size:.65rem;color:var(--muted);
	letter-spacing:.15em;text-transform:uppercase;margin-bottom:.5rem">Counterfactual Causal Score</div>
	{cf_rows}
	</div>
	</div>
	</div>"""

	src_items = ""
	for a, data in sources.items():
	snippets = "".join(f'<div class="source-snippet">"{s}..."</div>' for s in data.get("snippets",[]))
	src_items += f'<div class="source-item"><div class="source-agent">{a} ← {data.get("source_label","")}</div>{snippets}</div>'

	sources_html = f"""
	<div class="sources-panel">
	<div class="sources-title">Evidence Transparency — Retrieved Sources</div>
	{src_items}
	</div>"""

	return f"<style>{PRODUCT_CSS}</style>{trust_html}<div class='section-divider'>Agent Analysis</div>{cards}<div class='section-divider'>Explainability Layer</div>{xai_html}<div class='section-divider'>Evidence Sources</div>{sources_html}"


	# ══════════════════════════════════════════════════════════════════════════
	# SECTION 13 — ORCHESTRATOR
	# ══════════════════════════════════════════════════════════════════════════
	@monitor_request
	def run_mas(topic: str, external_output: str, tab_mode: str):
	empties = tuple(_ef() for _ in range(7))

	if not topic.strip():
	return ("<p style='color:#ef4444;font-family:DM Mono,monospace'>⚠ Enter a research topic.</p>",
	"", "", "") + empties

	if tab_mode == "Verify Claim / AI Output" and not external_output.strip():
	return ("<p style='color:#ef4444;font-family:DM Mono,monospace'>⚠ Paste the claim or AI output to verify.</p>",
	"", "", "") + empties

	mode = "verify" if tab_mode == "Verify Claim / AI Output" else "research"
	ext = external_output.strip() if mode == "verify" else None

	print(f"\n{'='60}\nMulti Agent System \| Mode: {mode} \| Topic: {topic}\n{'='60}")

	try:
	_last_sources.clear()
	history, parsed, embeddings, scores, query_emb = run_pipeline(topic, ext, mode)
	xai = compute_xai(history, parsed, embeddings, topic, mode, query_emb, ext)

	results_html = build_results_html(topic, mode, parsed, xai, dict(_last_sources))
	json_out = build_export_json(topic, mode, parsed, xai, dict(_last_sources))
	text_out = build_export_text(topic, mode, parsed, xai)

	return (
	results_html, json_out, text_out,
	f"✓ Analysis complete — {datetime.datetime.utcnow().strftime('%H:%M:%S UTC')}",
	chart_influence_matrix(xai["influence_matrix"]),
	chart_argument_attribution(xai["argument_attribution"]),
	chart_counterfactual(xai["counterfactual_scores"]),
	chart_timeline(xai["position_timeline"]),
	chart_radar(scores),
	chart_confidence(parsed),
	chart_heatmap(scores),
	)

	except Exception as exc:
	import traceback; traceback.print_exc()
	return (f"<p style='color:#ef4444;font-family:DM Mono,monospace'>Error: {exc}</p>",
	"", "", "Error") + empties


	# ══════════════════════════════════════════════════════════════════════════
	# SECTION 14 — GRADIO UI
	# ══════════════════════════════════════════════════════════════════════════

	SAMPLE_TOPICS = [
	"The long-term effects of social media on adolescent mental health",
	"Whether large language models can achieve genuine reasoning",
	"The effectiveness of universal basic income programs",
	"Genetic engineering in agriculture: risks and benefits",
	"The causal relationship between economic inequality and crime",
	]

	SAMPLE_CLAIMS = [
	["Social media and mental health",
	"Social media use is directly correlated with increased rates of depression and anxiety in teenagers, as evidenced by multiple longitudinal studies."],
	["LLM reasoning capabilities",
	"Current large language models do not perform genuine logical reasoning — they pattern-match on training data and cannot reliably solve novel problems."],
	["Universal basic income",
	"UBI pilot programs have consistently shown that unconditional cash transfers reduce poverty without reducing workforce participation."],
	]

	gr.close_all()

	with gr.Blocks(theme=gr.themes.Base(), css=PRODUCT_CSS + """
	.gradio-container{max-width:1100px!important;margin:0 auto}
	button.primary{background:#22c55e!important;color:#0a0f1e!important;
	font-family:'DM Mono',monospace!important;font-size:.8rem!important;
	letter-spacing:.1em!important;border-radius:8px!important}
	.gr-form,.gr-box{background:#0f1729!important;border-color:#1a2744!important}
	label{font-family:'DM Mono',monospace!important;font-size:.72rem!important;
	letter-spacing:.1em!important;color:#4a5568!important;text-transform:uppercase!important}
	textarea,input{background:#080d1a!important;border-color:#1a2744!important;
	color:#c9d1e0!important;font-family:'DM Sans',sans-serif!important}
	""") as demo:

	gr.HTML(f"""
	<div class="mas-header">
	<div class="mas-wordmark">Multi <em>Agent</em> System</div>
	<div class="mas-tagline">Research Verification · Open Source · Powered by Mistral API ({MISTRAL_MODEL})</div>
	<div class="mas-desc">
	Submit a research topic or claim. Four independent AI agents — Proposer, Opposer,
	Critic, and Synthesizer — analyse it using RAG-grounded evidence and produce a
	calibrated, bias-audited verdict with full xAI transparency.
	</div>
	<div style="display:flex;gap:1rem;margin-top:1.5rem;flex-wrap:wrap">
	<div style="font-family:'DM Mono',monospace;font-size:.68rem;color:#2d6a4f;background:rgba(34,197,94,.08);border:1px solid rgba(34,197,94,.2);padding:4px 12px;border-radius:100px">◆ Proposer — evidence-based support</div>
	<div style="font-family:'DM Mono',monospace;font-size:.68rem;color:#7f1d1d;background:rgba(239,68,68,.08);border:1px solid rgba(239,68,68,.2);padding:4px 12px;border-radius:100px">◆ Opposer — evidence-based refutation</div>
	<div style="font-family:'DM Mono',monospace;font-size:.68rem;color:#1e40af;background:rgba(59,130,246,.08);border:1px solid rgba(59,130,246,.2);padding:4px 12px;border-radius:100px">◆ Critic — logical consistency audit</div>
	<div style="font-family:'DM Mono',monospace;font-size:.68rem;color:#78350f;background:rgba(245,158,11,.08);border:1px solid rgba(245,158,11,.2);padding:4px 12px;border-radius:100px">◆ Synthesizer — calibrated final verdict</div>
	</div>
	</div>
	""")

	with gr.Tabs():
	with gr.TabItem("Research Topic"):
	topic_input = gr.Textbox(
	placeholder="e.g. The long-term effects of social media on adolescent mental health",
	label="Research Topic or Question", lines=2
	)
	gr.Examples(examples=SAMPLE_TOPICS, inputs=topic_input, label="Example Topics")
	tab_mode_1 = gr.State("Research Topic")
	ext_1 = gr.State("")
	run_btn_1 = gr.Button("Run Analysis", variant="primary", size="lg")

	with gr.TabItem("Verify Claim / AI Output"):
	gr.HTML('<div style="font-family:DM Sans,sans-serif;font-size:.875rem;color:#7a8ba0;padding:.75rem 0">Paste any claim, AI-generated text, or research statement. The system will audit its accuracy and bias.</div>')
	topic_input_2 = gr.Textbox(placeholder="e.g. Effects of social media on mental health",
	label="Topic / Context of the Claim", lines=1)
	claim_input = gr.Textbox(placeholder="Paste the claim or AI-generated text to verify...",
	label="Claim or AI Output to Verify", lines=4)
	gr.Examples(examples=SAMPLE_CLAIMS, inputs=[topic_input_2, claim_input], label="Example Claims")
	tab_mode_2 = gr.State("Verify Claim / AI Output")
	run_btn_2 = gr.Button("Verify This Claim", variant="primary", size="lg")

	status_bar = gr.Textbox(value="", label="", interactive=False,
	placeholder="Ready — enter a topic and click Run")

	gr.HTML('<div class="section-divider">Results</div>')
	results_output = gr.HTML()

	gr.HTML('<div class="section-divider">xAI Visualisation</div>')
	with gr.Row():
	influence_plot = gr.Plot(label="Influence Matrix")
	arg_attr_plot = gr.Plot(label="Argument Attribution")
	with gr.Row():
	cf_plot = gr.Plot(label="Counterfactual Causal Score")
	timeline_plot = gr.Plot(label="Confidence Timeline")
	with gr.Row():
	radar_plot = gr.Plot(label="Agent Rigor Radar")
	conf_plot = gr.Plot(label="Confidence Levels")
	heatmap_plot = gr.Plot(label="Rigor Heatmap")

	gr.HTML('<div class="section-divider">Export for Research Use</div>')
	gr.HTML('<div style="font-family:DM Sans,sans-serif;font-size:.8rem;color:#4a5568;padding:.5rem 0 1rem">Export results as structured JSON or plain text for use in research papers or datasets.</div>')
	with gr.Row():
	json_output = gr.Code(label="JSON Export", language="json", lines=12, interactive=False)
	text_output = gr.Textbox(label="Plain Text Export", lines=12, interactive=False)

	all_outputs = [results_output, json_output, text_output, status_bar,
	influence_plot, arg_attr_plot, cf_plot, timeline_plot,
	radar_plot, conf_plot, heatmap_plot]

	def _run_tab1(topic, mode, ext): return run_mas(topic, ext, mode)
	def _run_tab2(topic, claim, mode): return run_mas(topic, claim, mode)

	run_btn_1.click(fn=_run_tab1, inputs=[topic_input, tab_mode_1, ext_1], outputs=all_outputs)
	topic_input.submit(fn=_run_tab1, inputs=[topic_input, tab_mode_1, ext_1], outputs=all_outputs)
	run_btn_2.click(fn=_run_tab2, inputs=[topic_input_2, claim_input, tab_mode_2], outputs=all_outputs)

	demo.launch(share=True, show_error=True)