Spaces:

devrajsinh2012
/

Mexar

Sleeping

Mexar / backend /evaluation /backbone_comparison.py

devrajsinh2012

feat: harden evaluation workflows and docs

29809c8 about 1 month ago

1.65 kB

	"""
	Compares different LLM backbones (Llama 3, Mixtral, Gemma).
	"""
	import sys
	import os
	sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))

	from core.config import settings
	from modules.reasoning_engine import create_reasoning_engine
	from evaluation.metrics import MetricsRunner

	def run_comparison(agent_name: str, queries: list):
	backbones = ["llama3", "mixtral", "gemma"]
	metrics = MetricsRunner()
	original_backbone = getattr(settings, "LLM_BACKBONE", None)

	try:
	for bb in backbones:
	settings.LLM_BACKBONE = bb
	print(f"\n--- Testing Backbone: {bb} ---")
	try:
	# Must recreate engine so GroqClient picks up config
	engine = create_reasoning_engine()

	for q in queries:
	res = engine.reason(agent_name, q)
	faithfulness = metrics.extract_faithfulness(res)
	print(f"Q: {q}")
	print(f"A ({bb}): {res['answer'][:100]}...")
	if faithfulness is None:
	print("Faithfulness: N/A")
	else:
	print(f"Faithfulness: {faithfulness:.3f}")
	except Exception as e:
	print(f"Failed to run with backbone {bb}: {e}")
	finally:
	settings.LLM_BACKBONE = original_backbone
	print(f"\nRestored LLM_BACKBONE to: {original_backbone}")

	if __name__ == "__main__":
	test_queries = ["What are the symptoms of a common cold?"]
	# Replace 'medical_agent' with an actual compiled agent name
	run_comparison("medical_agent", test_queries)