Spaces:

BrainDrive
/

Summary-Evaluator

Sleeping

App Files Files Community

Summary-Evaluator / app.py

navaneethkrishnan

Upload 2 files

9ceb38c verified 9 months ago

raw

history blame contribute delete

6.76 kB

	import gradio as gr
	from src.api_clients import openai_client, claude_client, deepseek_client
	from src.summary_generator import get_openrouter_models, generate_summary_from_openrouter, is_prompt_valid_for_summary
	from src.evaluation import evaluate
	from src.comparison import get_last_eval_data, run_comparison, import_model_metrics
	from src.utils import preset_vals

	from config.css import CSS

	with gr.Blocks(css=CSS) as demo:
	with gr.Tabs():

	# ▸ Tab 1: Unified Summary + Evaluation
	with gr.Tab("🧠 Generate + Evaluate"):
	gr.Markdown("## Unified Summary Generator and Evaluator")
	article = gr.Textbox(label="Paste article", lines=10)
	auto_gen_toggle = gr.Checkbox(label="Enable Auto-Generation if Summary is Empty", value=True)
	summary = gr.Textbox(label="Paste summary", lines=6, visible=False, interactive=True)
	prompt = gr.Textbox(label="Prompt for summary (only if generating)", lines=2, visible=True, interactive=True)
	model = gr.Dropdown(choices=get_openrouter_models(), label="Model (for generation)", visible=True, interactive=True)

	variant = gr.Radio(["Twin-Lock","Judge-Lock","ParallelX-TJ"], value="Twin-Lock", label="Variant", elem_id="variant-group")
	back = gr.CheckboxGroup(["OpenAI","DeepSeek","Claude"], value=["OpenAI","DeepSeek","Claude"], label="Back-ends", elem_id="backend-group")
	p0 = preset_vals("Twin-Lock")
	w_cov = gr.Slider(0,1,p0[0],step=0.01,label="Coverage", elem_classes=["metric-slider"])
	w_align= gr.Slider(0,1,p0[1],step=0.01,label="Alignment", elem_classes=["metric-slider"])
	w_hall = gr.Slider(0,1,p0[2],step=0.01,label="Hallucination", elem_classes=["metric-slider"])
	w_rel = gr.Slider(0,1,p0[3],step=0.01,label="Relevance", elem_classes=["metric-slider"])
	w_bias = gr.Slider(0,1,p0[4],step=0.01,label="Bias/Toxicity", elem_classes=["metric-slider"])
	temp = gr.Slider(0,1,0,step=0.01,label="temperature")
	show_ev = gr.Checkbox(True,label="Show evidence spans")

	run = gr.Button("🔁 Generate & Evaluate")
	gen_sum = gr.Textbox(label="Generated Summary", lines=6, visible=True)
	table = gr.DataFrame(label="Metrics")
	comm = gr.JSON(label="Comments JSON")
	score = gr.JSON(label="Average score")
	tokbox = gr.JSON(label="Token usage")
	csv_dl = gr.File(label="CSV download")
	zip_dl = gr.File(label="Raw JSON zip")

	def toggle_ui(auto):
	return (
	gr.update(visible=not auto, interactive=not auto),
	gr.update(visible=auto, interactive=auto),
	gr.update(visible=auto, interactive=auto),
	gr.update(value=("🔁 Generate & Evaluate" if auto else "✅ Only Evaluate")),
	gr.update(visible=auto) # toggle gen_sum
	)

	auto_gen_toggle.change(
	toggle_ui,
	auto_gen_toggle,
	[summary, prompt, model, run, gen_sum]
	)

	def unified_run(article, prompt, model, summary, auto_flag, variant, active_back, temp,
	w_cov, w_align, w_hall, w_rel, w_bias, show_ev):
	if auto_flag and not summary:
	if not is_prompt_valid_for_summary(prompt):
	return "⛔ Prompt rejected: not summarization-related.", None, None, None, None, None, None
	summary = generate_summary_from_openrouter(article, prompt, model)
	elif not auto_flag and not summary:
	return "⚠️ Please provide a summary or enable auto-generation.", None, None, None, None, None, None


	return summary, *evaluate(article, summary, variant, active_back, temp, w_cov, w_align, w_hall, w_rel, w_bias, show_ev)

	run.click(
	unified_run,
	[article, prompt, model, summary, auto_gen_toggle, variant, back, temp,
	w_cov,w_align,w_hall,w_rel,w_bias,show_ev],
	[gen_sum, table, comm, score, tokbox, csv_dl, zip_dl]
	)

	# ▸ Tab 3: Comparison
	# ▸ Tab 3: Comparison (manual inputs for both human and model, no import button)
	with gr.Tab("📊 Comparison"):
	with gr.Column():
	gr.Markdown("## Compare Human vs Model Evaluations")
	gr.Markdown("### 🧍 Human Evaluation")
	with gr.Row():
	hc = gr.Slider(1, 10, 1, step=1, label="Coverage")
	ha = gr.Slider(1, 10, 1, step=1, label="Alignment")
	hh = gr.Slider(1, 10, 1, step=1, label="Hallucination")
	hr = gr.Slider(1, 10, 1, step=1, label="Relevance")
	hb = gr.Slider(1, 10, 1, step=1, label="Bias/Toxicity")
	human_comments = gr.Textbox(label="Human Comments")

	gr.Markdown("### 🤖 Model Evaluation")
	with gr.Row():
	mc = gr.Slider(1, 10, 1, step=1, label="Coverage")
	ma = gr.Slider(1, 10, 1, step=1, label="Alignment")
	mh = gr.Slider(1, 10, 1, step=1, label="Hallucination")
	mr = gr.Slider(1, 10, 1, step=1, label="Relevance")
	mb = gr.Slider(1, 10, 1, step=1, label="Bias/Toxicity")
	model_comments = gr.Textbox(label="Model Comments")

	def compare_structured(hc, ha, hh, hr, hb, human_comments, mc, ma, mh, mr, mb, model_comments):
	human_scores = {
	"coverage": hc,
	"alignment": ha,
	"hallucination": hh,
	"relevance": hr,
	"bias_toxicity": hb
	}
	model_scores = {
	"coverage": mc,
	"alignment": ma,
	"hallucination": mh,
	"relevance": mr,
	"bias_toxicity": mb
	}
	return run_comparison(human_scores, human_comments, model_scores, model_comments)

	compare_btn = gr.Button("🔍 Compare")
	output_analysis = gr.Textbox(label="Analysis", lines=10)
	compare_btn.click(
	compare_structured,
	[hc, ha, hh, hr, hb, human_comments, mc, ma, mh, mr, mb, model_comments],
	output_analysis
	)

	demo.launch(share=True, show_error=True)