selfevolveagent / evoagentx /benchmark /WorfBench.py

Upload 2846 files

5374a2d verified 21 days ago

6.95 kB

	import os
	import json
	import random
	from typing import Any, Dict, Callable, List
	from .benchmark import Benchmark
	from .measures import exact_match_score, f1_score, acc_score
	from ..core.logging import logger
	from ..core.module_utils import load_json
	from datasets import load_dataset

	# WorfBench dataset file mapping
	WORFBENCH_FILES_MAP = {
	"train": "worfbench_train.json",
	"test": "worfbench_test.json"
	}
	VALID_WORFBENCH_FILES = list(WORFBENCH_FILES_MAP.values())

	def evaluate_workflow_sequence(prediction: List[Any], ground_truth: List[Any]) -> float:
	"""Evaluate F1 score for sequence workflow."""
	from .measures import f1_score
	return f1_score(prediction=prediction, ground_truth=ground_truth)

	def evaluate_workflow_graph(prediction: Dict[str, Any], ground_truth: Dict[str, Any]) -> float:
	"""Evaluate F1 score for graph workflow."""
	pred_nodes = set(prediction.get("nodes", []))
	true_nodes = set(ground_truth.get("nodes", []))
	pred_edges = set(tuple(edge) for edge in prediction.get("edges", []))
	true_edges = set(tuple(edge) for edge in ground_truth.get("edges", []))

	node_precision = len(pred_nodes & true_nodes) / len(pred_nodes) if pred_nodes else 0
	node_recall = len(pred_nodes & true_nodes) / len(true_nodes) if true_nodes else 0
	edge_precision = len(pred_edges & true_edges) / len(pred_edges) if pred_edges else 0
	edge_recall = len(pred_edges & true_edges) / len(true_edges) if true_edges else 0

	node_f1 = 2 * (node_precision * node_recall) / (node_precision + node_recall) if (node_precision + node_recall) > 0 else 0
	edge_f1 = 2 * (edge_precision * edge_recall) / (edge_precision + edge_recall) if (edge_precision + edge_recall) > 0 else 0

	return (node_f1 + edge_f1) / 2

	def download_worfbench_data(dataset: str, save_folder: str) -> None:
	"""
	Download WorfBench dataset from Hugging Face.

	Args:
	dataset (str): Dataset name ("worfbench").
	save_folder (str): Directory to save data.
	"""
	datasets_map = {
	"train": {"repo_id": "zjunlp/WorFBench_train", "filename": "worfbench_train.json", "split": "train"},
	"test": {"repo_id": "zjunlp/WorFBench_test", "filename": "worfbench_test.json", "split": "test"}
	}

	os.makedirs(save_folder, exist_ok=True)
	for split, info in datasets_map.items():
	repo_id = info["repo_id"]
	filename = info["filename"]
	dataset_split = info["split"]
	save_path = os.path.join(save_folder, filename)

	if not os.path.exists(save_path):
	logger.info(f"Downloading {split} split of {dataset} from {repo_id}...")
	try:
	# Load dataset
	ds = load_dataset(repo_id, split=dataset_split)
	# Convert dataset to list and save as JSON
	data = [item for item in ds]
	with open(save_path, 'w', encoding='utf-8') as f:
	json.dump(data, f, ensure_ascii=False, indent=2)
	logger.info(f"Successfully downloaded and saved {filename} to {save_path}")
	except Exception as e:
	logger.error(f"Failed to download or save {filename}: {e}")
	raise
	else:
	logger.info(f"File {save_path} already exists, skipping download.")

	class WorfBench(Benchmark):
	"""
	WorfBench evaluation class for assessing LLM agents on complex workflow generation tasks.
	Assumed data structure:
	{
	"id": str,
	"task": str,
	"context": list of dicts (e.g., [{"title": str, "content": list of str}]),
	"expected_output": str or dict (sequence or graph),
	"type": str,
	"level": str
	}
	"""
	def __init__(self, path: str = None, mode: str = "test", **kwargs):
	path = os.path.expanduser(path or "~/.worfbench/data")
	super().__init__(name=type(self).__name__, path=path, mode=mode, **kwargs)

	def _load_data_from_file(self, file_name: str) -> Dict:
	if file_name is None:
	return None
	file_path = os.path.join(self.path, file_name)
	if not os.path.exists(file_path):
	download_worfbench_data(dataset="worfbench", save_folder=self.path)
	if not os.path.exists(file_path):
	logger.error(f"File {file_path} still does not exist after download attempt!")
	return None
	logger.info(f"Loading WorfBench data from {file_path} ...")
	data = load_json(path=file_path, type="json")
	if data is None:
	logger.error(f"Failed to load data from {file_path}")
	return None
	return data

	def _load_data(self) -> None:
	if self.mode in ["train", "dev"]:
	self._train_data = self._load_data_from_file(file_name=WORFBENCH_FILES_MAP["train"])
	if self.mode == "dev":
	if self._train_data:
	random.seed(42)
	keys = list(self._train_data.keys())
	n_dev = len(self._train_data[keys[0]]) // 10 or 1
	indices = list(range(len(self._train_data[keys[0]])))
	random.shuffle(indices)
	self._train_data = {k: [v[i] for i in indices[:n_dev]] for k, v in self._train_data.items()}
	if self.mode == "test":
	self._test_data = self._load_data_from_file(file_name=WORFBENCH_FILES_MAP["test"])

	def _get_label(self, example: Dict) -> Any:
	return example.get("expected_output", "")

	def _get_id(self, example: Dict) -> Any:
	return example.get("id", "")

	def evaluate(self, prediction: Any, label: Any) -> Dict:
	if isinstance(prediction, list) and isinstance(label, list):
	f1 = evaluate_workflow_sequence(prediction, label)
	elif isinstance(prediction, dict) and isinstance(label, dict):
	f1 = evaluate_workflow_graph(prediction, label)
	else:
	f1 = f1_score(prediction=str(prediction), ground_truth=str(label))
	em = exact_match_score(prediction=prediction, ground_truth=label)
	acc = acc_score(prediction=prediction, ground_truths=[label])
	return {"em": em, "f1": f1, "acc": acc}

	async def async_evaluate(self, graph: Callable, example: Dict) -> float:
	task = example.get("task", "")
	context = "\n".join(
	f"{ctx.get('title', '')}: {' '.join(ctx.get('content', []))}"
	for ctx in example.get("context", [])
	if isinstance(ctx, dict)
	)
	inputs = f"Task: {task}\nContext: {context}\nGenerate workflow:\nAnswer:"
	try:
	generated_workflow = await graph(inputs)
	except Exception as e:
	logger.error(f"Error generating workflow: {e}")
	generated_workflow = ""
	label = self._get_label(example)
	metrics = self.evaluate(prediction=generated_workflow, label=label)
	return metrics["f1"]