selfevolveagent / evoagentx /benchmark /mbppplus.py

Upload 2846 files

5374a2d verified 14 days ago

15.6 kB

	import os
	import regex
	from typing import Union, Any, List, Callable
	from ..core.logging import logger
	from .benchmark import CodingBenchmark
	from ..utils.utils import download_file
	from ..core.module_utils import load_json
	from ..utils.aflow_utils.data_utils import AFLOW_DATASET_FILES_MAP, download_aflow_benchmark_data


	def download_raw_mbpp_data(name: str, save_folder: str):
	url = "https://raw.githubusercontent.com/google-research/google-research/master/mbpp/sanitized-mbpp.json"
	logger.info(f"Downloading MBPP data from: {url}")
	download_file(url=url, save_file=os.path.join(save_folder, name))


	def load_mbpp_data(data_path: str):

	"""
	load MBPP data from the given path and convert to HumanEval format
	"""

	def extract_func_name(func_header: str) -> str:
	func_name_pattern = r"def\s+([a-zA-Z_]\w)\s\("
	match = regex.search(func_name_pattern, func_header)
	if match:
	return match.group(1)
	else:
	return None

	def extract_func_header(code: str, test_list: List[str]) -> str:
	lines = code.split("\n")
	imports, defs = [], []
	for line in lines:
	if line.startswith("def "):
	break
	imports.append(line)
	for line in lines:
	if line.startswith("def "):
	defs.append(line)
	func_head = None
	for header in defs:
	func_name = extract_func_name(header)
	if func_name is None:
	continue
	if all(func_name in test for test in test_list):
	func_head = header
	break
	if func_head is None:
	logger.warning(f"No function header found for {code}")
	return ("\n".join(imports) + "\n\n" + func_head).strip()

	data = load_json(data_path, type="json")

	for example in data:
	original_prompt = example["prompt"]
	code = example["code"]
	test_list = [assert_str.strip() for assert_str in example["test_list"]]
	func_header = extract_func_header(code, test_list)

	if example["task_id"] == 56:
	# change the `check` function to `check_answer`
	func_header = func_header.replace("check", "check_answer")
	code = code.replace("check", "check_answer")
	test_list = [test.replace("check", "check_answer") for test in test_list]

	prompt = example["prompt"] + "\n\n" + func_header + "\n"
	canonical_solution = code
	test = "def check(candidate):\n " + "\n ".join(test_list) + "\n"
	entry_point = extract_func_name(func_header)

	example["prompt"] = prompt
	example["entry_point"] = entry_point
	example["canonical_solution"] = canonical_solution
	example["test"] = test
	example["original_prompt"] = original_prompt

	return data


	class MBPPPLUS(CodingBenchmark):

	"""Benchmark class for evaluating code generation on the MBPP dataset.

	MBPP (Mostly Basic Python Programming) is a collection of Python programming
	problems designed to test a model's ability to generate functionally correct
	code from natural language descriptions. This class handles loading the dataset,
	evaluating solutions, and computing metrics such as pass@k.

	The original MBPP format is transformed to be compatible with the HumanEval
	benchmark format, allowing for consistent evaluation infrastructure.

	Each MBPP example has the following structure:
	{
	"task_id" (int): 2,
	"prompt" (str): "Write a function to find the shared elements from the given two lists.",
	"code" (str): "def similar_elements(test_tup1, test_tup2):\n res = tuple(set(test_tup1) & set(test_tup2))\n return (res) ",
	"test_imports": []
	"test_list" (List[str]): ['assert set(similar_elements((3, 4, 5, 6),(5, 7, 4, 10))) == set((4, 5))', 'assert set(similar_elements((1, 2, 3, 4),(5, 4, 3, 7))) == set((3, 4))', 'assert set(similar_elements((11, 12, 14, 13),(17, 15, 14, 13))) == set((13, 14))']
	}

	Attributes:
	k: An integer or list of integers specifying which pass@k metrics to compute
	"""

	def __init__(self, path: str = None, mode: str = "all", timeout: int = 60, k: Union[int, list] = 1,**kwargs):
	path = os.path.expanduser(path or "~/.evoagentx/data/mbpp")
	self.k = k
	self.name = "mbpp"
	super().__init__(name=type(self).__name__, path=path, mode=mode, timeout=timeout, **kwargs)


	def _load_data_from_file(self, file_name: str):
	if file_name is None:
	return None
	file_path = os.path.join(self.path, file_name)
	if not os.path.exists(file_path):
	download_aflow_benchmark_data(dataset="mbpp", save_folder=self.path)

	return load_json(path=file_path, type="jsonl")
	# def _load_data_from_file(self, file_name: str):
	# # if file_name is None:
	# # return None
	# # file_path = os.path.join(self.path, file_name)
	# # if not os.path.exists(file_path):
	# # download_aflow_benchmark_data(dataset="mbpp", save_folder=self.path)
	# if self.mode == "train" or self.mode == "all":
	# logger.info(f"Loading train data from {AFLOW_DATASET_FILES_MAP['mbpp']['train']}")
	# self._train_data = self._load_data_from_file(file_name=AFLOW_DATASET_FILES_MAP["mbpp"]["train"])
	# if self.mode == "dev" or self.mode == "all":
	# logger.info(f"Loading dev data from {AFLOW_DATASET_FILES_MAP['mbpp']['dev']}")
	# self._dev_data = self._load_data_from_file(file_name=AFLOW_DATASET_FILES_MAP["mbpp"]["dev"])
	# if self.mode == "test" or self.mode == "all":
	# logger.info(f"Loading test data from {AFLOW_DATASET_FILES_MAP['mbpp']['test']}")
	# self._test_data = self._load_data_from_file("/home/tl688/pitl688/selfevolve/EvoAgentX/mbppplus_info.jsonl")

	# # load test cases
	# self._test_cases = self._load_data_from_file("/home/tl688/pitl688/selfevolve/EvoAgentX/mbppplus_info.jsonl")

	def _load_data(self):
	# print(AFLOW_DATASET_FILES_MAP)
	if self.mode == "train" or self.mode == "all":
	logger.info(f"Loading train data from {AFLOW_DATASET_FILES_MAP['mbpp']['train']}")
	self._train_data = self._load_data_from_file(file_name=AFLOW_DATASET_FILES_MAP["mbpp"]["train"])
	if self.mode == "dev" or self.mode == "all":
	logger.info(f"Loading dev data from {AFLOW_DATASET_FILES_MAP['mbpp']['dev']}")
	self._dev_data = self._load_data_from_file(file_name=AFLOW_DATASET_FILES_MAP["mbpp"]["dev"])
	if self.mode == "test" or self.mode == "all":
	logger.info(f"Loading test data from {AFLOW_DATASET_FILES_MAP['mbpp']['test']}")
	self._test_data = self._load_data_from_file("/home/tl688/pitl688/selfevolve/EvoAgentX/mbppplus_info.jsonl")

	# load test cases
	self._test_cases = self._load_data_from_file("/home/tl688/pitl688/selfevolve/EvoAgentX/mbppplus_info.jsonl")

	def _get_id(self, example: Any) -> Any:
	return example["task_id"]

	def _get_label(self, example: Any) -> Any:
	# return the unit test code
	return {
	"task_id": example["task_id"],
	"canonical_solution": example["code"],
	"test": example["test"],
	"entry_point": example["entry_point"]
	}

	def evaluate(self, prediction: Any, label: Any) -> dict:
	"""
	Evaluate the solution code.

	Args:
	prediction (str \| List[str]): The solution code(s).
	label (dict \| List[dict]): The unit test code(s).

	Returns:
	dict: The evaluation metrics (pass@k).
	"""
	prediction, label = self._check_evaluation_inputs(prediction, label)

	results = []
	for solution in prediction:
	solution_states = []
	for label_data in label:
	task_id = label_data["task_id"]
	prompt = self.get_example_by_id(task_id)["prompt"]
	unit_test = label_data["test"]
	entry_point = label_data["entry_point"]
	state, message = self.check_solution_plus(
	task_id=task_id,
	solution=solution,
	test=unit_test,
	entry_point=entry_point
	)
	if state != self.SUCCESS:
	break
	solution_states.append(state)
	results.append(len(solution_states)==len(label) and all(state==self.SUCCESS for state in solution_states))

	k_list = [self.k] if isinstance(self.k, int) else self.k
	pass_at_k = self.compute_pass_at_k(results, k_list)

	return pass_at_k



	class AFlowMBPPPLUS(MBPPPLUS):

	"""
	AFlow-specific implementation of MBPP benchmark.
	"""

	def __init__(self, path: str = None, mode: str = "all", timeout: int = 60, k: Union[int, list] = 1,**kwargs):
	path = os.path.expanduser(path or "~/.evoagentx/data/aflow/mbpp")
	super().__init__(path=path, mode=mode, timeout=timeout, k=k, **kwargs)

	def _load_data_from_file(self, file_name: str):
	if file_name is None:
	return None
	file_path = os.path.join(self.path, file_name)
	if not os.path.exists(file_path):
	download_aflow_benchmark_data(dataset="mbpp", save_folder=self.path)

	return load_json(path=file_path, type="jsonl")

	def _load_data(self):
	# AFLOW_DATASET_FILES_MAP["mbpp"]["train"] = None
	# AFLOW_DATASET_FILES_MAP["mbpp"]["dev"] = "/gpfs/radev/home/tl688/pitl688/selfevolve/AFlow/data/datasets/mbpp_validate.jsonl"
	# AFLOW_DATASET_FILES_MAP["mbpp"]["test"] = "/gpfs/radev/home/tl688/pitl688/selfevolve/AFlow/data/datasets/mbpp_test.jsonl"
	# AFLOW_DATASET_FILES_MAP["mbpp"]["test_cases"] = "/gpfs/radev/home/tl688/pitl688/selfevolve/AFlow/data/datasets/mbpp_public_test.jsonl"
	if self.mode == "train" or self.mode == "all":
	logger.info(f"Loading train data from {AFLOW_DATASET_FILES_MAP['mbpp']['train']}")
	self._train_data = self._load_data_from_file(file_name=AFLOW_DATASET_FILES_MAP["mbpp"]["train"])
	if self.mode == "dev" or self.mode == "all":
	logger.info(f"Loading dev data from {AFLOW_DATASET_FILES_MAP['mbpp']['dev']}")
	self._dev_data = self._load_data_from_file(file_name=AFLOW_DATASET_FILES_MAP["mbpp"]["dev"])
	if self.mode == "test" or self.mode == "all":
	logger.info(f"Loading test data from {AFLOW_DATASET_FILES_MAP['mbpp']['test']}")
	self._test_data = self._load_data_from_file("/home/tl688/pitl688/selfevolve/EvoAgentX/mbppplus_info.jsonl")

	# load test cases
	self._test_cases = self._load_data_from_file("/home/tl688/pitl688/selfevolve/EvoAgentX/mbppplus_info.jsonl")

	def _get_label(self, example: Any):
	return {
	"task_id": example["task_id"],
	"canonical_solution": example["code"],
	"test": example["test"],
	"entry_point": example["entry_point"]
	}

	def extract_test_cases_with_entry_point(self, entry_point: str):

	hardcoded_cases = {
	"remove_odd": "",
	"replace_spaces": "",
	"snake_to_camel": "",
	"Split": "",
	"swap_List": "",
	"square_Sum": "",
	"sort_sublists": "",
	"unique_sublists": "",
	}
	if entry_point in hardcoded_cases:
	return hardcoded_cases[entry_point]

	for case in self._test_cases:
	if case["entry_point"] == entry_point:
	return case["test"]

	return None

	async def async_evaluate(self, graph: Callable, example: Any) -> float:

	# generate solution
	prompt, entry_point = example["prompt"], example["entry_point"]
	solution = await graph(prompt, entry_point)
	label = self._get_label(example)
	metrics = await super().async_evaluate(prediction=solution, label=label)
	return metrics["pass@1"]

	def evaluate(self, prediction: Any, label: Any) -> dict:
	"""
	Evaluate the solution code.

	Args:
	prediction (str \| List[str]): The solution code(s).
	label (dict \| List[dict]): The unit test code(s).

	Returns:
	dict: The evaluation metrics (pass@k).
	"""
	prediction, label = self._check_evaluation_inputs(prediction, label)

	results = []
	for solution in prediction:
	solution_states = []
	for label_data in label:
	task_id = label_data["task_id"]
	prompt = self.get_example_by_id(task_id)["prompt"]
	unit_test = label_data["test"]
	entry_point = label_data["entry_point"]
	state, message = self.check_solution_plus(
	task_id=task_id,
	solution=solution,
	test=unit_test,
	entry_point=entry_point,
	use_entrypoint_as_input=False
	)
	# print(state)
	# print(message)
	if state != self.SUCCESS:
	break
	solution_states.append(state)
	self.error_list[task_id] = message.split('\n')[0]
	results.append(len(solution_states)==len(label) and all(state==self.SUCCESS for state in solution_states))

	k_list = [self.k] if isinstance(self.k, int) else self.k
	pass_at_k = self.compute_pass_at_k(results, k_list)
	# print(self.error_list)

	return pass_at_k

	def evaluate_mbpp_witherror(self, prediction: Any, label: Any) -> dict:
	"""
	Evaluate the solution code.

	Args:
	prediction (str \| List[str]): The solution code(s).
	label (dict \| List[dict]): The unit test code(s).

	Returns:
	dict: The evaluation metrics (pass@k).
	"""
	prediction, label = self._check_evaluation_inputs(prediction, label)

	results = []
	error_list = []
	for solution in prediction:
	solution_states = []
	for label_data in label:
	task_id = label_data["task_id"]
	prompt = self.get_example_by_id(task_id)["prompt"]
	unit_test = label_data["test"]
	entry_point = label_data["entry_point"]
	state, message = self.check_solution_plus(
	task_id=task_id,
	solution=prompt + "\n" + solution,
	test=unit_test,
	entry_point=entry_point,
	use_entrypoint_as_input=False
	)
	print(state)
	print(message)
	if state != self.SUCCESS:
	break
	solution_states.append(state)
	error_list.append(message)
	results.append(len(solution_states)==len(label) and all(state==self.SUCCESS for state in solution_states))

	k_list = [self.k] if isinstance(self.k, int) else self.k
	pass_at_k = self.compute_pass_at_k(results, k_list)

	return pass_at_k