MultiModal / math_verifier.py

Update math_verifier.py

68004aa verified 4 months ago

8.7 kB

	import re
	import math
	import logging
	from difflib import SequenceMatcher

	logger = logging.getLogger(__name__)

	class MathReward:
	def __init__(self, use_reference_comparison=True):
	"""
	Args:
	use_reference_comparison: 是否使用参考答案进行推理过程比较
	"""
	self.format_pattern = re.compile(r"<think>(.?)</think>\s<answer>(.*?)</answer>", re.DOTALL)
	self.use_reference_comparison = use_reference_comparison

	# 推理关键词（用于检查推理质量）
	self.reasoning_keywords = [
	'计算', '因为', '所以', '首先', '然后', '接着', '最后', '根据',
	'第一步', '第二步', '第三步', '第', '步', '得到', '等于',
	'加', '减', '乘', '除', '=', '+', '-', '*', '/', '÷', '×'
	]

	def parse_number(self, text):
	"""
	从文本中解析数值。
	支持：整数、小数、分数(1/5)、百分数(20%)、带逗号的数字(1,000)
	"""
	if not text:
	return None

	# 预处理：移除空格、货币符号、常见的中文单位
	text = text.strip()
	clean_text = text.replace(" ", "").replace(",", "").replace("¥", "").replace("$", "")
	clean_text = clean_text.replace("千克", "").replace("元", "").replace("个", "").replace("只", "")
	clean_text = clean_text.replace("本", "").replace("米", "").replace("人", "")

	try:
	# 1. 处理百分数 (e.g., "20%")
	if "%" in clean_text:
	return float(clean_text.replace("%", "")) / 100

	# 2. 处理分数 (e.g., "1/5" 或 "42/5")
	if "/" in clean_text:
	parts = clean_text.split("/")
	if len(parts) == 2:
	try:
	return float(parts[0]) / float(parts[1])
	except:
	pass

	# 3. 处理科学记数法 (e.g., "1.5e-3")
	if "e" in clean_text.lower() or "E" in clean_text:
	return float(clean_text)

	# 4. 提取所有匹配的数字格式
	# 匹配浮点数或整数，忽略可能混杂的文字
	matches = re.findall(r"[-+]?\d*\.\d+\|\d+", clean_text)
	if matches:
	# 取最后一个作为最终答案
	return float(matches[-1])

	except Exception as e:
	logger.debug(f"解析数字失败: {text}, 错误: {e}")

	return None

	def check_reasoning_quality(self, think_content):
	"""
	检查推理过程的质量

	返回质量评分 (0.0 - 1.0)
	"""
	if not think_content:
	return 0.0

	quality_score = 0.0

	# 长度检查
	length = len(think_content)
	if length >= 100:
	quality_score += 0.3
	elif length >= 50:
	quality_score += 0.15

	# 关键词检查
	keyword_count = sum(1 for kw in self.reasoning_keywords if kw in think_content)
	quality_score += min(keyword_count * 0.05, 0.3)

	# 数学表达式检查
	math_expressions = re.findall(r'\d+\s[+\-/×÷=]\s*\d+', think_content)
	if len(math_expressions) > 0:
	quality_score += 0.2
	if len(math_expressions) >= 3:
	quality_score += 0.1

	# 结构检查
	has_steps = bool(re.search(r'第\d+步\|步骤\d+\|^\d+[.、]', think_content, re.MULTILINE))
	if has_steps:
	quality_score += 0.1

	return min(quality_score, 1.0)

	def compute_reasoning_similarity(self, generated_reasoning, reference_reasoning):
	"""
	计算生成的推理过程与参考推理过程的相似度

	使用序列匹配算法（考虑顺序）
	返回相似度分数 (0.0 - 1.0)
	"""
	if not generated_reasoning or not reference_reasoning:
	return 0.0

	similarity = SequenceMatcher(None, generated_reasoning, reference_reasoning).ratio()

	return similarity

	def compute_rewards(self, completions, ground_truths):
	"""
	计算奖励

	Args:
	completions: List[str] 模型生成的完整文本
	ground_truths: List[dict] 对应的真值
	必须包含: 'answer_val': float
	可选包含: 'reasoning': str, 'reference_completion': str

	Returns:
	rewards: List[float]
	"""
	rewards = []

	for completion, gt in zip(completions, ground_truths):
	total_reward = 0.0
	match = self.format_pattern.search(completion)

	if match is None:
	rewards.append(-2.0)
	continue

	think_content = match.group(1).strip()
	answer_content = match.group(2).strip()
	total_reward += 0.6
	reasoning_quality = self.check_reasoning_quality(think_content)

	if reasoning_quality < 0.3:
	total_reward -= 0.5
	else:
	total_reward += reasoning_quality * 1.0

	if self.use_reference_comparison and 'reasoning' in gt:
	reference_reasoning = gt['reasoning']
	similarity = self.compute_reasoning_similarity(think_content, reference_reasoning)

	if similarity > 0.3:
	total_reward += similarity * 0.5

	#答案准确性检查---
	pred_val = self.parse_number(answer_content)
	gt_val = gt['answer_val']

	if pred_val is not None:
	if math.isclose(pred_val, gt_val, rel_tol=1e-4, abs_tol=1e-4):
	total_reward += 3.0
	else:
	try:
	relative_error = abs(pred_val - gt_val) / (abs(gt_val) + 1e-8)
	if relative_error < 0.1:
	total_reward -= 0.3
	elif relative_error < 0.5:
	total_reward -= 0.8
	else:
	total_reward -= 1.5
	except:
	total_reward -= 1.5
	else:
	total_reward -= 1.0

	reasoning_numbers = re.findall(r'[-+]?\d*\.\d+\|\d+', think_content)
	if reasoning_numbers and pred_val is not None:
	answer_in_reasoning = any(
	math.isclose(float(num), pred_val, rel_tol=1e-3, abs_tol=1e-3)
	for num in reasoning_numbers
	)
	if answer_in_reasoning:
	total_reward += 0.2

	rewards.append(total_reward)

	return rewards

	def compute_metrics(self, completions, ground_truths):
	metrics = {
	'format_correct': 0,
	'reasoning_quality_avg': 0.0,
	'answer_correct': 0,
	'answer_close': 0,
	'total': len(completions)
	}

	quality_scores = []

	for completion, gt in zip(completions, ground_truths):
	match = self.format_pattern.search(completion)

	if match:
	metrics['format_correct'] += 1

	think_content = match.group(1).strip()
	answer_content = match.group(2).strip()

	quality = self.check_reasoning_quality(think_content)
	quality_scores.append(quality)
	pred_val = self.parse_number(answer_content)
	gt_val = gt['answer_val']

	if pred_val is not None and gt_val is not None:
	if math.isclose(pred_val, gt_val, rel_tol=1e-4, abs_tol=1e-4):
	metrics['answer_correct'] += 1
	elif math.isclose(pred_val, gt_val, rel_tol=0.1, abs_tol=0.1):
	metrics['answer_close'] += 1

	if quality_scores:
	metrics['reasoning_quality_avg'] = sum(quality_scores) / len(quality_scores)

	metrics['format_correct_pct'] = metrics['format_correct'] / metrics['total'] * 100
	metrics['answer_correct_pct'] = metrics['answer_correct'] / metrics['total'] * 100
	metrics['answer_close_pct'] = metrics['answer_close'] / metrics['total'] * 100

	return metrics