ITFormer / EXP /exp_instruct.py

Add files using upload-large-folder tool

c8aad8f verified 13 days ago

20.6 kB

	#!/usr/bin/env python
	# -- coding:utf-8 _-
	import importlib
	import json
	from transformers import Trainer, TrainingArguments
	from transformers.trainer_utils import EvalPrediction
	from transformers.trainer_callback import TrainerCallback
	import os
	import torch
	from models.TimeLanguageModel import TLM, TLMConfig
	from dataset.dataset import DataCollator
	from typing import Dict, List, Any, NamedTuple, Optional, Tuple, Union
	from datasets import load_metric
	import numpy as np
	from utils.metrics import open_question_metrics,closed_question_metrics,compute_rul
	import warnings
	from tqdm import tqdm
	import pickle
	from torch import nn
	import pandas as pd
	import matplotlib.pyplot as plt
	warnings.filterwarnings("ignore")
	from accelerate import Accelerator
	accelerator = Accelerator()
	import torch.distributed as dist
	from datetime import datetime
	from contextlib import nullcontext

	def distributed_tqdm(iterable, desc=None):
	if not dist.is_initialized() or dist.get_rank() == 0:
	return tqdm(iterable, desc=desc)
	else:
	return iterable

	class OutputWrapper:
	def __init__(self, original_output):
	self.original_output = original_output

	def __getattr__(self, name):
	# 如果属性不存在于自身，则尝试从原始对象中获取
	return getattr(self.original_output, name)

	class EvalLoopOutput(NamedTuple):
	predictions: Union[np.ndarray, Tuple[np.ndarray]]
	label_ids: Optional[Union[np.ndarray, Tuple[np.ndarray]]]
	metrics: Optional[Dict[str, float]]
	num_samples: Optional[int]
	pred_extra: Optional[Dict[str, Any]] = None



	class Exp_Instruct(Trainer):
	def __init__(self, args, train_dataset, tlm_config=None, eval_dataset=None):
	# Build the model
	self.tlmconfig = tlm_config
	model = self._build_model(args)
	use_bf16 = bool(getattr(args, "bf16", False)) and torch.cuda.is_available() and torch.cuda.is_bf16_supported()
	use_fp16 = bool(args.fp16) and not use_bf16
	# Define training arguments
	training_args = TrainingArguments(
	output_dir=args.output_dir,
	per_device_train_batch_size=args.per_device_train_batch_size,
	gradient_accumulation_steps=args.gradient_accumulation_steps,
	dataloader_num_workers = args.dataloader_num_workers,
	lr_scheduler_type="cosine",
	warmup_ratio=0.1,
	per_device_eval_batch_size=args.per_device_eval_batch_size,
	learning_rate=args.learning_rate,
	weight_decay=args.weight_decay,
	logging_dir=args.output_dir,
	logging_steps=args.logging_steps,
	save_steps=args.save_steps,
	eval_strategy='no',
	eval_steps=args.eval_steps,
	save_total_limit=args.save_total_limit,
	ddp_find_unused_parameters=False,
	fp16=use_fp16,
	bf16=use_bf16,
	num_train_epochs=args.num_train_epochs,
	report_to=args.report_to, # Example: Integrate TensorBoard
	prediction_loss_only=False,
	max_grad_norm=float(getattr(args, "max_grad_norm", 0.1)),
	remove_unused_columns=False,
	disable_tqdm=False,
	dataloader_drop_last=True)

	super().__init__(
	model=model,
	args=training_args,
	train_dataset=train_dataset,
	data_collator=DataCollator(tokenizer=train_dataset.tokenizer),
	eval_dataset=eval_dataset,
	# compute_metrics=self._compute_metrics if eval_dataset else None,
	)
	self.compute_metrics = self.custom_compute_metrics if eval_dataset else None
	self.special_id = train_dataset.processor.all_special_ids
	self.processor = train_dataset.processor
	self.padding_idx = self.processor.pad_token_id
	# 常用标点符号列表
	common_punctuations = [".", ",", ":", ";", "!", "?", "(", ")", "[", "]", "{", "}", "-", "_", "\"", "'"]
	punctuation_ids = self.processor.convert_tokens_to_ids(common_punctuations)
	# 将标点符号 ID 合并到特殊标记 ID 列表中
	self.special_id.extend(punctuation_ids)
	self.tlmargs = args

	# 定义stage权重
	self.stage_weights = {
	1: 1.0, # 开放式问题 - 基础权重
	2: 1.0, # 封闭式问题 - 稍高权重
	3: 1.0, # 封闭式问题 - 中等权重
	4: 1.0 # 开放式问题 - 稍低权重
	}
	# 初始化损失函数，不使用ignore_index（我们将手动处理）
	self.base_loss_fn = nn.CrossEntropyLoss(reduction='none', ignore_index=self.padding_idx)
	# self.args.remove_unused_columns = True # 添加这一行
	def load_model(self, checkpoint_path):
	self.model = TLM.from_pretrained(checkpoint_path, config=self.tlmconfig, ts_config=self.tlmargs).cuda()

	def _build_model(self, args):
	"""Load the model dynamically based on the configuration."""
	# self.tlmconfig = TLMConfig(llm_model_path = args.llm_model_path)
	model = TLM(self.tlmconfig, ts_config=args).cuda()
	# monitor = GradientAndActivationMonitor(model,track_outputs=False,verbose=True)
	return model

	def concat_np_array(self, array_list,num_samples):
	"""
	对传入的列表进行 Concat 操作。

	Args:
	array_list (List[List[int]]): 每个子列表为需要 Padding 的序列。
	num_samples (int): 样本数量。
	Returns:
	np.ndarray: Padding 后的二维数组。
	"""
	# 获取最大长度
	max_length = max(arr.shape[-1] for arr in array_list)

	# 初始化 Padding 后的数组，填充为 padding_idx
	padded_array = np.full((num_samples, max_length), self.padding_idx, dtype=np.int32)

	# 填充每个序列
	for i, arr in enumerate(array_list):
	padded_array[:arr.shape[0], :arr.shape[1]] = arr
	concat_array = np.stack(padded_array, axis=0)
	return concat_array

	def debug_generate(self, input_ids, query_ids,ts_values, stage, attention_mask):
	# 生成阶段
	import time
	start_time = time.time()
	with torch.no_grad():
	output = self.model.generate(
	input_ids=input_ids,
	query_ids=query_ids,
	ts_values=ts_values,
	stage=stage,
	past_key_values=None,
	max_new_tokens=128,
	do_sample=False,
	eos_token_id=self.processor.eos_token_id,
	pad_token_id=self.processor.pad_token_id,
	attention_mask=attention_mask,
	use_cache=True,
	# 新增优化参数
	num_beams=1, # 贪婪搜索，最快
	temperature=1.0, # 避免额外计算
	top_p=None, # 关闭nucleus sampling
	top_k=None, # 关闭top-k sampling
	repetition_penalty=1.0, # 关闭重复惩罚
	length_penalty=1.0, # 关闭长度惩罚
	no_repeat_ngram_size=0, # 关闭n-gram重复检查
	output_scores=False, # 不输出分数
	output_attentions=False, # 不输出attention
	output_hidden_states=False, # 不输出隐藏状态
	return_dict_in_generate=False, # 简化返回格式
	)
	return output
	def generate(
	self,
	dataloader,
	description,
	prediction_loss_only=None,
	ignore_keys=None,
	metric_key_prefix="eval",
	):
	all_predictions = []
	all_labels = []
	all_losses = []
	all_index = []

	model = self._wrap_model(self.model, training=False)
	model.eval()
	sample_num = len(dataloader.dataset)
	# forms = []
	stages = []
	with torch.no_grad():
	for step, inputs in enumerate(distributed_tqdm(dataloader, desc=description)):
	# if step==50:
	# break

	input_ids = inputs['input_ids']
	ts_values = inputs['ts_values']
	stage = inputs['stage']
	index = inputs['index']
	query_ids = inputs['query_ids']
	attention_mask =inputs['attention_mask']
	generated_ids = self.debug_generate(input_ids,
	query_ids,ts_values, stage, attention_mask)

	prediction = generated_ids.cpu().numpy()
	all_predictions.extend(prediction)
	all_labels.extend(inputs["labels"].cpu().numpy())

	# forms.extend(inputs['form'])
	stages.extend(inputs['stage'].tolist())

	all_index.extend(inputs['index'].tolist())

	filtered_preds, filtered_labels = [], []
	str_predictions = self.processor.batch_decode(all_predictions,skip_special_tokens=True)
	str_labels = self.processor.batch_decode(all_labels,skip_special_tokens=True)
	#取出assistant\n后的内容
	str_predictions = [pred.split('assistant\n')[-1] for pred in str_predictions]
	output_data = {
	"predictions": str_predictions,
	"labels": str_labels,
	"stages": stages,
	"index": all_index,
	"num_samples": sample_num
	}

	if accelerator.is_main_process:
	with open('output_result_all.json', 'w', encoding='utf-8') as f:
	json.dump(output_data, f, indent=4, ensure_ascii=False)

	pred_extra = {'stages': stages}
	avg_loss = np.mean(all_losses) if all_losses else None
	return EvalLoopOutput(predictions=str_predictions, label_ids=str_labels,
	metrics=avg_loss, num_samples=sample_num,pred_extra=pred_extra)


	#写一个过滤str_predictions和str_labels的函数

	def evaluate(
	self,
	eval_dataset=None,
	ignore_keys=None,
	metric_key_prefix="eval",
	):
	eval_dataset = eval_dataset or self.eval_dataset
	eval_dataloader = self.get_eval_dataloader(eval_dataset)
	output = self.generate(
	eval_dataloader, 'eval'
	)

	metrics = self.custom_compute_metrics(output)

	if accelerator.is_main_process:
	# 打印到控制台
	print(metrics)
	# 生成时间戳
	timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
	filename = f'metrics_eval_{timestamp}.txt'
	# 同时写入文件

	with open(filename, 'w', encoding='utf-8') as f:
	print(metrics, file=f)


	def custom_compute_metrics(self,eval_pred: EvalLoopOutput) -> Dict[str, Any]:
	"""
	针对 stages 为 1 或 2 的样本，计算 BLEU 和 ROUGE 指标。
	Args:
	eval_pred (EvalPrediction): 包含 predictions 和 labels，以及附加信息 pred_extra。

	Returns:
	Dict[str, Any]: BLEU 和 ROUGE 指标结果字典。
	"""
	# 解析预测和标签
	labels = eval_pred.label_ids
	stages = eval_pred.pred_extra['stages']
	# 解析附加信息
	# 筛选 stages 为 1
	stage1_indices = [i for i, stage in enumerate(stages) if stage in [1]]
	if len(stage1_indices) >=1:
	# 提取对应的预测和标签
	stage1_labels = [labels[i] for i in stage1_indices]
	stage1_metrics = open_question_metrics([eval_pred.predictions[i] for i in stage1_indices],
	stage1_labels,self.special_id)

	#筛选出stage为2的样本
	stage2_indices = [i for i, stage in enumerate(stages) if stage in [2]]
	if len(stage2_indices) >=1:
	# 提取对应的预测和标签
	stage2_labels = [labels[i] for i in stage2_indices]
	stage2_predictions = [eval_pred.predictions[i] for i in stage2_indices]
	stage2_metrics = closed_question_metrics( stage2_predictions,
	stage2_labels,self.special_id)

	#筛选出stage为3的样本
	stage3_indices = [i for i, stage in enumerate(stages) if stage in [3]]
	if len(stage3_indices)>=1 :
	# 提取对应的预测和标签
	stage3_labels = [labels[i] for i in stage3_indices]
	stage3_predictions = [eval_pred.predictions[i] for i in stage3_indices]
	stage3_metrics = closed_question_metrics( stage3_predictions,
	stage3_labels,self.special_id)

	#筛选出stage为4的样本
	stage4_indices = [i for i, stage in enumerate(stages) if stage in [4]]
	if len(stage4_indices) >=1:
	# 提取对应的预测和标签
	stage4_labels = [labels[i] for i in stage4_indices]
	stage4_metrics = open_question_metrics([eval_pred.predictions[i] for i in stage4_indices],
	stage4_labels,self.special_id)

	#合并存在的指标
	metrics = {}
	if stage1_indices:
	metrics.update({f"stage1_{k}": v for k, v in stage1_metrics.items()})
	if stage2_indices:
	metrics.update({f"stage2_{k}": v for k, v in stage2_metrics.items()})
	if stage3_indices:
	metrics.update({f"stage3_{k}": v for k, v in stage3_metrics.items()})
	if stage4_indices:
	metrics.update({f"stage4_{k}": v for k, v in stage4_metrics.items()})


	return metrics

	def compute_stage_weighted_loss(self, logits, labels, stages, attention_mask=None):
	"""
	修正版本 - 不需要shift，因为Dataset已经处理了
	"""
	batch_size, seq_len, vocab_size = logits.shape

	# 🔧 不需要shift，直接使用
	flat_logits = logits.view(-1, vocab_size) # [batch_size * seq_len, vocab_size]
	flat_labels = labels.view(-1) # [batch_size * seq_len]

	# 计算基础损失（padding会被自动ignore）
	token_losses = self.base_loss_fn(flat_logits, flat_labels) # [batch_size * seq_len]
	token_losses = token_losses.view(batch_size, seq_len) # [batch_size, seq_len]

	# 创建有效token掩码
	valid_mask = (labels != self.padding_idx).float() # [batch_size, seq_len]

	# 应用stage权重
	stage_weights = torch.tensor([self.stage_weights.get(stage.item(), 1.0)
	for stage in stages],
	device=logits.device, dtype=torch.float32)

	# 计算每个样本的加权损失
	sample_losses = []
	for i in range(batch_size):
	valid_tokens = valid_mask[i].sum() # 有效token数量
	if valid_tokens > 0:
	# 🔧 只对有效token计算平均损失
	sample_loss = (token_losses[i] * valid_mask[i]).sum() / valid_tokens * stage_weights[i]
	else:
	sample_loss = torch.tensor(0.0, device=logits.device)
	sample_losses.append(sample_loss)

	return torch.stack(sample_losses).mean()

	def compute_loss(self, model, inputs, return_outputs=False, **kwargs):
	"""
	内存优化版本的损失计算
	"""
	if self.args.bf16:
	autocast_context = torch.autocast(device_type="cuda", dtype=torch.bfloat16)
	elif self.args.fp16:
	autocast_context = torch.autocast(device_type="cuda", dtype=torch.float16)
	else:
	autocast_context = nullcontext()

	with autocast_context:
	# 前向传播
	outputs = model(
	input_ids=inputs.get('input_ids'),
	query_ids=inputs.get('query_ids'),
	ts_values=inputs.get('ts_values'),
	stage=inputs.get('stage'),
	attention_mask=inputs.get('attention_mask'),
	labels=inputs.get('labels')
	)

	# 获取logits
	logits = outputs.logits if hasattr(outputs, 'logits') else outputs[0]

	# 计算损失
	loss = self.compute_stage_weighted_loss(
	logits=logits,
	labels=inputs.get('labels'),
	stages=inputs.get('stage'),
	attention_mask=inputs.get('attention_mask')
	)

	if not torch.isfinite(loss):
	labels = inputs.get('labels')
	valid_tokens = int((labels != self.padding_idx).sum().item()) if labels is not None else -1
	stage_values = inputs.get('stage').detach().cpu().tolist() if inputs.get('stage') is not None else []
	raise RuntimeError(
	f"Non-finite SFT loss detected: loss={loss.detach().item()}, "
	f"valid_label_tokens={valid_tokens}, stages={stage_values}"
	)

	if return_outputs:
	# 清理不必要的输出以节省内存
	if hasattr(outputs, 'past_key_values'):
	outputs.past_key_values = None
	if hasattr(outputs, 'hidden_states'):
	outputs.hidden_states = None
	if hasattr(outputs, 'attentions'):
	outputs.attentions = None

	wrapped_outputs = OutputWrapper(outputs)
	wrapped_outputs.loss = loss
	return loss, wrapped_outputs

	return loss

	def get_stage_loss_statistics(self, dataloader, num_samples=100):
	"""
	分析不同stage的损失分布，用于调整权重

	Args:
	dataloader: 数据加载器
	num_samples: 分析的样本数量

	Returns:
	Dict: 包含各stage损失统计信息的字典
	"""
	self.model.eval()
	stage_losses = {1: [], 2: [], 3: [], 4: []}

	with torch.no_grad():
	for i, inputs in enumerate(dataloader):
	if i >= num_samples:
	break

	# 移动到正确的设备
	for key in inputs:
	if isinstance(inputs[key], torch.Tensor):
	inputs[key] = inputs[key].to(self.model.device)

	# 前向传播
	outputs = self.model(**inputs)
	logits = outputs.logits if hasattr(outputs, 'logits') else outputs[0]

	# 计算每个样本的损失
	labels = inputs['labels']
	stages = inputs['stage']
	attention_mask = inputs.get('attention_mask')

	batch_size, seq_len, vocab_size = logits.shape
	flat_logits = logits.view(-1, vocab_size)
	flat_labels = labels.view(-1)

	token_losses = self.base_loss_fn(flat_logits, flat_labels)
	token_losses = token_losses.view(batch_size, seq_len)

	if attention_mask is not None:
	valid_mask = attention_mask.bool()
	else:
	valid_mask = (labels != self.padding_idx)

	masked_losses = token_losses * valid_mask.float()
	valid_token_counts = valid_mask.sum(dim=1).float()
	valid_token_counts = torch.clamp(valid_token_counts, min=1.0)
	sample_losses = masked_losses.sum(dim=1) / valid_token_counts

	# 按stage收集损失
	for j, stage in enumerate(stages):
	stage_val = stage.item()
	if stage_val in stage_losses:
	stage_losses[stage_val].append(sample_losses[j].item())

	# 计算统计信息
	statistics = {}
	for stage, losses in stage_losses.items():
	if losses:
	statistics[f'stage_{stage}'] = {
	'mean': np.mean(losses),
	'std': np.std(losses),
	'count': len(losses),
	'min': np.min(losses),
	'max': np.max(losses)
	}

	return statistics