Qwen2p5Coder_1p5B_SolRet / Qwen2p5Coder_1p5B_SolRet.md

Add files using upload-large-folder tool

a478227 verified about 1 year ago

19.3 kB


	# 处理方法
	- 把训练集SolRet_training的query和value做对比学习



	# 参考代码
	```python
	########################################################################### imports
	import os
	import json
	# os.environ['CUDA_VISIBLE_DEVICES'] = '0,1'
	import argparse
	import random
	import math
	from time import time
	import numpy as np
	import torch
	from torch.utils.data import DataLoader
	from torch.optim import AdamW
	from torch.optim.lr_scheduler import LambdaLR
	from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer
	from transformers.models.qwen2.modeling_qwen2 import Qwen2ForCausalLM as Qwen2ForCausalLMOrig
	from transformers.models.qwen2.modeling_qwen2 import QWEN2_INPUTS_DOCSTRING,_CONFIG_FOR_DOC
	from transformers.utils import add_start_docstrings_to_model_forward, replace_return_docstrings
	from typing import List, Optional, Tuple, Union
	from torch import nn
	from torch.nn import BCEWithLogitsLoss, CrossEntropyLoss, MSELoss
	from torch.nn import functional as F
	from transformers.modeling_outputs import CausalLMOutputWithPast

	from datasets import load_dataset
	import deepspeed
	from peft import LoraConfig, get_peft_model, PeftModel
	from functools import partial
	import pynvml

	class print_time:
	def __init__(self, *desc):
	self.desc = desc

	def __enter__(self):
	print(*self.desc)
	self.t = time()

	def __exit__(self, type, value, traceback):
	print(f'{time()-self.t:.02f}s')
	# 指定 gpu
	def set_gpus(gpu):
	torch.cuda.set_device(gpu)

	def set_seed(seed):
	os.environ['PYTHONHASHSEED'] = str(seed)
	random.seed(seed)
	np.random.seed(seed)
	torch.manual_seed(seed)
	if torch.cuda.is_available():
	torch.cuda.manual_seed(seed)
	torch.cuda.manual_seed_all(seed)

	def set_cuda(deterministic=True):
	if torch.cuda.is_available():
	# 卷积算法确定
	torch.backends.cudnn.deterministic = deterministic
	# 设置 torch.backends.cudnn.benchmark=True 将会让程序在开始时花费一点额外时间，为整个网络的每个卷积层搜索最适合它的卷积实现算法，进而实现网络的加速。适用场景是网络结构固定（不是动态变化的），网络的输入形状（包括 batch size，图片大小，输入的通道）是不变的，其实也就是一般情况下都比较适用。反之，如果卷积层的设置一直变化，将会导致程序不停地做优化，反而会耗费更多的时间。
	torch.backends.cudnn.benchmark = not deterministic

	class Qwen2ForCausalLM(Qwen2ForCausalLMOrig):

	def __init__(self, config):
	super().__init__(config)
	retrieve_size=256
	self.retrieve_proj = nn.Linear(config.hidden_size, retrieve_size, bias=False)

	@add_start_docstrings_to_model_forward(QWEN2_INPUTS_DOCSTRING)
	@replace_return_docstrings(output_type=CausalLMOutputWithPast, config_class=_CONFIG_FOR_DOC)
	def forward(
	self,
	input_ids: torch.LongTensor = None,
	attention_mask: Optional[torch.Tensor] = None,
	position_ids: Optional[torch.LongTensor] = None,
	past_key_values: Optional[List[torch.FloatTensor]] = None,
	inputs_embeds: Optional[torch.FloatTensor] = None,
	labels: Optional[torch.LongTensor] = None,
	use_cache: Optional[bool] = None,
	output_attentions: Optional[bool] = None,
	output_hidden_states: Optional[bool] = None,
	return_dict: Optional[bool] = None,
	cache_position: Optional[torch.LongTensor] = None,
	) -> Union[Tuple, CausalLMOutputWithPast]:
	r"""
	Args:
	labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, optional):
	Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
	config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
	(masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.

	Returns:

	Example:

	```python
	>>> from transformers import AutoTokenizer, Qwen2ForCausalLM

	>>> model = Qwen2ForCausalLM.from_pretrained(PATH_TO_CONVERTED_WEIGHTS)
	>>> tokenizer = AutoTokenizer.from_pretrained(PATH_TO_CONVERTED_TOKENIZER)

	>>> prompt = "Hey, are you conscious? Can you talk to me?"
	>>> inputs = tokenizer(prompt, return_tensors="pt")

	>>> # Generate
	>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
	>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
	"Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."
	```"""

	output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
	output_hidden_states = (
	output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
	)
	return_dict = return_dict if return_dict is not None else self.config.use_return_dict

	# decoder outputs consists of (dec_features, layer_state, dec_hidden, dec_attn)

	#################################################################################################################
	loss_fct = CrossEntropyLoss()
	# query_feats
	# value_feats
	with torch.no_grad():
	outputs = self.model(
	input_ids=input_ids,
	attention_mask=attention_mask,
	position_ids=position_ids,
	past_key_values=past_key_values,
	inputs_embeds=inputs_embeds,
	use_cache=use_cache,
	output_attentions=output_attentions,
	output_hidden_states=output_hidden_states,
	return_dict=return_dict,
	cache_position=cache_position,
	)
	hidden_states = outputs[0]
	input_feats = F.normalize(
	self.retrieve_proj(hidden_states[:, -1, :]), dim=-1
	)
	# 计算第一维度的一半
	half_size = input_feats.shape[0] // 2

	# 取出前一半
	query_feats = input_feats[:half_size, :]

	# 取出后一半
	value_feats = input_feats[half_size:, :]

	sim_t2q = torch.matmul(
	query_feats, value_feats.permute(1,0)
	)
	sim_q2t = torch.matmul(
	value_feats, query_feats.permute(1,0)
	)
	#n*n

	targets = torch.linspace(0, query_feats.size(0) - 1, query_feats.size(0), dtype=int).to(
	query_feats.device
	)
	loss_itc = loss_fct(sim_t2q, targets) + loss_fct(sim_q2t, targets)
	# print(f'loss_itc\n{loss_itc}\n\nsim_t2q\n{sim_t2q}\n\nsim_q2t\n{sim_q2t}')

	return CausalLMOutputWithPast(
	loss=loss_itc,
	logits=None,
	past_key_values=outputs.past_key_values,
	hidden_states=outputs.hidden_states,
	attentions=outputs.attentions,
	)

	# 送入模型前先tokenize
	def tokenize_batch(batch,tokenizer):
	# 前面半截是query，后面半截是value
	batch_list=[]
	batch_list.extend(batch['query'])
	batch_list.extend(batch['value'])

	batch_tokenize=tokenizer(batch_list,return_tensors='pt',padding='longest',return_token_type_ids=False)

	# 手动添加eos token
	batch_size=batch_tokenize['input_ids'].shape[0]
	eos_tokens = torch.full((batch_size, 1), tokenizer.eos_token_id, dtype=batch_tokenize['input_ids'].dtype)

	# 拼接EOS token到input_ids的末尾
	batch_tokenize['input_ids'] = torch.cat([batch_tokenize['input_ids'], eos_tokens], dim=-1)

	# 对于attention_mask，我们也需要添加1来表明新添加的EOS token是有效的
	attention_masks_eos = torch.ones((batch_size, 1), dtype=batch_tokenize['attention_mask'].dtype)
	batch_tokenize['attention_mask'] = torch.cat([batch_tokenize['attention_mask'], attention_masks_eos], dim=-1)

	return batch_tokenize

	# 保存模型，参数
	def save_model_tokenizer_config_params(args,model_engine,tokenizer,training_params_save,epoch,step=None):
	if step is not None:
	dir_name=os.path.join(args.save_dir,f'epoch_{epoch}',f'step_{step}')
	else:
	dir_name=os.path.join(args.save_dir,f'epoch_{epoch}')
	model_engine.save_16bit_model(dir_name)
	tokenizer.save_pretrained(dir_name)
	model_engine.model.config.save_pretrained(dir_name)
	# 保存训练参数
	with open(os.path.join(dir_name,'training_params_save.json'), 'w') as f:
	json.dump(training_params_save, f, indent=4)

	# 加载数据，并且选择刚好合适的大小
	def load_training_dataset(args, file_folder_path):
	print('loading dataset \n')
	# 给定的路径是目录，从文件夹中加载parquet文件
	if os.path.isdir(file_folder_path):
	parquet_files=[]
	for filepath,dirnames,filenames in os.walk(file_folder_path):
	for filename in filenames:
	if filename.endswith('parquet'):
	fullname = os.path.join(filepath, filename)
	parquet_files.append(fullname)
	ds = load_dataset("parquet", data_files=parquet_files)['train']

	# 给定的路径是文件名，从文件中加载parquet文件
	elif os.path.isfile(file_folder_path):
	ds = load_dataset("parquet", data_files=file_folder_path)['train']

	# shuffle数据集
	ds = ds.shuffle(seed=args.seed)
	return ds

	# 初始化模型
	def initialize_model_tokenizer(args):
	tokenizer = AutoTokenizer.from_pretrained(args.model)
	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token
	tokenizer.padding_side='left'
	tokenizer.add_bos_token=False
	tokenizer.add_eos_token=False

	print('initializing model \n')

	config = AutoConfig.from_pretrained(args.model)
	if args.gradient_checkpointing:
	config.gradient_checkpointing = True
	config.use_cache = False

	model = Qwen2ForCausalLM.from_pretrained(args.model, config=config)

	# if hasattr(model, "enable_input_require_grads"):
	# model.enable_input_require_grads()
	# else:
	# def make_inputs_require_grad(module, input, output):
	# output.requires_grad_(True)

	# model.get_input_embeddings().register_forward_hook(make_inputs_require_grad)

	model.train()

	def find_all_linear_names(model):
	cls = torch.nn.Linear
	lora_module_names = set()
	for name, module in model.named_modules():
	if isinstance(module, cls):
	names = name.split('.')
	lora_module_names.add(names[0] if len(names) == 1 else names[-1])

	if 'lm_head' in lora_module_names: # needed for 16-bit
	lora_module_names.remove('lm_head')
	return list(lora_module_names)

	###############################################LoRA
	if LoRA:
	loraconfig = LoraConfig(
	r=128,
	lora_alpha=256,
	target_modules=find_all_linear_names(model),
	lora_dropout=0.05,
	bias="none",
	task_type="CAUSAL_LM",
	)
	model = get_peft_model(model, loraconfig)
	# model=PeftModel.from_pretrained(model, args.save_dir)

	# TODO(enijkamp): we need to set this flag twice?
	#forget all activations during forward and recompute during the backward.
	if args.gradient_checkpointing:
	model.gradient_checkpointing_enable()

	return model,tokenizer

	def deepspeed_train(args,ds,model,tokenizer):
	set_seed(args.seed)
	set_cuda(deterministic=deterministic)

	print('initializing deepspeed \n')

	model_parameters = list(filter(lambda p: p.requires_grad, model.parameters()))

	optimizer=AdamW(model_parameters, lr=lr, betas=(0.9, 0.999),eps=1e-8,weight_decay=0.05)

	def _get_cosine_schedule_with_warmup_lr_lambda(current_step: int, *, num_warmup_steps: int, num_training_steps: int, num_cycles: float):
	if current_step < num_warmup_steps:
	return float(current_step) / float(max(1, num_warmup_steps))
	progress = float(current_step - num_warmup_steps) / float(max(1, num_training_steps - num_warmup_steps))
	return max(0.0, 0.5 * (1.0 + math.cos(math.pi * float(num_cycles) * 2.0 * progress)))

	lr_lambda = partial(
	_get_cosine_schedule_with_warmup_lr_lambda,
	num_warmup_steps=100,
	num_training_steps=num_epochs*steps,
	num_cycles=0.5,
	)
	scheduler=LambdaLR(optimizer, lr_lambda)

	model_engine, optimizer, dataloader, lr_scheduler = deepspeed.initialize(config=args.deepspeed_config, model=model, model_parameters=model_parameters,training_data=ds,optimizer=optimizer, lr_scheduler=scheduler,)

	torch.cuda.empty_cache()

	print('starting training \n')
	training_params_save={
	'epoch':[],
	'step':[],
	'loss':[],
	'lr':[],
	'cost_time':[],
	'total_cost_time':[],
	'percent':[],
	}
	total_start_time=time()
	for epoch in range(1,num_epochs+1):

	for step, batch in enumerate(dataloader, start=1):
	batch=tokenize_batch(batch,tokenizer)
	start_time=time()
	batch.to(model_engine.device)
	loss = model_engine(input_ids=batch['input_ids'],attention_mask=batch['attention_mask']).loss
	model_engine.backward(loss)
	model_engine.step()

	if step % steps_per_print == 0:
	# 打印训练相关信息
	percent=stepargs.deepspeed_config['train_micro_batch_size_per_gpu']num_gpus/len(ds)
	cost_time=time()-start_time
	total_cost_time=time()-total_start_time
	print(f'epoch {epoch} step {step} {percent:.2%} loss:{loss:8.3f} time:{cost_time:.2f} total time:{total_cost_time:.2f}\n')

	meminfo = pynvml.nvmlDeviceGetMemoryInfo(handle)
	print(f'GPU State --- Free:{meminfo.free/10242} Used:{meminfo.used/10242} Total:{meminfo.total/1024**2}\n') #总的显存大小（float）

	utilization = pynvml.nvmlDeviceGetUtilizationRates(handle)
	print(f'GPU Util --- {utilization.gpu}%\n') # gpu利用率

	# 保存训练相关参数
	training_params_save['epoch'].append(epoch)
	training_params_save['step'].append(step)
	training_params_save['loss'].append(float(loss))
	training_params_save['lr'].append(optimizer.param_groups[0]['lr'])
	training_params_save['cost_time'].append(round(cost_time,4))
	training_params_save['total_cost_time'].append(round(total_cost_time,4))
	training_params_save['percent'].append(round(percent,4))


	# 每隔steps_per_save step保存一次
	if save_flag and step%steps_per_save==0:
	save_model_tokenizer_config_params(args,model_engine,tokenizer,training_params_save,epoch,step)

	# 每个epoch保存一次
	if save_flag:
	save_model_tokenizer_config_params(args,model_engine,tokenizer,training_params_save,epoch)

	if __name__ == '__main__':

	args=argparse.Namespace()

	args.seed = 0
	model_name='Qwen2p5Coder_1p5B'
	args.model = f'/home/chenzy/models/{model_name}'
	args.training_dataset = '/home/chenzy/sysu_datasets/SolRet_training'
	args.save_dir=f'/home/chenzy/models/save/{model_name}_SolRet'

	ds=load_training_dataset(args, args.training_dataset)

	lr=1e-4
	train_micro_batch_size_per_gpu=128
	gradient_accumulation_steps=1
	num_gpus=4
	dataset_len=len(ds)
	steps=dataset_len//(num_gpus*train_micro_batch_size_per_gpu)
	# steps=5
	select_dataset_num=stepsnum_gpustrain_micro_batch_size_per_gpu

	ds=ds.select(range(select_dataset_num))

	num_epochs=3
	steps_per_print=25
	steps_per_save=steps//4
	args.gradient_checkpointing=True
	save_flag=True
	deterministic=True
	LoRA=False
	pynvml.nvmlInit()
	handle = pynvml.nvmlDeviceGetHandleByIndex(0) # 指定显卡号

	model,tokenizer=initialize_model_tokenizer(args)

	DEEPSPEED_CONFIG = \
	{
	# 'fp16': {'enabled': True, 'loss_scale': 0, 'loss_scale_window': 1000, 'initial_scale_power': 12, 'hysteresis': 2, 'min_loss_scale': 1},
	# 'bf16': {'enabled':True},
	'fp16': {'enabled':True},
	# 'optimizer': {'type': 'AdamW', 'params': {'lr': 1e-05, 'betas': [0.9, 0.95], 'eps': 1e-08, 'weight_decay': 0.0}},
	# 'scheduler': {'type': 'WarmupLR', 'params': {'warmup_min_lr': 0, 'warmup_max_lr': 1e-05, 'warmup_num_steps': 100}},
	#stage 1: optimizer states
	#stage 2: gradients
	#stage 3: model parameters
	# 'zero_optimization': {
	# 'stage': 2,
	# #pin_memory improve the throughput
	# #device: or none
	# # 'offload_optimizer': {'device': 'cpu', 'pin_memory': True},
	# # 'offload _param': {'device': 'cpu', 'pin_memory': True},
	# #trade off GPU Ram and latency
	# 'overlap_comm': True,
	# # reduce memory fragmentation
	# 'contiguous_gradients': True,
	# # default =1e9, when not using NVMe
	# # 'sub_group_size': 1e9,
	# # 'reduce_bucket_size': 16777216,
	# # 'stage3_prefetch_bucket_size': 15099494.4,
	# # 'stage3_param_persistence_threshold': 40960,
	# # 'gather_16bit_weights_on_model_save': True,
	# },

	'zero_optimization': {'stage': 0},

	# This is the amount of data samples that leads to one step of model update.train_batch_size must be equal to train_micro_batch_size_per_gpu * gradient_accumulation * number of GPUs
	#'train_batch_size': train_batch_size,

	# Batch size to be processed by one GPU in one step (without gradient accumulation).
	'train_micro_batch_size_per_gpu': train_micro_batch_size_per_gpu,

	# Number of training steps to accumulate gradients before averaging and applying them.
	'gradient_accumulation_steps': gradient_accumulation_steps,
	'gradient_clipping': 1.0,

	# Print progress report every N training steps. The report includes the number of training steps, number of skipped optimizer updates
	'steps_per_print': steps_per_print*5,
	'wall_clock_breakdown': False,
	'compression_training': {'weight_quantization': {'shared_parameters': {}, 'different_groups': {}}, 'activation_quantization': {'shared_parameters': {}, 'different_groups': {}}, 'sparse_pruning': {'shared_parameters': {}, 'different_groups': {}}, 'row_pruning': {'shared_parameters': {}, 'different_groups': {}}, 'head_pruning': {'shared_parameters': {}, 'different_groups': {}}, 'channel_pruning': {'shared_parameters': {}, 'different_groups': {}}}
	}
	args.deepspeed_config = DEEPSPEED_CONFIG

	deepspeed_train(args=args,ds=ds,model=model,tokenizer=tokenizer)
	```