Upload CourtSim-LLM checkpoints

e8a7382 verified 5 months ago

8.52 kB

	# Copyright (c) OpenMMLab. All rights reserved.
	import torch
	from datasets import load_dataset
	from mmengine.dataset import DefaultSampler
	from mmengine.hooks import (CheckpointHook, DistSamplerSeedHook, IterTimerHook,
	LoggerHook, ParamSchedulerHook)
	from mmengine.optim import AmpOptimWrapper, CosineAnnealingLR, LinearLR
	from peft import LoraConfig
	from torch.optim import AdamW
	from transformers import (AutoModelForCausalLM, AutoTokenizer,
	BitsAndBytesConfig)

	from xtuner.dataset import process_hf_dataset
	from xtuner.dataset.collate_fns import default_collate_fn
	from xtuner.dataset.map_fns import alpaca_map_fn, template_map_fn_factory
	from xtuner.engine.hooks import (DatasetInfoHook, EvaluateChatHook,
	VarlenAttnArgsToMessageHubHook)
	from xtuner.engine.runner import TrainLoop
	from xtuner.model import SupervisedFinetune
	from xtuner.parallel.sequence import SequenceParallelSampler
	from xtuner.utils import PROMPT_TEMPLATE, SYSTEM_TEMPLATE


	def my_map_fn(example):
	return {
	'conversation': example['conversations']
	}
	#######################################################################
	# PART 1 Settings #
	#######################################################################
	# Model
	pretrained_model_name_or_path = './pretrained_models/internlm2-chat-7b'
	use_varlen_attn = False

	# Data
	data_path = './data/train_data/train_plaintiff_model.json'
	prompt_template = PROMPT_TEMPLATE.internlm2_chat
	max_length = 2048
	pack_to_max_length = True

	# parallel
	sequence_parallel_size = 1

	# Scheduler & Optimizer
	batch_size = 8 # per_device
	accumulative_counts = 16
	accumulative_counts *= sequence_parallel_size
	dataloader_num_workers = 0
	max_epochs = 10
	optim_type = AdamW
	lr = 2e-4
	betas = (0.9, 0.999)
	weight_decay = 0
	max_norm = 1 # grad clip
	warmup_ratio = 0.03

	# Save
	save_steps = 800
	save_total_limit = 2 # Maximum checkpoints to keep (-1 means unlimited)

	# Evaluate the generation performance during the training
	evaluation_freq = 50

	"""
	'Below is an instruction that describes a task. Write a response that appropriately completes the request.\n'
	"""
	SYSTEM = SYSTEM_TEMPLATE.alpaca

	evaluation_inputs = []
	# evaluation_inputs = [
	# "- 2013年2月27日: 原告与被告某公司签订《商品房购销合同》，约定原告购买某公司的房屋一套，总价款449900元，并于当日支付了全部购房款。\n- 2013年9月15日: 原告与被告某公司办理了房屋交接手续，原告接收房屋并开始居住使用。\n- 2014年4月15日: 因被告某人与被告某公司等人的民间借贷纠纷，法院裁定查封了包括涉案房屋在内的部分财产。\n- 2014年4月22日: 法院实施了对涉案房屋的查封。\n- 2016年2月17日: 法院作出执行裁定，决定拍卖包括涉案房屋在内的房地产。\n- 2018年9月19日: 原告作为案外人对执行标的提出书面异议，法院裁定驳回原告的异议请求。\n- 原告和被告因为“涉案房屋被查封并拟进行拍卖”一事发生争议最后诉至法院。\n接下来进入法庭调查陈述环节，请原被告方分别陈述事实、诉讼请求及理由。\n"
	# ]

	#######################################################################
	# PART 2 Model & Tokenizer #
	#######################################################################
	tokenizer = dict(
	type=AutoTokenizer.from_pretrained,
	pretrained_model_name_or_path=pretrained_model_name_or_path,
	trust_remote_code=True,
	padding_side='right')

	model = dict(
	type=SupervisedFinetune,
	use_varlen_attn=use_varlen_attn,
	llm=dict(
	type=AutoModelForCausalLM.from_pretrained,
	pretrained_model_name_or_path=pretrained_model_name_or_path,
	trust_remote_code=True,
	torch_dtype=torch.float16,
	quantization_config=dict(
	type=BitsAndBytesConfig,
	load_in_4bit=True,
	load_in_8bit=False,
	llm_int8_threshold=6.0,
	llm_int8_has_fp16_weight=False,
	bnb_4bit_compute_dtype=torch.float16,
	bnb_4bit_use_double_quant=True,
	bnb_4bit_quant_type='nf4')),
	lora=dict(
	type=LoraConfig,
	r=128,
	lora_alpha=256,
	lora_dropout=0.1,
	bias='none',
	task_type='CAUSAL_LM'))

	#######################################################################
	# PART 3 Dataset & Dataloader #
	#######################################################################

	court_data = dict(
	type=process_hf_dataset,
	dataset=dict(
	type=load_dataset,
	path='json',
	data_files=dict(train=data_path)),
	tokenizer=tokenizer,
	max_length=max_length,
	dataset_map_fn=my_map_fn,
	template_map_fn=dict(
	type=template_map_fn_factory, template=prompt_template),
	remove_unused_columns=True,
	shuffle_before_pack=True,
	pack_to_max_length=pack_to_max_length,
	use_varlen_attn=use_varlen_attn)

	sampler = SequenceParallelSampler \
	if sequence_parallel_size > 1 else DefaultSampler
	train_dataloader = dict(
	batch_size=batch_size,
	num_workers=dataloader_num_workers,
	dataset=court_data,
	sampler=dict(type=sampler, shuffle=True),
	collate_fn=dict(type=default_collate_fn, use_varlen_attn=use_varlen_attn))

	#######################################################################
	# PART 4 Scheduler & Optimizer #
	#######################################################################
	# optimizer
	optim_wrapper = dict(
	type=AmpOptimWrapper,
	optimizer=dict(
	type=optim_type, lr=lr, betas=betas, weight_decay=weight_decay),
	clip_grad=dict(max_norm=max_norm, error_if_nonfinite=False),
	accumulative_counts=accumulative_counts,
	loss_scale='dynamic',
	dtype='float16')

	# learning policy
	# More information: https://github.com/open-mmlab/mmengine/blob/main/docs/en/tutorials/param_scheduler.md # noqa: E501
	param_scheduler = [
	dict(
	type=LinearLR,
	start_factor=1e-5,
	by_epoch=True,
	begin=0,
	end=warmup_ratio * max_epochs,
	convert_to_iter_based=True),
	dict(
	type=CosineAnnealingLR,
	eta_min=0.0,
	by_epoch=True,
	begin=warmup_ratio * max_epochs,
	end=max_epochs,
	convert_to_iter_based=True)
	]

	# train, val, test setting
	train_cfg = dict(type=TrainLoop, max_epochs=max_epochs)

	#######################################################################
	# PART 5 Runtime #
	#######################################################################
	# Log the dialogue periodically during the training process, optional
	custom_hooks = [
	dict(type=DatasetInfoHook, tokenizer=tokenizer),
	dict(
	type=EvaluateChatHook,
	tokenizer=tokenizer,
	every_n_iters=evaluation_freq,
	evaluation_inputs=evaluation_inputs,
	system=SYSTEM,
	prompt_template=prompt_template)
	]

	if use_varlen_attn:
	custom_hooks += [dict(type=VarlenAttnArgsToMessageHubHook)]

	# configure default hooks
	default_hooks = dict(
	# record the time of every iteration.
	timer=dict(type=IterTimerHook),
	# print log every 10 iterations.
	logger=dict(type=LoggerHook, log_metric_by_epoch=False, interval=10),
	# enable the parameter scheduler.
	param_scheduler=dict(type=ParamSchedulerHook),
	# save checkpoint per `save_steps`.
	checkpoint=dict(
	type=CheckpointHook,
	by_epoch=False,
	interval=save_steps,
	max_keep_ckpts=save_total_limit),
	# set sampler seed in distributed evrionment.
	sampler_seed=dict(type=DistSamplerSeedHook),
	)

	# configure environment
	env_cfg = dict(
	# whether to enable cudnn benchmark
	cudnn_benchmark=False,
	# set multi process parameters
	mp_cfg=dict(mp_start_method='fork', opencv_num_threads=0),
	# set distributed parameters
	dist_cfg=dict(backend='nccl'),
	)

	# set visualizer
	visualizer = None

	# set log level
	log_level = 'INFO'

	# load from which checkpoint
	load_from = None

	# whether to resume training from the loaded checkpoint
	resume = False

	# Defaults to use random seed and disable `deterministic`
	randomness = dict(seed=None, deterministic=False)

	# set log processor
	log_processor = dict(by_epoch=False)