Upload folder using huggingface_hub

cd75f6e verified 7 months ago

8.95 kB

	# ==========================
	# train.py
	# ==========================
	# Usage:
	# python train.py --data_path all.jsonl --spm_model spm.model
	# Requirements:
	# pip install torch sentencepiece tqdm

	import os
	import json
	import sentencepiece as spm
	from argparse import ArgumentParser
	from tqdm import tqdm

	import torch
	from torch import nn
	from torch.utils.data import Dataset, DataLoader

	# --------------------------
	# Simple Decoder-only Transformer (GPT-like)
	# --------------------------

	class GPTConfig:
	def __init__(self, vocab_size, n_layer=12, n_head=12, n_embd=768, block_size=1024, dropout=0.1):
	self.vocab_size = vocab_size
	self.n_layer = n_layer
	self.n_head = n_head
	self.n_embd = n_embd
	self.block_size = block_size
	self.dropout = dropout


	class CausalSelfAttention(nn.Module):
	def __init__(self, config):
	super().__init__()
	assert config.n_embd % config.n_head == 0
	self.c_attn = nn.Linear(config.n_embd, 3 * config.n_embd)
	self.c_proj = nn.Linear(config.n_embd, config.n_embd)
	self.n_head = config.n_head
	self.dropout = nn.Dropout(config.dropout)

	def forward(self, x, attn_mask=None):
	B, T, C = x.size()
	qkv = self.c_attn(x) # (B, T, 3*C)
	q, k, v = qkv.split(C, dim=2)
	# reshape for multi-head
	q = q.view(B, T, self.n_head, C // self.n_head).transpose(1,2) # (B, nh, T, hs)
	k = k.view(B, T, self.n_head, C // self.n_head).transpose(1,2)
	v = v.view(B, T, self.n_head, C // self.n_head).transpose(1,2)

	att = (q @ k.transpose(-2, -1)) / (C // self.n_head) ** 0.5 # (B, nh, T, T)
	# causal mask
	mask = torch.tril(torch.ones(T, T, device=x.device)).view(1, 1, T, T)
	att = att.masked_fill(mask == 0, float('-inf'))
	att = torch.softmax(att, dim=-1)
	att = self.dropout(att)

	y = att @ v # (B, nh, T, hs)
	y = y.transpose(1,2).contiguous().view(B, T, C)
	y = self.c_proj(y)
	y = self.dropout(y)
	return y


	class Block(nn.Module):
	def __init__(self, config):
	super().__init__()
	self.ln1 = nn.LayerNorm(config.n_embd)
	self.attn = CausalSelfAttention(config)
	self.ln2 = nn.LayerNorm(config.n_embd)
	self.mlp = nn.Sequential(
	nn.Linear(config.n_embd, 4 * config.n_embd),
	nn.GELU(),
	nn.Linear(4 * config.n_embd, config.n_embd),
	nn.Dropout(config.dropout),
	)

	def forward(self, x):
	x = x + self.attn(self.ln1(x))
	x = x + self.mlp(self.ln2(x))
	return x


	class GPT(nn.Module):
	def __init__(self, config):
	super().__init__()
	self.tok_emb = nn.Embedding(config.vocab_size, config.n_embd)
	self.pos_emb = nn.Parameter(torch.zeros(1, config.block_size, config.n_embd))
	self.drop = nn.Dropout(config.dropout)
	self.blocks = nn.ModuleList([Block(config) for _ in range(config.n_layer)])
	self.ln_f = nn.LayerNorm(config.n_embd)
	self.head = nn.Linear(config.n_embd, config.vocab_size, bias=False)
	self.block_size = config.block_size

	# initialize
	self.apply(self._init_weights)

	def _init_weights(self, module):
	if isinstance(module, nn.Linear):
	nn.init.normal_(module.weight, mean=0.0, std=0.02)
	if module.bias is not None:
	nn.init.zeros_(module.bias)
	elif isinstance(module, nn.Embedding):
	nn.init.normal_(module.weight, mean=0.0, std=0.02)

	def forward(self, idx, targets=None):
	B, T = idx.size()
	assert T <= self.block_size
	token_embeddings = self.tok_emb(idx) # (B, T, C)
	x = token_embeddings + self.pos_emb[:, :T, :]
	x = self.drop(x)
	for block in self.blocks:
	x = block(x)
	x = self.ln_f(x)
	logits = self.head(x)

	loss = None
	if targets is not None:
	# shift logits and targets for next-token prediction
	logits = logits[:, :-1, :].contiguous()
	targets = targets[:, 1:].contiguous()
	loss = nn.functional.cross_entropy(logits.view(-1, logits.size(-1)), targets.view(-1))
	return logits, loss


	# --------------------------
	# Dataset and helpers
	# --------------------------

	class QADataset(Dataset):
	def __init__(self, path, sp_model, block_size=1024):
	self.examples = []
	self.block_size = block_size
	self.sp = sp_model
	with open(path, 'r', encoding='utf-8') as f:
	for line in f:
	obj = json.loads(line)
	q = obj.get('question','')
	a = obj.get('answer','')
	# format: <bos> question <sep> answer <eos>
	text = "<s>" + q + "<sep>" + a + "</s>"
	ids = self.sp.EncodeAsIds(text)
	if len(ids) > 2:
	# truncate or pad later
	self.examples.append(ids)

	def __len__(self):
	return len(self.examples)

	def __getitem__(self, idx):
	ids = self.examples[idx]
	# pad/truncate to block_size
	if len(ids) > self.block_size:
	ids = ids[:self.block_size]
	else:
	ids = ids + [0] * (self.block_size - len(ids))
	return torch.tensor(ids, dtype=torch.long)


	def collate_fn(batch):
	batch = torch.stack(batch, dim=0)
	return batch, batch # inputs and targets are same sequence for causal LM


	# --------------------------
	# Main training loop
	# --------------------------


	def train(args):
	# prepare sentencepiece model (if not exists, train it)
	if not os.path.exists(args.spm_model):
	print('Training SentencePiece model...')
	# create a temporary file with concatenated text
	tmp_txt = 'spm_input.txt'
	with open(args.data_path, 'r', encoding='utf-8') as fin, open(tmp_txt, 'w', encoding='utf-8') as fout:
	for line in fin:
	obj = json.loads(line)
	text = obj.get('question','') + '\n' + obj.get('answer','') + '\n'
	fout.write(text)
	spm.SentencePieceTrainer.Train(f'--input={tmp_txt} --model_prefix=spm --vocab_size={args.vocab_size} --model_type=bpe --character_coverage=0.9995')
	os.remove(tmp_txt)
	sp = spm.SentencePieceProcessor()
	sp.Load('spm.model')
	else:
	sp = spm.SentencePieceProcessor()
	sp.Load(args.spm_model)

	dataset = QADataset(args.data_path, sp, block_size=args.block_size)
	print(f"Loaded {len(dataset)} examples")
	dataloader = DataLoader(dataset, batch_size=args.batch_size, shuffle=True, collate_fn=lambda x: collate_fn(x))

	config = GPTConfig(vocab_size=args.vocab_size, n_layer=args.n_layer, n_head=args.n_head, n_embd=args.n_embd, block_size=args.block_size, dropout=args.dropout)
	model = GPT(config).to(args.device)

	# print parameter count
	param_count = sum(p.numel() for p in model.parameters())
	print(f"Model parameters: {param_count:,} ({param_count/1e9:.3f} B)")

	optimizer = torch.optim.AdamW(model.parameters(), lr=args.lr)

	model.train()
	for epoch in range(args.epochs):
	pbar = tqdm(dataloader, desc=f"Epoch {epoch+1}/{args.epochs}")
	for batch_inputs, batch_targets in pbar:
	batch_inputs = batch_inputs.to(args.device)
	batch_targets = batch_targets.to(args.device)
	logits, loss = model(batch_inputs, targets=batch_targets)
	optimizer.zero_grad()
	loss.backward()
	torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
	optimizer.step()
	pbar.set_postfix(loss=loss.item())

	# save checkpoint each epoch
	os.makedirs(args.out_dir, exist_ok=True)
	torch.save({'model_state': model.state_dict(), 'sp_model': args.spm_model, 'config': vars(config)}, os.path.join(args.out_dir, f'checkpoint_final.pt'))


	if __name__ == '__main__':
	parser = ArgumentParser()
	parser.add_argument('--data_path', type=str, default='all.jsonl')
	parser.add_argument('--spm_model', type=str, default='spm.model')
	parser.add_argument('--vocab_size', type=int, default=32000)
	parser.add_argument('--block_size', type=int, default=1024)
	parser.add_argument('--n_layer', type=int, default=3)
	parser.add_argument('--n_head', type=int, default=3)
	parser.add_argument('--n_embd', type=int, default=768)
	parser.add_argument('--batch_size', type=int, default=30)
	parser.add_argument('--epochs', type=int, default=300)
	parser.add_argument('--lr', type=float, default=3e-4)
	parser.add_argument('--dropout', type=float, default=0.1)
	parser.add_argument('--device', type=str, default='cuda' if torch.cuda.is_available() else 'cpu')
	parser.add_argument('--out_dir', type=str, default='checkpoints')
	args = parser.parse_args()
	train(args)