summarize_from_feedback_details / min_repro.py

Upload folder using huggingface_hub

af1dcbd verified over 1 year ago

7.59 kB

	import torch
	import transformers
	import torch.nn.functional as F
	import accelerate
	from accelerate.state import AcceleratorState
	from datasets import load_dataset
	import datasets
	import argparse
	import deepspeed

	def prepare_deepspeed2(args, ref_policy):
	deepspeed_states = AcceleratorState().deepspeed_plugin
	deepspeed_states.deepspeed_config["train_micro_batch_size_per_gpu"] = args.batch_size

	eval_ds_config = {
	"train_micro_batch_size_per_gpu": deepspeed_states.deepspeed_config["train_micro_batch_size_per_gpu"],
	"bf16": {"enabled": True},
	"prescale_gradients": False,
	"wall_clock_breakdown": False,
	}
	ref_policy, *_ = deepspeed.initialize(model=ref_policy, config=eval_ds_config)
	ref_policy.eval()
	print("🔥 deepspeed2 is initialized")
	return ref_policy


	def prepare_deepspeed3(args, model, accelerator):
	# Adapted from accelerate: https://github.com/huggingface/accelerate/blob/739b135f8367becb67ffaada12fe76e3aa60fefd/src/accelerate/accelerator.py#L1473
	# deepspeed_states = AcceleratorState().deepspeed_plugin
	# deepspeed_states.deepspeed_config["train_micro_batch_size_per_gpu"] = args.batch_size
	deepspeed_plugin = accelerator.state.deepspeed_plugin
	config_kwargs = deepspeed_plugin.deepspeed_config
	if model is not None:
	if hasattr(model, "config"):
	hidden_size = (
	max(model.config.hidden_sizes)
	if getattr(model.config, "hidden_sizes", None)
	else getattr(model.config, "hidden_size", None)
	)
	if hidden_size is not None and config_kwargs["zero_optimization"]["stage"] == 3:
	# Note that `stage3_prefetch_bucket_size` can produce DeepSpeed messages like: `Invalidate trace cache @ step 0: expected module 1, but got module 0`
	# This is expected and is not an error, see: https://github.com/microsoft/DeepSpeed/discussions/4081
	config_kwargs.update(
	{
	"zero_optimization.reduce_bucket_size": hidden_size * hidden_size,
	"zero_optimization.stage3_param_persistence_threshold": 10 * hidden_size,
	"zero_optimization.stage3_prefetch_bucket_size": 0,
	}
	)
	model, *_ = deepspeed.initialize(model=model, config=config_kwargs)
	model.eval()
	print("🔥 deepspeed3 is initialized")
	return model


	parser = argparse.ArgumentParser()
	parser.add_argument("--deepspeed2", action="store_true")
	parser.add_argument("--deepspeed3", action="store_true")
	parser.add_argument("--batch_size", type=int, default=64)
	parser.add_argument("--micro_batch_size", type=int, default=1)
	args = parser.parse_args()


	dataset = load_dataset("vwxyzjn/summarize_from_feedback_tldr_3_filtered_oai_preprocessing_1706381144", split="train")
	dataset = dataset.with_format("torch", columns=["query_token", "reference_response_token"])
	dummy_dataloader = torch.utils.data.DataLoader(dataset, batch_size=args.batch_size, shuffle=True)

	accelerator = accelerate.Accelerator()
	tokenizer = transformers.AutoTokenizer.from_pretrained("EleutherAI/pythia-160m", padding_side="right")
	tokenizer.add_special_tokens({"pad_token": "[PAD]"})
	accelerator.print("=================")
	policy = transformers.AutoModelForCausalLM.from_pretrained("EleutherAI/pythia-160m")
	policy.generation_config.eos_token_id = None # disable `pad_token_id` and `eos_token_id` because we just want to
	policy.generation_config.pad_token_id = None # generate tokens without truncation / padding
	ref_policy = transformers.AutoModelForCausalLM.from_pretrained("EleutherAI/pythia-160m")
	for model in [policy, ref_policy]:
	for module in model.modules():
	if isinstance(module, torch.nn.Dropout):
	module.p = 0

	dummy_optimizer = torch.optim.Adam(policy.parameters(), lr=0.01)
	policy, dummy_dataloader, dummy_optimizer = accelerator.prepare(policy, dummy_dataloader, dummy_optimizer)
	accelerator.print({
	"transformers": transformers.__version__,
	"accelerate": accelerate.__version__,
	"deepspeed": deepspeed.__version__,
	"datasets": datasets.__version__,
	})
	if args.deepspeed2:
	ref_policy = prepare_deepspeed2(args, ref_policy)
	elif args.deepspeed3:
	ref_policy = prepare_deepspeed3(args, ref_policy, accelerator)
	else:
	ref_policy = ref_policy.to(accelerator.device)



	for data in dummy_dataloader:
	query = data["query_token"]
	break

	temperature = 0.7
	context_length = query.shape[1]
	def forward(model, query_responses, tokenizer):
	attention_mask = query_responses != tokenizer.pad_token_id
	position_ids = attention_mask.cumsum(1) - attention_mask.long()
	input_ids = torch.masked_fill(query_responses, ~attention_mask, 0)
	return model(
	input_ids=input_ids,
	attention_mask=attention_mask,
	position_ids=position_ids,
	return_dict=True,
	output_hidden_states=True,
	)

	def generate(lm_backbone, queries, tokenizer, generation_config):
	"""generate in a way that does not affect padding tokens"""
	context_length = queries.shape[1]
	attention_mask = queries != tokenizer.pad_token_id
	input_ids = torch.masked_fill(queries, ~attention_mask, 0)
	output = lm_backbone.generate(
	input_ids=input_ids,
	attention_mask=attention_mask,
	# position_ids=attention_mask.cumsum(1) - attention_mask.long(), # already handled in generation
	generation_config=generation_config,
	return_dict_in_generate=True,
	output_logits=True
	)
	logits = torch.stack(output.logits, 1)
	return torch.cat((queries, output.sequences[:, context_length:]), dim=1), logits


	def generate(lm_backbone, queries, tokenizer, generation_config):
	"""generate in a way that does not affect padding tokens"""
	context_length = queries.shape[1]
	attention_mask = queries != tokenizer.pad_token_id
	input_ids = torch.masked_fill(queries, ~attention_mask, 0)
	output = lm_backbone.generate(
	input_ids=input_ids,
	attention_mask=attention_mask,
	# position_ids=attention_mask.cumsum(1) - attention_mask.long(), # already handled in generation
	generation_config=generation_config,
	return_dict_in_generate=True,
	output_scores=True
	)
	logits = torch.stack(output.scores, 1)
	return torch.cat((queries, output.sequences[:, context_length:]), dim=1), logits

	generation_config = transformers.GenerationConfig(
	max_new_tokens=50,
	min_new_tokens=50,
	temperature=temperature,
	top_k=0.0,
	top_p=1.0,
	do_sample=True,
	)
	# rollout
	with torch.no_grad():
	query_response, logits = generate(accelerator.unwrap_model(policy), query, tokenizer, generation_config)
	response = query_response[:, context_length:]
	# logits /= temperature + 1e-7
	all_logprob = F.log_softmax(logits, dim=-1)
	logprob = torch.gather(all_logprob, 2, response.unsqueeze(-1)).squeeze(-1)
	# accelerator.print(f"{response=}")
	# accelerator.print(f"{logprob=}")

	ref_output = forward(ref_policy, query_response, tokenizer)
	ref_logits = ref_output.logits[:, context_length - 1 : -1]
	ref_logits /= temperature + 1e-7
	ref_all_logprob = F.log_softmax(ref_logits, dim=-1)
	ref_logprob = torch.gather(ref_all_logprob, 2, response.unsqueeze(-1)).squeeze(-1)
	# accelerator.print(f"{ref_logprob=}")
	accelerator.print(f"{(ref_logprob-logprob).exp().mean()=}")
	torch.testing.assert_close(ref_logprob, logprob, rtol=1e-2, atol=1e-2) # a very generous tolerance