nvan13
/

Scalable_monarch_adapter

Model card Files Files and versions

Scalable_monarch_adapter / config /sama_cms_fb.yaml

nvan13's picture

Upload folder using huggingface_hub

ecadbd9 verified 4 months ago

history blame contribute delete

1.34 kB


	model:
	model_name: facebook/opt-125m #facebook/opt-125m #meta-llama/Llama-2-7b-hf #"openai-community/gpt2" #EleutherAI/pythia-160m #Qwen/Qwen2.5-0.5B
	# model_name: facebook/opt-125m
	# adapter_path: "./run_all/exnr15/ft2"
	# adapter_path: './run_all/run_exps9/ft2'
	# adapter_path: "./exp395/run_ex07/ft2"
	# data_collator_mode: 'dynamic'
	model_max_seq_length: 512

	sama_adapter:
	col_L: 12 #24
	row_R: 16 #32
	# target_modules: ["q_proj", "v_proj", "k_proj", "o_proj", "gate_proj","up_proj","down_proj"]
	target_modules: ["q_proj", "v_proj",]
	num_unique_blocks_L: 4
	num_unique_blocks_R: 3

	data:
	dataset_name: 'CMS'
	split_ratio: 256
	# path: "./data/gsm8k_test.jsonl"
	# path: ./data/MetaMathQA-40K/MetaMathQA-40K.json
	path: ft_training_set/commonsense_15k.json
	dataset_split: train
	# dataset_field: [question, answer]
	# dataset_field: [query, response]

	trainer_args:
	learning_rate: 5e-4
	warmup_steps: 100
	eval_strategy: steps
	per_device_train_batch_size: 4
	per_device_eval_batch_size: 32
	# gradient_accumulation_steps: 1
	# save_steps: 1000
	gradient_checkpointing: False # (Turn off for faster training)
	output_dir: "./exps"
	# save_path: "runs"

	report_to: none
	logging_steps: 10
	eval_steps: 20
	#dataloader_num_workers: 4

	num_train_epochs: 3.0
	max_steps: -1

	# device: 'cuda'