zhiqix
/

PUM

mathematical-reasoning

preference-model

prefix-evaluation

Model card Files Files and versions

PUM / model_args.json

zhiqix's picture

Upload folder using huggingface_hub

10c767b verified 1 day ago

history blame contribute delete

252 Bytes

	{
	"model_name_or_path": "Qwen/Qwen3-4B-Instruct-2507",
	"trust_remote_code": true,
	"dropout": 0.1,
	"train_mode": "lora_head",
	"lora_r": 64,
	"lora_alpha": 128,
	"lora_dropout": 0.1,
	"lora_target_modules": null,
	"value_head_type": "mlp"
	}