luca0621
/

OTP-Qwen2.5-Math-7B

Text Classification

process-reward-model

Model card Files Files and versions

OTP-Qwen2.5-Math-7B / dphi_config.json

luca0621's picture

Upload folder using huggingface_hub

8ccc261 verified 17 days ago

History Blame Contribute Delete

209 Bytes

	{
	"backbone_arch": "Qwen/Qwen2.5-Math-7B-Instruct",
	"hidden_size": 3584,
	"objective": "bce",
	"use_rank": false,
	"margin": "m_t = head(h_t) = -logit(H_t); reward r_t = m_t - m_{t-1}",
	"step": 1000
	}