lyn22333
/

Policy-Qwen3-8B-R-Align-8B

Model card Files Files and versions

Policy-Qwen3-8B-R-Align-8B / README.md

lyn22333's picture

Create README.md

75ce43c verified about 1 month ago

|

history blame contribute delete

110 Bytes

	---
	language:
	- en
	base_model:
	- Qwen/Qwen3-8B
	---

	Downstream policy trained using GenRM-R-Align-14B via PPO.