lyn22333
/

Policy-Qwen3-8B-R-Align-8B

Create README.md

75ce43c verified 28 days ago

110 Bytes

language:
  - en
base_model:
  - Qwen/Qwen3-8B

Downstream policy trained using GenRM-R-Align-14B via PPO.