jang1563
/

BioRLHF

Model card Files Files and versions

BioRLHF / scripts /run_grpo_full.sh

Commit History

Phase 3: Fix GRPO learning signal with continuous rewards and multi-reward

7dbf475

jang1563 Claude Opus 4.6 commited on Mar 21

Add BioGRPO training pipeline with composable biological verifiers

bff2f94

jang1563 Claude Opus 4.6 commited on Mar 20