Renjie-Ranger
/

Base-GRPO_Qwen2.5-7B

Model card Files Files and versions

No model card

Downloads last month: 6

Safetensors

Model size

8B params

Tensor type

BF16

·

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Collection including Renjie-Ranger/Base-GRPO_Qwen2.5-7B

Feedback_Conditional_Policy

Collections for the paper "Language Models Can Learn from Verbal Feedback Without Scalar Rewards" (https://arxiv.org/pdf/2509.22638) • 7 items • Updated 7 days ago • 1