Amshaker
/

Qwen-RL

Model card Files Files and versions

340 GB

Ctrl+K

Ctrl+K

1 contributor

History: 19 commits

Amshaker's picture

Upload folder using huggingface_hub

d7dde68 verified 5 months ago

GRPO_1024_global_step_2680
Upload folder using huggingface_hub 5 months ago
GRPO_1024_global_step_6000
Upload folder using huggingface_hub 5 months ago
GRPO_2048_global_step_2800
Upload folder using huggingface_hub 5 months ago
GRPO_2048_global_step_700
Upload folder using huggingface_hub 5 months ago
Polaris-Reproduce-1.7B-1-node
Upload folder using huggingface_hub 5 months ago
SDPO-train32-alpha0.5-rollout8-lr1e-5-bigmath-Qwen-Qwen3-1.7B
Upload SDPO-train32-alpha0.5-rollout8-lr1e-5-bigmath-Qwen-Qwen3-1.7B/latest_checkpointed_iteration.txt with huggingface_hub 5 months ago
grpo_2048_thinking_step_6000
Upload folder using huggingface_hub 5 months ago
qwen3-1.7b-sft-lora
Upload folder using huggingface_hub 5 months ago
qwen3-1.7b-sft
Upload folder using huggingface_hub 5 months ago
.gitattributes

3.54 kB
Upload folder using huggingface_hub 5 months ago