yashash045
/

devops-pipeline-gym-trained

Generated from Trainer

Model card Files Files and versions

Metrics Training metrics Community

devops-pipeline-gym-trained / final

116 MB

Ctrl+K

Ctrl+K

1 contributor

History: 2 commits

yashash045's picture

GRPO retry: 300 steps from SFT, num_gen=16, max_comp_len=512

42f8547 verified 3 months ago

ref
GRPO retry: 300 steps from SFT, num_gen=16, max_comp_len=512 3 months ago
README.md

5.22 kB
Phase M Stage 2: GRPO 200 steps adapter + training logs (logs/, grpo_log.csv, curriculum_progress.jsonl, reward_curve.png) 3 months ago
adapter_config.json

1.19 kB
GRPO retry: 300 steps from SFT, num_gen=16, max_comp_len=512 3 months ago
adapter_model.safetensors

34.9 MB
xet

GRPO retry: 300 steps from SFT, num_gen=16, max_comp_len=512 3 months ago
chat_template.jinja

4.67 kB
Phase M Stage 2: GRPO 200 steps adapter + training logs (logs/, grpo_log.csv, curriculum_progress.jsonl, reward_curve.png) 3 months ago
tokenizer.json

11.4 MB
xet

Phase M Stage 2: GRPO 200 steps adapter + training logs (logs/, grpo_log.csv, curriculum_progress.jsonl, reward_curve.png) 3 months ago
tokenizer_config.json

404 Bytes
Phase M Stage 2: GRPO 200 steps adapter + training logs (logs/, grpo_log.csv, curriculum_progress.jsonl, reward_curve.png) 3 months ago