andrewlngdn
/

dsl-debug-7b-rl-only-step30

Text Generation

reinforcement-learning

Model card Files Files and versions

dsl-debug-7b-rl-only-step30

15.2 GB

Ctrl+K

Ctrl+K

1 contributor

History: 4 commits

andrewlngdn's picture

Update model card: add blog link, GitHub link, related models

7351c81 verified about 2 months ago

.gitattributes

1.52 kB
initial commit 3 months ago
README.md

1.79 kB
Update model card: add blog link, GitHub link, related models about 2 months ago
config.json

1.32 kB
Upload rl_only_step30 (publishable run) 3 months ago
generation_config.json

121 Bytes
Upload rl_only_step30 (publishable run) 3 months ago
merges.txt

1.67 MB
Upload rl_only_step30 (publishable run) 3 months ago
model-00001-of-00004.safetensors

4.88 GB
xet

Upload rl_only_step30 (publishable run) 3 months ago
model-00002-of-00004.safetensors

4.93 GB
xet

Upload rl_only_step30 (publishable run) 3 months ago
model-00003-of-00004.safetensors

4.33 GB
xet

Upload rl_only_step30 (publishable run) 3 months ago
model-00004-of-00004.safetensors

1.09 GB
xet

Upload rl_only_step30 (publishable run) 3 months ago
model.safetensors.index.json

27.8 kB
Upload rl_only_step30 (publishable run) 3 months ago
tokenizer.json

7.03 MB
Upload rl_only_step30 (publishable run) 3 months ago
tokenizer_config.json

7.31 kB
Upload rl_only_step30 (publishable run) 3 months ago
vocab.json

2.78 MB
Upload rl_only_step30 (publishable run) 3 months ago