GOVINDFROM
/

MindGamesColonelBlutto

Reinforcement Learning

graph-neural-networks

preference-learning

llm-distillation

Model card Files Files and versions

MindGamesColonelBlutto

Commit History

Update README.md

4217294
verified

GOVINDFROM commited on Dec 30, 2025

Upload model card

2136269
verified

GOVINDFROM commited on Dec 29, 2025

Upload eval_scripted_after_ppo.json

00011f2
verified

GOVINDFROM commited on Dec 29, 2025

Upload master_config.json

626f164
verified

GOVINDFROM commited on Dec 29, 2025

Upload DPO model

83fc425
verified

GOVINDFROM commited on Dec 29, 2025

Upload SFT model

cc64328
verified

GOVINDFROM commited on Dec 29, 2025

Upload policy_after_ppo.pt

c975a9b
verified

GOVINDFROM commited on Dec 29, 2025

Upload policy_after_distill.pt

5d16feb
verified

GOVINDFROM commited on Dec 29, 2025

Upload policy_final.pt

1e22a9d
verified

GOVINDFROM commited on Dec 29, 2025

initial commit

3378b09
verified

GOVINDFROM commited on Dec 28, 2025