Upload checkpoints/r42/run42_config.toml with huggingface_hub

Files changed (1) hide show

checkpoints/r42/run42_config.toml ADDED Viewed

+# R42: SimBa + Aux Phase Value + Zero PBRS
+# Builds on R41 base (categorical reward, 5 new obs, P0/P1 alternation)
+# Additions: SimBaAux architecture, phase-decomposed value, aux opp DW head, zero PBRS
+[ppo]
+lr = 2.5e-4
+num_envs = 4096
+num_steps = 128
+total_timesteps = 1_500_000_000
+num_minibatches = 4
+update_epochs = 4
+gamma = 1.0
+gae_lambda = 0.98
+clip_eps = 0.2
+ent_coef = 0.025
+vf_coef = 0.75
+max_grad_norm = 0.5
+anneal_lr = true
+[reward]
+step_dw_shaping = 0.0
+[training]
+opponent = "mixed"
+simba = true
+simba_aux = true
+suit_augmentation = false
+aux_coef = 0.1
+[opponents]
+heuristic_prob = 0.30
+aggressive_knock_prob = 0.15
+meld_builder_prob = 0.10
+early_knock_prob = 0.10
+defensive_prob = 0.10
+superhuman_lv4_prob = 0.05
+superhuman_lv5_prob = 0.10
+superhuman_lv7_prob = 0.05
+frozen_checkpoint_prob = 0.05
+[wandb]
+run_name = "R42-simba-aux-phase-value-zero-pbrs"
+entity = "good-start-labs"
+project = "gsl-gin-rummy-mdp"