_wandb:
    value:
        cli_version: 0.24.2
        e:
            pxth32swik88a7oyr9u8qwmlfzkbrv44:
                args:
                    - --critic_model=value_kc_critic
                    - --use_wandb
                    - --wandb_project_name=task1_all_kc
                    - --kc_to_que_path=data/XES3G5M/metadata/kc_questions_map.json
                    - --kc_emb_path=data/XES3G5M_embeddings/kc_emb.json
                    - --cluster_to_kc_path=data/XES3G5M/metadata/kc_clusters.json
                    - --cluster_to_que_path=data/XES3G5M/metadata/cluster_to_que_ids_map.json
                    - --pretrained_model_path=data/pretrained_kt_model.ckpt
                    - --dataloader_num_workers=8
                    - --seed=2
                cpu_count: 252
                cpu_count_logical: 252
                cudaVersion: "12.8"
                disk:
                    /:
                        total: "1247017926656"
                        used: "1016719900672"
                email: maxonorris@gmail.com
                executable: /mnt/pvc/Baselines/ExRec/.venv_task1/bin/python
                gpu: NVIDIA A100-SXM4-40GB
                gpu_count: 1
                gpu_nvidia:
                    - architecture: Ampere
                      cudaCores: 6912
                      memoryTotal: "42949672960"
                      name: NVIDIA A100-SXM4-40GB
                      uuid: GPU-f1a4021e-f23e-b122-cea9-c1f45d48e2c0
                host: alphamcts-run-models-ppo-default-rkq45-8g8ll
                memory:
                    total: "962415210496"
                os: Linux-6.8.0-55-generic-x86_64-with-glibc2.31
                program: -m train_test.all_kc_train_ppo
                python: CPython 3.10.13
                root: /mnt/pvc/Baselines/ExRec
                startedAt: "2026-02-10T16:16:12.977346Z"
                writerId: pxth32swik88a7oyr9u8qwmlfzkbrv44
        m: []
        python_version: 3.10.13
        t:
            "1":
                - 1
                - 5
                - 53
            "2":
                - 1
                - 5
                - 53
            "3":
                - 2
                - 13
                - 15
                - 16
            "4": 3.10.13
            "5": 0.24.2
            "12": 0.24.2
            "13": linux-x86_64
action_size:
    value: 768
actor_lr:
    value: 5e-05
actor_up_projection_size:
    value: 1200
advantage_normalization:
    value: false
batch_size:
    value: 512
checkpoint_path:
    value: ./ppo_saved_models/ab6dc5e4-15f4-4d4c-80ce-7a3122cdd6e1
cluster_to_kc_path:
    value: data/XES3G5M/metadata/kc_clusters.json
cluster_to_que_path:
    value: data/XES3G5M/metadata/cluster_to_que_ids_map.json
critic_hidden_size:
    value: 300
critic_model:
    value: value_kc_critic
critic_up_projection_size:
    value: 1200
dataloader_num_workers:
    value: 8
deterministic_eval:
    value: false
discount_factor:
    value: 0.99
dual_clip:
    value: null
ent_coef:
    value: 0.01
eps_clip:
    value: 0.2
gae_lambda:
    value: 0.95
hidden_size:
    value: 300
kc_emb_path:
    value: data/XES3G5M_embeddings/kc_emb.json
kc_emb_size:
    value: 768
kc_to_que_path:
    value: data/XES3G5M/metadata/kc_questions_map.json
log_dir:
    value: ./train_ppo_logs
log_path:
    value: ./train_ppo_logs/ab6dc5e4-15f4-4d4c-80ce-7a3122cdd6e1
max_batchsize:
    value: 512
max_grad_norm:
    value: null
n_epoch:
    value: 100
pretrained_model_path:
    value: data/pretrained_kt_model.ckpt
recompute_advantage:
    value: false
repeat_per_update:
    value: 1
reward_normalization:
    value: false
save_dir:
    value: ./ppo_saved_models
seed:
    value: 2
student_state_size:
    value: 300
test_batch_size:
    value: 2048
test_init_seq_size:
    value: 100
test_last_n_steps:
    value: 10
test_log_wandb:
    value: false
test_max_steps:
    value: 10
test_n_episode:
    value: 2048
test_reward_func:
    value: step_by_step
test_reward_scale:
    value: 1000
train_batch_size:
    value: 512
train_folds:
    value: 2-3-4
train_init_seq_size:
    value: 100
train_last_n_steps:
    value: 10
train_max_steps:
    value: 10
train_max_steps_until_student_change:
    value: 10
train_n_episode:
    value: 512
train_replay_buffer_size:
    value: 12
train_reward_func:
    value: step_by_step
train_reward_scale:
    value: 1000
use_wandb:
    value: true
value_clip:
    value: false
vf_coef:
    value: 0.5
wandb_project_name:
    value: task1_all_kc
wandb_run_name:
    value: ppo