{
    "dataset": {
        "repo_id": "hubnemo/so101_matchbox_reward",
        "root": null,
        "episodes": null,
        "image_transforms": {
            "enable": false,
            "max_num_transforms": 3,
            "random_order": false,
            "tfs": {
                "brightness": {
                    "weight": 1.0,
                    "type": "ColorJitter",
                    "kwargs": {
                        "brightness": [
                            0.8,
                            1.2
                        ]
                    }
                },
                "contrast": {
                    "weight": 1.0,
                    "type": "ColorJitter",
                    "kwargs": {
                        "contrast": [
                            0.8,
                            1.2
                        ]
                    }
                },
                "saturation": {
                    "weight": 1.0,
                    "type": "ColorJitter",
                    "kwargs": {
                        "saturation": [
                            0.5,
                            1.5
                        ]
                    }
                },
                "hue": {
                    "weight": 1.0,
                    "type": "ColorJitter",
                    "kwargs": {
                        "hue": [
                            -0.05,
                            0.05
                        ]
                    }
                },
                "sharpness": {
                    "weight": 1.0,
                    "type": "SharpnessJitter",
                    "kwargs": {
                        "sharpness": [
                            0.5,
                            1.5
                        ]
                    }
                }
            }
        },
        "revision": null,
        "use_imagenet_stats": true,
        "video_backend": "torchcodec"
    },
    "env": null,
    "policy": {
        "type": "reward_classifier",
        "n_obs_steps": 1,
        "normalization_mapping": {
            "VISUAL": "IDENTITY",
            "STATE": "MEAN_STD",
            "ACTION": "MEAN_STD"
        },
        "input_features": {
            "observation.state": {
                "type": "STATE",
                "shape": [
                    12
                ]
            },
            "observation.image.front": {
                "type": "VISUAL",
                "shape": [
                    480,
                    640,
                    3
                ]
            }
        },
        "output_features": {
            "action": {
                "type": "ACTION",
                "shape": [
                    6
                ]
            }
        },
        "device": "mps",
        "use_amp": false,
        "use_peft": false,
        "push_to_hub": true,
        "repo_id": "orellius/so101_matchbox_reward_model",
        "private": null,
        "tags": null,
        "license": null,
        "name": "reward_classifier",
        "num_classes": 2,
        "hidden_dim": 256,
        "latent_dim": 256,
        "image_embedding_pooling_dim": 8,
        "dropout_rate": 0.1,
        "model_name": "helper2424/resnet10",
        "model_type": "cnn",
        "num_cameras": 1,
        "learning_rate": 0.0001,
        "weight_decay": 0.01,
        "grad_clip_norm": 1.0
    },
    "output_dir": "outputs/train/2025-07-18/16-22-17_reward-classifier",
    "job_name": "reward-classifier",
    "resume": false,
    "seed": 2,
    "num_workers": 4,
    "batch_size": 16,
    "steps": 5000,
    "eval_freq": 1000,
    "log_freq": 10,
    "save_checkpoint": true,
    "save_freq": 1000,
    "use_validation": false,
    "val_split": 0.05,
    "val_freq": 10000,
    "val_batch_size": 16,
    "use_policy_training_preset": true,
    "optimizer": {
        "type": "adamw",
        "lr": 0.0001,
        "weight_decay": 0.01,
        "grad_clip_norm": 1.0,
        "betas": [
            0.9,
            0.999
        ],
        "eps": 1e-08
    },
    "scheduler": null,
    "eval": {
        "n_episodes": 50,
        "batch_size": 50,
        "use_async_envs": false
    },
    "wandb": {
        "enable": true,
        "disable_artifact": false,
        "project": "reward-classifier",
        "entity": null,
        "notes": null,
        "run_id": "gr20qb07",
        "mode": null
    },
    "use_peft": false,
    "peft": {
        "target_modules": null,
        "modules_to_save": null,
        "method_type": "LORA",
        "init_type": null,
        "r": 16
    }
}