chrisjcc
/

utdg-maskableppo-policy

@@ -1,35 +1,2 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text


































1	*.zip filter=lfs diff=lfs merge=lfs -text
2	+ *.onnx filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,48 +1,160 @@
 ---
-language: en
-license: mit
-library_name: stable-baselines3
 tags:
-- reinforcement-learning
-- stable-baselines3
-- gymnasium
-- maskable-ppo
-datasets:
-- custom-utdg-env
-metrics:
-- episode_reward
 ---
-# UTDG Maskable PPO Policy
-This model is trained on the UTDG (Untitled Tower Defense Game) environment using Stable-Baselines3 MaskablePPO.
-## Model Details
-- **Algorithm**: MaskablePPO (Proximal Policy Optimization with invalid action masking)
-- **Framework**: Stable-Baselines3
-- **Environment**: Custom UTDG Gymnasium environment
-- **Task**: Tower defense game AI agent
 ## Usage
 ```python
-from huggingface_hub import hf_hub_download
 from sb3_contrib import MaskablePPO
-# Download the model
-model_path = hf_hub_download(
-    repo_id="chrisjcc/utdg-maskableppo-policy",
-    filename="maskableppo_utdg_policy.zip"
-)
-# Load the model
-model = MaskablePPO.load(model_path)
-# Use for inference
-# obs, info = env.reset()
-# action, _states = model.predict(obs, action_masks=info["action_mask"])
-```
-## Training
-The model was trained using reinforcement learning on the UTDG environment.

 ---
 tags:
+  - reinforcement-learning
+  - stable-baselines3
+  - maskable-ppo
+  - utdg
+  - tower-defense
+metadata:
+  utc_timestamp: 2025-11-28T13:41:53.659311
+  env_name: UTDGEnv-v0
+  model_file: final_model.zip
+  total_timesteps: 0
+  task: reinforcement-learning
+  algorithm: MaskablePPO
+  game: Untitled Tower Defense Game
+  hydra_config: |
+    {
+      "runtime": {
+        "mode": "web",
+        "transport": {
+          "type": "websocket",
+          "role": "server",
+          "url": null,
+          "timeout": 60.0,
+          "reconnect_attempts": 3
+        },
+        "server": {
+          "enabled": true,
+          "host": "0.0.0.0",
+          "port": 8000,
+          "websocket_routes": {
+            "ui": "/ws",
+            "godot": "/godot"
+          }
+        },
+        "launcher": {
+          "enabled": true,
+          "http_port": 8080,
+          "headless": false,
+          "build_dir": "builds/web"
+        },
+        "godot_path": "builds/web",
+        "max_episode_steps": 5000,
+        "resume": false,
+        "checkpoint_path": "checkpoints/maskableppo_utdg_100000_steps.zip"
+      },
+      "server": {
+        "enabled": false,
+        "websocket_routes": {
+          "ui": "/ws",
+          "godot": "/godot"
+        }
+      },
+      "env": {
+        "observation_space": {
+          "include_enemy_health": true,
+          "include_tower_stats": true,
+          "grid_resolution": 32,
+          "normalize": true
+        },
+        "action_space": {
+          "type": "discrete",
+          "max_towers": 10
+        },
+        "episode": {
+          "max_episode_steps": 5000,
+          "truncate_on_life_lost": false,
+          "starting_gold": 150,
+          "base_health": 10
+        }
+      },
+      "agent": {
+        "type": "maskable_ppo",
+        "deterministic": true
+      },
+      "model": {
+        "policy": "MaskableActorCriticPolicy",
+        "learning_rate": 0.0003,
+        "gamma": 0.99,
+        "batch_size": 64,
+        "n_steps": 2048
+      },
+      "training": {
+        "total_timesteps": 100000,
+        "device": "auto",
+        "log_interval": 2048,
+        "progress_bar": true,
+        "verbose": 1
+      },
+      "checkpoint": {
+        "enabled": true,
+        "save_path": "checkpoints",
+        "save_freq": 10000,
+        "save_best_only": true,
+        "keep_last": 3,
+        "name_prefix": "model_policy",
+        "save_replay_buffer": false,
+        "save_vecnormalize": false
+      },
+      "callbacks": {
+        "wandb": {
+          "enabled": true,
+          "project": "utdg",
+          "entity": "rl4aa",
+          "run_name": null,
+          "tags": [],
+          "mode": "online",
+          "save_code": true,
+          "eval_enabled": false
+        },
+        "hf_upload": {
+          "enabled": true,
+          "repo_id": "chrisjcc/utdg-maskableppo-policy",
+          "private": true,
+          "repo_type": "model",
+          "token": null,
+          "metadata": {
+            "task": "reinforcement-learning",
+            "algorithm": "MaskablePPO",
+            "game": "Untitled Tower Defense Game"
+          },
+          "push_strategy": "final",
+          "local_model_path": "",
+          "upload_freq": 10000,
+          "commit_message": "Upload model checkpoint",
+          "lfs": {
+            "use_lfs": true,
+            "files": [
+              "*.zip",
+              "*.onnx"
+            ]
+          }
+        }
+      },
+      "experiment": {
+        "name": "utdg_experiment",
+        "seed": 42,
+        "log_dir": "logs"
+      },
+      "logging": {
+        "level": "INFO",
+        "format": "%(asctime)s - %(name)s - %(levelname)s - %(message)s"
+      }
+    }
 ---
+# UTDG MaskablePPO Agent
+This repository contains a trained agent for the Untitled Tower Defense Game.
+## Contents
+- `final_model.zip` — final SB3 checkpoint
+- Hydra configuration snapshot
+- Training metadata
 ## Usage
 ```python
 from sb3_contrib import MaskablePPO
+model = MaskablePPO.load("USERNAME/REPO_NAME", revision="production")

final_model.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27562bcd845fd3bef8088b55f540a647dddbf78d368608e4119361cff8a8005f
+size 646314