improved agent

Files changed (6) hide show

config.json CHANGED Viewed

@@ -6,7 +6,7 @@
     "activation_fn" : "nn.ReLU",
     "net_arch" : "dict(vf=[512, 256], pi=[256, 128])"
     },
-    "learning_rate" : 2.5e-4,
     "n_steps" : 256,
     "batch_size" : 1024,
     "n_epochs" : 4,

     "activation_fn" : "nn.ReLU",
     "net_arch" : "dict(vf=[512, 256], pi=[256, 128])"
     },
+    "learning_rate" : "linear_schedule(3e-4,1e-6)",
     "n_steps" : 256,
     "batch_size" : 1024,
     "n_epochs" : 4,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79b3e4e51bfe3236e98c6ab08e1d19809b6879d64c561e426e0c7b2db7902db3
 size 8978048

 version https://git-lfs.github.com/spec/v1
+oid sha256:6dabad1bd1cf1028acb2f714cb7f5abb7ac8cae118a7261340b19204af34ee6d
 size 8978048

model.zip CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a68839cbf79160dcbcc9a431f98060e5b1a96c43fa9f6ba250288c1f9ed115af
-size 27426366

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e242c0ca3b0fdc713582ed1489f9177bcee8b7da1820d40bfd78efb4134c144
+size 27429328

record.py CHANGED Viewed

@@ -23,7 +23,8 @@ if __name__ == "__main__":
     frames = []
     obs = env.reset()
-    for _ in range(1000):
         action, _ = agent.predict(obs)
         obs, _, done, _ = env.step(action)
         frame = env.render()

     frames = []
     obs = env.reset()
+    for _ in range(1500):
         action, _ = agent.predict(obs)
         obs, _, done, _ = env.step(action)
         frame = env.render()

replay.mp4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d492ac5e9dcd83531d247c79c8b51ea09f1472ebd943db2b93d5c6d10662da25
-size 295344

 version https://git-lfs.github.com/spec/v1
+oid sha256:150c0d07ea35a2d682a5f927e542d878cb7c200eaaf3645b94e78b82aa201e0f
+size 412218

results.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-    "mean_reward": 454.12,
-    "std_reward": 36.65,
     "episodes": 100,
     "is_deterministic": true
 }

 {
+    "mean_reward": 599.54,
+    "std_reward": 131.49809276183439,
     "episodes": 100,
     "is_deterministic": true
 }