Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

.summary/0/events.out.tfevents.1694498871.rhmmedcatt-ProLiant-ML350-Gen10 +3 -0
README.md +2 -3
checkpoint_p0/best_000024273_99422208_reward_36.850.pth +3 -0
checkpoint_p0/checkpoint_000024301_99536896.pth +3 -0
checkpoint_p0/checkpoint_000024416_100007936.pth +3 -0
git.diff +31 -20
replay.mp4 +2 -2
sf_log.txt +0 -0

.summary/0/events.out.tfevents.1694498871.rhmmedcatt-ProLiant-ML350-Gen10 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d951d05fff737e7165aa0beced33148be68378ad7271d16e3ea364ce5cd49e05
+size 1271462

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ model-index:
       type: doom_defend_the_line
     metrics:
     - type: mean_reward
-      value: 27.60 +/- 6.76
       name: mean_reward
       verified: false
 ---
@@ -53,5 +53,4 @@ python -m <path.to.train.module> --algo=APPO --env=doom_defend_the_line --train_
 ```
 Note, you may have to adjust `--train_for_env_steps` to a suitably high number as the experiment will resume at the number of steps it concluded at.
-This one was trained for about 44 million timesteps

       type: doom_defend_the_line
     metrics:
     - type: mean_reward
+      value: 36.30 +/- 4.86
       name: mean_reward
       verified: false
 ---
 ```
 Note, you may have to adjust `--train_for_env_steps` to a suitably high number as the experiment will resume at the number of steps it concluded at.

checkpoint_p0/best_000024273_99422208_reward_36.850.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27cadb19eeb42fad9468d9a4803335d8b87203f8d95210f3bf27ffd08218da58
+size 34928806

checkpoint_p0/checkpoint_000024301_99536896.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0c29c986ae13506728c69d872154d3bacda5de7e6116cab23f44a4ac42efea3
+size 34929220

checkpoint_p0/checkpoint_000024416_100007936.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5dae3f85a0f697a18698a5712bf7b5d8f7515b198433e6d3f99b49ce2a8e095b
+size 34929220

git.diff CHANGED Viewed

@@ -5,10 +5,10 @@ diff --git a/environments/ai_vs_ai/ml-agents b/environments/ai_vs_ai/ml-agents
 -Subproject commit 8bcedabd808ffb7097f88b800fc92dea82dfd610
 +Subproject commit 8bcedabd808ffb7097f88b800fc92dea82dfd610-dirty
 diff --git a/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/0.monitor.csv b/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/0.monitor.csv
-index fb7bd62..2f221a2 100644
 --- a/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/0.monitor.csv
 +++ b/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/0.monitor.csv
-@@ -18493,3 +18493,10394 @@ r,l,t
  19475.0,10454,121627.848456
  8600.0,4558,121633.704827
  14975.0,5637,121641.623816
@@ -10403,11 +10403,35 @@ index fb7bd62..2f221a2 100644
 +26150.0,12102,258610.838674
 +15625.0,6467,258619.378055
 +26275.0,11134,258633.935992
 diff --git a/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/best_model.zip b/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/best_model.zip
 index ade47c0..3e11ac4 100644
 Binary files a/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/best_model.zip and b/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/best_model.zip differ
 diff --git a/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/evaluations.npz b/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/evaluations.npz
-index c09117b..37b1199 100644
 Binary files a/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/evaluations.npz and b/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/evaluations.npz differ
 diff --git a/environments/sample_factory/doom_healthgathering.ipynb b/environments/sample_factory/doom_healthgathering.ipynb
 index a7be1b5..84985a6 100644
@@ -10432,7 +10456,7 @@ index a7be1b5..84985a6 100644
    "vscode": {
     "interpreter": {
 diff --git a/environments/sample_factory/train_dir/default_experiment/README.md b/environments/sample_factory/train_dir/default_experiment/README.md
-index 67b28b9..aa48b75 100644
 --- a/environments/sample_factory/train_dir/default_experiment/README.md
 +++ b/environments/sample_factory/train_dir/default_experiment/README.md
@@ -11,16 +11,16 @@ model-index:
@@ -10446,7 +10470,7 @@ index 67b28b9..aa48b75 100644
      metrics:
      - type: mean_reward
 -      value: 9.02 +/- 3.07
-+      value: 13.00 +/- 4.77
        name: mean_reward
        verified: false
  ---
@@ -10461,21 +10485,8 @@ index 67b28b9..aa48b75 100644
  After installing Sample-Factory, download the model with:
  ```
 -python -m sample_factory.huggingface.load_from_hub -r MattStammers/rl_course_vizdoom_health_gathering_supreme
-+python -m sample_factory.huggingface.load_from_hub -r MattStammers/vizdoom_deathmatch
  ```
-@@ -38,7 +38,7 @@ python -m sample_factory.huggingface.load_from_hub -r MattStammers/rl_course_viz
- To run the model after download, use the `enjoy` script corresponding to this environment:
- ```
--python -m <path.to.enjoy.module> --algo=APPO --env=doom_health_gathering_supreme --train_dir=./train_dir --experiment=rl_course_vizdoom_health_gathering_supreme
-+python -m <path.to.enjoy.module> --algo=APPO --env=doom_defend_the_line --train_dir=./train_dir --experiment=vizdoom_deathmatch
- ```
-@@ -49,7 +49,7 @@ See https://www.samplefactory.dev/10-huggingface/huggingface/ for more details
- To continue training with this model, use the `train` script corresponding to this environment:
- ```
--python -m <path.

 -Subproject commit 8bcedabd808ffb7097f88b800fc92dea82dfd610
 +Subproject commit 8bcedabd808ffb7097f88b800fc92dea82dfd610-dirty
 diff --git a/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/0.monitor.csv b/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/0.monitor.csv
+index fb7bd62..6833eb5 100644
 --- a/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/0.monitor.csv
 +++ b/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/0.monitor.csv
+@@ -18493,3 +18493,10418 @@ r,l,t
  19475.0,10454,121627.848456
  8600.0,4558,121633.704827
  14975.0,5637,121641.623816
 +26150.0,12102,258610.838674
 +15625.0,6467,258619.378055
 +26275.0,11134,258633.935992
++25825.0,10522,258647.880362
++7925.0,4234,258653.704263
++8525.0,4003,258661.50221
++11700.0,5208,258699.564736
++4200.0,2627,258702.930337
++22475.0,10162,258715.957236
++26300.0,11499,258729.884603
++15575.0,5822,258736.855771
++18650.0,8102,258746.582519
++22750.0,10352,258759.048396
++18950.0,8567,258769.403146
++14975.0,5233,258775.717932
++15400.0,6507,258783.638297
++22625.0,11382,258797.533949
++22825.0,11932,258811.996937
++22400.0,8667,258853.620059
++26400.0,11435,258867.438301
++23025.0,10587,258880.314926
++22700.0,10092,258892.511546
++25975.0,12459,258907.739298
++11450.0,4318,258913.037247
++8450.0,4712,258918.739674
++22575.0,10677,258932.165056
++22650.0,10417,258945.528833
 diff --git a/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/best_model.zip b/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/best_model.zip
 index ade47c0..3e11ac4 100644
 Binary files a/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/best_model.zip and b/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/best_model.zip differ
 diff --git a/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/evaluations.npz b/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/evaluations.npz
+index c09117b..e2541a5 100644
 Binary files a/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/evaluations.npz and b/environments/atari/model/qrdqn/QbertNoFrameskip-v4_6/evaluations.npz differ
 diff --git a/environments/sample_factory/doom_healthgathering.ipynb b/environments/sample_factory/doom_healthgathering.ipynb
 index a7be1b5..84985a6 100644
    "vscode": {
     "interpreter": {
 diff --git a/environments/sample_factory/train_dir/default_experiment/README.md b/environments/sample_factory/train_dir/default_experiment/README.md
+index 67b28b9..7036292 100644
 --- a/environments/sample_factory/train_dir/default_experiment/README.md
 +++ b/environments/sample_factory/train_dir/default_experiment/README.md
@@ -11,16 +11,16 @@ model-index:
      metrics:
      - type: mean_reward
 -      value: 9.02 +/- 3.07
++      value: 27.60 +/- 6.76
        name: mean_reward
        verified: false
  ---
  After installing Sample-Factory, download the model with:
  ```
 -python -m sample_factory.huggingface.load_from_hub -r MattStammers/rl_course_vizdoom_health_gathering_supreme
++python -m sample_factory.huggingface.load_from_hub -r MattStammers/vizdoom_defend_the_line
  ```
+@@ -38,7

replay.mp4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68010b7f87dcdf1aec4007f96a304802fb68ca960d69ca4774e48d5c2db016db
-size 8759394

 version https://git-lfs.github.com/spec/v1
+oid sha256:6de77ab1d23fa75989d5b94c21c32c7c8d708a737db4bbf8db7ff00339a8a95a
+size 9216487

sf_log.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff