Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

.summary/0/events.out.tfevents.1688734393.qgallouedec-MS-7C84 +3 -0
README.md +1 -1
checkpoint_p0/best_000027640_14151680_reward_3579.182.pth +3 -0
checkpoint_p0/checkpoint_000040920_20951040.pth +3 -0
checkpoint_p0/checkpoint_000041120_21053440.pth +3 -0
config.json +30 -32
git.diff +94 -0
replay.mp4 +2 -2
sf_log.txt +0 -0

.summary/0/events.out.tfevents.1688734393.qgallouedec-MS-7C84 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0b898d838d0a199bdd913bf2154e8b21ca5352eb3ad3435190d6af5f94fa653
+size 1857931

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ model-index:
       type: assembly-v2
     metrics:
     - type: mean_reward
-      value: 1399.65 +/- 454.30
       name: mean_reward
       verified: false
 ---

       type: assembly-v2
     metrics:
     - type: mean_reward
+      value: 3573.76 +/- 25.55
       name: mean_reward
       verified: false
 ---

checkpoint_p0/best_000027640_14151680_reward_3579.182.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a20e0e28635ec1b4b5d4d088604336b27e5b1e19b76bc97aa73f6b5b0f5563c7
+size 98239

checkpoint_p0/checkpoint_000040920_20951040.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84c41fdb482a72ae49440291297a26598aadcedd9aae920d1377b8dd8564b917
+size 98567

checkpoint_p0/checkpoint_000041120_21053440.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d52d5bfa040564246c7bf2ef7e97bab5903feba7a8ca604acca87734666dd0de
+size 98567

config.json CHANGED Viewed

@@ -3,37 +3,37 @@
   "algo": "APPO",
   "env": "assembly-v2",
   "experiment": "assembly-v2",
-  "train_dir": "/home/qgallouedec/gia/data/envs/metaworld/train_dir",
-  "restart_behavior": "resume",
-  "device": "gpu",
   "seed": null,
   "num_policies": 1,
-  "async_rl": true,
   "serial_mode": false,
   "batched_sampling": false,
   "num_batches_to_accumulate": 2,
   "worker_num_splits": 2,
   "policy_workers_per_policy": 1,
   "max_policy_lag": 1000,
-  "num_workers": 32,
-  "num_envs_per_worker": 2,
   "batch_size": 1024,
-  "num_batches_per_epoch": 1,
-  "num_epochs": 1,
-  "rollout": 32,
-  "recurrence": 32,
   "shuffle_minibatches": false,
   "gamma": 0.99,
-  "reward_scale": 0.01,
   "reward_clip": 1000.0,
-  "value_bootstrap": false,
   "normalize_returns": true,
-  "exploration_loss_coeff": 0.003,
-  "value_loss_coeff": 0.5,
-  "kl_loss_coeff": 0.0,
   "exploration_loss": "entropy",
   "gae_lambda": 0.95,
-  "ppo_clip_ratio": 0.1,
   "ppo_clip_value": 1.0,
   "with_vtrace": false,
   "vtrace_rho": 1.0,
@@ -42,9 +42,9 @@
   "adam_eps": 1e-06,
   "adam_beta1": 0.9,
   "adam_beta2": 0.999,
-  "max_grad_norm": 4.0,
-  "learning_rate": 0.0001,
-  "lr_schedule": "constant",
   "lr_schedule_kl_threshold": 0.008,
   "lr_adaptive_min": 1e-06,
   "lr_adaptive_max": 0.01,
@@ -59,7 +59,7 @@
   "force_envs_single_thread": false,
   "default_niceness": 0,
   "log_to_file": true,
-  "experiment_summaries_interval": 10,
   "flush_summaries_interval": 30,
   "stats_avg": 100,
   "summaries_use_frameskip": true,
@@ -67,7 +67,7 @@
   "heartbeat_reporting_interval": 180,
   "train_for_env_steps": 100000000,
   "train_for_seconds": 10000000000,
-  "save_every_sec": 120,
   "keep_checkpoints": 2,
   "load_checkpoint_kind": "latest",
   "save_milestones_sec": -1,
@@ -76,23 +76,23 @@
   "save_best_after": 100000,
   "benchmark": false,
   "encoder_mlp_layers": [
-    512,
-    512
   ],
   "encoder_conv_architecture": "convnet_simple",
   "encoder_conv_mlp_layers": [
     512
   ],
-  "use_rnn": true,
   "rnn_size": 512,
   "rnn_type": "gru",
   "rnn_num_layers": 1,
   "decoder_mlp_layers": [],
-  "nonlinearity": "elu",
-  "policy_initialization": "orthogonal",
   "policy_init_gain": 1.0,
   "actor_critic_share_weights": true,
-  "adaptive_stddev": true,
   "continuous_tanh_scale": 0.0,
   "initial_stddev": 1.0,
   "use_env_info_cache": false,
@@ -120,17 +120,15 @@
   "pbt_target_objective": "true_objective",
   "pbt_perturb_min": 1.1,
   "pbt_perturb_max": 1.5,
-  "command_line": "--env assembly-v2 --experiment assembly-v2 --with_wandb True --wandb_user qgallouedec --wandb_project sample_facotry_metaworld --train_for_env_steps 100000000 --reward_scale 0.01",
   "cli_args": {
     "env": "assembly-v2",
     "experiment": "assembly-v2",
-    "reward_scale": 0.01,
-    "train_for_env_steps": 100000000,
     "with_wandb": true,
     "wandb_user": "qgallouedec",
     "wandb_project": "sample_facotry_metaworld"
   },
-  "git_hash": "7b1b73793fe4678a4aabf1f5d02745737a790d27",
   "git_repo_name": "https://github.com/huggingface/gia",
-  "wandb_unique_id": "assembly-v2_20230306_142706_299273"
 }

   "algo": "APPO",
   "env": "assembly-v2",
   "experiment": "assembly-v2",
+  "train_dir": "/home/qgallouedec/data/gia/train_dir",
+  "restart_behavior": "restart",
+  "device": "cpu",
   "seed": null,
   "num_policies": 1,
+  "async_rl": false,
   "serial_mode": false,
   "batched_sampling": false,
   "num_batches_to_accumulate": 2,
   "worker_num_splits": 2,
   "policy_workers_per_policy": 1,
   "max_policy_lag": 1000,
+  "num_workers": 8,
+  "num_envs_per_worker": 8,
   "batch_size": 1024,
+  "num_batches_per_epoch": 4,
+  "num_epochs": 2,
+  "rollout": 64,
+  "recurrence": 1,
   "shuffle_minibatches": false,
   "gamma": 0.99,
+  "reward_scale": 0.1,
   "reward_clip": 1000.0,
+  "value_bootstrap": true,
   "normalize_returns": true,
+  "exploration_loss_coeff": 0.0,
+  "value_loss_coeff": 1.3,
+  "kl_loss_coeff": 0.1,
   "exploration_loss": "entropy",
   "gae_lambda": 0.95,
+  "ppo_clip_ratio": 0.2,
   "ppo_clip_value": 1.0,
   "with_vtrace": false,
   "vtrace_rho": 1.0,
   "adam_eps": 1e-06,
   "adam_beta1": 0.9,
   "adam_beta2": 0.999,
+  "max_grad_norm": 3.5,
+  "learning_rate": 0.00295,
+  "lr_schedule": "linear_decay",
   "lr_schedule_kl_threshold": 0.008,
   "lr_adaptive_min": 1e-06,
   "lr_adaptive_max": 0.01,
   "force_envs_single_thread": false,
   "default_niceness": 0,
   "log_to_file": true,
+  "experiment_summaries_interval": 3,
   "flush_summaries_interval": 30,
   "stats_avg": 100,
   "summaries_use_frameskip": true,
   "heartbeat_reporting_interval": 180,
   "train_for_env_steps": 100000000,
   "train_for_seconds": 10000000000,
+  "save_every_sec": 15,
   "keep_checkpoints": 2,
   "load_checkpoint_kind": "latest",
   "save_milestones_sec": -1,
   "save_best_after": 100000,
   "benchmark": false,
   "encoder_mlp_layers": [
+    64,
+    64
   ],
   "encoder_conv_architecture": "convnet_simple",
   "encoder_conv_mlp_layers": [
     512
   ],
+  "use_rnn": false,
   "rnn_size": 512,
   "rnn_type": "gru",
   "rnn_num_layers": 1,
   "decoder_mlp_layers": [],
+  "nonlinearity": "tanh",
+  "policy_initialization": "torch_default",
   "policy_init_gain": 1.0,
   "actor_critic_share_weights": true,
+  "adaptive_stddev": false,
   "continuous_tanh_scale": 0.0,
   "initial_stddev": 1.0,
   "use_env_info_cache": false,
   "pbt_target_objective": "true_objective",
   "pbt_perturb_min": 1.1,
   "pbt_perturb_max": 1.5,
+  "command_line": "--env assembly-v2 --experiment assembly-v2 --with_wandb True --wandb_user qgallouedec --wandb_project sample_facotry_metaworld",
   "cli_args": {
     "env": "assembly-v2",
     "experiment": "assembly-v2",
     "with_wandb": true,
     "wandb_user": "qgallouedec",
     "wandb_project": "sample_facotry_metaworld"
   },
+  "git_hash": "aed90d9e164e44f91bab1d70c09fac4dee064031",
   "git_repo_name": "https://github.com/huggingface/gia",
+  "wandb_unique_id": "assembly-v2_20230707_145309_221542"
 }

git.diff CHANGED Viewed

	@@ -0,0 +1,94 @@

+diff --git a/gia/eval/evaluator.py b/gia/eval/evaluator.py
+index 91b645c..196a601 100644
+--- a/gia/eval/evaluator.py
++++ b/gia/eval/evaluator.py
+@@ -2,14 +2,16 @@ import torch
+ from gia.config.arguments import Arguments
+ from gia.model import GiaModel
++from typing import Optional
+ class Evaluator:
+-    def __init__(self, args: Arguments, task: str) -> None:
++    def __init__(self, args: Arguments, task: str, mean_random: Optional[float] = None) -> None:
+         self.args = args
+         self.task = task
++        self.mean_random = mean_random
+-    @torch.no_grad()
++    @torch.inference_mode()
+     def evaluate(self, model: GiaModel) -> float:
+         return self._evaluate(model)
+diff --git a/gia/eval/mappings.py b/gia/eval/mappings.py
+deleted file mode 100644
+index e7ba9d3..0000000
+--- a/gia/eval/mappings.py
++++ /dev/null
+@@ -1,11 +0,0 @@
+-TASK_TO_ENV_MAPPING = {
+-    "mujoco-ant": "Ant-v4",
+-    "mujoco-halfcheetah": "HalfCheetah-v4",
+-    "mujoco-hopper": "Hopper-v4",
+-    "mujoco-doublependulum": "InvertedDoublePendulum-v4",
+-    "mujoco-pendulum": "InvertedPendulum-v4",
+-    "mujoco-reacher": "Reacher-v4",
+-    "mujoco-swimmer": "Swimmer-v4",
+-    "mujoco-walker": "Walker2d-v4",
+-    # Atari etc...
+-}
+diff --git a/gia/eval/rl/__init__.py b/gia/eval/rl/__init__.py
+index 36d890b..85a788d 100644
+--- a/gia/eval/rl/__init__.py
++++ b/gia/eval/rl/__init__.py
+@@ -1,4 +1,4 @@
+ from .gym_evaluator import GymEvaluator
++from .envs.core import make
+-
+-__all__ = ["GymEvaluator"]
++__all__ = ["GymEvaluator", "make"]
+diff --git a/gia/eval/rl/gia_agent.py b/gia/eval/rl/gia_agent.py
+index f0d0b9b..04b9637 100644
+--- a/gia/eval/rl/gia_agent.py
++++ b/gia/eval/rl/gia_agent.py
+@@ -75,6 +75,11 @@ class GiaAgent:
+     ) -> Tuple[Tuple[Tensor, Tensor], ...]:
+         return tuple((k[:, :, -self._max_length :], v[:, :, -self._max_length :]) for (k, v) in past_key_values)
++    def set_model(self, model: GiaModel) -> None:
++        self.model = model
++        self.device = next(model.parameters()).device
++        self._max_length = self.model.config.max_position_embeddings
++
+     def reset(self, num_envs: int = 1) -> None:
+         if self.prompter is not None:
+             prompts = self.prompter.generate_prompts(num_envs)
+diff --git a/gia/eval/rl/gym_evaluator.py b/gia/eval/rl/gym_evaluator.py
+index f8531ee..754c05d 100644
+--- a/gia/eval/rl/gym_evaluator.py
++++ b/gia/eval/rl/gym_evaluator.py
+@@ -1,7 +1,7 @@
+ import gym
+ from gym.vector.vector_env import VectorEnv
+-from gia.eval.mappings import TASK_TO_ENV_MAPPING
++# from gia.eval.rl.envs.mappings import TASK_TO_ENV_MAPPING
+ from gia.eval.rl.rl_evaluator import RLEvaluator
+diff --git a/gia/eval/rl/rl_evaluator.py b/gia/eval/rl/rl_evaluator.py
+index c5cc423..ca0c7da 100644
+--- a/gia/eval/rl/rl_evaluator.py
++++ b/gia/eval/rl/rl_evaluator.py
+@@ -8,6 +8,9 @@ from gia.eval.rl.gia_agent import GiaAgent
+ class RLEvaluator(Evaluator):
++    def __init__(self, args, task):
++        super().__init__(args, task)
++        self.agent = GiaAgent()
+     def _build_env(self) -> VectorEnv:  # TODO: maybe just a gym.Env ?
+         raise NotImplementedError

replay.mp4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30ec8024a7d641ac74f8937619fc2cca868374e55bd04a361742f47f5ffa920a
-size 3262990

 version https://git-lfs.github.com/spec/v1
+oid sha256:17026132b0314e76610a1c13739735dfc1dc3f5fd690048a892acb490f7ac397
+size 2748151

sf_log.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff