diff --git "a/sf_log.txt" "b/sf_log.txt"
new file mode 100644--- /dev/null
+++ "b/sf_log.txt"
@@ -0,0 +1,1033 @@
+[2023-07-08 04:16:27,945][828114] Saving configuration to /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/config.json...
+[2023-07-08 04:16:27,967][828114] Rollout worker 0 uses device cpu
+[2023-07-08 04:16:27,968][828114] Rollout worker 1 uses device cpu
+[2023-07-08 04:16:27,968][828114] Rollout worker 2 uses device cpu
+[2023-07-08 04:16:27,968][828114] Rollout worker 3 uses device cpu
+[2023-07-08 04:16:27,968][828114] Rollout worker 4 uses device cpu
+[2023-07-08 04:16:27,968][828114] Rollout worker 5 uses device cpu
+[2023-07-08 04:16:27,968][828114] Rollout worker 6 uses device cpu
+[2023-07-08 04:16:27,968][828114] Rollout worker 7 uses device cpu
+[2023-07-08 04:16:27,968][828114] In synchronous mode, we only accumulate one batch. Setting num_batches_to_accumulate to 1
+[2023-07-08 04:16:27,981][828114] InferenceWorker_p0-w0: min num requests: 2
+[2023-07-08 04:16:28,000][828114] Starting all processes...
+[2023-07-08 04:16:28,000][828114] Starting process learner_proc0
+[2023-07-08 04:16:28,049][828114] Starting all processes...
+[2023-07-08 04:16:28,088][828114] Starting process inference_proc0-0
+[2023-07-08 04:16:28,089][828114] Starting process rollout_proc0
+[2023-07-08 04:16:28,089][828114] Starting process rollout_proc1
+[2023-07-08 04:16:28,089][828114] Starting process rollout_proc2
+[2023-07-08 04:16:28,089][828114] Starting process rollout_proc3
+[2023-07-08 04:16:28,089][828114] Starting process rollout_proc4
+[2023-07-08 04:16:28,089][828114] Starting process rollout_proc5
+[2023-07-08 04:16:28,089][828114] Starting process rollout_proc6
+[2023-07-08 04:16:28,090][828114] Starting process rollout_proc7
+[2023-07-08 04:16:29,890][828426] Worker 0 uses CPU cores [0, 1, 2, 3]
+[2023-07-08 04:16:29,921][828378] Starting seed is not provided
+[2023-07-08 04:16:29,921][828378] Initializing actor-critic model on device cpu
+[2023-07-08 04:16:29,921][828378] RunningMeanStd input shape: (39,)
+[2023-07-08 04:16:29,922][828378] RunningMeanStd input shape: (1,)
+[2023-07-08 04:16:29,977][828378] Created Actor Critic model with architecture:
+[2023-07-08 04:16:29,977][828378] ActorCriticSharedWeights(
+  (obs_normalizer): ObservationNormalizer(
+    (running_mean_std): RunningMeanStdDictInPlace(
+      (running_mean_std): ModuleDict(
+        (obs): RunningMeanStdInPlace()
+      )
+    )
+  )
+  (returns_normalizer): RecursiveScriptModule(original_name=RunningMeanStdInPlace)
+  (encoder): MultiInputEncoder(
+    (encoders): ModuleDict(
+      (obs): MlpEncoder(
+        (mlp_head): RecursiveScriptModule(
+          original_name=Sequential
+          (0): RecursiveScriptModule(original_name=Linear)
+          (1): RecursiveScriptModule(original_name=Tanh)
+          (2): RecursiveScriptModule(original_name=Linear)
+          (3): RecursiveScriptModule(original_name=Tanh)
+        )
+      )
+    )
+  )
+  (core): ModelCoreIdentity()
+  (decoder): MlpDecoder(
+    (mlp): Identity()
+  )
+  (critic_linear): Linear(in_features=64, out_features=1, bias=True)
+  (action_parameterization): ActionParameterizationContinuousNonAdaptiveStddev(
+    (distribution_linear): Linear(in_features=64, out_features=4, bias=True)
+  )
+)
+[2023-07-08 04:16:30,078][828429] Worker 3 uses CPU cores [12, 13, 14, 15]
+[2023-07-08 04:16:30,112][828430] Worker 2 uses CPU cores [8, 9, 10, 11]
+[2023-07-08 04:16:30,209][828465] Worker 6 uses CPU cores [24, 25, 26, 27]
+[2023-07-08 04:16:30,283][828378] Using optimizer <class 'torch.optim.adam.Adam'>
+[2023-07-08 04:16:30,284][828378] No checkpoints found
+[2023-07-08 04:16:30,284][828378] Did not load from checkpoint, starting from scratch!
+[2023-07-08 04:16:30,284][828378] Initialized policy 0 weights for model version 0
+[2023-07-08 04:16:30,285][828378] LearnerWorker_p0 finished initialization!
+[2023-07-08 04:16:30,291][828431] Worker 5 uses CPU cores [20, 21, 22, 23]
+[2023-07-08 04:16:30,367][828114] Fps is (10 sec: nan, 60 sec: nan, 300 sec: nan). Total num frames: 0. Throughput: 0: nan. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2023-07-08 04:16:30,458][828425] RunningMeanStd input shape: (39,)
+[2023-07-08 04:16:30,459][828425] RunningMeanStd input shape: (1,)
+[2023-07-08 04:16:30,459][828428] Worker 1 uses CPU cores [4, 5, 6, 7]
+[2023-07-08 04:16:30,515][828114] Inference worker 0-0 is ready!
+[2023-07-08 04:16:30,515][828114] All inference workers are ready! Signal rollout workers to start!
+[2023-07-08 04:16:30,550][828528] Worker 7 uses CPU cores [28, 29, 30, 31]
+[2023-07-08 04:16:30,705][828433] Worker 4 uses CPU cores [16, 17, 18, 19]
+[2023-07-08 04:16:34,157][828429] Decorrelating experience for 0 frames...
+[2023-07-08 04:16:34,164][828431] Decorrelating experience for 0 frames...
+[2023-07-08 04:16:34,168][828429] Decorrelating experience for 64 frames...
+[2023-07-08 04:16:34,176][828431] Decorrelating experience for 64 frames...
+[2023-07-08 04:16:34,185][828428] Decorrelating experience for 0 frames...
+[2023-07-08 04:16:34,196][828428] Decorrelating experience for 64 frames...
+[2023-07-08 04:16:34,201][828429] Decorrelating experience for 128 frames...
+[2023-07-08 04:16:34,210][828431] Decorrelating experience for 128 frames...
+[2023-07-08 04:16:34,210][828426] Decorrelating experience for 0 frames...
+[2023-07-08 04:16:34,216][828430] Decorrelating experience for 0 frames...
+[2023-07-08 04:16:34,216][828465] Decorrelating experience for 0 frames...
+[2023-07-08 04:16:34,221][828426] Decorrelating experience for 64 frames...
+[2023-07-08 04:16:34,227][828430] Decorrelating experience for 64 frames...
+[2023-07-08 04:16:34,228][828465] Decorrelating experience for 64 frames...
+[2023-07-08 04:16:34,228][828428] Decorrelating experience for 128 frames...
+[2023-07-08 04:16:34,254][828426] Decorrelating experience for 128 frames...
+[2023-07-08 04:16:34,260][828430] Decorrelating experience for 128 frames...
+[2023-07-08 04:16:34,261][828465] Decorrelating experience for 128 frames...
+[2023-07-08 04:16:34,267][828429] Decorrelating experience for 192 frames...
+[2023-07-08 04:16:34,275][828431] Decorrelating experience for 192 frames...
+[2023-07-08 04:16:34,276][828528] Decorrelating experience for 0 frames...
+[2023-07-08 04:16:34,287][828528] Decorrelating experience for 64 frames...
+[2023-07-08 04:16:34,293][828428] Decorrelating experience for 192 frames...
+[2023-07-08 04:16:34,319][828426] Decorrelating experience for 192 frames...
+[2023-07-08 04:16:34,319][828528] Decorrelating experience for 128 frames...
+[2023-07-08 04:16:34,325][828430] Decorrelating experience for 192 frames...
+[2023-07-08 04:16:34,326][828465] Decorrelating experience for 192 frames...
+[2023-07-08 04:16:34,372][828433] Decorrelating experience for 0 frames...
+[2023-07-08 04:16:34,383][828433] Decorrelating experience for 64 frames...
+[2023-07-08 04:16:34,384][828528] Decorrelating experience for 192 frames...
+[2023-07-08 04:16:34,415][828433] Decorrelating experience for 128 frames...
+[2023-07-08 04:16:34,481][828433] Decorrelating experience for 192 frames...
+[2023-07-08 04:16:35,367][828114] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 0. Throughput: 0: 0.0. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2023-07-08 04:16:37,876][828429] Decorrelating experience for 256 frames...
+[2023-07-08 04:16:37,878][828431] Decorrelating experience for 256 frames...
+[2023-07-08 04:16:37,922][828428] Decorrelating experience for 256 frames...
+[2023-07-08 04:16:37,964][828426] Decorrelating experience for 256 frames...
+[2023-07-08 04:16:37,971][828430] Decorrelating experience for 256 frames...
+[2023-07-08 04:16:37,971][828465] Decorrelating experience for 256 frames...
+[2023-07-08 04:16:37,996][828429] Decorrelating experience for 320 frames...
+[2023-07-08 04:16:37,996][828431] Decorrelating experience for 320 frames...
+[2023-07-08 04:16:38,012][828528] Decorrelating experience for 256 frames...
+[2023-07-08 04:16:38,041][828428] Decorrelating experience for 320 frames...
+[2023-07-08 04:16:38,083][828426] Decorrelating experience for 320 frames...
+[2023-07-08 04:16:38,088][828430] Decorrelating experience for 320 frames...
+[2023-07-08 04:16:38,090][828433] Decorrelating experience for 256 frames...
+[2023-07-08 04:16:38,092][828465] Decorrelating experience for 320 frames...
+[2023-07-08 04:16:38,131][828528] Decorrelating experience for 320 frames...
+[2023-07-08 04:16:38,146][828429] Decorrelating experience for 384 frames...
+[2023-07-08 04:16:38,147][828431] Decorrelating experience for 384 frames...
+[2023-07-08 04:16:38,191][828428] Decorrelating experience for 384 frames...
+[2023-07-08 04:16:38,209][828433] Decorrelating experience for 320 frames...
+[2023-07-08 04:16:38,235][828426] Decorrelating experience for 384 frames...
+[2023-07-08 04:16:38,238][828430] Decorrelating experience for 384 frames...
+[2023-07-08 04:16:38,245][828465] Decorrelating experience for 384 frames...
+[2023-07-08 04:16:38,281][828528] Decorrelating experience for 384 frames...
+[2023-07-08 04:16:38,316][828429] Decorrelating experience for 448 frames...
+[2023-07-08 04:16:38,319][828431] Decorrelating experience for 448 frames...
+[2023-07-08 04:16:38,361][828433] Decorrelating experience for 384 frames...
+[2023-07-08 04:16:38,363][828428] Decorrelating experience for 448 frames...
+[2023-07-08 04:16:38,406][828426] Decorrelating experience for 448 frames...
+[2023-07-08 04:16:38,409][828430] Decorrelating experience for 448 frames...
+[2023-07-08 04:16:38,417][828465] Decorrelating experience for 448 frames...
+[2023-07-08 04:16:38,453][828528] Decorrelating experience for 448 frames...
+[2023-07-08 04:16:38,533][828433] Decorrelating experience for 448 frames...
+[2023-07-08 04:16:40,367][828114] Fps is (10 sec: 1228.8, 60 sec: 1228.8, 300 sec: 1228.8). Total num frames: 12288. Throughput: 0: 681.6. Samples: 6816. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:16:40,367][828114] Avg episode reward: [(0, '2.081')]
+[2023-07-08 04:16:40,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000000024_12288.pth...
+[2023-07-08 04:16:42,705][828425] Updated weights for policy 0, policy_version 80 (0.0005)
+[2023-07-08 04:16:45,367][828114] Fps is (10 sec: 6553.6, 60 sec: 4369.1, 300 sec: 4369.1). Total num frames: 65536. Throughput: 0: 2608.8. Samples: 39132. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-08 04:16:45,367][828114] Avg episode reward: [(0, '4.782')]
+[2023-07-08 04:16:46,702][828425] Updated weights for policy 0, policy_version 160 (0.0005)
+[2023-07-08 04:16:47,976][828114] Heartbeat connected on Batcher_0
+[2023-07-08 04:16:47,978][828114] Heartbeat connected on LearnerWorker_p0
+[2023-07-08 04:16:47,981][828114] Heartbeat connected on InferenceWorker_p0-w0
+[2023-07-08 04:16:47,987][828114] Heartbeat connected on RolloutWorker_w0
+[2023-07-08 04:16:47,988][828114] Heartbeat connected on RolloutWorker_w1
+[2023-07-08 04:16:47,991][828114] Heartbeat connected on RolloutWorker_w2
+[2023-07-08 04:16:47,993][828114] Heartbeat connected on RolloutWorker_w3
+[2023-07-08 04:16:47,995][828114] Heartbeat connected on RolloutWorker_w4
+[2023-07-08 04:16:47,997][828114] Heartbeat connected on RolloutWorker_w5
+[2023-07-08 04:16:47,999][828114] Heartbeat connected on RolloutWorker_w6
+[2023-07-08 04:16:48,002][828114] Heartbeat connected on RolloutWorker_w7
+[2023-07-08 04:16:50,367][828114] Fps is (10 sec: 10649.7, 60 sec: 5939.2, 300 sec: 5939.2). Total num frames: 118784. Throughput: 0: 5059.6. Samples: 101192. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:16:50,367][828114] Avg episode reward: [(0, '7.282')]
+[2023-07-08 04:16:50,368][828378] Saving new best policy, reward=7.282!
+[2023-07-08 04:16:50,573][828425] Updated weights for policy 0, policy_version 240 (0.0005)
+[2023-07-08 04:16:54,372][828425] Updated weights for policy 0, policy_version 320 (0.0005)
+[2023-07-08 04:16:55,367][828114] Fps is (10 sec: 10649.5, 60 sec: 6881.3, 300 sec: 6881.3). Total num frames: 172032. Throughput: 0: 6630.9. Samples: 165772. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2023-07-08 04:16:55,367][828114] Avg episode reward: [(0, '11.360')]
+[2023-07-08 04:16:55,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000000336_172032.pth...
+[2023-07-08 04:16:55,374][828378] Saving new best policy, reward=11.360!
+[2023-07-08 04:16:58,034][828425] Updated weights for policy 0, policy_version 400 (0.0005)
+[2023-07-08 04:17:00,367][828114] Fps is (10 sec: 11059.2, 60 sec: 7645.9, 300 sec: 7645.9). Total num frames: 229376. Throughput: 0: 6642.2. Samples: 199264. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:17:00,367][828114] Avg episode reward: [(0, '13.280')]
+[2023-07-08 04:17:00,368][828378] Saving new best policy, reward=13.280!
+[2023-07-08 04:17:01,777][828425] Updated weights for policy 0, policy_version 480 (0.0005)
+[2023-07-08 04:17:05,367][828114] Fps is (10 sec: 10649.7, 60 sec: 7958.0, 300 sec: 7958.0). Total num frames: 278528. Throughput: 0: 7498.1. Samples: 262432. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:17:05,367][828114] Avg episode reward: [(0, '12.581')]
+[2023-07-08 04:17:05,932][828425] Updated weights for policy 0, policy_version 560 (0.0005)
+[2023-07-08 04:17:09,990][828425] Updated weights for policy 0, policy_version 640 (0.0005)
+[2023-07-08 04:17:10,367][828114] Fps is (10 sec: 9830.4, 60 sec: 8192.0, 300 sec: 8192.0). Total num frames: 327680. Throughput: 0: 8089.6. Samples: 323584. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:17:10,367][828114] Avg episode reward: [(0, '13.206')]
+[2023-07-08 04:17:10,415][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000000648_331776.pth...
+[2023-07-08 04:17:10,418][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000000024_12288.pth
+[2023-07-08 04:17:14,014][828425] Updated weights for policy 0, policy_version 720 (0.0005)
+[2023-07-08 04:17:15,367][828114] Fps is (10 sec: 10240.0, 60 sec: 8465.1, 300 sec: 8465.1). Total num frames: 380928. Throughput: 0: 7848.3. Samples: 353172. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2023-07-08 04:17:15,367][828114] Avg episode reward: [(0, '13.396')]
+[2023-07-08 04:17:15,368][828378] Saving new best policy, reward=13.396!
+[2023-07-08 04:17:18,032][828425] Updated weights for policy 0, policy_version 800 (0.0006)
+[2023-07-08 04:17:20,367][828114] Fps is (10 sec: 10240.1, 60 sec: 8601.6, 300 sec: 8601.6). Total num frames: 430080. Throughput: 0: 9219.8. Samples: 414892. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:17:20,367][828114] Avg episode reward: [(0, '13.586')]
+[2023-07-08 04:17:20,414][828378] Saving new best policy, reward=13.586!
+[2023-07-08 04:17:22,066][828425] Updated weights for policy 0, policy_version 880 (0.0006)
+[2023-07-08 04:17:25,367][828114] Fps is (10 sec: 10239.9, 60 sec: 8787.8, 300 sec: 8787.8). Total num frames: 483328. Throughput: 0: 10464.9. Samples: 477736. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:17:25,367][828114] Avg episode reward: [(0, '22.837')]
+[2023-07-08 04:17:25,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000000944_483328.pth...
+[2023-07-08 04:17:25,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000000336_172032.pth
+[2023-07-08 04:17:25,374][828378] Saving new best policy, reward=22.837!
+[2023-07-08 04:17:25,812][828425] Updated weights for policy 0, policy_version 960 (0.0005)
+[2023-07-08 04:17:29,623][828425] Updated weights for policy 0, policy_version 1040 (0.0005)
+[2023-07-08 04:17:30,367][828114] Fps is (10 sec: 10649.6, 60 sec: 8942.9, 300 sec: 8942.9). Total num frames: 536576. Throughput: 0: 10456.0. Samples: 509652. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:17:30,367][828114] Avg episode reward: [(0, '23.608')]
+[2023-07-08 04:17:30,402][828378] Saving new best policy, reward=23.608!
+[2023-07-08 04:17:33,546][828425] Updated weights for policy 0, policy_version 1120 (0.0005)
+[2023-07-08 04:17:35,367][828114] Fps is (10 sec: 10649.7, 60 sec: 9830.4, 300 sec: 9074.2). Total num frames: 589824. Throughput: 0: 10495.8. Samples: 573504. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:17:35,367][828114] Avg episode reward: [(0, '31.457')]
+[2023-07-08 04:17:35,368][828378] Saving new best policy, reward=31.457!
+[2023-07-08 04:17:37,560][828425] Updated weights for policy 0, policy_version 1200 (0.0005)
+[2023-07-08 04:17:40,367][828114] Fps is (10 sec: 10239.9, 60 sec: 10444.8, 300 sec: 9128.2). Total num frames: 638976. Throughput: 0: 10410.0. Samples: 634220. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:17:40,367][828114] Avg episode reward: [(0, '38.426')]
+[2023-07-08 04:17:40,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000001248_638976.pth...
+[2023-07-08 04:17:40,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000000648_331776.pth
+[2023-07-08 04:17:40,374][828378] Saving new best policy, reward=38.426!
+[2023-07-08 04:17:41,666][828425] Updated weights for policy 0, policy_version 1280 (0.0005)
+[2023-07-08 04:17:45,367][828114] Fps is (10 sec: 10240.0, 60 sec: 10444.8, 300 sec: 9229.7). Total num frames: 692224. Throughput: 0: 10347.9. Samples: 664920. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-08 04:17:45,367][828114] Avg episode reward: [(0, '53.386')]
+[2023-07-08 04:17:45,368][828378] Saving new best policy, reward=53.386!
+[2023-07-08 04:17:45,607][828425] Updated weights for policy 0, policy_version 1360 (0.0005)
+[2023-07-08 04:17:49,445][828425] Updated weights for policy 0, policy_version 1440 (0.0005)
+[2023-07-08 04:17:50,367][828114] Fps is (10 sec: 10649.7, 60 sec: 10444.8, 300 sec: 9318.4). Total num frames: 745472. Throughput: 0: 10352.1. Samples: 728276. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:17:50,367][828114] Avg episode reward: [(0, '58.564')]
+[2023-07-08 04:17:50,368][828378] Saving new best policy, reward=58.564!
+[2023-07-08 04:17:53,252][828425] Updated weights for policy 0, policy_version 1520 (0.0004)
+[2023-07-08 04:17:55,367][828114] Fps is (10 sec: 10649.5, 60 sec: 10444.8, 300 sec: 9396.7). Total num frames: 798720. Throughput: 0: 10418.8. Samples: 792432. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:17:55,367][828114] Avg episode reward: [(0, '78.527')]
+[2023-07-08 04:17:55,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000001560_798720.pth...
+[2023-07-08 04:17:55,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000000944_483328.pth
+[2023-07-08 04:17:55,373][828378] Saving new best policy, reward=78.527!
+[2023-07-08 04:17:57,062][828425] Updated weights for policy 0, policy_version 1600 (0.0004)
+[2023-07-08 04:18:00,367][828114] Fps is (10 sec: 10649.6, 60 sec: 10376.5, 300 sec: 9466.3). Total num frames: 851968. Throughput: 0: 10475.5. Samples: 824572. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:18:00,367][828114] Avg episode reward: [(0, '90.428')]
+[2023-07-08 04:18:00,368][828378] Saving new best policy, reward=90.428!
+[2023-07-08 04:18:00,805][828425] Updated weights for policy 0, policy_version 1680 (0.0004)
+[2023-07-08 04:18:04,818][828425] Updated weights for policy 0, policy_version 1760 (0.0005)
+[2023-07-08 04:18:05,367][828114] Fps is (10 sec: 10649.7, 60 sec: 10444.8, 300 sec: 9528.6). Total num frames: 905216. Throughput: 0: 10522.4. Samples: 888400. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:18:05,367][828114] Avg episode reward: [(0, '84.250')]
+[2023-07-08 04:18:08,988][828425] Updated weights for policy 0, policy_version 1840 (0.0005)
+[2023-07-08 04:18:10,367][828114] Fps is (10 sec: 10240.0, 60 sec: 10444.8, 300 sec: 9543.7). Total num frames: 954368. Throughput: 0: 10438.2. Samples: 947456. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:18:10,367][828114] Avg episode reward: [(0, '81.043')]
+[2023-07-08 04:18:10,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000001864_954368.pth...
+[2023-07-08 04:18:10,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000001248_638976.pth
+[2023-07-08 04:18:13,186][828425] Updated weights for policy 0, policy_version 1920 (0.0005)
+[2023-07-08 04:18:15,367][828114] Fps is (10 sec: 9830.2, 60 sec: 10376.5, 300 sec: 9557.3). Total num frames: 1003520. Throughput: 0: 10381.7. Samples: 976828. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-08 04:18:15,367][828114] Avg episode reward: [(0, '81.395')]
+[2023-07-08 04:18:17,422][828425] Updated weights for policy 0, policy_version 2000 (0.0005)
+[2023-07-08 04:18:20,367][828114] Fps is (10 sec: 9830.4, 60 sec: 10376.5, 300 sec: 9569.8). Total num frames: 1052672. Throughput: 0: 10259.4. Samples: 1035176. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:18:20,367][828114] Avg episode reward: [(0, '88.096')]
+[2023-07-08 04:18:21,588][828425] Updated weights for policy 0, policy_version 2080 (0.0005)
+[2023-07-08 04:18:25,367][828114] Fps is (10 sec: 9830.5, 60 sec: 10308.3, 300 sec: 9581.1). Total num frames: 1101824. Throughput: 0: 10210.6. Samples: 1093696. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:18:25,367][828114] Avg episode reward: [(0, '80.789')]
+[2023-07-08 04:18:25,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000002152_1101824.pth...
+[2023-07-08 04:18:25,372][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000001560_798720.pth
+[2023-07-08 04:18:25,752][828425] Updated weights for policy 0, policy_version 2160 (0.0005)
+[2023-07-08 04:18:30,034][828425] Updated weights for policy 0, policy_version 2240 (0.0005)
+[2023-07-08 04:18:30,367][828114] Fps is (10 sec: 9420.8, 60 sec: 10171.7, 300 sec: 9557.3). Total num frames: 1146880. Throughput: 0: 10167.5. Samples: 1122456. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:18:30,367][828114] Avg episode reward: [(0, '75.629')]
+[2023-07-08 04:18:34,142][828425] Updated weights for policy 0, policy_version 2320 (0.0005)
+[2023-07-08 04:18:35,367][828114] Fps is (10 sec: 9420.8, 60 sec: 10103.5, 300 sec: 9568.3). Total num frames: 1196032. Throughput: 0: 10080.1. Samples: 1181880. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-08 04:18:35,367][828114] Avg episode reward: [(0, '83.426')]
+[2023-07-08 04:18:38,335][828425] Updated weights for policy 0, policy_version 2400 (0.0005)
+[2023-07-08 04:18:40,367][828114] Fps is (10 sec: 9830.4, 60 sec: 10103.5, 300 sec: 9578.3). Total num frames: 1245184. Throughput: 0: 9965.6. Samples: 1240884. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2023-07-08 04:18:40,367][828114] Avg episode reward: [(0, '91.979')]
+[2023-07-08 04:18:40,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000002432_1245184.pth...
+[2023-07-08 04:18:40,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000001864_954368.pth
+[2023-07-08 04:18:40,373][828378] Saving new best policy, reward=91.979!
+[2023-07-08 04:18:42,522][828425] Updated weights for policy 0, policy_version 2480 (0.0005)
+[2023-07-08 04:18:45,367][828114] Fps is (10 sec: 9830.4, 60 sec: 10035.2, 300 sec: 9587.7). Total num frames: 1294336. Throughput: 0: 9894.7. Samples: 1269832. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:18:45,367][828114] Avg episode reward: [(0, '80.480')]
+[2023-07-08 04:18:46,735][828425] Updated weights for policy 0, policy_version 2560 (0.0005)
+[2023-07-08 04:18:50,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9966.9, 300 sec: 9596.4). Total num frames: 1343488. Throughput: 0: 9765.4. Samples: 1327844. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:18:50,367][828114] Avg episode reward: [(0, '104.265')]
+[2023-07-08 04:18:50,368][828378] Saving new best policy, reward=104.265!
+[2023-07-08 04:18:50,922][828425] Updated weights for policy 0, policy_version 2640 (0.0005)
+[2023-07-08 04:18:55,108][828425] Updated weights for policy 0, policy_version 2720 (0.0005)
+[2023-07-08 04:18:55,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9898.7, 300 sec: 9604.4). Total num frames: 1392640. Throughput: 0: 9766.6. Samples: 1386952. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:18:55,367][828114] Avg episode reward: [(0, '120.921')]
+[2023-07-08 04:18:55,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000002720_1392640.pth...
+[2023-07-08 04:18:55,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000002152_1101824.pth
+[2023-07-08 04:18:55,373][828378] Saving new best policy, reward=120.921!
+[2023-07-08 04:18:59,364][828425] Updated weights for policy 0, policy_version 2800 (0.0005)
+[2023-07-08 04:19:00,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9830.4, 300 sec: 9612.0). Total num frames: 1441792. Throughput: 0: 9772.7. Samples: 1416600. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:19:00,367][828114] Avg episode reward: [(0, '100.613')]
+[2023-07-08 04:19:03,519][828425] Updated weights for policy 0, policy_version 2880 (0.0005)
+[2023-07-08 04:19:05,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9762.1, 300 sec: 9619.0). Total num frames: 1490944. Throughput: 0: 9765.7. Samples: 1474632. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:19:05,367][828114] Avg episode reward: [(0, '84.648')]
+[2023-07-08 04:19:07,373][828425] Updated weights for policy 0, policy_version 2960 (0.0004)
+[2023-07-08 04:19:10,367][828114] Fps is (10 sec: 10240.0, 60 sec: 9830.4, 300 sec: 9651.2). Total num frames: 1544192. Throughput: 0: 9888.4. Samples: 1538676. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:19:10,367][828114] Avg episode reward: [(0, '84.894')]
+[2023-07-08 04:19:10,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000003016_1544192.pth...
+[2023-07-08 04:19:10,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000002432_1245184.pth
+[2023-07-08 04:19:11,195][828425] Updated weights for policy 0, policy_version 3040 (0.0004)
+[2023-07-08 04:19:15,084][828425] Updated weights for policy 0, policy_version 3120 (0.0004)
+[2023-07-08 04:19:15,367][828114] Fps is (10 sec: 10649.6, 60 sec: 9898.7, 300 sec: 9681.5). Total num frames: 1597440. Throughput: 0: 9964.0. Samples: 1570836. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:19:15,367][828114] Avg episode reward: [(0, '93.343')]
+[2023-07-08 04:19:19,013][828425] Updated weights for policy 0, policy_version 3200 (0.0004)
+[2023-07-08 04:19:20,367][828114] Fps is (10 sec: 10649.6, 60 sec: 9966.9, 300 sec: 9709.9). Total num frames: 1650688. Throughput: 0: 10044.2. Samples: 1633868. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:19:20,367][828114] Avg episode reward: [(0, '83.267')]
+[2023-07-08 04:19:22,843][828425] Updated weights for policy 0, policy_version 3280 (0.0004)
+[2023-07-08 04:19:25,367][828114] Fps is (10 sec: 10649.5, 60 sec: 10035.2, 300 sec: 9736.8). Total num frames: 1703936. Throughput: 0: 10141.5. Samples: 1697252. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:19:25,367][828114] Avg episode reward: [(0, '71.736')]
+[2023-07-08 04:19:25,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000003328_1703936.pth...
+[2023-07-08 04:19:25,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000002720_1392640.pth
+[2023-07-08 04:19:26,800][828425] Updated weights for policy 0, policy_version 3360 (0.0004)
+[2023-07-08 04:19:30,367][828114] Fps is (10 sec: 10649.6, 60 sec: 10171.7, 300 sec: 9762.1). Total num frames: 1757184. Throughput: 0: 10188.4. Samples: 1728312. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:19:30,367][828114] Avg episode reward: [(0, '77.496')]
+[2023-07-08 04:19:30,622][828425] Updated weights for policy 0, policy_version 3440 (0.0004)
+[2023-07-08 04:19:34,531][828425] Updated weights for policy 0, policy_version 3520 (0.0005)
+[2023-07-08 04:19:35,367][828114] Fps is (10 sec: 10649.7, 60 sec: 10240.0, 300 sec: 9786.1). Total num frames: 1810432. Throughput: 0: 10302.6. Samples: 1791460. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-08 04:19:35,367][828114] Avg episode reward: [(0, '86.517')]
+[2023-07-08 04:19:38,288][828425] Updated weights for policy 0, policy_version 3600 (0.0004)
+[2023-07-08 04:19:40,367][828114] Fps is (10 sec: 10649.5, 60 sec: 10308.3, 300 sec: 9808.8). Total num frames: 1863680. Throughput: 0: 10439.3. Samples: 1856720. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:19:40,367][828114] Avg episode reward: [(0, '89.115')]
+[2023-07-08 04:19:40,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000003640_1863680.pth...
+[2023-07-08 04:19:40,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000003016_1544192.pth
+[2023-07-08 04:19:42,098][828425] Updated weights for policy 0, policy_version 3680 (0.0004)
+[2023-07-08 04:19:45,367][828114] Fps is (10 sec: 10649.5, 60 sec: 10376.5, 300 sec: 9830.4). Total num frames: 1916928. Throughput: 0: 10486.5. Samples: 1888492. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:19:45,367][828114] Avg episode reward: [(0, '91.669')]
+[2023-07-08 04:19:46,024][828425] Updated weights for policy 0, policy_version 3760 (0.0005)
+[2023-07-08 04:19:50,123][828425] Updated weights for policy 0, policy_version 3840 (0.0005)
+[2023-07-08 04:19:50,367][828114] Fps is (10 sec: 10240.1, 60 sec: 10376.5, 300 sec: 9830.4). Total num frames: 1966080. Throughput: 0: 10571.5. Samples: 1950348. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:19:50,367][828114] Avg episode reward: [(0, '80.619')]
+[2023-07-08 04:19:54,245][828425] Updated weights for policy 0, policy_version 3920 (0.0005)
+[2023-07-08 04:19:55,367][828114] Fps is (10 sec: 9830.3, 60 sec: 10376.5, 300 sec: 9830.4). Total num frames: 2015232. Throughput: 0: 10480.6. Samples: 2010304. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:19:55,367][828114] Avg episode reward: [(0, '87.395')]
+[2023-07-08 04:19:55,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000003936_2015232.pth...
+[2023-07-08 04:19:55,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000003328_1703936.pth
+[2023-07-08 04:19:58,482][828425] Updated weights for policy 0, policy_version 4000 (0.0005)
+[2023-07-08 04:20:00,367][828114] Fps is (10 sec: 9830.4, 60 sec: 10376.5, 300 sec: 9830.4). Total num frames: 2064384. Throughput: 0: 10414.6. Samples: 2039492. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:20:00,367][828114] Avg episode reward: [(0, '88.229')]
+[2023-07-08 04:20:02,739][828425] Updated weights for policy 0, policy_version 4080 (0.0005)
+[2023-07-08 04:20:05,367][828114] Fps is (10 sec: 9830.5, 60 sec: 10376.5, 300 sec: 9830.4). Total num frames: 2113536. Throughput: 0: 10295.2. Samples: 2097152. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-08 04:20:05,367][828114] Avg episode reward: [(0, '87.475')]
+[2023-07-08 04:20:06,809][828425] Updated weights for policy 0, policy_version 4160 (0.0005)
+[2023-07-08 04:20:10,367][828114] Fps is (10 sec: 9830.4, 60 sec: 10308.3, 300 sec: 9830.4). Total num frames: 2162688. Throughput: 0: 10231.1. Samples: 2157652. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:20:10,367][828114] Avg episode reward: [(0, '81.651')]
+[2023-07-08 04:20:10,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000004224_2162688.pth...
+[2023-07-08 04:20:10,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000003640_1863680.pth
+[2023-07-08 04:20:10,861][828425] Updated weights for policy 0, policy_version 4240 (0.0005)
+[2023-07-08 04:20:14,780][828425] Updated weights for policy 0, policy_version 4320 (0.0005)
+[2023-07-08 04:20:15,367][828114] Fps is (10 sec: 10240.0, 60 sec: 10308.3, 300 sec: 9848.6). Total num frames: 2215936. Throughput: 0: 10223.5. Samples: 2188368. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:20:15,367][828114] Avg episode reward: [(0, '77.162')]
+[2023-07-08 04:20:18,724][828425] Updated weights for policy 0, policy_version 4400 (0.0004)
+[2023-07-08 04:20:20,367][828114] Fps is (10 sec: 10649.6, 60 sec: 10308.3, 300 sec: 9866.0). Total num frames: 2269184. Throughput: 0: 10219.2. Samples: 2251324. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:20:20,367][828114] Avg episode reward: [(0, '83.469')]
+[2023-07-08 04:20:22,735][828425] Updated weights for policy 0, policy_version 4480 (0.0005)
+[2023-07-08 04:20:25,367][828114] Fps is (10 sec: 10239.9, 60 sec: 10240.0, 300 sec: 9865.3). Total num frames: 2318336. Throughput: 0: 10134.6. Samples: 2312776. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2023-07-08 04:20:25,367][828114] Avg episode reward: [(0, '102.816')]
+[2023-07-08 04:20:25,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000004528_2318336.pth...
+[2023-07-08 04:20:25,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000003936_2015232.pth
+[2023-07-08 04:20:26,622][828425] Updated weights for policy 0, policy_version 4560 (0.0004)
+[2023-07-08 04:20:30,367][828114] Fps is (10 sec: 10240.0, 60 sec: 10240.0, 300 sec: 9881.6). Total num frames: 2371584. Throughput: 0: 10127.9. Samples: 2344248. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:20:30,367][828114] Avg episode reward: [(0, '96.758')]
+[2023-07-08 04:20:30,532][828425] Updated weights for policy 0, policy_version 4640 (0.0004)
+[2023-07-08 04:20:34,452][828425] Updated weights for policy 0, policy_version 4720 (0.0005)
+[2023-07-08 04:20:35,367][828114] Fps is (10 sec: 10649.7, 60 sec: 10240.0, 300 sec: 9897.3). Total num frames: 2424832. Throughput: 0: 10147.8. Samples: 2407000. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-08 04:20:35,367][828114] Avg episode reward: [(0, '101.235')]
+[2023-07-08 04:20:38,435][828425] Updated weights for policy 0, policy_version 4800 (0.0005)
+[2023-07-08 04:20:40,367][828114] Fps is (10 sec: 10649.5, 60 sec: 10240.0, 300 sec: 9912.3). Total num frames: 2478080. Throughput: 0: 10207.6. Samples: 2469648. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:20:40,367][828114] Avg episode reward: [(0, '109.602')]
+[2023-07-08 04:20:40,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000004840_2478080.pth...
+[2023-07-08 04:20:40,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000004224_2162688.pth
+[2023-07-08 04:20:42,479][828425] Updated weights for policy 0, policy_version 4880 (0.0005)
+[2023-07-08 04:20:45,367][828114] Fps is (10 sec: 10240.0, 60 sec: 10171.7, 300 sec: 9910.7). Total num frames: 2527232. Throughput: 0: 10212.9. Samples: 2499072. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:20:45,367][828114] Avg episode reward: [(0, '117.345')]
+[2023-07-08 04:20:46,574][828425] Updated weights for policy 0, policy_version 4960 (0.0005)
+[2023-07-08 04:20:50,367][828114] Fps is (10 sec: 9420.9, 60 sec: 10103.5, 300 sec: 9893.4). Total num frames: 2572288. Throughput: 0: 10263.8. Samples: 2559024. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:20:50,367][828114] Avg episode reward: [(0, '94.585')]
+[2023-07-08 04:20:50,853][828425] Updated weights for policy 0, policy_version 5040 (0.0006)
+[2023-07-08 04:20:55,112][828425] Updated weights for policy 0, policy_version 5120 (0.0006)
+[2023-07-08 04:20:55,367][828114] Fps is (10 sec: 9420.7, 60 sec: 10103.5, 300 sec: 9892.2). Total num frames: 2621440. Throughput: 0: 10193.5. Samples: 2616360. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:20:55,367][828114] Avg episode reward: [(0, '109.766')]
+[2023-07-08 04:20:55,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000005120_2621440.pth...
+[2023-07-08 04:20:55,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000004528_2318336.pth
+[2023-07-08 04:20:59,042][828425] Updated weights for policy 0, policy_version 5200 (0.0004)
+[2023-07-08 04:21:00,367][828114] Fps is (10 sec: 10240.0, 60 sec: 10171.7, 300 sec: 9906.3). Total num frames: 2674688. Throughput: 0: 10197.8. Samples: 2647268. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:21:00,367][828114] Avg episode reward: [(0, '89.588')]
+[2023-07-08 04:21:03,176][828425] Updated weights for policy 0, policy_version 5280 (0.0005)
+[2023-07-08 04:21:05,367][828114] Fps is (10 sec: 10240.1, 60 sec: 10171.7, 300 sec: 9904.9). Total num frames: 2723840. Throughput: 0: 10136.3. Samples: 2707456. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:21:05,367][828114] Avg episode reward: [(0, '101.185')]
+[2023-07-08 04:21:07,364][828425] Updated weights for policy 0, policy_version 5360 (0.0004)
+[2023-07-08 04:21:10,367][828114] Fps is (10 sec: 9830.3, 60 sec: 10171.7, 300 sec: 9903.5). Total num frames: 2772992. Throughput: 0: 10050.3. Samples: 2765040. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-08 04:21:10,367][828114] Avg episode reward: [(0, '93.554')]
+[2023-07-08 04:21:10,372][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000005416_2772992.pth...
+[2023-07-08 04:21:10,375][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000004840_2478080.pth
+[2023-07-08 04:21:11,565][828425] Updated weights for policy 0, policy_version 5440 (0.0005)
+[2023-07-08 04:21:15,367][828114] Fps is (10 sec: 9420.8, 60 sec: 10035.2, 300 sec: 9887.9). Total num frames: 2818048. Throughput: 0: 10014.3. Samples: 2794892. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:21:15,367][828114] Avg episode reward: [(0, '107.113')]
+[2023-07-08 04:21:15,856][828425] Updated weights for policy 0, policy_version 5520 (0.0005)
+[2023-07-08 04:21:20,087][828425] Updated weights for policy 0, policy_version 5600 (0.0005)
+[2023-07-08 04:21:20,367][828114] Fps is (10 sec: 9420.9, 60 sec: 9966.9, 300 sec: 9886.9). Total num frames: 2867200. Throughput: 0: 9899.8. Samples: 2852492. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2023-07-08 04:21:20,367][828114] Avg episode reward: [(0, '101.070')]
+[2023-07-08 04:21:24,332][828425] Updated weights for policy 0, policy_version 5680 (0.0004)
+[2023-07-08 04:21:25,367][828114] Fps is (10 sec: 9830.3, 60 sec: 9966.9, 300 sec: 9885.9). Total num frames: 2916352. Throughput: 0: 9796.4. Samples: 2910488. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:21:25,367][828114] Avg episode reward: [(0, '104.784')]
+[2023-07-08 04:21:25,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000005696_2916352.pth...
+[2023-07-08 04:21:25,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000005120_2621440.pth
+[2023-07-08 04:21:28,432][828425] Updated weights for policy 0, policy_version 5760 (0.0004)
+[2023-07-08 04:21:30,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9898.7, 300 sec: 10052.6). Total num frames: 2965504. Throughput: 0: 9816.2. Samples: 2940800. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:21:30,367][828114] Avg episode reward: [(0, '100.974')]
+[2023-07-08 04:21:32,578][828425] Updated weights for policy 0, policy_version 5840 (0.0005)
+[2023-07-08 04:21:35,367][828114] Fps is (10 sec: 10240.1, 60 sec: 9898.7, 300 sec: 10191.4). Total num frames: 3018752. Throughput: 0: 9798.8. Samples: 2999968. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:21:35,367][828114] Avg episode reward: [(0, '107.017')]
+[2023-07-08 04:21:36,420][828425] Updated weights for policy 0, policy_version 5920 (0.0004)
+[2023-07-08 04:21:40,350][828425] Updated weights for policy 0, policy_version 6000 (0.0005)
+[2023-07-08 04:21:40,367][828114] Fps is (10 sec: 10649.5, 60 sec: 9898.7, 300 sec: 10191.4). Total num frames: 3072000. Throughput: 0: 9934.3. Samples: 3063404. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:21:40,367][828114] Avg episode reward: [(0, '93.072')]
+[2023-07-08 04:21:40,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000006000_3072000.pth...
+[2023-07-08 04:21:40,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000005416_2772992.pth
+[2023-07-08 04:21:44,548][828425] Updated weights for policy 0, policy_version 6080 (0.0004)
+[2023-07-08 04:21:45,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9830.4, 300 sec: 10163.6). Total num frames: 3117056. Throughput: 0: 9905.1. Samples: 3092996. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:21:45,367][828114] Avg episode reward: [(0, '84.587')]
+[2023-07-08 04:21:48,798][828425] Updated weights for policy 0, policy_version 6160 (0.0004)
+[2023-07-08 04:21:50,367][828114] Fps is (10 sec: 9420.9, 60 sec: 9898.7, 300 sec: 10149.8). Total num frames: 3166208. Throughput: 0: 9863.3. Samples: 3151304. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:21:50,367][828114] Avg episode reward: [(0, '78.059')]
+[2023-07-08 04:21:52,873][828425] Updated weights for policy 0, policy_version 6240 (0.0005)
+[2023-07-08 04:21:55,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9898.7, 300 sec: 10122.0). Total num frames: 3215360. Throughput: 0: 9917.5. Samples: 3211328. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:21:55,367][828114] Avg episode reward: [(0, '82.578')]
+[2023-07-08 04:21:55,406][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000006288_3219456.pth...
+[2023-07-08 04:21:55,408][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000005696_2916352.pth
+[2023-07-08 04:21:57,069][828425] Updated weights for policy 0, policy_version 6320 (0.0005)
+[2023-07-08 04:22:00,367][828114] Fps is (10 sec: 10240.0, 60 sec: 9898.7, 300 sec: 10135.9). Total num frames: 3268608. Throughput: 0: 9904.4. Samples: 3240592. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2023-07-08 04:22:00,367][828114] Avg episode reward: [(0, '85.447')]
+[2023-07-08 04:22:01,043][828425] Updated weights for policy 0, policy_version 6400 (0.0005)
+[2023-07-08 04:22:05,041][828425] Updated weights for policy 0, policy_version 6480 (0.0005)
+[2023-07-08 04:22:05,367][828114] Fps is (10 sec: 10240.0, 60 sec: 9898.7, 300 sec: 10135.9). Total num frames: 3317760. Throughput: 0: 9986.2. Samples: 3301872. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:22:05,367][828114] Avg episode reward: [(0, '80.123')]
+[2023-07-08 04:22:09,007][828425] Updated weights for policy 0, policy_version 6560 (0.0005)
+[2023-07-08 04:22:10,367][828114] Fps is (10 sec: 10240.0, 60 sec: 9966.9, 300 sec: 10135.9). Total num frames: 3371008. Throughput: 0: 10092.3. Samples: 3364640. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-08 04:22:10,367][828114] Avg episode reward: [(0, '91.068')]
+[2023-07-08 04:22:10,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000006584_3371008.pth...
+[2023-07-08 04:22:10,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000006000_3072000.pth
+[2023-07-08 04:22:13,140][828425] Updated weights for policy 0, policy_version 6640 (0.0005)
+[2023-07-08 04:22:15,367][828114] Fps is (10 sec: 10240.0, 60 sec: 10035.2, 300 sec: 10135.9). Total num frames: 3420160. Throughput: 0: 10079.6. Samples: 3394384. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-08 04:22:15,367][828114] Avg episode reward: [(0, '81.502')]
+[2023-07-08 04:22:17,465][828425] Updated weights for policy 0, policy_version 6720 (0.0006)
+[2023-07-08 04:22:20,367][828114] Fps is (10 sec: 9830.4, 60 sec: 10035.2, 300 sec: 10122.0). Total num frames: 3469312. Throughput: 0: 10020.3. Samples: 3450880. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:22:20,367][828114] Avg episode reward: [(0, '89.572')]
+[2023-07-08 04:22:21,537][828425] Updated weights for policy 0, policy_version 6800 (0.0005)
+[2023-07-08 04:22:25,367][828114] Fps is (10 sec: 9830.3, 60 sec: 10035.2, 300 sec: 10108.1). Total num frames: 3518464. Throughput: 0: 9968.4. Samples: 3511984. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:22:25,367][828114] Avg episode reward: [(0, '78.606')]
+[2023-07-08 04:22:25,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000006872_3518464.pth...
+[2023-07-08 04:22:25,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000006288_3219456.pth
+[2023-07-08 04:22:25,597][828425] Updated weights for policy 0, policy_version 6880 (0.0005)
+[2023-07-08 04:22:29,740][828425] Updated weights for policy 0, policy_version 6960 (0.0005)
+[2023-07-08 04:22:30,367][828114] Fps is (10 sec: 9830.3, 60 sec: 10035.2, 300 sec: 10094.2). Total num frames: 3567616. Throughput: 0: 9991.4. Samples: 3542608. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:22:30,367][828114] Avg episode reward: [(0, '76.385')]
+[2023-07-08 04:22:33,979][828425] Updated weights for policy 0, policy_version 7040 (0.0005)
+[2023-07-08 04:22:35,367][828114] Fps is (10 sec: 9830.5, 60 sec: 9966.9, 300 sec: 10094.2). Total num frames: 3616768. Throughput: 0: 9978.6. Samples: 3600340. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:22:35,367][828114] Avg episode reward: [(0, '76.416')]
+[2023-07-08 04:22:37,990][828425] Updated weights for policy 0, policy_version 7120 (0.0005)
+[2023-07-08 04:22:40,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9898.7, 300 sec: 10080.3). Total num frames: 3665920. Throughput: 0: 10009.0. Samples: 3661736. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:22:40,367][828114] Avg episode reward: [(0, '73.001')]
+[2023-07-08 04:22:40,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000007160_3665920.pth...
+[2023-07-08 04:22:40,372][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000006584_3371008.pth
+[2023-07-08 04:22:42,018][828425] Updated weights for policy 0, policy_version 7200 (0.0005)
+[2023-07-08 04:22:45,367][828114] Fps is (10 sec: 10239.9, 60 sec: 10035.2, 300 sec: 10080.3). Total num frames: 3719168. Throughput: 0: 10025.9. Samples: 3691756. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-08 04:22:45,367][828114] Avg episode reward: [(0, '71.051')]
+[2023-07-08 04:22:46,022][828425] Updated weights for policy 0, policy_version 7280 (0.0004)
+[2023-07-08 04:22:50,093][828425] Updated weights for policy 0, policy_version 7360 (0.0005)
+[2023-07-08 04:22:50,367][828114] Fps is (10 sec: 10240.1, 60 sec: 10035.2, 300 sec: 10066.4). Total num frames: 3768320. Throughput: 0: 10020.5. Samples: 3752796. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:22:50,367][828114] Avg episode reward: [(0, '71.704')]
+[2023-07-08 04:22:54,131][828425] Updated weights for policy 0, policy_version 7440 (0.0005)
+[2023-07-08 04:22:55,367][828114] Fps is (10 sec: 10240.0, 60 sec: 10103.4, 300 sec: 10066.4). Total num frames: 3821568. Throughput: 0: 9973.5. Samples: 3813448. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:22:55,367][828114] Avg episode reward: [(0, '80.669')]
+[2023-07-08 04:22:55,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000007464_3821568.pth...
+[2023-07-08 04:22:55,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000006872_3518464.pth
+[2023-07-08 04:22:58,074][828425] Updated weights for policy 0, policy_version 7520 (0.0004)
+[2023-07-08 04:23:00,367][828114] Fps is (10 sec: 10240.0, 60 sec: 10035.2, 300 sec: 10052.6). Total num frames: 3870720. Throughput: 0: 10003.5. Samples: 3844544. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:23:00,367][828114] Avg episode reward: [(0, '81.311')]
+[2023-07-08 04:23:02,174][828425] Updated weights for policy 0, policy_version 7600 (0.0005)
+[2023-07-08 04:23:05,367][828114] Fps is (10 sec: 9830.4, 60 sec: 10035.2, 300 sec: 10052.6). Total num frames: 3919872. Throughput: 0: 10077.9. Samples: 3904384. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:23:05,367][828114] Avg episode reward: [(0, '89.715')]
+[2023-07-08 04:23:06,501][828425] Updated weights for policy 0, policy_version 7680 (0.0005)
+[2023-07-08 04:23:10,367][828114] Fps is (10 sec: 9830.2, 60 sec: 9966.9, 300 sec: 10052.6). Total num frames: 3969024. Throughput: 0: 9980.6. Samples: 3961112. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:23:10,367][828114] Avg episode reward: [(0, '79.078')]
+[2023-07-08 04:23:10,372][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000007752_3969024.pth...
+[2023-07-08 04:23:10,375][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000007160_3665920.pth
+[2023-07-08 04:23:10,787][828425] Updated weights for policy 0, policy_version 7760 (0.0005)
+[2023-07-08 04:23:15,118][828425] Updated weights for policy 0, policy_version 7840 (0.0005)
+[2023-07-08 04:23:15,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9898.7, 300 sec: 10038.7). Total num frames: 4014080. Throughput: 0: 9935.7. Samples: 3989716. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:23:15,367][828114] Avg episode reward: [(0, '82.968')]
+[2023-07-08 04:23:19,161][828425] Updated weights for policy 0, policy_version 7920 (0.0004)
+[2023-07-08 04:23:20,367][828114] Fps is (10 sec: 9830.6, 60 sec: 9966.9, 300 sec: 10052.6). Total num frames: 4067328. Throughput: 0: 9963.8. Samples: 4048712. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:23:20,367][828114] Avg episode reward: [(0, '102.493')]
+[2023-07-08 04:23:23,242][828425] Updated weights for policy 0, policy_version 8000 (0.0005)
+[2023-07-08 04:23:25,367][828114] Fps is (10 sec: 10240.0, 60 sec: 9966.9, 300 sec: 10066.4). Total num frames: 4116480. Throughput: 0: 9927.8. Samples: 4108488. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:23:25,367][828114] Avg episode reward: [(0, '92.259')]
+[2023-07-08 04:23:25,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000008040_4116480.pth...
+[2023-07-08 04:23:25,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000007464_3821568.pth
+[2023-07-08 04:23:27,301][828425] Updated weights for policy 0, policy_version 8080 (0.0005)
+[2023-07-08 04:23:30,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9966.9, 300 sec: 10066.4). Total num frames: 4165632. Throughput: 0: 9953.2. Samples: 4139648. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:23:30,367][828114] Avg episode reward: [(0, '99.234')]
+[2023-07-08 04:23:31,209][828425] Updated weights for policy 0, policy_version 8160 (0.0004)
+[2023-07-08 04:23:35,360][828425] Updated weights for policy 0, policy_version 8240 (0.0005)
+[2023-07-08 04:23:35,367][828114] Fps is (10 sec: 10240.1, 60 sec: 10035.2, 300 sec: 10080.3). Total num frames: 4218880. Throughput: 0: 9970.2. Samples: 4201456. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:23:35,367][828114] Avg episode reward: [(0, '93.790')]
+[2023-07-08 04:23:39,523][828425] Updated weights for policy 0, policy_version 8320 (0.0005)
+[2023-07-08 04:23:40,367][828114] Fps is (10 sec: 10240.0, 60 sec: 10035.2, 300 sec: 10080.3). Total num frames: 4268032. Throughput: 0: 9921.4. Samples: 4259912. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:23:40,367][828114] Avg episode reward: [(0, '95.876')]
+[2023-07-08 04:23:40,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000008336_4268032.pth...
+[2023-07-08 04:23:40,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000007752_3969024.pth
+[2023-07-08 04:23:43,731][828425] Updated weights for policy 0, policy_version 8400 (0.0005)
+[2023-07-08 04:23:45,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9898.7, 300 sec: 10066.4). Total num frames: 4313088. Throughput: 0: 9887.8. Samples: 4289496. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:23:45,367][828114] Avg episode reward: [(0, '105.603')]
+[2023-07-08 04:23:47,936][828425] Updated weights for policy 0, policy_version 8480 (0.0005)
+[2023-07-08 04:23:50,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9898.7, 300 sec: 10066.4). Total num frames: 4362240. Throughput: 0: 9854.5. Samples: 4347836. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-08 04:23:50,367][828114] Avg episode reward: [(0, '115.496')]
+[2023-07-08 04:23:52,185][828425] Updated weights for policy 0, policy_version 8560 (0.0005)
+[2023-07-08 04:23:55,367][828114] Fps is (10 sec: 9830.3, 60 sec: 9830.4, 300 sec: 10066.4). Total num frames: 4411392. Throughput: 0: 9891.2. Samples: 4406216. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-08 04:23:55,367][828114] Avg episode reward: [(0, '85.419')]
+[2023-07-08 04:23:55,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000008616_4411392.pth...
+[2023-07-08 04:23:55,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000008040_4116480.pth
+[2023-07-08 04:23:56,455][828425] Updated weights for policy 0, policy_version 8640 (0.0005)
+[2023-07-08 04:24:00,367][828114] Fps is (10 sec: 9830.3, 60 sec: 9830.4, 300 sec: 10066.4). Total num frames: 4460544. Throughput: 0: 9887.5. Samples: 4434656. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:24:00,367][828114] Avg episode reward: [(0, '102.762')]
+[2023-07-08 04:24:00,453][828425] Updated weights for policy 0, policy_version 8720 (0.0005)
+[2023-07-08 04:24:04,509][828425] Updated weights for policy 0, policy_version 8800 (0.0005)
+[2023-07-08 04:24:05,367][828114] Fps is (10 sec: 10240.0, 60 sec: 9898.7, 300 sec: 10066.4). Total num frames: 4513792. Throughput: 0: 9953.2. Samples: 4496608. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:24:05,367][828114] Avg episode reward: [(0, '93.883')]
+[2023-07-08 04:24:08,600][828425] Updated weights for policy 0, policy_version 8880 (0.0005)
+[2023-07-08 04:24:10,367][828114] Fps is (10 sec: 10240.0, 60 sec: 9898.7, 300 sec: 10052.6). Total num frames: 4562944. Throughput: 0: 9963.6. Samples: 4556848. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:24:10,367][828114] Avg episode reward: [(0, '103.448')]
+[2023-07-08 04:24:10,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000008912_4562944.pth...
+[2023-07-08 04:24:10,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000008336_4268032.pth
+[2023-07-08 04:24:12,511][828425] Updated weights for policy 0, policy_version 8960 (0.0004)
+[2023-07-08 04:24:15,367][828114] Fps is (10 sec: 10239.9, 60 sec: 10035.2, 300 sec: 10052.6). Total num frames: 4616192. Throughput: 0: 9955.0. Samples: 4587624. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:24:15,367][828114] Avg episode reward: [(0, '107.114')]
+[2023-07-08 04:24:16,441][828425] Updated weights for policy 0, policy_version 9040 (0.0004)
+[2023-07-08 04:24:20,367][828114] Fps is (10 sec: 10240.1, 60 sec: 9966.9, 300 sec: 10038.7). Total num frames: 4665344. Throughput: 0: 9956.8. Samples: 4649512. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:24:20,367][828114] Avg episode reward: [(0, '86.168')]
+[2023-07-08 04:24:20,411][828425] Updated weights for policy 0, policy_version 9120 (0.0005)
+[2023-07-08 04:24:24,638][828425] Updated weights for policy 0, policy_version 9200 (0.0005)
+[2023-07-08 04:24:25,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9966.9, 300 sec: 10024.8). Total num frames: 4714496. Throughput: 0: 10003.9. Samples: 4710088. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:24:25,367][828114] Avg episode reward: [(0, '98.802')]
+[2023-07-08 04:24:25,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000009208_4714496.pth...
+[2023-07-08 04:24:25,372][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000008616_4411392.pth
+[2023-07-08 04:24:28,653][828425] Updated weights for policy 0, policy_version 9280 (0.0005)
+[2023-07-08 04:24:30,367][828114] Fps is (10 sec: 10240.0, 60 sec: 10035.2, 300 sec: 10024.8). Total num frames: 4767744. Throughput: 0: 10004.1. Samples: 4739680. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:24:30,367][828114] Avg episode reward: [(0, '89.809')]
+[2023-07-08 04:24:32,518][828425] Updated weights for policy 0, policy_version 9360 (0.0004)
+[2023-07-08 04:24:35,367][828114] Fps is (10 sec: 10649.7, 60 sec: 10035.2, 300 sec: 10024.8). Total num frames: 4820992. Throughput: 0: 10114.3. Samples: 4802980. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:24:35,367][828114] Avg episode reward: [(0, '90.711')]
+[2023-07-08 04:24:36,520][828425] Updated weights for policy 0, policy_version 9440 (0.0005)
+[2023-07-08 04:24:40,367][828114] Fps is (10 sec: 10239.9, 60 sec: 10035.2, 300 sec: 10010.9). Total num frames: 4870144. Throughput: 0: 10131.4. Samples: 4862128. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:24:40,367][828114] Avg episode reward: [(0, '96.871')]
+[2023-07-08 04:24:40,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000009512_4870144.pth...
+[2023-07-08 04:24:40,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000008912_4562944.pth
+[2023-07-08 04:24:40,752][828425] Updated weights for policy 0, policy_version 9520 (0.0005)
+[2023-07-08 04:24:44,982][828425] Updated weights for policy 0, policy_version 9600 (0.0005)
+[2023-07-08 04:24:45,367][828114] Fps is (10 sec: 9420.8, 60 sec: 10035.2, 300 sec: 9997.0). Total num frames: 4915200. Throughput: 0: 10149.6. Samples: 4891388. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:24:45,367][828114] Avg episode reward: [(0, '95.302')]
+[2023-07-08 04:24:49,076][828425] Updated weights for policy 0, policy_version 9680 (0.0005)
+[2023-07-08 04:24:50,367][828114] Fps is (10 sec: 9830.5, 60 sec: 10103.5, 300 sec: 10010.9). Total num frames: 4968448. Throughput: 0: 10108.7. Samples: 4951500. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:24:50,367][828114] Avg episode reward: [(0, '78.786')]
+[2023-07-08 04:24:53,335][828425] Updated weights for policy 0, policy_version 9760 (0.0005)
+[2023-07-08 04:24:55,367][828114] Fps is (10 sec: 9830.4, 60 sec: 10035.2, 300 sec: 9997.0). Total num frames: 5013504. Throughput: 0: 10053.2. Samples: 5009244. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:24:55,367][828114] Avg episode reward: [(0, '90.575')]
+[2023-07-08 04:24:55,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000009792_5013504.pth...
+[2023-07-08 04:24:55,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000009208_4714496.pth
+[2023-07-08 04:24:57,630][828425] Updated weights for policy 0, policy_version 9840 (0.0005)
+[2023-07-08 04:25:00,367][828114] Fps is (10 sec: 9420.8, 60 sec: 10035.2, 300 sec: 9997.0). Total num frames: 5062656. Throughput: 0: 10003.4. Samples: 5037776. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-08 04:25:00,367][828114] Avg episode reward: [(0, '81.138')]
+[2023-07-08 04:25:01,942][828425] Updated weights for policy 0, policy_version 9920 (0.0005)
+[2023-07-08 04:25:05,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9966.9, 300 sec: 9997.0). Total num frames: 5111808. Throughput: 0: 9890.9. Samples: 5094604. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-08 04:25:05,367][828114] Avg episode reward: [(0, '83.022')]
+[2023-07-08 04:25:06,189][828425] Updated weights for policy 0, policy_version 10000 (0.0005)
+[2023-07-08 04:25:10,367][828114] Fps is (10 sec: 9420.7, 60 sec: 9898.7, 300 sec: 9969.2). Total num frames: 5156864. Throughput: 0: 9833.0. Samples: 5152572. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:25:10,367][828114] Avg episode reward: [(0, '88.126')]
+[2023-07-08 04:25:10,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000010072_5156864.pth...
+[2023-07-08 04:25:10,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000009512_4870144.pth
+[2023-07-08 04:25:10,480][828425] Updated weights for policy 0, policy_version 10080 (0.0005)
+[2023-07-08 04:25:14,672][828425] Updated weights for policy 0, policy_version 10160 (0.0005)
+[2023-07-08 04:25:15,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9830.4, 300 sec: 9955.4). Total num frames: 5206016. Throughput: 0: 9816.8. Samples: 5181436. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-08 04:25:15,367][828114] Avg episode reward: [(0, '84.892')]
+[2023-07-08 04:25:18,998][828425] Updated weights for policy 0, policy_version 10240 (0.0005)
+[2023-07-08 04:25:20,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9830.4, 300 sec: 9955.4). Total num frames: 5255168. Throughput: 0: 9686.0. Samples: 5238848. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-08 04:25:20,367][828114] Avg episode reward: [(0, '83.881')]
+[2023-07-08 04:25:23,272][828425] Updated weights for policy 0, policy_version 10320 (0.0005)
+[2023-07-08 04:25:25,367][828114] Fps is (10 sec: 9420.7, 60 sec: 9762.1, 300 sec: 9927.6). Total num frames: 5300224. Throughput: 0: 9645.9. Samples: 5296192. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:25:25,367][828114] Avg episode reward: [(0, '84.326')]
+[2023-07-08 04:25:25,373][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000010360_5304320.pth...
+[2023-07-08 04:25:25,376][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000009792_5013504.pth
+[2023-07-08 04:25:27,505][828425] Updated weights for policy 0, policy_version 10400 (0.0005)
+[2023-07-08 04:25:30,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9693.9, 300 sec: 9913.7). Total num frames: 5349376. Throughput: 0: 9635.5. Samples: 5324984. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:25:30,367][828114] Avg episode reward: [(0, '90.276')]
+[2023-07-08 04:25:31,755][828425] Updated weights for policy 0, policy_version 10480 (0.0005)
+[2023-07-08 04:25:35,367][828114] Fps is (10 sec: 9830.5, 60 sec: 9625.6, 300 sec: 9899.8). Total num frames: 5398528. Throughput: 0: 9583.6. Samples: 5382764. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:25:35,367][828114] Avg episode reward: [(0, '97.932')]
+[2023-07-08 04:25:36,038][828425] Updated weights for policy 0, policy_version 10560 (0.0005)
+[2023-07-08 04:25:40,255][828425] Updated weights for policy 0, policy_version 10640 (0.0005)
+[2023-07-08 04:25:40,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9625.6, 300 sec: 9899.8). Total num frames: 5447680. Throughput: 0: 9585.8. Samples: 5440604. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:25:40,367][828114] Avg episode reward: [(0, '87.043')]
+[2023-07-08 04:25:40,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000010640_5447680.pth...
+[2023-07-08 04:25:40,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000010072_5156864.pth
+[2023-07-08 04:25:44,628][828425] Updated weights for policy 0, policy_version 10720 (0.0005)
+[2023-07-08 04:25:45,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9625.6, 300 sec: 9899.8). Total num frames: 5492736. Throughput: 0: 9587.0. Samples: 5469192. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:25:45,367][828114] Avg episode reward: [(0, '76.704')]
+[2023-07-08 04:25:48,848][828425] Updated weights for policy 0, policy_version 10800 (0.0005)
+[2023-07-08 04:25:50,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9557.3, 300 sec: 9899.8). Total num frames: 5541888. Throughput: 0: 9598.6. Samples: 5526540. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-08 04:25:50,367][828114] Avg episode reward: [(0, '81.814')]
+[2023-07-08 04:25:53,135][828425] Updated weights for policy 0, policy_version 10880 (0.0005)
+[2023-07-08 04:25:55,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9625.6, 300 sec: 9885.9). Total num frames: 5591040. Throughput: 0: 9586.2. Samples: 5583952. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-08 04:25:55,367][828114] Avg episode reward: [(0, '81.880')]
+[2023-07-08 04:25:55,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000010920_5591040.pth...
+[2023-07-08 04:25:55,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000010360_5304320.pth
+[2023-07-08 04:25:57,424][828425] Updated weights for policy 0, policy_version 10960 (0.0005)
+[2023-07-08 04:26:00,367][828114] Fps is (10 sec: 9420.9, 60 sec: 9557.3, 300 sec: 9872.1). Total num frames: 5636096. Throughput: 0: 9579.7. Samples: 5612524. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:26:00,367][828114] Avg episode reward: [(0, '77.128')]
+[2023-07-08 04:26:01,675][828425] Updated weights for policy 0, policy_version 11040 (0.0005)
+[2023-07-08 04:26:05,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9557.3, 300 sec: 9872.1). Total num frames: 5685248. Throughput: 0: 9595.2. Samples: 5670632. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:26:05,367][828114] Avg episode reward: [(0, '71.321')]
+[2023-07-08 04:26:05,943][828425] Updated weights for policy 0, policy_version 11120 (0.0005)
+[2023-07-08 04:26:10,246][828425] Updated weights for policy 0, policy_version 11200 (0.0005)
+[2023-07-08 04:26:10,367][828114] Fps is (10 sec: 9830.3, 60 sec: 9625.6, 300 sec: 9885.9). Total num frames: 5734400. Throughput: 0: 9590.1. Samples: 5727748. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:26:10,367][828114] Avg episode reward: [(0, '73.689')]
+[2023-07-08 04:26:10,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000011200_5734400.pth...
+[2023-07-08 04:26:10,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000010640_5447680.pth
+[2023-07-08 04:26:14,455][828425] Updated weights for policy 0, policy_version 11280 (0.0005)
+[2023-07-08 04:26:15,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9625.6, 300 sec: 9885.9). Total num frames: 5783552. Throughput: 0: 9580.9. Samples: 5756124. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:26:15,367][828114] Avg episode reward: [(0, '77.127')]
+[2023-07-08 04:26:18,708][828425] Updated weights for policy 0, policy_version 11360 (0.0005)
+[2023-07-08 04:26:20,367][828114] Fps is (10 sec: 9830.5, 60 sec: 9625.6, 300 sec: 9885.9). Total num frames: 5832704. Throughput: 0: 9604.1. Samples: 5814948. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:26:20,367][828114] Avg episode reward: [(0, '74.346')]
+[2023-07-08 04:26:22,799][828425] Updated weights for policy 0, policy_version 11440 (0.0004)
+[2023-07-08 04:26:25,367][828114] Fps is (10 sec: 9830.3, 60 sec: 9693.9, 300 sec: 9885.9). Total num frames: 5881856. Throughput: 0: 9651.6. Samples: 5874924. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:26:25,367][828114] Avg episode reward: [(0, '76.705')]
+[2023-07-08 04:26:25,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000011488_5881856.pth...
+[2023-07-08 04:26:25,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000010920_5591040.pth
+[2023-07-08 04:26:26,843][828425] Updated weights for policy 0, policy_version 11520 (0.0005)
+[2023-07-08 04:26:30,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9693.9, 300 sec: 9872.1). Total num frames: 5931008. Throughput: 0: 9697.2. Samples: 5905564. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:26:30,367][828114] Avg episode reward: [(0, '71.319')]
+[2023-07-08 04:26:30,865][828425] Updated weights for policy 0, policy_version 11600 (0.0004)
+[2023-07-08 04:26:34,949][828425] Updated weights for policy 0, policy_version 11680 (0.0005)
+[2023-07-08 04:26:35,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9693.9, 300 sec: 9858.2). Total num frames: 5980160. Throughput: 0: 9767.6. Samples: 5966084. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:26:35,367][828114] Avg episode reward: [(0, '81.683')]
+[2023-07-08 04:26:39,044][828425] Updated weights for policy 0, policy_version 11760 (0.0005)
+[2023-07-08 04:26:40,367][828114] Fps is (10 sec: 10239.9, 60 sec: 9762.1, 300 sec: 9885.9). Total num frames: 6033408. Throughput: 0: 9820.8. Samples: 6025888. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:26:40,367][828114] Avg episode reward: [(0, '83.011')]
+[2023-07-08 04:26:40,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000011784_6033408.pth...
+[2023-07-08 04:26:40,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000011200_5734400.pth
+[2023-07-08 04:26:43,168][828425] Updated weights for policy 0, policy_version 11840 (0.0005)
+[2023-07-08 04:26:45,367][828114] Fps is (10 sec: 10240.0, 60 sec: 9830.4, 300 sec: 9885.9). Total num frames: 6082560. Throughput: 0: 9846.0. Samples: 6055596. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:26:45,367][828114] Avg episode reward: [(0, '78.853')]
+[2023-07-08 04:26:47,258][828425] Updated weights for policy 0, policy_version 11920 (0.0005)
+[2023-07-08 04:26:50,367][828114] Fps is (10 sec: 9830.5, 60 sec: 9830.4, 300 sec: 9885.9). Total num frames: 6131712. Throughput: 0: 9893.0. Samples: 6115816. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:26:50,367][828114] Avg episode reward: [(0, '82.878')]
+[2023-07-08 04:26:51,295][828425] Updated weights for policy 0, policy_version 12000 (0.0005)
+[2023-07-08 04:26:55,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9830.4, 300 sec: 9872.1). Total num frames: 6180864. Throughput: 0: 9942.1. Samples: 6175144. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:26:55,367][828114] Avg episode reward: [(0, '80.051')]
+[2023-07-08 04:26:55,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000012072_6180864.pth...
+[2023-07-08 04:26:55,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000011488_5881856.pth
+[2023-07-08 04:26:55,587][828425] Updated weights for policy 0, policy_version 12080 (0.0005)
+[2023-07-08 04:26:59,980][828425] Updated weights for policy 0, policy_version 12160 (0.0005)
+[2023-07-08 04:27:00,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9830.4, 300 sec: 9858.2). Total num frames: 6225920. Throughput: 0: 9940.1. Samples: 6203428. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-08 04:27:00,367][828114] Avg episode reward: [(0, '90.610')]
+[2023-07-08 04:27:04,252][828425] Updated weights for policy 0, policy_version 12240 (0.0005)
+[2023-07-08 04:27:05,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9830.4, 300 sec: 9844.3). Total num frames: 6275072. Throughput: 0: 9902.7. Samples: 6260572. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-08 04:27:05,367][828114] Avg episode reward: [(0, '83.304')]
+[2023-07-08 04:27:08,654][828425] Updated weights for policy 0, policy_version 12320 (0.0005)
+[2023-07-08 04:27:10,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9830.4, 300 sec: 9844.3). Total num frames: 6324224. Throughput: 0: 9804.0. Samples: 6316104. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:27:10,367][828114] Avg episode reward: [(0, '94.243')]
+[2023-07-08 04:27:10,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000012352_6324224.pth...
+[2023-07-08 04:27:10,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000011784_6033408.pth
+[2023-07-08 04:27:13,023][828425] Updated weights for policy 0, policy_version 12400 (0.0005)
+[2023-07-08 04:27:15,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9762.1, 300 sec: 9830.4). Total num frames: 6369280. Throughput: 0: 9759.0. Samples: 6344720. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:27:15,367][828114] Avg episode reward: [(0, '95.192')]
+[2023-07-08 04:27:17,047][828425] Updated weights for policy 0, policy_version 12480 (0.0004)
+[2023-07-08 04:27:20,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9830.4, 300 sec: 9844.3). Total num frames: 6422528. Throughput: 0: 9745.3. Samples: 6404624. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:27:20,367][828114] Avg episode reward: [(0, '82.635')]
+[2023-07-08 04:27:21,082][828425] Updated weights for policy 0, policy_version 12560 (0.0005)
+[2023-07-08 04:27:25,086][828425] Updated weights for policy 0, policy_version 12640 (0.0004)
+[2023-07-08 04:27:25,367][828114] Fps is (10 sec: 10240.0, 60 sec: 9830.4, 300 sec: 9844.3). Total num frames: 6471680. Throughput: 0: 9779.2. Samples: 6465952. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:27:25,367][828114] Avg episode reward: [(0, '85.630')]
+[2023-07-08 04:27:25,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000012640_6471680.pth...
+[2023-07-08 04:27:25,372][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000012072_6180864.pth
+[2023-07-08 04:27:29,455][828425] Updated weights for policy 0, policy_version 12720 (0.0005)
+[2023-07-08 04:27:30,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9830.4, 300 sec: 9844.3). Total num frames: 6520832. Throughput: 0: 9759.7. Samples: 6494784. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:27:30,367][828114] Avg episode reward: [(0, '79.402')]
+[2023-07-08 04:27:33,695][828425] Updated weights for policy 0, policy_version 12800 (0.0005)
+[2023-07-08 04:27:35,367][828114] Fps is (10 sec: 9420.9, 60 sec: 9762.1, 300 sec: 9830.4). Total num frames: 6565888. Throughput: 0: 9703.6. Samples: 6552480. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:27:35,367][828114] Avg episode reward: [(0, '86.010')]
+[2023-07-08 04:27:38,115][828425] Updated weights for policy 0, policy_version 12880 (0.0005)
+[2023-07-08 04:27:40,367][828114] Fps is (10 sec: 9420.7, 60 sec: 9693.9, 300 sec: 9816.5). Total num frames: 6615040. Throughput: 0: 9623.0. Samples: 6608180. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:27:40,367][828114] Avg episode reward: [(0, '81.901')]
+[2023-07-08 04:27:40,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000012920_6615040.pth...
+[2023-07-08 04:27:40,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000012352_6324224.pth
+[2023-07-08 04:27:42,392][828425] Updated weights for policy 0, policy_version 12960 (0.0004)
+[2023-07-08 04:27:45,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9625.6, 300 sec: 9802.6). Total num frames: 6660096. Throughput: 0: 9637.7. Samples: 6637124. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:27:45,367][828114] Avg episode reward: [(0, '82.073')]
+[2023-07-08 04:27:46,692][828425] Updated weights for policy 0, policy_version 13040 (0.0005)
+[2023-07-08 04:27:50,367][828114] Fps is (10 sec: 9420.9, 60 sec: 9625.6, 300 sec: 9788.7). Total num frames: 6709248. Throughput: 0: 9622.9. Samples: 6693604. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:27:50,367][828114] Avg episode reward: [(0, '75.711')]
+[2023-07-08 04:27:51,018][828425] Updated weights for policy 0, policy_version 13120 (0.0005)
+[2023-07-08 04:27:55,367][828114] Fps is (10 sec: 9420.7, 60 sec: 9557.3, 300 sec: 9774.9). Total num frames: 6754304. Throughput: 0: 9648.2. Samples: 6750272. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:27:55,367][828114] Avg episode reward: [(0, '80.739')]
+[2023-07-08 04:27:55,402][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000013200_6758400.pth...
+[2023-07-08 04:27:55,402][828425] Updated weights for policy 0, policy_version 13200 (0.0005)
+[2023-07-08 04:27:55,404][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000012640_6471680.pth
+[2023-07-08 04:27:59,790][828425] Updated weights for policy 0, policy_version 13280 (0.0005)
+[2023-07-08 04:28:00,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9625.6, 300 sec: 9774.9). Total num frames: 6803456. Throughput: 0: 9648.0. Samples: 6778880. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:28:00,367][828114] Avg episode reward: [(0, '72.279')]
+[2023-07-08 04:28:04,096][828425] Updated weights for policy 0, policy_version 13360 (0.0005)
+[2023-07-08 04:28:05,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9625.6, 300 sec: 9774.9). Total num frames: 6852608. Throughput: 0: 9566.2. Samples: 6835104. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:28:05,367][828114] Avg episode reward: [(0, '76.244')]
+[2023-07-08 04:28:08,235][828425] Updated weights for policy 0, policy_version 13440 (0.0005)
+[2023-07-08 04:28:10,367][828114] Fps is (10 sec: 9830.3, 60 sec: 9625.6, 300 sec: 9788.7). Total num frames: 6901760. Throughput: 0: 9525.2. Samples: 6894588. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2023-07-08 04:28:10,367][828114] Avg episode reward: [(0, '72.731')]
+[2023-07-08 04:28:10,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000013480_6901760.pth...
+[2023-07-08 04:28:10,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000012920_6615040.pth
+[2023-07-08 04:28:12,330][828425] Updated weights for policy 0, policy_version 13520 (0.0004)
+[2023-07-08 04:28:15,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9693.9, 300 sec: 9774.9). Total num frames: 6950912. Throughput: 0: 9548.0. Samples: 6924444. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2023-07-08 04:28:15,367][828114] Avg episode reward: [(0, '80.974')]
+[2023-07-08 04:28:16,453][828425] Updated weights for policy 0, policy_version 13600 (0.0005)
+[2023-07-08 04:28:20,367][828114] Fps is (10 sec: 9830.5, 60 sec: 9625.6, 300 sec: 9774.9). Total num frames: 7000064. Throughput: 0: 9600.9. Samples: 6984520. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:28:20,367][828114] Avg episode reward: [(0, '78.465')]
+[2023-07-08 04:28:20,533][828425] Updated weights for policy 0, policy_version 13680 (0.0005)
+[2023-07-08 04:28:24,641][828425] Updated weights for policy 0, policy_version 13760 (0.0004)
+[2023-07-08 04:28:25,367][828114] Fps is (10 sec: 9830.2, 60 sec: 9625.6, 300 sec: 9774.9). Total num frames: 7049216. Throughput: 0: 9692.7. Samples: 7044352. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:28:25,367][828114] Avg episode reward: [(0, '85.783')]
+[2023-07-08 04:28:25,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000013768_7049216.pth...
+[2023-07-08 04:28:25,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000013200_6758400.pth
+[2023-07-08 04:28:28,745][828425] Updated weights for policy 0, policy_version 13840 (0.0004)
+[2023-07-08 04:28:30,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9625.6, 300 sec: 9761.0). Total num frames: 7098368. Throughput: 0: 9710.6. Samples: 7074100. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:28:30,367][828114] Avg episode reward: [(0, '82.463')]
+[2023-07-08 04:28:32,917][828425] Updated weights for policy 0, policy_version 13920 (0.0003)
+[2023-07-08 04:28:35,367][828114] Fps is (10 sec: 9830.7, 60 sec: 9693.9, 300 sec: 9761.0). Total num frames: 7147520. Throughput: 0: 9779.5. Samples: 7133680. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:28:35,367][828114] Avg episode reward: [(0, '73.983')]
+[2023-07-08 04:28:37,098][828425] Updated weights for policy 0, policy_version 14000 (0.0004)
+[2023-07-08 04:28:40,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9693.9, 300 sec: 9774.9). Total num frames: 7196672. Throughput: 0: 9829.3. Samples: 7192588. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:28:40,367][828114] Avg episode reward: [(0, '70.849')]
+[2023-07-08 04:28:40,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000014064_7200768.pth...
+[2023-07-08 04:28:40,372][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000013480_6901760.pth
+[2023-07-08 04:28:41,190][828425] Updated weights for policy 0, policy_version 14080 (0.0003)
+[2023-07-08 04:28:45,308][828425] Updated weights for policy 0, policy_version 14160 (0.0005)
+[2023-07-08 04:28:45,367][828114] Fps is (10 sec: 10239.9, 60 sec: 9830.4, 300 sec: 9788.7). Total num frames: 7249920. Throughput: 0: 9852.4. Samples: 7222240. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:28:45,367][828114] Avg episode reward: [(0, '75.385')]
+[2023-07-08 04:28:49,590][828425] Updated weights for policy 0, policy_version 14240 (0.0006)
+[2023-07-08 04:28:50,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9762.1, 300 sec: 9774.9). Total num frames: 7294976. Throughput: 0: 9911.1. Samples: 7281104. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:28:50,367][828114] Avg episode reward: [(0, '79.491')]
+[2023-07-08 04:28:53,953][828425] Updated weights for policy 0, policy_version 14320 (0.0005)
+[2023-07-08 04:28:55,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9830.4, 300 sec: 9774.9). Total num frames: 7344128. Throughput: 0: 9849.8. Samples: 7337828. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:28:55,367][828114] Avg episode reward: [(0, '68.952')]
+[2023-07-08 04:28:55,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000014344_7344128.pth...
+[2023-07-08 04:28:55,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000013768_7049216.pth
+[2023-07-08 04:28:58,298][828425] Updated weights for policy 0, policy_version 14400 (0.0005)
+[2023-07-08 04:29:00,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9830.4, 300 sec: 9761.0). Total num frames: 7393280. Throughput: 0: 9806.4. Samples: 7365732. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:29:00,367][828114] Avg episode reward: [(0, '77.539')]
+[2023-07-08 04:29:02,376][828425] Updated weights for policy 0, policy_version 14480 (0.0005)
+[2023-07-08 04:29:05,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9830.4, 300 sec: 9761.0). Total num frames: 7442432. Throughput: 0: 9810.7. Samples: 7426000. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:29:05,367][828114] Avg episode reward: [(0, '72.278')]
+[2023-07-08 04:29:06,439][828425] Updated weights for policy 0, policy_version 14560 (0.0004)
+[2023-07-08 04:29:10,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9830.4, 300 sec: 9747.1). Total num frames: 7491584. Throughput: 0: 9818.8. Samples: 7486196. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:29:10,367][828114] Avg episode reward: [(0, '74.471')]
+[2023-07-08 04:29:10,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000014632_7491584.pth...
+[2023-07-08 04:29:10,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000014064_7200768.pth
+[2023-07-08 04:29:10,517][828425] Updated weights for policy 0, policy_version 14640 (0.0004)
+[2023-07-08 04:29:14,770][828425] Updated weights for policy 0, policy_version 14720 (0.0005)
+[2023-07-08 04:29:15,367][828114] Fps is (10 sec: 9830.5, 60 sec: 9830.4, 300 sec: 9747.1). Total num frames: 7540736. Throughput: 0: 9802.7. Samples: 7515220. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:29:15,367][828114] Avg episode reward: [(0, '73.585')]
+[2023-07-08 04:29:18,945][828425] Updated weights for policy 0, policy_version 14800 (0.0005)
+[2023-07-08 04:29:20,367][828114] Fps is (10 sec: 9830.5, 60 sec: 9830.4, 300 sec: 9747.1). Total num frames: 7589888. Throughput: 0: 9780.4. Samples: 7573800. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:29:20,367][828114] Avg episode reward: [(0, '72.965')]
+[2023-07-08 04:29:23,103][828425] Updated weights for policy 0, policy_version 14880 (0.0005)
+[2023-07-08 04:29:25,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9830.4, 300 sec: 9733.2). Total num frames: 7639040. Throughput: 0: 9790.7. Samples: 7633172. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:29:25,367][828114] Avg episode reward: [(0, '74.313')]
+[2023-07-08 04:29:25,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000014920_7639040.pth...
+[2023-07-08 04:29:25,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000014344_7344128.pth
+[2023-07-08 04:29:27,218][828425] Updated weights for policy 0, policy_version 14960 (0.0005)
+[2023-07-08 04:29:30,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9830.4, 300 sec: 9719.3). Total num frames: 7688192. Throughput: 0: 9795.9. Samples: 7663056. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:29:30,367][828114] Avg episode reward: [(0, '78.129')]
+[2023-07-08 04:29:31,256][828425] Updated weights for policy 0, policy_version 15040 (0.0004)
+[2023-07-08 04:29:35,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9830.4, 300 sec: 9719.3). Total num frames: 7737344. Throughput: 0: 9830.0. Samples: 7723456. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:29:35,367][828114] Avg episode reward: [(0, '74.945')]
+[2023-07-08 04:29:35,372][828425] Updated weights for policy 0, policy_version 15120 (0.0005)
+[2023-07-08 04:29:39,510][828425] Updated weights for policy 0, policy_version 15200 (0.0005)
+[2023-07-08 04:29:40,367][828114] Fps is (10 sec: 10239.9, 60 sec: 9898.6, 300 sec: 9747.1). Total num frames: 7790592. Throughput: 0: 9882.1. Samples: 7782524. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:29:40,367][828114] Avg episode reward: [(0, '72.436')]
+[2023-07-08 04:29:40,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000015216_7790592.pth...
+[2023-07-08 04:29:40,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000014632_7491584.pth
+[2023-07-08 04:29:43,654][828425] Updated weights for policy 0, policy_version 15280 (0.0005)
+[2023-07-08 04:29:45,367][828114] Fps is (10 sec: 10240.0, 60 sec: 9830.4, 300 sec: 9733.2). Total num frames: 7839744. Throughput: 0: 9926.7. Samples: 7812432. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:29:45,367][828114] Avg episode reward: [(0, '75.544')]
+[2023-07-08 04:29:47,942][828425] Updated weights for policy 0, policy_version 15360 (0.0005)
+[2023-07-08 04:29:50,367][828114] Fps is (10 sec: 9420.9, 60 sec: 9830.4, 300 sec: 9733.2). Total num frames: 7884800. Throughput: 0: 9868.3. Samples: 7870072. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:29:50,367][828114] Avg episode reward: [(0, '81.302')]
+[2023-07-08 04:29:52,382][828425] Updated weights for policy 0, policy_version 15440 (0.0005)
+[2023-07-08 04:29:55,367][828114] Fps is (10 sec: 9011.2, 60 sec: 9762.1, 300 sec: 9719.3). Total num frames: 7929856. Throughput: 0: 9768.3. Samples: 7925768. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:29:55,367][828114] Avg episode reward: [(0, '82.246')]
+[2023-07-08 04:29:55,369][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000015488_7929856.pth...
+[2023-07-08 04:29:55,372][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000014920_7639040.pth
+[2023-07-08 04:29:56,819][828425] Updated weights for policy 0, policy_version 15520 (0.0005)
+[2023-07-08 04:30:00,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9762.1, 300 sec: 9719.3). Total num frames: 7979008. Throughput: 0: 9744.8. Samples: 7953736. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:30:00,367][828114] Avg episode reward: [(0, '82.824')]
+[2023-07-08 04:30:01,232][828425] Updated weights for policy 0, policy_version 15600 (0.0005)
+[2023-07-08 04:30:05,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9693.9, 300 sec: 9719.3). Total num frames: 8024064. Throughput: 0: 9680.2. Samples: 8009408. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:30:05,367][828114] Avg episode reward: [(0, '95.712')]
+[2023-07-08 04:30:05,561][828425] Updated weights for policy 0, policy_version 15680 (0.0005)
+[2023-07-08 04:30:09,883][828425] Updated weights for policy 0, policy_version 15760 (0.0005)
+[2023-07-08 04:30:10,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9693.9, 300 sec: 9719.3). Total num frames: 8073216. Throughput: 0: 9613.9. Samples: 8065796. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:30:10,367][828114] Avg episode reward: [(0, '90.240')]
+[2023-07-08 04:30:10,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000015768_8073216.pth...
+[2023-07-08 04:30:10,372][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000015216_7790592.pth
+[2023-07-08 04:30:14,359][828425] Updated weights for policy 0, policy_version 15840 (0.0005)
+[2023-07-08 04:30:15,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9625.6, 300 sec: 9705.4). Total num frames: 8118272. Throughput: 0: 9569.9. Samples: 8093704. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:30:15,367][828114] Avg episode reward: [(0, '109.452')]
+[2023-07-08 04:30:18,730][828425] Updated weights for policy 0, policy_version 15920 (0.0005)
+[2023-07-08 04:30:20,367][828114] Fps is (10 sec: 9011.2, 60 sec: 9557.3, 300 sec: 9705.4). Total num frames: 8163328. Throughput: 0: 9470.4. Samples: 8149624. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-08 04:30:20,367][828114] Avg episode reward: [(0, '80.062')]
+[2023-07-08 04:30:23,162][828425] Updated weights for policy 0, policy_version 16000 (0.0005)
+[2023-07-08 04:30:25,367][828114] Fps is (10 sec: 9420.7, 60 sec: 9557.3, 300 sec: 9705.4). Total num frames: 8212480. Throughput: 0: 9379.1. Samples: 8204584. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-08 04:30:25,367][828114] Avg episode reward: [(0, '89.060')]
+[2023-07-08 04:30:25,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000016040_8212480.pth...
+[2023-07-08 04:30:25,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000015488_7929856.pth
+[2023-07-08 04:30:27,554][828425] Updated weights for policy 0, policy_version 16080 (0.0004)
+[2023-07-08 04:30:30,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9489.1, 300 sec: 9691.6). Total num frames: 8257536. Throughput: 0: 9345.3. Samples: 8232968. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:30:30,367][828114] Avg episode reward: [(0, '90.278')]
+[2023-07-08 04:30:31,848][828425] Updated weights for policy 0, policy_version 16160 (0.0004)
+[2023-07-08 04:30:35,367][828114] Fps is (10 sec: 9420.9, 60 sec: 9489.1, 300 sec: 9691.6). Total num frames: 8306688. Throughput: 0: 9338.7. Samples: 8290312. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:30:35,367][828114] Avg episode reward: [(0, '85.978')]
+[2023-07-08 04:30:36,219][828425] Updated weights for policy 0, policy_version 16240 (0.0005)
+[2023-07-08 04:30:40,367][828114] Fps is (10 sec: 9420.7, 60 sec: 9352.5, 300 sec: 9691.6). Total num frames: 8351744. Throughput: 0: 9340.9. Samples: 8346108. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-08 04:30:40,367][828114] Avg episode reward: [(0, '93.717')]
+[2023-07-08 04:30:40,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000016312_8351744.pth...
+[2023-07-08 04:30:40,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000015768_8073216.pth
+[2023-07-08 04:30:40,623][828425] Updated weights for policy 0, policy_version 16320 (0.0005)
+[2023-07-08 04:30:44,981][828425] Updated weights for policy 0, policy_version 16400 (0.0005)
+[2023-07-08 04:30:45,367][828114] Fps is (10 sec: 9011.0, 60 sec: 9284.2, 300 sec: 9677.7). Total num frames: 8396800. Throughput: 0: 9336.0. Samples: 8373856. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-08 04:30:45,368][828114] Avg episode reward: [(0, '103.141')]
+[2023-07-08 04:30:49,409][828425] Updated weights for policy 0, policy_version 16480 (0.0005)
+[2023-07-08 04:30:50,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9352.5, 300 sec: 9677.7). Total num frames: 8445952. Throughput: 0: 9342.8. Samples: 8429836. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-08 04:30:50,367][828114] Avg episode reward: [(0, '96.064')]
+[2023-07-08 04:30:53,751][828425] Updated weights for policy 0, policy_version 16560 (0.0005)
+[2023-07-08 04:30:55,367][828114] Fps is (10 sec: 9420.9, 60 sec: 9352.5, 300 sec: 9677.7). Total num frames: 8491008. Throughput: 0: 9354.8. Samples: 8486764. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:30:55,367][828114] Avg episode reward: [(0, '92.044')]
+[2023-07-08 04:30:55,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000016584_8491008.pth...
+[2023-07-08 04:30:55,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000016040_8212480.pth
+[2023-07-08 04:30:58,095][828425] Updated weights for policy 0, policy_version 16640 (0.0005)
+[2023-07-08 04:31:00,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9352.5, 300 sec: 9677.7). Total num frames: 8540160. Throughput: 0: 9355.9. Samples: 8514720. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:31:00,367][828114] Avg episode reward: [(0, '103.004')]
+[2023-07-08 04:31:02,405][828425] Updated weights for policy 0, policy_version 16720 (0.0005)
+[2023-07-08 04:31:05,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9352.5, 300 sec: 9663.8). Total num frames: 8585216. Throughput: 0: 9388.7. Samples: 8572116. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:31:05,367][828114] Avg episode reward: [(0, '91.630')]
+[2023-07-08 04:31:06,562][828425] Updated weights for policy 0, policy_version 16800 (0.0005)
+[2023-07-08 04:31:10,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9420.8, 300 sec: 9677.7). Total num frames: 8638464. Throughput: 0: 9487.0. Samples: 8631500. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:31:10,367][828114] Avg episode reward: [(0, '87.673')]
+[2023-07-08 04:31:10,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000016872_8638464.pth...
+[2023-07-08 04:31:10,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000016312_8351744.pth
+[2023-07-08 04:31:10,661][828425] Updated weights for policy 0, policy_version 16880 (0.0005)
+[2023-07-08 04:31:14,749][828425] Updated weights for policy 0, policy_version 16960 (0.0005)
+[2023-07-08 04:31:15,367][828114] Fps is (10 sec: 10240.0, 60 sec: 9489.1, 300 sec: 9677.7). Total num frames: 8687616. Throughput: 0: 9525.9. Samples: 8661632. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:31:15,367][828114] Avg episode reward: [(0, '91.072')]
+[2023-07-08 04:31:19,038][828425] Updated weights for policy 0, policy_version 17040 (0.0005)
+[2023-07-08 04:31:20,367][828114] Fps is (10 sec: 9830.3, 60 sec: 9557.3, 300 sec: 9677.7). Total num frames: 8736768. Throughput: 0: 9557.1. Samples: 8720384. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:31:20,367][828114] Avg episode reward: [(0, '93.727')]
+[2023-07-08 04:31:23,381][828425] Updated weights for policy 0, policy_version 17120 (0.0005)
+[2023-07-08 04:31:25,367][828114] Fps is (10 sec: 9420.7, 60 sec: 9489.1, 300 sec: 9663.8). Total num frames: 8781824. Throughput: 0: 9584.1. Samples: 8777392. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:31:25,367][828114] Avg episode reward: [(0, '83.834')]
+[2023-07-08 04:31:25,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000017152_8781824.pth...
+[2023-07-08 04:31:25,372][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000016584_8491008.pth
+[2023-07-08 04:31:27,505][828425] Updated weights for policy 0, policy_version 17200 (0.0005)
+[2023-07-08 04:31:30,367][828114] Fps is (10 sec: 9420.9, 60 sec: 9557.3, 300 sec: 9663.8). Total num frames: 8830976. Throughput: 0: 9615.3. Samples: 8806544. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-08 04:31:30,367][828114] Avg episode reward: [(0, '86.401')]
+[2023-07-08 04:31:31,879][828425] Updated weights for policy 0, policy_version 17280 (0.0005)
+[2023-07-08 04:31:35,367][828114] Fps is (10 sec: 9420.9, 60 sec: 9489.1, 300 sec: 9636.0). Total num frames: 8876032. Throughput: 0: 9640.4. Samples: 8863652. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-08 04:31:35,367][828114] Avg episode reward: [(0, '83.586')]
+[2023-07-08 04:31:36,301][828425] Updated weights for policy 0, policy_version 17360 (0.0005)
+[2023-07-08 04:31:40,367][828114] Fps is (10 sec: 9420.7, 60 sec: 9557.3, 300 sec: 9636.0). Total num frames: 8925184. Throughput: 0: 9590.1. Samples: 8918320. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:31:40,367][828114] Avg episode reward: [(0, '80.939')]
+[2023-07-08 04:31:40,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000017432_8925184.pth...
+[2023-07-08 04:31:40,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000016872_8638464.pth
+[2023-07-08 04:31:40,739][828425] Updated weights for policy 0, policy_version 17440 (0.0005)
+[2023-07-08 04:31:45,126][828425] Updated weights for policy 0, policy_version 17520 (0.0005)
+[2023-07-08 04:31:45,367][828114] Fps is (10 sec: 9420.7, 60 sec: 9557.4, 300 sec: 9622.1). Total num frames: 8970240. Throughput: 0: 9589.3. Samples: 8946240. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:31:45,367][828114] Avg episode reward: [(0, '76.373')]
+[2023-07-08 04:31:49,523][828425] Updated weights for policy 0, policy_version 17600 (0.0005)
+[2023-07-08 04:31:50,367][828114] Fps is (10 sec: 9011.4, 60 sec: 9489.1, 300 sec: 9608.2). Total num frames: 9015296. Throughput: 0: 9569.5. Samples: 9002744. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:31:50,367][828114] Avg episode reward: [(0, '82.816')]
+[2023-07-08 04:31:53,938][828425] Updated weights for policy 0, policy_version 17680 (0.0005)
+[2023-07-08 04:31:55,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9557.3, 300 sec: 9622.1). Total num frames: 9064448. Throughput: 0: 9481.4. Samples: 9058164. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:31:55,367][828114] Avg episode reward: [(0, '81.184')]
+[2023-07-08 04:31:55,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000017704_9064448.pth...
+[2023-07-08 04:31:55,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000017152_8781824.pth
+[2023-07-08 04:31:58,260][828425] Updated weights for policy 0, policy_version 17760 (0.0005)
+[2023-07-08 04:32:00,367][828114] Fps is (10 sec: 9420.7, 60 sec: 9489.1, 300 sec: 9608.2). Total num frames: 9109504. Throughput: 0: 9449.2. Samples: 9086848. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:32:00,367][828114] Avg episode reward: [(0, '93.448')]
+[2023-07-08 04:32:02,569][828425] Updated weights for policy 0, policy_version 17840 (0.0005)
+[2023-07-08 04:32:05,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9557.3, 300 sec: 9608.2). Total num frames: 9158656. Throughput: 0: 9408.0. Samples: 9143744. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:32:05,367][828114] Avg episode reward: [(0, '78.305')]
+[2023-07-08 04:32:06,761][828425] Updated weights for policy 0, policy_version 17920 (0.0005)
+[2023-07-08 04:32:10,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9489.1, 300 sec: 9622.1). Total num frames: 9207808. Throughput: 0: 9455.7. Samples: 9202900. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:32:10,367][828114] Avg episode reward: [(0, '73.936')]
+[2023-07-08 04:32:10,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000017984_9207808.pth...
+[2023-07-08 04:32:10,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000017432_8925184.pth
+[2023-07-08 04:32:10,902][828425] Updated weights for policy 0, policy_version 18000 (0.0005)
+[2023-07-08 04:32:15,246][828425] Updated weights for policy 0, policy_version 18080 (0.0005)
+[2023-07-08 04:32:15,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9489.1, 300 sec: 9608.2). Total num frames: 9256960. Throughput: 0: 9457.4. Samples: 9232128. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:32:15,367][828114] Avg episode reward: [(0, '74.643')]
+[2023-07-08 04:32:19,575][828425] Updated weights for policy 0, policy_version 18160 (0.0005)
+[2023-07-08 04:32:20,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9420.8, 300 sec: 9594.4). Total num frames: 9302016. Throughput: 0: 9430.1. Samples: 9288008. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:32:20,367][828114] Avg episode reward: [(0, '78.650')]
+[2023-07-08 04:32:23,670][828425] Updated weights for policy 0, policy_version 18240 (0.0005)
+[2023-07-08 04:32:25,367][828114] Fps is (10 sec: 9830.3, 60 sec: 9557.3, 300 sec: 9608.2). Total num frames: 9355264. Throughput: 0: 9533.3. Samples: 9347320. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:32:25,367][828114] Avg episode reward: [(0, '73.791')]
+[2023-07-08 04:32:25,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000018272_9355264.pth...
+[2023-07-08 04:32:25,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000017704_9064448.pth
+[2023-07-08 04:32:28,070][828425] Updated weights for policy 0, policy_version 18320 (0.0006)
+[2023-07-08 04:32:30,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9489.1, 300 sec: 9608.2). Total num frames: 9400320. Throughput: 0: 9544.5. Samples: 9375744. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-08 04:32:30,367][828114] Avg episode reward: [(0, '80.719')]
+[2023-07-08 04:32:32,474][828425] Updated weights for policy 0, policy_version 18400 (0.0005)
+[2023-07-08 04:32:35,367][828114] Fps is (10 sec: 9011.3, 60 sec: 9489.1, 300 sec: 9594.4). Total num frames: 9445376. Throughput: 0: 9530.4. Samples: 9431612. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:32:35,367][828114] Avg episode reward: [(0, '77.666')]
+[2023-07-08 04:32:36,594][828425] Updated weights for policy 0, policy_version 18480 (0.0005)
+[2023-07-08 04:32:40,367][828114] Fps is (10 sec: 9420.8, 60 sec: 9489.1, 300 sec: 9608.2). Total num frames: 9494528. Throughput: 0: 9607.4. Samples: 9490496. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:32:40,367][828114] Avg episode reward: [(0, '76.570')]
+[2023-07-08 04:32:40,372][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000018552_9498624.pth...
+[2023-07-08 04:32:40,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000017984_9207808.pth
+[2023-07-08 04:32:40,809][828425] Updated weights for policy 0, policy_version 18560 (0.0005)
+[2023-07-08 04:32:44,904][828425] Updated weights for policy 0, policy_version 18640 (0.0005)
+[2023-07-08 04:32:45,367][828114] Fps is (10 sec: 10239.9, 60 sec: 9625.6, 300 sec: 9622.1). Total num frames: 9547776. Throughput: 0: 9622.9. Samples: 9519876. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:32:45,367][828114] Avg episode reward: [(0, '72.678')]
+[2023-07-08 04:32:49,092][828425] Updated weights for policy 0, policy_version 18720 (0.0005)
+[2023-07-08 04:32:50,367][828114] Fps is (10 sec: 10240.0, 60 sec: 9693.9, 300 sec: 9636.0). Total num frames: 9596928. Throughput: 0: 9689.6. Samples: 9579776. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:32:50,367][828114] Avg episode reward: [(0, '71.630')]
+[2023-07-08 04:32:53,193][828425] Updated weights for policy 0, policy_version 18800 (0.0005)
+[2023-07-08 04:32:55,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9693.9, 300 sec: 9636.0). Total num frames: 9646080. Throughput: 0: 9698.3. Samples: 9639324. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-08 04:32:55,375][828114] Avg episode reward: [(0, '73.160')]
+[2023-07-08 04:32:55,378][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000018840_9646080.pth...
+[2023-07-08 04:32:55,381][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000018272_9355264.pth
+[2023-07-08 04:32:57,318][828425] Updated weights for policy 0, policy_version 18880 (0.0005)
+[2023-07-08 04:33:00,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9762.1, 300 sec: 9636.0). Total num frames: 9695232. Throughput: 0: 9706.8. Samples: 9668936. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:33:00,367][828114] Avg episode reward: [(0, '81.313')]
+[2023-07-08 04:33:01,508][828425] Updated weights for policy 0, policy_version 18960 (0.0005)
+[2023-07-08 04:33:05,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9762.1, 300 sec: 9636.0). Total num frames: 9744384. Throughput: 0: 9762.0. Samples: 9727296. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-08 04:33:05,367][828114] Avg episode reward: [(0, '77.864')]
+[2023-07-08 04:33:05,749][828425] Updated weights for policy 0, policy_version 19040 (0.0005)
+[2023-07-08 04:33:10,115][828425] Updated weights for policy 0, policy_version 19120 (0.0005)
+[2023-07-08 04:33:10,367][828114] Fps is (10 sec: 9420.7, 60 sec: 9693.9, 300 sec: 9622.1). Total num frames: 9789440. Throughput: 0: 9710.0. Samples: 9784268. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:33:10,367][828114] Avg episode reward: [(0, '75.221')]
+[2023-07-08 04:33:10,371][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000019120_9789440.pth...
+[2023-07-08 04:33:10,374][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000018552_9498624.pth
+[2023-07-08 04:33:14,392][828425] Updated weights for policy 0, policy_version 19200 (0.0005)
+[2023-07-08 04:33:15,367][828114] Fps is (10 sec: 9420.9, 60 sec: 9693.9, 300 sec: 9622.1). Total num frames: 9838592. Throughput: 0: 9708.1. Samples: 9812608. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:33:15,367][828114] Avg episode reward: [(0, '76.785')]
+[2023-07-08 04:33:18,551][828425] Updated weights for policy 0, policy_version 19280 (0.0005)
+[2023-07-08 04:33:20,367][828114] Fps is (10 sec: 9830.5, 60 sec: 9762.1, 300 sec: 9622.1). Total num frames: 9887744. Throughput: 0: 9772.3. Samples: 9871368. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:33:20,367][828114] Avg episode reward: [(0, '76.624')]
+[2023-07-08 04:33:22,655][828425] Updated weights for policy 0, policy_version 19360 (0.0004)
+[2023-07-08 04:33:25,367][828114] Fps is (10 sec: 9830.3, 60 sec: 9693.9, 300 sec: 9622.1). Total num frames: 9936896. Throughput: 0: 9774.4. Samples: 9930344. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:33:25,367][828114] Avg episode reward: [(0, '76.580')]
+[2023-07-08 04:33:25,370][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000019408_9936896.pth...
+[2023-07-08 04:33:25,373][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000018840_9646080.pth
+[2023-07-08 04:33:26,851][828425] Updated weights for policy 0, policy_version 19440 (0.0005)
+[2023-07-08 04:33:30,367][828114] Fps is (10 sec: 9830.4, 60 sec: 9762.1, 300 sec: 9622.1). Total num frames: 9986048. Throughput: 0: 9789.3. Samples: 9960396. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-08 04:33:30,367][828114] Avg episode reward: [(0, '78.145')]
+[2023-07-08 04:33:31,008][828425] Updated weights for policy 0, policy_version 19520 (0.0005)
+[2023-07-08 04:33:32,208][828378] Early stopping after 2 epochs (8 sgd steps), loss delta 0.0000000
+[2023-07-08 04:33:32,209][828430] Stopping RolloutWorker_w2...
+[2023-07-08 04:33:32,209][828465] Stopping RolloutWorker_w6...
+[2023-07-08 04:33:32,209][828433] Stopping RolloutWorker_w4...
+[2023-07-08 04:33:32,209][828431] Stopping RolloutWorker_w5...
+[2023-07-08 04:33:32,209][828428] Stopping RolloutWorker_w1...
+[2023-07-08 04:33:32,209][828430] Loop rollout_proc2_evt_loop terminating...
+[2023-07-08 04:33:32,209][828426] Stopping RolloutWorker_w0...
+[2023-07-08 04:33:32,209][828465] Loop rollout_proc6_evt_loop terminating...
+[2023-07-08 04:33:32,209][828429] Stopping RolloutWorker_w3...
+[2023-07-08 04:33:32,209][828433] Loop rollout_proc4_evt_loop terminating...
+[2023-07-08 04:33:32,209][828528] Stopping RolloutWorker_w7...
+[2023-07-08 04:33:32,209][828114] Component RolloutWorker_w2 stopped!
+[2023-07-08 04:33:32,209][828431] Loop rollout_proc5_evt_loop terminating...
+[2023-07-08 04:33:32,209][828428] Loop rollout_proc1_evt_loop terminating...
+[2023-07-08 04:33:32,209][828426] Loop rollout_proc0_evt_loop terminating...
+[2023-07-08 04:33:32,209][828528] Loop rollout_proc7_evt_loop terminating...
+[2023-07-08 04:33:32,209][828429] Loop rollout_proc3_evt_loop terminating...
+[2023-07-08 04:33:32,209][828114] Component RolloutWorker_w6 stopped!
+[2023-07-08 04:33:32,209][828378] Stopping Batcher_0...
+[2023-07-08 04:33:32,210][828114] Component RolloutWorker_w4 stopped!
+[2023-07-08 04:33:32,210][828114] Component RolloutWorker_w5 stopped!
+[2023-07-08 04:33:32,210][828114] Component RolloutWorker_w1 stopped!
+[2023-07-08 04:33:32,210][828114] Component RolloutWorker_w3 stopped!
+[2023-07-08 04:33:32,210][828378] Loop batcher_evt_loop terminating...
+[2023-07-08 04:33:32,210][828114] Component RolloutWorker_w0 stopped!
+[2023-07-08 04:33:32,210][828114] Component RolloutWorker_w7 stopped!
+[2023-07-08 04:33:32,210][828114] Component Batcher_0 stopped!
+[2023-07-08 04:33:32,210][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000019544_10006528.pth...
+[2023-07-08 04:33:32,213][828378] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000019120_9789440.pth
+[2023-07-08 04:33:32,213][828378] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/handle-pull-side-v2/checkpoint_p0/checkpoint_000019544_10006528.pth...
+[2023-07-08 04:33:32,216][828378] Stopping LearnerWorker_p0...
+[2023-07-08 04:33:32,216][828378] Loop learner_proc0_evt_loop terminating...
+[2023-07-08 04:33:32,216][828114] Component LearnerWorker_p0 stopped!
+[2023-07-08 04:33:32,279][828425] Weights refcount: 2 0
+[2023-07-08 04:33:32,280][828425] Stopping InferenceWorker_p0-w0...
+[2023-07-08 04:33:32,280][828425] Loop inference_proc0-0_evt_loop terminating...
+[2023-07-08 04:33:32,280][828114] Component InferenceWorker_p0-w0 stopped!
+[2023-07-08 04:33:32,281][828114] Waiting for process learner_proc0 to stop...
+[2023-07-08 04:33:32,809][828114] Waiting for process inference_proc0-0 to join...
+[2023-07-08 04:33:32,830][828114] Waiting for process rollout_proc0 to join...
+[2023-07-08 04:33:32,830][828114] Waiting for process rollout_proc1 to join...
+[2023-07-08 04:33:32,830][828114] Waiting for process rollout_proc2 to join...
+[2023-07-08 04:33:32,830][828114] Waiting for process rollout_proc3 to join...
+[2023-07-08 04:33:32,831][828114] Waiting for process rollout_proc4 to join...
+[2023-07-08 04:33:32,831][828114] Waiting for process rollout_proc5 to join...
+[2023-07-08 04:33:32,831][828114] Waiting for process rollout_proc6 to join...
+[2023-07-08 04:33:32,831][828114] Waiting for process rollout_proc7 to join...
+[2023-07-08 04:33:32,831][828114] Batcher 0 profile tree view:
+batching: 1.7823, releasing_batches: 1.5619
+[2023-07-08 04:33:32,832][828114] InferenceWorker_p0-w0 profile tree view:
+wait_policy: 0.0051
+  wait_policy_total: 373.3249
+update_model: 12.5722
+  weight_update: 0.0005
+one_step: 0.0006
+  handle_policy_step: 567.6760
+    deserialize: 23.5534, stack: 6.0274, obs_to_device_normalize: 103.5248, forward: 282.4426, send_messages: 38.4899
+    prepare_outputs: 65.2474
+      to_cpu: 9.7973
+[2023-07-08 04:33:32,832][828114] Learner 0 profile tree view:
+misc: 0.0096, prepare_batch: 9.6955
+train: 97.8461
+  epoch_init: 0.0357, minibatch_init: 1.3394, losses_postprocess: 1.2983, kl_divergence: 0.4525, after_optimizer: 0.6352
+  calculate_losses: 41.7736
+    losses_init: 0.0313, forward_head: 16.4370, bptt_initial: 0.1400, bptt: 0.1308, tail: 11.7349, advantages_returns: 0.8870, losses: 10.9557
+  update: 50.6709
+    clip: 5.9756
+[2023-07-08 04:33:32,832][828114] RolloutWorker_w0 profile tree view:
+wait_for_trajectories: 0.2954, enqueue_policy_requests: 12.7604, env_step: 712.5115, overhead: 19.3616, complete_rollouts: 0.3255
+save_policy_outputs: 38.1380
+  split_output_tensors: 13.2996
+[2023-07-08 04:33:32,832][828114] RolloutWorker_w7 profile tree view:
+wait_for_trajectories: 0.3164, enqueue_policy_requests: 12.8480, env_step: 713.0422, overhead: 19.7941, complete_rollouts: 0.3241
+save_policy_outputs: 38.1893
+  split_output_tensors: 13.0673
+[2023-07-08 04:33:32,832][828114] Loop Runner_EvtLoop terminating...
+[2023-07-08 04:33:32,833][828114] Runner profile tree view:
+main_loop: 1024.8340
+[2023-07-08 04:33:32,833][828114] Collected {0: 10006528}, FPS: 9764.0