diff --git "a/sf_log.txt" "b/sf_log.txt"
--- "a/sf_log.txt"
+++ "b/sf_log.txt"
@@ -1,40 +1,32 @@
-[2023-07-08 12:47:22,564][962948] Saving configuration to /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/config.json...
-[2023-07-08 12:47:22,581][962948] Rollout worker 0 uses device cpu
-[2023-07-08 12:47:22,582][962948] Rollout worker 1 uses device cpu
-[2023-07-08 12:47:22,582][962948] Rollout worker 2 uses device cpu
-[2023-07-08 12:47:22,582][962948] Rollout worker 3 uses device cpu
-[2023-07-08 12:47:22,582][962948] Rollout worker 4 uses device cpu
-[2023-07-08 12:47:22,582][962948] Rollout worker 5 uses device cpu
-[2023-07-08 12:47:22,582][962948] Rollout worker 6 uses device cpu
-[2023-07-08 12:47:22,582][962948] Rollout worker 7 uses device cpu
-[2023-07-08 12:47:22,582][962948] In synchronous mode, we only accumulate one batch. Setting num_batches_to_accumulate to 1
-[2023-07-08 12:47:22,594][962948] InferenceWorker_p0-w0: min num requests: 2
-[2023-07-08 12:47:22,614][962948] Starting all processes...
-[2023-07-08 12:47:22,614][962948] Starting process learner_proc0
-[2023-07-08 12:47:22,663][962948] Starting all processes...
-[2023-07-08 12:47:22,705][962948] Starting process inference_proc0-0
-[2023-07-08 12:47:22,706][962948] Starting process rollout_proc0
-[2023-07-08 12:47:22,706][962948] Starting process rollout_proc1
-[2023-07-08 12:47:22,706][962948] Starting process rollout_proc2
-[2023-07-08 12:47:22,706][962948] Starting process rollout_proc3
-[2023-07-08 12:47:22,706][962948] Starting process rollout_proc4
-[2023-07-08 12:47:22,706][962948] Starting process rollout_proc5
-[2023-07-08 12:47:22,706][962948] Starting process rollout_proc6
-[2023-07-08 12:47:22,709][962948] Starting process rollout_proc7
-[2023-07-08 12:47:24,782][963236] Worker 2 uses CPU cores [8, 9, 10, 11]
-[2023-07-08 12:47:24,829][963235] Worker 1 uses CPU cores [4, 5, 6, 7]
-[2023-07-08 12:47:25,012][963270] Worker 5 uses CPU cores [20, 21, 22, 23]
-[2023-07-08 12:47:25,106][963238] Worker 4 uses CPU cores [16, 17, 18, 19]
-[2023-07-08 12:47:25,181][963237] Worker 3 uses CPU cores [12, 13, 14, 15]
-[2023-07-08 12:47:25,275][963365] Worker 7 uses CPU cores [28, 29, 30, 31]
-[2023-07-08 12:47:25,436][963333] Worker 6 uses CPU cores [24, 25, 26, 27]
-[2023-07-08 12:47:25,554][963234] Worker 0 uses CPU cores [0, 1, 2, 3]
-[2023-07-08 12:47:25,658][963189] Starting seed is not provided
-[2023-07-08 12:47:25,658][963189] Initializing actor-critic model on device cpu
-[2023-07-08 12:47:25,658][963189] RunningMeanStd input shape: (39,)
-[2023-07-08 12:47:25,659][963189] RunningMeanStd input shape: (1,)
-[2023-07-08 12:47:25,714][963189] Created Actor Critic model with architecture:
-[2023-07-08 12:47:25,715][963189] ActorCriticSharedWeights(
+[2023-07-17 19:54:23,276][795499] Saving configuration to /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/config.json...
+[2023-07-17 19:54:23,299][795499] Rollout worker 0 uses device cpu
+[2023-07-17 19:54:23,299][795499] Rollout worker 1 uses device cpu
+[2023-07-17 19:54:23,299][795499] Rollout worker 2 uses device cpu
+[2023-07-17 19:54:23,299][795499] Rollout worker 3 uses device cpu
+[2023-07-17 19:54:23,299][795499] Rollout worker 4 uses device cpu
+[2023-07-17 19:54:23,299][795499] Rollout worker 5 uses device cpu
+[2023-07-17 19:54:23,300][795499] Rollout worker 6 uses device cpu
+[2023-07-17 19:54:23,300][795499] Rollout worker 7 uses device cpu
+[2023-07-17 19:54:23,300][795499] In synchronous mode, we only accumulate one batch. Setting num_batches_to_accumulate to 1
+[2023-07-17 19:54:23,312][795499] InferenceWorker_p0-w0: min num requests: 2
+[2023-07-17 19:54:23,331][795499] Starting all processes...
+[2023-07-17 19:54:23,332][795499] Starting process learner_proc0
+[2023-07-17 19:54:23,381][795499] Starting all processes...
+[2023-07-17 19:54:23,385][795499] Starting process inference_proc0-0
+[2023-07-17 19:54:23,385][795499] Starting process rollout_proc0
+[2023-07-17 19:54:23,385][795499] Starting process rollout_proc1
+[2023-07-17 19:54:23,385][795499] Starting process rollout_proc2
+[2023-07-17 19:54:23,385][795499] Starting process rollout_proc3
+[2023-07-17 19:54:23,385][795499] Starting process rollout_proc4
+[2023-07-17 19:54:23,385][795499] Starting process rollout_proc5
+[2023-07-17 19:54:23,385][795499] Starting process rollout_proc6
+[2023-07-17 19:54:23,385][795499] Starting process rollout_proc7
+[2023-07-17 19:54:25,625][795789] Starting seed is not provided
+[2023-07-17 19:54:25,625][795789] Initializing actor-critic model on device cpu
+[2023-07-17 19:54:25,625][795789] RunningMeanStd input shape: (39,)
+[2023-07-17 19:54:25,626][795789] RunningMeanStd input shape: (1,)
+[2023-07-17 19:54:25,685][795789] Created Actor Critic model with architecture:
+[2023-07-17 19:54:25,685][795789] ActorCriticSharedWeights(
   (obs_normalizer): ObservationNormalizer(
     (running_mean_std): RunningMeanStdDictInPlace(
       (running_mean_std): ModuleDict(
@@ -65,1168 +57,988 @@
     (distribution_linear): Linear(in_features=64, out_features=4, bias=True)
   )
 )
-[2023-07-08 12:47:26,019][963189] Using optimizer <class 'torch.optim.adam.Adam'>
-[2023-07-08 12:47:26,019][963189] No checkpoints found
-[2023-07-08 12:47:26,019][963189] Did not load from checkpoint, starting from scratch!
-[2023-07-08 12:47:26,019][963189] Initialized policy 0 weights for model version 0
-[2023-07-08 12:47:26,020][963189] LearnerWorker_p0 finished initialization!
-[2023-07-08 12:47:26,022][963233] RunningMeanStd input shape: (39,)
-[2023-07-08 12:47:26,022][963233] RunningMeanStd input shape: (1,)
-[2023-07-08 12:47:26,086][962948] Inference worker 0-0 is ready!
-[2023-07-08 12:47:26,087][962948] All inference workers are ready! Signal rollout workers to start!
-[2023-07-08 12:47:29,689][962948] Fps is (10 sec: nan, 60 sec: nan, 300 sec: nan). Total num frames: 0. Throughput: 0: nan. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
-[2023-07-08 12:47:30,334][963270] Decorrelating experience for 0 frames...
-[2023-07-08 12:47:30,336][963235] Decorrelating experience for 0 frames...
-[2023-07-08 12:47:30,349][963270] Decorrelating experience for 64 frames...
-[2023-07-08 12:47:30,351][963235] Decorrelating experience for 64 frames...
-[2023-07-08 12:47:30,358][963234] Decorrelating experience for 0 frames...
-[2023-07-08 12:47:30,360][963236] Decorrelating experience for 0 frames...
-[2023-07-08 12:47:30,374][963234] Decorrelating experience for 64 frames...
-[2023-07-08 12:47:30,376][963236] Decorrelating experience for 64 frames...
-[2023-07-08 12:47:30,381][963238] Decorrelating experience for 0 frames...
-[2023-07-08 12:47:30,390][963270] Decorrelating experience for 128 frames...
-[2023-07-08 12:47:30,391][963235] Decorrelating experience for 128 frames...
-[2023-07-08 12:47:30,396][963238] Decorrelating experience for 64 frames...
-[2023-07-08 12:47:30,414][963234] Decorrelating experience for 128 frames...
-[2023-07-08 12:47:30,418][963236] Decorrelating experience for 128 frames...
-[2023-07-08 12:47:30,429][963365] Decorrelating experience for 0 frames...
-[2023-07-08 12:47:30,431][963237] Decorrelating experience for 0 frames...
-[2023-07-08 12:47:30,437][963238] Decorrelating experience for 128 frames...
-[2023-07-08 12:47:30,444][963365] Decorrelating experience for 64 frames...
-[2023-07-08 12:47:30,446][963237] Decorrelating experience for 64 frames...
-[2023-07-08 12:47:30,470][963270] Decorrelating experience for 192 frames...
-[2023-07-08 12:47:30,473][963235] Decorrelating experience for 192 frames...
-[2023-07-08 12:47:30,485][963365] Decorrelating experience for 128 frames...
-[2023-07-08 12:47:30,489][963237] Decorrelating experience for 128 frames...
-[2023-07-08 12:47:30,494][963234] Decorrelating experience for 192 frames...
-[2023-07-08 12:47:30,499][963236] Decorrelating experience for 192 frames...
-[2023-07-08 12:47:30,517][963238] Decorrelating experience for 192 frames...
-[2023-07-08 12:47:30,565][963365] Decorrelating experience for 192 frames...
-[2023-07-08 12:47:30,572][963237] Decorrelating experience for 192 frames...
-[2023-07-08 12:47:30,613][963333] Decorrelating experience for 0 frames...
-[2023-07-08 12:47:30,628][963333] Decorrelating experience for 64 frames...
-[2023-07-08 12:47:30,669][963333] Decorrelating experience for 128 frames...
-[2023-07-08 12:47:30,749][963333] Decorrelating experience for 192 frames...
-[2023-07-08 12:47:34,683][963235] Decorrelating experience for 256 frames...
-[2023-07-08 12:47:34,689][962948] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 0. Throughput: 0: 0.0. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
-[2023-07-08 12:47:34,690][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000000000_0.pth...
-[2023-07-08 12:47:34,713][963270] Decorrelating experience for 256 frames...
-[2023-07-08 12:47:34,725][963234] Decorrelating experience for 256 frames...
-[2023-07-08 12:47:34,756][963238] Decorrelating experience for 256 frames...
-[2023-07-08 12:47:34,828][963235] Decorrelating experience for 320 frames...
-[2023-07-08 12:47:34,838][963236] Decorrelating experience for 256 frames...
-[2023-07-08 12:47:34,841][963365] Decorrelating experience for 256 frames...
-[2023-07-08 12:47:34,859][963270] Decorrelating experience for 320 frames...
-[2023-07-08 12:47:34,867][963234] Decorrelating experience for 320 frames...
-[2023-07-08 12:47:34,911][963238] Decorrelating experience for 320 frames...
-[2023-07-08 12:47:34,985][963333] Decorrelating experience for 256 frames...
-[2023-07-08 12:47:34,991][963365] Decorrelating experience for 320 frames...
-[2023-07-08 12:47:35,011][963236] Decorrelating experience for 320 frames...
-[2023-07-08 12:47:35,015][963235] Decorrelating experience for 384 frames...
-[2023-07-08 12:47:35,017][963237] Decorrelating experience for 256 frames...
-[2023-07-08 12:47:35,043][963270] Decorrelating experience for 384 frames...
-[2023-07-08 12:47:35,055][963234] Decorrelating experience for 384 frames...
-[2023-07-08 12:47:35,127][963238] Decorrelating experience for 384 frames...
-[2023-07-08 12:47:35,136][963333] Decorrelating experience for 320 frames...
-[2023-07-08 12:47:35,179][963365] Decorrelating experience for 384 frames...
-[2023-07-08 12:47:35,201][963236] Decorrelating experience for 384 frames...
-[2023-07-08 12:47:35,225][963235] Decorrelating experience for 448 frames...
-[2023-07-08 12:47:35,225][963237] Decorrelating experience for 320 frames...
-[2023-07-08 12:47:35,262][963234] Decorrelating experience for 448 frames...
-[2023-07-08 12:47:35,275][963270] Decorrelating experience for 448 frames...
-[2023-07-08 12:47:35,323][963333] Decorrelating experience for 384 frames...
-[2023-07-08 12:47:35,333][963238] Decorrelating experience for 448 frames...
-[2023-07-08 12:47:35,390][963365] Decorrelating experience for 448 frames...
-[2023-07-08 12:47:35,417][963236] Decorrelating experience for 448 frames...
-[2023-07-08 12:47:35,475][963237] Decorrelating experience for 384 frames...
-[2023-07-08 12:47:35,531][963333] Decorrelating experience for 448 frames...
-[2023-07-08 12:47:35,760][963237] Decorrelating experience for 448 frames...
-[2023-07-08 12:47:39,689][962948] Fps is (10 sec: 2867.3, 60 sec: 2867.3, 300 sec: 2867.3). Total num frames: 28672. Throughput: 0: 1743.6. Samples: 17436. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 12:47:39,689][962948] Avg episode reward: [(0, '2.097')]
-[2023-07-08 12:47:40,763][963233] Updated weights for policy 0, policy_version 80 (0.0005)
-[2023-07-08 12:47:42,590][962948] Heartbeat connected on Batcher_0
-[2023-07-08 12:47:42,592][962948] Heartbeat connected on LearnerWorker_p0
-[2023-07-08 12:47:42,597][962948] Heartbeat connected on RolloutWorker_w0
-[2023-07-08 12:47:42,600][962948] Heartbeat connected on RolloutWorker_w1
-[2023-07-08 12:47:42,602][962948] Heartbeat connected on RolloutWorker_w2
-[2023-07-08 12:47:42,603][962948] Heartbeat connected on InferenceWorker_p0-w0
-[2023-07-08 12:47:42,604][962948] Heartbeat connected on RolloutWorker_w3
-[2023-07-08 12:47:42,606][962948] Heartbeat connected on RolloutWorker_w4
-[2023-07-08 12:47:42,608][962948] Heartbeat connected on RolloutWorker_w5
-[2023-07-08 12:47:42,610][962948] Heartbeat connected on RolloutWorker_w6
-[2023-07-08 12:47:42,612][962948] Heartbeat connected on RolloutWorker_w7
-[2023-07-08 12:47:44,689][962948] Fps is (10 sec: 6963.2, 60 sec: 4642.2, 300 sec: 4642.2). Total num frames: 69632. Throughput: 0: 4639.5. Samples: 69592. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:47:44,690][962948] Avg episode reward: [(0, '4.258')]
-[2023-07-08 12:47:45,661][963233] Updated weights for policy 0, policy_version 160 (0.0005)
-[2023-07-08 12:47:49,689][962948] Fps is (10 sec: 8601.4, 60 sec: 5734.4, 300 sec: 5734.4). Total num frames: 114688. Throughput: 0: 4746.4. Samples: 94928. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
-[2023-07-08 12:47:49,690][962948] Avg episode reward: [(0, '4.860')]
-[2023-07-08 12:47:49,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000000224_114688.pth...
-[2023-07-08 12:47:49,697][963189] Saving new best policy, reward=4.860!
-[2023-07-08 12:47:50,566][963233] Updated weights for policy 0, policy_version 240 (0.0005)
-[2023-07-08 12:47:54,689][962948] Fps is (10 sec: 8192.0, 60 sec: 6062.1, 300 sec: 6062.1). Total num frames: 151552. Throughput: 0: 5719.4. Samples: 142984. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:47:54,689][962948] Avg episode reward: [(0, '6.417')]
-[2023-07-08 12:47:54,690][963189] Saving new best policy, reward=6.417!
-[2023-07-08 12:47:55,862][963233] Updated weights for policy 0, policy_version 320 (0.0005)
-[2023-07-08 12:47:59,689][962948] Fps is (10 sec: 7782.5, 60 sec: 6417.1, 300 sec: 6417.1). Total num frames: 192512. Throughput: 0: 6303.0. Samples: 189088. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
-[2023-07-08 12:47:59,689][962948] Avg episode reward: [(0, '7.869')]
-[2023-07-08 12:47:59,690][963189] Saving new best policy, reward=7.869!
-[2023-07-08 12:48:00,846][963233] Updated weights for policy 0, policy_version 400 (0.0005)
-[2023-07-08 12:48:04,689][962948] Fps is (10 sec: 7782.3, 60 sec: 6553.6, 300 sec: 6553.6). Total num frames: 229376. Throughput: 0: 6120.6. Samples: 214220. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:48:04,689][962948] Avg episode reward: [(0, '8.772')]
-[2023-07-08 12:48:04,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000000448_229376.pth...
-[2023-07-08 12:48:04,764][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000000000_0.pth
-[2023-07-08 12:48:04,765][963189] Saving new best policy, reward=8.772!
-[2023-07-08 12:48:06,575][963233] Updated weights for policy 0, policy_version 480 (0.0005)
-[2023-07-08 12:48:09,689][962948] Fps is (10 sec: 7782.4, 60 sec: 6758.4, 300 sec: 6758.4). Total num frames: 270336. Throughput: 0: 6451.4. Samples: 258056. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:48:09,689][962948] Avg episode reward: [(0, '8.983')]
-[2023-07-08 12:48:09,690][963189] Saving new best policy, reward=8.983!
-[2023-07-08 12:48:11,836][963233] Updated weights for policy 0, policy_version 560 (0.0006)
-[2023-07-08 12:48:14,689][962948] Fps is (10 sec: 7372.8, 60 sec: 6735.7, 300 sec: 6735.7). Total num frames: 303104. Throughput: 0: 6730.1. Samples: 302856. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
-[2023-07-08 12:48:14,689][962948] Avg episode reward: [(0, '8.893')]
-[2023-07-08 12:48:17,392][963233] Updated weights for policy 0, policy_version 640 (0.0005)
-[2023-07-08 12:48:19,689][962948] Fps is (10 sec: 7372.9, 60 sec: 6881.3, 300 sec: 6881.3). Total num frames: 344064. Throughput: 0: 7235.5. Samples: 325596. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:48:19,689][962948] Avg episode reward: [(0, '9.329')]
-[2023-07-08 12:48:19,691][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000000672_344064.pth...
-[2023-07-08 12:48:19,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000000224_114688.pth
-[2023-07-08 12:48:19,695][963189] Saving new best policy, reward=9.329!
-[2023-07-08 12:48:22,771][963233] Updated weights for policy 0, policy_version 720 (0.0006)
-[2023-07-08 12:48:24,689][962948] Fps is (10 sec: 8192.0, 60 sec: 7000.5, 300 sec: 7000.5). Total num frames: 385024. Throughput: 0: 7879.0. Samples: 371992. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 12:48:24,689][962948] Avg episode reward: [(0, '10.008')]
-[2023-07-08 12:48:24,690][963189] Saving new best policy, reward=10.008!
-[2023-07-08 12:48:27,862][963233] Updated weights for policy 0, policy_version 800 (0.0005)
-[2023-07-08 12:48:29,689][962948] Fps is (10 sec: 7782.3, 60 sec: 7031.5, 300 sec: 7031.5). Total num frames: 421888. Throughput: 0: 7766.4. Samples: 419080. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 12:48:29,689][962948] Avg episode reward: [(0, '11.707')]
-[2023-07-08 12:48:29,690][963189] Saving new best policy, reward=11.707!
-[2023-07-08 12:48:33,106][963233] Updated weights for policy 0, policy_version 880 (0.0005)
-[2023-07-08 12:48:34,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7645.9, 300 sec: 7057.7). Total num frames: 458752. Throughput: 0: 7727.8. Samples: 442680. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
-[2023-07-08 12:48:34,689][962948] Avg episode reward: [(0, '13.766')]
-[2023-07-08 12:48:34,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000000896_458752.pth...
-[2023-07-08 12:48:34,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000000448_229376.pth
-[2023-07-08 12:48:34,694][963189] Saving new best policy, reward=13.766!
-[2023-07-08 12:48:38,578][963233] Updated weights for policy 0, policy_version 960 (0.0006)
-[2023-07-08 12:48:39,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7850.6, 300 sec: 7138.7). Total num frames: 499712. Throughput: 0: 7675.0. Samples: 488360. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:48:39,689][962948] Avg episode reward: [(0, '14.586')]
-[2023-07-08 12:48:39,690][963189] Saving new best policy, reward=14.586!
-[2023-07-08 12:48:44,107][963233] Updated weights for policy 0, policy_version 1040 (0.0005)
-[2023-07-08 12:48:44,689][962948] Fps is (10 sec: 7782.5, 60 sec: 7782.4, 300 sec: 7154.4). Total num frames: 536576. Throughput: 0: 7632.4. Samples: 532544. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:48:44,689][962948] Avg episode reward: [(0, '15.383')]
-[2023-07-08 12:48:44,690][963189] Saving new best policy, reward=15.383!
-[2023-07-08 12:48:49,689][962948] Fps is (10 sec: 6963.3, 60 sec: 7577.6, 300 sec: 7116.8). Total num frames: 569344. Throughput: 0: 7597.6. Samples: 556112. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
-[2023-07-08 12:48:49,689][962948] Avg episode reward: [(0, '16.117')]
-[2023-07-08 12:48:49,724][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001120_573440.pth...
-[2023-07-08 12:48:49,725][963233] Updated weights for policy 0, policy_version 1120 (0.0005)
-[2023-07-08 12:48:49,726][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000000672_344064.pth
-[2023-07-08 12:48:49,726][963189] Saving new best policy, reward=16.117!
-[2023-07-08 12:48:54,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7577.6, 300 sec: 7131.9). Total num frames: 606208. Throughput: 0: 7556.1. Samples: 598080. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
-[2023-07-08 12:48:54,689][962948] Avg episode reward: [(0, '17.162')]
-[2023-07-08 12:48:54,690][963189] Saving new best policy, reward=17.162!
-[2023-07-08 12:48:55,427][963233] Updated weights for policy 0, policy_version 1200 (0.0005)
-[2023-07-08 12:48:59,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7509.3, 300 sec: 7145.3). Total num frames: 643072. Throughput: 0: 7561.8. Samples: 643136. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:48:59,689][962948] Avg episode reward: [(0, '18.402')]
-[2023-07-08 12:48:59,732][963189] Saving new best policy, reward=18.402!
-[2023-07-08 12:49:00,715][963233] Updated weights for policy 0, policy_version 1280 (0.0006)
-[2023-07-08 12:49:04,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7509.3, 300 sec: 7157.2). Total num frames: 679936. Throughput: 0: 7550.7. Samples: 665380. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:49:04,690][962948] Avg episode reward: [(0, '19.856')]
-[2023-07-08 12:49:04,709][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001336_684032.pth...
-[2023-07-08 12:49:04,711][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000000896_458752.pth
-[2023-07-08 12:49:04,711][963189] Saving new best policy, reward=19.856!
-[2023-07-08 12:49:06,224][963233] Updated weights for policy 0, policy_version 1360 (0.0005)
-[2023-07-08 12:49:09,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7509.3, 300 sec: 7209.0). Total num frames: 720896. Throughput: 0: 7492.5. Samples: 709156. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
-[2023-07-08 12:49:09,690][962948] Avg episode reward: [(0, '19.276')]
-[2023-07-08 12:49:11,822][963233] Updated weights for policy 0, policy_version 1440 (0.0005)
-[2023-07-08 12:49:14,689][962948] Fps is (10 sec: 7782.5, 60 sec: 7577.6, 300 sec: 7216.8). Total num frames: 757760. Throughput: 0: 7474.1. Samples: 755412. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:49:14,689][962948] Avg episode reward: [(0, '18.411')]
-[2023-07-08 12:49:17,267][963233] Updated weights for policy 0, policy_version 1520 (0.0005)
-[2023-07-08 12:49:19,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7509.3, 300 sec: 7223.9). Total num frames: 794624. Throughput: 0: 7454.7. Samples: 778140. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:49:19,689][962948] Avg episode reward: [(0, '18.540')]
-[2023-07-08 12:49:19,691][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001552_794624.pth...
-[2023-07-08 12:49:19,693][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001120_573440.pth
-[2023-07-08 12:49:22,689][963233] Updated weights for policy 0, policy_version 1600 (0.0005)
-[2023-07-08 12:49:24,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7441.1, 300 sec: 7230.3). Total num frames: 831488. Throughput: 0: 7435.6. Samples: 822960. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
-[2023-07-08 12:49:24,689][962948] Avg episode reward: [(0, '18.712')]
-[2023-07-08 12:49:27,905][963233] Updated weights for policy 0, policy_version 1680 (0.0005)
-[2023-07-08 12:49:29,689][962948] Fps is (10 sec: 7782.3, 60 sec: 7509.3, 300 sec: 7270.4). Total num frames: 872448. Throughput: 0: 7468.3. Samples: 868620. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:49:29,690][962948] Avg episode reward: [(0, '16.964')]
-[2023-07-08 12:49:33,562][963233] Updated weights for policy 0, policy_version 1760 (0.0006)
-[2023-07-08 12:49:34,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7509.3, 300 sec: 7274.5). Total num frames: 909312. Throughput: 0: 7450.8. Samples: 891400. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:49:34,689][962948] Avg episode reward: [(0, '19.116')]
-[2023-07-08 12:49:34,691][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001776_909312.pth...
-[2023-07-08 12:49:34,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001336_684032.pth
-[2023-07-08 12:49:38,889][963233] Updated weights for policy 0, policy_version 1840 (0.0005)
-[2023-07-08 12:49:39,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7441.1, 300 sec: 7278.3). Total num frames: 946176. Throughput: 0: 7538.6. Samples: 937316. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:49:39,690][962948] Avg episode reward: [(0, '19.385')]
-[2023-07-08 12:49:44,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7372.8, 300 sec: 7251.4). Total num frames: 978944. Throughput: 0: 7464.0. Samples: 979016. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
-[2023-07-08 12:49:44,689][962948] Avg episode reward: [(0, '19.508')]
-[2023-07-08 12:49:44,744][963233] Updated weights for policy 0, policy_version 1920 (0.0005)
-[2023-07-08 12:49:49,689][962948] Fps is (10 sec: 6963.3, 60 sec: 7441.1, 300 sec: 7255.8). Total num frames: 1015808. Throughput: 0: 7423.0. Samples: 999416. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:49:49,689][962948] Avg episode reward: [(0, '18.366')]
-[2023-07-08 12:49:49,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001984_1015808.pth...
-[2023-07-08 12:49:49,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001552_794624.pth
-[2023-07-08 12:49:50,537][963233] Updated weights for policy 0, policy_version 2000 (0.0005)
-[2023-07-08 12:49:54,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7441.1, 300 sec: 7259.8). Total num frames: 1052672. Throughput: 0: 7411.0. Samples: 1042652. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:49:54,689][962948] Avg episode reward: [(0, '17.709')]
-[2023-07-08 12:49:56,257][963233] Updated weights for policy 0, policy_version 2080 (0.0004)
-[2023-07-08 12:49:59,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7441.1, 300 sec: 7263.6). Total num frames: 1089536. Throughput: 0: 7335.4. Samples: 1085504. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:49:59,689][962948] Avg episode reward: [(0, '18.528')]
-[2023-07-08 12:50:02,018][963233] Updated weights for policy 0, policy_version 2160 (0.0005)
-[2023-07-08 12:50:04,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7372.8, 300 sec: 7240.7). Total num frames: 1122304. Throughput: 0: 7298.3. Samples: 1106564. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 12:50:04,689][962948] Avg episode reward: [(0, '19.081')]
-[2023-07-08 12:50:04,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000002192_1122304.pth...
-[2023-07-08 12:50:04,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001776_909312.pth
-[2023-07-08 12:50:07,837][963233] Updated weights for policy 0, policy_version 2240 (0.0005)
-[2023-07-08 12:50:09,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7304.5, 300 sec: 7244.8). Total num frames: 1159168. Throughput: 0: 7249.0. Samples: 1149164. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:50:09,689][962948] Avg episode reward: [(0, '17.982')]
-[2023-07-08 12:50:13,523][963233] Updated weights for policy 0, policy_version 2320 (0.0005)
-[2023-07-08 12:50:14,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7236.3, 300 sec: 7223.9). Total num frames: 1191936. Throughput: 0: 7184.8. Samples: 1191936. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:50:14,689][962948] Avg episode reward: [(0, '16.514')]
-[2023-07-08 12:50:18,834][963233] Updated weights for policy 0, policy_version 2400 (0.0005)
-[2023-07-08 12:50:19,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7304.5, 300 sec: 7252.3). Total num frames: 1232896. Throughput: 0: 7213.2. Samples: 1215992. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:50:19,689][962948] Avg episode reward: [(0, '16.686')]
-[2023-07-08 12:50:19,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000002408_1232896.pth...
-[2023-07-08 12:50:19,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001984_1015808.pth
-[2023-07-08 12:50:24,501][963233] Updated weights for policy 0, policy_version 2480 (0.0005)
-[2023-07-08 12:50:24,689][962948] Fps is (10 sec: 7782.3, 60 sec: 7304.5, 300 sec: 7255.8). Total num frames: 1269760. Throughput: 0: 7170.0. Samples: 1259964. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:50:24,689][962948] Avg episode reward: [(0, '18.206')]
-[2023-07-08 12:50:29,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7236.3, 300 sec: 7259.0). Total num frames: 1306624. Throughput: 0: 7256.4. Samples: 1305556. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 12:50:29,689][962948] Avg episode reward: [(0, '19.004')]
-[2023-07-08 12:50:29,866][963233] Updated weights for policy 0, policy_version 2560 (0.0006)
-[2023-07-08 12:50:34,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7236.3, 300 sec: 7262.1). Total num frames: 1343488. Throughput: 0: 7282.3. Samples: 1327120. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:50:34,689][962948] Avg episode reward: [(0, '19.428')]
-[2023-07-08 12:50:34,691][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000002624_1343488.pth...
-[2023-07-08 12:50:34,693][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000002192_1122304.pth
-[2023-07-08 12:50:35,438][963233] Updated weights for policy 0, policy_version 2640 (0.0005)
-[2023-07-08 12:50:39,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7236.3, 300 sec: 7265.0). Total num frames: 1380352. Throughput: 0: 7308.2. Samples: 1371520. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:50:39,689][962948] Avg episode reward: [(0, '19.488')]
-[2023-07-08 12:50:41,212][963233] Updated weights for policy 0, policy_version 2720 (0.0006)
-[2023-07-08 12:50:44,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7304.5, 300 sec: 7267.8). Total num frames: 1417216. Throughput: 0: 7301.9. Samples: 1414092. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:50:44,689][962948] Avg episode reward: [(0, '18.919')]
-[2023-07-08 12:50:46,712][963233] Updated weights for policy 0, policy_version 2800 (0.0005)
-[2023-07-08 12:50:49,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7304.5, 300 sec: 7270.4). Total num frames: 1454080. Throughput: 0: 7351.9. Samples: 1437400. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:50:49,689][962948] Avg episode reward: [(0, '19.431')]
-[2023-07-08 12:50:49,691][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000002840_1454080.pth...
-[2023-07-08 12:50:49,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000002408_1232896.pth
-[2023-07-08 12:50:52,168][963233] Updated weights for policy 0, policy_version 2880 (0.0005)
-[2023-07-08 12:50:54,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7304.5, 300 sec: 7272.9). Total num frames: 1490944. Throughput: 0: 7374.4. Samples: 1481012. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:50:54,689][962948] Avg episode reward: [(0, '19.295')]
-[2023-07-08 12:50:57,906][963233] Updated weights for policy 0, policy_version 2960 (0.0005)
-[2023-07-08 12:50:59,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7304.5, 300 sec: 7275.3). Total num frames: 1527808. Throughput: 0: 7384.8. Samples: 1524252. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
-[2023-07-08 12:50:59,689][962948] Avg episode reward: [(0, '19.581')]
-[2023-07-08 12:51:03,525][963233] Updated weights for policy 0, policy_version 3040 (0.0005)
-[2023-07-08 12:51:04,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7304.5, 300 sec: 7258.5). Total num frames: 1560576. Throughput: 0: 7358.7. Samples: 1547132. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:51:04,689][962948] Avg episode reward: [(0, '19.524')]
-[2023-07-08 12:51:04,744][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003056_1564672.pth...
-[2023-07-08 12:51:04,746][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000002624_1343488.pth
-[2023-07-08 12:51:09,502][963233] Updated weights for policy 0, policy_version 3120 (0.0006)
-[2023-07-08 12:51:09,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7304.5, 300 sec: 7261.1). Total num frames: 1597440. Throughput: 0: 7301.3. Samples: 1588524. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:51:09,689][962948] Avg episode reward: [(0, '19.677')]
-[2023-07-08 12:51:14,616][963233] Updated weights for policy 0, policy_version 3200 (0.0006)
-[2023-07-08 12:51:14,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7441.1, 300 sec: 7281.8). Total num frames: 1638400. Throughput: 0: 7316.5. Samples: 1634796. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:51:14,689][962948] Avg episode reward: [(0, '19.192')]
-[2023-07-08 12:51:19,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7372.8, 300 sec: 7283.8). Total num frames: 1675264. Throughput: 0: 7348.8. Samples: 1657816. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:51:19,689][962948] Avg episode reward: [(0, '19.378')]
-[2023-07-08 12:51:19,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003272_1675264.pth...
-[2023-07-08 12:51:19,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000002840_1454080.pth
-[2023-07-08 12:51:19,964][963233] Updated weights for policy 0, policy_version 3280 (0.0005)
-[2023-07-08 12:51:24,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7372.8, 300 sec: 7285.7). Total num frames: 1712128. Throughput: 0: 7343.5. Samples: 1701976. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:51:24,689][962948] Avg episode reward: [(0, '19.809')]
-[2023-07-08 12:51:25,709][963233] Updated weights for policy 0, policy_version 3360 (0.0006)
-[2023-07-08 12:51:29,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7372.8, 300 sec: 7287.5). Total num frames: 1748992. Throughput: 0: 7383.7. Samples: 1746360. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:51:29,689][962948] Avg episode reward: [(0, '19.634')]
-[2023-07-08 12:51:31,141][963233] Updated weights for policy 0, policy_version 3440 (0.0005)
-[2023-07-08 12:51:34,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7372.8, 300 sec: 7289.2). Total num frames: 1785856. Throughput: 0: 7348.6. Samples: 1768088. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:51:34,689][962948] Avg episode reward: [(0, '20.098')]
-[2023-07-08 12:51:34,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003488_1785856.pth...
-[2023-07-08 12:51:34,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003056_1564672.pth
-[2023-07-08 12:51:34,695][963189] Saving new best policy, reward=20.098!
-[2023-07-08 12:51:36,964][963233] Updated weights for policy 0, policy_version 3520 (0.0005)
-[2023-07-08 12:51:39,689][962948] Fps is (10 sec: 6963.3, 60 sec: 7304.6, 300 sec: 7274.5). Total num frames: 1818624. Throughput: 0: 7317.5. Samples: 1810300. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:51:39,689][962948] Avg episode reward: [(0, '19.100')]
-[2023-07-08 12:51:42,938][963233] Updated weights for policy 0, policy_version 3600 (0.0005)
-[2023-07-08 12:51:44,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7304.5, 300 sec: 7276.4). Total num frames: 1855488. Throughput: 0: 7280.3. Samples: 1851864. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
-[2023-07-08 12:51:44,689][962948] Avg episode reward: [(0, '19.642')]
-[2023-07-08 12:51:48,566][963233] Updated weights for policy 0, policy_version 3680 (0.0005)
-[2023-07-08 12:51:49,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7304.5, 300 sec: 7278.3). Total num frames: 1892352. Throughput: 0: 7264.4. Samples: 1874028. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
-[2023-07-08 12:51:49,689][962948] Avg episode reward: [(0, '20.543')]
-[2023-07-08 12:51:49,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003696_1892352.pth...
-[2023-07-08 12:51:49,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003272_1675264.pth
-[2023-07-08 12:51:49,696][963189] Saving new best policy, reward=20.543!
-[2023-07-08 12:51:54,275][963233] Updated weights for policy 0, policy_version 3760 (0.0006)
-[2023-07-08 12:51:54,689][962948] Fps is (10 sec: 6963.3, 60 sec: 7236.3, 300 sec: 7264.6). Total num frames: 1925120. Throughput: 0: 7297.9. Samples: 1916928. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
-[2023-07-08 12:51:54,689][962948] Avg episode reward: [(0, '20.398')]
-[2023-07-08 12:51:59,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7236.3, 300 sec: 7266.6). Total num frames: 1961984. Throughput: 0: 7191.2. Samples: 1958400. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:51:59,689][962948] Avg episode reward: [(0, '19.899')]
-[2023-07-08 12:52:00,171][963233] Updated weights for policy 0, policy_version 3840 (0.0005)
-[2023-07-08 12:52:04,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7304.5, 300 sec: 7268.5). Total num frames: 1998848. Throughput: 0: 7182.0. Samples: 1981008. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
-[2023-07-08 12:52:04,689][962948] Avg episode reward: [(0, '20.692')]
-[2023-07-08 12:52:04,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003904_1998848.pth...
-[2023-07-08 12:52:04,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003488_1785856.pth
-[2023-07-08 12:52:04,695][963189] Saving new best policy, reward=20.692!
-[2023-07-08 12:52:05,637][963233] Updated weights for policy 0, policy_version 3920 (0.0006)
-[2023-07-08 12:52:09,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7304.5, 300 sec: 7270.4). Total num frames: 2035712. Throughput: 0: 7165.4. Samples: 2024420. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
-[2023-07-08 12:52:09,689][962948] Avg episode reward: [(0, '20.793')]
-[2023-07-08 12:52:09,690][963189] Saving new best policy, reward=20.793!
-[2023-07-08 12:52:11,199][963233] Updated weights for policy 0, policy_version 4000 (0.0006)
-[2023-07-08 12:52:14,689][962948] Fps is (10 sec: 6963.3, 60 sec: 7168.0, 300 sec: 7257.8). Total num frames: 2068480. Throughput: 0: 7158.6. Samples: 2068496. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:52:14,689][962948] Avg episode reward: [(0, '20.480')]
-[2023-07-08 12:52:16,973][963233] Updated weights for policy 0, policy_version 4080 (0.0005)
-[2023-07-08 12:52:19,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7168.0, 300 sec: 7259.8). Total num frames: 2105344. Throughput: 0: 7155.0. Samples: 2090064. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:52:19,689][962948] Avg episode reward: [(0, '20.264')]
-[2023-07-08 12:52:19,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000004112_2105344.pth...
-[2023-07-08 12:52:19,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003696_1892352.pth
-[2023-07-08 12:52:22,775][963233] Updated weights for policy 0, policy_version 4160 (0.0006)
-[2023-07-08 12:52:24,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7168.0, 300 sec: 7261.7). Total num frames: 2142208. Throughput: 0: 7172.0. Samples: 2133040. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:52:24,690][962948] Avg episode reward: [(0, '20.942')]
-[2023-07-08 12:52:24,691][963189] Saving new best policy, reward=20.942!
-[2023-07-08 12:52:28,724][963233] Updated weights for policy 0, policy_version 4240 (0.0005)
-[2023-07-08 12:52:29,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7099.7, 300 sec: 7372.8). Total num frames: 2174976. Throughput: 0: 7170.7. Samples: 2174548. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:52:29,690][962948] Avg episode reward: [(0, '21.897')]
-[2023-07-08 12:52:29,690][963189] Saving new best policy, reward=21.897!
-[2023-07-08 12:52:34,127][963233] Updated weights for policy 0, policy_version 4320 (0.0005)
-[2023-07-08 12:52:34,689][962948] Fps is (10 sec: 6963.3, 60 sec: 7099.7, 300 sec: 7400.6). Total num frames: 2211840. Throughput: 0: 7178.0. Samples: 2197036. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:52:34,690][962948] Avg episode reward: [(0, '20.647')]
-[2023-07-08 12:52:34,714][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000004328_2215936.pth...
-[2023-07-08 12:52:34,716][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003904_1998848.pth
-[2023-07-08 12:52:39,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7168.0, 300 sec: 7386.7). Total num frames: 2248704. Throughput: 0: 7172.9. Samples: 2239708. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
-[2023-07-08 12:52:39,689][962948] Avg episode reward: [(0, '21.387')]
-[2023-07-08 12:52:40,100][963233] Updated weights for policy 0, policy_version 4400 (0.0005)
-[2023-07-08 12:52:44,689][962948] Fps is (10 sec: 6963.3, 60 sec: 7099.8, 300 sec: 7345.0). Total num frames: 2281472. Throughput: 0: 7173.2. Samples: 2281192. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
-[2023-07-08 12:52:44,689][962948] Avg episode reward: [(0, '20.945')]
-[2023-07-08 12:52:46,016][963233] Updated weights for policy 0, policy_version 4480 (0.0005)
-[2023-07-08 12:52:49,689][962948] Fps is (10 sec: 6963.1, 60 sec: 7099.7, 300 sec: 7345.0). Total num frames: 2318336. Throughput: 0: 7129.9. Samples: 2301852. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:52:49,689][962948] Avg episode reward: [(0, '21.219')]
-[2023-07-08 12:52:49,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000004528_2318336.pth...
-[2023-07-08 12:52:49,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000004112_2105344.pth
-[2023-07-08 12:52:51,700][963233] Updated weights for policy 0, policy_version 4560 (0.0005)
-[2023-07-08 12:52:54,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7168.0, 300 sec: 7331.1). Total num frames: 2355200. Throughput: 0: 7126.1. Samples: 2345096. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 12:52:54,689][962948] Avg episode reward: [(0, '21.148')]
-[2023-07-08 12:52:57,097][963233] Updated weights for policy 0, policy_version 4640 (0.0005)
-[2023-07-08 12:52:59,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7168.0, 300 sec: 7331.1). Total num frames: 2392064. Throughput: 0: 7187.0. Samples: 2391912. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:52:59,689][962948] Avg episode reward: [(0, '21.569')]
-[2023-07-08 12:53:02,617][963233] Updated weights for policy 0, policy_version 4720 (0.0005)
-[2023-07-08 12:53:04,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7168.0, 300 sec: 7317.3). Total num frames: 2428928. Throughput: 0: 7177.3. Samples: 2413044. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:53:04,689][962948] Avg episode reward: [(0, '20.843')]
-[2023-07-08 12:53:04,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000004744_2428928.pth...
-[2023-07-08 12:53:04,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000004328_2215936.pth
-[2023-07-08 12:53:08,388][963233] Updated weights for policy 0, policy_version 4800 (0.0005)
-[2023-07-08 12:53:09,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7168.0, 300 sec: 7331.1). Total num frames: 2465792. Throughput: 0: 7181.5. Samples: 2456208. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 12:53:09,689][962948] Avg episode reward: [(0, '19.894')]
-[2023-07-08 12:53:14,309][963233] Updated weights for policy 0, policy_version 4880 (0.0005)
-[2023-07-08 12:53:14,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7168.0, 300 sec: 7303.4). Total num frames: 2498560. Throughput: 0: 7184.9. Samples: 2497868. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:53:14,690][962948] Avg episode reward: [(0, '20.691')]
-[2023-07-08 12:53:19,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7168.0, 300 sec: 7289.5). Total num frames: 2535424. Throughput: 0: 7157.1. Samples: 2519104. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 12:53:19,689][962948] Avg episode reward: [(0, '19.717')]
-[2023-07-08 12:53:19,691][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000004952_2535424.pth...
-[2023-07-08 12:53:19,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000004528_2318336.pth
-[2023-07-08 12:53:20,068][963233] Updated weights for policy 0, policy_version 4960 (0.0005)
-[2023-07-08 12:53:24,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7168.0, 300 sec: 7289.5). Total num frames: 2572288. Throughput: 0: 7210.0. Samples: 2564160. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 12:53:24,689][962948] Avg episode reward: [(0, '20.691')]
-[2023-07-08 12:53:25,470][963233] Updated weights for policy 0, policy_version 5040 (0.0005)
-[2023-07-08 12:53:29,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7236.3, 300 sec: 7289.5). Total num frames: 2609152. Throughput: 0: 7238.0. Samples: 2606904. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 12:53:29,689][962948] Avg episode reward: [(0, '20.797')]
-[2023-07-08 12:53:31,338][963233] Updated weights for policy 0, policy_version 5120 (0.0005)
-[2023-07-08 12:53:34,689][962948] Fps is (10 sec: 6963.1, 60 sec: 7168.0, 300 sec: 7261.7). Total num frames: 2641920. Throughput: 0: 7219.7. Samples: 2626740. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 12:53:34,689][962948] Avg episode reward: [(0, '20.482')]
-[2023-07-08 12:53:34,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000005160_2641920.pth...
-[2023-07-08 12:53:34,696][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000004744_2428928.pth
-[2023-07-08 12:53:37,340][963233] Updated weights for policy 0, policy_version 5200 (0.0005)
-[2023-07-08 12:53:39,689][962948] Fps is (10 sec: 6553.7, 60 sec: 7099.7, 300 sec: 7247.8). Total num frames: 2674688. Throughput: 0: 7170.3. Samples: 2667760. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:53:39,689][962948] Avg episode reward: [(0, '21.989')]
-[2023-07-08 12:53:39,690][963189] Saving new best policy, reward=21.989!
-[2023-07-08 12:53:42,941][963233] Updated weights for policy 0, policy_version 5280 (0.0005)
-[2023-07-08 12:53:44,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7236.2, 300 sec: 7275.6). Total num frames: 2715648. Throughput: 0: 7108.2. Samples: 2711780. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:53:44,689][962948] Avg episode reward: [(0, '22.893')]
-[2023-07-08 12:53:44,690][963189] Saving new best policy, reward=22.893!
-[2023-07-08 12:53:48,516][963233] Updated weights for policy 0, policy_version 5360 (0.0005)
-[2023-07-08 12:53:49,689][962948] Fps is (10 sec: 7782.3, 60 sec: 7236.3, 300 sec: 7275.6). Total num frames: 2752512. Throughput: 0: 7130.9. Samples: 2733936. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:53:49,689][962948] Avg episode reward: [(0, '21.509')]
-[2023-07-08 12:53:49,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000005376_2752512.pth...
-[2023-07-08 12:53:49,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000004952_2535424.pth
-[2023-07-08 12:53:53,999][963233] Updated weights for policy 0, policy_version 5440 (0.0005)
-[2023-07-08 12:53:54,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7236.3, 300 sec: 7275.6). Total num frames: 2789376. Throughput: 0: 7157.2. Samples: 2778284. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:53:54,689][962948] Avg episode reward: [(0, '21.325')]
-[2023-07-08 12:53:59,598][963233] Updated weights for policy 0, policy_version 5520 (0.0005)
-[2023-07-08 12:53:59,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7236.3, 300 sec: 7275.6). Total num frames: 2826240. Throughput: 0: 7207.7. Samples: 2822216. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:53:59,689][962948] Avg episode reward: [(0, '19.503')]
-[2023-07-08 12:54:04,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7236.3, 300 sec: 7261.7). Total num frames: 2863104. Throughput: 0: 7275.0. Samples: 2846480. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:54:04,689][962948] Avg episode reward: [(0, '21.589')]
-[2023-07-08 12:54:04,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000005592_2863104.pth...
-[2023-07-08 12:54:04,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000005160_2641920.pth
-[2023-07-08 12:54:04,888][963233] Updated weights for policy 0, policy_version 5600 (0.0005)
-[2023-07-08 12:54:09,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7236.3, 300 sec: 7261.7). Total num frames: 2899968. Throughput: 0: 7250.9. Samples: 2890452. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
-[2023-07-08 12:54:09,689][962948] Avg episode reward: [(0, '21.542')]
-[2023-07-08 12:54:10,304][963233] Updated weights for policy 0, policy_version 5680 (0.0005)
-[2023-07-08 12:54:14,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7304.5, 300 sec: 7261.7). Total num frames: 2936832. Throughput: 0: 7329.3. Samples: 2936724. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:54:14,690][962948] Avg episode reward: [(0, '22.160')]
-[2023-07-08 12:54:15,984][963233] Updated weights for policy 0, policy_version 5760 (0.0005)
-[2023-07-08 12:54:19,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7304.5, 300 sec: 7261.7). Total num frames: 2973696. Throughput: 0: 7358.7. Samples: 2957884. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:54:19,690][962948] Avg episode reward: [(0, '23.210')]
-[2023-07-08 12:54:19,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000005808_2973696.pth...
-[2023-07-08 12:54:19,696][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000005376_2752512.pth
-[2023-07-08 12:54:19,696][963189] Saving new best policy, reward=23.210!
-[2023-07-08 12:54:21,642][963233] Updated weights for policy 0, policy_version 5840 (0.0005)
-[2023-07-08 12:54:24,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7304.5, 300 sec: 7247.8). Total num frames: 3010560. Throughput: 0: 7432.2. Samples: 3002208. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:54:24,690][962948] Avg episode reward: [(0, '20.896')]
-[2023-07-08 12:54:27,124][963233] Updated weights for policy 0, policy_version 5920 (0.0005)
-[2023-07-08 12:54:29,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7304.6, 300 sec: 7247.8). Total num frames: 3047424. Throughput: 0: 7404.3. Samples: 3044972. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:54:29,690][962948] Avg episode reward: [(0, '22.083')]
-[2023-07-08 12:54:32,857][963233] Updated weights for policy 0, policy_version 6000 (0.0005)
-[2023-07-08 12:54:34,689][962948] Fps is (10 sec: 7372.6, 60 sec: 7372.8, 300 sec: 7247.8). Total num frames: 3084288. Throughput: 0: 7398.8. Samples: 3066880. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
-[2023-07-08 12:54:34,700][962948] Avg episode reward: [(0, '20.575')]
-[2023-07-08 12:54:34,704][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006024_3084288.pth...
-[2023-07-08 12:54:34,707][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000005592_2863104.pth
-[2023-07-08 12:54:38,707][963233] Updated weights for policy 0, policy_version 6080 (0.0005)
-[2023-07-08 12:54:39,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7372.8, 300 sec: 7247.8). Total num frames: 3117056. Throughput: 0: 7348.4. Samples: 3108960. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
-[2023-07-08 12:54:39,690][962948] Avg episode reward: [(0, '24.559')]
-[2023-07-08 12:54:39,690][963189] Saving new best policy, reward=24.559!
-[2023-07-08 12:54:44,075][963233] Updated weights for policy 0, policy_version 6160 (0.0005)
-[2023-07-08 12:54:44,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7372.8, 300 sec: 7261.7). Total num frames: 3158016. Throughput: 0: 7374.9. Samples: 3154088. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
-[2023-07-08 12:54:44,689][962948] Avg episode reward: [(0, '24.789')]
-[2023-07-08 12:54:44,690][963189] Saving new best policy, reward=24.789!
-[2023-07-08 12:54:49,546][963233] Updated weights for policy 0, policy_version 6240 (0.0006)
-[2023-07-08 12:54:49,689][962948] Fps is (10 sec: 7782.3, 60 sec: 7372.8, 300 sec: 7261.7). Total num frames: 3194880. Throughput: 0: 7363.1. Samples: 3177820. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
-[2023-07-08 12:54:49,690][962948] Avg episode reward: [(0, '26.005')]
-[2023-07-08 12:54:49,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006240_3194880.pth...
-[2023-07-08 12:54:49,696][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000005808_2973696.pth
-[2023-07-08 12:54:49,696][963189] Saving new best policy, reward=26.005!
-[2023-07-08 12:54:54,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7372.8, 300 sec: 7261.7). Total num frames: 3231744. Throughput: 0: 7328.0. Samples: 3220212. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:54:54,689][962948] Avg episode reward: [(0, '31.489')]
-[2023-07-08 12:54:54,690][963189] Saving new best policy, reward=31.489!
-[2023-07-08 12:54:55,289][963233] Updated weights for policy 0, policy_version 6320 (0.0005)
-[2023-07-08 12:54:59,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7304.5, 300 sec: 7261.7). Total num frames: 3264512. Throughput: 0: 7284.3. Samples: 3264520. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:54:59,690][962948] Avg episode reward: [(0, '29.331')]
-[2023-07-08 12:55:00,830][963233] Updated weights for policy 0, policy_version 6400 (0.0005)
-[2023-07-08 12:55:04,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7304.5, 300 sec: 7261.7). Total num frames: 3301376. Throughput: 0: 7290.0. Samples: 3285932. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
-[2023-07-08 12:55:04,690][962948] Avg episode reward: [(0, '29.339')]
-[2023-07-08 12:55:04,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006448_3301376.pth...
-[2023-07-08 12:55:04,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006024_3084288.pth
-[2023-07-08 12:55:06,639][963233] Updated weights for policy 0, policy_version 6480 (0.0005)
-[2023-07-08 12:55:09,689][962948] Fps is (10 sec: 7373.0, 60 sec: 7304.5, 300 sec: 7275.6). Total num frames: 3338240. Throughput: 0: 7282.7. Samples: 3329928. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 12:55:09,690][962948] Avg episode reward: [(0, '34.513')]
-[2023-07-08 12:55:09,690][963189] Saving new best policy, reward=34.513!
-[2023-07-08 12:55:12,018][963233] Updated weights for policy 0, policy_version 6560 (0.0005)
-[2023-07-08 12:55:14,689][962948] Fps is (10 sec: 7782.5, 60 sec: 7372.8, 300 sec: 7275.6). Total num frames: 3379200. Throughput: 0: 7345.7. Samples: 3375528. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
-[2023-07-08 12:55:14,690][962948] Avg episode reward: [(0, '29.098')]
-[2023-07-08 12:55:17,354][963233] Updated weights for policy 0, policy_version 6640 (0.0005)
-[2023-07-08 12:55:19,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7372.8, 300 sec: 7275.6). Total num frames: 3416064. Throughput: 0: 7364.6. Samples: 3398284. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
-[2023-07-08 12:55:19,690][962948] Avg episode reward: [(0, '26.077')]
-[2023-07-08 12:55:19,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006672_3416064.pth...
-[2023-07-08 12:55:19,696][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006240_3194880.pth
-[2023-07-08 12:55:22,812][963233] Updated weights for policy 0, policy_version 6720 (0.0005)
-[2023-07-08 12:55:24,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7372.8, 300 sec: 7275.6). Total num frames: 3452928. Throughput: 0: 7429.8. Samples: 3443300. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:55:24,690][962948] Avg episode reward: [(0, '32.699')]
-[2023-07-08 12:55:28,165][963233] Updated weights for policy 0, policy_version 6800 (0.0005)
-[2023-07-08 12:55:29,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7372.8, 300 sec: 7275.6). Total num frames: 3489792. Throughput: 0: 7442.4. Samples: 3488996. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:55:29,690][962948] Avg episode reward: [(0, '33.425')]
-[2023-07-08 12:55:33,886][963233] Updated weights for policy 0, policy_version 6880 (0.0005)
-[2023-07-08 12:55:34,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7372.8, 300 sec: 7275.6). Total num frames: 3526656. Throughput: 0: 7389.3. Samples: 3510336. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:55:34,689][962948] Avg episode reward: [(0, '32.444')]
-[2023-07-08 12:55:34,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006888_3526656.pth...
-[2023-07-08 12:55:34,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006448_3301376.pth
-[2023-07-08 12:55:39,507][963233] Updated weights for policy 0, policy_version 6960 (0.0005)
-[2023-07-08 12:55:39,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7441.1, 300 sec: 7275.6). Total num frames: 3563520. Throughput: 0: 7394.6. Samples: 3552968. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:55:39,689][962948] Avg episode reward: [(0, '34.575')]
-[2023-07-08 12:55:39,690][963189] Saving new best policy, reward=34.575!
-[2023-07-08 12:55:44,346][963233] Updated weights for policy 0, policy_version 7040 (0.0006)
-[2023-07-08 12:55:44,689][962948] Fps is (10 sec: 7782.5, 60 sec: 7441.1, 300 sec: 7289.5). Total num frames: 3604480. Throughput: 0: 7509.1. Samples: 3602428. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:55:44,689][962948] Avg episode reward: [(0, '32.538')]
-[2023-07-08 12:55:49,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7441.1, 300 sec: 7289.5). Total num frames: 3641344. Throughput: 0: 7540.6. Samples: 3625260. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 12:55:49,689][962948] Avg episode reward: [(0, '32.276')]
-[2023-07-08 12:55:49,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000007112_3641344.pth...
-[2023-07-08 12:55:49,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006672_3416064.pth
-[2023-07-08 12:55:49,970][963233] Updated weights for policy 0, policy_version 7120 (0.0005)
-[2023-07-08 12:55:54,689][962948] Fps is (10 sec: 7782.3, 60 sec: 7509.3, 300 sec: 7303.4). Total num frames: 3682304. Throughput: 0: 7569.9. Samples: 3670576. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 12:55:54,689][962948] Avg episode reward: [(0, '33.959')]
-[2023-07-08 12:55:54,987][963233] Updated weights for policy 0, policy_version 7200 (0.0006)
-[2023-07-08 12:55:59,689][962948] Fps is (10 sec: 7782.5, 60 sec: 7577.6, 300 sec: 7317.3). Total num frames: 3719168. Throughput: 0: 7594.1. Samples: 3717260. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
-[2023-07-08 12:55:59,689][962948] Avg episode reward: [(0, '32.135')]
-[2023-07-08 12:56:00,449][963233] Updated weights for policy 0, policy_version 7280 (0.0006)
-[2023-07-08 12:56:04,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7331.1). Total num frames: 3760128. Throughput: 0: 7601.5. Samples: 3740352. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:56:04,689][962948] Avg episode reward: [(0, '31.060')]
-[2023-07-08 12:56:04,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000007344_3760128.pth...
-[2023-07-08 12:56:04,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006888_3526656.pth
-[2023-07-08 12:56:05,695][963233] Updated weights for policy 0, policy_version 7360 (0.0005)
-[2023-07-08 12:56:09,689][962948] Fps is (10 sec: 7782.3, 60 sec: 7645.9, 300 sec: 7317.3). Total num frames: 3796992. Throughput: 0: 7652.1. Samples: 3787644. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:56:09,689][962948] Avg episode reward: [(0, '32.657')]
-[2023-07-08 12:56:10,984][963233] Updated weights for policy 0, policy_version 7440 (0.0005)
-[2023-07-08 12:56:14,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7577.6, 300 sec: 7317.3). Total num frames: 3833856. Throughput: 0: 7640.5. Samples: 3832820. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:56:14,689][962948] Avg episode reward: [(0, '32.797')]
-[2023-07-08 12:56:16,637][963233] Updated weights for policy 0, policy_version 7520 (0.0005)
-[2023-07-08 12:56:19,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7577.6, 300 sec: 7317.3). Total num frames: 3870720. Throughput: 0: 7637.5. Samples: 3854024. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:56:19,689][962948] Avg episode reward: [(0, '28.195')]
-[2023-07-08 12:56:19,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000007560_3870720.pth...
-[2023-07-08 12:56:19,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000007112_3641344.pth
-[2023-07-08 12:56:21,953][963233] Updated weights for policy 0, policy_version 7600 (0.0005)
-[2023-07-08 12:56:24,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7577.6, 300 sec: 7317.3). Total num frames: 3907584. Throughput: 0: 7701.6. Samples: 3899540. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:56:24,689][962948] Avg episode reward: [(0, '28.611')]
-[2023-07-08 12:56:27,523][963233] Updated weights for policy 0, policy_version 7680 (0.0005)
-[2023-07-08 12:56:29,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7577.6, 300 sec: 7317.3). Total num frames: 3944448. Throughput: 0: 7598.9. Samples: 3944380. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:56:29,689][962948] Avg episode reward: [(0, '30.441')]
-[2023-07-08 12:56:32,991][963233] Updated weights for policy 0, policy_version 7760 (0.0006)
-[2023-07-08 12:56:34,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7345.0). Total num frames: 3985408. Throughput: 0: 7587.1. Samples: 3966680. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:56:34,689][962948] Avg episode reward: [(0, '29.465')]
-[2023-07-08 12:56:34,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000007784_3985408.pth...
-[2023-07-08 12:56:34,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000007344_3760128.pth
-[2023-07-08 12:56:38,197][963233] Updated weights for policy 0, policy_version 7840 (0.0005)
-[2023-07-08 12:56:39,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7345.0). Total num frames: 4022272. Throughput: 0: 7631.3. Samples: 4013984. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:56:39,689][962948] Avg episode reward: [(0, '31.177')]
-[2023-07-08 12:56:43,485][963233] Updated weights for policy 0, policy_version 7920 (0.0005)
-[2023-07-08 12:56:44,689][962948] Fps is (10 sec: 7782.3, 60 sec: 7645.8, 300 sec: 7358.9). Total num frames: 4063232. Throughput: 0: 7603.9. Samples: 4059436. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
-[2023-07-08 12:56:44,689][962948] Avg episode reward: [(0, '30.470')]
-[2023-07-08 12:56:48,702][963233] Updated weights for policy 0, policy_version 8000 (0.0005)
-[2023-07-08 12:56:49,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7372.8). Total num frames: 4100096. Throughput: 0: 7597.7. Samples: 4082248. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
-[2023-07-08 12:56:49,689][962948] Avg episode reward: [(0, '26.303')]
-[2023-07-08 12:56:49,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000008008_4100096.pth...
-[2023-07-08 12:56:49,696][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000007560_3870720.pth
-[2023-07-08 12:56:54,149][963233] Updated weights for policy 0, policy_version 8080 (0.0005)
-[2023-07-08 12:56:54,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7577.6, 300 sec: 7372.8). Total num frames: 4136960. Throughput: 0: 7582.1. Samples: 4128840. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
-[2023-07-08 12:56:54,689][962948] Avg episode reward: [(0, '29.412')]
-[2023-07-08 12:56:59,637][963233] Updated weights for policy 0, policy_version 8160 (0.0005)
-[2023-07-08 12:56:59,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.8, 300 sec: 7386.7). Total num frames: 4177920. Throughput: 0: 7577.9. Samples: 4173824. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 12:56:59,689][962948] Avg episode reward: [(0, '35.052')]
-[2023-07-08 12:56:59,690][963189] Saving new best policy, reward=35.052!
-[2023-07-08 12:57:04,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7577.6, 300 sec: 7386.7). Total num frames: 4214784. Throughput: 0: 7645.3. Samples: 4198064. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
-[2023-07-08 12:57:04,689][962948] Avg episode reward: [(0, '38.798')]
-[2023-07-08 12:57:04,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000008232_4214784.pth...
-[2023-07-08 12:57:04,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000007784_3985408.pth
-[2023-07-08 12:57:04,695][963189] Saving new best policy, reward=38.798!
-[2023-07-08 12:57:04,907][963233] Updated weights for policy 0, policy_version 8240 (0.0006)
-[2023-07-08 12:57:09,689][962948] Fps is (10 sec: 7782.5, 60 sec: 7645.9, 300 sec: 7414.5). Total num frames: 4255744. Throughput: 0: 7657.3. Samples: 4244116. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
-[2023-07-08 12:57:09,689][962948] Avg episode reward: [(0, '35.530')]
-[2023-07-08 12:57:10,208][963233] Updated weights for policy 0, policy_version 8320 (0.0005)
-[2023-07-08 12:57:14,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7577.6, 300 sec: 7400.6). Total num frames: 4288512. Throughput: 0: 7646.0. Samples: 4288448. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
-[2023-07-08 12:57:14,689][962948] Avg episode reward: [(0, '39.138')]
-[2023-07-08 12:57:14,690][963189] Saving new best policy, reward=39.138!
-[2023-07-08 12:57:15,939][963233] Updated weights for policy 0, policy_version 8400 (0.0005)
-[2023-07-08 12:57:19,689][962948] Fps is (10 sec: 6963.1, 60 sec: 7577.6, 300 sec: 7400.6). Total num frames: 4325376. Throughput: 0: 7640.0. Samples: 4310480. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
-[2023-07-08 12:57:19,689][962948] Avg episode reward: [(0, '34.313')]
-[2023-07-08 12:57:19,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000008448_4325376.pth...
-[2023-07-08 12:57:19,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000008008_4100096.pth
-[2023-07-08 12:57:21,367][963233] Updated weights for policy 0, policy_version 8480 (0.0005)
-[2023-07-08 12:57:24,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7428.3). Total num frames: 4366336. Throughput: 0: 7578.5. Samples: 4355016. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
-[2023-07-08 12:57:24,689][962948] Avg episode reward: [(0, '38.474')]
-[2023-07-08 12:57:26,758][963233] Updated weights for policy 0, policy_version 8560 (0.0005)
-[2023-07-08 12:57:29,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7428.3). Total num frames: 4403200. Throughput: 0: 7581.2. Samples: 4400588. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
-[2023-07-08 12:57:29,689][962948] Avg episode reward: [(0, '45.602')]
-[2023-07-08 12:57:29,690][963189] Saving new best policy, reward=45.602!
-[2023-07-08 12:57:32,070][963233] Updated weights for policy 0, policy_version 8640 (0.0005)
-[2023-07-08 12:57:34,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7577.6, 300 sec: 7428.3). Total num frames: 4440064. Throughput: 0: 7592.1. Samples: 4423892. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
-[2023-07-08 12:57:34,689][962948] Avg episode reward: [(0, '37.266')]
-[2023-07-08 12:57:34,691][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000008672_4440064.pth...
-[2023-07-08 12:57:34,693][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000008232_4214784.pth
-[2023-07-08 12:57:37,303][963233] Updated weights for policy 0, policy_version 8720 (0.0005)
-[2023-07-08 12:57:39,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7456.1). Total num frames: 4481024. Throughput: 0: 7624.3. Samples: 4471932. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
-[2023-07-08 12:57:39,689][962948] Avg episode reward: [(0, '42.012')]
-[2023-07-08 12:57:42,155][963233] Updated weights for policy 0, policy_version 8800 (0.0005)
-[2023-07-08 12:57:44,689][962948] Fps is (10 sec: 8601.6, 60 sec: 7714.1, 300 sec: 7483.9). Total num frames: 4526080. Throughput: 0: 7747.6. Samples: 4522468. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:57:44,689][962948] Avg episode reward: [(0, '39.172')]
-[2023-07-08 12:57:47,064][963233] Updated weights for policy 0, policy_version 8880 (0.0005)
-[2023-07-08 12:57:49,689][962948] Fps is (10 sec: 8191.9, 60 sec: 7714.1, 300 sec: 7483.9). Total num frames: 4562944. Throughput: 0: 7751.4. Samples: 4546876. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:57:49,689][962948] Avg episode reward: [(0, '37.228')]
-[2023-07-08 12:57:49,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000008912_4562944.pth...
-[2023-07-08 12:57:49,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000008448_4325376.pth
-[2023-07-08 12:57:52,200][963233] Updated weights for policy 0, policy_version 8960 (0.0005)
-[2023-07-08 12:57:54,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7782.4, 300 sec: 7497.8). Total num frames: 4603904. Throughput: 0: 7812.3. Samples: 4595668. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:57:54,689][962948] Avg episode reward: [(0, '44.228')]
-[2023-07-08 12:57:57,642][963233] Updated weights for policy 0, policy_version 9040 (0.0005)
-[2023-07-08 12:57:59,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7714.1, 300 sec: 7497.8). Total num frames: 4640768. Throughput: 0: 7798.5. Samples: 4639380. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:57:59,689][962948] Avg episode reward: [(0, '46.242')]
-[2023-07-08 12:57:59,690][963189] Saving new best policy, reward=46.242!
-[2023-07-08 12:58:03,068][963233] Updated weights for policy 0, policy_version 9120 (0.0005)
-[2023-07-08 12:58:04,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7714.1, 300 sec: 7497.8). Total num frames: 4677632. Throughput: 0: 7814.9. Samples: 4662152. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:58:04,689][962948] Avg episode reward: [(0, '47.477')]
-[2023-07-08 12:58:04,722][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000009144_4681728.pth...
-[2023-07-08 12:58:04,724][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000008672_4440064.pth
-[2023-07-08 12:58:04,725][963189] Saving new best policy, reward=47.477!
-[2023-07-08 12:58:08,734][963233] Updated weights for policy 0, policy_version 9200 (0.0005)
-[2023-07-08 12:58:09,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7645.9, 300 sec: 7511.7). Total num frames: 4714496. Throughput: 0: 7805.9. Samples: 4706280. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:58:09,689][962948] Avg episode reward: [(0, '46.697')]
-[2023-07-08 12:58:14,219][963233] Updated weights for policy 0, policy_version 9280 (0.0005)
-[2023-07-08 12:58:14,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7714.1, 300 sec: 7511.6). Total num frames: 4751360. Throughput: 0: 7792.1. Samples: 4751232. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:58:14,689][962948] Avg episode reward: [(0, '43.611')]
-[2023-07-08 12:58:19,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7714.1, 300 sec: 7511.6). Total num frames: 4788224. Throughput: 0: 7744.8. Samples: 4772408. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:58:19,689][962948] Avg episode reward: [(0, '39.154')]
-[2023-07-08 12:58:19,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000009352_4788224.pth...
-[2023-07-08 12:58:19,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000008912_4562944.pth
-[2023-07-08 12:58:19,917][963233] Updated weights for policy 0, policy_version 9360 (0.0005)
-[2023-07-08 12:58:24,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7645.9, 300 sec: 7511.7). Total num frames: 4825088. Throughput: 0: 7644.4. Samples: 4815928. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:58:24,689][962948] Avg episode reward: [(0, '46.520')]
-[2023-07-08 12:58:25,513][963233] Updated weights for policy 0, policy_version 9440 (0.0005)
-[2023-07-08 12:58:29,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7645.9, 300 sec: 7525.5). Total num frames: 4861952. Throughput: 0: 7535.1. Samples: 4861548. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:58:29,689][962948] Avg episode reward: [(0, '45.133')]
-[2023-07-08 12:58:30,952][963233] Updated weights for policy 0, policy_version 9520 (0.0005)
-[2023-07-08 12:58:34,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7645.9, 300 sec: 7539.4). Total num frames: 4898816. Throughput: 0: 7456.8. Samples: 4882432. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:58:34,690][962948] Avg episode reward: [(0, '40.480')]
-[2023-07-08 12:58:34,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000009568_4898816.pth...
-[2023-07-08 12:58:34,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000009144_4681728.pth
-[2023-07-08 12:58:36,782][963233] Updated weights for policy 0, policy_version 9600 (0.0005)
-[2023-07-08 12:58:39,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7577.6, 300 sec: 7525.5). Total num frames: 4935680. Throughput: 0: 7347.3. Samples: 4926296. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:58:39,706][962948] Avg episode reward: [(0, '40.207')]
-[2023-07-08 12:58:42,349][963233] Updated weights for policy 0, policy_version 9680 (0.0005)
-[2023-07-08 12:58:44,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7441.1, 300 sec: 7525.5). Total num frames: 4972544. Throughput: 0: 7318.7. Samples: 4968720. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
-[2023-07-08 12:58:44,689][962948] Avg episode reward: [(0, '44.711')]
-[2023-07-08 12:58:48,139][963233] Updated weights for policy 0, policy_version 9760 (0.0005)
-[2023-07-08 12:58:49,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7372.8, 300 sec: 7511.6). Total num frames: 5005312. Throughput: 0: 7288.7. Samples: 4990144. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
-[2023-07-08 12:58:49,689][962948] Avg episode reward: [(0, '46.908')]
-[2023-07-08 12:58:49,691][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000009776_5005312.pth...
-[2023-07-08 12:58:49,693][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000009352_4788224.pth
-[2023-07-08 12:58:53,485][963233] Updated weights for policy 0, policy_version 9840 (0.0005)
-[2023-07-08 12:58:54,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7372.8, 300 sec: 7525.5). Total num frames: 5046272. Throughput: 0: 7293.9. Samples: 5034504. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:58:54,689][962948] Avg episode reward: [(0, '47.495')]
-[2023-07-08 12:58:54,690][963189] Saving new best policy, reward=47.495!
-[2023-07-08 12:58:59,026][963233] Updated weights for policy 0, policy_version 9920 (0.0005)
-[2023-07-08 12:58:59,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7372.8, 300 sec: 7525.5). Total num frames: 5083136. Throughput: 0: 7298.7. Samples: 5079672. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:58:59,689][962948] Avg episode reward: [(0, '44.644')]
-[2023-07-08 12:59:04,413][963233] Updated weights for policy 0, policy_version 10000 (0.0006)
-[2023-07-08 12:59:04,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7372.8, 300 sec: 7525.5). Total num frames: 5120000. Throughput: 0: 7360.2. Samples: 5103616. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:59:04,690][962948] Avg episode reward: [(0, '41.330')]
-[2023-07-08 12:59:04,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000010000_5120000.pth...
-[2023-07-08 12:59:04,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000009568_4898816.pth
-[2023-07-08 12:59:09,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7372.8, 300 sec: 7525.5). Total num frames: 5156864. Throughput: 0: 7391.4. Samples: 5148540. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:59:09,690][962948] Avg episode reward: [(0, '42.404')]
-[2023-07-08 12:59:09,762][963233] Updated weights for policy 0, policy_version 10080 (0.0006)
-[2023-07-08 12:59:14,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7372.8, 300 sec: 7525.5). Total num frames: 5193728. Throughput: 0: 7374.6. Samples: 5193404. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:59:14,690][962948] Avg episode reward: [(0, '35.950')]
-[2023-07-08 12:59:15,379][963233] Updated weights for policy 0, policy_version 10160 (0.0005)
-[2023-07-08 12:59:19,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7372.8, 300 sec: 7525.5). Total num frames: 5230592. Throughput: 0: 7372.6. Samples: 5214200. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:59:19,689][962948] Avg episode reward: [(0, '52.925')]
-[2023-07-08 12:59:19,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000010216_5230592.pth...
-[2023-07-08 12:59:19,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000009776_5005312.pth
-[2023-07-08 12:59:19,696][963189] Saving new best policy, reward=52.925!
-[2023-07-08 12:59:20,980][963233] Updated weights for policy 0, policy_version 10240 (0.0005)
-[2023-07-08 12:59:24,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7372.8, 300 sec: 7525.5). Total num frames: 5267456. Throughput: 0: 7381.2. Samples: 5258452. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:59:24,690][962948] Avg episode reward: [(0, '52.428')]
-[2023-07-08 12:59:26,753][963233] Updated weights for policy 0, policy_version 10320 (0.0005)
-[2023-07-08 12:59:29,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7372.8, 300 sec: 7525.5). Total num frames: 5304320. Throughput: 0: 7370.3. Samples: 5300384. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:59:29,690][962948] Avg episode reward: [(0, '50.812')]
-[2023-07-08 12:59:32,083][963233] Updated weights for policy 0, policy_version 10400 (0.0005)
-[2023-07-08 12:59:34,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7372.8, 300 sec: 7539.4). Total num frames: 5341184. Throughput: 0: 7438.9. Samples: 5324896. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:59:34,722][962948] Avg episode reward: [(0, '54.876')]
-[2023-07-08 12:59:34,725][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000010432_5341184.pth...
-[2023-07-08 12:59:34,727][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000010000_5120000.pth
-[2023-07-08 12:59:34,728][963189] Saving new best policy, reward=54.876!
-[2023-07-08 12:59:37,687][963233] Updated weights for policy 0, policy_version 10480 (0.0005)
-[2023-07-08 12:59:39,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7372.8, 300 sec: 7525.5). Total num frames: 5378048. Throughput: 0: 7445.3. Samples: 5369544. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:59:39,721][962948] Avg episode reward: [(0, '54.905')]
-[2023-07-08 12:59:39,721][963189] Saving new best policy, reward=54.905!
-[2023-07-08 12:59:43,045][963233] Updated weights for policy 0, policy_version 10560 (0.0005)
-[2023-07-08 12:59:44,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7441.1, 300 sec: 7539.4). Total num frames: 5419008. Throughput: 0: 7490.1. Samples: 5416728. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 12:59:44,690][962948] Avg episode reward: [(0, '40.281')]
-[2023-07-08 12:59:47,710][963233] Updated weights for policy 0, policy_version 10640 (0.0005)
-[2023-07-08 12:59:49,689][962948] Fps is (10 sec: 8192.0, 60 sec: 7577.6, 300 sec: 7553.3). Total num frames: 5459968. Throughput: 0: 7536.6. Samples: 5442764. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
-[2023-07-08 12:59:49,690][962948] Avg episode reward: [(0, '46.487')]
-[2023-07-08 12:59:49,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000010664_5459968.pth...
-[2023-07-08 12:59:49,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000010216_5230592.pth
-[2023-07-08 12:59:53,015][963233] Updated weights for policy 0, policy_version 10720 (0.0005)
-[2023-07-08 12:59:54,689][962948] Fps is (10 sec: 7782.5, 60 sec: 7509.3, 300 sec: 7567.2). Total num frames: 5496832. Throughput: 0: 7574.3. Samples: 5489384. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
-[2023-07-08 12:59:54,690][962948] Avg episode reward: [(0, '52.316')]
-[2023-07-08 12:59:58,259][963233] Updated weights for policy 0, policy_version 10800 (0.0005)
-[2023-07-08 12:59:59,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7577.6, 300 sec: 7581.1). Total num frames: 5537792. Throughput: 0: 7620.4. Samples: 5536324. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
-[2023-07-08 12:59:59,690][962948] Avg episode reward: [(0, '47.054')]
-[2023-07-08 13:00:03,580][963233] Updated weights for policy 0, policy_version 10880 (0.0005)
-[2023-07-08 13:00:04,689][962948] Fps is (10 sec: 7782.2, 60 sec: 7577.6, 300 sec: 7581.1). Total num frames: 5574656. Throughput: 0: 7680.8. Samples: 5559836. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
-[2023-07-08 13:00:04,690][962948] Avg episode reward: [(0, '45.379')]
-[2023-07-08 13:00:04,706][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000010896_5578752.pth...
-[2023-07-08 13:00:04,708][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000010432_5341184.pth
-[2023-07-08 13:00:09,187][963233] Updated weights for policy 0, policy_version 10960 (0.0005)
-[2023-07-08 13:00:09,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7577.6, 300 sec: 7567.2). Total num frames: 5611520. Throughput: 0: 7688.3. Samples: 5604428. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
-[2023-07-08 13:00:09,690][962948] Avg episode reward: [(0, '55.094')]
-[2023-07-08 13:00:09,690][963189] Saving new best policy, reward=55.094!
-[2023-07-08 13:00:14,559][963233] Updated weights for policy 0, policy_version 11040 (0.0005)
-[2023-07-08 13:00:14,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.8, 300 sec: 7581.1). Total num frames: 5652480. Throughput: 0: 7750.2. Samples: 5649144. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:00:14,690][962948] Avg episode reward: [(0, '48.668')]
-[2023-07-08 13:00:19,689][962948] Fps is (10 sec: 7782.2, 60 sec: 7645.8, 300 sec: 7581.1). Total num frames: 5689344. Throughput: 0: 7729.6. Samples: 5672732. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:00:19,690][962948] Avg episode reward: [(0, '53.707')]
-[2023-07-08 13:00:19,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000011112_5689344.pth...
-[2023-07-08 13:00:19,696][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000010664_5459968.pth
-[2023-07-08 13:00:20,010][963233] Updated weights for policy 0, policy_version 11120 (0.0005)
-[2023-07-08 13:00:24,689][962948] Fps is (10 sec: 7782.5, 60 sec: 7714.1, 300 sec: 7595.0). Total num frames: 5730304. Throughput: 0: 7745.2. Samples: 5718080. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 13:00:24,690][962948] Avg episode reward: [(0, '48.127')]
-[2023-07-08 13:00:25,177][963233] Updated weights for policy 0, policy_version 11200 (0.0005)
-[2023-07-08 13:00:29,689][962948] Fps is (10 sec: 7782.7, 60 sec: 7714.1, 300 sec: 7595.0). Total num frames: 5767168. Throughput: 0: 7742.7. Samples: 5765148. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 13:00:29,689][962948] Avg episode reward: [(0, '47.329')]
-[2023-07-08 13:00:30,669][963233] Updated weights for policy 0, policy_version 11280 (0.0005)
-[2023-07-08 13:00:34,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7714.1, 300 sec: 7595.0). Total num frames: 5804032. Throughput: 0: 7639.9. Samples: 5786560. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:00:34,690][962948] Avg episode reward: [(0, '43.561')]
-[2023-07-08 13:00:34,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000011336_5804032.pth...
-[2023-07-08 13:00:34,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000010896_5578752.pth
-[2023-07-08 13:00:36,215][963233] Updated weights for policy 0, policy_version 11360 (0.0005)
-[2023-07-08 13:00:39,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7714.1, 300 sec: 7581.1). Total num frames: 5840896. Throughput: 0: 7597.0. Samples: 5831248. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:00:39,689][962948] Avg episode reward: [(0, '52.591')]
-[2023-07-08 13:00:41,545][963233] Updated weights for policy 0, policy_version 11440 (0.0005)
-[2023-07-08 13:00:44,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7645.9, 300 sec: 7581.1). Total num frames: 5877760. Throughput: 0: 7587.0. Samples: 5877740. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
-[2023-07-08 13:00:44,689][962948] Avg episode reward: [(0, '42.984')]
-[2023-07-08 13:00:46,944][963233] Updated weights for policy 0, policy_version 11520 (0.0005)
-[2023-07-08 13:00:49,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7577.6, 300 sec: 7567.2). Total num frames: 5914624. Throughput: 0: 7550.1. Samples: 5899592. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:00:49,690][962948] Avg episode reward: [(0, '44.852')]
-[2023-07-08 13:00:49,712][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000011560_5918720.pth...
-[2023-07-08 13:00:49,714][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000011112_5689344.pth
-[2023-07-08 13:00:52,497][963233] Updated weights for policy 0, policy_version 11600 (0.0005)
-[2023-07-08 13:00:54,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7577.6, 300 sec: 7567.2). Total num frames: 5951488. Throughput: 0: 7541.4. Samples: 5943788. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:00:54,689][962948] Avg episode reward: [(0, '46.105')]
-[2023-07-08 13:00:57,981][963233] Updated weights for policy 0, policy_version 11680 (0.0005)
-[2023-07-08 13:00:59,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7509.3, 300 sec: 7553.3). Total num frames: 5988352. Throughput: 0: 7538.4. Samples: 5988372. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
-[2023-07-08 13:00:59,689][962948] Avg episode reward: [(0, '49.911')]
-[2023-07-08 13:01:02,992][963233] Updated weights for policy 0, policy_version 11760 (0.0005)
-[2023-07-08 13:01:04,689][962948] Fps is (10 sec: 8191.9, 60 sec: 7645.9, 300 sec: 7581.1). Total num frames: 6033408. Throughput: 0: 7575.9. Samples: 6013644. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
-[2023-07-08 13:01:04,689][962948] Avg episode reward: [(0, '48.106')]
-[2023-07-08 13:01:04,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000011784_6033408.pth...
-[2023-07-08 13:01:04,696][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000011336_5804032.pth
-[2023-07-08 13:01:07,911][963233] Updated weights for policy 0, policy_version 11840 (0.0005)
-[2023-07-08 13:01:09,689][962948] Fps is (10 sec: 8601.6, 60 sec: 7714.1, 300 sec: 7595.0). Total num frames: 6074368. Throughput: 0: 7682.7. Samples: 6063800. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:01:09,689][962948] Avg episode reward: [(0, '56.190')]
-[2023-07-08 13:01:09,690][963189] Saving new best policy, reward=56.190!
-[2023-07-08 13:01:12,705][963233] Updated weights for policy 0, policy_version 11920 (0.0005)
-[2023-07-08 13:01:14,689][962948] Fps is (10 sec: 8192.0, 60 sec: 7714.1, 300 sec: 7608.8). Total num frames: 6115328. Throughput: 0: 7735.8. Samples: 6113260. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:01:14,689][962948] Avg episode reward: [(0, '45.821')]
-[2023-07-08 13:01:17,892][963233] Updated weights for policy 0, policy_version 12000 (0.0006)
-[2023-07-08 13:01:19,689][962948] Fps is (10 sec: 8192.0, 60 sec: 7782.4, 300 sec: 7622.7). Total num frames: 6156288. Throughput: 0: 7814.0. Samples: 6138188. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:01:19,689][962948] Avg episode reward: [(0, '42.159')]
-[2023-07-08 13:01:19,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000012024_6156288.pth...
-[2023-07-08 13:01:19,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000011560_5918720.pth
-[2023-07-08 13:01:23,214][963233] Updated weights for policy 0, policy_version 12080 (0.0005)
-[2023-07-08 13:01:24,689][962948] Fps is (10 sec: 8192.0, 60 sec: 7782.4, 300 sec: 7636.6). Total num frames: 6197248. Throughput: 0: 7859.5. Samples: 6184924. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:01:24,690][962948] Avg episode reward: [(0, '44.127')]
-[2023-07-08 13:01:28,499][963233] Updated weights for policy 0, policy_version 12160 (0.0005)
-[2023-07-08 13:01:29,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7782.4, 300 sec: 7622.7). Total num frames: 6234112. Throughput: 0: 7841.3. Samples: 6230600. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
-[2023-07-08 13:01:29,690][962948] Avg episode reward: [(0, '42.290')]
-[2023-07-08 13:01:33,882][963233] Updated weights for policy 0, policy_version 12240 (0.0005)
-[2023-07-08 13:01:34,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7782.4, 300 sec: 7622.7). Total num frames: 6270976. Throughput: 0: 7884.3. Samples: 6254384. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
-[2023-07-08 13:01:34,690][962948] Avg episode reward: [(0, '45.995')]
-[2023-07-08 13:01:34,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000012248_6270976.pth...
-[2023-07-08 13:01:34,696][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000011784_6033408.pth
-[2023-07-08 13:01:39,526][963233] Updated weights for policy 0, policy_version 12320 (0.0005)
-[2023-07-08 13:01:39,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7782.4, 300 sec: 7608.8). Total num frames: 6307840. Throughput: 0: 7889.4. Samples: 6298812. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 13:01:39,690][962948] Avg episode reward: [(0, '49.853')]
-[2023-07-08 13:01:44,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7782.4, 300 sec: 7608.8). Total num frames: 6344704. Throughput: 0: 7828.9. Samples: 6340672. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:01:44,690][962948] Avg episode reward: [(0, '48.100')]
-[2023-07-08 13:01:45,136][963233] Updated weights for policy 0, policy_version 12400 (0.0005)
-[2023-07-08 13:01:49,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7782.4, 300 sec: 7608.8). Total num frames: 6381568. Throughput: 0: 7808.5. Samples: 6365024. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:01:49,690][962948] Avg episode reward: [(0, '46.938')]
-[2023-07-08 13:01:49,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000012464_6381568.pth...
-[2023-07-08 13:01:49,696][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000012024_6156288.pth
-[2023-07-08 13:01:50,556][963233] Updated weights for policy 0, policy_version 12480 (0.0006)
-[2023-07-08 13:01:54,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7782.4, 300 sec: 7595.0). Total num frames: 6418432. Throughput: 0: 7660.2. Samples: 6408508. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 13:01:54,690][962948] Avg episode reward: [(0, '41.849')]
-[2023-07-08 13:01:56,000][963233] Updated weights for policy 0, policy_version 12560 (0.0005)
-[2023-07-08 13:01:59,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7782.4, 300 sec: 7595.0). Total num frames: 6455296. Throughput: 0: 7596.3. Samples: 6455092. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 13:01:59,690][962948] Avg episode reward: [(0, '48.572')]
-[2023-07-08 13:02:01,513][963233] Updated weights for policy 0, policy_version 12640 (0.0005)
-[2023-07-08 13:02:04,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7714.1, 300 sec: 7595.0). Total num frames: 6496256. Throughput: 0: 7523.7. Samples: 6476756. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:02:04,690][962948] Avg episode reward: [(0, '49.128')]
-[2023-07-08 13:02:04,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000012688_6496256.pth...
-[2023-07-08 13:02:04,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000012248_6270976.pth
-[2023-07-08 13:02:06,568][963233] Updated weights for policy 0, policy_version 12720 (0.0005)
-[2023-07-08 13:02:09,689][962948] Fps is (10 sec: 8192.0, 60 sec: 7714.1, 300 sec: 7622.7). Total num frames: 6537216. Throughput: 0: 7579.1. Samples: 6525984. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:02:09,690][962948] Avg episode reward: [(0, '51.060')]
-[2023-07-08 13:02:11,676][963233] Updated weights for policy 0, policy_version 12800 (0.0005)
-[2023-07-08 13:02:14,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7622.7). Total num frames: 6574080. Throughput: 0: 7588.5. Samples: 6572080. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:02:14,689][962948] Avg episode reward: [(0, '53.777')]
-[2023-07-08 13:02:16,770][963233] Updated weights for policy 0, policy_version 12880 (0.0006)
-[2023-07-08 13:02:19,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7622.7). Total num frames: 6615040. Throughput: 0: 7632.3. Samples: 6597836. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:02:19,689][962948] Avg episode reward: [(0, '47.479')]
-[2023-07-08 13:02:19,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000012920_6615040.pth...
-[2023-07-08 13:02:19,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000012464_6381568.pth
-[2023-07-08 13:02:22,241][963233] Updated weights for policy 0, policy_version 12960 (0.0005)
-[2023-07-08 13:02:24,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7577.6, 300 sec: 7622.7). Total num frames: 6651904. Throughput: 0: 7657.0. Samples: 6643376. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:02:24,706][962948] Avg episode reward: [(0, '50.824')]
-[2023-07-08 13:02:27,479][963233] Updated weights for policy 0, policy_version 13040 (0.0005)
-[2023-07-08 13:02:29,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7577.6, 300 sec: 7622.7). Total num frames: 6688768. Throughput: 0: 7736.9. Samples: 6688832. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:02:29,690][962948] Avg episode reward: [(0, '49.467')]
-[2023-07-08 13:02:32,866][963233] Updated weights for policy 0, policy_version 13120 (0.0005)
-[2023-07-08 13:02:34,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7622.7). Total num frames: 6729728. Throughput: 0: 7732.1. Samples: 6712968. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
-[2023-07-08 13:02:34,690][962948] Avg episode reward: [(0, '51.379')]
-[2023-07-08 13:02:34,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000013144_6729728.pth...
-[2023-07-08 13:02:34,696][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000012688_6496256.pth
-[2023-07-08 13:02:37,688][963233] Updated weights for policy 0, policy_version 13200 (0.0005)
-[2023-07-08 13:02:39,689][962948] Fps is (10 sec: 8191.9, 60 sec: 7714.1, 300 sec: 7608.8). Total num frames: 6770688. Throughput: 0: 7857.1. Samples: 6762080. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
-[2023-07-08 13:02:39,690][962948] Avg episode reward: [(0, '47.844')]
-[2023-07-08 13:02:43,350][963233] Updated weights for policy 0, policy_version 13280 (0.0005)
-[2023-07-08 13:02:44,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7714.1, 300 sec: 7608.8). Total num frames: 6807552. Throughput: 0: 7811.4. Samples: 6806604. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 13:02:44,690][962948] Avg episode reward: [(0, '48.366')]
-[2023-07-08 13:02:48,901][963233] Updated weights for policy 0, policy_version 13360 (0.0005)
-[2023-07-08 13:02:49,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7714.1, 300 sec: 7595.0). Total num frames: 6844416. Throughput: 0: 7805.2. Samples: 6827992. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 13:02:49,690][962948] Avg episode reward: [(0, '43.836')]
-[2023-07-08 13:02:49,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000013368_6844416.pth...
-[2023-07-08 13:02:49,696][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000012920_6615040.pth
-[2023-07-08 13:02:54,349][963233] Updated weights for policy 0, policy_version 13440 (0.0005)
-[2023-07-08 13:02:54,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7714.1, 300 sec: 7595.0). Total num frames: 6881280. Throughput: 0: 7712.6. Samples: 6873052. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:02:54,690][962948] Avg episode reward: [(0, '51.216')]
-[2023-07-08 13:02:59,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7714.1, 300 sec: 7595.0). Total num frames: 6918144. Throughput: 0: 7648.4. Samples: 6916256. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:02:59,690][962948] Avg episode reward: [(0, '52.286')]
-[2023-07-08 13:02:59,938][963233] Updated weights for policy 0, policy_version 13520 (0.0004)
-[2023-07-08 13:03:04,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7645.9, 300 sec: 7595.0). Total num frames: 6955008. Throughput: 0: 7569.9. Samples: 6938480. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:03:04,690][962948] Avg episode reward: [(0, '55.502')]
-[2023-07-08 13:03:04,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000013584_6955008.pth...
-[2023-07-08 13:03:04,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000013144_6729728.pth
-[2023-07-08 13:03:05,443][963233] Updated weights for policy 0, policy_version 13600 (0.0005)
-[2023-07-08 13:03:09,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7608.8). Total num frames: 6995968. Throughput: 0: 7562.5. Samples: 6983688. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:03:09,689][962948] Avg episode reward: [(0, '48.646')]
-[2023-07-08 13:03:10,626][963233] Updated weights for policy 0, policy_version 13680 (0.0005)
-[2023-07-08 13:03:14,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7608.8). Total num frames: 7032832. Throughput: 0: 7611.4. Samples: 7031344. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:03:14,689][962948] Avg episode reward: [(0, '53.200')]
-[2023-07-08 13:03:16,030][963233] Updated weights for policy 0, policy_version 13760 (0.0005)
-[2023-07-08 13:03:19,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7577.6, 300 sec: 7608.8). Total num frames: 7069696. Throughput: 0: 7562.8. Samples: 7053296. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:03:19,689][962948] Avg episode reward: [(0, '45.011')]
-[2023-07-08 13:03:19,732][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000013816_7073792.pth...
-[2023-07-08 13:03:19,734][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000013368_6844416.pth
-[2023-07-08 13:03:21,319][963233] Updated weights for policy 0, policy_version 13840 (0.0005)
-[2023-07-08 13:03:24,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7622.7). Total num frames: 7110656. Throughput: 0: 7489.2. Samples: 7099092. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 13:03:24,689][962948] Avg episode reward: [(0, '45.290')]
-[2023-07-08 13:03:26,620][963233] Updated weights for policy 0, policy_version 13920 (0.0005)
-[2023-07-08 13:03:29,689][962948] Fps is (10 sec: 7782.3, 60 sec: 7645.8, 300 sec: 7622.7). Total num frames: 7147520. Throughput: 0: 7542.2. Samples: 7146004. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 13:03:29,689][962948] Avg episode reward: [(0, '46.424')]
-[2023-07-08 13:03:32,167][963233] Updated weights for policy 0, policy_version 14000 (0.0004)
-[2023-07-08 13:03:34,689][962948] Fps is (10 sec: 7782.3, 60 sec: 7645.8, 300 sec: 7636.6). Total num frames: 7188480. Throughput: 0: 7555.7. Samples: 7168000. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
-[2023-07-08 13:03:34,689][962948] Avg episode reward: [(0, '46.172')]
-[2023-07-08 13:03:34,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000014040_7188480.pth...
-[2023-07-08 13:03:34,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000013584_6955008.pth
-[2023-07-08 13:03:37,175][963233] Updated weights for policy 0, policy_version 14080 (0.0005)
-[2023-07-08 13:03:39,689][962948] Fps is (10 sec: 7782.5, 60 sec: 7577.6, 300 sec: 7636.6). Total num frames: 7225344. Throughput: 0: 7630.2. Samples: 7216412. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
-[2023-07-08 13:03:39,689][962948] Avg episode reward: [(0, '59.211')]
-[2023-07-08 13:03:39,690][963189] Saving new best policy, reward=59.211!
-[2023-07-08 13:03:42,566][963233] Updated weights for policy 0, policy_version 14160 (0.0005)
-[2023-07-08 13:03:44,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7577.6, 300 sec: 7650.5). Total num frames: 7262208. Throughput: 0: 7684.4. Samples: 7262056. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 13:03:44,689][962948] Avg episode reward: [(0, '51.821')]
-[2023-07-08 13:03:48,018][963233] Updated weights for policy 0, policy_version 14240 (0.0006)
-[2023-07-08 13:03:49,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7650.5). Total num frames: 7303168. Throughput: 0: 7677.4. Samples: 7283964. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 13:03:49,689][962948] Avg episode reward: [(0, '57.497')]
-[2023-07-08 13:03:49,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000014264_7303168.pth...
-[2023-07-08 13:03:49,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000013816_7073792.pth
-[2023-07-08 13:03:53,377][963233] Updated weights for policy 0, policy_version 14320 (0.0005)
-[2023-07-08 13:03:54,689][962948] Fps is (10 sec: 7782.3, 60 sec: 7645.9, 300 sec: 7650.5). Total num frames: 7340032. Throughput: 0: 7713.7. Samples: 7330808. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 13:03:54,689][962948] Avg episode reward: [(0, '48.933')]
-[2023-07-08 13:03:58,831][963233] Updated weights for policy 0, policy_version 14400 (0.0005)
-[2023-07-08 13:03:59,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7645.9, 300 sec: 7650.5). Total num frames: 7376896. Throughput: 0: 7643.6. Samples: 7375304. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
-[2023-07-08 13:03:59,689][962948] Avg episode reward: [(0, '56.677')]
-[2023-07-08 13:04:04,229][963233] Updated weights for policy 0, policy_version 14480 (0.0005)
-[2023-07-08 13:04:04,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7645.9, 300 sec: 7650.5). Total num frames: 7413760. Throughput: 0: 7653.1. Samples: 7397688. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
-[2023-07-08 13:04:04,689][962948] Avg episode reward: [(0, '52.271')]
-[2023-07-08 13:04:04,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000014480_7413760.pth...
-[2023-07-08 13:04:04,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000014040_7188480.pth
-[2023-07-08 13:04:09,481][963233] Updated weights for policy 0, policy_version 14560 (0.0005)
-[2023-07-08 13:04:09,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.8, 300 sec: 7664.4). Total num frames: 7454720. Throughput: 0: 7698.2. Samples: 7445512. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
-[2023-07-08 13:04:09,689][962948] Avg episode reward: [(0, '50.831')]
-[2023-07-08 13:04:14,689][962948] Fps is (10 sec: 7782.5, 60 sec: 7645.9, 300 sec: 7664.4). Total num frames: 7491584. Throughput: 0: 7648.4. Samples: 7490180. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
-[2023-07-08 13:04:14,689][962948] Avg episode reward: [(0, '54.360')]
-[2023-07-08 13:04:14,906][963233] Updated weights for policy 0, policy_version 14640 (0.0006)
-[2023-07-08 13:04:19,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7645.9, 300 sec: 7664.4). Total num frames: 7528448. Throughput: 0: 7646.0. Samples: 7512072. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:04:19,689][962948] Avg episode reward: [(0, '47.785')]
-[2023-07-08 13:04:19,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000014704_7528448.pth...
-[2023-07-08 13:04:19,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000014264_7303168.pth
-[2023-07-08 13:04:20,639][963233] Updated weights for policy 0, policy_version 14720 (0.0004)
-[2023-07-08 13:04:24,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7577.6, 300 sec: 7664.4). Total num frames: 7565312. Throughput: 0: 7525.1. Samples: 7555040. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:04:24,689][962948] Avg episode reward: [(0, '49.692')]
-[2023-07-08 13:04:26,054][963233] Updated weights for policy 0, policy_version 14800 (0.0005)
-[2023-07-08 13:04:29,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7577.6, 300 sec: 7664.4). Total num frames: 7602176. Throughput: 0: 7505.1. Samples: 7599784. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:04:29,689][962948] Avg episode reward: [(0, '59.606')]
-[2023-07-08 13:04:29,690][963189] Saving new best policy, reward=59.606!
-[2023-07-08 13:04:31,561][963233] Updated weights for policy 0, policy_version 14880 (0.0005)
-[2023-07-08 13:04:34,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7509.3, 300 sec: 7664.4). Total num frames: 7639040. Throughput: 0: 7527.9. Samples: 7622720. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:04:34,689][962948] Avg episode reward: [(0, '53.083')]
-[2023-07-08 13:04:34,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000014920_7639040.pth...
-[2023-07-08 13:04:34,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000014480_7413760.pth
-[2023-07-08 13:04:36,878][963233] Updated weights for policy 0, policy_version 14960 (0.0004)
-[2023-07-08 13:04:39,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7577.6, 300 sec: 7664.4). Total num frames: 7680000. Throughput: 0: 7531.0. Samples: 7669704. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:04:39,689][962948] Avg episode reward: [(0, '54.083')]
-[2023-07-08 13:04:42,223][963233] Updated weights for policy 0, policy_version 15040 (0.0005)
-[2023-07-08 13:04:44,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7577.6, 300 sec: 7650.5). Total num frames: 7716864. Throughput: 0: 7535.5. Samples: 7714400. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:04:44,689][962948] Avg episode reward: [(0, '52.569')]
-[2023-07-08 13:04:47,701][963233] Updated weights for policy 0, policy_version 15120 (0.0005)
-[2023-07-08 13:04:49,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7577.6, 300 sec: 7664.4). Total num frames: 7757824. Throughput: 0: 7543.9. Samples: 7737164. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:04:49,689][962948] Avg episode reward: [(0, '52.905')]
-[2023-07-08 13:04:49,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000015152_7757824.pth...
-[2023-07-08 13:04:49,697][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000014704_7528448.pth
-[2023-07-08 13:04:52,703][963233] Updated weights for policy 0, policy_version 15200 (0.0005)
-[2023-07-08 13:04:54,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7577.6, 300 sec: 7650.5). Total num frames: 7794688. Throughput: 0: 7570.9. Samples: 7786200. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:04:54,689][962948] Avg episode reward: [(0, '54.362')]
-[2023-07-08 13:04:58,268][963233] Updated weights for policy 0, policy_version 15280 (0.0005)
-[2023-07-08 13:04:59,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7577.6, 300 sec: 7650.5). Total num frames: 7831552. Throughput: 0: 7544.0. Samples: 7829660. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:04:59,689][962948] Avg episode reward: [(0, '52.887')]
-[2023-07-08 13:05:04,010][963233] Updated weights for policy 0, policy_version 15360 (0.0005)
-[2023-07-08 13:05:04,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7577.6, 300 sec: 7650.5). Total num frames: 7868416. Throughput: 0: 7530.9. Samples: 7850964. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:05:04,689][962948] Avg episode reward: [(0, '50.512')]
-[2023-07-08 13:05:04,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000015368_7868416.pth...
-[2023-07-08 13:05:04,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000014920_7639040.pth
-[2023-07-08 13:05:09,061][963233] Updated weights for policy 0, policy_version 15440 (0.0005)
-[2023-07-08 13:05:09,689][962948] Fps is (10 sec: 7782.3, 60 sec: 7577.6, 300 sec: 7650.5). Total num frames: 7909376. Throughput: 0: 7613.9. Samples: 7897664. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:05:09,689][962948] Avg episode reward: [(0, '58.851')]
-[2023-07-08 13:05:14,347][963233] Updated weights for policy 0, policy_version 15520 (0.0005)
-[2023-07-08 13:05:14,689][962948] Fps is (10 sec: 7782.5, 60 sec: 7577.6, 300 sec: 7650.5). Total num frames: 7946240. Throughput: 0: 7663.0. Samples: 7944620. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:05:14,689][962948] Avg episode reward: [(0, '51.027')]
-[2023-07-08 13:05:19,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7577.6, 300 sec: 7636.6). Total num frames: 7983104. Throughput: 0: 7644.4. Samples: 7966720. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:05:19,689][962948] Avg episode reward: [(0, '56.882')]
-[2023-07-08 13:05:19,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000015592_7983104.pth...
-[2023-07-08 13:05:19,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000015152_7757824.pth
-[2023-07-08 13:05:19,929][963233] Updated weights for policy 0, policy_version 15600 (0.0006)
-[2023-07-08 13:05:24,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7577.6, 300 sec: 7636.6). Total num frames: 8019968. Throughput: 0: 7582.0. Samples: 8010896. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:05:24,689][962948] Avg episode reward: [(0, '58.653')]
-[2023-07-08 13:05:25,641][963233] Updated weights for policy 0, policy_version 15680 (0.0005)
-[2023-07-08 13:05:29,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7577.6, 300 sec: 7636.6). Total num frames: 8056832. Throughput: 0: 7544.6. Samples: 8053908. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:05:29,690][962948] Avg episode reward: [(0, '51.382')]
-[2023-07-08 13:05:31,143][963233] Updated weights for policy 0, policy_version 15760 (0.0005)
-[2023-07-08 13:05:34,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7577.6, 300 sec: 7636.6). Total num frames: 8093696. Throughput: 0: 7556.5. Samples: 8077204. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:05:34,689][962948] Avg episode reward: [(0, '55.158')]
-[2023-07-08 13:05:34,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000015808_8093696.pth...
-[2023-07-08 13:05:34,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000015368_7868416.pth
-[2023-07-08 13:05:36,470][963233] Updated weights for policy 0, policy_version 15840 (0.0006)
-[2023-07-08 13:05:39,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7577.6, 300 sec: 7650.5). Total num frames: 8134656. Throughput: 0: 7471.8. Samples: 8122432. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:05:39,689][962948] Avg episode reward: [(0, '54.571')]
-[2023-07-08 13:05:41,856][963233] Updated weights for policy 0, policy_version 15920 (0.0005)
-[2023-07-08 13:05:44,689][962948] Fps is (10 sec: 8192.0, 60 sec: 7645.9, 300 sec: 7664.4). Total num frames: 8175616. Throughput: 0: 7602.7. Samples: 8171784. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:05:44,689][962948] Avg episode reward: [(0, '52.817')]
-[2023-07-08 13:05:46,563][963233] Updated weights for policy 0, policy_version 16000 (0.0005)
-[2023-07-08 13:05:49,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7577.6, 300 sec: 7664.4). Total num frames: 8212480. Throughput: 0: 7671.2. Samples: 8196168. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:05:49,689][962948] Avg episode reward: [(0, '52.277')]
-[2023-07-08 13:05:49,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000016040_8212480.pth...
-[2023-07-08 13:05:49,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000015592_7983104.pth
-[2023-07-08 13:05:51,891][963233] Updated weights for policy 0, policy_version 16080 (0.0005)
-[2023-07-08 13:05:54,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7678.3). Total num frames: 8253440. Throughput: 0: 7650.0. Samples: 8241912. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:05:54,689][962948] Avg episode reward: [(0, '56.109')]
-[2023-07-08 13:05:57,394][963233] Updated weights for policy 0, policy_version 16160 (0.0005)
-[2023-07-08 13:05:59,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.8, 300 sec: 7650.5). Total num frames: 8290304. Throughput: 0: 7601.7. Samples: 8286696. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:05:59,689][962948] Avg episode reward: [(0, '56.647')]
-[2023-07-08 13:06:02,889][963233] Updated weights for policy 0, policy_version 16240 (0.0005)
-[2023-07-08 13:06:04,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7645.9, 300 sec: 7636.6). Total num frames: 8327168. Throughput: 0: 7621.0. Samples: 8309664. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:06:04,689][962948] Avg episode reward: [(0, '50.077')]
-[2023-07-08 13:06:04,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000016264_8327168.pth...
-[2023-07-08 13:06:04,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000015808_8093696.pth
-[2023-07-08 13:06:08,307][963233] Updated weights for policy 0, policy_version 16320 (0.0005)
-[2023-07-08 13:06:09,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7577.6, 300 sec: 7622.7). Total num frames: 8364032. Throughput: 0: 7651.8. Samples: 8355228. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:06:09,689][962948] Avg episode reward: [(0, '56.389')]
-[2023-07-08 13:06:12,917][963233] Updated weights for policy 0, policy_version 16400 (0.0005)
-[2023-07-08 13:06:14,689][962948] Fps is (10 sec: 8191.9, 60 sec: 7714.1, 300 sec: 7636.6). Total num frames: 8409088. Throughput: 0: 7832.8. Samples: 8406384. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
-[2023-07-08 13:06:14,689][962948] Avg episode reward: [(0, '60.902')]
-[2023-07-08 13:06:14,690][963189] Saving new best policy, reward=60.902!
-[2023-07-08 13:06:18,114][963233] Updated weights for policy 0, policy_version 16480 (0.0005)
-[2023-07-08 13:06:19,689][962948] Fps is (10 sec: 8191.9, 60 sec: 7714.1, 300 sec: 7622.7). Total num frames: 8445952. Throughput: 0: 7829.2. Samples: 8429520. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
-[2023-07-08 13:06:19,689][962948] Avg episode reward: [(0, '53.268')]
-[2023-07-08 13:06:19,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000016496_8445952.pth...
-[2023-07-08 13:06:19,694][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000016040_8212480.pth
-[2023-07-08 13:06:23,490][963233] Updated weights for policy 0, policy_version 16560 (0.0006)
-[2023-07-08 13:06:24,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7782.4, 300 sec: 7636.6). Total num frames: 8486912. Throughput: 0: 7842.8. Samples: 8475356. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 13:06:24,689][962948] Avg episode reward: [(0, '59.005')]
-[2023-07-08 13:06:28,608][963233] Updated weights for policy 0, policy_version 16640 (0.0005)
-[2023-07-08 13:06:29,689][962948] Fps is (10 sec: 8192.0, 60 sec: 7850.7, 300 sec: 7650.5). Total num frames: 8527872. Throughput: 0: 7819.8. Samples: 8523676. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 13:06:29,689][962948] Avg episode reward: [(0, '55.932')]
-[2023-07-08 13:06:33,856][963233] Updated weights for policy 0, policy_version 16720 (0.0005)
-[2023-07-08 13:06:34,689][962948] Fps is (10 sec: 7782.3, 60 sec: 7850.7, 300 sec: 7650.5). Total num frames: 8564736. Throughput: 0: 7816.8. Samples: 8547924. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:06:34,689][962948] Avg episode reward: [(0, '62.612')]
-[2023-07-08 13:06:34,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000016728_8564736.pth...
-[2023-07-08 13:06:34,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000016264_8327168.pth
-[2023-07-08 13:06:34,695][963189] Saving new best policy, reward=62.612!
-[2023-07-08 13:06:38,600][963233] Updated weights for policy 0, policy_version 16800 (0.0005)
-[2023-07-08 13:06:39,689][962948] Fps is (10 sec: 8192.0, 60 sec: 7918.9, 300 sec: 7678.3). Total num frames: 8609792. Throughput: 0: 7905.0. Samples: 8597636. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:06:39,689][962948] Avg episode reward: [(0, '54.649')]
-[2023-07-08 13:06:43,961][963233] Updated weights for policy 0, policy_version 16880 (0.0005)
-[2023-07-08 13:06:44,689][962948] Fps is (10 sec: 8192.0, 60 sec: 7850.7, 300 sec: 7678.3). Total num frames: 8646656. Throughput: 0: 7932.2. Samples: 8643644. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:06:44,689][962948] Avg episode reward: [(0, '55.072')]
-[2023-07-08 13:06:49,689][962948] Fps is (10 sec: 6963.2, 60 sec: 7782.4, 300 sec: 7664.4). Total num frames: 8679424. Throughput: 0: 7909.8. Samples: 8665604. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
-[2023-07-08 13:06:49,689][962948] Avg episode reward: [(0, '54.451')]
-[2023-07-08 13:06:49,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000016952_8679424.pth...
-[2023-07-08 13:06:49,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000016496_8445952.pth
-[2023-07-08 13:06:49,784][963233] Updated weights for policy 0, policy_version 16960 (0.0006)
-[2023-07-08 13:06:54,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7782.4, 300 sec: 7678.3). Total num frames: 8720384. Throughput: 0: 7870.4. Samples: 8709396. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
-[2023-07-08 13:06:54,690][962948] Avg episode reward: [(0, '51.614')]
-[2023-07-08 13:06:55,212][963233] Updated weights for policy 0, policy_version 17040 (0.0005)
-[2023-07-08 13:06:59,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7782.4, 300 sec: 7664.4). Total num frames: 8757248. Throughput: 0: 7728.4. Samples: 8754164. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 13:06:59,690][962948] Avg episode reward: [(0, '47.053')]
-[2023-07-08 13:07:00,600][963233] Updated weights for policy 0, policy_version 17120 (0.0005)
-[2023-07-08 13:07:04,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7782.4, 300 sec: 7650.5). Total num frames: 8794112. Throughput: 0: 7728.2. Samples: 8777288. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 13:07:04,690][962948] Avg episode reward: [(0, '58.125')]
-[2023-07-08 13:07:04,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000017176_8794112.pth...
-[2023-07-08 13:07:04,696][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000016728_8564736.pth
-[2023-07-08 13:07:05,834][963233] Updated weights for policy 0, policy_version 17200 (0.0005)
-[2023-07-08 13:07:09,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7782.4, 300 sec: 7650.5). Total num frames: 8830976. Throughput: 0: 7722.2. Samples: 8822856. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
-[2023-07-08 13:07:09,690][962948] Avg episode reward: [(0, '50.703')]
-[2023-07-08 13:07:11,317][963233] Updated weights for policy 0, policy_version 17280 (0.0006)
-[2023-07-08 13:07:14,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7714.1, 300 sec: 7650.5). Total num frames: 8871936. Throughput: 0: 7648.1. Samples: 8867840. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
-[2023-07-08 13:07:14,690][962948] Avg episode reward: [(0, '57.422')]
-[2023-07-08 13:07:16,852][963233] Updated weights for policy 0, policy_version 17360 (0.0005)
-[2023-07-08 13:07:19,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7714.1, 300 sec: 7650.5). Total num frames: 8908800. Throughput: 0: 7619.6. Samples: 8890804. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
-[2023-07-08 13:07:19,690][962948] Avg episode reward: [(0, '50.522')]
-[2023-07-08 13:07:19,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000017400_8908800.pth...
-[2023-07-08 13:07:19,696][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000016952_8679424.pth
-[2023-07-08 13:07:22,190][963233] Updated weights for policy 0, policy_version 17440 (0.0005)
-[2023-07-08 13:07:24,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7645.8, 300 sec: 7650.5). Total num frames: 8945664. Throughput: 0: 7549.5. Samples: 8937364. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:07:24,690][962948] Avg episode reward: [(0, '51.976')]
-[2023-07-08 13:07:27,720][963233] Updated weights for policy 0, policy_version 17520 (0.0005)
-[2023-07-08 13:07:29,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7577.6, 300 sec: 7636.6). Total num frames: 8982528. Throughput: 0: 7483.1. Samples: 8980384. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:07:29,690][962948] Avg episode reward: [(0, '56.112')]
-[2023-07-08 13:07:33,097][963233] Updated weights for policy 0, policy_version 17600 (0.0005)
-[2023-07-08 13:07:34,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7636.6). Total num frames: 9023488. Throughput: 0: 7503.5. Samples: 9003264. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:07:34,690][962948] Avg episode reward: [(0, '53.508')]
-[2023-07-08 13:07:34,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000017624_9023488.pth...
-[2023-07-08 13:07:34,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000017176_8794112.pth
-[2023-07-08 13:07:38,409][963233] Updated weights for policy 0, policy_version 17680 (0.0006)
-[2023-07-08 13:07:39,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7509.3, 300 sec: 7636.6). Total num frames: 9060352. Throughput: 0: 7574.6. Samples: 9050252. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:07:39,690][962948] Avg episode reward: [(0, '50.636')]
-[2023-07-08 13:07:43,437][963233] Updated weights for policy 0, policy_version 17760 (0.0005)
-[2023-07-08 13:07:44,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7577.6, 300 sec: 7650.5). Total num frames: 9101312. Throughput: 0: 7643.7. Samples: 9098132. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:07:44,690][962948] Avg episode reward: [(0, '55.260')]
-[2023-07-08 13:07:48,950][963233] Updated weights for policy 0, policy_version 17840 (0.0005)
-[2023-07-08 13:07:49,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7650.5). Total num frames: 9138176. Throughput: 0: 7621.3. Samples: 9120248. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
-[2023-07-08 13:07:49,689][962948] Avg episode reward: [(0, '50.827')]
-[2023-07-08 13:07:49,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000017848_9138176.pth...
-[2023-07-08 13:07:49,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000017400_8908800.pth
-[2023-07-08 13:07:54,409][963233] Updated weights for policy 0, policy_version 17920 (0.0005)
-[2023-07-08 13:07:54,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7577.6, 300 sec: 7650.5). Total num frames: 9175040. Throughput: 0: 7636.3. Samples: 9166488. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
-[2023-07-08 13:07:54,690][962948] Avg episode reward: [(0, '57.745')]
-[2023-07-08 13:07:59,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7577.6, 300 sec: 7650.5). Total num frames: 9211904. Throughput: 0: 7633.2. Samples: 9211332. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
-[2023-07-08 13:07:59,690][962948] Avg episode reward: [(0, '53.071')]
-[2023-07-08 13:07:59,800][963233] Updated weights for policy 0, policy_version 18000 (0.0004)
-[2023-07-08 13:08:04,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7650.5). Total num frames: 9252864. Throughput: 0: 7664.9. Samples: 9235724. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:08:04,690][962948] Avg episode reward: [(0, '52.764')]
-[2023-07-08 13:08:04,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000018072_9252864.pth...
-[2023-07-08 13:08:04,696][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000017624_9023488.pth
-[2023-07-08 13:08:05,037][963233] Updated weights for policy 0, policy_version 18080 (0.0005)
-[2023-07-08 13:08:09,689][962948] Fps is (10 sec: 7782.5, 60 sec: 7645.9, 300 sec: 7650.5). Total num frames: 9289728. Throughput: 0: 7643.7. Samples: 9281328. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:08:09,690][962948] Avg episode reward: [(0, '59.184')]
-[2023-07-08 13:08:10,515][963233] Updated weights for policy 0, policy_version 18160 (0.0005)
-[2023-07-08 13:08:14,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7577.6, 300 sec: 7650.5). Total num frames: 9326592. Throughput: 0: 7692.8. Samples: 9326560. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:08:14,690][962948] Avg episode reward: [(0, '60.650')]
-[2023-07-08 13:08:15,945][963233] Updated weights for policy 0, policy_version 18240 (0.0005)
-[2023-07-08 13:08:19,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7577.6, 300 sec: 7636.6). Total num frames: 9363456. Throughput: 0: 7641.8. Samples: 9347144. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:08:19,690][962948] Avg episode reward: [(0, '57.219')]
-[2023-07-08 13:08:19,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000018288_9363456.pth...
-[2023-07-08 13:08:19,696][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000017848_9138176.pth
-[2023-07-08 13:08:21,547][963233] Updated weights for policy 0, policy_version 18320 (0.0005)
-[2023-07-08 13:08:24,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7577.6, 300 sec: 7636.6). Total num frames: 9400320. Throughput: 0: 7597.4. Samples: 9392136. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:08:24,690][962948] Avg episode reward: [(0, '57.784')]
-[2023-07-08 13:08:26,985][963233] Updated weights for policy 0, policy_version 18400 (0.0005)
-[2023-07-08 13:08:29,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7636.6). Total num frames: 9441280. Throughput: 0: 7533.1. Samples: 9437120. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 13:08:29,690][962948] Avg episode reward: [(0, '55.904')]
-[2023-07-08 13:08:32,455][963233] Updated weights for policy 0, policy_version 18480 (0.0005)
-[2023-07-08 13:08:34,689][962948] Fps is (10 sec: 7372.9, 60 sec: 7509.3, 300 sec: 7622.7). Total num frames: 9474048. Throughput: 0: 7539.6. Samples: 9459532. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 13:08:34,690][962948] Avg episode reward: [(0, '62.322')]
-[2023-07-08 13:08:34,699][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000018512_9478144.pth...
-[2023-07-08 13:08:34,701][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000018072_9252864.pth
-[2023-07-08 13:08:38,082][963233] Updated weights for policy 0, policy_version 18560 (0.0005)
-[2023-07-08 13:08:39,689][962948] Fps is (10 sec: 6963.3, 60 sec: 7509.3, 300 sec: 7622.7). Total num frames: 9510912. Throughput: 0: 7473.9. Samples: 9502812. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
-[2023-07-08 13:08:39,690][962948] Avg episode reward: [(0, '63.659')]
-[2023-07-08 13:08:39,690][963189] Saving new best policy, reward=63.659!
-[2023-07-08 13:08:43,680][963233] Updated weights for policy 0, policy_version 18640 (0.0005)
-[2023-07-08 13:08:44,689][962948] Fps is (10 sec: 7372.8, 60 sec: 7441.1, 300 sec: 7608.8). Total num frames: 9547776. Throughput: 0: 7472.7. Samples: 9547604. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
-[2023-07-08 13:08:44,690][962948] Avg episode reward: [(0, '56.237')]
-[2023-07-08 13:08:48,904][963233] Updated weights for policy 0, policy_version 18720 (0.0006)
-[2023-07-08 13:08:49,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7509.3, 300 sec: 7622.7). Total num frames: 9588736. Throughput: 0: 7451.6. Samples: 9571044. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
-[2023-07-08 13:08:49,689][962948] Avg episode reward: [(0, '55.480')]
-[2023-07-08 13:08:49,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000018728_9588736.pth...
-[2023-07-08 13:08:49,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000018288_9363456.pth
-[2023-07-08 13:08:54,306][963233] Updated weights for policy 0, policy_version 18800 (0.0005)
-[2023-07-08 13:08:54,689][962948] Fps is (10 sec: 7782.3, 60 sec: 7509.3, 300 sec: 7622.7). Total num frames: 9625600. Throughput: 0: 7468.4. Samples: 9617408. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
-[2023-07-08 13:08:54,689][962948] Avg episode reward: [(0, '56.740')]
-[2023-07-08 13:08:59,689][962948] Fps is (10 sec: 7372.7, 60 sec: 7509.3, 300 sec: 7622.7). Total num frames: 9662464. Throughput: 0: 7438.8. Samples: 9661308. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
-[2023-07-08 13:08:59,690][962948] Avg episode reward: [(0, '62.515')]
-[2023-07-08 13:08:59,735][963233] Updated weights for policy 0, policy_version 18880 (0.0005)
-[2023-07-08 13:09:04,689][962948] Fps is (10 sec: 7782.5, 60 sec: 7509.3, 300 sec: 7622.7). Total num frames: 9703424. Throughput: 0: 7479.8. Samples: 9683736. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
-[2023-07-08 13:09:04,689][962948] Avg episode reward: [(0, '57.025')]
-[2023-07-08 13:09:04,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000018952_9703424.pth...
-[2023-07-08 13:09:04,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000018512_9478144.pth
-[2023-07-08 13:09:05,132][963233] Updated weights for policy 0, policy_version 18960 (0.0005)
-[2023-07-08 13:09:09,689][962948] Fps is (10 sec: 7782.5, 60 sec: 7509.3, 300 sec: 7622.7). Total num frames: 9740288. Throughput: 0: 7494.5. Samples: 9729388. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:09:09,689][962948] Avg episode reward: [(0, '59.361')]
-[2023-07-08 13:09:10,659][963233] Updated weights for policy 0, policy_version 19040 (0.0005)
-[2023-07-08 13:09:14,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7577.6, 300 sec: 7636.6). Total num frames: 9781248. Throughput: 0: 7557.7. Samples: 9777216. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:09:14,689][962948] Avg episode reward: [(0, '60.461')]
-[2023-07-08 13:09:15,590][963233] Updated weights for policy 0, policy_version 19120 (0.0005)
-[2023-07-08 13:09:19,689][962948] Fps is (10 sec: 7782.3, 60 sec: 7577.6, 300 sec: 7636.6). Total num frames: 9818112. Throughput: 0: 7604.5. Samples: 9801736. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:09:19,689][962948] Avg episode reward: [(0, '55.599')]
-[2023-07-08 13:09:19,692][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000019176_9818112.pth...
-[2023-07-08 13:09:19,695][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000018728_9588736.pth
-[2023-07-08 13:09:20,856][963233] Updated weights for policy 0, policy_version 19200 (0.0005)
-[2023-07-08 13:09:24,689][962948] Fps is (10 sec: 7782.4, 60 sec: 7645.9, 300 sec: 7650.5). Total num frames: 9859072. Throughput: 0: 7685.6. Samples: 9848664. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
-[2023-07-08 13:09:24,689][962948] Avg episode reward: [(0, '62.656')]
-[2023-07-08 13:09:25,930][963233] Updated weights for policy 0, policy_version 19280 (0.0005)
-[2023-07-08 13:09:29,689][962948] Fps is (10 sec: 8192.1, 60 sec: 7645.9, 300 sec: 7664.4). Total num frames: 9900032. Throughput: 0: 7782.1. Samples: 9897800. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
-[2023-07-08 13:09:29,689][962948] Avg episode reward: [(0, '56.388')]
-[2023-07-08 13:09:30,967][963233] Updated weights for policy 0, policy_version 19360 (0.0005)
-[2023-07-08 13:09:34,689][962948] Fps is (10 sec: 8191.9, 60 sec: 7782.4, 300 sec: 7664.4). Total num frames: 9940992. Throughput: 0: 7794.5. Samples: 9921796. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:09:34,689][962948] Avg episode reward: [(0, '65.744')]
-[2023-07-08 13:09:34,693][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000019416_9940992.pth...
-[2023-07-08 13:09:34,696][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000018952_9703424.pth
-[2023-07-08 13:09:34,697][963189] Saving new best policy, reward=65.744!
-[2023-07-08 13:09:36,207][963233] Updated weights for policy 0, policy_version 19440 (0.0005)
-[2023-07-08 13:09:39,689][962948] Fps is (10 sec: 7782.3, 60 sec: 7782.4, 300 sec: 7664.4). Total num frames: 9977856. Throughput: 0: 7799.0. Samples: 9968364. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
-[2023-07-08 13:09:39,690][962948] Avg episode reward: [(0, '64.602')]
-[2023-07-08 13:09:41,735][963233] Updated weights for policy 0, policy_version 19520 (0.0005)
-[2023-07-08 13:09:42,714][963189] Early stopping after 2 epochs (8 sgd steps), loss delta 0.0000008
-[2023-07-08 13:09:43,239][963189] Early stopping after 2 epochs (8 sgd steps), loss delta 0.0000000
-[2023-07-08 13:09:43,240][963333] Stopping RolloutWorker_w6...
-[2023-07-08 13:09:43,240][963270] Stopping RolloutWorker_w5...
-[2023-07-08 13:09:43,240][963238] Stopping RolloutWorker_w4...
-[2023-07-08 13:09:43,240][963236] Stopping RolloutWorker_w2...
-[2023-07-08 13:09:43,240][963365] Stopping RolloutWorker_w7...
-[2023-07-08 13:09:43,240][963333] Loop rollout_proc6_evt_loop terminating...
-[2023-07-08 13:09:43,240][963189] Stopping Batcher_0...
-[2023-07-08 13:09:43,240][963270] Loop rollout_proc5_evt_loop terminating...
-[2023-07-08 13:09:43,240][963238] Loop rollout_proc4_evt_loop terminating...
-[2023-07-08 13:09:43,240][963236] Loop rollout_proc2_evt_loop terminating...
-[2023-07-08 13:09:43,240][963365] Loop rollout_proc7_evt_loop terminating...
-[2023-07-08 13:09:43,240][962948] Component RolloutWorker_w5 stopped!
-[2023-07-08 13:09:43,240][963237] Stopping RolloutWorker_w3...
-[2023-07-08 13:09:43,240][963234] Stopping RolloutWorker_w0...
-[2023-07-08 13:09:43,240][963235] Stopping RolloutWorker_w1...
-[2023-07-08 13:09:43,240][963189] Loop batcher_evt_loop terminating...
-[2023-07-08 13:09:43,240][963234] Loop rollout_proc0_evt_loop terminating...
-[2023-07-08 13:09:43,240][963235] Loop rollout_proc1_evt_loop terminating...
-[2023-07-08 13:09:43,240][963237] Loop rollout_proc3_evt_loop terminating...
-[2023-07-08 13:09:43,241][962948] Component RolloutWorker_w6 stopped!
-[2023-07-08 13:09:43,241][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000019544_10006528.pth...
-[2023-07-08 13:09:43,241][962948] Component RolloutWorker_w2 stopped!
-[2023-07-08 13:09:43,241][962948] Component RolloutWorker_w4 stopped!
-[2023-07-08 13:09:43,241][962948] Component RolloutWorker_w7 stopped!
-[2023-07-08 13:09:43,241][962948] Component Batcher_0 stopped!
-[2023-07-08 13:09:43,242][962948] Component RolloutWorker_w3 stopped!
-[2023-07-08 13:09:43,242][962948] Component RolloutWorker_w1 stopped!
-[2023-07-08 13:09:43,242][962948] Component RolloutWorker_w0 stopped!
-[2023-07-08 13:09:43,243][963189] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000019176_9818112.pth
-[2023-07-08 13:09:43,244][963189] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000019544_10006528.pth...
-[2023-07-08 13:09:43,246][963189] Stopping LearnerWorker_p0...
-[2023-07-08 13:09:43,246][963189] Loop learner_proc0_evt_loop terminating...
-[2023-07-08 13:09:43,246][962948] Component LearnerWorker_p0 stopped!
-[2023-07-08 13:09:43,275][963233] Weights refcount: 2 0
-[2023-07-08 13:09:43,276][963233] Stopping InferenceWorker_p0-w0...
-[2023-07-08 13:09:43,277][963233] Loop inference_proc0-0_evt_loop terminating...
-[2023-07-08 13:09:43,277][962948] Component InferenceWorker_p0-w0 stopped!
-[2023-07-08 13:09:43,278][962948] Waiting for process learner_proc0 to stop...
-[2023-07-08 13:09:43,915][962948] Waiting for process inference_proc0-0 to join...
-[2023-07-08 13:09:43,959][962948] Waiting for process rollout_proc0 to join...
-[2023-07-08 13:09:43,959][962948] Waiting for process rollout_proc1 to join...
-[2023-07-08 13:09:43,959][962948] Waiting for process rollout_proc2 to join...
-[2023-07-08 13:09:43,960][962948] Waiting for process rollout_proc3 to join...
-[2023-07-08 13:09:43,960][962948] Waiting for process rollout_proc4 to join...
-[2023-07-08 13:09:43,960][962948] Waiting for process rollout_proc5 to join...
-[2023-07-08 13:09:43,961][962948] Waiting for process rollout_proc6 to join...
-[2023-07-08 13:09:43,961][962948] Waiting for process rollout_proc7 to join...
-[2023-07-08 13:09:43,961][962948] Batcher 0 profile tree view:
-batching: 1.8853, releasing_batches: 1.5810
-[2023-07-08 13:09:43,961][962948] InferenceWorker_p0-w0 profile tree view:
-wait_policy: 0.0000
-  wait_policy_total: 554.4134
-update_model: 14.8988
-  weight_update: 0.0006
-one_step: 0.0008
-  handle_policy_step: 683.4183
-    deserialize: 28.3868, stack: 7.3687, obs_to_device_normalize: 125.2942, forward: 338.8041, send_messages: 46.9902
-    prepare_outputs: 76.2626
-      to_cpu: 11.6613
-[2023-07-08 13:09:43,962][962948] Learner 0 profile tree view:
-misc: 0.0105, prepare_batch: 8.4390
-train: 86.6644
-  epoch_init: 0.0346, minibatch_init: 1.1990, losses_postprocess: 1.2644, kl_divergence: 0.4126, after_optimizer: 0.6703
-  calculate_losses: 36.6281
-    losses_init: 0.0303, forward_head: 13.9601, bptt_initial: 0.1298, bptt: 0.1243, tail: 10.6837, advantages_returns: 0.8319, losses: 9.5568
-  update: 44.9754
-    clip: 5.4476
-[2023-07-08 13:09:43,962][962948] RolloutWorker_w0 profile tree view:
-wait_for_trajectories: 0.4567, enqueue_policy_requests: 15.6753, env_step: 901.5656, overhead: 22.1167, complete_rollouts: 0.3972
-save_policy_outputs: 43.8653
-  split_output_tensors: 15.0429
-[2023-07-08 13:09:43,962][962948] RolloutWorker_w7 profile tree view:
-wait_for_trajectories: 0.4212, enqueue_policy_requests: 15.3258, env_step: 889.7860, overhead: 21.6999, complete_rollouts: 0.4000
-save_policy_outputs: 43.2266
-  split_output_tensors: 14.8201
-[2023-07-08 13:09:43,962][962948] Loop Runner_EvtLoop terminating...
-[2023-07-08 13:09:43,963][962948] Runner profile tree view:
-main_loop: 1341.3500
-[2023-07-08 13:09:43,963][962948] Collected {0: 10006528}, FPS: 7460.0
+[2023-07-17 19:54:25,799][795871] Worker 6 uses CPU cores [24, 25, 26, 27]
+[2023-07-17 19:54:25,812][795837] Worker 3 uses CPU cores [12, 13, 14, 15]
+[2023-07-17 19:54:25,939][795838] Worker 4 uses CPU cores [16, 17, 18, 19]
+[2023-07-17 19:54:26,002][795789] Using optimizer <class 'torch.optim.adam.Adam'>
+[2023-07-17 19:54:26,003][795789] No checkpoints found
+[2023-07-17 19:54:26,003][795789] Did not load from checkpoint, starting from scratch!
+[2023-07-17 19:54:26,003][795789] Initialized policy 0 weights for model version 0
+[2023-07-17 19:54:26,004][795789] LearnerWorker_p0 finished initialization!
+[2023-07-17 19:54:26,106][795839] Worker 5 uses CPU cores [20, 21, 22, 23]
+[2023-07-17 19:54:26,142][795835] Worker 1 uses CPU cores [4, 5, 6, 7]
+[2023-07-17 19:54:26,297][795833] RunningMeanStd input shape: (39,)
+[2023-07-17 19:54:26,298][795833] RunningMeanStd input shape: (1,)
+[2023-07-17 19:54:26,316][795934] Worker 7 uses CPU cores [28, 29, 30, 31]
+[2023-07-17 19:54:26,358][795499] Inference worker 0-0 is ready!
+[2023-07-17 19:54:26,358][795499] All inference workers are ready! Signal rollout workers to start!
+[2023-07-17 19:54:26,444][795834] Worker 0 uses CPU cores [0, 1, 2, 3]
+[2023-07-17 19:54:26,552][795836] Worker 2 uses CPU cores [8, 9, 10, 11]
+[2023-07-17 19:54:27,525][795837] Decorrelating experience for 0 frames...
+[2023-07-17 19:54:27,533][795837] Decorrelating experience for 64 frames...
+[2023-07-17 19:54:27,565][795934] Decorrelating experience for 0 frames...
+[2023-07-17 19:54:27,566][795837] Decorrelating experience for 128 frames...
+[2023-07-17 19:54:27,567][795838] Decorrelating experience for 0 frames...
+[2023-07-17 19:54:27,567][795835] Decorrelating experience for 0 frames...
+[2023-07-17 19:54:27,569][795839] Decorrelating experience for 0 frames...
+[2023-07-17 19:54:27,573][795934] Decorrelating experience for 64 frames...
+[2023-07-17 19:54:27,575][795871] Decorrelating experience for 0 frames...
+[2023-07-17 19:54:27,576][795835] Decorrelating experience for 64 frames...
+[2023-07-17 19:54:27,576][795838] Decorrelating experience for 64 frames...
+[2023-07-17 19:54:27,577][795839] Decorrelating experience for 64 frames...
+[2023-07-17 19:54:27,583][795871] Decorrelating experience for 64 frames...
+[2023-07-17 19:54:27,609][795835] Decorrelating experience for 128 frames...
+[2023-07-17 19:54:27,609][795934] Decorrelating experience for 128 frames...
+[2023-07-17 19:54:27,609][795839] Decorrelating experience for 128 frames...
+[2023-07-17 19:54:27,611][795838] Decorrelating experience for 128 frames...
+[2023-07-17 19:54:27,616][795871] Decorrelating experience for 128 frames...
+[2023-07-17 19:54:27,632][795837] Decorrelating experience for 192 frames...
+[2023-07-17 19:54:27,674][795835] Decorrelating experience for 192 frames...
+[2023-07-17 19:54:27,674][795839] Decorrelating experience for 192 frames...
+[2023-07-17 19:54:27,674][795934] Decorrelating experience for 192 frames...
+[2023-07-17 19:54:27,676][795838] Decorrelating experience for 192 frames...
+[2023-07-17 19:54:27,682][795834] Decorrelating experience for 0 frames...
+[2023-07-17 19:54:27,687][795871] Decorrelating experience for 192 frames...
+[2023-07-17 19:54:27,690][795834] Decorrelating experience for 64 frames...
+[2023-07-17 19:54:27,723][795834] Decorrelating experience for 128 frames...
+[2023-07-17 19:54:27,789][795834] Decorrelating experience for 192 frames...
+[2023-07-17 19:54:27,818][795836] Decorrelating experience for 0 frames...
+[2023-07-17 19:54:27,826][795836] Decorrelating experience for 64 frames...
+[2023-07-17 19:54:27,860][795836] Decorrelating experience for 128 frames...
+[2023-07-17 19:54:27,926][795836] Decorrelating experience for 192 frames...
+[2023-07-17 19:54:28,882][795837] Decorrelating experience for 256 frames...
+[2023-07-17 19:54:28,937][795934] Decorrelating experience for 256 frames...
+[2023-07-17 19:54:28,955][795871] Decorrelating experience for 256 frames...
+[2023-07-17 19:54:28,956][795838] Decorrelating experience for 256 frames...
+[2023-07-17 19:54:28,956][795839] Decorrelating experience for 256 frames...
+[2023-07-17 19:54:28,957][795835] Decorrelating experience for 256 frames...
+[2023-07-17 19:54:29,005][795837] Decorrelating experience for 320 frames...
+[2023-07-17 19:54:29,053][795834] Decorrelating experience for 256 frames...
+[2023-07-17 19:54:29,056][795934] Decorrelating experience for 320 frames...
+[2023-07-17 19:54:29,077][795839] Decorrelating experience for 320 frames...
+[2023-07-17 19:54:29,079][795838] Decorrelating experience for 320 frames...
+[2023-07-17 19:54:29,081][795835] Decorrelating experience for 320 frames...
+[2023-07-17 19:54:29,081][795871] Decorrelating experience for 320 frames...
+[2023-07-17 19:54:29,158][795837] Decorrelating experience for 384 frames...
+[2023-07-17 19:54:29,174][795836] Decorrelating experience for 256 frames...
+[2023-07-17 19:54:29,176][795834] Decorrelating experience for 320 frames...
+[2023-07-17 19:54:29,215][795934] Decorrelating experience for 384 frames...
+[2023-07-17 19:54:29,232][795839] Decorrelating experience for 384 frames...
+[2023-07-17 19:54:29,233][795835] Decorrelating experience for 384 frames...
+[2023-07-17 19:54:29,236][795838] Decorrelating experience for 384 frames...
+[2023-07-17 19:54:29,243][795871] Decorrelating experience for 384 frames...
+[2023-07-17 19:54:29,296][795836] Decorrelating experience for 320 frames...
+[2023-07-17 19:54:29,335][795834] Decorrelating experience for 384 frames...
+[2023-07-17 19:54:29,335][795837] Decorrelating experience for 448 frames...
+[2023-07-17 19:54:29,395][795934] Decorrelating experience for 448 frames...
+[2023-07-17 19:54:29,407][795839] Decorrelating experience for 448 frames...
+[2023-07-17 19:54:29,410][795835] Decorrelating experience for 448 frames...
+[2023-07-17 19:54:29,414][795838] Decorrelating experience for 448 frames...
+[2023-07-17 19:54:29,427][795871] Decorrelating experience for 448 frames...
+[2023-07-17 19:54:29,450][795836] Decorrelating experience for 384 frames...
+[2023-07-17 19:54:29,516][795834] Decorrelating experience for 448 frames...
+[2023-07-17 19:54:29,630][795836] Decorrelating experience for 448 frames...
+[2023-07-17 19:54:30,941][795499] Fps is (10 sec: nan, 60 sec: nan, 300 sec: nan). Total num frames: 8192. Throughput: 0: nan. Samples: 0. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:54:30,942][795499] Avg episode reward: [(0, '1.174')]
+[2023-07-17 19:54:33,521][795833] Updated weights for policy 0, policy_version 80 (0.0004)
+[2023-07-17 19:54:35,941][795499] Fps is (10 sec: 11468.9, 60 sec: 11468.9, 300 sec: 11468.9). Total num frames: 65536. Throughput: 0: 12300.9. Samples: 61504. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-17 19:54:35,942][795499] Avg episode reward: [(0, '3.947')]
+[2023-07-17 19:54:35,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000000128_65536.pth...
+[2023-07-17 19:54:37,395][795833] Updated weights for policy 0, policy_version 160 (0.0004)
+[2023-07-17 19:54:40,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10649.6, 300 sec: 10649.6). Total num frames: 114688. Throughput: 0: 9238.4. Samples: 92384. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:54:40,942][795499] Avg episode reward: [(0, '5.837')]
+[2023-07-17 19:54:40,943][795789] Saving new best policy, reward=5.837!
+[2023-07-17 19:54:41,428][795833] Updated weights for policy 0, policy_version 240 (0.0005)
+[2023-07-17 19:54:43,307][795499] Heartbeat connected on Batcher_0
+[2023-07-17 19:54:43,315][795499] Heartbeat connected on RolloutWorker_w0
+[2023-07-17 19:54:43,317][795499] Heartbeat connected on RolloutWorker_w1
+[2023-07-17 19:54:43,319][795499] Heartbeat connected on RolloutWorker_w2
+[2023-07-17 19:54:43,322][795499] Heartbeat connected on RolloutWorker_w3
+[2023-07-17 19:54:43,324][795499] Heartbeat connected on RolloutWorker_w4
+[2023-07-17 19:54:43,326][795499] Heartbeat connected on RolloutWorker_w5
+[2023-07-17 19:54:43,328][795499] Heartbeat connected on RolloutWorker_w6
+[2023-07-17 19:54:43,330][795499] Heartbeat connected on RolloutWorker_w7
+[2023-07-17 19:54:43,347][795499] Heartbeat connected on LearnerWorker_p0
+[2023-07-17 19:54:43,349][795499] Heartbeat connected on InferenceWorker_p0-w0
+[2023-07-17 19:54:45,451][795833] Updated weights for policy 0, policy_version 320 (0.0006)
+[2023-07-17 19:54:45,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10649.6, 300 sec: 10649.6). Total num frames: 167936. Throughput: 0: 10252.0. Samples: 153780. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-17 19:54:45,942][795499] Avg episode reward: [(0, '6.523')]
+[2023-07-17 19:54:45,943][795789] Saving new best policy, reward=6.523!
+[2023-07-17 19:54:49,561][795833] Updated weights for policy 0, policy_version 400 (0.0006)
+[2023-07-17 19:54:50,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10444.8, 300 sec: 10444.8). Total num frames: 217088. Throughput: 0: 10653.2. Samples: 213064. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:54:50,942][795499] Avg episode reward: [(0, '7.650')]
+[2023-07-17 19:54:50,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000000424_217088.pth...
+[2023-07-17 19:54:50,948][795789] Saving new best policy, reward=7.650!
+[2023-07-17 19:54:53,737][795833] Updated weights for policy 0, policy_version 480 (0.0006)
+[2023-07-17 19:54:55,941][795499] Fps is (10 sec: 9830.3, 60 sec: 10321.9, 300 sec: 10321.9). Total num frames: 266240. Throughput: 0: 9678.7. Samples: 241968. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:54:55,942][795499] Avg episode reward: [(0, '8.652')]
+[2023-07-17 19:54:55,942][795789] Saving new best policy, reward=8.652!
+[2023-07-17 19:54:58,029][795833] Updated weights for policy 0, policy_version 560 (0.0006)
+[2023-07-17 19:55:00,941][795499] Fps is (10 sec: 9830.5, 60 sec: 10240.0, 300 sec: 10240.0). Total num frames: 315392. Throughput: 0: 10048.9. Samples: 301468. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:55:00,942][795499] Avg episode reward: [(0, '9.406')]
+[2023-07-17 19:55:00,942][795789] Saving new best policy, reward=9.406!
+[2023-07-17 19:55:01,879][795833] Updated weights for policy 0, policy_version 640 (0.0005)
+[2023-07-17 19:55:05,848][795833] Updated weights for policy 0, policy_version 720 (0.0005)
+[2023-07-17 19:55:05,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10298.5, 300 sec: 10298.5). Total num frames: 368640. Throughput: 0: 10408.3. Samples: 364292. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-17 19:55:05,942][795499] Avg episode reward: [(0, '10.780')]
+[2023-07-17 19:55:05,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000000720_368640.pth...
+[2023-07-17 19:55:05,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000000128_65536.pth
+[2023-07-17 19:55:05,948][795789] Saving new best policy, reward=10.780!
+[2023-07-17 19:55:09,770][795833] Updated weights for policy 0, policy_version 800 (0.0004)
+[2023-07-17 19:55:10,941][795499] Fps is (10 sec: 10239.9, 60 sec: 10240.0, 300 sec: 10240.0). Total num frames: 417792. Throughput: 0: 9874.7. Samples: 394988. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:55:10,942][795499] Avg episode reward: [(0, '10.684')]
+[2023-07-17 19:55:13,890][795833] Updated weights for policy 0, policy_version 880 (0.0005)
+[2023-07-17 19:55:15,941][795499] Fps is (10 sec: 9830.5, 60 sec: 10194.5, 300 sec: 10194.5). Total num frames: 466944. Throughput: 0: 10117.2. Samples: 455276. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:55:15,942][795499] Avg episode reward: [(0, '10.368')]
+[2023-07-17 19:55:18,047][795833] Updated weights for policy 0, policy_version 960 (0.0005)
+[2023-07-17 19:55:20,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10240.0, 300 sec: 10240.0). Total num frames: 520192. Throughput: 0: 10101.8. Samples: 516084. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:55:20,942][795499] Avg episode reward: [(0, '11.100')]
+[2023-07-17 19:55:20,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001016_520192.pth...
+[2023-07-17 19:55:20,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000000424_217088.pth
+[2023-07-17 19:55:20,948][795789] Saving new best policy, reward=11.100!
+[2023-07-17 19:55:22,000][795833] Updated weights for policy 0, policy_version 1040 (0.0005)
+[2023-07-17 19:55:25,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10202.8, 300 sec: 10202.8). Total num frames: 569344. Throughput: 0: 10098.0. Samples: 546792. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:55:25,942][795499] Avg episode reward: [(0, '11.181')]
+[2023-07-17 19:55:25,942][795789] Saving new best policy, reward=11.181!
+[2023-07-17 19:55:25,983][795833] Updated weights for policy 0, policy_version 1120 (0.0005)
+[2023-07-17 19:55:29,897][795833] Updated weights for policy 0, policy_version 1200 (0.0005)
+[2023-07-17 19:55:30,941][795499] Fps is (10 sec: 10240.1, 60 sec: 10240.0, 300 sec: 10240.0). Total num frames: 622592. Throughput: 0: 10124.3. Samples: 609376. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:55:30,942][795499] Avg episode reward: [(0, '11.909')]
+[2023-07-17 19:55:30,942][795789] Saving new best policy, reward=11.909!
+[2023-07-17 19:55:34,096][795833] Updated weights for policy 0, policy_version 1280 (0.0006)
+[2023-07-17 19:55:35,941][795499] Fps is (10 sec: 10239.9, 60 sec: 10103.5, 300 sec: 10208.5). Total num frames: 671744. Throughput: 0: 10111.0. Samples: 668060. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-17 19:55:35,942][795499] Avg episode reward: [(0, '12.330')]
+[2023-07-17 19:55:35,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001312_671744.pth...
+[2023-07-17 19:55:35,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000000720_368640.pth
+[2023-07-17 19:55:35,948][795789] Saving new best policy, reward=12.330!
+[2023-07-17 19:55:38,087][795833] Updated weights for policy 0, policy_version 1360 (0.0005)
+[2023-07-17 19:55:40,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10171.7, 300 sec: 10240.0). Total num frames: 724992. Throughput: 0: 10174.8. Samples: 699832. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-17 19:55:40,942][795499] Avg episode reward: [(0, '12.566')]
+[2023-07-17 19:55:40,942][795789] Saving new best policy, reward=12.566!
+[2023-07-17 19:55:42,042][795833] Updated weights for policy 0, policy_version 1440 (0.0005)
+[2023-07-17 19:55:45,941][795499] Fps is (10 sec: 10240.1, 60 sec: 10103.5, 300 sec: 10212.7). Total num frames: 774144. Throughput: 0: 10210.2. Samples: 760928. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:55:45,942][795499] Avg episode reward: [(0, '13.547')]
+[2023-07-17 19:55:45,942][795789] Saving new best policy, reward=13.547!
+[2023-07-17 19:55:46,162][795833] Updated weights for policy 0, policy_version 1520 (0.0005)
+[2023-07-17 19:55:50,082][795833] Updated weights for policy 0, policy_version 1600 (0.0005)
+[2023-07-17 19:55:50,941][795499] Fps is (10 sec: 9830.4, 60 sec: 10103.5, 300 sec: 10188.8). Total num frames: 823296. Throughput: 0: 10181.8. Samples: 822472. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:55:50,942][795499] Avg episode reward: [(0, '14.674')]
+[2023-07-17 19:55:50,952][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001616_827392.pth...
+[2023-07-17 19:55:50,954][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001016_520192.pth
+[2023-07-17 19:55:50,954][795789] Saving new best policy, reward=14.674!
+[2023-07-17 19:55:54,156][795833] Updated weights for policy 0, policy_version 1680 (0.0005)
+[2023-07-17 19:55:55,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10171.7, 300 sec: 10215.9). Total num frames: 876544. Throughput: 0: 10158.8. Samples: 852136. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-17 19:55:55,942][795499] Avg episode reward: [(0, '14.196')]
+[2023-07-17 19:55:58,206][795833] Updated weights for policy 0, policy_version 1760 (0.0005)
+[2023-07-17 19:56:00,941][795499] Fps is (10 sec: 10239.9, 60 sec: 10171.7, 300 sec: 10194.5). Total num frames: 925696. Throughput: 0: 10176.2. Samples: 913204. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:56:00,942][795499] Avg episode reward: [(0, '15.090')]
+[2023-07-17 19:56:00,942][795789] Saving new best policy, reward=15.090!
+[2023-07-17 19:56:02,201][795833] Updated weights for policy 0, policy_version 1840 (0.0005)
+[2023-07-17 19:56:05,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10171.7, 300 sec: 10218.4). Total num frames: 978944. Throughput: 0: 10194.9. Samples: 974856. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:56:05,942][795499] Avg episode reward: [(0, '14.924')]
+[2023-07-17 19:56:05,944][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001912_978944.pth...
+[2023-07-17 19:56:05,947][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001312_671744.pth
+[2023-07-17 19:56:06,225][795833] Updated weights for policy 0, policy_version 1920 (0.0004)
+[2023-07-17 19:56:10,276][795833] Updated weights for policy 0, policy_version 2000 (0.0005)
+[2023-07-17 19:56:10,941][795499] Fps is (10 sec: 10240.2, 60 sec: 10171.8, 300 sec: 10199.1). Total num frames: 1028096. Throughput: 0: 10179.0. Samples: 1004844. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-17 19:56:10,942][795499] Avg episode reward: [(0, '16.217')]
+[2023-07-17 19:56:10,942][795789] Saving new best policy, reward=16.217!
+[2023-07-17 19:56:14,172][795833] Updated weights for policy 0, policy_version 2080 (0.0004)
+[2023-07-17 19:56:15,941][795499] Fps is (10 sec: 10240.1, 60 sec: 10240.0, 300 sec: 10220.5). Total num frames: 1081344. Throughput: 0: 10174.8. Samples: 1067244. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:56:15,942][795499] Avg episode reward: [(0, '16.911')]
+[2023-07-17 19:56:15,942][795789] Saving new best policy, reward=16.911!
+[2023-07-17 19:56:18,166][795833] Updated weights for policy 0, policy_version 2160 (0.0005)
+[2023-07-17 19:56:20,941][795499] Fps is (10 sec: 10649.4, 60 sec: 10240.0, 300 sec: 10240.0). Total num frames: 1134592. Throughput: 0: 10248.4. Samples: 1129236. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:56:20,942][795499] Avg episode reward: [(0, '15.970')]
+[2023-07-17 19:56:20,944][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000002216_1134592.pth...
+[2023-07-17 19:56:20,947][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001616_827392.pth
+[2023-07-17 19:56:22,105][795833] Updated weights for policy 0, policy_version 2240 (0.0005)
+[2023-07-17 19:56:25,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10240.0, 300 sec: 10222.2). Total num frames: 1183744. Throughput: 0: 10209.2. Samples: 1159248. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-17 19:56:25,942][795499] Avg episode reward: [(0, '16.868')]
+[2023-07-17 19:56:26,291][795833] Updated weights for policy 0, policy_version 2320 (0.0005)
+[2023-07-17 19:56:30,493][795833] Updated weights for policy 0, policy_version 2400 (0.0005)
+[2023-07-17 19:56:30,941][795499] Fps is (10 sec: 9830.4, 60 sec: 10171.7, 300 sec: 10205.9). Total num frames: 1232896. Throughput: 0: 10136.7. Samples: 1217080. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:56:30,942][795499] Avg episode reward: [(0, '17.414')]
+[2023-07-17 19:56:30,942][795789] Saving new best policy, reward=17.414!
+[2023-07-17 19:56:34,720][795833] Updated weights for policy 0, policy_version 2480 (0.0005)
+[2023-07-17 19:56:35,941][795499] Fps is (10 sec: 9420.7, 60 sec: 10103.5, 300 sec: 10158.1). Total num frames: 1277952. Throughput: 0: 10083.0. Samples: 1276208. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:56:35,942][795499] Avg episode reward: [(0, '17.092')]
+[2023-07-17 19:56:35,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000002496_1277952.pth...
+[2023-07-17 19:56:35,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000001912_978944.pth
+[2023-07-17 19:56:39,065][795833] Updated weights for policy 0, policy_version 2560 (0.0005)
+[2023-07-17 19:56:40,941][795499] Fps is (10 sec: 9421.0, 60 sec: 10035.2, 300 sec: 10145.5). Total num frames: 1327104. Throughput: 0: 10051.3. Samples: 1304444. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:56:40,942][795499] Avg episode reward: [(0, '17.110')]
+[2023-07-17 19:56:43,346][795833] Updated weights for policy 0, policy_version 2640 (0.0005)
+[2023-07-17 19:56:45,941][795499] Fps is (10 sec: 9420.8, 60 sec: 9966.9, 300 sec: 10103.5). Total num frames: 1372160. Throughput: 0: 9977.1. Samples: 1362172. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:56:45,942][795499] Avg episode reward: [(0, '16.653')]
+[2023-07-17 19:56:47,690][795833] Updated weights for policy 0, policy_version 2720 (0.0005)
+[2023-07-17 19:56:50,941][795499] Fps is (10 sec: 9420.6, 60 sec: 9966.9, 300 sec: 10093.7). Total num frames: 1421312. Throughput: 0: 9836.5. Samples: 1417500. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:56:50,942][795499] Avg episode reward: [(0, '17.487')]
+[2023-07-17 19:56:50,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000002776_1421312.pth...
+[2023-07-17 19:56:50,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000002216_1134592.pth
+[2023-07-17 19:56:50,948][795789] Saving new best policy, reward=17.487!
+[2023-07-17 19:56:52,040][795833] Updated weights for policy 0, policy_version 2800 (0.0005)
+[2023-07-17 19:56:55,941][795499] Fps is (10 sec: 9420.8, 60 sec: 9830.4, 300 sec: 10056.4). Total num frames: 1466368. Throughput: 0: 9829.6. Samples: 1447176. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-17 19:56:55,942][795499] Avg episode reward: [(0, '16.491')]
+[2023-07-17 19:56:56,401][795833] Updated weights for policy 0, policy_version 2880 (0.0005)
+[2023-07-17 19:57:00,624][795833] Updated weights for policy 0, policy_version 2960 (0.0005)
+[2023-07-17 19:57:00,941][795499] Fps is (10 sec: 9420.9, 60 sec: 9830.4, 300 sec: 10048.9). Total num frames: 1515520. Throughput: 0: 9701.0. Samples: 1503788. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:57:00,942][795499] Avg episode reward: [(0, '16.180')]
+[2023-07-17 19:57:04,985][795833] Updated weights for policy 0, policy_version 3040 (0.0006)
+[2023-07-17 19:57:05,941][795499] Fps is (10 sec: 9830.4, 60 sec: 9762.1, 300 sec: 10041.8). Total num frames: 1564672. Throughput: 0: 9585.5. Samples: 1560584. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:57:05,942][795499] Avg episode reward: [(0, '16.453')]
+[2023-07-17 19:57:05,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003056_1564672.pth...
+[2023-07-17 19:57:05,950][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000002496_1277952.pth
+[2023-07-17 19:57:09,279][795833] Updated weights for policy 0, policy_version 3120 (0.0005)
+[2023-07-17 19:57:10,941][795499] Fps is (10 sec: 9830.3, 60 sec: 9762.1, 300 sec: 10035.2). Total num frames: 1613824. Throughput: 0: 9554.0. Samples: 1589180. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:57:10,942][795499] Avg episode reward: [(0, '16.274')]
+[2023-07-17 19:57:13,344][795833] Updated weights for policy 0, policy_version 3200 (0.0005)
+[2023-07-17 19:57:15,941][795499] Fps is (10 sec: 9830.4, 60 sec: 9693.9, 300 sec: 10029.0). Total num frames: 1662976. Throughput: 0: 9598.9. Samples: 1649032. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:57:15,942][795499] Avg episode reward: [(0, '16.663')]
+[2023-07-17 19:57:17,589][795833] Updated weights for policy 0, policy_version 3280 (0.0005)
+[2023-07-17 19:57:20,941][795499] Fps is (10 sec: 9420.8, 60 sec: 9557.3, 300 sec: 9999.1). Total num frames: 1708032. Throughput: 0: 9513.6. Samples: 1704320. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:57:20,942][795499] Avg episode reward: [(0, '16.323')]
+[2023-07-17 19:57:20,946][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003336_1708032.pth...
+[2023-07-17 19:57:20,949][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000002776_1421312.pth
+[2023-07-17 19:57:22,091][795833] Updated weights for policy 0, policy_version 3360 (0.0005)
+[2023-07-17 19:57:25,941][795499] Fps is (10 sec: 9420.8, 60 sec: 9557.3, 300 sec: 9994.2). Total num frames: 1757184. Throughput: 0: 9527.4. Samples: 1733180. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-17 19:57:25,942][795499] Avg episode reward: [(0, '15.219')]
+[2023-07-17 19:57:26,103][795833] Updated weights for policy 0, policy_version 3440 (0.0005)
+[2023-07-17 19:57:30,108][795833] Updated weights for policy 0, policy_version 3520 (0.0005)
+[2023-07-17 19:57:30,941][795499] Fps is (10 sec: 9830.3, 60 sec: 9557.3, 300 sec: 9989.7). Total num frames: 1806336. Throughput: 0: 9614.3. Samples: 1794816. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:57:30,942][795499] Avg episode reward: [(0, '17.055')]
+[2023-07-17 19:57:34,374][795833] Updated weights for policy 0, policy_version 3600 (0.0005)
+[2023-07-17 19:57:35,941][795499] Fps is (10 sec: 9830.4, 60 sec: 9625.6, 300 sec: 9985.4). Total num frames: 1855488. Throughput: 0: 9667.6. Samples: 1852540. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:57:35,942][795499] Avg episode reward: [(0, '16.652')]
+[2023-07-17 19:57:35,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003624_1855488.pth...
+[2023-07-17 19:57:35,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003056_1564672.pth
+[2023-07-17 19:57:38,523][795833] Updated weights for policy 0, policy_version 3680 (0.0005)
+[2023-07-17 19:57:40,941][795499] Fps is (10 sec: 9830.5, 60 sec: 9625.6, 300 sec: 9981.3). Total num frames: 1904640. Throughput: 0: 9682.1. Samples: 1882868. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:57:40,942][795499] Avg episode reward: [(0, '15.301')]
+[2023-07-17 19:57:42,614][795833] Updated weights for policy 0, policy_version 3760 (0.0005)
+[2023-07-17 19:57:45,941][795499] Fps is (10 sec: 10240.1, 60 sec: 9762.2, 300 sec: 9998.4). Total num frames: 1957888. Throughput: 0: 9779.9. Samples: 1943884. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:57:45,942][795499] Avg episode reward: [(0, '16.917')]
+[2023-07-17 19:57:46,557][795833] Updated weights for policy 0, policy_version 3840 (0.0005)
+[2023-07-17 19:57:50,734][795833] Updated weights for policy 0, policy_version 3920 (0.0006)
+[2023-07-17 19:57:50,941][795499] Fps is (10 sec: 10240.0, 60 sec: 9762.1, 300 sec: 9994.2). Total num frames: 2007040. Throughput: 0: 9843.0. Samples: 2003520. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-17 19:57:50,942][795499] Avg episode reward: [(0, '17.620')]
+[2023-07-17 19:57:50,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003920_2007040.pth...
+[2023-07-17 19:57:50,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003336_1708032.pth
+[2023-07-17 19:57:50,949][795789] Saving new best policy, reward=17.620!
+[2023-07-17 19:57:54,808][795833] Updated weights for policy 0, policy_version 4000 (0.0005)
+[2023-07-17 19:57:55,941][795499] Fps is (10 sec: 9830.4, 60 sec: 9830.4, 300 sec: 9990.2). Total num frames: 2056192. Throughput: 0: 9878.8. Samples: 2033724. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:57:55,942][795499] Avg episode reward: [(0, '18.762')]
+[2023-07-17 19:57:55,942][795789] Saving new best policy, reward=18.762!
+[2023-07-17 19:57:58,725][795833] Updated weights for policy 0, policy_version 4080 (0.0005)
+[2023-07-17 19:58:00,941][795499] Fps is (10 sec: 10240.0, 60 sec: 9898.7, 300 sec: 10005.9). Total num frames: 2109440. Throughput: 0: 9930.0. Samples: 2095884. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:58:00,942][795499] Avg episode reward: [(0, '18.720')]
+[2023-07-17 19:58:02,666][795833] Updated weights for policy 0, policy_version 4160 (0.0005)
+[2023-07-17 19:58:05,941][795499] Fps is (10 sec: 10649.6, 60 sec: 9966.9, 300 sec: 10020.9). Total num frames: 2162688. Throughput: 0: 10096.4. Samples: 2158656. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:58:05,942][795499] Avg episode reward: [(0, '40.724')]
+[2023-07-17 19:58:05,946][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000004224_2162688.pth...
+[2023-07-17 19:58:05,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003624_1855488.pth
+[2023-07-17 19:58:05,949][795789] Saving new best policy, reward=40.724!
+[2023-07-17 19:58:06,591][795833] Updated weights for policy 0, policy_version 4240 (0.0005)
+[2023-07-17 19:58:10,518][795833] Updated weights for policy 0, policy_version 4320 (0.0004)
+[2023-07-17 19:58:10,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10035.2, 300 sec: 10035.2). Total num frames: 2215936. Throughput: 0: 10140.0. Samples: 2189480. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:58:10,942][795499] Avg episode reward: [(0, '49.753')]
+[2023-07-17 19:58:10,942][795789] Saving new best policy, reward=49.753!
+[2023-07-17 19:58:14,399][795833] Updated weights for policy 0, policy_version 4400 (0.0005)
+[2023-07-17 19:58:15,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10035.2, 300 sec: 10030.7). Total num frames: 2265088. Throughput: 0: 10178.9. Samples: 2252864. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:58:15,942][795499] Avg episode reward: [(0, '52.936')]
+[2023-07-17 19:58:15,942][795789] Saving new best policy, reward=52.936!
+[2023-07-17 19:58:18,453][795833] Updated weights for policy 0, policy_version 4480 (0.0005)
+[2023-07-17 19:58:20,941][795499] Fps is (10 sec: 9830.3, 60 sec: 10103.5, 300 sec: 10026.3). Total num frames: 2314240. Throughput: 0: 10237.7. Samples: 2313236. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-17 19:58:20,942][795499] Avg episode reward: [(0, '57.071')]
+[2023-07-17 19:58:20,957][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000004528_2318336.pth...
+[2023-07-17 19:58:20,960][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000003920_2007040.pth
+[2023-07-17 19:58:20,960][795789] Saving new best policy, reward=57.071!
+[2023-07-17 19:58:22,513][795833] Updated weights for policy 0, policy_version 4560 (0.0005)
+[2023-07-17 19:58:25,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10171.7, 300 sec: 10039.6). Total num frames: 2367488. Throughput: 0: 10245.9. Samples: 2343932. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:58:25,942][795499] Avg episode reward: [(0, '73.215')]
+[2023-07-17 19:58:25,943][795789] Saving new best policy, reward=73.215!
+[2023-07-17 19:58:26,420][795833] Updated weights for policy 0, policy_version 4640 (0.0005)
+[2023-07-17 19:58:30,356][795833] Updated weights for policy 0, policy_version 4720 (0.0005)
+[2023-07-17 19:58:30,941][795499] Fps is (10 sec: 10649.7, 60 sec: 10240.0, 300 sec: 10052.3). Total num frames: 2420736. Throughput: 0: 10279.7. Samples: 2406472. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-17 19:58:30,942][795499] Avg episode reward: [(0, '70.595')]
+[2023-07-17 19:58:34,256][795833] Updated weights for policy 0, policy_version 4800 (0.0004)
+[2023-07-17 19:58:35,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10308.3, 300 sec: 10064.5). Total num frames: 2473984. Throughput: 0: 10352.7. Samples: 2469392. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-17 19:58:35,942][795499] Avg episode reward: [(0, '80.859')]
+[2023-07-17 19:58:35,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000004832_2473984.pth...
+[2023-07-17 19:58:35,949][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000004224_2162688.pth
+[2023-07-17 19:58:35,949][795789] Saving new best policy, reward=80.859!
+[2023-07-17 19:58:38,264][795833] Updated weights for policy 0, policy_version 4880 (0.0004)
+[2023-07-17 19:58:40,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10308.3, 300 sec: 10059.8). Total num frames: 2523136. Throughput: 0: 10354.8. Samples: 2499692. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-17 19:58:40,942][795499] Avg episode reward: [(0, '84.259')]
+[2023-07-17 19:58:40,943][795789] Saving new best policy, reward=84.259!
+[2023-07-17 19:58:42,170][795833] Updated weights for policy 0, policy_version 4960 (0.0005)
+[2023-07-17 19:58:45,941][795499] Fps is (10 sec: 10240.1, 60 sec: 10308.3, 300 sec: 10071.3). Total num frames: 2576384. Throughput: 0: 10377.6. Samples: 2562876. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:58:45,942][795499] Avg episode reward: [(0, '97.666')]
+[2023-07-17 19:58:45,943][795789] Saving new best policy, reward=97.666!
+[2023-07-17 19:58:45,998][795833] Updated weights for policy 0, policy_version 5040 (0.0004)
+[2023-07-17 19:58:49,986][795833] Updated weights for policy 0, policy_version 5120 (0.0005)
+[2023-07-17 19:58:50,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10376.5, 300 sec: 10082.5). Total num frames: 2629632. Throughput: 0: 10376.7. Samples: 2625608. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-17 19:58:50,942][795499] Avg episode reward: [(0, '95.629')]
+[2023-07-17 19:58:50,946][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000005136_2629632.pth...
+[2023-07-17 19:58:50,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000004528_2318336.pth
+[2023-07-17 19:58:54,111][795833] Updated weights for policy 0, policy_version 5200 (0.0005)
+[2023-07-17 19:58:55,941][795499] Fps is (10 sec: 10239.9, 60 sec: 10376.5, 300 sec: 10077.7). Total num frames: 2678784. Throughput: 0: 10352.2. Samples: 2655328. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:58:55,942][795499] Avg episode reward: [(0, '97.651')]
+[2023-07-17 19:58:58,076][795833] Updated weights for policy 0, policy_version 5280 (0.0005)
+[2023-07-17 19:59:00,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10376.5, 300 sec: 10088.3). Total num frames: 2732032. Throughput: 0: 10302.6. Samples: 2716480. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:59:00,942][795499] Avg episode reward: [(0, '110.992')]
+[2023-07-17 19:59:00,942][795789] Saving new best policy, reward=110.992!
+[2023-07-17 19:59:02,052][795833] Updated weights for policy 0, policy_version 5360 (0.0005)
+[2023-07-17 19:59:05,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10308.3, 300 sec: 10083.6). Total num frames: 2781184. Throughput: 0: 10307.8. Samples: 2777088. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:59:05,942][795499] Avg episode reward: [(0, '122.406')]
+[2023-07-17 19:59:05,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000005432_2781184.pth...
+[2023-07-17 19:59:05,949][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000004832_2473984.pth
+[2023-07-17 19:59:05,949][795789] Saving new best policy, reward=122.406!
+[2023-07-17 19:59:06,269][795833] Updated weights for policy 0, policy_version 5440 (0.0006)
+[2023-07-17 19:59:10,532][795833] Updated weights for policy 0, policy_version 5520 (0.0005)
+[2023-07-17 19:59:10,941][795499] Fps is (10 sec: 9420.8, 60 sec: 10171.7, 300 sec: 10064.5). Total num frames: 2826240. Throughput: 0: 10264.4. Samples: 2805832. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:59:10,942][795499] Avg episode reward: [(0, '109.443')]
+[2023-07-17 19:59:14,908][795833] Updated weights for policy 0, policy_version 5600 (0.0005)
+[2023-07-17 19:59:15,941][795499] Fps is (10 sec: 9420.9, 60 sec: 10171.7, 300 sec: 10060.4). Total num frames: 2875392. Throughput: 0: 10128.7. Samples: 2862264. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-17 19:59:15,942][795499] Avg episode reward: [(0, '125.434')]
+[2023-07-17 19:59:15,943][795789] Saving new best policy, reward=125.434!
+[2023-07-17 19:59:19,347][795833] Updated weights for policy 0, policy_version 5680 (0.0006)
+[2023-07-17 19:59:20,941][795499] Fps is (10 sec: 9830.4, 60 sec: 10171.7, 300 sec: 10056.4). Total num frames: 2924544. Throughput: 0: 9981.8. Samples: 2918572. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-17 19:59:20,943][795499] Avg episode reward: [(0, '153.668')]
+[2023-07-17 19:59:20,947][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000005712_2924544.pth...
+[2023-07-17 19:59:20,949][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000005136_2629632.pth
+[2023-07-17 19:59:20,950][795789] Saving new best policy, reward=153.668!
+[2023-07-17 19:59:23,331][795833] Updated weights for policy 0, policy_version 5760 (0.0004)
+[2023-07-17 19:59:25,941][795499] Fps is (10 sec: 9830.4, 60 sec: 10103.5, 300 sec: 10052.6). Total num frames: 2973696. Throughput: 0: 9996.4. Samples: 2949532. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-17 19:59:25,942][795499] Avg episode reward: [(0, '143.969')]
+[2023-07-17 19:59:27,327][795833] Updated weights for policy 0, policy_version 5840 (0.0004)
+[2023-07-17 19:59:30,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10103.5, 300 sec: 10038.7). Total num frames: 3026944. Throughput: 0: 9977.1. Samples: 3011848. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:59:30,942][795499] Avg episode reward: [(0, '161.998')]
+[2023-07-17 19:59:30,943][795789] Saving new best policy, reward=161.998!
+[2023-07-17 19:59:31,284][795833] Updated weights for policy 0, policy_version 5920 (0.0005)
+[2023-07-17 19:59:35,313][795833] Updated weights for policy 0, policy_version 6000 (0.0005)
+[2023-07-17 19:59:35,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10035.2, 300 sec: 10038.7). Total num frames: 3076096. Throughput: 0: 9932.7. Samples: 3072580. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:59:35,942][795499] Avg episode reward: [(0, '203.960')]
+[2023-07-17 19:59:35,946][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006008_3076096.pth...
+[2023-07-17 19:59:35,949][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000005432_2781184.pth
+[2023-07-17 19:59:35,949][795789] Saving new best policy, reward=203.960!
+[2023-07-17 19:59:39,345][795833] Updated weights for policy 0, policy_version 6080 (0.0005)
+[2023-07-17 19:59:40,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10103.5, 300 sec: 10038.7). Total num frames: 3129344. Throughput: 0: 9971.9. Samples: 3104064. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:59:40,942][795499] Avg episode reward: [(0, '235.627')]
+[2023-07-17 19:59:40,943][795789] Saving new best policy, reward=235.627!
+[2023-07-17 19:59:43,078][795833] Updated weights for policy 0, policy_version 6160 (0.0005)
+[2023-07-17 19:59:45,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10103.5, 300 sec: 10052.6). Total num frames: 3182592. Throughput: 0: 10040.5. Samples: 3168304. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:59:45,942][795499] Avg episode reward: [(0, '230.127')]
+[2023-07-17 19:59:46,844][795833] Updated weights for policy 0, policy_version 6240 (0.0005)
+[2023-07-17 19:59:50,663][795833] Updated weights for policy 0, policy_version 6320 (0.0005)
+[2023-07-17 19:59:50,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10103.5, 300 sec: 10066.4). Total num frames: 3235840. Throughput: 0: 10118.0. Samples: 3232396. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:59:50,942][795499] Avg episode reward: [(0, '228.665')]
+[2023-07-17 19:59:50,946][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006320_3235840.pth...
+[2023-07-17 19:59:50,949][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000005712_2924544.pth
+[2023-07-17 19:59:54,565][795833] Updated weights for policy 0, policy_version 6400 (0.0006)
+[2023-07-17 19:59:55,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10171.7, 300 sec: 10080.3). Total num frames: 3289088. Throughput: 0: 10194.3. Samples: 3264576. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 19:59:55,942][795499] Avg episode reward: [(0, '246.000')]
+[2023-07-17 19:59:55,942][795789] Saving new best policy, reward=246.000!
+[2023-07-17 19:59:58,503][795833] Updated weights for policy 0, policy_version 6480 (0.0004)
+[2023-07-17 20:00:00,941][795499] Fps is (10 sec: 10649.7, 60 sec: 10171.7, 300 sec: 10080.3). Total num frames: 3342336. Throughput: 0: 10315.9. Samples: 3326480. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:00:00,942][795499] Avg episode reward: [(0, '228.217')]
+[2023-07-17 20:00:02,409][795833] Updated weights for policy 0, policy_version 6560 (0.0005)
+[2023-07-17 20:00:05,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10240.0, 300 sec: 10094.2). Total num frames: 3395584. Throughput: 0: 10499.6. Samples: 3391052. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:00:05,942][795499] Avg episode reward: [(0, '223.994')]
+[2023-07-17 20:00:05,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006632_3395584.pth...
+[2023-07-17 20:00:05,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006008_3076096.pth
+[2023-07-17 20:00:06,280][795833] Updated weights for policy 0, policy_version 6640 (0.0005)
+[2023-07-17 20:00:10,262][795833] Updated weights for policy 0, policy_version 6720 (0.0005)
+[2023-07-17 20:00:10,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10308.3, 300 sec: 10094.2). Total num frames: 3444736. Throughput: 0: 10487.6. Samples: 3421476. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-17 20:00:10,942][795499] Avg episode reward: [(0, '234.945')]
+[2023-07-17 20:00:14,108][795833] Updated weights for policy 0, policy_version 6800 (0.0005)
+[2023-07-17 20:00:15,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10376.5, 300 sec: 10094.2). Total num frames: 3497984. Throughput: 0: 10510.6. Samples: 3484824. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:00:15,942][795499] Avg episode reward: [(0, '229.124')]
+[2023-07-17 20:00:17,982][795833] Updated weights for policy 0, policy_version 6880 (0.0005)
+[2023-07-17 20:00:20,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10444.8, 300 sec: 10108.1). Total num frames: 3551232. Throughput: 0: 10552.4. Samples: 3547440. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-17 20:00:20,942][795499] Avg episode reward: [(0, '240.641')]
+[2023-07-17 20:00:20,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006936_3551232.pth...
+[2023-07-17 20:00:20,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006320_3235840.pth
+[2023-07-17 20:00:21,915][795833] Updated weights for policy 0, policy_version 6960 (0.0005)
+[2023-07-17 20:00:25,941][795499] Fps is (10 sec: 10240.1, 60 sec: 10444.8, 300 sec: 10094.2). Total num frames: 3600384. Throughput: 0: 10522.3. Samples: 3577568. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-17 20:00:25,942][795499] Avg episode reward: [(0, '236.374')]
+[2023-07-17 20:00:26,018][795833] Updated weights for policy 0, policy_version 7040 (0.0005)
+[2023-07-17 20:00:29,982][795833] Updated weights for policy 0, policy_version 7120 (0.0005)
+[2023-07-17 20:00:30,941][795499] Fps is (10 sec: 10240.1, 60 sec: 10444.8, 300 sec: 10108.1). Total num frames: 3653632. Throughput: 0: 10469.2. Samples: 3639416. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:00:30,942][795499] Avg episode reward: [(0, '265.296')]
+[2023-07-17 20:00:30,942][795789] Saving new best policy, reward=265.296!
+[2023-07-17 20:00:33,896][795833] Updated weights for policy 0, policy_version 7200 (0.0005)
+[2023-07-17 20:00:35,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10513.1, 300 sec: 10108.1). Total num frames: 3706880. Throughput: 0: 10449.0. Samples: 3702600. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-17 20:00:35,942][795499] Avg episode reward: [(0, '253.442')]
+[2023-07-17 20:00:35,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000007240_3706880.pth...
+[2023-07-17 20:00:35,949][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006632_3395584.pth
+[2023-07-17 20:00:37,785][795833] Updated weights for policy 0, policy_version 7280 (0.0004)
+[2023-07-17 20:00:40,941][795499] Fps is (10 sec: 10240.1, 60 sec: 10444.8, 300 sec: 10108.1). Total num frames: 3756032. Throughput: 0: 10431.4. Samples: 3733988. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-17 20:00:40,942][795499] Avg episode reward: [(0, '254.231')]
+[2023-07-17 20:00:41,730][795833] Updated weights for policy 0, policy_version 7360 (0.0005)
+[2023-07-17 20:00:45,706][795833] Updated weights for policy 0, policy_version 7440 (0.0005)
+[2023-07-17 20:00:45,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10444.8, 300 sec: 10122.0). Total num frames: 3809280. Throughput: 0: 10426.8. Samples: 3795688. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:00:45,942][795499] Avg episode reward: [(0, '245.524')]
+[2023-07-17 20:00:49,321][795833] Updated weights for policy 0, policy_version 7520 (0.0004)
+[2023-07-17 20:00:50,941][795499] Fps is (10 sec: 11059.1, 60 sec: 10513.1, 300 sec: 10135.9). Total num frames: 3866624. Throughput: 0: 10476.9. Samples: 3862512. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:00:50,942][795499] Avg episode reward: [(0, '267.585')]
+[2023-07-17 20:00:50,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000007552_3866624.pth...
+[2023-07-17 20:00:50,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000006936_3551232.pth
+[2023-07-17 20:00:50,948][795789] Saving new best policy, reward=267.585!
+[2023-07-17 20:00:52,982][795833] Updated weights for policy 0, policy_version 7600 (0.0005)
+[2023-07-17 20:00:55,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10513.1, 300 sec: 10149.8). Total num frames: 3919872. Throughput: 0: 10531.5. Samples: 3895392. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-17 20:00:55,942][795499] Avg episode reward: [(0, '235.615')]
+[2023-07-17 20:00:56,996][795833] Updated weights for policy 0, policy_version 7680 (0.0005)
+[2023-07-17 20:01:00,874][795833] Updated weights for policy 0, policy_version 7760 (0.0005)
+[2023-07-17 20:01:00,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10513.1, 300 sec: 10149.8). Total num frames: 3973120. Throughput: 0: 10488.8. Samples: 3956820. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:01:00,942][795499] Avg episode reward: [(0, '253.389')]
+[2023-07-17 20:01:04,754][795833] Updated weights for policy 0, policy_version 7840 (0.0005)
+[2023-07-17 20:01:05,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10513.1, 300 sec: 10163.6). Total num frames: 4026368. Throughput: 0: 10529.4. Samples: 4021264. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:01:05,942][795499] Avg episode reward: [(0, '269.312')]
+[2023-07-17 20:01:05,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000007864_4026368.pth...
+[2023-07-17 20:01:05,947][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000007240_3706880.pth
+[2023-07-17 20:01:05,948][795789] Saving new best policy, reward=269.312!
+[2023-07-17 20:01:08,671][795833] Updated weights for policy 0, policy_version 7920 (0.0005)
+[2023-07-17 20:01:10,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10513.1, 300 sec: 10149.7). Total num frames: 4075520. Throughput: 0: 10550.1. Samples: 4052324. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:01:10,942][795499] Avg episode reward: [(0, '250.955')]
+[2023-07-17 20:01:12,565][795833] Updated weights for policy 0, policy_version 8000 (0.0004)
+[2023-07-17 20:01:15,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10581.3, 300 sec: 10163.6). Total num frames: 4132864. Throughput: 0: 10594.7. Samples: 4116176. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:01:15,942][795499] Avg episode reward: [(0, '264.188')]
+[2023-07-17 20:01:16,279][795833] Updated weights for policy 0, policy_version 8080 (0.0004)
+[2023-07-17 20:01:19,924][795833] Updated weights for policy 0, policy_version 8160 (0.0005)
+[2023-07-17 20:01:20,941][795499] Fps is (10 sec: 11059.3, 60 sec: 10581.3, 300 sec: 10177.5). Total num frames: 4186112. Throughput: 0: 10665.3. Samples: 4182540. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-17 20:01:20,942][795499] Avg episode reward: [(0, '263.901')]
+[2023-07-17 20:01:20,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000008176_4186112.pth...
+[2023-07-17 20:01:20,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000007552_3866624.pth
+[2023-07-17 20:01:23,879][795833] Updated weights for policy 0, policy_version 8240 (0.0005)
+[2023-07-17 20:01:25,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10649.6, 300 sec: 10191.4). Total num frames: 4239360. Throughput: 0: 10667.9. Samples: 4214044. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-17 20:01:25,942][795499] Avg episode reward: [(0, '267.246')]
+[2023-07-17 20:01:27,809][795833] Updated weights for policy 0, policy_version 8320 (0.0005)
+[2023-07-17 20:01:30,941][795499] Fps is (10 sec: 10649.7, 60 sec: 10649.6, 300 sec: 10219.2). Total num frames: 4292608. Throughput: 0: 10683.2. Samples: 4276432. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-17 20:01:30,942][795499] Avg episode reward: [(0, '263.742')]
+[2023-07-17 20:01:31,633][795833] Updated weights for policy 0, policy_version 8400 (0.0005)
+[2023-07-17 20:01:35,512][795833] Updated weights for policy 0, policy_version 8480 (0.0005)
+[2023-07-17 20:01:35,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10649.6, 300 sec: 10233.1). Total num frames: 4345856. Throughput: 0: 10623.8. Samples: 4340584. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:01:35,942][795499] Avg episode reward: [(0, '241.967')]
+[2023-07-17 20:01:35,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000008488_4345856.pth...
+[2023-07-17 20:01:35,947][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000007864_4026368.pth
+[2023-07-17 20:01:39,227][795833] Updated weights for policy 0, policy_version 8560 (0.0004)
+[2023-07-17 20:01:40,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10717.8, 300 sec: 10260.8). Total num frames: 4399104. Throughput: 0: 10625.3. Samples: 4373532. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:01:40,942][795499] Avg episode reward: [(0, '245.551')]
+[2023-07-17 20:01:42,838][795833] Updated weights for policy 0, policy_version 8640 (0.0004)
+[2023-07-17 20:01:45,941][795499] Fps is (10 sec: 11059.3, 60 sec: 10786.1, 300 sec: 10288.6). Total num frames: 4456448. Throughput: 0: 10742.6. Samples: 4440236. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:01:45,942][795499] Avg episode reward: [(0, '238.198')]
+[2023-07-17 20:01:46,619][795833] Updated weights for policy 0, policy_version 8720 (0.0005)
+[2023-07-17 20:01:50,423][795833] Updated weights for policy 0, policy_version 8800 (0.0005)
+[2023-07-17 20:01:50,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10717.9, 300 sec: 10316.4). Total num frames: 4509696. Throughput: 0: 10763.0. Samples: 4505600. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:01:50,942][795499] Avg episode reward: [(0, '236.904')]
+[2023-07-17 20:01:50,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000008808_4509696.pth...
+[2023-07-17 20:01:50,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000008176_4186112.pth
+[2023-07-17 20:01:54,109][795833] Updated weights for policy 0, policy_version 8880 (0.0005)
+[2023-07-17 20:01:55,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10717.9, 300 sec: 10330.3). Total num frames: 4562944. Throughput: 0: 10802.6. Samples: 4538440. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:01:55,942][795499] Avg episode reward: [(0, '238.012')]
+[2023-07-17 20:01:57,922][795833] Updated weights for policy 0, policy_version 8960 (0.0005)
+[2023-07-17 20:02:00,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10717.9, 300 sec: 10344.1). Total num frames: 4616192. Throughput: 0: 10831.6. Samples: 4603596. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:02:00,942][795499] Avg episode reward: [(0, '254.728')]
+[2023-07-17 20:02:01,815][795833] Updated weights for policy 0, policy_version 9040 (0.0005)
+[2023-07-17 20:02:05,617][795833] Updated weights for policy 0, policy_version 9120 (0.0005)
+[2023-07-17 20:02:05,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10717.9, 300 sec: 10358.0). Total num frames: 4669440. Throughput: 0: 10762.4. Samples: 4666848. Policy #0 lag: (min: 3.0, avg: 3.0, max: 3.0)
+[2023-07-17 20:02:05,942][795499] Avg episode reward: [(0, '270.565')]
+[2023-07-17 20:02:05,991][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000009128_4673536.pth...
+[2023-07-17 20:02:05,993][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000008488_4345856.pth
+[2023-07-17 20:02:05,994][795789] Saving new best policy, reward=270.565!
+[2023-07-17 20:02:09,257][795833] Updated weights for policy 0, policy_version 9200 (0.0005)
+[2023-07-17 20:02:10,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10854.4, 300 sec: 10385.8). Total num frames: 4726784. Throughput: 0: 10821.1. Samples: 4700992. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:02:10,942][795499] Avg episode reward: [(0, '247.657')]
+[2023-07-17 20:02:12,953][795833] Updated weights for policy 0, policy_version 9280 (0.0004)
+[2023-07-17 20:02:15,941][795499] Fps is (10 sec: 11468.8, 60 sec: 10854.4, 300 sec: 10427.4). Total num frames: 4784128. Throughput: 0: 10912.8. Samples: 4767508. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:02:15,942][795499] Avg episode reward: [(0, '263.417')]
+[2023-07-17 20:02:16,712][795833] Updated weights for policy 0, policy_version 9360 (0.0005)
+[2023-07-17 20:02:20,650][795833] Updated weights for policy 0, policy_version 9440 (0.0005)
+[2023-07-17 20:02:20,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10786.1, 300 sec: 10427.4). Total num frames: 4833280. Throughput: 0: 10881.3. Samples: 4830244. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:02:20,942][795499] Avg episode reward: [(0, '258.481')]
+[2023-07-17 20:02:20,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000009440_4833280.pth...
+[2023-07-17 20:02:20,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000008808_4509696.pth
+[2023-07-17 20:02:24,609][795833] Updated weights for policy 0, policy_version 9520 (0.0005)
+[2023-07-17 20:02:25,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10786.1, 300 sec: 10441.3). Total num frames: 4886528. Throughput: 0: 10853.8. Samples: 4861952. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:02:25,942][795499] Avg episode reward: [(0, '280.349')]
+[2023-07-17 20:02:25,943][795789] Saving new best policy, reward=280.349!
+[2023-07-17 20:02:28,556][795833] Updated weights for policy 0, policy_version 9600 (0.0005)
+[2023-07-17 20:02:30,941][795499] Fps is (10 sec: 10240.1, 60 sec: 10717.9, 300 sec: 10441.3). Total num frames: 4935680. Throughput: 0: 10738.2. Samples: 4923456. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-17 20:02:30,942][795499] Avg episode reward: [(0, '267.227')]
+[2023-07-17 20:02:32,460][795833] Updated weights for policy 0, policy_version 9680 (0.0005)
+[2023-07-17 20:02:35,941][795499] Fps is (10 sec: 10240.1, 60 sec: 10717.9, 300 sec: 10455.2). Total num frames: 4988928. Throughput: 0: 10707.0. Samples: 4987416. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-17 20:02:35,942][795499] Avg episode reward: [(0, '270.000')]
+[2023-07-17 20:02:35,977][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000009752_4993024.pth...
+[2023-07-17 20:02:35,978][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000009128_4673536.pth
+[2023-07-17 20:02:36,381][795833] Updated weights for policy 0, policy_version 9760 (0.0005)
+[2023-07-17 20:02:40,096][795833] Updated weights for policy 0, policy_version 9840 (0.0005)
+[2023-07-17 20:02:40,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10786.1, 300 sec: 10469.1). Total num frames: 5046272. Throughput: 0: 10680.7. Samples: 5019072. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-17 20:02:40,942][795499] Avg episode reward: [(0, '282.535')]
+[2023-07-17 20:02:40,943][795789] Saving new best policy, reward=282.535!
+[2023-07-17 20:02:43,796][795833] Updated weights for policy 0, policy_version 9920 (0.0004)
+[2023-07-17 20:02:45,941][795499] Fps is (10 sec: 11059.1, 60 sec: 10717.9, 300 sec: 10483.0). Total num frames: 5099520. Throughput: 0: 10719.2. Samples: 5085960. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-17 20:02:45,942][795499] Avg episode reward: [(0, '285.806')]
+[2023-07-17 20:02:45,942][795789] Saving new best policy, reward=285.806!
+[2023-07-17 20:02:47,426][795833] Updated weights for policy 0, policy_version 10000 (0.0004)
+[2023-07-17 20:02:50,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10786.1, 300 sec: 10510.8). Total num frames: 5156864. Throughput: 0: 10799.7. Samples: 5152832. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:02:50,942][795499] Avg episode reward: [(0, '276.930')]
+[2023-07-17 20:02:50,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000010072_5156864.pth...
+[2023-07-17 20:02:50,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000009440_4833280.pth
+[2023-07-17 20:02:51,154][795833] Updated weights for policy 0, policy_version 10080 (0.0005)
+[2023-07-17 20:02:54,848][795833] Updated weights for policy 0, policy_version 10160 (0.0005)
+[2023-07-17 20:02:55,941][795499] Fps is (10 sec: 11059.3, 60 sec: 10786.1, 300 sec: 10510.8). Total num frames: 5210112. Throughput: 0: 10767.8. Samples: 5185544. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:02:55,942][795499] Avg episode reward: [(0, '264.777')]
+[2023-07-17 20:02:58,722][795833] Updated weights for policy 0, policy_version 10240 (0.0005)
+[2023-07-17 20:03:00,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10786.1, 300 sec: 10510.8). Total num frames: 5263360. Throughput: 0: 10730.1. Samples: 5250364. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-17 20:03:00,942][795499] Avg episode reward: [(0, '274.761')]
+[2023-07-17 20:03:02,575][795833] Updated weights for policy 0, policy_version 10320 (0.0005)
+[2023-07-17 20:03:05,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10786.1, 300 sec: 10510.8). Total num frames: 5316608. Throughput: 0: 10728.3. Samples: 5313016. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-17 20:03:05,942][795499] Avg episode reward: [(0, '261.333')]
+[2023-07-17 20:03:05,946][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000010384_5316608.pth...
+[2023-07-17 20:03:05,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000009752_4993024.pth
+[2023-07-17 20:03:06,434][795833] Updated weights for policy 0, policy_version 10400 (0.0005)
+[2023-07-17 20:03:10,238][795833] Updated weights for policy 0, policy_version 10480 (0.0005)
+[2023-07-17 20:03:10,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10717.9, 300 sec: 10524.6). Total num frames: 5369856. Throughput: 0: 10766.7. Samples: 5346452. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-17 20:03:10,942][795499] Avg episode reward: [(0, '280.430')]
+[2023-07-17 20:03:14,224][795833] Updated weights for policy 0, policy_version 10560 (0.0005)
+[2023-07-17 20:03:15,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10649.6, 300 sec: 10538.5). Total num frames: 5423104. Throughput: 0: 10779.7. Samples: 5408544. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:03:15,942][795499] Avg episode reward: [(0, '271.344')]
+[2023-07-17 20:03:18,236][795833] Updated weights for policy 0, policy_version 10640 (0.0005)
+[2023-07-17 20:03:20,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10717.9, 300 sec: 10538.5). Total num frames: 5476352. Throughput: 0: 10742.4. Samples: 5470824. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:03:20,942][795499] Avg episode reward: [(0, '276.956')]
+[2023-07-17 20:03:20,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000010696_5476352.pth...
+[2023-07-17 20:03:20,947][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000010072_5156864.pth
+[2023-07-17 20:03:22,007][795833] Updated weights for policy 0, policy_version 10720 (0.0004)
+[2023-07-17 20:03:25,642][795833] Updated weights for policy 0, policy_version 10800 (0.0004)
+[2023-07-17 20:03:25,941][795499] Fps is (10 sec: 10649.7, 60 sec: 10717.9, 300 sec: 10538.5). Total num frames: 5529600. Throughput: 0: 10775.7. Samples: 5503980. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:03:25,942][795499] Avg episode reward: [(0, '262.263')]
+[2023-07-17 20:03:29,457][795833] Updated weights for policy 0, policy_version 10880 (0.0005)
+[2023-07-17 20:03:30,941][795499] Fps is (10 sec: 10649.7, 60 sec: 10786.1, 300 sec: 10538.5). Total num frames: 5582848. Throughput: 0: 10768.8. Samples: 5570556. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:03:30,942][795499] Avg episode reward: [(0, '274.595')]
+[2023-07-17 20:03:33,303][795833] Updated weights for policy 0, policy_version 10960 (0.0005)
+[2023-07-17 20:03:35,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10786.1, 300 sec: 10552.4). Total num frames: 5636096. Throughput: 0: 10674.2. Samples: 5633172. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-17 20:03:35,942][795499] Avg episode reward: [(0, '290.217')]
+[2023-07-17 20:03:35,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000011008_5636096.pth...
+[2023-07-17 20:03:35,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000010384_5316608.pth
+[2023-07-17 20:03:35,948][795789] Saving new best policy, reward=290.217!
+[2023-07-17 20:03:37,096][795833] Updated weights for policy 0, policy_version 11040 (0.0005)
+[2023-07-17 20:03:40,777][795833] Updated weights for policy 0, policy_version 11120 (0.0004)
+[2023-07-17 20:03:40,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10786.1, 300 sec: 10566.3). Total num frames: 5693440. Throughput: 0: 10690.5. Samples: 5666616. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-17 20:03:40,942][795499] Avg episode reward: [(0, '268.275')]
+[2023-07-17 20:03:44,419][795833] Updated weights for policy 0, policy_version 11200 (0.0004)
+[2023-07-17 20:03:45,941][795499] Fps is (10 sec: 11059.3, 60 sec: 10786.1, 300 sec: 10566.3). Total num frames: 5746688. Throughput: 0: 10754.5. Samples: 5734316. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-17 20:03:45,942][795499] Avg episode reward: [(0, '266.857')]
+[2023-07-17 20:03:48,213][795833] Updated weights for policy 0, policy_version 11280 (0.0005)
+[2023-07-17 20:03:50,941][795499] Fps is (10 sec: 11059.1, 60 sec: 10786.1, 300 sec: 10594.1). Total num frames: 5804032. Throughput: 0: 10818.9. Samples: 5799868. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2023-07-17 20:03:50,942][795499] Avg episode reward: [(0, '297.640')]
+[2023-07-17 20:03:50,946][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000011336_5804032.pth...
+[2023-07-17 20:03:50,949][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000010696_5476352.pth
+[2023-07-17 20:03:50,950][795789] Saving new best policy, reward=297.640!
+[2023-07-17 20:03:51,883][795833] Updated weights for policy 0, policy_version 11360 (0.0005)
+[2023-07-17 20:03:55,646][795833] Updated weights for policy 0, policy_version 11440 (0.0005)
+[2023-07-17 20:03:55,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10786.1, 300 sec: 10594.1). Total num frames: 5857280. Throughput: 0: 10805.8. Samples: 5832712. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2023-07-17 20:03:55,942][795499] Avg episode reward: [(0, '286.716')]
+[2023-07-17 20:03:59,606][795833] Updated weights for policy 0, policy_version 11520 (0.0005)
+[2023-07-17 20:04:00,941][795499] Fps is (10 sec: 10649.7, 60 sec: 10786.1, 300 sec: 10607.9). Total num frames: 5910528. Throughput: 0: 10830.7. Samples: 5895924. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-17 20:04:00,942][795499] Avg episode reward: [(0, '269.153')]
+[2023-07-17 20:04:03,458][795833] Updated weights for policy 0, policy_version 11600 (0.0005)
+[2023-07-17 20:04:05,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10786.1, 300 sec: 10635.7). Total num frames: 5963776. Throughput: 0: 10852.2. Samples: 5959172. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-17 20:04:05,942][795499] Avg episode reward: [(0, '289.101')]
+[2023-07-17 20:04:05,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000011648_5963776.pth...
+[2023-07-17 20:04:05,947][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000011008_5636096.pth
+[2023-07-17 20:04:07,417][795833] Updated weights for policy 0, policy_version 11680 (0.0005)
+[2023-07-17 20:04:10,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10786.1, 300 sec: 10649.6). Total num frames: 6017024. Throughput: 0: 10810.2. Samples: 5990440. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-17 20:04:10,942][795499] Avg episode reward: [(0, '284.278')]
+[2023-07-17 20:04:11,228][795833] Updated weights for policy 0, policy_version 11760 (0.0005)
+[2023-07-17 20:04:15,017][795833] Updated weights for policy 0, policy_version 11840 (0.0005)
+[2023-07-17 20:04:15,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10786.1, 300 sec: 10663.5). Total num frames: 6070272. Throughput: 0: 10774.7. Samples: 6055420. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-17 20:04:15,942][795499] Avg episode reward: [(0, '276.630')]
+[2023-07-17 20:04:18,856][795833] Updated weights for policy 0, policy_version 11920 (0.0005)
+[2023-07-17 20:04:20,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10786.1, 300 sec: 10677.4). Total num frames: 6123520. Throughput: 0: 10803.5. Samples: 6119332. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-17 20:04:20,942][795499] Avg episode reward: [(0, '281.773')]
+[2023-07-17 20:04:20,946][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000011960_6123520.pth...
+[2023-07-17 20:04:20,949][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000011336_5804032.pth
+[2023-07-17 20:04:22,662][795833] Updated weights for policy 0, policy_version 12000 (0.0005)
+[2023-07-17 20:04:25,941][795499] Fps is (10 sec: 10649.7, 60 sec: 10786.1, 300 sec: 10677.4). Total num frames: 6176768. Throughput: 0: 10790.8. Samples: 6152200. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:04:25,942][795499] Avg episode reward: [(0, '292.451')]
+[2023-07-17 20:04:26,366][795833] Updated weights for policy 0, policy_version 12080 (0.0004)
+[2023-07-17 20:04:30,068][795833] Updated weights for policy 0, policy_version 12160 (0.0004)
+[2023-07-17 20:04:30,941][795499] Fps is (10 sec: 11059.3, 60 sec: 10854.4, 300 sec: 10705.1). Total num frames: 6234112. Throughput: 0: 10768.9. Samples: 6218916. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:04:30,942][795499] Avg episode reward: [(0, '291.839')]
+[2023-07-17 20:04:33,930][795833] Updated weights for policy 0, policy_version 12240 (0.0005)
+[2023-07-17 20:04:35,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10854.4, 300 sec: 10705.1). Total num frames: 6287360. Throughput: 0: 10709.3. Samples: 6281788. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:04:35,942][795499] Avg episode reward: [(0, '292.459')]
+[2023-07-17 20:04:35,944][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000012280_6287360.pth...
+[2023-07-17 20:04:35,947][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000011648_5963776.pth
+[2023-07-17 20:04:37,804][795833] Updated weights for policy 0, policy_version 12320 (0.0005)
+[2023-07-17 20:04:40,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10786.1, 300 sec: 10705.1). Total num frames: 6340608. Throughput: 0: 10690.9. Samples: 6313804. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:04:40,942][795499] Avg episode reward: [(0, '307.013')]
+[2023-07-17 20:04:40,943][795789] Saving new best policy, reward=307.013!
+[2023-07-17 20:04:41,630][795833] Updated weights for policy 0, policy_version 12400 (0.0005)
+[2023-07-17 20:04:45,407][795833] Updated weights for policy 0, policy_version 12480 (0.0005)
+[2023-07-17 20:04:45,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10786.1, 300 sec: 10705.1). Total num frames: 6393856. Throughput: 0: 10738.7. Samples: 6379164. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:04:45,942][795499] Avg episode reward: [(0, '304.874')]
+[2023-07-17 20:04:49,104][795833] Updated weights for policy 0, policy_version 12560 (0.0004)
+[2023-07-17 20:04:50,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10717.9, 300 sec: 10705.1). Total num frames: 6447104. Throughput: 0: 10786.1. Samples: 6444548. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:04:50,942][795499] Avg episode reward: [(0, '301.835')]
+[2023-07-17 20:04:50,960][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000012600_6451200.pth...
+[2023-07-17 20:04:50,961][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000011960_6123520.pth
+[2023-07-17 20:04:52,919][795833] Updated weights for policy 0, policy_version 12640 (0.0005)
+[2023-07-17 20:04:55,941][795499] Fps is (10 sec: 11059.1, 60 sec: 10786.1, 300 sec: 10719.0). Total num frames: 6504448. Throughput: 0: 10798.4. Samples: 6476368. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:04:55,942][795499] Avg episode reward: [(0, '300.887')]
+[2023-07-17 20:04:56,658][795833] Updated weights for policy 0, policy_version 12720 (0.0005)
+[2023-07-17 20:05:00,374][795833] Updated weights for policy 0, policy_version 12800 (0.0005)
+[2023-07-17 20:05:00,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10786.1, 300 sec: 10719.0). Total num frames: 6557696. Throughput: 0: 10835.0. Samples: 6542996. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:05:00,942][795499] Avg episode reward: [(0, '305.623')]
+[2023-07-17 20:05:04,108][795833] Updated weights for policy 0, policy_version 12880 (0.0004)
+[2023-07-17 20:05:05,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10786.1, 300 sec: 10732.9). Total num frames: 6610944. Throughput: 0: 10863.5. Samples: 6608188. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-17 20:05:05,942][795499] Avg episode reward: [(0, '295.859')]
+[2023-07-17 20:05:05,946][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000012912_6610944.pth...
+[2023-07-17 20:05:05,949][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000012280_6287360.pth
+[2023-07-17 20:05:08,057][795833] Updated weights for policy 0, policy_version 12960 (0.0005)
+[2023-07-17 20:05:10,941][795499] Fps is (10 sec: 10649.7, 60 sec: 10786.1, 300 sec: 10732.9). Total num frames: 6664192. Throughput: 0: 10830.1. Samples: 6639552. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-17 20:05:10,942][795499] Avg episode reward: [(0, '294.873')]
+[2023-07-17 20:05:11,978][795833] Updated weights for policy 0, policy_version 13040 (0.0005)
+[2023-07-17 20:05:15,835][795833] Updated weights for policy 0, policy_version 13120 (0.0005)
+[2023-07-17 20:05:15,941][795499] Fps is (10 sec: 10649.7, 60 sec: 10786.1, 300 sec: 10732.9). Total num frames: 6717440. Throughput: 0: 10724.4. Samples: 6701516. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:05:15,942][795499] Avg episode reward: [(0, '290.804')]
+[2023-07-17 20:05:19,637][795833] Updated weights for policy 0, policy_version 13200 (0.0005)
+[2023-07-17 20:05:20,941][795499] Fps is (10 sec: 10649.4, 60 sec: 10786.1, 300 sec: 10746.8). Total num frames: 6770688. Throughput: 0: 10774.8. Samples: 6766656. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:05:20,942][795499] Avg episode reward: [(0, '292.367')]
+[2023-07-17 20:05:20,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000013224_6770688.pth...
+[2023-07-17 20:05:20,947][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000012600_6451200.pth
+[2023-07-17 20:05:23,409][795833] Updated weights for policy 0, policy_version 13280 (0.0004)
+[2023-07-17 20:05:25,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10786.1, 300 sec: 10746.8). Total num frames: 6823936. Throughput: 0: 10786.5. Samples: 6799196. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-17 20:05:25,942][795499] Avg episode reward: [(0, '282.315')]
+[2023-07-17 20:05:27,256][795833] Updated weights for policy 0, policy_version 13360 (0.0004)
+[2023-07-17 20:05:30,941][795499] Fps is (10 sec: 10649.7, 60 sec: 10717.9, 300 sec: 10746.8). Total num frames: 6877184. Throughput: 0: 10757.9. Samples: 6863268. Policy #0 lag: (min: 4.0, avg: 4.0, max: 4.0)
+[2023-07-17 20:05:30,942][795499] Avg episode reward: [(0, '292.993')]
+[2023-07-17 20:05:31,048][795833] Updated weights for policy 0, policy_version 13440 (0.0005)
+[2023-07-17 20:05:35,029][795833] Updated weights for policy 0, policy_version 13520 (0.0005)
+[2023-07-17 20:05:35,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10717.9, 300 sec: 10760.7). Total num frames: 6930432. Throughput: 0: 10706.7. Samples: 6926348. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-17 20:05:35,942][795499] Avg episode reward: [(0, '294.075')]
+[2023-07-17 20:05:35,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000013536_6930432.pth...
+[2023-07-17 20:05:35,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000012912_6610944.pth
+[2023-07-17 20:05:38,969][795833] Updated weights for policy 0, policy_version 13600 (0.0006)
+[2023-07-17 20:05:40,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10649.6, 300 sec: 10746.8). Total num frames: 6979584. Throughput: 0: 10692.5. Samples: 6957532. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-17 20:05:40,942][795499] Avg episode reward: [(0, '301.828')]
+[2023-07-17 20:05:42,922][795833] Updated weights for policy 0, policy_version 13680 (0.0005)
+[2023-07-17 20:05:45,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10649.6, 300 sec: 10732.9). Total num frames: 7032832. Throughput: 0: 10595.1. Samples: 7019776. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:05:45,942][795499] Avg episode reward: [(0, '274.035')]
+[2023-07-17 20:05:46,792][795833] Updated weights for policy 0, policy_version 13760 (0.0006)
+[2023-07-17 20:05:50,658][795833] Updated weights for policy 0, policy_version 13840 (0.0006)
+[2023-07-17 20:05:50,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10649.6, 300 sec: 10732.9). Total num frames: 7086080. Throughput: 0: 10552.0. Samples: 7083028. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:05:50,942][795499] Avg episode reward: [(0, '284.737')]
+[2023-07-17 20:05:50,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000013840_7086080.pth...
+[2023-07-17 20:05:50,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000013224_6770688.pth
+[2023-07-17 20:05:54,621][795833] Updated weights for policy 0, policy_version 13920 (0.0005)
+[2023-07-17 20:05:55,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10581.3, 300 sec: 10732.9). Total num frames: 7139328. Throughput: 0: 10561.4. Samples: 7114816. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:05:55,942][795499] Avg episode reward: [(0, '288.999')]
+[2023-07-17 20:05:58,270][795833] Updated weights for policy 0, policy_version 14000 (0.0004)
+[2023-07-17 20:06:00,941][795499] Fps is (10 sec: 11059.3, 60 sec: 10649.6, 300 sec: 10746.8). Total num frames: 7196672. Throughput: 0: 10639.6. Samples: 7180296. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:06:00,942][795499] Avg episode reward: [(0, '288.616')]
+[2023-07-17 20:06:02,014][795833] Updated weights for policy 0, policy_version 14080 (0.0005)
+[2023-07-17 20:06:05,708][795833] Updated weights for policy 0, policy_version 14160 (0.0004)
+[2023-07-17 20:06:05,941][795499] Fps is (10 sec: 11059.1, 60 sec: 10649.6, 300 sec: 10760.7). Total num frames: 7249920. Throughput: 0: 10658.7. Samples: 7246296. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:06:05,942][795499] Avg episode reward: [(0, '284.711')]
+[2023-07-17 20:06:05,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000014160_7249920.pth...
+[2023-07-17 20:06:05,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000013536_6930432.pth
+[2023-07-17 20:06:09,443][795833] Updated weights for policy 0, policy_version 14240 (0.0005)
+[2023-07-17 20:06:10,941][795499] Fps is (10 sec: 10649.7, 60 sec: 10649.6, 300 sec: 10746.8). Total num frames: 7303168. Throughput: 0: 10677.1. Samples: 7279664. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:06:10,942][795499] Avg episode reward: [(0, '287.103')]
+[2023-07-17 20:06:13,405][795833] Updated weights for policy 0, policy_version 14320 (0.0005)
+[2023-07-17 20:06:15,941][795499] Fps is (10 sec: 10649.7, 60 sec: 10649.6, 300 sec: 10746.8). Total num frames: 7356416. Throughput: 0: 10657.0. Samples: 7342832. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:06:15,942][795499] Avg episode reward: [(0, '291.600')]
+[2023-07-17 20:06:17,194][795833] Updated weights for policy 0, policy_version 14400 (0.0005)
+[2023-07-17 20:06:20,849][795833] Updated weights for policy 0, policy_version 14480 (0.0004)
+[2023-07-17 20:06:20,941][795499] Fps is (10 sec: 11059.1, 60 sec: 10717.9, 300 sec: 10760.7). Total num frames: 7413760. Throughput: 0: 10712.0. Samples: 7408388. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:06:20,942][795499] Avg episode reward: [(0, '297.119')]
+[2023-07-17 20:06:20,946][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000014480_7413760.pth...
+[2023-07-17 20:06:20,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000013840_7086080.pth
+[2023-07-17 20:06:24,619][795833] Updated weights for policy 0, policy_version 14560 (0.0005)
+[2023-07-17 20:06:25,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10717.9, 300 sec: 10760.7). Total num frames: 7467008. Throughput: 0: 10761.9. Samples: 7441816. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-17 20:06:25,942][795499] Avg episode reward: [(0, '290.191')]
+[2023-07-17 20:06:28,264][795833] Updated weights for policy 0, policy_version 14640 (0.0004)
+[2023-07-17 20:06:30,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10786.1, 300 sec: 10774.6). Total num frames: 7524352. Throughput: 0: 10850.3. Samples: 7508040. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-17 20:06:30,942][795499] Avg episode reward: [(0, '304.629')]
+[2023-07-17 20:06:31,923][795833] Updated weights for policy 0, policy_version 14720 (0.0004)
+[2023-07-17 20:06:35,662][795833] Updated weights for policy 0, policy_version 14800 (0.0005)
+[2023-07-17 20:06:35,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10786.1, 300 sec: 10774.6). Total num frames: 7577600. Throughput: 0: 10920.4. Samples: 7574444. Policy #0 lag: (min: 1.0, avg: 1.0, max: 1.0)
+[2023-07-17 20:06:35,942][795499] Avg episode reward: [(0, '295.780')]
+[2023-07-17 20:06:35,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000014800_7577600.pth...
+[2023-07-17 20:06:35,947][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000014160_7249920.pth
+[2023-07-17 20:06:39,448][795833] Updated weights for policy 0, policy_version 14880 (0.0004)
+[2023-07-17 20:06:40,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10922.7, 300 sec: 10774.6). Total num frames: 7634944. Throughput: 0: 10922.8. Samples: 7606344. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:06:40,942][795499] Avg episode reward: [(0, '302.667')]
+[2023-07-17 20:06:43,200][795833] Updated weights for policy 0, policy_version 14960 (0.0005)
+[2023-07-17 20:06:45,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10922.7, 300 sec: 10774.6). Total num frames: 7688192. Throughput: 0: 10926.9. Samples: 7672008. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:06:45,942][795499] Avg episode reward: [(0, '284.030')]
+[2023-07-17 20:06:47,118][795833] Updated weights for policy 0, policy_version 15040 (0.0005)
+[2023-07-17 20:06:50,941][795499] Fps is (10 sec: 10240.1, 60 sec: 10854.4, 300 sec: 10760.7). Total num frames: 7737344. Throughput: 0: 10879.2. Samples: 7735860. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-17 20:06:50,942][795499] Avg episode reward: [(0, '298.960')]
+[2023-07-17 20:06:50,944][795833] Updated weights for policy 0, policy_version 15120 (0.0005)
+[2023-07-17 20:06:50,944][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000015120_7741440.pth...
+[2023-07-17 20:06:50,947][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000014480_7413760.pth
+[2023-07-17 20:06:54,880][795833] Updated weights for policy 0, policy_version 15200 (0.0005)
+[2023-07-17 20:06:55,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10854.4, 300 sec: 10760.7). Total num frames: 7790592. Throughput: 0: 10832.0. Samples: 7767104. Policy #0 lag: (min: 5.0, avg: 5.0, max: 5.0)
+[2023-07-17 20:06:55,942][795499] Avg episode reward: [(0, '303.224')]
+[2023-07-17 20:06:58,806][795833] Updated weights for policy 0, policy_version 15280 (0.0005)
+[2023-07-17 20:07:00,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10786.1, 300 sec: 10760.7). Total num frames: 7843840. Throughput: 0: 10813.5. Samples: 7829440. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:07:00,942][795499] Avg episode reward: [(0, '295.786')]
+[2023-07-17 20:07:02,643][795833] Updated weights for policy 0, policy_version 15360 (0.0005)
+[2023-07-17 20:07:05,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10786.1, 300 sec: 10746.8). Total num frames: 7897088. Throughput: 0: 10769.4. Samples: 7893012. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:07:05,942][795499] Avg episode reward: [(0, '294.265')]
+[2023-07-17 20:07:05,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000015424_7897088.pth...
+[2023-07-17 20:07:05,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000014800_7577600.pth
+[2023-07-17 20:07:06,583][795833] Updated weights for policy 0, policy_version 15440 (0.0005)
+[2023-07-17 20:07:10,457][795833] Updated weights for policy 0, policy_version 15520 (0.0005)
+[2023-07-17 20:07:10,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10786.1, 300 sec: 10732.9). Total num frames: 7950336. Throughput: 0: 10735.8. Samples: 7924928. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:07:10,942][795499] Avg episode reward: [(0, '307.727')]
+[2023-07-17 20:07:10,942][795789] Saving new best policy, reward=307.727!
+[2023-07-17 20:07:14,292][795833] Updated weights for policy 0, policy_version 15600 (0.0005)
+[2023-07-17 20:07:15,941][795499] Fps is (10 sec: 10649.7, 60 sec: 10786.1, 300 sec: 10746.8). Total num frames: 8003584. Throughput: 0: 10668.0. Samples: 7988100. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:07:15,942][795499] Avg episode reward: [(0, '295.447')]
+[2023-07-17 20:07:18,155][795833] Updated weights for policy 0, policy_version 15680 (0.0005)
+[2023-07-17 20:07:20,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10717.9, 300 sec: 10746.8). Total num frames: 8056832. Throughput: 0: 10616.0. Samples: 8052164. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:07:20,942][795499] Avg episode reward: [(0, '304.236')]
+[2023-07-17 20:07:20,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000015736_8056832.pth...
+[2023-07-17 20:07:20,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000015120_7741440.pth
+[2023-07-17 20:07:22,025][795833] Updated weights for policy 0, policy_version 15760 (0.0005)
+[2023-07-17 20:07:25,646][795833] Updated weights for policy 0, policy_version 15840 (0.0004)
+[2023-07-17 20:07:25,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10717.9, 300 sec: 10760.7). Total num frames: 8110080. Throughput: 0: 10634.7. Samples: 8084904. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:07:25,942][795499] Avg episode reward: [(0, '301.041')]
+[2023-07-17 20:07:29,468][795833] Updated weights for policy 0, policy_version 15920 (0.0005)
+[2023-07-17 20:07:30,941][795499] Fps is (10 sec: 11059.1, 60 sec: 10717.9, 300 sec: 10774.6). Total num frames: 8167424. Throughput: 0: 10633.0. Samples: 8150492. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:07:30,942][795499] Avg episode reward: [(0, '292.304')]
+[2023-07-17 20:07:33,101][795833] Updated weights for policy 0, policy_version 16000 (0.0004)
+[2023-07-17 20:07:35,941][795499] Fps is (10 sec: 11059.1, 60 sec: 10717.9, 300 sec: 10760.7). Total num frames: 8220672. Throughput: 0: 10713.8. Samples: 8217980. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2023-07-17 20:07:35,942][795499] Avg episode reward: [(0, '303.048')]
+[2023-07-17 20:07:35,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000016056_8220672.pth...
+[2023-07-17 20:07:35,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000015424_7897088.pth
+[2023-07-17 20:07:36,743][795833] Updated weights for policy 0, policy_version 16080 (0.0004)
+[2023-07-17 20:07:40,420][795833] Updated weights for policy 0, policy_version 16160 (0.0004)
+[2023-07-17 20:07:40,941][795499] Fps is (10 sec: 11059.3, 60 sec: 10717.9, 300 sec: 10774.6). Total num frames: 8278016. Throughput: 0: 10768.2. Samples: 8251672. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2023-07-17 20:07:40,942][795499] Avg episode reward: [(0, '297.504')]
+[2023-07-17 20:07:44,328][795833] Updated weights for policy 0, policy_version 16240 (0.0005)
+[2023-07-17 20:07:45,941][795499] Fps is (10 sec: 11059.3, 60 sec: 10717.9, 300 sec: 10760.7). Total num frames: 8331264. Throughput: 0: 10798.3. Samples: 8315364. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:07:45,942][795499] Avg episode reward: [(0, '307.141')]
+[2023-07-17 20:07:48,296][795833] Updated weights for policy 0, policy_version 16320 (0.0006)
+[2023-07-17 20:07:50,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10786.1, 300 sec: 10760.7). Total num frames: 8384512. Throughput: 0: 10794.5. Samples: 8378764. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:07:50,942][795499] Avg episode reward: [(0, '311.219')]
+[2023-07-17 20:07:50,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000016376_8384512.pth...
+[2023-07-17 20:07:50,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000015736_8056832.pth
+[2023-07-17 20:07:50,948][795789] Saving new best policy, reward=311.219!
+[2023-07-17 20:07:51,971][795833] Updated weights for policy 0, policy_version 16400 (0.0004)
+[2023-07-17 20:07:55,628][795833] Updated weights for policy 0, policy_version 16480 (0.0004)
+[2023-07-17 20:07:55,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10786.1, 300 sec: 10760.7). Total num frames: 8437760. Throughput: 0: 10840.2. Samples: 8412736. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:07:55,942][795499] Avg episode reward: [(0, '309.636')]
+[2023-07-17 20:07:59,389][795833] Updated weights for policy 0, policy_version 16560 (0.0005)
+[2023-07-17 20:08:00,941][795499] Fps is (10 sec: 11059.3, 60 sec: 10854.4, 300 sec: 10774.6). Total num frames: 8495104. Throughput: 0: 10904.1. Samples: 8478784. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:08:00,942][795499] Avg episode reward: [(0, '306.748')]
+[2023-07-17 20:08:03,304][795833] Updated weights for policy 0, policy_version 16640 (0.0005)
+[2023-07-17 20:08:05,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10786.1, 300 sec: 10760.7). Total num frames: 8544256. Throughput: 0: 10863.2. Samples: 8541008. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:08:05,942][795499] Avg episode reward: [(0, '312.194')]
+[2023-07-17 20:08:05,949][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000016688_8544256.pth...
+[2023-07-17 20:08:05,952][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000016056_8220672.pth
+[2023-07-17 20:08:05,953][795789] Saving new best policy, reward=312.194!
+[2023-07-17 20:08:07,217][795833] Updated weights for policy 0, policy_version 16720 (0.0005)
+[2023-07-17 20:08:10,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10786.1, 300 sec: 10760.7). Total num frames: 8597504. Throughput: 0: 10845.3. Samples: 8572944. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:08:10,942][795499] Avg episode reward: [(0, '302.833')]
+[2023-07-17 20:08:11,146][795833] Updated weights for policy 0, policy_version 16800 (0.0005)
+[2023-07-17 20:08:15,092][795833] Updated weights for policy 0, policy_version 16880 (0.0005)
+[2023-07-17 20:08:15,941][795499] Fps is (10 sec: 10649.7, 60 sec: 10786.1, 300 sec: 10760.7). Total num frames: 8650752. Throughput: 0: 10764.5. Samples: 8634892. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:08:15,942][795499] Avg episode reward: [(0, '314.764')]
+[2023-07-17 20:08:15,943][795789] Saving new best policy, reward=314.764!
+[2023-07-17 20:08:18,954][795833] Updated weights for policy 0, policy_version 16960 (0.0005)
+[2023-07-17 20:08:20,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10786.1, 300 sec: 10760.7). Total num frames: 8704000. Throughput: 0: 10690.2. Samples: 8699040. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:08:20,942][795499] Avg episode reward: [(0, '314.794')]
+[2023-07-17 20:08:20,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000017000_8704000.pth...
+[2023-07-17 20:08:20,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000016376_8384512.pth
+[2023-07-17 20:08:20,949][795789] Saving new best policy, reward=314.794!
+[2023-07-17 20:08:22,809][795833] Updated weights for policy 0, policy_version 17040 (0.0005)
+[2023-07-17 20:08:25,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10717.9, 300 sec: 10746.8). Total num frames: 8753152. Throughput: 0: 10643.9. Samples: 8730648. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:08:25,942][795499] Avg episode reward: [(0, '311.062')]
+[2023-07-17 20:08:26,733][795833] Updated weights for policy 0, policy_version 17120 (0.0005)
+[2023-07-17 20:08:30,482][795833] Updated weights for policy 0, policy_version 17200 (0.0005)
+[2023-07-17 20:08:30,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10717.9, 300 sec: 10760.7). Total num frames: 8810496. Throughput: 0: 10640.4. Samples: 8794184. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:08:30,942][795499] Avg episode reward: [(0, '319.182')]
+[2023-07-17 20:08:30,942][795789] Saving new best policy, reward=319.182!
+[2023-07-17 20:08:34,199][795833] Updated weights for policy 0, policy_version 17280 (0.0004)
+[2023-07-17 20:08:35,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10717.9, 300 sec: 10746.8). Total num frames: 8863744. Throughput: 0: 10698.3. Samples: 8860188. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:08:35,942][795499] Avg episode reward: [(0, '315.018')]
+[2023-07-17 20:08:35,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000017312_8863744.pth...
+[2023-07-17 20:08:35,947][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000016688_8544256.pth
+[2023-07-17 20:08:37,942][795833] Updated weights for policy 0, policy_version 17360 (0.0004)
+[2023-07-17 20:08:40,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10717.9, 300 sec: 10760.7). Total num frames: 8921088. Throughput: 0: 10671.1. Samples: 8892936. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:08:40,942][795499] Avg episode reward: [(0, '313.287')]
+[2023-07-17 20:08:41,562][795833] Updated weights for policy 0, policy_version 17440 (0.0004)
+[2023-07-17 20:08:45,327][795833] Updated weights for policy 0, policy_version 17520 (0.0005)
+[2023-07-17 20:08:45,941][795499] Fps is (10 sec: 11059.2, 60 sec: 10717.9, 300 sec: 10746.8). Total num frames: 8974336. Throughput: 0: 10694.1. Samples: 8960020. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:08:45,942][795499] Avg episode reward: [(0, '300.370')]
+[2023-07-17 20:08:49,152][795833] Updated weights for policy 0, policy_version 17600 (0.0006)
+[2023-07-17 20:08:50,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10717.9, 300 sec: 10746.8). Total num frames: 9027584. Throughput: 0: 10748.8. Samples: 9024704. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:08:50,942][795499] Avg episode reward: [(0, '319.485')]
+[2023-07-17 20:08:50,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000017632_9027584.pth...
+[2023-07-17 20:08:50,947][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000017000_8704000.pth
+[2023-07-17 20:08:50,948][795789] Saving new best policy, reward=319.485!
+[2023-07-17 20:08:52,874][795833] Updated weights for policy 0, policy_version 17680 (0.0005)
+[2023-07-17 20:08:55,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10717.9, 300 sec: 10746.8). Total num frames: 9080832. Throughput: 0: 10777.9. Samples: 9057948. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:08:55,942][795499] Avg episode reward: [(0, '330.640')]
+[2023-07-17 20:08:55,957][795789] Saving new best policy, reward=330.640!
+[2023-07-17 20:08:56,769][795833] Updated weights for policy 0, policy_version 17760 (0.0005)
+[2023-07-17 20:09:00,489][795833] Updated weights for policy 0, policy_version 17840 (0.0004)
+[2023-07-17 20:09:00,941][795499] Fps is (10 sec: 11059.3, 60 sec: 10717.9, 300 sec: 10760.7). Total num frames: 9138176. Throughput: 0: 10817.9. Samples: 9121700. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-17 20:09:00,942][795499] Avg episode reward: [(0, '342.049')]
+[2023-07-17 20:09:00,942][795789] Saving new best policy, reward=342.049!
+[2023-07-17 20:09:04,255][795833] Updated weights for policy 0, policy_version 17920 (0.0004)
+[2023-07-17 20:09:05,941][795499] Fps is (10 sec: 11059.1, 60 sec: 10786.1, 300 sec: 10760.7). Total num frames: 9191424. Throughput: 0: 10845.9. Samples: 9187108. Policy #0 lag: (min: 2.0, avg: 2.0, max: 2.0)
+[2023-07-17 20:09:05,942][795499] Avg episode reward: [(0, '362.693')]
+[2023-07-17 20:09:05,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000017952_9191424.pth...
+[2023-07-17 20:09:05,949][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000017312_8863744.pth
+[2023-07-17 20:09:05,949][795789] Saving new best policy, reward=362.693!
+[2023-07-17 20:09:08,198][795833] Updated weights for policy 0, policy_version 18000 (0.0005)
+[2023-07-17 20:09:10,941][795499] Fps is (10 sec: 10649.7, 60 sec: 10786.1, 300 sec: 10760.7). Total num frames: 9244672. Throughput: 0: 10834.5. Samples: 9218200. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:09:10,942][795499] Avg episode reward: [(0, '379.495')]
+[2023-07-17 20:09:10,942][795789] Saving new best policy, reward=379.495!
+[2023-07-17 20:09:12,121][795833] Updated weights for policy 0, policy_version 18080 (0.0005)
+[2023-07-17 20:09:15,941][795499] Fps is (10 sec: 10240.1, 60 sec: 10717.9, 300 sec: 10746.8). Total num frames: 9293824. Throughput: 0: 10810.3. Samples: 9280648. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:09:15,942][795499] Avg episode reward: [(0, '404.364')]
+[2023-07-17 20:09:15,942][795789] Saving new best policy, reward=404.364!
+[2023-07-17 20:09:16,077][795833] Updated weights for policy 0, policy_version 18160 (0.0005)
+[2023-07-17 20:09:19,974][795833] Updated weights for policy 0, policy_version 18240 (0.0005)
+[2023-07-17 20:09:20,941][795499] Fps is (10 sec: 10239.9, 60 sec: 10717.9, 300 sec: 10746.8). Total num frames: 9347072. Throughput: 0: 10730.0. Samples: 9343040. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:09:20,942][795499] Avg episode reward: [(0, '403.367')]
+[2023-07-17 20:09:20,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000018256_9347072.pth...
+[2023-07-17 20:09:20,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000017632_9027584.pth
+[2023-07-17 20:09:23,956][795833] Updated weights for policy 0, policy_version 18320 (0.0005)
+[2023-07-17 20:09:25,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10717.9, 300 sec: 10719.0). Total num frames: 9396224. Throughput: 0: 10690.8. Samples: 9374024. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:09:25,942][795499] Avg episode reward: [(0, '403.058')]
+[2023-07-17 20:09:27,939][795833] Updated weights for policy 0, policy_version 18400 (0.0005)
+[2023-07-17 20:09:30,941][795499] Fps is (10 sec: 10240.1, 60 sec: 10649.6, 300 sec: 10719.0). Total num frames: 9449472. Throughput: 0: 10586.2. Samples: 9436400. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:09:30,942][795499] Avg episode reward: [(0, '414.458')]
+[2023-07-17 20:09:30,942][795789] Saving new best policy, reward=414.458!
+[2023-07-17 20:09:31,822][795833] Updated weights for policy 0, policy_version 18480 (0.0004)
+[2023-07-17 20:09:35,800][795833] Updated weights for policy 0, policy_version 18560 (0.0005)
+[2023-07-17 20:09:35,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10649.6, 300 sec: 10719.0). Total num frames: 9502720. Throughput: 0: 10533.0. Samples: 9498688. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:09:35,942][795499] Avg episode reward: [(0, '413.616')]
+[2023-07-17 20:09:35,944][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000018560_9502720.pth...
+[2023-07-17 20:09:35,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000017952_9191424.pth
+[2023-07-17 20:09:39,776][795833] Updated weights for policy 0, policy_version 18640 (0.0005)
+[2023-07-17 20:09:40,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10513.1, 300 sec: 10705.1). Total num frames: 9551872. Throughput: 0: 10489.3. Samples: 9529968. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:09:40,942][795499] Avg episode reward: [(0, '410.887')]
+[2023-07-17 20:09:43,766][795833] Updated weights for policy 0, policy_version 18720 (0.0005)
+[2023-07-17 20:09:45,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10513.1, 300 sec: 10705.1). Total num frames: 9605120. Throughput: 0: 10436.8. Samples: 9591356. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:09:45,942][795499] Avg episode reward: [(0, '411.486')]
+[2023-07-17 20:09:47,730][795833] Updated weights for policy 0, policy_version 18800 (0.0005)
+[2023-07-17 20:09:50,941][795499] Fps is (10 sec: 10649.5, 60 sec: 10513.1, 300 sec: 10691.3). Total num frames: 9658368. Throughput: 0: 10344.4. Samples: 9652604. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:09:50,942][795499] Avg episode reward: [(0, '426.382')]
+[2023-07-17 20:09:50,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000018864_9658368.pth...
+[2023-07-17 20:09:50,949][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000018256_9347072.pth
+[2023-07-17 20:09:50,949][795789] Saving new best policy, reward=426.382!
+[2023-07-17 20:09:51,714][795833] Updated weights for policy 0, policy_version 18880 (0.0005)
+[2023-07-17 20:09:55,639][795833] Updated weights for policy 0, policy_version 18960 (0.0005)
+[2023-07-17 20:09:55,941][795499] Fps is (10 sec: 10239.9, 60 sec: 10444.8, 300 sec: 10677.4). Total num frames: 9707520. Throughput: 0: 10349.7. Samples: 9683936. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:09:55,942][795499] Avg episode reward: [(0, '403.793')]
+[2023-07-17 20:09:59,705][795833] Updated weights for policy 0, policy_version 19040 (0.0006)
+[2023-07-17 20:10:00,941][795499] Fps is (10 sec: 10240.1, 60 sec: 10376.5, 300 sec: 10677.4). Total num frames: 9760768. Throughput: 0: 10325.6. Samples: 9745300. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:10:00,942][795499] Avg episode reward: [(0, '413.945')]
+[2023-07-17 20:10:03,680][795833] Updated weights for policy 0, policy_version 19120 (0.0005)
+[2023-07-17 20:10:05,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10308.3, 300 sec: 10663.5). Total num frames: 9809920. Throughput: 0: 10292.1. Samples: 9806184. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-17 20:10:05,942][795499] Avg episode reward: [(0, '391.469')]
+[2023-07-17 20:10:05,945][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000019160_9809920.pth...
+[2023-07-17 20:10:05,948][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000018560_9502720.pth
+[2023-07-17 20:10:07,639][795833] Updated weights for policy 0, policy_version 19200 (0.0005)
+[2023-07-17 20:10:10,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10308.3, 300 sec: 10663.5). Total num frames: 9863168. Throughput: 0: 10325.3. Samples: 9838664. Policy #0 lag: (min: 6.0, avg: 6.0, max: 6.0)
+[2023-07-17 20:10:10,942][795499] Avg episode reward: [(0, '428.167')]
+[2023-07-17 20:10:10,943][795789] Saving new best policy, reward=428.167!
+[2023-07-17 20:10:11,482][795833] Updated weights for policy 0, policy_version 19280 (0.0004)
+[2023-07-17 20:10:15,486][795833] Updated weights for policy 0, policy_version 19360 (0.0005)
+[2023-07-17 20:10:15,941][795499] Fps is (10 sec: 10649.6, 60 sec: 10376.5, 300 sec: 10663.5). Total num frames: 9916416. Throughput: 0: 10320.4. Samples: 9900820. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:10:15,942][795499] Avg episode reward: [(0, '422.473')]
+[2023-07-17 20:10:19,420][795833] Updated weights for policy 0, policy_version 19440 (0.0005)
+[2023-07-17 20:10:20,941][795499] Fps is (10 sec: 10240.0, 60 sec: 10308.3, 300 sec: 10649.6). Total num frames: 9965568. Throughput: 0: 10335.5. Samples: 9963784. Policy #0 lag: (min: 7.0, avg: 7.0, max: 7.0)
+[2023-07-17 20:10:20,942][795499] Avg episode reward: [(0, '424.743')]
+[2023-07-17 20:10:20,988][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000019472_9969664.pth...
+[2023-07-17 20:10:20,991][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000018864_9658368.pth
+[2023-07-17 20:10:23,279][795833] Updated weights for policy 0, policy_version 19520 (0.0005)
+[2023-07-17 20:10:24,443][795789] Early stopping after 2 epochs (8 sgd steps), loss delta 0.0000000
+[2023-07-17 20:10:24,445][795838] Stopping RolloutWorker_w4...
+[2023-07-17 20:10:24,445][795835] Stopping RolloutWorker_w1...
+[2023-07-17 20:10:24,445][795839] Stopping RolloutWorker_w5...
+[2023-07-17 20:10:24,444][795789] Stopping Batcher_0...
+[2023-07-17 20:10:24,445][795871] Stopping RolloutWorker_w6...
+[2023-07-17 20:10:24,445][795837] Stopping RolloutWorker_w3...
+[2023-07-17 20:10:24,445][795836] Stopping RolloutWorker_w2...
+[2023-07-17 20:10:24,445][795934] Stopping RolloutWorker_w7...
+[2023-07-17 20:10:24,445][795834] Stopping RolloutWorker_w0...
+[2023-07-17 20:10:24,445][795838] Loop rollout_proc4_evt_loop terminating...
+[2023-07-17 20:10:24,445][795835] Loop rollout_proc1_evt_loop terminating...
+[2023-07-17 20:10:24,445][795839] Loop rollout_proc5_evt_loop terminating...
+[2023-07-17 20:10:24,445][795836] Loop rollout_proc2_evt_loop terminating...
+[2023-07-17 20:10:24,445][795837] Loop rollout_proc3_evt_loop terminating...
+[2023-07-17 20:10:24,445][795499] Component Batcher_0 stopped!
+[2023-07-17 20:10:24,445][795934] Loop rollout_proc7_evt_loop terminating...
+[2023-07-17 20:10:24,445][795871] Loop rollout_proc6_evt_loop terminating...
+[2023-07-17 20:10:24,445][795834] Loop rollout_proc0_evt_loop terminating...
+[2023-07-17 20:10:24,445][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000019544_10006528.pth...
+[2023-07-17 20:10:24,446][795499] Component RolloutWorker_w4 stopped!
+[2023-07-17 20:10:24,446][795499] Component RolloutWorker_w1 stopped!
+[2023-07-17 20:10:24,446][795499] Component RolloutWorker_w5 stopped!
+[2023-07-17 20:10:24,447][795499] Component RolloutWorker_w6 stopped!
+[2023-07-17 20:10:24,447][795499] Component RolloutWorker_w3 stopped!
+[2023-07-17 20:10:24,448][795499] Component RolloutWorker_w2 stopped!
+[2023-07-17 20:10:24,445][795789] Loop batcher_evt_loop terminating...
+[2023-07-17 20:10:24,448][795499] Component RolloutWorker_w7 stopped!
+[2023-07-17 20:10:24,448][795789] Removing /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000019160_9809920.pth
+[2023-07-17 20:10:24,448][795499] Component RolloutWorker_w0 stopped!
+[2023-07-17 20:10:24,449][795789] Saving /home/qgallouedec/data/gia/data/envs/metaworld/train_dir/bin-picking-v2/checkpoint_p0/checkpoint_000019544_10006528.pth...
+[2023-07-17 20:10:24,451][795789] Stopping LearnerWorker_p0...
+[2023-07-17 20:10:24,451][795789] Loop learner_proc0_evt_loop terminating...
+[2023-07-17 20:10:24,451][795499] Component LearnerWorker_p0 stopped!
+[2023-07-17 20:10:24,480][795833] Weights refcount: 2 0
+[2023-07-17 20:10:24,481][795833] Stopping InferenceWorker_p0-w0...
+[2023-07-17 20:10:24,481][795833] Loop inference_proc0-0_evt_loop terminating...
+[2023-07-17 20:10:24,481][795499] Component InferenceWorker_p0-w0 stopped!
+[2023-07-17 20:10:24,482][795499] Waiting for process learner_proc0 to stop...
+[2023-07-17 20:10:25,090][795499] Waiting for process inference_proc0-0 to join...
+[2023-07-17 20:10:25,091][795499] Waiting for process rollout_proc0 to join...
+[2023-07-17 20:10:25,091][795499] Waiting for process rollout_proc1 to join...
+[2023-07-17 20:10:25,091][795499] Waiting for process rollout_proc2 to join...
+[2023-07-17 20:10:25,091][795499] Waiting for process rollout_proc3 to join...
+[2023-07-17 20:10:25,092][795499] Waiting for process rollout_proc4 to join...
+[2023-07-17 20:10:25,092][795499] Waiting for process rollout_proc5 to join...
+[2023-07-17 20:10:25,092][795499] Waiting for process rollout_proc6 to join...
+[2023-07-17 20:10:25,092][795499] Waiting for process rollout_proc7 to join...
+[2023-07-17 20:10:25,092][795499] Batcher 0 profile tree view:
+batching: 1.7723, releasing_batches: 1.6270
+[2023-07-17 20:10:25,093][795499] InferenceWorker_p0-w0 profile tree view:
+wait_policy: 0.0001
+  wait_policy_total: 340.0834
+update_model: 12.2806
+  weight_update: 0.0005
+one_step: 0.0016
+  handle_policy_step: 541.3075
+    deserialize: 22.6036, stack: 5.7153, obs_to_device_normalize: 98.6437, forward: 268.4045, send_messages: 37.8933
+    prepare_outputs: 61.6243
+      to_cpu: 9.3803
+[2023-07-17 20:10:25,093][795499] Learner 0 profile tree view:
+misc: 0.0097, prepare_batch: 9.2026
+train: 95.4519
+  epoch_init: 0.0367, minibatch_init: 1.3094, losses_postprocess: 1.3042, kl_divergence: 0.4423, after_optimizer: 0.6275
+  calculate_losses: 40.5747
+    losses_init: 0.0363, forward_head: 15.8722, bptt_initial: 0.1428, bptt: 0.1353, tail: 11.4858, advantages_returns: 0.8818, losses: 10.6028
+  update: 49.5541
+    clip: 5.9257
+[2023-07-17 20:10:25,093][795499] RolloutWorker_w0 profile tree view:
+wait_for_trajectories: 0.3569, enqueue_policy_requests: 13.5925, env_step: 678.2489, overhead: 19.8378, complete_rollouts: 0.3382
+save_policy_outputs: 40.0391
+  split_output_tensors: 13.5845
+[2023-07-17 20:10:25,093][795499] RolloutWorker_w7 profile tree view:
+wait_for_trajectories: 0.3423, enqueue_policy_requests: 13.5445, env_step: 678.4993, overhead: 19.7994, complete_rollouts: 0.3437
+save_policy_outputs: 39.8762
+  split_output_tensors: 13.4092
+[2023-07-17 20:10:25,093][795499] Loop Runner_EvtLoop terminating...
+[2023-07-17 20:10:25,094][795499] Runner profile tree view:
+main_loop: 961.7633
+[2023-07-17 20:10:25,094][795499] Collected {0: 10006528}, FPS: 10404.4