2025-04-02 13:51:58 | [rl2_trainer] Logging to /home/h2khalil/MetaRL-Assistive-Robotics/data/local/experiment/rl2_trainer_2
2025-04-02 13:51:59 | [rl2_trainer] Obtaining samples...
2025-04-02 13:54:00 | [rl2_trainer] epoch #0 | Optimizing policy...
2025-04-02 13:54:02 | [rl2_trainer] epoch #0 | Fitting baseline...
2025-04-02 13:54:02 | [rl2_trainer] epoch #0 | Computing loss before
2025-04-02 13:54:02 | [rl2_trainer] epoch #0 | Computing KL before
2025-04-02 13:54:03 | [rl2_trainer] epoch #0 | Optimizing
2025-04-02 13:54:37 | [rl2_trainer] epoch #0 | Computing KL after
2025-04-02 13:54:38 | [rl2_trainer] epoch #0 | Computing loss after
2025-04-02 13:54:39 | [rl2_trainer] epoch #0 | Saving snapshot...
2025-04-02 13:54:39 | [rl2_trainer] epoch #0 | Saved
2025-04-02 13:54:39 | [rl2_trainer] epoch #0 | Time 159.83 s
2025-04-02 13:54:39 | [rl2_trainer] epoch #0 | EpochTime 159.83 s
----------------------------------------  -------------
Average/AverageDiscountedReturn             -50.4922
Average/AverageReturn                       -87.0395
Average/Iteration                             0
Average/MaxReturn                           -31.5352
Average/MinReturn                          -134.654
Average/NumEpisodes                         100
Average/StdReturn                            24.7474
Average/TerminationRate                       0
LinearFeatureBaseline/ExplainedVariance       0.829598
TotalEnvSteps                             10000
__unnamed_task__/AverageDiscountedReturn    -50.4922
__unnamed_task__/AverageReturn              -87.0395
__unnamed_task__/Iteration                    0
__unnamed_task__/MaxReturn                  -31.5352
__unnamed_task__/MinReturn                 -134.654
__unnamed_task__/NumEpisodes                100
__unnamed_task__/StdReturn                   24.7474
__unnamed_task__/TerminationRate              0
policy/Entropy                                9.89092
policy/KL                                     0.0178519
policy/KLBefore                               0
policy/LossAfter                             -0.0991226
policy/LossBefore                            -0.0231915
policy/dLoss                                  0.0759312
----------------------------------------  -------------
2025-04-02 13:56:50 | [rl2_trainer] epoch #1 | Optimizing policy...
2025-04-02 13:56:50 | [rl2_trainer] epoch #1 | Fitting baseline...
2025-04-02 13:56:50 | [rl2_trainer] epoch #1 | Computing loss before
2025-04-02 13:56:51 | [rl2_trainer] epoch #1 | Computing KL before
2025-04-02 13:56:51 | [rl2_trainer] epoch #1 | Optimizing
2025-04-02 13:57:25 | [rl2_trainer] epoch #1 | Computing KL after
2025-04-02 13:57:26 | [rl2_trainer] epoch #1 | Computing loss after
2025-04-02 13:57:27 | [rl2_trainer] epoch #1 | Saving snapshot...
2025-04-02 13:57:27 | [rl2_trainer] epoch #1 | Saved
2025-04-02 13:57:27 | [rl2_trainer] epoch #1 | Time 327.83 s
2025-04-02 13:57:27 | [rl2_trainer] epoch #1 | EpochTime 168.00 s
----------------------------------------  --------------
Average/AverageDiscountedReturn             -41.989
Average/AverageReturn                       -70.7663
Average/Iteration                             1
Average/MaxReturn                           -30.9451
Average/MinReturn                          -129.346
Average/NumEpisodes                         100
Average/StdReturn                            23.5706
Average/TerminationRate                       0
LinearFeatureBaseline/ExplainedVariance       0.847657
TotalEnvSteps                             20000
__unnamed_task__/AverageDiscountedReturn    -41.989
__unnamed_task__/AverageReturn              -70.7663
__unnamed_task__/Iteration                    1
__unnamed_task__/MaxReturn                  -30.9451
__unnamed_task__/MinReturn                 -129.346
__unnamed_task__/NumEpisodes                100
__unnamed_task__/StdReturn                   23.5706
__unnamed_task__/TerminationRate              0
policy/Entropy                                9.85506
policy/KL                                     0.0148879
policy/KLBefore                               0
policy/LossAfter                             -0.0632297
policy/LossBefore                            -0.00391337
policy/dLoss                                  0.0593163
----------------------------------------  --------------
2025-04-02 13:59:26 | [rl2_trainer] epoch #2 | Optimizing policy...
2025-04-02 13:59:26 | [rl2_trainer] epoch #2 | Fitting baseline...
2025-04-02 13:59:26 | [rl2_trainer] epoch #2 | Computing loss before
2025-04-02 13:59:27 | [rl2_trainer] epoch #2 | Computing KL before
2025-04-02 13:59:27 | [rl2_trainer] epoch #2 | Optimizing
2025-04-02 14:00:01 | [rl2_trainer] epoch #2 | Computing KL after
2025-04-02 14:00:01 | [rl2_trainer] epoch #2 | Computing loss after
2025-04-02 14:00:02 | [rl2_trainer] epoch #2 | Saving snapshot...
2025-04-02 14:00:02 | [rl2_trainer] epoch #2 | Saved
2025-04-02 14:00:02 | [rl2_trainer] epoch #2 | Time 483.12 s
2025-04-02 14:00:02 | [rl2_trainer] epoch #2 | EpochTime 155.28 s
----------------------------------------  --------------
Average/AverageDiscountedReturn             -37.9035
Average/AverageReturn                       -64.5875
Average/Iteration                             2
Average/MaxReturn                           -32.703
Average/MinReturn                          -109.19
Average/NumEpisodes                         100
Average/StdReturn                            16.7161
Average/TerminationRate                       0
LinearFeatureBaseline/ExplainedVariance       0.705294
TotalEnvSteps                             30000
__unnamed_task__/AverageDiscountedReturn    -37.9035
__unnamed_task__/AverageReturn              -64.5875
__unnamed_task__/Iteration                    2
__unnamed_task__/MaxReturn                  -32.703
__unnamed_task__/MinReturn                 -109.19
__unnamed_task__/NumEpisodes                100
__unnamed_task__/StdReturn                   16.7161
__unnamed_task__/TerminationRate              0
policy/Entropy                                9.8307
policy/KL                                     0.00763483
policy/KLBefore                               0
policy/LossAfter                             -0.0469767
policy/LossBefore                             0.00697974
policy/dLoss                                  0.0539565
----------------------------------------  --------------
2025-04-02 14:02:04 | [rl2_trainer] epoch #3 | Optimizing policy...
2025-04-02 14:02:04 | [rl2_trainer] epoch #3 | Fitting baseline...
2025-04-02 14:02:04 | [rl2_trainer] epoch #3 | Computing loss before
2025-04-02 14:02:05 | [rl2_trainer] epoch #3 | Computing KL before
2025-04-02 14:02:06 | [rl2_trainer] epoch #3 | Optimizing
2025-04-02 14:02:40 | [rl2_trainer] epoch #3 | Computing KL after
2025-04-02 14:02:40 | [rl2_trainer] epoch #3 | Computing loss after
2025-04-02 14:02:41 | [rl2_trainer] epoch #3 | Saving snapshot...
2025-04-02 14:02:41 | [rl2_trainer] epoch #3 | Saved
2025-04-02 14:02:41 | [rl2_trainer] epoch #3 | Time 642.13 s
2025-04-02 14:02:41 | [rl2_trainer] epoch #3 | EpochTime 159.01 s
----------------------------------------  -------------
Average/AverageDiscountedReturn             -36.1391
Average/AverageReturn                       -61.1312
Average/Iteration                             3
Average/MaxReturn                           -34.4226
Average/MinReturn                          -106.36
Average/NumEpisodes                         100
Average/StdReturn                            15.653
Average/TerminationRate                       0
LinearFeatureBaseline/ExplainedVariance       0.720215
TotalEnvSteps                             40000
__unnamed_task__/AverageDiscountedReturn    -36.1391
__unnamed_task__/AverageReturn              -61.1312
__unnamed_task__/Iteration                    3
__unnamed_task__/MaxReturn                  -34.4226
__unnamed_task__/MinReturn                 -106.36
__unnamed_task__/NumEpisodes                100
__unnamed_task__/StdReturn                   15.653
__unnamed_task__/TerminationRate              0
policy/Entropy                                9.80713
policy/KL                                     0.0120939
policy/KLBefore                               0
policy/LossAfter                             -0.0623463
policy/LossBefore                            -0.0218599
policy/dLoss                                  0.0404864
----------------------------------------  -------------
2025-04-02 14:05:41 | [rl2_trainer] epoch #4 | Optimizing policy...
2025-04-02 14:05:42 | [rl2_trainer] epoch #4 | Fitting baseline...
2025-04-02 14:05:42 | [rl2_trainer] epoch #4 | Computing loss before
2025-04-02 14:05:42 | [rl2_trainer] epoch #4 | Computing KL before
2025-04-02 14:05:43 | [rl2_trainer] epoch #4 | Optimizing
2025-04-02 14:06:17 | [rl2_trainer] epoch #4 | Computing KL after
2025-04-02 14:06:18 | [rl2_trainer] epoch #4 | Computing loss after
2025-04-02 14:06:18 | [rl2_trainer] epoch #4 | Saving snapshot...
2025-04-02 14:06:18 | [rl2_trainer] epoch #4 | Saved
2025-04-02 14:06:18 | [rl2_trainer] epoch #4 | Time 859.51 s
2025-04-02 14:06:18 | [rl2_trainer] epoch #4 | EpochTime 217.37 s
----------------------------------------  --------------
Average/AverageDiscountedReturn             -28.0708
Average/AverageReturn                       -47.4134
Average/Iteration                             4
Average/MaxReturn                            -1.74535
Average/MinReturn                           -77.453
Average/NumEpisodes                         100
Average/StdReturn                            13.1107
Average/TerminationRate                       0
LinearFeatureBaseline/ExplainedVariance       0.568133
TotalEnvSteps                             50000
__unnamed_task__/AverageDiscountedReturn    -28.0708
__unnamed_task__/AverageReturn              -47.4134
__unnamed_task__/Iteration                    4
__unnamed_task__/MaxReturn                   -1.74535
__unnamed_task__/MinReturn                  -77.453
__unnamed_task__/NumEpisodes                100
__unnamed_task__/StdReturn                   13.1107
__unnamed_task__/TerminationRate              0
policy/Entropy                                9.79053
policy/KL                                     0.00634195
policy/KLBefore                               0
policy/LossAfter                             -0.0215956
policy/LossBefore                             0.0167064
policy/dLoss                                  0.038302
----------------------------------------  --------------
2025-04-02 14:08:20 | [rl2_trainer] epoch #5 | Optimizing policy...
2025-04-02 14:08:21 | [rl2_trainer] epoch #5 | Fitting baseline...
2025-04-02 14:08:21 | [rl2_trainer] epoch #5 | Computing loss before
2025-04-02 14:08:21 | [rl2_trainer] epoch #5 | Computing KL before
2025-04-02 14:08:22 | [rl2_trainer] epoch #5 | Optimizing
2025-04-02 14:08:56 | [rl2_trainer] epoch #5 | Computing KL after
2025-04-02 14:08:57 | [rl2_trainer] epoch #5 | Computing loss after
2025-04-02 14:08:58 | [rl2_trainer] epoch #5 | Saving snapshot...
2025-04-02 14:08:58 | [rl2_trainer] epoch #5 | Saved
2025-04-02 14:08:58 | [rl2_trainer] epoch #5 | Time 1018.83 s
2025-04-02 14:08:58 | [rl2_trainer] epoch #5 | EpochTime 159.32 s
----------------------------------------  --------------
Average/AverageDiscountedReturn             -32.2691
Average/AverageReturn                       -53.6916
Average/Iteration                             5
Average/MaxReturn                           -28.7725
Average/MinReturn                           -93.8008
Average/NumEpisodes                         100
Average/StdReturn                            12.8352
Average/TerminationRate                       0
LinearFeatureBaseline/ExplainedVariance       0.72636
TotalEnvSteps                             60000
__unnamed_task__/AverageDiscountedReturn    -32.2691
__unnamed_task__/AverageReturn              -53.6916
__unnamed_task__/Iteration                    5
__unnamed_task__/MaxReturn                  -28.7725
__unnamed_task__/MinReturn                  -93.8008
__unnamed_task__/NumEpisodes                100
__unnamed_task__/StdReturn                   12.8352
__unnamed_task__/TerminationRate              0
policy/Entropy                                9.75693
policy/KL                                     0.00758754
policy/KLBefore                               0
policy/LossAfter                             -0.0498452
policy/LossBefore                            -0.0199467
policy/dLoss                                  0.0298984
----------------------------------------  --------------
2025-04-02 14:11:11 | [rl2_trainer] epoch #6 | Optimizing policy...
2025-04-02 14:11:11 | [rl2_trainer] epoch #6 | Fitting baseline...
2025-04-02 14:11:11 | [rl2_trainer] epoch #6 | Computing loss before
2025-04-02 14:11:12 | [rl2_trainer] epoch #6 | Computing KL before
2025-04-02 14:11:12 | [rl2_trainer] epoch #6 | Optimizing
2025-04-02 14:11:45 | [rl2_trainer] epoch #6 | Computing KL after
2025-04-02 14:11:45 | [rl2_trainer] epoch #6 | Computing loss after
2025-04-02 14:11:46 | [rl2_trainer] epoch #6 | Saving snapshot...
2025-04-02 14:11:46 | [rl2_trainer] epoch #6 | Saved
2025-04-02 14:11:46 | [rl2_trainer] epoch #6 | Time 1187.17 s
2025-04-02 14:11:46 | [rl2_trainer] epoch #6 | EpochTime 168.34 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn             -32.4455
Average/AverageReturn                       -53.5345
Average/Iteration                             6
Average/MaxReturn                           -37.1624
Average/MinReturn                           -78.423
Average/NumEpisodes                         100
Average/StdReturn                             9.3759
Average/TerminationRate                       0
LinearFeatureBaseline/ExplainedVariance       0.499799
TotalEnvSteps                             70000
__unnamed_task__/AverageDiscountedReturn    -32.4455
__unnamed_task__/AverageReturn              -53.5345
__unnamed_task__/Iteration                    6
__unnamed_task__/MaxReturn                  -37.1624
__unnamed_task__/MinReturn                  -78.423
__unnamed_task__/NumEpisodes                100
__unnamed_task__/StdReturn                    9.3759
__unnamed_task__/TerminationRate              0
policy/Entropy                                9.74106
policy/KL                                     0.00662705
policy/KLBefore                               0
policy/LossAfter                             -0.0220091
policy/LossBefore                            -0.000335352
policy/dLoss                                  0.0216738
----------------------------------------  ---------------
2025-04-02 14:14:01 | [rl2_trainer] epoch #7 | Optimizing policy...
2025-04-02 14:14:01 | [rl2_trainer] epoch #7 | Fitting baseline...
2025-04-02 14:14:01 | [rl2_trainer] epoch #7 | Computing loss before
2025-04-02 14:14:02 | [rl2_trainer] epoch #7 | Computing KL before
2025-04-02 14:14:03 | [rl2_trainer] epoch #7 | Optimizing
2025-04-02 14:14:37 | [rl2_trainer] epoch #7 | Computing KL after
2025-04-02 14:14:37 | [rl2_trainer] epoch #7 | Computing loss after
2025-04-02 14:14:38 | [rl2_trainer] epoch #7 | Saving snapshot...
2025-04-02 14:14:38 | [rl2_trainer] epoch #7 | Saved
2025-04-02 14:14:38 | [rl2_trainer] epoch #7 | Time 1359.31 s
2025-04-02 14:14:38 | [rl2_trainer] epoch #7 | EpochTime 172.14 s
----------------------------------------  --------------
Average/AverageDiscountedReturn             -31.5487
Average/AverageReturn                       -51.8696
Average/Iteration                             7
Average/MaxReturn                           -27.6599
Average/MinReturn                           -73.682
Average/NumEpisodes                         100
Average/StdReturn                            10.4826
Average/TerminationRate                       0
LinearFeatureBaseline/ExplainedVariance       0.650773
TotalEnvSteps                             80000
__unnamed_task__/AverageDiscountedReturn    -31.5487
__unnamed_task__/AverageReturn              -51.8696
__unnamed_task__/Iteration                    7
__unnamed_task__/MaxReturn                  -27.6599
__unnamed_task__/MinReturn                  -73.682
__unnamed_task__/NumEpisodes                100
__unnamed_task__/StdReturn                   10.4826
__unnamed_task__/TerminationRate              0
policy/Entropy                                9.73287
policy/KL                                     0.0105379
policy/KLBefore                               0
policy/LossAfter                             -0.014197
policy/LossBefore                             0.00960274
policy/dLoss                                  0.0237997
----------------------------------------  --------------
2025-04-02 14:16:39 | [rl2_trainer] epoch #8 | Optimizing policy...
2025-04-02 14:16:40 | [rl2_trainer] epoch #8 | Fitting baseline...
2025-04-02 14:16:40 | [rl2_trainer] epoch #8 | Computing loss before
2025-04-02 14:16:40 | [rl2_trainer] epoch #8 | Computing KL before
2025-04-02 14:16:41 | [rl2_trainer] epoch #8 | Optimizing
2025-04-02 14:17:14 | [rl2_trainer] epoch #8 | Computing KL after
2025-04-02 14:17:15 | [rl2_trainer] epoch #8 | Computing loss after
2025-04-02 14:17:16 | [rl2_trainer] epoch #8 | Saving snapshot...
2025-04-02 14:17:16 | [rl2_trainer] epoch #8 | Saved
2025-04-02 14:17:16 | [rl2_trainer] epoch #8 | Time 1517.05 s
2025-04-02 14:17:16 | [rl2_trainer] epoch #8 | EpochTime 157.73 s
----------------------------------------  --------------
Average/AverageDiscountedReturn             -30.5161
Average/AverageReturn                       -50.4696
Average/Iteration                             8
Average/MaxReturn                           -24.1737
Average/MinReturn                           -80.4745
Average/NumEpisodes                         100
Average/StdReturn                            11.9948
Average/TerminationRate                       0
LinearFeatureBaseline/ExplainedVariance       0.789331
TotalEnvSteps                             90000
__unnamed_task__/AverageDiscountedReturn    -30.5161
__unnamed_task__/AverageReturn              -50.4696
__unnamed_task__/Iteration                    8
__unnamed_task__/MaxReturn                  -24.1737
__unnamed_task__/MinReturn                  -80.4745
__unnamed_task__/NumEpisodes                100
__unnamed_task__/StdReturn                   11.9948
__unnamed_task__/TerminationRate              0
policy/Entropy                                9.70647
policy/KL                                     0.00668891
policy/KLBefore                               0
policy/LossAfter                             -0.0383259
policy/LossBefore                            -0.0170772
policy/dLoss                                  0.0212488
----------------------------------------  --------------
2025-04-02 14:19:58 | [rl2_trainer] epoch #9 | Optimizing policy...
2025-04-02 14:19:59 | [rl2_trainer] epoch #9 | Fitting baseline...
2025-04-02 14:19:59 | [rl2_trainer] epoch #9 | Computing loss before
2025-04-02 14:19:59 | [rl2_trainer] epoch #9 | Computing KL before
2025-04-02 14:20:00 | [rl2_trainer] epoch #9 | Optimizing
2025-04-02 14:20:35 | [rl2_trainer] epoch #9 | Computing KL after
2025-04-02 14:20:36 | [rl2_trainer] epoch #9 | Computing loss after
2025-04-02 14:20:37 | [rl2_trainer] epoch #9 | Saving snapshot...
2025-04-02 14:20:37 | [rl2_trainer] epoch #9 | Saved
2025-04-02 14:20:37 | [rl2_trainer] epoch #9 | Time 1717.56 s
2025-04-02 14:20:37 | [rl2_trainer] epoch #9 | EpochTime 200.51 s
----------------------------------------  ----------------
Average/AverageDiscountedReturn              -24.0229
Average/AverageReturn                        -39.7223
Average/Iteration                              9
Average/MaxReturn                            -12.1275
Average/MinReturn                            -67.0958
Average/NumEpisodes                          100
Average/StdReturn                             10.1543
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.592973
TotalEnvSteps                             100000
__unnamed_task__/AverageDiscountedReturn     -24.0229
__unnamed_task__/AverageReturn               -39.7223
__unnamed_task__/Iteration                     9
__unnamed_task__/MaxReturn                   -12.1275
__unnamed_task__/MinReturn                   -67.0958
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    10.1543
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.68526
policy/KL                                      0.00863496
policy/KLBefore                                0
policy/LossAfter                              -0.0294216
policy/LossBefore                             -0.000832434
policy/dLoss                                   0.0285892
----------------------------------------  ----------------
2025-04-02 14:23:54 | [rl2_trainer] epoch #10 | Optimizing policy...
2025-04-02 14:23:54 | [rl2_trainer] epoch #10 | Fitting baseline...
2025-04-02 14:23:54 | [rl2_trainer] epoch #10 | Computing loss before
2025-04-02 14:23:55 | [rl2_trainer] epoch #10 | Computing KL before
2025-04-02 14:23:55 | [rl2_trainer] epoch #10 | Optimizing
2025-04-02 14:24:30 | [rl2_trainer] epoch #10 | Computing KL after
2025-04-02 14:24:30 | [rl2_trainer] epoch #10 | Computing loss after
2025-04-02 14:24:31 | [rl2_trainer] epoch #10 | Saving snapshot...
2025-04-02 14:24:31 | [rl2_trainer] epoch #10 | Saved
2025-04-02 14:24:31 | [rl2_trainer] epoch #10 | Time 1952.29 s
2025-04-02 14:24:31 | [rl2_trainer] epoch #10 | EpochTime 234.73 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -23.4664
Average/AverageReturn                        -38.4336
Average/Iteration                             10
Average/MaxReturn                             32.1652
Average/MinReturn                            -70.043
Average/NumEpisodes                          100
Average/StdReturn                             12.7167
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.654998
TotalEnvSteps                             110000
__unnamed_task__/AverageDiscountedReturn     -23.4664
__unnamed_task__/AverageReturn               -38.4336
__unnamed_task__/Iteration                    10
__unnamed_task__/MaxReturn                    32.1652
__unnamed_task__/MinReturn                   -70.043
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    12.7167
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.68268
policy/KL                                      0.00921529
policy/KLBefore                                0
policy/LossAfter                              -0.03696
policy/LossBefore                              0.00500403
policy/dLoss                                   0.041964
----------------------------------------  ---------------
2025-04-02 14:28:01 | [rl2_trainer] epoch #11 | Optimizing policy...
2025-04-02 14:28:02 | [rl2_trainer] epoch #11 | Fitting baseline...
2025-04-02 14:28:02 | [rl2_trainer] epoch #11 | Computing loss before
2025-04-02 14:28:02 | [rl2_trainer] epoch #11 | Computing KL before
2025-04-02 14:28:03 | [rl2_trainer] epoch #11 | Optimizing
2025-04-02 14:28:37 | [rl2_trainer] epoch #11 | Computing KL after
2025-04-02 14:28:37 | [rl2_trainer] epoch #11 | Computing loss after
2025-04-02 14:28:38 | [rl2_trainer] epoch #11 | Saving snapshot...
2025-04-02 14:28:38 | [rl2_trainer] epoch #11 | Saved
2025-04-02 14:28:38 | [rl2_trainer] epoch #11 | Time 2199.16 s
2025-04-02 14:28:38 | [rl2_trainer] epoch #11 | EpochTime 246.86 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -23.4849
Average/AverageReturn                        -38.5172
Average/Iteration                             11
Average/MaxReturn                            -11.837
Average/MinReturn                            -72.3027
Average/NumEpisodes                          100
Average/StdReturn                              9.7652
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.40994
TotalEnvSteps                             120000
__unnamed_task__/AverageDiscountedReturn     -23.4849
__unnamed_task__/AverageReturn               -38.5172
__unnamed_task__/Iteration                    11
__unnamed_task__/MaxReturn                   -11.837
__unnamed_task__/MinReturn                   -72.3027
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     9.7652
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.66913
policy/KL                                      0.00767209
policy/KLBefore                                0
policy/LossAfter                              -0.0457221
policy/LossBefore                             -0.00322298
policy/dLoss                                   0.0424991
----------------------------------------  ---------------
2025-04-02 14:30:39 | [rl2_trainer] epoch #12 | Optimizing policy...
2025-04-02 14:30:39 | [rl2_trainer] epoch #12 | Fitting baseline...
2025-04-02 14:30:39 | [rl2_trainer] epoch #12 | Computing loss before
2025-04-02 14:30:39 | [rl2_trainer] epoch #12 | Computing KL before
2025-04-02 14:30:40 | [rl2_trainer] epoch #12 | Optimizing
2025-04-02 14:31:14 | [rl2_trainer] epoch #12 | Computing KL after
2025-04-02 14:31:14 | [rl2_trainer] epoch #12 | Computing loss after
2025-04-02 14:31:15 | [rl2_trainer] epoch #12 | Saving snapshot...
2025-04-02 14:31:15 | [rl2_trainer] epoch #12 | Saved
2025-04-02 14:31:15 | [rl2_trainer] epoch #12 | Time 2356.07 s
2025-04-02 14:31:15 | [rl2_trainer] epoch #12 | EpochTime 156.90 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -28.6855
Average/AverageReturn                        -47.1301
Average/Iteration                             12
Average/MaxReturn                            -24.606
Average/MinReturn                           -127.517
Average/NumEpisodes                          100
Average/StdReturn                             12.5527
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.711794
TotalEnvSteps                             130000
__unnamed_task__/AverageDiscountedReturn     -28.6855
__unnamed_task__/AverageReturn               -47.1301
__unnamed_task__/Iteration                    12
__unnamed_task__/MaxReturn                   -24.606
__unnamed_task__/MinReturn                  -127.517
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    12.5527
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.65095
policy/KL                                      0.00610315
policy/KLBefore                                0
policy/LossAfter                              -0.0212851
policy/LossBefore                              0.00146461
policy/dLoss                                   0.0227497
----------------------------------------  ---------------
2025-04-02 14:33:27 | [rl2_trainer] epoch #13 | Optimizing policy...
2025-04-02 14:33:27 | [rl2_trainer] epoch #13 | Fitting baseline...
2025-04-02 14:33:27 | [rl2_trainer] epoch #13 | Computing loss before
2025-04-02 14:33:27 | [rl2_trainer] epoch #13 | Computing KL before
2025-04-02 14:33:28 | [rl2_trainer] epoch #13 | Optimizing
2025-04-02 14:34:00 | [rl2_trainer] epoch #13 | Computing KL after
2025-04-02 14:34:00 | [rl2_trainer] epoch #13 | Computing loss after
2025-04-02 14:34:01 | [rl2_trainer] epoch #13 | Saving snapshot...
2025-04-02 14:34:01 | [rl2_trainer] epoch #13 | Saved
2025-04-02 14:34:01 | [rl2_trainer] epoch #13 | Time 2522.13 s
2025-04-02 14:34:01 | [rl2_trainer] epoch #13 | EpochTime 166.06 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -29.8447
Average/AverageReturn                        -49.3096
Average/Iteration                             13
Average/MaxReturn                            -27.7207
Average/MinReturn                            -99.8893
Average/NumEpisodes                          100
Average/StdReturn                             10.0485
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.605208
TotalEnvSteps                             140000
__unnamed_task__/AverageDiscountedReturn     -29.8447
__unnamed_task__/AverageReturn               -49.3096
__unnamed_task__/Iteration                    13
__unnamed_task__/MaxReturn                   -27.7207
__unnamed_task__/MinReturn                   -99.8893
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    10.0485
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.63362
policy/KL                                      0.00817799
policy/KLBefore                                0
policy/LossAfter                              -0.0313205
policy/LossBefore                             -0.0061756
policy/dLoss                                   0.0251449
----------------------------------------  ---------------
2025-04-02 14:37:35 | [rl2_trainer] epoch #14 | Optimizing policy...
2025-04-02 14:37:35 | [rl2_trainer] epoch #14 | Fitting baseline...
2025-04-02 14:37:35 | [rl2_trainer] epoch #14 | Computing loss before
2025-04-02 14:37:36 | [rl2_trainer] epoch #14 | Computing KL before
2025-04-02 14:37:36 | [rl2_trainer] epoch #14 | Optimizing
2025-04-02 14:38:10 | [rl2_trainer] epoch #14 | Computing KL after
2025-04-02 14:38:11 | [rl2_trainer] epoch #14 | Computing loss after
2025-04-02 14:38:11 | [rl2_trainer] epoch #14 | Saving snapshot...
2025-04-02 14:38:11 | [rl2_trainer] epoch #14 | Saved
2025-04-02 14:38:11 | [rl2_trainer] epoch #14 | Time 2772.46 s
2025-04-02 14:38:11 | [rl2_trainer] epoch #14 | EpochTime 250.33 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -22.9231
Average/AverageReturn                        -37.7077
Average/Iteration                             14
Average/MaxReturn                             12.9196
Average/MinReturn                            -66.3906
Average/NumEpisodes                          100
Average/StdReturn                             11.6212
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.58578
TotalEnvSteps                             150000
__unnamed_task__/AverageDiscountedReturn     -22.9231
__unnamed_task__/AverageReturn               -37.7077
__unnamed_task__/Iteration                    14
__unnamed_task__/MaxReturn                    12.9196
__unnamed_task__/MinReturn                   -66.3906
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    11.6212
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.60035
policy/KL                                      0.00671369
policy/KLBefore                                0
policy/LossAfter                              -0.0454045
policy/LossBefore                             -0.00958425
policy/dLoss                                   0.0358203
----------------------------------------  ---------------
2025-04-02 14:39:40 | [rl2_trainer] epoch #15 | Optimizing policy...
2025-04-02 14:39:40 | [rl2_trainer] epoch #15 | Fitting baseline...
2025-04-02 14:39:40 | [rl2_trainer] epoch #15 | Computing loss before
2025-04-02 14:39:41 | [rl2_trainer] epoch #15 | Computing KL before
2025-04-02 14:39:41 | [rl2_trainer] epoch #15 | Optimizing
2025-04-02 14:40:15 | [rl2_trainer] epoch #15 | Computing KL after
2025-04-02 14:40:16 | [rl2_trainer] epoch #15 | Computing loss after
2025-04-02 14:40:17 | [rl2_trainer] epoch #15 | Saving snapshot...
2025-04-02 14:40:17 | [rl2_trainer] epoch #15 | Saved
2025-04-02 14:40:17 | [rl2_trainer] epoch #15 | Time 2897.83 s
2025-04-02 14:40:17 | [rl2_trainer] epoch #15 | EpochTime 125.36 s
----------------------------------------  --------------
Average/AverageDiscountedReturn              -28.3022
Average/AverageReturn                        -46.8349
Average/Iteration                             15
Average/MaxReturn                            -30.626
Average/MinReturn                            -75.819
Average/NumEpisodes                          100
Average/StdReturn                              9.19841
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.486094
TotalEnvSteps                             160000
__unnamed_task__/AverageDiscountedReturn     -28.3022
__unnamed_task__/AverageReturn               -46.8349
__unnamed_task__/Iteration                    15
__unnamed_task__/MaxReturn                   -30.626
__unnamed_task__/MinReturn                   -75.819
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     9.19841
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.58096
policy/KL                                      0.0060012
policy/KLBefore                                0
policy/LossAfter                              -0.0295743
policy/LossBefore                             -0.0111703
policy/dLoss                                   0.0184039
----------------------------------------  --------------
2025-04-02 14:42:20 | [rl2_trainer] epoch #16 | Optimizing policy...
2025-04-02 14:42:20 | [rl2_trainer] epoch #16 | Fitting baseline...
2025-04-02 14:42:20 | [rl2_trainer] epoch #16 | Computing loss before
2025-04-02 14:42:21 | [rl2_trainer] epoch #16 | Computing KL before
2025-04-02 14:42:22 | [rl2_trainer] epoch #16 | Optimizing
2025-04-02 14:42:55 | [rl2_trainer] epoch #16 | Computing KL after
2025-04-02 14:42:56 | [rl2_trainer] epoch #16 | Computing loss after
2025-04-02 14:42:57 | [rl2_trainer] epoch #16 | Saving snapshot...
2025-04-02 14:42:57 | [rl2_trainer] epoch #16 | Saved
2025-04-02 14:42:57 | [rl2_trainer] epoch #16 | Time 3057.78 s
2025-04-02 14:42:57 | [rl2_trainer] epoch #16 | EpochTime 159.95 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -26.413
Average/AverageReturn                        -43.2171
Average/Iteration                             16
Average/MaxReturn                            -24.838
Average/MinReturn                            -83.2904
Average/NumEpisodes                          100
Average/StdReturn                             10.2076
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.561835
TotalEnvSteps                             170000
__unnamed_task__/AverageDiscountedReturn     -26.413
__unnamed_task__/AverageReturn               -43.2171
__unnamed_task__/Iteration                    16
__unnamed_task__/MaxReturn                   -24.838
__unnamed_task__/MinReturn                   -83.2904
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    10.2076
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.5583
policy/KL                                      0.00776547
policy/KLBefore                                0
policy/LossAfter                              -0.0222984
policy/LossBefore                             -0.00148195
policy/dLoss                                   0.0208164
----------------------------------------  ---------------
2025-04-02 14:45:01 | [rl2_trainer] epoch #17 | Optimizing policy...
2025-04-02 14:45:01 | [rl2_trainer] epoch #17 | Fitting baseline...
2025-04-02 14:45:01 | [rl2_trainer] epoch #17 | Computing loss before
2025-04-02 14:45:02 | [rl2_trainer] epoch #17 | Computing KL before
2025-04-02 14:45:02 | [rl2_trainer] epoch #17 | Optimizing
2025-04-02 14:45:37 | [rl2_trainer] epoch #17 | Computing KL after
2025-04-02 14:45:37 | [rl2_trainer] epoch #17 | Computing loss after
2025-04-02 14:45:38 | [rl2_trainer] epoch #17 | Saving snapshot...
2025-04-02 14:45:38 | [rl2_trainer] epoch #17 | Saved
2025-04-02 14:45:38 | [rl2_trainer] epoch #17 | Time 3219.41 s
2025-04-02 14:45:38 | [rl2_trainer] epoch #17 | EpochTime 161.63 s
----------------------------------------  --------------
Average/AverageDiscountedReturn              -25.1055
Average/AverageReturn                        -40.6307
Average/Iteration                             17
Average/MaxReturn                            -25.552
Average/MinReturn                            -59.0916
Average/NumEpisodes                          100
Average/StdReturn                              7.51609
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.396105
TotalEnvSteps                             180000
__unnamed_task__/AverageDiscountedReturn     -25.1055
__unnamed_task__/AverageReturn               -40.6307
__unnamed_task__/Iteration                    17
__unnamed_task__/MaxReturn                   -25.552
__unnamed_task__/MinReturn                   -59.0916
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.51609
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.52626
policy/KL                                      0.0101081
policy/KLBefore                                0
policy/LossAfter                              -0.0307362
policy/LossBefore                             -0.010739
policy/dLoss                                   0.0199971
----------------------------------------  --------------
2025-04-02 14:47:14 | [rl2_trainer] epoch #18 | Optimizing policy...
2025-04-02 14:47:15 | [rl2_trainer] epoch #18 | Fitting baseline...
2025-04-02 14:47:15 | [rl2_trainer] epoch #18 | Computing loss before
2025-04-02 14:47:15 | [rl2_trainer] epoch #18 | Computing KL before
2025-04-02 14:47:16 | [rl2_trainer] epoch #18 | Optimizing
2025-04-02 14:47:49 | [rl2_trainer] epoch #18 | Computing KL after
2025-04-02 14:47:50 | [rl2_trainer] epoch #18 | Computing loss after
2025-04-02 14:47:51 | [rl2_trainer] epoch #18 | Saving snapshot...
2025-04-02 14:47:51 | [rl2_trainer] epoch #18 | Saved
2025-04-02 14:47:51 | [rl2_trainer] epoch #18 | Time 3351.76 s
2025-04-02 14:47:51 | [rl2_trainer] epoch #18 | EpochTime 132.35 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -26.9784
Average/AverageReturn                        -44.4437
Average/Iteration                             18
Average/MaxReturn                            -26.8942
Average/MinReturn                            -80.3933
Average/NumEpisodes                          100
Average/StdReturn                             10.5206
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.685697
TotalEnvSteps                             190000
__unnamed_task__/AverageDiscountedReturn     -26.9784
__unnamed_task__/AverageReturn               -44.4437
__unnamed_task__/Iteration                    18
__unnamed_task__/MaxReturn                   -26.8942
__unnamed_task__/MinReturn                   -80.3933
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    10.5206
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.51272
policy/KL                                      0.00546531
policy/KLBefore                                0
policy/LossAfter                              -0.0177607
policy/LossBefore                              0.00659564
policy/dLoss                                   0.0243563
----------------------------------------  ---------------
2025-04-02 14:50:38 | [rl2_trainer] epoch #19 | Optimizing policy...
2025-04-02 14:50:38 | [rl2_trainer] epoch #19 | Fitting baseline...
2025-04-02 14:50:38 | [rl2_trainer] epoch #19 | Computing loss before
2025-04-02 14:50:39 | [rl2_trainer] epoch #19 | Computing KL before
2025-04-02 14:50:39 | [rl2_trainer] epoch #19 | Optimizing
2025-04-02 14:51:13 | [rl2_trainer] epoch #19 | Computing KL after
2025-04-02 14:51:13 | [rl2_trainer] epoch #19 | Computing loss after
2025-04-02 14:51:14 | [rl2_trainer] epoch #19 | Saving snapshot...
2025-04-02 14:51:14 | [rl2_trainer] epoch #19 | Saved
2025-04-02 14:51:14 | [rl2_trainer] epoch #19 | Time 3555.10 s
2025-04-02 14:51:14 | [rl2_trainer] epoch #19 | EpochTime 203.34 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -22.4076
Average/AverageReturn                        -36.2859
Average/Iteration                             19
Average/MaxReturn                            -18.7813
Average/MinReturn                            -58.713
Average/NumEpisodes                          100
Average/StdReturn                              8.37964
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.582989
TotalEnvSteps                             200000
__unnamed_task__/AverageDiscountedReturn     -22.4076
__unnamed_task__/AverageReturn               -36.2859
__unnamed_task__/Iteration                    19
__unnamed_task__/MaxReturn                   -18.7813
__unnamed_task__/MinReturn                   -58.713
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.37964
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.50489
policy/KL                                      0.00948896
policy/KLBefore                                0
policy/LossAfter                              -0.0262183
policy/LossBefore                              0.00217735
policy/dLoss                                   0.0283956
----------------------------------------  ---------------
2025-04-02 14:54:35 | [rl2_trainer] epoch #20 | Optimizing policy...
2025-04-02 14:54:36 | [rl2_trainer] epoch #20 | Fitting baseline...
2025-04-02 14:54:36 | [rl2_trainer] epoch #20 | Computing loss before
2025-04-02 14:54:36 | [rl2_trainer] epoch #20 | Computing KL before
2025-04-02 14:54:37 | [rl2_trainer] epoch #20 | Optimizing
2025-04-02 14:55:10 | [rl2_trainer] epoch #20 | Computing KL after
2025-04-02 14:55:10 | [rl2_trainer] epoch #20 | Computing loss after
2025-04-02 14:55:11 | [rl2_trainer] epoch #20 | Saving snapshot...
2025-04-02 14:55:11 | [rl2_trainer] epoch #20 | Saved
2025-04-02 14:55:11 | [rl2_trainer] epoch #20 | Time 3792.23 s
2025-04-02 14:55:11 | [rl2_trainer] epoch #20 | EpochTime 237.12 s
----------------------------------------  ----------------
Average/AverageDiscountedReturn              -22.4199
Average/AverageReturn                        -36.4736
Average/Iteration                             20
Average/MaxReturn                             10.8748
Average/MinReturn                            -58.6644
Average/NumEpisodes                          100
Average/StdReturn                              9.81001
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.643003
TotalEnvSteps                             210000
__unnamed_task__/AverageDiscountedReturn     -22.4199
__unnamed_task__/AverageReturn               -36.4736
__unnamed_task__/Iteration                    20
__unnamed_task__/MaxReturn                    10.8748
__unnamed_task__/MinReturn                   -58.6644
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     9.81001
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.47497
policy/KL                                      0.00724772
policy/KLBefore                                0
policy/LossAfter                              -0.0262413
policy/LossBefore                             -0.000288123
policy/dLoss                                   0.0259532
----------------------------------------  ----------------
2025-04-02 14:57:58 | [rl2_trainer] epoch #21 | Optimizing policy...
2025-04-02 14:57:59 | [rl2_trainer] epoch #21 | Fitting baseline...
2025-04-02 14:57:59 | [rl2_trainer] epoch #21 | Computing loss before
2025-04-02 14:57:59 | [rl2_trainer] epoch #21 | Computing KL before
2025-04-02 14:58:00 | [rl2_trainer] epoch #21 | Optimizing
2025-04-02 14:58:34 | [rl2_trainer] epoch #21 | Computing KL after
2025-04-02 14:58:34 | [rl2_trainer] epoch #21 | Computing loss after
2025-04-02 14:58:35 | [rl2_trainer] epoch #21 | Saving snapshot...
2025-04-02 14:58:35 | [rl2_trainer] epoch #21 | Saved
2025-04-02 14:58:35 | [rl2_trainer] epoch #21 | Time 3996.30 s
2025-04-02 14:58:35 | [rl2_trainer] epoch #21 | EpochTime 204.07 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -24.2006
Average/AverageReturn                        -39.5749
Average/Iteration                             21
Average/MaxReturn                            -11.2383
Average/MinReturn                            -65.8664
Average/NumEpisodes                          100
Average/StdReturn                              8.46646
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.429813
TotalEnvSteps                             220000
__unnamed_task__/AverageDiscountedReturn     -24.2006
__unnamed_task__/AverageReturn               -39.5749
__unnamed_task__/Iteration                    21
__unnamed_task__/MaxReturn                   -11.2383
__unnamed_task__/MinReturn                   -65.8664
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.46646
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.44339
policy/KL                                      0.00674126
policy/KLBefore                                0
policy/LossAfter                              -0.0163876
policy/LossBefore                             -0.00319566
policy/dLoss                                   0.0131919
----------------------------------------  ---------------
2025-04-02 14:59:55 | [rl2_trainer] epoch #22 | Optimizing policy...
2025-04-02 14:59:55 | [rl2_trainer] epoch #22 | Fitting baseline...
2025-04-02 14:59:55 | [rl2_trainer] epoch #22 | Computing loss before
2025-04-02 14:59:56 | [rl2_trainer] epoch #22 | Computing KL before
2025-04-02 14:59:56 | [rl2_trainer] epoch #22 | Optimizing
2025-04-02 15:00:30 | [rl2_trainer] epoch #22 | Computing KL after
2025-04-02 15:00:31 | [rl2_trainer] epoch #22 | Computing loss after
2025-04-02 15:00:31 | [rl2_trainer] epoch #22 | Saving snapshot...
2025-04-02 15:00:31 | [rl2_trainer] epoch #22 | Saved
2025-04-02 15:00:31 | [rl2_trainer] epoch #22 | Time 4112.51 s
2025-04-02 15:00:31 | [rl2_trainer] epoch #22 | EpochTime 116.20 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -26.0409
Average/AverageReturn                        -42.4021
Average/Iteration                             22
Average/MaxReturn                            -24.8895
Average/MinReturn                            -66.5793
Average/NumEpisodes                          100
Average/StdReturn                              8.55257
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.654446
TotalEnvSteps                             230000
__unnamed_task__/AverageDiscountedReturn     -26.0409
__unnamed_task__/AverageReturn               -42.4021
__unnamed_task__/Iteration                    22
__unnamed_task__/MaxReturn                   -24.8895
__unnamed_task__/MinReturn                   -66.5793
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.55257
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.42966
policy/KL                                      0.00684236
policy/KLBefore                                0
policy/LossAfter                              -0.0223427
policy/LossBefore                             -0.00481087
policy/dLoss                                   0.0175319
----------------------------------------  ---------------
2025-04-02 15:03:41 | [rl2_trainer] epoch #23 | Optimizing policy...
2025-04-02 15:03:41 | [rl2_trainer] epoch #23 | Fitting baseline...
2025-04-02 15:03:41 | [rl2_trainer] epoch #23 | Computing loss before
2025-04-02 15:03:42 | [rl2_trainer] epoch #23 | Computing KL before
2025-04-02 15:03:43 | [rl2_trainer] epoch #23 | Optimizing
2025-04-02 15:04:19 | [rl2_trainer] epoch #23 | Computing KL after
2025-04-02 15:04:20 | [rl2_trainer] epoch #23 | Computing loss after
2025-04-02 15:04:21 | [rl2_trainer] epoch #23 | Saving snapshot...
2025-04-02 15:04:21 | [rl2_trainer] epoch #23 | Saved
2025-04-02 15:04:21 | [rl2_trainer] epoch #23 | Time 4341.72 s
2025-04-02 15:04:21 | [rl2_trainer] epoch #23 | EpochTime 229.21 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -21.7479
Average/AverageReturn                        -35.6639
Average/Iteration                             23
Average/MaxReturn                             -1.08257
Average/MinReturn                            -80.9149
Average/NumEpisodes                          100
Average/StdReturn                             11.8024
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.454688
TotalEnvSteps                             240000
__unnamed_task__/AverageDiscountedReturn     -21.7479
__unnamed_task__/AverageReturn               -35.6639
__unnamed_task__/Iteration                    23
__unnamed_task__/MaxReturn                    -1.08257
__unnamed_task__/MinReturn                   -80.9149
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    11.8024
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.42477
policy/KL                                      0.0108617
policy/KLBefore                                0
policy/LossAfter                              -0.0590277
policy/LossBefore                             -0.00844553
policy/dLoss                                   0.0505821
----------------------------------------  ---------------
2025-04-02 15:05:47 | [rl2_trainer] epoch #24 | Optimizing policy...
2025-04-02 15:05:48 | [rl2_trainer] epoch #24 | Fitting baseline...
2025-04-02 15:05:48 | [rl2_trainer] epoch #24 | Computing loss before
2025-04-02 15:05:48 | [rl2_trainer] epoch #24 | Computing KL before
2025-04-02 15:05:49 | [rl2_trainer] epoch #24 | Optimizing
2025-04-02 15:06:25 | [rl2_trainer] epoch #24 | Computing KL after
2025-04-02 15:06:25 | [rl2_trainer] epoch #24 | Computing loss after
2025-04-02 15:06:26 | [rl2_trainer] epoch #24 | Saving snapshot...
2025-04-02 15:06:26 | [rl2_trainer] epoch #24 | Saved
2025-04-02 15:06:26 | [rl2_trainer] epoch #24 | Time 4467.17 s
2025-04-02 15:06:26 | [rl2_trainer] epoch #24 | EpochTime 125.45 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -26.5276
Average/AverageReturn                        -43.367
Average/Iteration                             24
Average/MaxReturn                            -17.6346
Average/MinReturn                            -91.3772
Average/NumEpisodes                          100
Average/StdReturn                             10.7482
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.72307
TotalEnvSteps                             250000
__unnamed_task__/AverageDiscountedReturn     -26.5276
__unnamed_task__/AverageReturn               -43.367
__unnamed_task__/Iteration                    24
__unnamed_task__/MaxReturn                   -17.6346
__unnamed_task__/MinReturn                   -91.3772
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    10.7482
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.42528
policy/KL                                      0.0065928
policy/KLBefore                                0
policy/LossAfter                              -0.0301787
policy/LossBefore                             -0.00538608
policy/dLoss                                   0.0247926
----------------------------------------  ---------------
2025-04-02 15:08:36 | [rl2_trainer] epoch #25 | Optimizing policy...
2025-04-02 15:08:36 | [rl2_trainer] epoch #25 | Fitting baseline...
2025-04-02 15:08:36 | [rl2_trainer] epoch #25 | Computing loss before
2025-04-02 15:08:37 | [rl2_trainer] epoch #25 | Computing KL before
2025-04-02 15:08:38 | [rl2_trainer] epoch #25 | Optimizing
2025-04-02 15:09:13 | [rl2_trainer] epoch #25 | Computing KL after
2025-04-02 15:09:14 | [rl2_trainer] epoch #25 | Computing loss after
2025-04-02 15:09:15 | [rl2_trainer] epoch #25 | Saving snapshot...
2025-04-02 15:09:15 | [rl2_trainer] epoch #25 | Saved
2025-04-02 15:09:15 | [rl2_trainer] epoch #25 | Time 4636.09 s
2025-04-02 15:09:15 | [rl2_trainer] epoch #25 | EpochTime 168.92 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -23.2811
Average/AverageReturn                        -38.0307
Average/Iteration                             25
Average/MaxReturn                            -22.8977
Average/MinReturn                            -63.8816
Average/NumEpisodes                          100
Average/StdReturn                              7.15353
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.339911
TotalEnvSteps                             260000
__unnamed_task__/AverageDiscountedReturn     -23.2811
__unnamed_task__/AverageReturn               -38.0307
__unnamed_task__/Iteration                    25
__unnamed_task__/MaxReturn                   -22.8977
__unnamed_task__/MinReturn                   -63.8816
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.15353
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.40396
policy/KL                                      0.00574222
policy/KLBefore                                0
policy/LossAfter                              -0.0282824
policy/LossBefore                             -0.00789727
policy/dLoss                                   0.0203851
----------------------------------------  ---------------
2025-04-02 15:11:25 | [rl2_trainer] epoch #26 | Optimizing policy...
2025-04-02 15:11:25 | [rl2_trainer] epoch #26 | Fitting baseline...
2025-04-02 15:11:25 | [rl2_trainer] epoch #26 | Computing loss before
2025-04-02 15:11:26 | [rl2_trainer] epoch #26 | Computing KL before
2025-04-02 15:11:27 | [rl2_trainer] epoch #26 | Optimizing
2025-04-02 15:12:02 | [rl2_trainer] epoch #26 | Computing KL after
2025-04-02 15:12:03 | [rl2_trainer] epoch #26 | Computing loss after
2025-04-02 15:12:04 | [rl2_trainer] epoch #26 | Saving snapshot...
2025-04-02 15:12:04 | [rl2_trainer] epoch #26 | Saved
2025-04-02 15:12:04 | [rl2_trainer] epoch #26 | Time 4804.67 s
2025-04-02 15:12:04 | [rl2_trainer] epoch #26 | EpochTime 168.57 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -26.2733
Average/AverageReturn                        -43.2476
Average/Iteration                             26
Average/MaxReturn                            -25.2908
Average/MinReturn                            -71.5794
Average/NumEpisodes                          100
Average/StdReturn                              8.8849
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.609174
TotalEnvSteps                             270000
__unnamed_task__/AverageDiscountedReturn     -26.2733
__unnamed_task__/AverageReturn               -43.2476
__unnamed_task__/Iteration                    26
__unnamed_task__/MaxReturn                   -25.2908
__unnamed_task__/MinReturn                   -71.5794
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.8849
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.39067
policy/KL                                      0.00675703
policy/KLBefore                                0
policy/LossAfter                              -0.0234823
policy/LossBefore                             -0.00747332
policy/dLoss                                   0.016009
----------------------------------------  ---------------
2025-04-02 15:14:03 | [rl2_trainer] epoch #27 | Optimizing policy...
2025-04-02 15:14:04 | [rl2_trainer] epoch #27 | Fitting baseline...
2025-04-02 15:14:04 | [rl2_trainer] epoch #27 | Computing loss before
2025-04-02 15:14:04 | [rl2_trainer] epoch #27 | Computing KL before
2025-04-02 15:14:05 | [rl2_trainer] epoch #27 | Optimizing
2025-04-02 15:14:42 | [rl2_trainer] epoch #27 | Computing KL after
2025-04-02 15:14:42 | [rl2_trainer] epoch #27 | Computing loss after
2025-04-02 15:14:43 | [rl2_trainer] epoch #27 | Saving snapshot...
2025-04-02 15:14:43 | [rl2_trainer] epoch #27 | Saved
2025-04-02 15:14:43 | [rl2_trainer] epoch #27 | Time 4964.20 s
2025-04-02 15:14:43 | [rl2_trainer] epoch #27 | EpochTime 159.52 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -23.6716
Average/AverageReturn                        -37.8464
Average/Iteration                             27
Average/MaxReturn                            -21.1313
Average/MinReturn                            -51.7164
Average/NumEpisodes                          100
Average/StdReturn                              6.4073
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.525444
TotalEnvSteps                             280000
__unnamed_task__/AverageDiscountedReturn     -23.6716
__unnamed_task__/AverageReturn               -37.8464
__unnamed_task__/Iteration                    27
__unnamed_task__/MaxReturn                   -21.1313
__unnamed_task__/MinReturn                   -51.7164
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     6.4073
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.37842
policy/KL                                      0.00986823
policy/KLBefore                                0
policy/LossAfter                              -0.0153769
policy/LossBefore                             -0.00291173
policy/dLoss                                   0.0124652
----------------------------------------  ---------------
2025-04-02 15:17:21 | [rl2_trainer] epoch #28 | Optimizing policy...
2025-04-02 15:17:22 | [rl2_trainer] epoch #28 | Fitting baseline...
2025-04-02 15:17:22 | [rl2_trainer] epoch #28 | Computing loss before
2025-04-02 15:17:22 | [rl2_trainer] epoch #28 | Computing KL before
2025-04-02 15:17:23 | [rl2_trainer] epoch #28 | Optimizing
2025-04-02 15:17:59 | [rl2_trainer] epoch #28 | Computing KL after
2025-04-02 15:17:59 | [rl2_trainer] epoch #28 | Computing loss after
2025-04-02 15:18:00 | [rl2_trainer] epoch #28 | Saving snapshot...
2025-04-02 15:18:00 | [rl2_trainer] epoch #28 | Saved
2025-04-02 15:18:00 | [rl2_trainer] epoch #28 | Time 5161.26 s
2025-04-02 15:18:00 | [rl2_trainer] epoch #28 | EpochTime 197.06 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -23.9727
Average/AverageReturn                        -39.6488
Average/Iteration                             28
Average/MaxReturn                            -13.3356
Average/MinReturn                           -103.13
Average/NumEpisodes                          100
Average/StdReturn                             12.509
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.687524
TotalEnvSteps                             290000
__unnamed_task__/AverageDiscountedReturn     -23.9727
__unnamed_task__/AverageReturn               -39.6488
__unnamed_task__/Iteration                    28
__unnamed_task__/MaxReturn                   -13.3356
__unnamed_task__/MinReturn                  -103.13
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    12.509
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.36217
policy/KL                                      0.00759181
policy/KLBefore                                0
policy/LossAfter                              -0.0483738
policy/LossBefore                             -0.00768642
policy/dLoss                                   0.0406873
----------------------------------------  ---------------
2025-04-02 15:20:55 | [rl2_trainer] epoch #29 | Optimizing policy...
2025-04-02 15:20:55 | [rl2_trainer] epoch #29 | Fitting baseline...
2025-04-02 15:20:55 | [rl2_trainer] epoch #29 | Computing loss before
2025-04-02 15:20:56 | [rl2_trainer] epoch #29 | Computing KL before
2025-04-02 15:20:56 | [rl2_trainer] epoch #29 | Optimizing
2025-04-02 15:21:32 | [rl2_trainer] epoch #29 | Computing KL after
2025-04-02 15:21:32 | [rl2_trainer] epoch #29 | Computing loss after
2025-04-02 15:21:33 | [rl2_trainer] epoch #29 | Saving snapshot...
2025-04-02 15:21:33 | [rl2_trainer] epoch #29 | Saved
2025-04-02 15:21:33 | [rl2_trainer] epoch #29 | Time 5374.36 s
2025-04-02 15:21:33 | [rl2_trainer] epoch #29 | EpochTime 213.09 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -23.2723
Average/AverageReturn                        -37.8738
Average/Iteration                             29
Average/MaxReturn                            -16.5568
Average/MinReturn                            -58.4465
Average/NumEpisodes                          100
Average/StdReturn                              7.42276
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.410202
TotalEnvSteps                             300000
__unnamed_task__/AverageDiscountedReturn     -23.2723
__unnamed_task__/AverageReturn               -37.8738
__unnamed_task__/Iteration                    29
__unnamed_task__/MaxReturn                   -16.5568
__unnamed_task__/MinReturn                   -58.4465
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.42276
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.356
policy/KL                                      0.00911842
policy/KLBefore                                0
policy/LossAfter                              -0.0169873
policy/LossBefore                              0.00925489
policy/dLoss                                   0.0262422
----------------------------------------  ---------------
2025-04-02 15:23:45 | [rl2_trainer] epoch #30 | Optimizing policy...
2025-04-02 15:23:45 | [rl2_trainer] epoch #30 | Fitting baseline...
2025-04-02 15:23:45 | [rl2_trainer] epoch #30 | Computing loss before
2025-04-02 15:23:46 | [rl2_trainer] epoch #30 | Computing KL before
2025-04-02 15:23:46 | [rl2_trainer] epoch #30 | Optimizing
2025-04-02 15:24:21 | [rl2_trainer] epoch #30 | Computing KL after
2025-04-02 15:24:22 | [rl2_trainer] epoch #30 | Computing loss after
2025-04-02 15:24:23 | [rl2_trainer] epoch #30 | Saving snapshot...
2025-04-02 15:24:23 | [rl2_trainer] epoch #30 | Saved
2025-04-02 15:24:23 | [rl2_trainer] epoch #30 | Time 5543.92 s
2025-04-02 15:24:23 | [rl2_trainer] epoch #30 | EpochTime 169.56 s
----------------------------------------  ----------------
Average/AverageDiscountedReturn              -21.2548
Average/AverageReturn                        -34.2766
Average/Iteration                             30
Average/MaxReturn                             -6.584
Average/MinReturn                            -56.7853
Average/NumEpisodes                          100
Average/StdReturn                              8.70768
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.500943
TotalEnvSteps                             310000
__unnamed_task__/AverageDiscountedReturn     -21.2548
__unnamed_task__/AverageReturn               -34.2766
__unnamed_task__/Iteration                    30
__unnamed_task__/MaxReturn                    -6.584
__unnamed_task__/MinReturn                   -56.7853
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.70768
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.35655
policy/KL                                      0.0060208
policy/KLBefore                                0
policy/LossAfter                              -0.026028
policy/LossBefore                              0.000737781
policy/dLoss                                   0.0267658
----------------------------------------  ----------------
2025-04-02 15:26:40 | [rl2_trainer] epoch #31 | Optimizing policy...
2025-04-02 15:26:40 | [rl2_trainer] epoch #31 | Fitting baseline...
2025-04-02 15:26:40 | [rl2_trainer] epoch #31 | Computing loss before
2025-04-02 15:26:41 | [rl2_trainer] epoch #31 | Computing KL before
2025-04-02 15:26:41 | [rl2_trainer] epoch #31 | Optimizing
2025-04-02 15:27:15 | [rl2_trainer] epoch #31 | Computing KL after
2025-04-02 15:27:15 | [rl2_trainer] epoch #31 | Computing loss after
2025-04-02 15:27:16 | [rl2_trainer] epoch #31 | Saving snapshot...
2025-04-02 15:27:16 | [rl2_trainer] epoch #31 | Saved
2025-04-02 15:27:16 | [rl2_trainer] epoch #31 | Time 5717.27 s
2025-04-02 15:27:16 | [rl2_trainer] epoch #31 | EpochTime 173.35 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -24.031
Average/AverageReturn                        -39.4002
Average/Iteration                             31
Average/MaxReturn                            -15.3182
Average/MinReturn                           -111.577
Average/NumEpisodes                          100
Average/StdReturn                             12.4285
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.557705
TotalEnvSteps                             320000
__unnamed_task__/AverageDiscountedReturn     -24.031
__unnamed_task__/AverageReturn               -39.4002
__unnamed_task__/Iteration                    31
__unnamed_task__/MaxReturn                   -15.3182
__unnamed_task__/MinReturn                  -111.577
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    12.4285
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.33832
policy/KL                                      0.0071043
policy/KLBefore                                0
policy/LossAfter                              -0.0278998
policy/LossBefore                              0.00275769
policy/dLoss                                   0.0306575
----------------------------------------  ---------------
2025-04-02 15:31:38 | [rl2_trainer] epoch #32 | Optimizing policy...
2025-04-02 15:31:38 | [rl2_trainer] epoch #32 | Fitting baseline...
2025-04-02 15:31:38 | [rl2_trainer] epoch #32 | Computing loss before
2025-04-02 15:31:38 | [rl2_trainer] epoch #32 | Computing KL before
2025-04-02 15:31:39 | [rl2_trainer] epoch #32 | Optimizing
2025-04-02 15:32:15 | [rl2_trainer] epoch #32 | Computing KL after
2025-04-02 15:32:16 | [rl2_trainer] epoch #32 | Computing loss after
2025-04-02 15:32:16 | [rl2_trainer] epoch #32 | Saving snapshot...
2025-04-02 15:32:16 | [rl2_trainer] epoch #32 | Saved
2025-04-02 15:32:16 | [rl2_trainer] epoch #32 | Time 6017.44 s
2025-04-02 15:32:16 | [rl2_trainer] epoch #32 | EpochTime 300.16 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -22.0858
Average/AverageReturn                        -36.2014
Average/Iteration                             32
Average/MaxReturn                            -16.8098
Average/MinReturn                            -88.4467
Average/NumEpisodes                          100
Average/StdReturn                             10.4837
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.500094
TotalEnvSteps                             330000
__unnamed_task__/AverageDiscountedReturn     -22.0858
__unnamed_task__/AverageReturn               -36.2014
__unnamed_task__/Iteration                    32
__unnamed_task__/MaxReturn                   -16.8098
__unnamed_task__/MinReturn                   -88.4467
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    10.4837
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.31966
policy/KL                                      0.0122125
policy/KLBefore                                0
policy/LossAfter                              -0.0407789
policy/LossBefore                             -0.00676465
policy/dLoss                                   0.0340142
----------------------------------------  ---------------
2025-04-02 15:35:12 | [rl2_trainer] epoch #33 | Optimizing policy...
2025-04-02 15:35:12 | [rl2_trainer] epoch #33 | Fitting baseline...
2025-04-02 15:35:12 | [rl2_trainer] epoch #33 | Computing loss before
2025-04-02 15:35:13 | [rl2_trainer] epoch #33 | Computing KL before
2025-04-02 15:35:14 | [rl2_trainer] epoch #33 | Optimizing
2025-04-02 15:35:50 | [rl2_trainer] epoch #33 | Computing KL after
2025-04-02 15:35:50 | [rl2_trainer] epoch #33 | Computing loss after
2025-04-02 15:35:51 | [rl2_trainer] epoch #33 | Saving snapshot...
2025-04-02 15:35:51 | [rl2_trainer] epoch #33 | Saved
2025-04-02 15:35:51 | [rl2_trainer] epoch #33 | Time 6232.37 s
2025-04-02 15:35:51 | [rl2_trainer] epoch #33 | EpochTime 214.93 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -21.5411
Average/AverageReturn                        -34.9727
Average/Iteration                             33
Average/MaxReturn                            -19.7934
Average/MinReturn                            -55.4603
Average/NumEpisodes                          100
Average/StdReturn                              7.21257
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.468388
TotalEnvSteps                             340000
__unnamed_task__/AverageDiscountedReturn     -21.5411
__unnamed_task__/AverageReturn               -34.9727
__unnamed_task__/Iteration                    33
__unnamed_task__/MaxReturn                   -19.7934
__unnamed_task__/MinReturn                   -55.4603
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.21257
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.2967
policy/KL                                      0.00493688
policy/KLBefore                                0
policy/LossAfter                              -0.0144095
policy/LossBefore                             -0.00509355
policy/dLoss                                   0.00931593
----------------------------------------  ---------------
2025-04-02 15:38:20 | [rl2_trainer] epoch #34 | Optimizing policy...
2025-04-02 15:38:21 | [rl2_trainer] epoch #34 | Fitting baseline...
2025-04-02 15:38:21 | [rl2_trainer] epoch #34 | Computing loss before
2025-04-02 15:38:21 | [rl2_trainer] epoch #34 | Computing KL before
2025-04-02 15:38:22 | [rl2_trainer] epoch #34 | Optimizing
2025-04-02 15:38:58 | [rl2_trainer] epoch #34 | Computing KL after
2025-04-02 15:38:59 | [rl2_trainer] epoch #34 | Computing loss after
2025-04-02 15:39:00 | [rl2_trainer] epoch #34 | Saving snapshot...
2025-04-02 15:39:00 | [rl2_trainer] epoch #34 | Saved
2025-04-02 15:39:00 | [rl2_trainer] epoch #34 | Time 6420.60 s
2025-04-02 15:39:00 | [rl2_trainer] epoch #34 | EpochTime 188.22 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -20.9418
Average/AverageReturn                        -33.6795
Average/Iteration                             34
Average/MaxReturn                            -17.832
Average/MinReturn                            -57.3806
Average/NumEpisodes                          100
Average/StdReturn                              7.50676
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.610695
TotalEnvSteps                             350000
__unnamed_task__/AverageDiscountedReturn     -20.9418
__unnamed_task__/AverageReturn               -33.6795
__unnamed_task__/Iteration                    34
__unnamed_task__/MaxReturn                   -17.832
__unnamed_task__/MinReturn                   -57.3806
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.50676
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.27127
policy/KL                                      0.00948179
policy/KLBefore                                0
policy/LossAfter                              -0.0205738
policy/LossBefore                             -0.00179242
policy/dLoss                                   0.0187814
----------------------------------------  ---------------
2025-04-02 15:41:09 | [rl2_trainer] epoch #35 | Optimizing policy...
2025-04-02 15:41:09 | [rl2_trainer] epoch #35 | Fitting baseline...
2025-04-02 15:41:09 | [rl2_trainer] epoch #35 | Computing loss before
2025-04-02 15:41:10 | [rl2_trainer] epoch #35 | Computing KL before
2025-04-02 15:41:11 | [rl2_trainer] epoch #35 | Optimizing
2025-04-02 15:41:47 | [rl2_trainer] epoch #35 | Computing KL after
2025-04-02 15:41:48 | [rl2_trainer] epoch #35 | Computing loss after
2025-04-02 15:41:49 | [rl2_trainer] epoch #35 | Saving snapshot...
2025-04-02 15:41:49 | [rl2_trainer] epoch #35 | Saved
2025-04-02 15:41:49 | [rl2_trainer] epoch #35 | Time 6589.60 s
2025-04-02 15:41:49 | [rl2_trainer] epoch #35 | EpochTime 169.01 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -23.4459
Average/AverageReturn                        -38.2362
Average/Iteration                             35
Average/MaxReturn                            -23.7455
Average/MinReturn                            -70.3099
Average/NumEpisodes                          100
Average/StdReturn                              9.2089
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.550229
TotalEnvSteps                             360000
__unnamed_task__/AverageDiscountedReturn     -23.4459
__unnamed_task__/AverageReturn               -38.2362
__unnamed_task__/Iteration                    35
__unnamed_task__/MaxReturn                   -23.7455
__unnamed_task__/MinReturn                   -70.3099
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     9.2089
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.25627
policy/KL                                      0.0107916
policy/KLBefore                                0
policy/LossAfter                              -0.0254097
policy/LossBefore                              0.00085625
policy/dLoss                                   0.0262659
----------------------------------------  ---------------
2025-04-02 15:45:19 | [rl2_trainer] epoch #36 | Optimizing policy...
2025-04-02 15:45:19 | [rl2_trainer] epoch #36 | Fitting baseline...
2025-04-02 15:45:19 | [rl2_trainer] epoch #36 | Computing loss before
2025-04-02 15:45:20 | [rl2_trainer] epoch #36 | Computing KL before
2025-04-02 15:45:20 | [rl2_trainer] epoch #36 | Optimizing
2025-04-02 15:45:54 | [rl2_trainer] epoch #36 | Computing KL after
2025-04-02 15:45:54 | [rl2_trainer] epoch #36 | Computing loss after
2025-04-02 15:45:55 | [rl2_trainer] epoch #36 | Saving snapshot...
2025-04-02 15:45:55 | [rl2_trainer] epoch #36 | Saved
2025-04-02 15:45:55 | [rl2_trainer] epoch #36 | Time 6836.13 s
2025-04-02 15:45:55 | [rl2_trainer] epoch #36 | EpochTime 246.52 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -22.3832
Average/AverageReturn                        -36.3905
Average/Iteration                             36
Average/MaxReturn                            -20.7774
Average/MinReturn                            -55.9657
Average/NumEpisodes                          100
Average/StdReturn                              8.62114
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.619407
TotalEnvSteps                             370000
__unnamed_task__/AverageDiscountedReturn     -22.3832
__unnamed_task__/AverageReturn               -36.3905
__unnamed_task__/Iteration                    36
__unnamed_task__/MaxReturn                   -20.7774
__unnamed_task__/MinReturn                   -55.9657
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.62114
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.2441
policy/KL                                      0.00874318
policy/KLBefore                                0
policy/LossAfter                              -0.0492848
policy/LossBefore                             -0.0152499
policy/dLoss                                   0.0340348
----------------------------------------  ---------------
2025-04-02 15:48:02 | [rl2_trainer] epoch #37 | Optimizing policy...
2025-04-02 15:48:02 | [rl2_trainer] epoch #37 | Fitting baseline...
2025-04-02 15:48:02 | [rl2_trainer] epoch #37 | Computing loss before
2025-04-02 15:48:03 | [rl2_trainer] epoch #37 | Computing KL before
2025-04-02 15:48:03 | [rl2_trainer] epoch #37 | Optimizing
2025-04-02 15:48:41 | [rl2_trainer] epoch #37 | Computing KL after
2025-04-02 15:48:41 | [rl2_trainer] epoch #37 | Computing loss after
2025-04-02 15:48:42 | [rl2_trainer] epoch #37 | Saving snapshot...
2025-04-02 15:48:42 | [rl2_trainer] epoch #37 | Saved
2025-04-02 15:48:42 | [rl2_trainer] epoch #37 | Time 7003.28 s
2025-04-02 15:48:42 | [rl2_trainer] epoch #37 | EpochTime 167.15 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -21.4343
Average/AverageReturn                        -34.1446
Average/Iteration                             37
Average/MaxReturn                            -16.8109
Average/MinReturn                            -60.4424
Average/NumEpisodes                          100
Average/StdReturn                              8.4874
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.717673
TotalEnvSteps                             380000
__unnamed_task__/AverageDiscountedReturn     -21.4343
__unnamed_task__/AverageReturn               -34.1446
__unnamed_task__/Iteration                    37
__unnamed_task__/MaxReturn                   -16.8109
__unnamed_task__/MinReturn                   -60.4424
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.4874
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.24124
policy/KL                                      0.00690851
policy/KLBefore                                0
policy/LossAfter                              -0.019335
policy/LossBefore                              0.00158842
policy/dLoss                                   0.0209235
----------------------------------------  ---------------
2025-04-02 15:50:41 | [rl2_trainer] epoch #38 | Optimizing policy...
2025-04-02 15:50:41 | [rl2_trainer] epoch #38 | Fitting baseline...
2025-04-02 15:50:41 | [rl2_trainer] epoch #38 | Computing loss before
2025-04-02 15:50:42 | [rl2_trainer] epoch #38 | Computing KL before
2025-04-02 15:50:42 | [rl2_trainer] epoch #38 | Optimizing
2025-04-02 15:51:18 | [rl2_trainer] epoch #38 | Computing KL after
2025-04-02 15:51:19 | [rl2_trainer] epoch #38 | Computing loss after
2025-04-02 15:51:20 | [rl2_trainer] epoch #38 | Saving snapshot...
2025-04-02 15:51:20 | [rl2_trainer] epoch #38 | Saved
2025-04-02 15:51:20 | [rl2_trainer] epoch #38 | Time 7161.08 s
2025-04-02 15:51:20 | [rl2_trainer] epoch #38 | EpochTime 157.80 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -22.8164
Average/AverageReturn                        -36.4722
Average/Iteration                             38
Average/MaxReturn                            -21.2703
Average/MinReturn                            -63.2258
Average/NumEpisodes                          100
Average/StdReturn                              7.85908
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.209517
TotalEnvSteps                             390000
__unnamed_task__/AverageDiscountedReturn     -22.8164
__unnamed_task__/AverageReturn               -36.4722
__unnamed_task__/Iteration                    38
__unnamed_task__/MaxReturn                   -21.2703
__unnamed_task__/MinReturn                   -63.2258
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.85908
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.22615
policy/KL                                      0.00642292
policy/KLBefore                                0
policy/LossAfter                              -0.0287954
policy/LossBefore                             -0.00162
policy/dLoss                                   0.0271754
----------------------------------------  ---------------
2025-04-02 15:53:58 | [rl2_trainer] epoch #39 | Optimizing policy...
2025-04-02 15:53:58 | [rl2_trainer] epoch #39 | Fitting baseline...
2025-04-02 15:53:58 | [rl2_trainer] epoch #39 | Computing loss before
2025-04-02 15:53:59 | [rl2_trainer] epoch #39 | Computing KL before
2025-04-02 15:53:59 | [rl2_trainer] epoch #39 | Optimizing
2025-04-02 15:54:36 | [rl2_trainer] epoch #39 | Computing KL after
2025-04-02 15:54:36 | [rl2_trainer] epoch #39 | Computing loss after
2025-04-02 15:54:37 | [rl2_trainer] epoch #39 | Saving snapshot...
2025-04-02 15:54:37 | [rl2_trainer] epoch #39 | Saved
2025-04-02 15:54:37 | [rl2_trainer] epoch #39 | Time 7358.11 s
2025-04-02 15:54:37 | [rl2_trainer] epoch #39 | EpochTime 197.03 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -22.0946
Average/AverageReturn                        -35.9648
Average/Iteration                             39
Average/MaxReturn                            -13.2903
Average/MinReturn                            -71.8184
Average/NumEpisodes                          100
Average/StdReturn                              9.58589
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.485208
TotalEnvSteps                             400000
__unnamed_task__/AverageDiscountedReturn     -22.0946
__unnamed_task__/AverageReturn               -35.9648
__unnamed_task__/Iteration                    39
__unnamed_task__/MaxReturn                   -13.2903
__unnamed_task__/MinReturn                   -71.8184
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     9.58589
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.20596
policy/KL                                      0.00923267
policy/KLBefore                                0
policy/LossAfter                              -0.0355275
policy/LossBefore                             -0.00210495
policy/dLoss                                   0.0334226
----------------------------------------  ---------------
2025-04-02 15:57:18 | [rl2_trainer] epoch #40 | Optimizing policy...
2025-04-02 15:57:18 | [rl2_trainer] epoch #40 | Fitting baseline...
2025-04-02 15:57:18 | [rl2_trainer] epoch #40 | Computing loss before
2025-04-02 15:57:19 | [rl2_trainer] epoch #40 | Computing KL before
2025-04-02 15:57:20 | [rl2_trainer] epoch #40 | Optimizing
2025-04-02 15:57:56 | [rl2_trainer] epoch #40 | Computing KL after
2025-04-02 15:57:56 | [rl2_trainer] epoch #40 | Computing loss after
2025-04-02 15:57:57 | [rl2_trainer] epoch #40 | Saving snapshot...
2025-04-02 15:57:57 | [rl2_trainer] epoch #40 | Saved
2025-04-02 15:57:57 | [rl2_trainer] epoch #40 | Time 7558.09 s
2025-04-02 15:57:57 | [rl2_trainer] epoch #40 | EpochTime 199.98 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -22.1108
Average/AverageReturn                        -35.7815
Average/Iteration                             40
Average/MaxReturn                            -17.5306
Average/MinReturn                            -55.9392
Average/NumEpisodes                          100
Average/StdReturn                              8.7126
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.542939
TotalEnvSteps                             410000
__unnamed_task__/AverageDiscountedReturn     -22.1108
__unnamed_task__/AverageReturn               -35.7815
__unnamed_task__/Iteration                    40
__unnamed_task__/MaxReturn                   -17.5306
__unnamed_task__/MinReturn                   -55.9392
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.7126
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.1881
policy/KL                                      0.00711199
policy/KLBefore                                0
policy/LossAfter                              -0.0208128
policy/LossBefore                              0.00443793
policy/dLoss                                   0.0252508
----------------------------------------  ---------------
2025-04-02 16:00:08 | [rl2_trainer] epoch #41 | Optimizing policy...
2025-04-02 16:00:08 | [rl2_trainer] epoch #41 | Fitting baseline...
2025-04-02 16:00:08 | [rl2_trainer] epoch #41 | Computing loss before
2025-04-02 16:00:09 | [rl2_trainer] epoch #41 | Computing KL before
2025-04-02 16:00:09 | [rl2_trainer] epoch #41 | Optimizing
2025-04-02 16:00:44 | [rl2_trainer] epoch #41 | Computing KL after
2025-04-02 16:00:45 | [rl2_trainer] epoch #41 | Computing loss after
2025-04-02 16:00:45 | [rl2_trainer] epoch #41 | Saving snapshot...
2025-04-02 16:00:45 | [rl2_trainer] epoch #41 | Saved
2025-04-02 16:00:45 | [rl2_trainer] epoch #41 | Time 7726.41 s
2025-04-02 16:00:45 | [rl2_trainer] epoch #41 | EpochTime 168.31 s
----------------------------------------  ----------------
Average/AverageDiscountedReturn              -22.0245
Average/AverageReturn                        -35.2514
Average/Iteration                             41
Average/MaxReturn                             -3.25668
Average/MinReturn                            -58.5169
Average/NumEpisodes                          100
Average/StdReturn                              8.25972
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.553227
TotalEnvSteps                             420000
__unnamed_task__/AverageDiscountedReturn     -22.0245
__unnamed_task__/AverageReturn               -35.2514
__unnamed_task__/Iteration                    41
__unnamed_task__/MaxReturn                    -3.25668
__unnamed_task__/MinReturn                   -58.5169
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.25972
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.18056
policy/KL                                      0.01038
policy/KLBefore                                0
policy/LossAfter                              -0.0303251
policy/LossBefore                             -0.000674927
policy/dLoss                                   0.0296502
----------------------------------------  ----------------
2025-04-02 16:03:55 | [rl2_trainer] epoch #42 | Optimizing policy...
2025-04-02 16:03:55 | [rl2_trainer] epoch #42 | Fitting baseline...
2025-04-02 16:03:55 | [rl2_trainer] epoch #42 | Computing loss before
2025-04-02 16:03:55 | [rl2_trainer] epoch #42 | Computing KL before
2025-04-02 16:03:56 | [rl2_trainer] epoch #42 | Optimizing
2025-04-02 16:04:28 | [rl2_trainer] epoch #42 | Computing KL after
2025-04-02 16:04:28 | [rl2_trainer] epoch #42 | Computing loss after
2025-04-02 16:04:29 | [rl2_trainer] epoch #42 | Saving snapshot...
2025-04-02 16:04:29 | [rl2_trainer] epoch #42 | Saved
2025-04-02 16:04:29 | [rl2_trainer] epoch #42 | Time 7950.14 s
2025-04-02 16:04:29 | [rl2_trainer] epoch #42 | EpochTime 223.73 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -20.2536
Average/AverageReturn                        -32.6201
Average/Iteration                             42
Average/MaxReturn                            -16.5254
Average/MinReturn                            -50.069
Average/NumEpisodes                          100
Average/StdReturn                              6.55966
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.643794
TotalEnvSteps                             430000
__unnamed_task__/AverageDiscountedReturn     -20.2536
__unnamed_task__/AverageReturn               -32.6201
__unnamed_task__/Iteration                    42
__unnamed_task__/MaxReturn                   -16.5254
__unnamed_task__/MinReturn                   -50.069
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     6.55966
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.1602
policy/KL                                      0.0086571
policy/KLBefore                                0
policy/LossAfter                              -0.0143498
policy/LossBefore                             -0.00178462
policy/dLoss                                   0.0125652
----------------------------------------  ---------------
2025-04-02 16:05:51 | [rl2_trainer] epoch #43 | Optimizing policy...
2025-04-02 16:05:51 | [rl2_trainer] epoch #43 | Fitting baseline...
2025-04-02 16:05:51 | [rl2_trainer] epoch #43 | Computing loss before
2025-04-02 16:05:52 | [rl2_trainer] epoch #43 | Computing KL before
2025-04-02 16:05:52 | [rl2_trainer] epoch #43 | Optimizing
2025-04-02 16:06:25 | [rl2_trainer] epoch #43 | Computing KL after
2025-04-02 16:06:25 | [rl2_trainer] epoch #43 | Computing loss after
2025-04-02 16:06:26 | [rl2_trainer] epoch #43 | Saving snapshot...
2025-04-02 16:06:26 | [rl2_trainer] epoch #43 | Saved
2025-04-02 16:06:26 | [rl2_trainer] epoch #43 | Time 8067.11 s
2025-04-02 16:06:26 | [rl2_trainer] epoch #43 | EpochTime 116.97 s
----------------------------------------  ----------------
Average/AverageDiscountedReturn              -22.2032
Average/AverageReturn                        -35.3831
Average/Iteration                             43
Average/MaxReturn                            -12.4323
Average/MinReturn                            -94.1863
Average/NumEpisodes                          100
Average/StdReturn                              9.59502
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.506093
TotalEnvSteps                             440000
__unnamed_task__/AverageDiscountedReturn     -22.2032
__unnamed_task__/AverageReturn               -35.3831
__unnamed_task__/Iteration                    43
__unnamed_task__/MaxReturn                   -12.4323
__unnamed_task__/MinReturn                   -94.1863
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     9.59502
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.12356
policy/KL                                      0.00645735
policy/KLBefore                                0
policy/LossAfter                              -0.0220101
policy/LossBefore                              0.000243257
policy/dLoss                                   0.0222533
----------------------------------------  ----------------
2025-04-02 16:09:14 | [rl2_trainer] epoch #44 | Optimizing policy...
2025-04-02 16:09:15 | [rl2_trainer] epoch #44 | Fitting baseline...
2025-04-02 16:09:15 | [rl2_trainer] epoch #44 | Computing loss before
2025-04-02 16:09:15 | [rl2_trainer] epoch #44 | Computing KL before
2025-04-02 16:09:16 | [rl2_trainer] epoch #44 | Optimizing
2025-04-02 16:09:49 | [rl2_trainer] epoch #44 | Computing KL after
2025-04-02 16:09:49 | [rl2_trainer] epoch #44 | Computing loss after
2025-04-02 16:09:50 | [rl2_trainer] epoch #44 | Saving snapshot...
2025-04-02 16:09:50 | [rl2_trainer] epoch #44 | Saved
2025-04-02 16:09:50 | [rl2_trainer] epoch #44 | Time 8271.21 s
2025-04-02 16:09:50 | [rl2_trainer] epoch #44 | EpochTime 204.09 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -20.7249
Average/AverageReturn                        -32.9647
Average/Iteration                             44
Average/MaxReturn                            -19.9709
Average/MinReturn                            -60.1459
Average/NumEpisodes                          100
Average/StdReturn                              7.83369
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.730356
TotalEnvSteps                             450000
__unnamed_task__/AverageDiscountedReturn     -20.7249
__unnamed_task__/AverageReturn               -32.9647
__unnamed_task__/Iteration                    44
__unnamed_task__/MaxReturn                   -19.9709
__unnamed_task__/MinReturn                   -60.1459
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.83369
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.09584
policy/KL                                      0.00558401
policy/KLBefore                                0
policy/LossAfter                              -0.0148741
policy/LossBefore                             -0.00607455
policy/dLoss                                   0.00879955
----------------------------------------  ---------------
2025-04-02 16:12:09 | [rl2_trainer] epoch #45 | Optimizing policy...
2025-04-02 16:12:09 | [rl2_trainer] epoch #45 | Fitting baseline...
2025-04-02 16:12:09 | [rl2_trainer] epoch #45 | Computing loss before
2025-04-02 16:12:09 | [rl2_trainer] epoch #45 | Computing KL before
2025-04-02 16:12:10 | [rl2_trainer] epoch #45 | Optimizing
2025-04-02 16:12:44 | [rl2_trainer] epoch #45 | Computing KL after
2025-04-02 16:12:45 | [rl2_trainer] epoch #45 | Computing loss after
2025-04-02 16:12:46 | [rl2_trainer] epoch #45 | Saving snapshot...
2025-04-02 16:12:46 | [rl2_trainer] epoch #45 | Saved
2025-04-02 16:12:46 | [rl2_trainer] epoch #45 | Time 8446.68 s
2025-04-02 16:12:46 | [rl2_trainer] epoch #45 | EpochTime 175.46 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -19.063
Average/AverageReturn                        -30.3855
Average/Iteration                             45
Average/MaxReturn                            -14.5945
Average/MinReturn                            -73.0616
Average/NumEpisodes                          100
Average/StdReturn                              8.71846
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.564455
TotalEnvSteps                             460000
__unnamed_task__/AverageDiscountedReturn     -19.063
__unnamed_task__/AverageReturn               -30.3855
__unnamed_task__/Iteration                    45
__unnamed_task__/MaxReturn                   -14.5945
__unnamed_task__/MinReturn                   -73.0616
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.71846
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.06833
policy/KL                                      0.00950865
policy/KLBefore                                0
policy/LossAfter                              -0.00769306
policy/LossBefore                              0.00961084
policy/dLoss                                   0.0173039
----------------------------------------  ---------------
2025-04-02 16:15:19 | [rl2_trainer] epoch #46 | Optimizing policy...
2025-04-02 16:15:20 | [rl2_trainer] epoch #46 | Fitting baseline...
2025-04-02 16:15:20 | [rl2_trainer] epoch #46 | Computing loss before
2025-04-02 16:15:20 | [rl2_trainer] epoch #46 | Computing KL before
2025-04-02 16:15:21 | [rl2_trainer] epoch #46 | Optimizing
2025-04-02 16:15:54 | [rl2_trainer] epoch #46 | Computing KL after
2025-04-02 16:15:54 | [rl2_trainer] epoch #46 | Computing loss after
2025-04-02 16:15:55 | [rl2_trainer] epoch #46 | Saving snapshot...
2025-04-02 16:15:55 | [rl2_trainer] epoch #46 | Saved
2025-04-02 16:15:55 | [rl2_trainer] epoch #46 | Time 8636.10 s
2025-04-02 16:15:55 | [rl2_trainer] epoch #46 | EpochTime 189.42 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -21.832
Average/AverageReturn                        -35.5598
Average/Iteration                             46
Average/MaxReturn                             -7.73067
Average/MinReturn                            -55.4965
Average/NumEpisodes                          100
Average/StdReturn                              9.16179
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.593874
TotalEnvSteps                             470000
__unnamed_task__/AverageDiscountedReturn     -21.832
__unnamed_task__/AverageReturn               -35.5598
__unnamed_task__/Iteration                    46
__unnamed_task__/MaxReturn                    -7.73067
__unnamed_task__/MinReturn                   -55.4965
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     9.16179
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.04515
policy/KL                                      0.00729048
policy/KLBefore                                0
policy/LossAfter                              -0.0329573
policy/LossBefore                             -0.00946688
policy/dLoss                                   0.0234904
----------------------------------------  ---------------
2025-04-02 16:18:44 | [rl2_trainer] epoch #47 | Optimizing policy...
2025-04-02 16:18:44 | [rl2_trainer] epoch #47 | Fitting baseline...
2025-04-02 16:18:44 | [rl2_trainer] epoch #47 | Computing loss before
2025-04-02 16:18:44 | [rl2_trainer] epoch #47 | Computing KL before
2025-04-02 16:18:45 | [rl2_trainer] epoch #47 | Optimizing
2025-04-02 16:19:18 | [rl2_trainer] epoch #47 | Computing KL after
2025-04-02 16:19:19 | [rl2_trainer] epoch #47 | Computing loss after
2025-04-02 16:19:20 | [rl2_trainer] epoch #47 | Saving snapshot...
2025-04-02 16:19:20 | [rl2_trainer] epoch #47 | Saved
2025-04-02 16:19:20 | [rl2_trainer] epoch #47 | Time 8840.79 s
2025-04-02 16:19:20 | [rl2_trainer] epoch #47 | EpochTime 204.69 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -18.7864
Average/AverageReturn                        -29.669
Average/Iteration                             47
Average/MaxReturn                             -5.88537
Average/MinReturn                            -54.0225
Average/NumEpisodes                          100
Average/StdReturn                              8.47639
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.715987
TotalEnvSteps                             480000
__unnamed_task__/AverageDiscountedReturn     -18.7864
__unnamed_task__/AverageReturn               -29.669
__unnamed_task__/Iteration                    47
__unnamed_task__/MaxReturn                    -5.88537
__unnamed_task__/MinReturn                   -54.0225
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.47639
__unnamed_task__/TerminationRate               0
policy/Entropy                                 9.02152
policy/KL                                      0.00798457
policy/KLBefore                                0
policy/LossAfter                              -0.0085194
policy/LossBefore                              0.00502077
policy/dLoss                                   0.0135402
----------------------------------------  ---------------
2025-04-02 16:22:26 | [rl2_trainer] epoch #48 | Optimizing policy...
2025-04-02 16:22:27 | [rl2_trainer] epoch #48 | Fitting baseline...
2025-04-02 16:22:27 | [rl2_trainer] epoch #48 | Computing loss before
2025-04-02 16:22:27 | [rl2_trainer] epoch #48 | Computing KL before
2025-04-02 16:22:28 | [rl2_trainer] epoch #48 | Optimizing
2025-04-02 16:23:01 | [rl2_trainer] epoch #48 | Computing KL after
2025-04-02 16:23:02 | [rl2_trainer] epoch #48 | Computing loss after
2025-04-02 16:23:02 | [rl2_trainer] epoch #48 | Saving snapshot...
2025-04-02 16:23:02 | [rl2_trainer] epoch #48 | Saved
2025-04-02 16:23:02 | [rl2_trainer] epoch #48 | Time 9063.53 s
2025-04-02 16:23:02 | [rl2_trainer] epoch #48 | EpochTime 222.73 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -20.6169
Average/AverageReturn                        -33.1845
Average/Iteration                             48
Average/MaxReturn                             -2.30629
Average/MinReturn                            -56.0413
Average/NumEpisodes                          100
Average/StdReturn                              8.3649
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.510364
TotalEnvSteps                             490000
__unnamed_task__/AverageDiscountedReturn     -20.6169
__unnamed_task__/AverageReturn               -33.1845
__unnamed_task__/Iteration                    48
__unnamed_task__/MaxReturn                    -2.30629
__unnamed_task__/MinReturn                   -56.0413
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.3649
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.99516
policy/KL                                      0.00789699
policy/KLBefore                                0
policy/LossAfter                              -0.0209053
policy/LossBefore                             -0.00115854
policy/dLoss                                   0.0197468
----------------------------------------  ---------------
2025-04-02 16:25:22 | [rl2_trainer] epoch #49 | Optimizing policy...
2025-04-02 16:25:22 | [rl2_trainer] epoch #49 | Fitting baseline...
2025-04-02 16:25:22 | [rl2_trainer] epoch #49 | Computing loss before
2025-04-02 16:25:22 | [rl2_trainer] epoch #49 | Computing KL before
2025-04-02 16:25:23 | [rl2_trainer] epoch #49 | Optimizing
2025-04-02 16:25:57 | [rl2_trainer] epoch #49 | Computing KL after
2025-04-02 16:25:57 | [rl2_trainer] epoch #49 | Computing loss after
2025-04-02 16:25:58 | [rl2_trainer] epoch #49 | Saving snapshot...
2025-04-02 16:25:58 | [rl2_trainer] epoch #49 | Saved
2025-04-02 16:25:58 | [rl2_trainer] epoch #49 | Time 9238.99 s
2025-04-02 16:25:58 | [rl2_trainer] epoch #49 | EpochTime 175.46 s
----------------------------------------  --------------
Average/AverageDiscountedReturn              -21.7442
Average/AverageReturn                        -34.8681
Average/Iteration                             49
Average/MaxReturn                             -9.8988
Average/MinReturn                            -78.9281
Average/NumEpisodes                          100
Average/StdReturn                             10.6699
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.845796
TotalEnvSteps                             500000
__unnamed_task__/AverageDiscountedReturn     -21.7442
__unnamed_task__/AverageReturn               -34.8681
__unnamed_task__/Iteration                    49
__unnamed_task__/MaxReturn                    -9.8988
__unnamed_task__/MinReturn                   -78.9281
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    10.6699
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.97393
policy/KL                                      0.0090054
policy/KLBefore                                0
policy/LossAfter                              -0.0284811
policy/LossBefore                             -0.0106733
policy/dLoss                                   0.0178078
----------------------------------------  --------------
2025-04-02 16:28:39 | [rl2_trainer] epoch #50 | Optimizing policy...
2025-04-02 16:28:39 | [rl2_trainer] epoch #50 | Fitting baseline...
2025-04-02 16:28:39 | [rl2_trainer] epoch #50 | Computing loss before
2025-04-02 16:28:40 | [rl2_trainer] epoch #50 | Computing KL before
2025-04-02 16:28:41 | [rl2_trainer] epoch #50 | Optimizing
2025-04-02 16:29:35 | [rl2_trainer] epoch #50 | Computing KL after
2025-04-02 16:29:36 | [rl2_trainer] epoch #50 | Computing loss after
2025-04-02 16:29:37 | [rl2_trainer] epoch #50 | Saving snapshot...
2025-04-02 16:29:37 | [rl2_trainer] epoch #50 | Saved
2025-04-02 16:29:37 | [rl2_trainer] epoch #50 | Time 9458.47 s
2025-04-02 16:29:37 | [rl2_trainer] epoch #50 | EpochTime 219.48 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -21.2619
Average/AverageReturn                        -33.7635
Average/Iteration                             50
Average/MaxReturn                            -17.5448
Average/MinReturn                           -128.419
Average/NumEpisodes                          100
Average/StdReturn                             13.4672
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.551726
TotalEnvSteps                             510000
__unnamed_task__/AverageDiscountedReturn     -21.2619
__unnamed_task__/AverageReturn               -33.7635
__unnamed_task__/Iteration                    50
__unnamed_task__/MaxReturn                   -17.5448
__unnamed_task__/MinReturn                  -128.419
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    13.4672
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.95133
policy/KL                                      0.0127989
policy/KLBefore                                0
policy/LossAfter                              -0.0469733
policy/LossBefore                             -0.00813562
policy/dLoss                                   0.0388377
----------------------------------------  ---------------
2025-04-02 16:32:02 | [rl2_trainer] epoch #51 | Optimizing policy...
2025-04-02 16:32:02 | [rl2_trainer] epoch #51 | Fitting baseline...
2025-04-02 16:32:02 | [rl2_trainer] epoch #51 | Computing loss before
2025-04-02 16:32:03 | [rl2_trainer] epoch #51 | Computing KL before
2025-04-02 16:32:04 | [rl2_trainer] epoch #51 | Optimizing
2025-04-02 16:32:59 | [rl2_trainer] epoch #51 | Computing KL after
2025-04-02 16:32:59 | [rl2_trainer] epoch #51 | Computing loss after
2025-04-02 16:33:00 | [rl2_trainer] epoch #51 | Saving snapshot...
2025-04-02 16:33:00 | [rl2_trainer] epoch #51 | Saved
2025-04-02 16:33:00 | [rl2_trainer] epoch #51 | Time 9661.14 s
2025-04-02 16:33:00 | [rl2_trainer] epoch #51 | EpochTime 202.67 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -22.3747
Average/AverageReturn                        -36.0527
Average/Iteration                             51
Average/MaxReturn                            -17.0785
Average/MinReturn                            -51.7235
Average/NumEpisodes                          100
Average/StdReturn                              8.0169
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.618391
TotalEnvSteps                             520000
__unnamed_task__/AverageDiscountedReturn     -22.3747
__unnamed_task__/AverageReturn               -36.0527
__unnamed_task__/Iteration                    51
__unnamed_task__/MaxReturn                   -17.0785
__unnamed_task__/MinReturn                   -51.7235
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.0169
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.93976
policy/KL                                      0.00696894
policy/KLBefore                                0
policy/LossAfter                              -0.0217105
policy/LossBefore                             -0.0011002
policy/dLoss                                   0.0206103
----------------------------------------  ---------------
2025-04-02 16:35:37 | [rl2_trainer] epoch #52 | Optimizing policy...
2025-04-02 16:35:38 | [rl2_trainer] epoch #52 | Fitting baseline...
2025-04-02 16:35:38 | [rl2_trainer] epoch #52 | Computing loss before
2025-04-02 16:35:38 | [rl2_trainer] epoch #52 | Computing KL before
2025-04-02 16:35:39 | [rl2_trainer] epoch #52 | Optimizing
2025-04-02 16:36:16 | [rl2_trainer] epoch #52 | Computing KL after
2025-04-02 16:36:17 | [rl2_trainer] epoch #52 | Computing loss after
2025-04-02 16:36:18 | [rl2_trainer] epoch #52 | Saving snapshot...
2025-04-02 16:36:18 | [rl2_trainer] epoch #52 | Saved
2025-04-02 16:36:18 | [rl2_trainer] epoch #52 | Time 9858.60 s
2025-04-02 16:36:18 | [rl2_trainer] epoch #52 | EpochTime 197.46 s
----------------------------------------  --------------
Average/AverageDiscountedReturn              -20.2917
Average/AverageReturn                        -32.4668
Average/Iteration                             52
Average/MaxReturn                            -16.1679
Average/MinReturn                           -116.838
Average/NumEpisodes                          100
Average/StdReturn                             13.4765
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.48551
TotalEnvSteps                             530000
__unnamed_task__/AverageDiscountedReturn     -20.2917
__unnamed_task__/AverageReturn               -32.4668
__unnamed_task__/Iteration                    52
__unnamed_task__/MaxReturn                   -16.1679
__unnamed_task__/MinReturn                  -116.838
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    13.4765
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.93587
policy/KL                                      0.0076699
policy/KLBefore                                0
policy/LossAfter                              -0.0773133
policy/LossBefore                             -0.0241693
policy/dLoss                                   0.053144
----------------------------------------  --------------
2025-04-02 16:38:27 | [rl2_trainer] epoch #53 | Optimizing policy...
2025-04-02 16:38:28 | [rl2_trainer] epoch #53 | Fitting baseline...
2025-04-02 16:38:28 | [rl2_trainer] epoch #53 | Computing loss before
2025-04-02 16:38:28 | [rl2_trainer] epoch #53 | Computing KL before
2025-04-02 16:38:29 | [rl2_trainer] epoch #53 | Optimizing
2025-04-02 16:39:04 | [rl2_trainer] epoch #53 | Computing KL after
2025-04-02 16:39:05 | [rl2_trainer] epoch #53 | Computing loss after
2025-04-02 16:39:06 | [rl2_trainer] epoch #53 | Saving snapshot...
2025-04-02 16:39:06 | [rl2_trainer] epoch #53 | Saved
2025-04-02 16:39:06 | [rl2_trainer] epoch #53 | Time 10026.75 s
2025-04-02 16:39:06 | [rl2_trainer] epoch #53 | EpochTime 168.15 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -20.1216
Average/AverageReturn                        -32.0326
Average/Iteration                             53
Average/MaxReturn                            -16.3669
Average/MinReturn                            -57.5895
Average/NumEpisodes                          100
Average/StdReturn                              6.56069
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.44894
TotalEnvSteps                             540000
__unnamed_task__/AverageDiscountedReturn     -20.1216
__unnamed_task__/AverageReturn               -32.0326
__unnamed_task__/Iteration                    53
__unnamed_task__/MaxReturn                   -16.3669
__unnamed_task__/MinReturn                   -57.5895
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     6.56069
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.92341
policy/KL                                      0.00912862
policy/KLBefore                                0
policy/LossAfter                              -0.019505
policy/LossBefore                             -0.00553963
policy/dLoss                                   0.0139654
----------------------------------------  ---------------
2025-04-02 16:41:56 | [rl2_trainer] epoch #54 | Optimizing policy...
2025-04-02 16:41:57 | [rl2_trainer] epoch #54 | Fitting baseline...
2025-04-02 16:41:57 | [rl2_trainer] epoch #54 | Computing loss before
2025-04-02 16:41:57 | [rl2_trainer] epoch #54 | Computing KL before
2025-04-02 16:41:58 | [rl2_trainer] epoch #54 | Optimizing
2025-04-02 16:42:33 | [rl2_trainer] epoch #54 | Computing KL after
2025-04-02 16:42:34 | [rl2_trainer] epoch #54 | Computing loss after
2025-04-02 16:42:35 | [rl2_trainer] epoch #54 | Saving snapshot...
2025-04-02 16:42:35 | [rl2_trainer] epoch #54 | Saved
2025-04-02 16:42:35 | [rl2_trainer] epoch #54 | Time 10235.93 s
2025-04-02 16:42:35 | [rl2_trainer] epoch #54 | EpochTime 209.18 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -18.658
Average/AverageReturn                        -29.822
Average/Iteration                             54
Average/MaxReturn                            -12.9239
Average/MinReturn                            -65.7933
Average/NumEpisodes                          100
Average/StdReturn                              8.60786
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.52565
TotalEnvSteps                             550000
__unnamed_task__/AverageDiscountedReturn     -18.658
__unnamed_task__/AverageReturn               -29.822
__unnamed_task__/Iteration                    54
__unnamed_task__/MaxReturn                   -12.9239
__unnamed_task__/MinReturn                   -65.7933
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.60786
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.89343
policy/KL                                      0.00790403
policy/KLBefore                                0
policy/LossAfter                              -0.0198817
policy/LossBefore                              0.00086424
policy/dLoss                                   0.020746
----------------------------------------  ---------------
2025-04-02 16:44:48 | [rl2_trainer] epoch #55 | Optimizing policy...
2025-04-02 16:44:48 | [rl2_trainer] epoch #55 | Fitting baseline...
2025-04-02 16:44:48 | [rl2_trainer] epoch #55 | Computing loss before
2025-04-02 16:44:49 | [rl2_trainer] epoch #55 | Computing KL before
2025-04-02 16:44:49 | [rl2_trainer] epoch #55 | Optimizing
2025-04-02 16:45:26 | [rl2_trainer] epoch #55 | Computing KL after
2025-04-02 16:45:27 | [rl2_trainer] epoch #55 | Computing loss after
2025-04-02 16:45:28 | [rl2_trainer] epoch #55 | Saving snapshot...
2025-04-02 16:45:28 | [rl2_trainer] epoch #55 | Saved
2025-04-02 16:45:28 | [rl2_trainer] epoch #55 | Time 10408.77 s
2025-04-02 16:45:28 | [rl2_trainer] epoch #55 | EpochTime 172.84 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -20.9892
Average/AverageReturn                        -33.5099
Average/Iteration                             55
Average/MaxReturn                            -17.9884
Average/MinReturn                            -56.0661
Average/NumEpisodes                          100
Average/StdReturn                              8.44971
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.770996
TotalEnvSteps                             560000
__unnamed_task__/AverageDiscountedReturn     -20.9892
__unnamed_task__/AverageReturn               -33.5099
__unnamed_task__/Iteration                    55
__unnamed_task__/MaxReturn                   -17.9884
__unnamed_task__/MinReturn                   -56.0661
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.44971
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.87251
policy/KL                                      0.00829308
policy/KLBefore                                0
policy/LossAfter                              -0.0142319
policy/LossBefore                              0.00352098
policy/dLoss                                   0.0177528
----------------------------------------  ---------------
2025-04-02 16:47:57 | [rl2_trainer] epoch #56 | Optimizing policy...
2025-04-02 16:47:57 | [rl2_trainer] epoch #56 | Fitting baseline...
2025-04-02 16:47:57 | [rl2_trainer] epoch #56 | Computing loss before
2025-04-02 16:47:58 | [rl2_trainer] epoch #56 | Computing KL before
2025-04-02 16:47:59 | [rl2_trainer] epoch #56 | Optimizing
2025-04-02 16:48:35 | [rl2_trainer] epoch #56 | Computing KL after
2025-04-02 16:48:35 | [rl2_trainer] epoch #56 | Computing loss after
2025-04-02 16:48:36 | [rl2_trainer] epoch #56 | Saving snapshot...
2025-04-02 16:48:36 | [rl2_trainer] epoch #56 | Saved
2025-04-02 16:48:36 | [rl2_trainer] epoch #56 | Time 10597.34 s
2025-04-02 16:48:36 | [rl2_trainer] epoch #56 | EpochTime 188.57 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -18.7127
Average/AverageReturn                        -29.548
Average/Iteration                             56
Average/MaxReturn                             -5.2361
Average/MinReturn                            -55.2471
Average/NumEpisodes                          100
Average/StdReturn                              7.84962
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.540963
TotalEnvSteps                             570000
__unnamed_task__/AverageDiscountedReturn     -18.7127
__unnamed_task__/AverageReturn               -29.548
__unnamed_task__/Iteration                    56
__unnamed_task__/MaxReturn                    -5.2361
__unnamed_task__/MinReturn                   -55.2471
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.84962
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.85014
policy/KL                                      0.0106551
policy/KLBefore                                0
policy/LossAfter                              -0.0236673
policy/LossBefore                             -0.00110388
policy/dLoss                                   0.0225634
----------------------------------------  ---------------
2025-04-02 16:50:49 | [rl2_trainer] epoch #57 | Optimizing policy...
2025-04-02 16:50:49 | [rl2_trainer] epoch #57 | Fitting baseline...
2025-04-02 16:50:49 | [rl2_trainer] epoch #57 | Computing loss before
2025-04-02 16:50:50 | [rl2_trainer] epoch #57 | Computing KL before
2025-04-02 16:50:50 | [rl2_trainer] epoch #57 | Optimizing
2025-04-02 16:51:27 | [rl2_trainer] epoch #57 | Computing KL after
2025-04-02 16:51:27 | [rl2_trainer] epoch #57 | Computing loss after
2025-04-02 16:51:28 | [rl2_trainer] epoch #57 | Saving snapshot...
2025-04-02 16:51:28 | [rl2_trainer] epoch #57 | Saved
2025-04-02 16:51:28 | [rl2_trainer] epoch #57 | Time 10769.46 s
2025-04-02 16:51:28 | [rl2_trainer] epoch #57 | EpochTime 172.11 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -20.8349
Average/AverageReturn                        -33.347
Average/Iteration                             57
Average/MaxReturn                             -1.37432
Average/MinReturn                            -65.6849
Average/NumEpisodes                          100
Average/StdReturn                              9.15828
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.643444
TotalEnvSteps                             580000
__unnamed_task__/AverageDiscountedReturn     -20.8349
__unnamed_task__/AverageReturn               -33.347
__unnamed_task__/Iteration                    57
__unnamed_task__/MaxReturn                    -1.37432
__unnamed_task__/MinReturn                   -65.6849
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     9.15828
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.8362
policy/KL                                      0.00756163
policy/KLBefore                                0
policy/LossAfter                              -0.0312189
policy/LossBefore                             -0.00653902
policy/dLoss                                   0.0246799
----------------------------------------  ---------------
2025-04-02 16:53:29 | [rl2_trainer] epoch #58 | Optimizing policy...
2025-04-02 16:53:29 | [rl2_trainer] epoch #58 | Fitting baseline...
2025-04-02 16:53:29 | [rl2_trainer] epoch #58 | Computing loss before
2025-04-02 16:53:29 | [rl2_trainer] epoch #58 | Computing KL before
2025-04-02 16:53:30 | [rl2_trainer] epoch #58 | Optimizing
2025-04-02 16:54:07 | [rl2_trainer] epoch #58 | Computing KL after
2025-04-02 16:54:07 | [rl2_trainer] epoch #58 | Computing loss after
2025-04-02 16:54:08 | [rl2_trainer] epoch #58 | Saving snapshot...
2025-04-02 16:54:08 | [rl2_trainer] epoch #58 | Saved
2025-04-02 16:54:08 | [rl2_trainer] epoch #58 | Time 10929.31 s
2025-04-02 16:54:08 | [rl2_trainer] epoch #58 | EpochTime 159.85 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -22.0875
Average/AverageReturn                        -35.3391
Average/Iteration                             58
Average/MaxReturn                            -18.2012
Average/MinReturn                            -58.3934
Average/NumEpisodes                          100
Average/StdReturn                              7.39697
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.521148
TotalEnvSteps                             590000
__unnamed_task__/AverageDiscountedReturn     -22.0875
__unnamed_task__/AverageReturn               -35.3391
__unnamed_task__/Iteration                    58
__unnamed_task__/MaxReturn                   -18.2012
__unnamed_task__/MinReturn                   -58.3934
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.39697
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.80903
policy/KL                                      0.00879134
policy/KLBefore                                0
policy/LossAfter                              -0.0131995
policy/LossBefore                              0.00278304
policy/dLoss                                   0.0159825
----------------------------------------  ---------------
2025-04-02 16:56:32 | [rl2_trainer] epoch #59 | Optimizing policy...
2025-04-02 16:56:32 | [rl2_trainer] epoch #59 | Fitting baseline...
2025-04-02 16:56:32 | [rl2_trainer] epoch #59 | Computing loss before
2025-04-02 16:56:32 | [rl2_trainer] epoch #59 | Computing KL before
2025-04-02 16:56:33 | [rl2_trainer] epoch #59 | Optimizing
2025-04-02 16:57:07 | [rl2_trainer] epoch #59 | Computing KL after
2025-04-02 16:57:08 | [rl2_trainer] epoch #59 | Computing loss after
2025-04-02 16:57:09 | [rl2_trainer] epoch #59 | Saving snapshot...
2025-04-02 16:57:09 | [rl2_trainer] epoch #59 | Saved
2025-04-02 16:57:09 | [rl2_trainer] epoch #59 | Time 11109.59 s
2025-04-02 16:57:09 | [rl2_trainer] epoch #59 | EpochTime 180.27 s
----------------------------------------  ----------------
Average/AverageDiscountedReturn              -18.8211
Average/AverageReturn                        -29.364
Average/Iteration                             59
Average/MaxReturn                             -3.92344
Average/MinReturn                           -119.896
Average/NumEpisodes                          100
Average/StdReturn                             11.612
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.613141
TotalEnvSteps                             600000
__unnamed_task__/AverageDiscountedReturn     -18.8211
__unnamed_task__/AverageReturn               -29.364
__unnamed_task__/Iteration                    59
__unnamed_task__/MaxReturn                    -3.92344
__unnamed_task__/MinReturn                  -119.896
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    11.612
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.78754
policy/KL                                      0.0088165
policy/KLBefore                                0
policy/LossAfter                              -0.0274895
policy/LossBefore                             -0.000932056
policy/dLoss                                   0.0265575
----------------------------------------  ----------------
2025-04-02 16:58:36 | [rl2_trainer] epoch #60 | Optimizing policy...
2025-04-02 16:58:36 | [rl2_trainer] epoch #60 | Fitting baseline...
2025-04-02 16:58:36 | [rl2_trainer] epoch #60 | Computing loss before
2025-04-02 16:58:37 | [rl2_trainer] epoch #60 | Computing KL before
2025-04-02 16:58:38 | [rl2_trainer] epoch #60 | Optimizing
2025-04-02 16:59:15 | [rl2_trainer] epoch #60 | Computing KL after
2025-04-02 16:59:15 | [rl2_trainer] epoch #60 | Computing loss after
2025-04-02 16:59:16 | [rl2_trainer] epoch #60 | Saving snapshot...
2025-04-02 16:59:16 | [rl2_trainer] epoch #60 | Saved
2025-04-02 16:59:16 | [rl2_trainer] epoch #60 | Time 11237.12 s
2025-04-02 16:59:16 | [rl2_trainer] epoch #60 | EpochTime 127.53 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -21.2685
Average/AverageReturn                        -33.7593
Average/Iteration                             60
Average/MaxReturn                            -16.0001
Average/MinReturn                            -50.1409
Average/NumEpisodes                          100
Average/StdReturn                              7.09862
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.747962
TotalEnvSteps                             610000
__unnamed_task__/AverageDiscountedReturn     -21.2685
__unnamed_task__/AverageReturn               -33.7593
__unnamed_task__/Iteration                    60
__unnamed_task__/MaxReturn                   -16.0001
__unnamed_task__/MinReturn                   -50.1409
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.09862
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.77367
policy/KL                                      0.0059244
policy/KLBefore                                0
policy/LossAfter                              -0.0195335
policy/LossBefore                             -0.00575612
policy/dLoss                                   0.0137774
----------------------------------------  ---------------
2025-04-02 17:01:40 | [rl2_trainer] epoch #61 | Optimizing policy...
2025-04-02 17:01:41 | [rl2_trainer] epoch #61 | Fitting baseline...
2025-04-02 17:01:41 | [rl2_trainer] epoch #61 | Computing loss before
2025-04-02 17:01:41 | [rl2_trainer] epoch #61 | Computing KL before
2025-04-02 17:01:42 | [rl2_trainer] epoch #61 | Optimizing
2025-04-02 17:02:18 | [rl2_trainer] epoch #61 | Computing KL after
2025-04-02 17:02:19 | [rl2_trainer] epoch #61 | Computing loss after
2025-04-02 17:02:20 | [rl2_trainer] epoch #61 | Saving snapshot...
2025-04-02 17:02:20 | [rl2_trainer] epoch #61 | Saved
2025-04-02 17:02:20 | [rl2_trainer] epoch #61 | Time 11421.07 s
2025-04-02 17:02:20 | [rl2_trainer] epoch #61 | EpochTime 183.95 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -16.7001
Average/AverageReturn                        -26.0693
Average/Iteration                             61
Average/MaxReturn                             -6.43316
Average/MinReturn                            -54.5875
Average/NumEpisodes                          100
Average/StdReturn                              6.23999
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.406876
TotalEnvSteps                             620000
__unnamed_task__/AverageDiscountedReturn     -16.7001
__unnamed_task__/AverageReturn               -26.0693
__unnamed_task__/Iteration                    61
__unnamed_task__/MaxReturn                    -6.43316
__unnamed_task__/MinReturn                   -54.5875
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     6.23999
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.74092
policy/KL                                      0.0118063
policy/KLBefore                                0
policy/LossAfter                              -0.00224084
policy/LossBefore                              0.00637992
policy/dLoss                                   0.00862076
----------------------------------------  ---------------
2025-04-02 17:04:18 | [rl2_trainer] epoch #62 | Optimizing policy...
2025-04-02 17:04:18 | [rl2_trainer] epoch #62 | Fitting baseline...
2025-04-02 17:04:18 | [rl2_trainer] epoch #62 | Computing loss before
2025-04-02 17:04:19 | [rl2_trainer] epoch #62 | Computing KL before
2025-04-02 17:04:20 | [rl2_trainer] epoch #62 | Optimizing
2025-04-02 17:04:54 | [rl2_trainer] epoch #62 | Computing KL after
2025-04-02 17:04:55 | [rl2_trainer] epoch #62 | Computing loss after
2025-04-02 17:04:55 | [rl2_trainer] epoch #62 | Saving snapshot...
2025-04-02 17:04:55 | [rl2_trainer] epoch #62 | Saved
2025-04-02 17:04:55 | [rl2_trainer] epoch #62 | Time 11576.45 s
2025-04-02 17:04:55 | [rl2_trainer] epoch #62 | EpochTime 155.37 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -21.8793
Average/AverageReturn                        -34.7923
Average/Iteration                             62
Average/MaxReturn                            -16.7298
Average/MinReturn                            -63.7527
Average/NumEpisodes                          100
Average/StdReturn                              7.96606
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.579239
TotalEnvSteps                             630000
__unnamed_task__/AverageDiscountedReturn     -21.8793
__unnamed_task__/AverageReturn               -34.7923
__unnamed_task__/Iteration                    62
__unnamed_task__/MaxReturn                   -16.7298
__unnamed_task__/MinReturn                   -63.7527
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.96606
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.70829
policy/KL                                      0.00796104
policy/KLBefore                                0
policy/LossAfter                              -0.0342756
policy/LossBefore                             -0.0199404
policy/dLoss                                   0.0143352
----------------------------------------  ---------------
2025-04-02 17:06:57 | [rl2_trainer] epoch #63 | Optimizing policy...
2025-04-02 17:06:57 | [rl2_trainer] epoch #63 | Fitting baseline...
2025-04-02 17:06:57 | [rl2_trainer] epoch #63 | Computing loss before
2025-04-02 17:06:58 | [rl2_trainer] epoch #63 | Computing KL before
2025-04-02 17:06:58 | [rl2_trainer] epoch #63 | Optimizing
2025-04-02 17:07:31 | [rl2_trainer] epoch #63 | Computing KL after
2025-04-02 17:07:32 | [rl2_trainer] epoch #63 | Computing loss after
2025-04-02 17:07:33 | [rl2_trainer] epoch #63 | Saving snapshot...
2025-04-02 17:07:33 | [rl2_trainer] epoch #63 | Saved
2025-04-02 17:07:33 | [rl2_trainer] epoch #63 | Time 11733.78 s
2025-04-02 17:07:33 | [rl2_trainer] epoch #63 | EpochTime 157.33 s
----------------------------------------  --------------
Average/AverageDiscountedReturn              -21.617
Average/AverageReturn                        -34.4945
Average/Iteration                             63
Average/MaxReturn                            -19.475
Average/MinReturn                            -57.7843
Average/NumEpisodes                          100
Average/StdReturn                              7.92493
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.553119
TotalEnvSteps                             640000
__unnamed_task__/AverageDiscountedReturn     -21.617
__unnamed_task__/AverageReturn               -34.4945
__unnamed_task__/Iteration                    63
__unnamed_task__/MaxReturn                   -19.475
__unnamed_task__/MinReturn                   -57.7843
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.92493
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.68952
policy/KL                                      0.0133732
policy/KLBefore                                0
policy/LossAfter                              -0.0150976
policy/LossBefore                              0.0041983
policy/dLoss                                   0.0192959
----------------------------------------  --------------
2025-04-02 17:09:51 | [rl2_trainer] epoch #64 | Optimizing policy...
2025-04-02 17:09:51 | [rl2_trainer] epoch #64 | Fitting baseline...
2025-04-02 17:09:51 | [rl2_trainer] epoch #64 | Computing loss before
2025-04-02 17:09:52 | [rl2_trainer] epoch #64 | Computing KL before
2025-04-02 17:09:52 | [rl2_trainer] epoch #64 | Optimizing
2025-04-02 17:10:25 | [rl2_trainer] epoch #64 | Computing KL after
2025-04-02 17:10:26 | [rl2_trainer] epoch #64 | Computing loss after
2025-04-02 17:10:27 | [rl2_trainer] epoch #64 | Saving snapshot...
2025-04-02 17:10:27 | [rl2_trainer] epoch #64 | Saved
2025-04-02 17:10:27 | [rl2_trainer] epoch #64 | Time 11907.89 s
2025-04-02 17:10:27 | [rl2_trainer] epoch #64 | EpochTime 174.11 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -17.527
Average/AverageReturn                        -27.2251
Average/Iteration                             64
Average/MaxReturn                             -6.26573
Average/MinReturn                           -119.984
Average/NumEpisodes                          100
Average/StdReturn                             11.6282
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.50876
TotalEnvSteps                             650000
__unnamed_task__/AverageDiscountedReturn     -17.527
__unnamed_task__/AverageReturn               -27.2251
__unnamed_task__/Iteration                    64
__unnamed_task__/MaxReturn                    -6.26573
__unnamed_task__/MinReturn                  -119.984
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    11.6282
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.6534
policy/KL                                      0.0126138
policy/KLBefore                                0
policy/LossAfter                              -0.0331193
policy/LossBefore                             -0.00935867
policy/dLoss                                   0.0237606
----------------------------------------  ---------------
2025-04-02 17:12:22 | [rl2_trainer] epoch #65 | Optimizing policy...
2025-04-02 17:12:23 | [rl2_trainer] epoch #65 | Fitting baseline...
2025-04-02 17:12:23 | [rl2_trainer] epoch #65 | Computing loss before
2025-04-02 17:12:23 | [rl2_trainer] epoch #65 | Computing KL before
2025-04-02 17:12:24 | [rl2_trainer] epoch #65 | Optimizing
2025-04-02 17:13:00 | [rl2_trainer] epoch #65 | Computing KL after
2025-04-02 17:13:00 | [rl2_trainer] epoch #65 | Computing loss after
2025-04-02 17:13:01 | [rl2_trainer] epoch #65 | Saving snapshot...
2025-04-02 17:13:01 | [rl2_trainer] epoch #65 | Saved
2025-04-02 17:13:01 | [rl2_trainer] epoch #65 | Time 12062.09 s
2025-04-02 17:13:01 | [rl2_trainer] epoch #65 | EpochTime 154.20 s
----------------------------------------  ----------------
Average/AverageDiscountedReturn              -21.6073
Average/AverageReturn                        -34.3929
Average/Iteration                             65
Average/MaxReturn                            -12.1597
Average/MinReturn                            -64.8175
Average/NumEpisodes                          100
Average/StdReturn                              8.06208
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.504918
TotalEnvSteps                             660000
__unnamed_task__/AverageDiscountedReturn     -21.6073
__unnamed_task__/AverageReturn               -34.3929
__unnamed_task__/Iteration                    65
__unnamed_task__/MaxReturn                   -12.1597
__unnamed_task__/MinReturn                   -64.8175
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.06208
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.61941
policy/KL                                      0.0128658
policy/KLBefore                                0
policy/LossAfter                              -0.0200526
policy/LossBefore                              0.000431287
policy/dLoss                                   0.0204839
----------------------------------------  ----------------
2025-04-02 17:16:44 | [rl2_trainer] epoch #66 | Optimizing policy...
2025-04-02 17:16:45 | [rl2_trainer] epoch #66 | Fitting baseline...
2025-04-02 17:16:45 | [rl2_trainer] epoch #66 | Computing loss before
2025-04-02 17:16:45 | [rl2_trainer] epoch #66 | Computing KL before
2025-04-02 17:16:46 | [rl2_trainer] epoch #66 | Optimizing
2025-04-02 17:17:23 | [rl2_trainer] epoch #66 | Computing KL after
2025-04-02 17:17:23 | [rl2_trainer] epoch #66 | Computing loss after
2025-04-02 17:17:24 | [rl2_trainer] epoch #66 | Saving snapshot...
2025-04-02 17:17:24 | [rl2_trainer] epoch #66 | Saved
2025-04-02 17:17:24 | [rl2_trainer] epoch #66 | Time 12325.28 s
2025-04-02 17:17:24 | [rl2_trainer] epoch #66 | EpochTime 263.19 s
----------------------------------------  --------------
Average/AverageDiscountedReturn              -19.7186
Average/AverageReturn                        -31.6136
Average/Iteration                             66
Average/MaxReturn                              2.64321
Average/MinReturn                            -77.5506
Average/NumEpisodes                          100
Average/StdReturn                             10.4296
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance       -1.48067
TotalEnvSteps                             670000
__unnamed_task__/AverageDiscountedReturn     -19.7186
__unnamed_task__/AverageReturn               -31.6136
__unnamed_task__/Iteration                    66
__unnamed_task__/MaxReturn                     2.64321
__unnamed_task__/MinReturn                   -77.5506
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    10.4296
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.56751
policy/KL                                      0.0158801
policy/KLBefore                                0
policy/LossAfter                              -0.10466
policy/LossBefore                              0.0137479
policy/dLoss                                   0.118408
----------------------------------------  --------------
2025-04-02 17:18:59 | [rl2_trainer] epoch #67 | Optimizing policy...
2025-04-02 17:19:00 | [rl2_trainer] epoch #67 | Fitting baseline...
2025-04-02 17:19:00 | [rl2_trainer] epoch #67 | Computing loss before
2025-04-02 17:19:00 | [rl2_trainer] epoch #67 | Computing KL before
2025-04-02 17:19:01 | [rl2_trainer] epoch #67 | Optimizing
2025-04-02 17:19:35 | [rl2_trainer] epoch #67 | Computing KL after
2025-04-02 17:19:35 | [rl2_trainer] epoch #67 | Computing loss after
2025-04-02 17:19:37 | [rl2_trainer] epoch #67 | Saving snapshot...
2025-04-02 17:19:37 | [rl2_trainer] epoch #67 | Saved
2025-04-02 17:19:37 | [rl2_trainer] epoch #67 | Time 12457.92 s
2025-04-02 17:19:37 | [rl2_trainer] epoch #67 | EpochTime 132.64 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -19.8305
Average/AverageReturn                        -31.0862
Average/Iteration                             67
Average/MaxReturn                            -17.3939
Average/MinReturn                            -70.3912
Average/NumEpisodes                          100
Average/StdReturn                              6.47901
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.394212
TotalEnvSteps                             680000
__unnamed_task__/AverageDiscountedReturn     -19.8305
__unnamed_task__/AverageReturn               -31.0862
__unnamed_task__/Iteration                    67
__unnamed_task__/MaxReturn                   -17.3939
__unnamed_task__/MinReturn                   -70.3912
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     6.47901
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.53476
policy/KL                                      0.0081072
policy/KLBefore                                0
policy/LossAfter                              -0.00519544
policy/LossBefore                              0.00409046
policy/dLoss                                   0.00928591
----------------------------------------  ---------------
2025-04-02 17:23:40 | [rl2_trainer] epoch #68 | Optimizing policy...
2025-04-02 17:23:41 | [rl2_trainer] epoch #68 | Fitting baseline...
2025-04-02 17:23:41 | [rl2_trainer] epoch #68 | Computing loss before
2025-04-02 17:23:41 | [rl2_trainer] epoch #68 | Computing KL before
2025-04-02 17:23:42 | [rl2_trainer] epoch #68 | Optimizing
2025-04-02 17:24:17 | [rl2_trainer] epoch #68 | Computing KL after
2025-04-02 17:24:18 | [rl2_trainer] epoch #68 | Computing loss after
2025-04-02 17:24:19 | [rl2_trainer] epoch #68 | Saving snapshot...
2025-04-02 17:24:19 | [rl2_trainer] epoch #68 | Saved
2025-04-02 17:24:19 | [rl2_trainer] epoch #68 | Time 12739.58 s
2025-04-02 17:24:19 | [rl2_trainer] epoch #68 | EpochTime 281.65 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -19.6783
Average/AverageReturn                        -31.8856
Average/Iteration                             68
Average/MaxReturn                            -13.382
Average/MinReturn                            -79.8428
Average/NumEpisodes                          100
Average/StdReturn                              9.25318
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.657206
TotalEnvSteps                             690000
__unnamed_task__/AverageDiscountedReturn     -19.6783
__unnamed_task__/AverageReturn               -31.8856
__unnamed_task__/Iteration                    68
__unnamed_task__/MaxReturn                   -13.382
__unnamed_task__/MinReturn                   -79.8428
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     9.25318
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.52831
policy/KL                                      0.0160795
policy/KLBefore                                0
policy/LossAfter                              -0.0217415
policy/LossBefore                              0.00883037
policy/dLoss                                   0.0305719
----------------------------------------  ---------------
2025-04-02 17:25:46 | [rl2_trainer] epoch #69 | Optimizing policy...
2025-04-02 17:25:46 | [rl2_trainer] epoch #69 | Fitting baseline...
2025-04-02 17:25:46 | [rl2_trainer] epoch #69 | Computing loss before
2025-04-02 17:25:47 | [rl2_trainer] epoch #69 | Computing KL before
2025-04-02 17:25:47 | [rl2_trainer] epoch #69 | Optimizing
2025-04-02 17:26:22 | [rl2_trainer] epoch #69 | Computing KL after
2025-04-02 17:26:23 | [rl2_trainer] epoch #69 | Computing loss after
2025-04-02 17:26:24 | [rl2_trainer] epoch #69 | Saving snapshot...
2025-04-02 17:26:24 | [rl2_trainer] epoch #69 | Saved
2025-04-02 17:26:24 | [rl2_trainer] epoch #69 | Time 12865.02 s
2025-04-02 17:26:24 | [rl2_trainer] epoch #69 | EpochTime 125.44 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -19.4014
Average/AverageReturn                        -30.2535
Average/Iteration                             69
Average/MaxReturn                            -12.5301
Average/MinReturn                            -58.2306
Average/NumEpisodes                          100
Average/StdReturn                              6.4524
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.425714
TotalEnvSteps                             700000
__unnamed_task__/AverageDiscountedReturn     -19.4014
__unnamed_task__/AverageReturn               -30.2535
__unnamed_task__/Iteration                    69
__unnamed_task__/MaxReturn                   -12.5301
__unnamed_task__/MinReturn                   -58.2306
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     6.4524
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.50789
policy/KL                                      0.00709639
policy/KLBefore                                0
policy/LossAfter                              -0.0264526
policy/LossBefore                             -0.00710552
policy/dLoss                                   0.0193471
----------------------------------------  ---------------
2025-04-02 17:28:50 | [rl2_trainer] epoch #70 | Optimizing policy...
2025-04-02 17:28:51 | [rl2_trainer] epoch #70 | Fitting baseline...
2025-04-02 17:28:51 | [rl2_trainer] epoch #70 | Computing loss before
2025-04-02 17:28:51 | [rl2_trainer] epoch #70 | Computing KL before
2025-04-02 17:28:52 | [rl2_trainer] epoch #70 | Optimizing
2025-04-02 17:29:29 | [rl2_trainer] epoch #70 | Computing KL after
2025-04-02 17:29:30 | [rl2_trainer] epoch #70 | Computing loss after
2025-04-02 17:29:31 | [rl2_trainer] epoch #70 | Saving snapshot...
2025-04-02 17:29:31 | [rl2_trainer] epoch #70 | Saved
2025-04-02 17:29:31 | [rl2_trainer] epoch #70 | Time 13051.54 s
2025-04-02 17:29:31 | [rl2_trainer] epoch #70 | EpochTime 186.51 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -18.2694
Average/AverageReturn                        -29.0326
Average/Iteration                             70
Average/MaxReturn                             -3.08938
Average/MinReturn                            -75.421
Average/NumEpisodes                          100
Average/StdReturn                              9.32323
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.486487
TotalEnvSteps                             710000
__unnamed_task__/AverageDiscountedReturn     -18.2694
__unnamed_task__/AverageReturn               -29.0326
__unnamed_task__/Iteration                    70
__unnamed_task__/MaxReturn                    -3.08938
__unnamed_task__/MinReturn                   -75.421
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     9.32323
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.46176
policy/KL                                      0.00954889
policy/KLBefore                                0
policy/LossAfter                              -0.0245641
policy/LossBefore                              0.00130126
policy/dLoss                                   0.0258654
----------------------------------------  ---------------
2025-04-02 17:31:38 | [rl2_trainer] epoch #71 | Optimizing policy...
2025-04-02 17:31:38 | [rl2_trainer] epoch #71 | Fitting baseline...
2025-04-02 17:31:38 | [rl2_trainer] epoch #71 | Computing loss before
2025-04-02 17:31:39 | [rl2_trainer] epoch #71 | Computing KL before
2025-04-02 17:31:39 | [rl2_trainer] epoch #71 | Optimizing
2025-04-02 17:32:15 | [rl2_trainer] epoch #71 | Computing KL after
2025-04-02 17:32:16 | [rl2_trainer] epoch #71 | Computing loss after
2025-04-02 17:32:17 | [rl2_trainer] epoch #71 | Saving snapshot...
2025-04-02 17:32:17 | [rl2_trainer] epoch #71 | Saved
2025-04-02 17:32:17 | [rl2_trainer] epoch #71 | Time 13218.14 s
2025-04-02 17:32:17 | [rl2_trainer] epoch #71 | EpochTime 166.60 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -19.7301
Average/AverageReturn                        -31.4064
Average/Iteration                             71
Average/MaxReturn                              4.67825
Average/MinReturn                            -66.8113
Average/NumEpisodes                          100
Average/StdReturn                              9.30279
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.67267
TotalEnvSteps                             720000
__unnamed_task__/AverageDiscountedReturn     -19.7301
__unnamed_task__/AverageReturn               -31.4064
__unnamed_task__/Iteration                    71
__unnamed_task__/MaxReturn                     4.67825
__unnamed_task__/MinReturn                   -66.8113
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     9.30279
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.42646
policy/KL                                      0.0154049
policy/KLBefore                                0
policy/LossAfter                              -0.0180328
policy/LossBefore                             -0.00352194
policy/dLoss                                   0.0145108
----------------------------------------  ---------------
2025-04-02 17:34:30 | [rl2_trainer] epoch #72 | Optimizing policy...
2025-04-02 17:34:30 | [rl2_trainer] epoch #72 | Fitting baseline...
2025-04-02 17:34:30 | [rl2_trainer] epoch #72 | Computing loss before
2025-04-02 17:34:31 | [rl2_trainer] epoch #72 | Computing KL before
2025-04-02 17:34:31 | [rl2_trainer] epoch #72 | Optimizing
2025-04-02 17:35:05 | [rl2_trainer] epoch #72 | Computing KL after
2025-04-02 17:35:06 | [rl2_trainer] epoch #72 | Computing loss after
2025-04-02 17:35:06 | [rl2_trainer] epoch #72 | Saving snapshot...
2025-04-02 17:35:06 | [rl2_trainer] epoch #72 | Saved
2025-04-02 17:35:06 | [rl2_trainer] epoch #72 | Time 13387.38 s
2025-04-02 17:35:06 | [rl2_trainer] epoch #72 | EpochTime 169.25 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -18.3205
Average/AverageReturn                        -28.8476
Average/Iteration                             72
Average/MaxReturn                            -16.7907
Average/MinReturn                            -48.758
Average/NumEpisodes                          100
Average/StdReturn                              7.12233
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.824156
TotalEnvSteps                             730000
__unnamed_task__/AverageDiscountedReturn     -18.3205
__unnamed_task__/AverageReturn               -28.8476
__unnamed_task__/Iteration                    72
__unnamed_task__/MaxReturn                   -16.7907
__unnamed_task__/MinReturn                   -48.758
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.12233
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.40385
policy/KL                                      0.00875085
policy/KLBefore                                0
policy/LossAfter                              -0.00755148
policy/LossBefore                              0.00234323
policy/dLoss                                   0.00989471
----------------------------------------  ---------------
2025-04-02 17:38:55 | [rl2_trainer] epoch #73 | Optimizing policy...
2025-04-02 17:38:55 | [rl2_trainer] epoch #73 | Fitting baseline...
2025-04-02 17:38:55 | [rl2_trainer] epoch #73 | Computing loss before
2025-04-02 17:38:56 | [rl2_trainer] epoch #73 | Computing KL before
2025-04-02 17:38:56 | [rl2_trainer] epoch #73 | Optimizing
2025-04-02 17:39:32 | [rl2_trainer] epoch #73 | Computing KL after
2025-04-02 17:39:32 | [rl2_trainer] epoch #73 | Computing loss after
2025-04-02 17:39:33 | [rl2_trainer] epoch #73 | Saving snapshot...
2025-04-02 17:39:33 | [rl2_trainer] epoch #73 | Saved
2025-04-02 17:39:33 | [rl2_trainer] epoch #73 | Time 13654.21 s
2025-04-02 17:39:33 | [rl2_trainer] epoch #73 | EpochTime 266.82 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -16.2673
Average/AverageReturn                        -25.9476
Average/Iteration                             73
Average/MaxReturn                              0.811113
Average/MinReturn                            -63.9558
Average/NumEpisodes                          100
Average/StdReturn                              8.96829
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.555954
TotalEnvSteps                             740000
__unnamed_task__/AverageDiscountedReturn     -16.2673
__unnamed_task__/AverageReturn               -25.9476
__unnamed_task__/Iteration                    73
__unnamed_task__/MaxReturn                     0.811113
__unnamed_task__/MinReturn                   -63.9558
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.96829
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.37519
policy/KL                                      0.00693271
policy/KLBefore                                0
policy/LossAfter                              -0.0452516
policy/LossBefore                             -0.0218726
policy/dLoss                                   0.0233789
----------------------------------------  ---------------
2025-04-02 17:42:06 | [rl2_trainer] epoch #74 | Optimizing policy...
2025-04-02 17:42:06 | [rl2_trainer] epoch #74 | Fitting baseline...
2025-04-02 17:42:06 | [rl2_trainer] epoch #74 | Computing loss before
2025-04-02 17:42:07 | [rl2_trainer] epoch #74 | Computing KL before
2025-04-02 17:42:07 | [rl2_trainer] epoch #74 | Optimizing
2025-04-02 17:42:42 | [rl2_trainer] epoch #74 | Computing KL after
2025-04-02 17:42:43 | [rl2_trainer] epoch #74 | Computing loss after
2025-04-02 17:42:44 | [rl2_trainer] epoch #74 | Saving snapshot...
2025-04-02 17:42:44 | [rl2_trainer] epoch #74 | Saved
2025-04-02 17:42:44 | [rl2_trainer] epoch #74 | Time 13844.91 s
2025-04-02 17:42:44 | [rl2_trainer] epoch #74 | EpochTime 190.71 s
----------------------------------------  --------------
Average/AverageDiscountedReturn              -19.8039
Average/AverageReturn                        -31.3026
Average/Iteration                             74
Average/MaxReturn                             -8.91498
Average/MinReturn                            -65.1832
Average/NumEpisodes                          100
Average/StdReturn                              8.97218
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.527093
TotalEnvSteps                             750000
__unnamed_task__/AverageDiscountedReturn     -19.8039
__unnamed_task__/AverageReturn               -31.3026
__unnamed_task__/Iteration                    74
__unnamed_task__/MaxReturn                    -8.91498
__unnamed_task__/MinReturn                   -65.1832
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.97218
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.33487
policy/KL                                      0.0093933
policy/KLBefore                                0
policy/LossAfter                              -0.0345887
policy/LossBefore                             -0.0148107
policy/dLoss                                   0.0197779
----------------------------------------  --------------
2025-04-02 17:45:41 | [rl2_trainer] epoch #75 | Optimizing policy...
2025-04-02 17:45:42 | [rl2_trainer] epoch #75 | Fitting baseline...
2025-04-02 17:45:42 | [rl2_trainer] epoch #75 | Computing loss before
2025-04-02 17:45:42 | [rl2_trainer] epoch #75 | Computing KL before
2025-04-02 17:45:43 | [rl2_trainer] epoch #75 | Optimizing
2025-04-02 17:46:18 | [rl2_trainer] epoch #75 | Computing KL after
2025-04-02 17:46:19 | [rl2_trainer] epoch #75 | Computing loss after
2025-04-02 17:46:20 | [rl2_trainer] epoch #75 | Saving snapshot...
2025-04-02 17:46:20 | [rl2_trainer] epoch #75 | Saved
2025-04-02 17:46:20 | [rl2_trainer] epoch #75 | Time 14060.81 s
2025-04-02 17:46:20 | [rl2_trainer] epoch #75 | EpochTime 215.89 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -19.5484
Average/AverageReturn                        -31.3283
Average/Iteration                             75
Average/MaxReturn                            -14.2839
Average/MinReturn                            -64.3903
Average/NumEpisodes                          100
Average/StdReturn                              9.81454
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.797536
TotalEnvSteps                             760000
__unnamed_task__/AverageDiscountedReturn     -19.5484
__unnamed_task__/AverageReturn               -31.3283
__unnamed_task__/Iteration                    75
__unnamed_task__/MaxReturn                   -14.2839
__unnamed_task__/MinReturn                   -64.3903
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     9.81454
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.31301
policy/KL                                      0.00851202
policy/KLBefore                                0
policy/LossAfter                              -0.0205902
policy/LossBefore                             -0.00234408
policy/dLoss                                   0.0182461
----------------------------------------  ---------------
2025-04-02 17:49:17 | [rl2_trainer] epoch #76 | Optimizing policy...
2025-04-02 17:49:17 | [rl2_trainer] epoch #76 | Fitting baseline...
2025-04-02 17:49:17 | [rl2_trainer] epoch #76 | Computing loss before
2025-04-02 17:49:18 | [rl2_trainer] epoch #76 | Computing KL before
2025-04-02 17:49:19 | [rl2_trainer] epoch #76 | Optimizing
2025-04-02 17:49:55 | [rl2_trainer] epoch #76 | Computing KL after
2025-04-02 17:49:55 | [rl2_trainer] epoch #76 | Computing loss after
2025-04-02 17:49:56 | [rl2_trainer] epoch #76 | Saving snapshot...
2025-04-02 17:49:56 | [rl2_trainer] epoch #76 | Saved
2025-04-02 17:49:56 | [rl2_trainer] epoch #76 | Time 14277.26 s
2025-04-02 17:49:56 | [rl2_trainer] epoch #76 | EpochTime 216.45 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -17.629
Average/AverageReturn                        -27.7511
Average/Iteration                             76
Average/MaxReturn                            -13.7569
Average/MinReturn                            -47.3795
Average/NumEpisodes                          100
Average/StdReturn                              6.85974
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.730557
TotalEnvSteps                             770000
__unnamed_task__/AverageDiscountedReturn     -17.629
__unnamed_task__/AverageReturn               -27.7511
__unnamed_task__/Iteration                    76
__unnamed_task__/MaxReturn                   -13.7569
__unnamed_task__/MinReturn                   -47.3795
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     6.85974
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.28994
policy/KL                                      0.0107779
policy/KLBefore                                0
policy/LossAfter                              -0.00279228
policy/LossBefore                              0.00532511
policy/dLoss                                   0.00811739
----------------------------------------  ---------------
2025-04-02 17:53:15 | [rl2_trainer] epoch #77 | Optimizing policy...
2025-04-02 17:53:15 | [rl2_trainer] epoch #77 | Fitting baseline...
2025-04-02 17:53:15 | [rl2_trainer] epoch #77 | Computing loss before
2025-04-02 17:53:16 | [rl2_trainer] epoch #77 | Computing KL before
2025-04-02 17:53:16 | [rl2_trainer] epoch #77 | Optimizing
2025-04-02 17:53:53 | [rl2_trainer] epoch #77 | Computing KL after
2025-04-02 17:53:54 | [rl2_trainer] epoch #77 | Computing loss after
2025-04-02 17:53:55 | [rl2_trainer] epoch #77 | Saving snapshot...
2025-04-02 17:53:55 | [rl2_trainer] epoch #77 | Saved
2025-04-02 17:53:55 | [rl2_trainer] epoch #77 | Time 14515.84 s
2025-04-02 17:53:55 | [rl2_trainer] epoch #77 | EpochTime 238.59 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -19.3568
Average/AverageReturn                        -30.9346
Average/Iteration                             77
Average/MaxReturn                            -16.9499
Average/MinReturn                            -71.4912
Average/NumEpisodes                          100
Average/StdReturn                              8.62531
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.406561
TotalEnvSteps                             780000
__unnamed_task__/AverageDiscountedReturn     -19.3568
__unnamed_task__/AverageReturn               -30.9346
__unnamed_task__/Iteration                    77
__unnamed_task__/MaxReturn                   -16.9499
__unnamed_task__/MinReturn                   -71.4912
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.62531
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.27715
policy/KL                                      0.00783026
policy/KLBefore                                0
policy/LossAfter                              -0.0166646
policy/LossBefore                              0.011186
policy/dLoss                                   0.0278507
----------------------------------------  ---------------
2025-04-02 17:56:51 | [rl2_trainer] epoch #78 | Optimizing policy...
2025-04-02 17:56:51 | [rl2_trainer] epoch #78 | Fitting baseline...
2025-04-02 17:56:51 | [rl2_trainer] epoch #78 | Computing loss before
2025-04-02 17:56:52 | [rl2_trainer] epoch #78 | Computing KL before
2025-04-02 17:56:52 | [rl2_trainer] epoch #78 | Optimizing
2025-04-02 17:57:27 | [rl2_trainer] epoch #78 | Computing KL after
2025-04-02 17:57:28 | [rl2_trainer] epoch #78 | Computing loss after
2025-04-02 17:57:29 | [rl2_trainer] epoch #78 | Saving snapshot...
2025-04-02 17:57:29 | [rl2_trainer] epoch #78 | Saved
2025-04-02 17:57:29 | [rl2_trainer] epoch #78 | Time 14729.95 s
2025-04-02 17:57:29 | [rl2_trainer] epoch #78 | EpochTime 214.10 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -17.0579
Average/AverageReturn                        -26.6664
Average/Iteration                             78
Average/MaxReturn                             -2.9626
Average/MinReturn                            -44.3455
Average/NumEpisodes                          100
Average/StdReturn                              6.79531
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.740731
TotalEnvSteps                             790000
__unnamed_task__/AverageDiscountedReturn     -17.0579
__unnamed_task__/AverageReturn               -26.6664
__unnamed_task__/Iteration                    78
__unnamed_task__/MaxReturn                    -2.9626
__unnamed_task__/MinReturn                   -44.3455
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     6.79531
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.25715
policy/KL                                      0.00790452
policy/KLBefore                                0
policy/LossAfter                              -0.0126213
policy/LossBefore                             -0.00517856
policy/dLoss                                   0.00744277
----------------------------------------  ---------------
2025-04-02 17:59:30 | [rl2_trainer] epoch #79 | Optimizing policy...
2025-04-02 17:59:30 | [rl2_trainer] epoch #79 | Fitting baseline...
2025-04-02 17:59:30 | [rl2_trainer] epoch #79 | Computing loss before
2025-04-02 17:59:31 | [rl2_trainer] epoch #79 | Computing KL before
2025-04-02 17:59:31 | [rl2_trainer] epoch #79 | Optimizing
2025-04-02 18:00:07 | [rl2_trainer] epoch #79 | Computing KL after
2025-04-02 18:00:07 | [rl2_trainer] epoch #79 | Computing loss after
2025-04-02 18:00:08 | [rl2_trainer] epoch #79 | Saving snapshot...
2025-04-02 18:00:08 | [rl2_trainer] epoch #79 | Saved
2025-04-02 18:00:08 | [rl2_trainer] epoch #79 | Time 14889.26 s
2025-04-02 18:00:08 | [rl2_trainer] epoch #79 | EpochTime 159.31 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -20.0497
Average/AverageReturn                        -31.7677
Average/Iteration                             79
Average/MaxReturn                            -15.7192
Average/MinReturn                            -60.9404
Average/NumEpisodes                          100
Average/StdReturn                              7.10974
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.521358
TotalEnvSteps                             800000
__unnamed_task__/AverageDiscountedReturn     -20.0497
__unnamed_task__/AverageReturn               -31.7677
__unnamed_task__/Iteration                    79
__unnamed_task__/MaxReturn                   -15.7192
__unnamed_task__/MinReturn                   -60.9404
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.10974
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.23604
policy/KL                                      0.00594133
policy/KLBefore                                0
policy/LossAfter                              -0.0116964
policy/LossBefore                              0.0011264
policy/dLoss                                   0.0128228
----------------------------------------  ---------------
2025-04-02 18:02:38 | [rl2_trainer] epoch #80 | Optimizing policy...
2025-04-02 18:02:39 | [rl2_trainer] epoch #80 | Fitting baseline...
2025-04-02 18:02:39 | [rl2_trainer] epoch #80 | Computing loss before
2025-04-02 18:02:39 | [rl2_trainer] epoch #80 | Computing KL before
2025-04-02 18:02:40 | [rl2_trainer] epoch #80 | Optimizing
2025-04-02 18:03:16 | [rl2_trainer] epoch #80 | Computing KL after
2025-04-02 18:03:16 | [rl2_trainer] epoch #80 | Computing loss after
2025-04-02 18:03:17 | [rl2_trainer] epoch #80 | Saving snapshot...
2025-04-02 18:03:17 | [rl2_trainer] epoch #80 | Saved
2025-04-02 18:03:17 | [rl2_trainer] epoch #80 | Time 15078.38 s
2025-04-02 18:03:17 | [rl2_trainer] epoch #80 | EpochTime 189.12 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -19.1847
Average/AverageReturn                        -30.5959
Average/Iteration                             80
Average/MaxReturn                            -12.7569
Average/MinReturn                            -72.7648
Average/NumEpisodes                          100
Average/StdReturn                              8.30789
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.477923
TotalEnvSteps                             810000
__unnamed_task__/AverageDiscountedReturn     -19.1847
__unnamed_task__/AverageReturn               -30.5959
__unnamed_task__/Iteration                    80
__unnamed_task__/MaxReturn                   -12.7569
__unnamed_task__/MinReturn                   -72.7648
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.30789
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.21693
policy/KL                                      0.00691013
policy/KLBefore                                0
policy/LossAfter                              -0.0289628
policy/LossBefore                             -0.00390946
policy/dLoss                                   0.0250534
----------------------------------------  ---------------
2025-04-02 18:04:44 | [rl2_trainer] epoch #81 | Optimizing policy...
2025-04-02 18:04:44 | [rl2_trainer] epoch #81 | Fitting baseline...
2025-04-02 18:04:44 | [rl2_trainer] epoch #81 | Computing loss before
2025-04-02 18:04:45 | [rl2_trainer] epoch #81 | Computing KL before
2025-04-02 18:04:45 | [rl2_trainer] epoch #81 | Optimizing
2025-04-02 18:05:21 | [rl2_trainer] epoch #81 | Computing KL after
2025-04-02 18:05:21 | [rl2_trainer] epoch #81 | Computing loss after
2025-04-02 18:05:22 | [rl2_trainer] epoch #81 | Saving snapshot...
2025-04-02 18:05:22 | [rl2_trainer] epoch #81 | Saved
2025-04-02 18:05:22 | [rl2_trainer] epoch #81 | Time 15203.43 s
2025-04-02 18:05:22 | [rl2_trainer] epoch #81 | EpochTime 125.05 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -18.0643
Average/AverageReturn                        -28.2448
Average/Iteration                             81
Average/MaxReturn                            -10.0434
Average/MinReturn                            -40.768
Average/NumEpisodes                          100
Average/StdReturn                              5.37256
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.542537
TotalEnvSteps                             820000
__unnamed_task__/AverageDiscountedReturn     -18.0643
__unnamed_task__/AverageReturn               -28.2448
__unnamed_task__/Iteration                    81
__unnamed_task__/MaxReturn                   -10.0434
__unnamed_task__/MinReturn                   -40.768
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     5.37256
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.19244
policy/KL                                      0.00670743
policy/KLBefore                                0
policy/LossAfter                              -0.00622792
policy/LossBefore                              0.00188489
policy/dLoss                                   0.00811282
----------------------------------------  ---------------
2025-04-02 18:06:52 | [rl2_trainer] epoch #82 | Optimizing policy...
2025-04-02 18:06:53 | [rl2_trainer] epoch #82 | Fitting baseline...
2025-04-02 18:06:53 | [rl2_trainer] epoch #82 | Computing loss before
2025-04-02 18:06:53 | [rl2_trainer] epoch #82 | Computing KL before
2025-04-02 18:06:54 | [rl2_trainer] epoch #82 | Optimizing
2025-04-02 18:07:30 | [rl2_trainer] epoch #82 | Computing KL after
2025-04-02 18:07:30 | [rl2_trainer] epoch #82 | Computing loss after
2025-04-02 18:07:31 | [rl2_trainer] epoch #82 | Saving snapshot...
2025-04-02 18:07:31 | [rl2_trainer] epoch #82 | Saved
2025-04-02 18:07:31 | [rl2_trainer] epoch #82 | Time 15332.18 s
2025-04-02 18:07:31 | [rl2_trainer] epoch #82 | EpochTime 128.75 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -18.2701
Average/AverageReturn                        -28.5465
Average/Iteration                             82
Average/MaxReturn                             -8.68775
Average/MinReturn                           -130.186
Average/NumEpisodes                          100
Average/StdReturn                             11.9367
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.812086
TotalEnvSteps                             830000
__unnamed_task__/AverageDiscountedReturn     -18.2701
__unnamed_task__/AverageReturn               -28.5465
__unnamed_task__/Iteration                    82
__unnamed_task__/MaxReturn                    -8.68775
__unnamed_task__/MinReturn                  -130.186
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    11.9367
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.16193
policy/KL                                      0.00719706
policy/KLBefore                                0
policy/LossAfter                              -0.00305459
policy/LossBefore                              0.0111834
policy/dLoss                                   0.014238
----------------------------------------  ---------------
2025-04-02 18:11:26 | [rl2_trainer] epoch #83 | Optimizing policy...
2025-04-02 18:11:26 | [rl2_trainer] epoch #83 | Fitting baseline...
2025-04-02 18:11:26 | [rl2_trainer] epoch #83 | Computing loss before
2025-04-02 18:11:27 | [rl2_trainer] epoch #83 | Computing KL before
2025-04-02 18:11:27 | [rl2_trainer] epoch #83 | Optimizing
2025-04-02 18:12:03 | [rl2_trainer] epoch #83 | Computing KL after
2025-04-02 18:12:04 | [rl2_trainer] epoch #83 | Computing loss after
2025-04-02 18:12:05 | [rl2_trainer] epoch #83 | Saving snapshot...
2025-04-02 18:12:05 | [rl2_trainer] epoch #83 | Saved
2025-04-02 18:12:05 | [rl2_trainer] epoch #83 | Time 15605.88 s
2025-04-02 18:12:05 | [rl2_trainer] epoch #83 | EpochTime 273.70 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -17.6743
Average/AverageReturn                        -28.0285
Average/Iteration                             83
Average/MaxReturn                             -7.87462
Average/MinReturn                            -46.9258
Average/NumEpisodes                          100
Average/StdReturn                              7.50959
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.521961
TotalEnvSteps                             840000
__unnamed_task__/AverageDiscountedReturn     -17.6743
__unnamed_task__/AverageReturn               -28.0285
__unnamed_task__/Iteration                    83
__unnamed_task__/MaxReturn                    -7.87462
__unnamed_task__/MinReturn                   -46.9258
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.50959
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.14423
policy/KL                                      0.00742841
policy/KLBefore                                0
policy/LossAfter                              -0.0220547
policy/LossBefore                             -0.00194652
policy/dLoss                                   0.0201082
----------------------------------------  ---------------
2025-04-02 18:14:29 | [rl2_trainer] epoch #84 | Optimizing policy...
2025-04-02 18:14:29 | [rl2_trainer] epoch #84 | Fitting baseline...
2025-04-02 18:14:29 | [rl2_trainer] epoch #84 | Computing loss before
2025-04-02 18:14:30 | [rl2_trainer] epoch #84 | Computing KL before
2025-04-02 18:14:31 | [rl2_trainer] epoch #84 | Optimizing
2025-04-02 18:15:05 | [rl2_trainer] epoch #84 | Computing KL after
2025-04-02 18:15:06 | [rl2_trainer] epoch #84 | Computing loss after
2025-04-02 18:15:06 | [rl2_trainer] epoch #84 | Saving snapshot...
2025-04-02 18:15:06 | [rl2_trainer] epoch #84 | Saved
2025-04-02 18:15:06 | [rl2_trainer] epoch #84 | Time 15787.47 s
2025-04-02 18:15:06 | [rl2_trainer] epoch #84 | EpochTime 181.59 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -15.2253
Average/AverageReturn                        -23.6823
Average/Iteration                             84
Average/MaxReturn                            -11.5551
Average/MinReturn                            -40.4078
Average/NumEpisodes                          100
Average/StdReturn                              4.94142
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.415435
TotalEnvSteps                             850000
__unnamed_task__/AverageDiscountedReturn     -15.2253
__unnamed_task__/AverageReturn               -23.6823
__unnamed_task__/Iteration                    84
__unnamed_task__/MaxReturn                   -11.5551
__unnamed_task__/MinReturn                   -40.4078
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     4.94142
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.13115
policy/KL                                      0.00723157
policy/KLBefore                                0
policy/LossAfter                              -0.0151895
policy/LossBefore                             -0.00213713
policy/dLoss                                   0.0130523
----------------------------------------  ---------------
2025-04-02 18:16:33 | [rl2_trainer] epoch #85 | Optimizing policy...
2025-04-02 18:16:34 | [rl2_trainer] epoch #85 | Fitting baseline...
2025-04-02 18:16:34 | [rl2_trainer] epoch #85 | Computing loss before
2025-04-02 18:16:34 | [rl2_trainer] epoch #85 | Computing KL before
2025-04-02 18:16:35 | [rl2_trainer] epoch #85 | Optimizing
2025-04-02 18:17:09 | [rl2_trainer] epoch #85 | Computing KL after
2025-04-02 18:17:10 | [rl2_trainer] epoch #85 | Computing loss after
2025-04-02 18:17:11 | [rl2_trainer] epoch #85 | Saving snapshot...
2025-04-02 18:17:11 | [rl2_trainer] epoch #85 | Saved
2025-04-02 18:17:11 | [rl2_trainer] epoch #85 | Time 15911.69 s
2025-04-02 18:17:11 | [rl2_trainer] epoch #85 | EpochTime 124.22 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -17.3714
Average/AverageReturn                        -26.9134
Average/Iteration                             85
Average/MaxReturn                            -14.0474
Average/MinReturn                            -41.9807
Average/NumEpisodes                          100
Average/StdReturn                              5.75238
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.660034
TotalEnvSteps                             860000
__unnamed_task__/AverageDiscountedReturn     -17.3714
__unnamed_task__/AverageReturn               -26.9134
__unnamed_task__/Iteration                    85
__unnamed_task__/MaxReturn                   -14.0474
__unnamed_task__/MinReturn                   -41.9807
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     5.75238
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.11408
policy/KL                                      0.00836392
policy/KLBefore                                0
policy/LossAfter                              -0.0198876
policy/LossBefore                             -0.00816547
policy/dLoss                                   0.0117221
----------------------------------------  ---------------
2025-04-02 18:20:47 | [rl2_trainer] epoch #86 | Optimizing policy...
2025-04-02 18:20:48 | [rl2_trainer] epoch #86 | Fitting baseline...
2025-04-02 18:20:48 | [rl2_trainer] epoch #86 | Computing loss before
2025-04-02 18:20:48 | [rl2_trainer] epoch #86 | Computing KL before
2025-04-02 18:20:49 | [rl2_trainer] epoch #86 | Optimizing
2025-04-02 18:21:24 | [rl2_trainer] epoch #86 | Computing KL after
2025-04-02 18:21:25 | [rl2_trainer] epoch #86 | Computing loss after
2025-04-02 18:21:25 | [rl2_trainer] epoch #86 | Saving snapshot...
2025-04-02 18:21:25 | [rl2_trainer] epoch #86 | Saved
2025-04-02 18:21:25 | [rl2_trainer] epoch #86 | Time 16166.48 s
2025-04-02 18:21:25 | [rl2_trainer] epoch #86 | EpochTime 254.78 s
----------------------------------------  --------------
Average/AverageDiscountedReturn              -16.7836
Average/AverageReturn                        -26.6281
Average/Iteration                             86
Average/MaxReturn                             14.8031
Average/MinReturn                            -81.4763
Average/NumEpisodes                          100
Average/StdReturn                             11.1089
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.570631
TotalEnvSteps                             870000
__unnamed_task__/AverageDiscountedReturn     -16.7836
__unnamed_task__/AverageReturn               -26.6281
__unnamed_task__/Iteration                    86
__unnamed_task__/MaxReturn                    14.8031
__unnamed_task__/MinReturn                   -81.4763
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    11.1089
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.0956
policy/KL                                      0.0130083
policy/KLBefore                                0
policy/LossAfter                              -0.0519966
policy/LossBefore                             -0.0138958
policy/dLoss                                   0.0381008
----------------------------------------  --------------
2025-04-02 18:23:46 | [rl2_trainer] epoch #87 | Optimizing policy...
2025-04-02 18:23:46 | [rl2_trainer] epoch #87 | Fitting baseline...
2025-04-02 18:23:46 | [rl2_trainer] epoch #87 | Computing loss before
2025-04-02 18:23:47 | [rl2_trainer] epoch #87 | Computing KL before
2025-04-02 18:23:48 | [rl2_trainer] epoch #87 | Optimizing
2025-04-02 18:24:24 | [rl2_trainer] epoch #87 | Computing KL after
2025-04-02 18:24:25 | [rl2_trainer] epoch #87 | Computing loss after
2025-04-02 18:24:25 | [rl2_trainer] epoch #87 | Saving snapshot...
2025-04-02 18:24:25 | [rl2_trainer] epoch #87 | Saved
2025-04-02 18:24:25 | [rl2_trainer] epoch #87 | Time 16346.52 s
2025-04-02 18:24:25 | [rl2_trainer] epoch #87 | EpochTime 180.04 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -16.7449
Average/AverageReturn                        -26.1829
Average/Iteration                             87
Average/MaxReturn                             -2.5768
Average/MinReturn                            -41.7796
Average/NumEpisodes                          100
Average/StdReturn                              6.69212
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.692642
TotalEnvSteps                             880000
__unnamed_task__/AverageDiscountedReturn     -16.7449
__unnamed_task__/AverageReturn               -26.1829
__unnamed_task__/Iteration                    87
__unnamed_task__/MaxReturn                    -2.5768
__unnamed_task__/MinReturn                   -41.7796
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     6.69212
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.08517
policy/KL                                      0.00698796
policy/KLBefore                                0
policy/LossAfter                              -0.0199065
policy/LossBefore                             -0.00278168
policy/dLoss                                   0.0171249
----------------------------------------  ---------------
2025-04-02 18:27:19 | [rl2_trainer] epoch #88 | Optimizing policy...
2025-04-02 18:27:19 | [rl2_trainer] epoch #88 | Fitting baseline...
2025-04-02 18:27:19 | [rl2_trainer] epoch #88 | Computing loss before
2025-04-02 18:27:20 | [rl2_trainer] epoch #88 | Computing KL before
2025-04-02 18:27:20 | [rl2_trainer] epoch #88 | Optimizing
2025-04-02 18:27:56 | [rl2_trainer] epoch #88 | Computing KL after
2025-04-02 18:27:57 | [rl2_trainer] epoch #88 | Computing loss after
2025-04-02 18:27:58 | [rl2_trainer] epoch #88 | Saving snapshot...
2025-04-02 18:27:58 | [rl2_trainer] epoch #88 | Saved
2025-04-02 18:27:58 | [rl2_trainer] epoch #88 | Time 16558.69 s
2025-04-02 18:27:58 | [rl2_trainer] epoch #88 | EpochTime 212.16 s
----------------------------------------  --------------
Average/AverageDiscountedReturn              -17.7861
Average/AverageReturn                        -28.1213
Average/Iteration                             88
Average/MaxReturn                              3.32067
Average/MinReturn                            -61.0914
Average/NumEpisodes                          100
Average/StdReturn                              8.58698
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.476159
TotalEnvSteps                             890000
__unnamed_task__/AverageDiscountedReturn     -17.7861
__unnamed_task__/AverageReturn               -28.1213
__unnamed_task__/Iteration                    88
__unnamed_task__/MaxReturn                     3.32067
__unnamed_task__/MinReturn                   -61.0914
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.58698
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.08334
policy/KL                                      0.0109168
policy/KLBefore                                0
policy/LossAfter                              -0.0592105
policy/LossBefore                             -0.0261853
policy/dLoss                                   0.0330252
----------------------------------------  --------------
2025-04-02 18:30:14 | [rl2_trainer] epoch #89 | Optimizing policy...
2025-04-02 18:30:15 | [rl2_trainer] epoch #89 | Fitting baseline...
2025-04-02 18:30:15 | [rl2_trainer] epoch #89 | Computing loss before
2025-04-02 18:30:15 | [rl2_trainer] epoch #89 | Computing KL before
2025-04-02 18:30:16 | [rl2_trainer] epoch #89 | Optimizing
2025-04-02 18:30:52 | [rl2_trainer] epoch #89 | Computing KL after
2025-04-02 18:30:53 | [rl2_trainer] epoch #89 | Computing loss after
2025-04-02 18:30:54 | [rl2_trainer] epoch #89 | Saving snapshot...
2025-04-02 18:30:54 | [rl2_trainer] epoch #89 | Saved
2025-04-02 18:30:54 | [rl2_trainer] epoch #89 | Time 16734.67 s
2025-04-02 18:30:54 | [rl2_trainer] epoch #89 | EpochTime 175.97 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -15.8284
Average/AverageReturn                        -24.4036
Average/Iteration                             89
Average/MaxReturn                             15.1521
Average/MinReturn                            -40.2524
Average/NumEpisodes                          100
Average/StdReturn                              7.45971
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.568718
TotalEnvSteps                             900000
__unnamed_task__/AverageDiscountedReturn     -15.8284
__unnamed_task__/AverageReturn               -24.4036
__unnamed_task__/Iteration                    89
__unnamed_task__/MaxReturn                    15.1521
__unnamed_task__/MinReturn                   -40.2524
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.45971
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.05627
policy/KL                                      0.00758687
policy/KLBefore                                0
policy/LossAfter                              -0.019978
policy/LossBefore                              0.00158783
policy/dLoss                                   0.0215658
----------------------------------------  ---------------
2025-04-02 18:34:56 | [rl2_trainer] epoch #90 | Optimizing policy...
2025-04-02 18:34:56 | [rl2_trainer] epoch #90 | Fitting baseline...
2025-04-02 18:34:56 | [rl2_trainer] epoch #90 | Computing loss before
2025-04-02 18:34:57 | [rl2_trainer] epoch #90 | Computing KL before
2025-04-02 18:34:58 | [rl2_trainer] epoch #90 | Optimizing
2025-04-02 18:35:32 | [rl2_trainer] epoch #90 | Computing KL after
2025-04-02 18:35:33 | [rl2_trainer] epoch #90 | Computing loss after
2025-04-02 18:35:34 | [rl2_trainer] epoch #90 | Saving snapshot...
2025-04-02 18:35:34 | [rl2_trainer] epoch #90 | Saved
2025-04-02 18:35:34 | [rl2_trainer] epoch #90 | Time 17014.82 s
2025-04-02 18:35:34 | [rl2_trainer] epoch #90 | EpochTime 280.15 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -18.2011
Average/AverageReturn                        -28.946
Average/Iteration                             90
Average/MaxReturn                            -10.3595
Average/MinReturn                            -45.3235
Average/NumEpisodes                          100
Average/StdReturn                              7.23395
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.544292
TotalEnvSteps                             910000
__unnamed_task__/AverageDiscountedReturn     -18.2011
__unnamed_task__/AverageReturn               -28.946
__unnamed_task__/Iteration                    90
__unnamed_task__/MaxReturn                   -10.3595
__unnamed_task__/MinReturn                   -45.3235
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.23395
__unnamed_task__/TerminationRate               0
policy/Entropy                                 8.02809
policy/KL                                      0.00874927
policy/KLBefore                                0
policy/LossAfter                              -0.0112226
policy/LossBefore                              0.00650398
policy/dLoss                                   0.0177266
----------------------------------------  ---------------
2025-04-02 18:38:32 | [rl2_trainer] epoch #91 | Optimizing policy...
2025-04-02 18:38:32 | [rl2_trainer] epoch #91 | Fitting baseline...
2025-04-02 18:38:32 | [rl2_trainer] epoch #91 | Computing loss before
2025-04-02 18:38:33 | [rl2_trainer] epoch #91 | Computing KL before
2025-04-02 18:38:34 | [rl2_trainer] epoch #91 | Optimizing
2025-04-02 18:39:06 | [rl2_trainer] epoch #91 | Computing KL after
2025-04-02 18:39:07 | [rl2_trainer] epoch #91 | Computing loss after
2025-04-02 18:39:08 | [rl2_trainer] epoch #91 | Saving snapshot...
2025-04-02 18:39:08 | [rl2_trainer] epoch #91 | Saved
2025-04-02 18:39:08 | [rl2_trainer] epoch #91 | Time 17228.56 s
2025-04-02 18:39:08 | [rl2_trainer] epoch #91 | EpochTime 213.73 s
----------------------------------------  --------------
Average/AverageDiscountedReturn              -17.7224
Average/AverageReturn                        -28.0901
Average/Iteration                             91
Average/MaxReturn                             -0.738187
Average/MinReturn                           -135.546
Average/NumEpisodes                          100
Average/StdReturn                             15.3596
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.588928
TotalEnvSteps                             920000
__unnamed_task__/AverageDiscountedReturn     -17.7224
__unnamed_task__/AverageReturn               -28.0901
__unnamed_task__/Iteration                    91
__unnamed_task__/MaxReturn                    -0.738187
__unnamed_task__/MinReturn                  -135.546
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    15.3596
__unnamed_task__/TerminationRate               0
policy/Entropy                                 7.9865
policy/KL                                      0.0113879
policy/KLBefore                                0
policy/LossAfter                              -0.0603134
policy/LossBefore                             -0.0087794
policy/dLoss                                   0.051534
----------------------------------------  --------------
2025-04-02 18:41:59 | [rl2_trainer] epoch #92 | Optimizing policy...
2025-04-02 18:41:59 | [rl2_trainer] epoch #92 | Fitting baseline...
2025-04-02 18:41:59 | [rl2_trainer] epoch #92 | Computing loss before
2025-04-02 18:42:00 | [rl2_trainer] epoch #92 | Computing KL before
2025-04-02 18:42:00 | [rl2_trainer] epoch #92 | Optimizing
2025-04-02 18:42:37 | [rl2_trainer] epoch #92 | Computing KL after
2025-04-02 18:42:37 | [rl2_trainer] epoch #92 | Computing loss after
2025-04-02 18:42:38 | [rl2_trainer] epoch #92 | Saving snapshot...
2025-04-02 18:42:38 | [rl2_trainer] epoch #92 | Saved
2025-04-02 18:42:38 | [rl2_trainer] epoch #92 | Time 17439.41 s
2025-04-02 18:42:38 | [rl2_trainer] epoch #92 | EpochTime 210.85 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -16.4711
Average/AverageReturn                        -26.0391
Average/Iteration                             92
Average/MaxReturn                             -5.23487
Average/MinReturn                            -45.6739
Average/NumEpisodes                          100
Average/StdReturn                              6.69394
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.531686
TotalEnvSteps                             930000
__unnamed_task__/AverageDiscountedReturn     -16.4711
__unnamed_task__/AverageReturn               -26.0391
__unnamed_task__/Iteration                    92
__unnamed_task__/MaxReturn                    -5.23487
__unnamed_task__/MinReturn                   -45.6739
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     6.69394
__unnamed_task__/TerminationRate               0
policy/Entropy                                 7.95034
policy/KL                                      0.00704272
policy/KLBefore                                0
policy/LossAfter                              -0.00934268
policy/LossBefore                              0.00490316
policy/dLoss                                   0.0142458
----------------------------------------  ---------------
2025-04-02 18:47:11 | [rl2_trainer] epoch #93 | Optimizing policy...
2025-04-02 18:47:11 | [rl2_trainer] epoch #93 | Fitting baseline...
2025-04-02 18:47:11 | [rl2_trainer] epoch #93 | Computing loss before
2025-04-02 18:47:12 | [rl2_trainer] epoch #93 | Computing KL before
2025-04-02 18:47:12 | [rl2_trainer] epoch #93 | Optimizing
2025-04-02 18:47:48 | [rl2_trainer] epoch #93 | Computing KL after
2025-04-02 18:47:49 | [rl2_trainer] epoch #93 | Computing loss after
2025-04-02 18:47:50 | [rl2_trainer] epoch #93 | Saving snapshot...
2025-04-02 18:47:50 | [rl2_trainer] epoch #93 | Saved
2025-04-02 18:47:50 | [rl2_trainer] epoch #93 | Time 17750.83 s
2025-04-02 18:47:50 | [rl2_trainer] epoch #93 | EpochTime 311.42 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -16.0023
Average/AverageReturn                        -25.0705
Average/Iteration                             93
Average/MaxReturn                             -8.02995
Average/MinReturn                            -53.477
Average/NumEpisodes                          100
Average/StdReturn                              7.14242
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.45873
TotalEnvSteps                             940000
__unnamed_task__/AverageDiscountedReturn     -16.0023
__unnamed_task__/AverageReturn               -25.0705
__unnamed_task__/Iteration                    93
__unnamed_task__/MaxReturn                    -8.02995
__unnamed_task__/MinReturn                   -53.477
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     7.14242
__unnamed_task__/TerminationRate               0
policy/Entropy                                 7.92779
policy/KL                                      0.00778215
policy/KLBefore                                0
policy/LossAfter                              -0.0191474
policy/LossBefore                             -0.0037338
policy/dLoss                                   0.0154136
----------------------------------------  ---------------
2025-04-02 18:49:47 | [rl2_trainer] epoch #94 | Optimizing policy...
2025-04-02 18:49:47 | [rl2_trainer] epoch #94 | Fitting baseline...
2025-04-02 18:49:47 | [rl2_trainer] epoch #94 | Computing loss before
2025-04-02 18:49:48 | [rl2_trainer] epoch #94 | Computing KL before
2025-04-02 18:49:48 | [rl2_trainer] epoch #94 | Optimizing
2025-04-02 18:50:24 | [rl2_trainer] epoch #94 | Computing KL after
2025-04-02 18:50:24 | [rl2_trainer] epoch #94 | Computing loss after
2025-04-02 18:50:25 | [rl2_trainer] epoch #94 | Saving snapshot...
2025-04-02 18:50:25 | [rl2_trainer] epoch #94 | Saved
2025-04-02 18:50:25 | [rl2_trainer] epoch #94 | Time 17906.21 s
2025-04-02 18:50:25 | [rl2_trainer] epoch #94 | EpochTime 155.37 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -16.3959
Average/AverageReturn                        -25.9836
Average/Iteration                             94
Average/MaxReturn                             -1.44195
Average/MinReturn                            -61.1993
Average/NumEpisodes                          100
Average/StdReturn                              8.44535
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.52235
TotalEnvSteps                             950000
__unnamed_task__/AverageDiscountedReturn     -16.3959
__unnamed_task__/AverageReturn               -25.9836
__unnamed_task__/Iteration                    94
__unnamed_task__/MaxReturn                    -1.44195
__unnamed_task__/MinReturn                   -61.1993
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.44535
__unnamed_task__/TerminationRate               0
policy/Entropy                                 7.91885
policy/KL                                      0.0110303
policy/KLBefore                                0
policy/LossAfter                              -0.0282145
policy/LossBefore                             -0.00329757
policy/dLoss                                   0.0249169
----------------------------------------  ---------------
2025-04-02 18:53:22 | [rl2_trainer] epoch #95 | Optimizing policy...
2025-04-02 18:53:22 | [rl2_trainer] epoch #95 | Fitting baseline...
2025-04-02 18:53:22 | [rl2_trainer] epoch #95 | Computing loss before
2025-04-02 18:53:23 | [rl2_trainer] epoch #95 | Computing KL before
2025-04-02 18:53:24 | [rl2_trainer] epoch #95 | Optimizing
2025-04-02 18:53:56 | [rl2_trainer] epoch #95 | Computing KL after
2025-04-02 18:53:57 | [rl2_trainer] epoch #95 | Computing loss after
2025-04-02 18:53:58 | [rl2_trainer] epoch #95 | Saving snapshot...
2025-04-02 18:53:58 | [rl2_trainer] epoch #95 | Saved
2025-04-02 18:53:58 | [rl2_trainer] epoch #95 | Time 18118.76 s
2025-04-02 18:53:58 | [rl2_trainer] epoch #95 | EpochTime 212.55 s
----------------------------------------  ----------------
Average/AverageDiscountedReturn              -16.7036
Average/AverageReturn                        -25.9273
Average/Iteration                             95
Average/MaxReturn                             -5.95484
Average/MinReturn                            -42.4591
Average/NumEpisodes                          100
Average/StdReturn                              6.35964
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.622433
TotalEnvSteps                             960000
__unnamed_task__/AverageDiscountedReturn     -16.7036
__unnamed_task__/AverageReturn               -25.9273
__unnamed_task__/Iteration                    95
__unnamed_task__/MaxReturn                    -5.95484
__unnamed_task__/MinReturn                   -42.4591
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     6.35964
__unnamed_task__/TerminationRate               0
policy/Entropy                                 7.89886
policy/KL                                      0.00590856
policy/KLBefore                                0
policy/LossAfter                              -0.011925
policy/LossBefore                             -1.75003e-05
policy/dLoss                                   0.0119075
----------------------------------------  ----------------
2025-04-02 18:56:44 | [rl2_trainer] epoch #96 | Optimizing policy...
2025-04-02 18:56:44 | [rl2_trainer] epoch #96 | Fitting baseline...
2025-04-02 18:56:44 | [rl2_trainer] epoch #96 | Computing loss before
2025-04-02 18:56:45 | [rl2_trainer] epoch #96 | Computing KL before
2025-04-02 18:56:46 | [rl2_trainer] epoch #96 | Optimizing
2025-04-02 18:57:21 | [rl2_trainer] epoch #96 | Computing KL after
2025-04-02 18:57:22 | [rl2_trainer] epoch #96 | Computing loss after
2025-04-02 18:57:23 | [rl2_trainer] epoch #96 | Saving snapshot...
2025-04-02 18:57:23 | [rl2_trainer] epoch #96 | Saved
2025-04-02 18:57:23 | [rl2_trainer] epoch #96 | Time 18323.76 s
2025-04-02 18:57:23 | [rl2_trainer] epoch #96 | EpochTime 205.00 s
----------------------------------------  --------------
Average/AverageDiscountedReturn              -16.5465
Average/AverageReturn                        -26.0797
Average/Iteration                             96
Average/MaxReturn                             -2.35081
Average/MinReturn                           -101.193
Average/NumEpisodes                          100
Average/StdReturn                             11.3375
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.465991
TotalEnvSteps                             970000
__unnamed_task__/AverageDiscountedReturn     -16.5465
__unnamed_task__/AverageReturn               -26.0797
__unnamed_task__/Iteration                    96
__unnamed_task__/MaxReturn                    -2.35081
__unnamed_task__/MinReturn                  -101.193
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                    11.3375
__unnamed_task__/TerminationRate               0
policy/Entropy                                 7.88085
policy/KL                                      0.0115735
policy/KLBefore                                0
policy/LossAfter                              -0.0539997
policy/LossBefore                             -0.017418
policy/dLoss                                   0.0365817
----------------------------------------  --------------
2025-04-02 18:59:28 | [rl2_trainer] epoch #97 | Optimizing policy...
2025-04-02 18:59:28 | [rl2_trainer] epoch #97 | Fitting baseline...
2025-04-02 18:59:28 | [rl2_trainer] epoch #97 | Computing loss before
2025-04-02 18:59:29 | [rl2_trainer] epoch #97 | Computing KL before
2025-04-02 18:59:29 | [rl2_trainer] epoch #97 | Optimizing
2025-04-02 19:00:06 | [rl2_trainer] epoch #97 | Computing KL after
2025-04-02 19:00:06 | [rl2_trainer] epoch #97 | Computing loss after
2025-04-02 19:00:07 | [rl2_trainer] epoch #97 | Saving snapshot...
2025-04-02 19:00:07 | [rl2_trainer] epoch #97 | Saved
2025-04-02 19:00:07 | [rl2_trainer] epoch #97 | Time 18488.51 s
2025-04-02 19:00:07 | [rl2_trainer] epoch #97 | EpochTime 164.74 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -18.5671
Average/AverageReturn                        -29.2539
Average/Iteration                             97
Average/MaxReturn                            -17.0735
Average/MinReturn                            -59.6581
Average/NumEpisodes                          100
Average/StdReturn                              6.2734
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.48912
TotalEnvSteps                             980000
__unnamed_task__/AverageDiscountedReturn     -18.5671
__unnamed_task__/AverageReturn               -29.2539
__unnamed_task__/Iteration                    97
__unnamed_task__/MaxReturn                   -17.0735
__unnamed_task__/MinReturn                   -59.6581
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     6.2734
__unnamed_task__/TerminationRate               0
policy/Entropy                                 7.87558
policy/KL                                      0.00970136
policy/KLBefore                                0
policy/LossAfter                              -0.0143333
policy/LossBefore                              0.00412517
policy/dLoss                                   0.0184585
----------------------------------------  ---------------
2025-04-02 19:04:01 | [rl2_trainer] epoch #98 | Optimizing policy...
2025-04-02 19:04:02 | [rl2_trainer] epoch #98 | Fitting baseline...
2025-04-02 19:04:02 | [rl2_trainer] epoch #98 | Computing loss before
2025-04-02 19:04:02 | [rl2_trainer] epoch #98 | Computing KL before
2025-04-02 19:04:03 | [rl2_trainer] epoch #98 | Optimizing
2025-04-02 19:04:39 | [rl2_trainer] epoch #98 | Computing KL after
2025-04-02 19:04:40 | [rl2_trainer] epoch #98 | Computing loss after
2025-04-02 19:04:41 | [rl2_trainer] epoch #98 | Saving snapshot...
2025-04-02 19:04:41 | [rl2_trainer] epoch #98 | Saved
2025-04-02 19:04:41 | [rl2_trainer] epoch #98 | Time 18761.91 s
2025-04-02 19:04:41 | [rl2_trainer] epoch #98 | EpochTime 273.40 s
----------------------------------------  ---------------
Average/AverageDiscountedReturn              -16.7809
Average/AverageReturn                        -26.6846
Average/Iteration                             98
Average/MaxReturn                             -0.935712
Average/MinReturn                            -62.0507
Average/NumEpisodes                          100
Average/StdReturn                              8.76258
Average/TerminationRate                        0
LinearFeatureBaseline/ExplainedVariance        0.494755
TotalEnvSteps                             990000
__unnamed_task__/AverageDiscountedReturn     -16.7809
__unnamed_task__/AverageReturn               -26.6846
__unnamed_task__/Iteration                    98
__unnamed_task__/MaxReturn                    -0.935712
__unnamed_task__/MinReturn                   -62.0507
__unnamed_task__/NumEpisodes                 100
__unnamed_task__/StdReturn                     8.76258
__unnamed_task__/TerminationRate               0
policy/Entropy                                 7.84269
policy/KL                                      0.0107056
policy/KLBefore                                0
policy/LossAfter                              -0.021185
policy/LossBefore                              0.00203768
policy/dLoss                                   0.0232226
----------------------------------------  ---------------
2025-04-02 19:06:40 | [rl2_trainer] epoch #99 | Optimizing policy...
2025-04-02 19:06:41 | [rl2_trainer] epoch #99 | Fitting baseline...
2025-04-02 19:06:41 | [rl2_trainer] epoch #99 | Computing loss before
2025-04-02 19:06:41 | [rl2_trainer] epoch #99 | Computing KL before
2025-04-02 19:06:42 | [rl2_trainer] epoch #99 | Optimizing
2025-04-02 19:07:16 | [rl2_trainer] epoch #99 | Computing KL after
2025-04-02 19:07:17 | [rl2_trainer] epoch #99 | Computing loss after
2025-04-02 19:07:17 | [rl2_trainer] epoch #99 | Saving snapshot...
2025-04-02 19:07:17 | [rl2_trainer] epoch #99 | Saved
2025-04-02 19:07:17 | [rl2_trainer] epoch #99 | Time 18918.52 s
2025-04-02 19:07:17 | [rl2_trainer] epoch #99 | EpochTime 156.61 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -19.3551
Average/AverageReturn                     -30.2973
Average/Iteration                          99
Average/MaxReturn                         -17.5174
Average/MinReturn                         -52.568
Average/NumEpisodes                       100
Average/StdReturn                           6.62782
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.487172
TotalEnvSteps                               1e+06
__unnamed_task__/AverageDiscountedReturn  -19.3551
__unnamed_task__/AverageReturn            -30.2973
__unnamed_task__/Iteration                 99
__unnamed_task__/MaxReturn                -17.5174
__unnamed_task__/MinReturn                -52.568
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.62782
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.81402
policy/KL                                   0.00865924
policy/KLBefore                             0
policy/LossAfter                           -0.00895551
policy/LossBefore                           0.00135599
policy/dLoss                                0.0103115
----------------------------------------  ------------
2025-04-02 19:09:51 | [rl2_trainer] epoch #100 | Optimizing policy...
2025-04-02 19:09:51 | [rl2_trainer] epoch #100 | Fitting baseline...
2025-04-02 19:09:51 | [rl2_trainer] epoch #100 | Computing loss before
2025-04-02 19:09:52 | [rl2_trainer] epoch #100 | Computing KL before
2025-04-02 19:09:52 | [rl2_trainer] epoch #100 | Optimizing
2025-04-02 19:10:25 | [rl2_trainer] epoch #100 | Computing KL after
2025-04-02 19:10:26 | [rl2_trainer] epoch #100 | Computing loss after
2025-04-02 19:10:27 | [rl2_trainer] epoch #100 | Saving snapshot...
2025-04-02 19:10:27 | [rl2_trainer] epoch #100 | Saved
2025-04-02 19:10:27 | [rl2_trainer] epoch #100 | Time 19107.63 s
2025-04-02 19:10:27 | [rl2_trainer] epoch #100 | EpochTime 189.11 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.9117
Average/AverageReturn                     -25.239
Average/Iteration                         100
Average/MaxReturn                           1.2102
Average/MinReturn                         -75.4078
Average/NumEpisodes                       100
Average/StdReturn                           8.31372
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.446369
TotalEnvSteps                               1.01e+06
__unnamed_task__/AverageDiscountedReturn  -15.9117
__unnamed_task__/AverageReturn            -25.239
__unnamed_task__/Iteration                100
__unnamed_task__/MaxReturn                  1.2102
__unnamed_task__/MinReturn                -75.4078
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.31372
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.78772
policy/KL                                   0.00833455
policy/KLBefore                             0
policy/LossAfter                           -0.0528949
policy/LossBefore                          -0.0246386
policy/dLoss                                0.0282562
----------------------------------------  ------------
2025-04-02 19:12:42 | [rl2_trainer] epoch #101 | Optimizing policy...
2025-04-02 19:12:42 | [rl2_trainer] epoch #101 | Fitting baseline...
2025-04-02 19:12:42 | [rl2_trainer] epoch #101 | Computing loss before
2025-04-02 19:12:43 | [rl2_trainer] epoch #101 | Computing KL before
2025-04-02 19:12:43 | [rl2_trainer] epoch #101 | Optimizing
2025-04-02 19:13:15 | [rl2_trainer] epoch #101 | Computing KL after
2025-04-02 19:13:16 | [rl2_trainer] epoch #101 | Computing loss after
2025-04-02 19:13:17 | [rl2_trainer] epoch #101 | Saving snapshot...
2025-04-02 19:13:17 | [rl2_trainer] epoch #101 | Saved
2025-04-02 19:13:17 | [rl2_trainer] epoch #101 | Time 19277.74 s
2025-04-02 19:13:17 | [rl2_trainer] epoch #101 | EpochTime 170.10 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -15.8828
Average/AverageReturn                     -25.0314
Average/Iteration                         101
Average/MaxReturn                          -7.6361
Average/MinReturn                         -76.5431
Average/NumEpisodes                       100
Average/StdReturn                           8.61649
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.59824
TotalEnvSteps                               1.02e+06
__unnamed_task__/AverageDiscountedReturn  -15.8828
__unnamed_task__/AverageReturn            -25.0314
__unnamed_task__/Iteration                101
__unnamed_task__/MaxReturn                 -7.6361
__unnamed_task__/MinReturn                -76.5431
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.61649
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.77006
policy/KL                                   0.0115254
policy/KLBefore                             0
policy/LossAfter                           -0.0202946
policy/LossBefore                          -0.000435596
policy/dLoss                                0.019859
----------------------------------------  -------------
2025-04-02 19:15:36 | [rl2_trainer] epoch #102 | Optimizing policy...
2025-04-02 19:15:37 | [rl2_trainer] epoch #102 | Fitting baseline...
2025-04-02 19:15:37 | [rl2_trainer] epoch #102 | Computing loss before
2025-04-02 19:15:37 | [rl2_trainer] epoch #102 | Computing KL before
2025-04-02 19:15:38 | [rl2_trainer] epoch #102 | Optimizing
2025-04-02 19:16:12 | [rl2_trainer] epoch #102 | Computing KL after
2025-04-02 19:16:12 | [rl2_trainer] epoch #102 | Computing loss after
2025-04-02 19:16:13 | [rl2_trainer] epoch #102 | Saving snapshot...
2025-04-02 19:16:13 | [rl2_trainer] epoch #102 | Saved
2025-04-02 19:16:13 | [rl2_trainer] epoch #102 | Time 19454.30 s
2025-04-02 19:16:13 | [rl2_trainer] epoch #102 | EpochTime 176.56 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.4502
Average/AverageReturn                     -22.5275
Average/Iteration                         102
Average/MaxReturn                          -2.56088
Average/MinReturn                         -44.2208
Average/NumEpisodes                       100
Average/StdReturn                           5.53913
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.379603
TotalEnvSteps                               1.03e+06
__unnamed_task__/AverageDiscountedReturn  -14.4502
__unnamed_task__/AverageReturn            -22.5275
__unnamed_task__/Iteration                102
__unnamed_task__/MaxReturn                 -2.56088
__unnamed_task__/MinReturn                -44.2208
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.53913
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.7516
policy/KL                                   0.00764304
policy/KLBefore                             0
policy/LossAfter                           -0.0106112
policy/LossBefore                           0.00055129
policy/dLoss                                0.0111625
----------------------------------------  ------------
2025-04-02 19:19:28 | [rl2_trainer] epoch #103 | Optimizing policy...
2025-04-02 19:19:28 | [rl2_trainer] epoch #103 | Fitting baseline...
2025-04-02 19:19:28 | [rl2_trainer] epoch #103 | Computing loss before
2025-04-02 19:19:29 | [rl2_trainer] epoch #103 | Computing KL before
2025-04-02 19:19:29 | [rl2_trainer] epoch #103 | Optimizing
2025-04-02 19:20:06 | [rl2_trainer] epoch #103 | Computing KL after
2025-04-02 19:20:06 | [rl2_trainer] epoch #103 | Computing loss after
2025-04-02 19:20:07 | [rl2_trainer] epoch #103 | Saving snapshot...
2025-04-02 19:20:07 | [rl2_trainer] epoch #103 | Saved
2025-04-02 19:20:07 | [rl2_trainer] epoch #103 | Time 19688.21 s
2025-04-02 19:20:07 | [rl2_trainer] epoch #103 | EpochTime 233.91 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.1794
Average/AverageReturn                     -23.8484
Average/Iteration                         103
Average/MaxReturn                          -1.41208
Average/MinReturn                         -66.4928
Average/NumEpisodes                       100
Average/StdReturn                           8.45554
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.461962
TotalEnvSteps                               1.04e+06
__unnamed_task__/AverageDiscountedReturn  -15.1794
__unnamed_task__/AverageReturn            -23.8484
__unnamed_task__/Iteration                103
__unnamed_task__/MaxReturn                 -1.41208
__unnamed_task__/MinReturn                -66.4928
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.45554
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.72153
policy/KL                                   0.0129074
policy/KLBefore                             0
policy/LossAfter                           -0.0146912
policy/LossBefore                           0.00769071
policy/dLoss                                0.0223819
----------------------------------------  ------------
2025-04-02 19:22:22 | [rl2_trainer] epoch #104 | Optimizing policy...
2025-04-02 19:22:22 | [rl2_trainer] epoch #104 | Fitting baseline...
2025-04-02 19:22:22 | [rl2_trainer] epoch #104 | Computing loss before
2025-04-02 19:22:23 | [rl2_trainer] epoch #104 | Computing KL before
2025-04-02 19:22:24 | [rl2_trainer] epoch #104 | Optimizing
2025-04-02 19:23:00 | [rl2_trainer] epoch #104 | Computing KL after
2025-04-02 19:23:01 | [rl2_trainer] epoch #104 | Computing loss after
2025-04-02 19:23:02 | [rl2_trainer] epoch #104 | Saving snapshot...
2025-04-02 19:23:02 | [rl2_trainer] epoch #104 | Saved
2025-04-02 19:23:02 | [rl2_trainer] epoch #104 | Time 19862.58 s
2025-04-02 19:23:02 | [rl2_trainer] epoch #104 | EpochTime 174.37 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -17.3179
Average/AverageReturn                     -26.9673
Average/Iteration                         104
Average/MaxReturn                          -9.94184
Average/MinReturn                         -47.7876
Average/NumEpisodes                       100
Average/StdReturn                           7.03472
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.816095
TotalEnvSteps                               1.05e+06
__unnamed_task__/AverageDiscountedReturn  -17.3179
__unnamed_task__/AverageReturn            -26.9673
__unnamed_task__/Iteration                104
__unnamed_task__/MaxReturn                 -9.94184
__unnamed_task__/MinReturn                -47.7876
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.03472
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.68506
policy/KL                                   0.00662874
policy/KLBefore                             0
policy/LossAfter                            0.00344585
policy/LossBefore                           0.00511384
policy/dLoss                                0.00166799
----------------------------------------  ------------
2025-04-02 19:25:09 | [rl2_trainer] epoch #105 | Optimizing policy...
2025-04-02 19:25:09 | [rl2_trainer] epoch #105 | Fitting baseline...
2025-04-02 19:25:09 | [rl2_trainer] epoch #105 | Computing loss before
2025-04-02 19:25:10 | [rl2_trainer] epoch #105 | Computing KL before
2025-04-02 19:25:10 | [rl2_trainer] epoch #105 | Optimizing
2025-04-02 19:25:47 | [rl2_trainer] epoch #105 | Computing KL after
2025-04-02 19:25:48 | [rl2_trainer] epoch #105 | Computing loss after
2025-04-02 19:25:49 | [rl2_trainer] epoch #105 | Saving snapshot...
2025-04-02 19:25:49 | [rl2_trainer] epoch #105 | Saved
2025-04-02 19:25:49 | [rl2_trainer] epoch #105 | Time 20030.01 s
2025-04-02 19:25:49 | [rl2_trainer] epoch #105 | EpochTime 167.42 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -18.1685
Average/AverageReturn                     -28.7531
Average/Iteration                         105
Average/MaxReturn                         -12.133
Average/MinReturn                         -77.4584
Average/NumEpisodes                       100
Average/StdReturn                           9.12057
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.704925
TotalEnvSteps                               1.06e+06
__unnamed_task__/AverageDiscountedReturn  -18.1685
__unnamed_task__/AverageReturn            -28.7531
__unnamed_task__/Iteration                105
__unnamed_task__/MaxReturn                -12.133
__unnamed_task__/MinReturn                -77.4584
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.12057
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.65912
policy/KL                                   0.0177004
policy/KLBefore                             0
policy/LossAfter                           -0.0265444
policy/LossBefore                          -0.00720857
policy/dLoss                                0.0193358
----------------------------------------  ------------
2025-04-02 19:27:33 | [rl2_trainer] epoch #106 | Optimizing policy...
2025-04-02 19:27:34 | [rl2_trainer] epoch #106 | Fitting baseline...
2025-04-02 19:27:34 | [rl2_trainer] epoch #106 | Computing loss before
2025-04-02 19:27:34 | [rl2_trainer] epoch #106 | Computing KL before
2025-04-02 19:27:35 | [rl2_trainer] epoch #106 | Optimizing
2025-04-02 19:28:12 | [rl2_trainer] epoch #106 | Computing KL after
2025-04-02 19:28:13 | [rl2_trainer] epoch #106 | Computing loss after
2025-04-02 19:28:14 | [rl2_trainer] epoch #106 | Saving snapshot...
2025-04-02 19:28:14 | [rl2_trainer] epoch #106 | Saved
2025-04-02 19:28:14 | [rl2_trainer] epoch #106 | Time 20174.58 s
2025-04-02 19:28:14 | [rl2_trainer] epoch #106 | EpochTime 144.57 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -17.5848
Average/AverageReturn                     -27.4683
Average/Iteration                         106
Average/MaxReturn                          -9.68824
Average/MinReturn                         -52.9663
Average/NumEpisodes                       100
Average/StdReturn                           7.23235
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.670774
TotalEnvSteps                               1.07e+06
__unnamed_task__/AverageDiscountedReturn  -17.5848
__unnamed_task__/AverageReturn            -27.4683
__unnamed_task__/Iteration                106
__unnamed_task__/MaxReturn                 -9.68824
__unnamed_task__/MinReturn                -52.9663
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.23235
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.63918
policy/KL                                   0.010416
policy/KLBefore                             0
policy/LossAfter                           -0.0170018
policy/LossBefore                           0.0048689
policy/dLoss                                0.0218707
----------------------------------------  -----------
2025-04-02 19:30:22 | [rl2_trainer] epoch #107 | Optimizing policy...
2025-04-02 19:30:22 | [rl2_trainer] epoch #107 | Fitting baseline...
2025-04-02 19:30:22 | [rl2_trainer] epoch #107 | Computing loss before
2025-04-02 19:30:23 | [rl2_trainer] epoch #107 | Computing KL before
2025-04-02 19:30:23 | [rl2_trainer] epoch #107 | Optimizing
2025-04-02 19:30:57 | [rl2_trainer] epoch #107 | Computing KL after
2025-04-02 19:30:57 | [rl2_trainer] epoch #107 | Computing loss after
2025-04-02 19:30:58 | [rl2_trainer] epoch #107 | Saving snapshot...
2025-04-02 19:30:58 | [rl2_trainer] epoch #107 | Saved
2025-04-02 19:30:58 | [rl2_trainer] epoch #107 | Time 20339.43 s
2025-04-02 19:30:58 | [rl2_trainer] epoch #107 | EpochTime 164.85 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -17.0578
Average/AverageReturn                     -26.7479
Average/Iteration                         107
Average/MaxReturn                         -10.8552
Average/MinReturn                         -52.4794
Average/NumEpisodes                       100
Average/StdReturn                           7.59418
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.790616
TotalEnvSteps                               1.08e+06
__unnamed_task__/AverageDiscountedReturn  -17.0578
__unnamed_task__/AverageReturn            -26.7479
__unnamed_task__/Iteration                107
__unnamed_task__/MaxReturn                -10.8552
__unnamed_task__/MinReturn                -52.4794
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.59418
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.61573
policy/KL                                   0.0101625
policy/KLBefore                             0
policy/LossAfter                           -0.0109861
policy/LossBefore                          -0.00295264
policy/dLoss                                0.00803344
----------------------------------------  ------------
2025-04-02 19:34:32 | [rl2_trainer] epoch #108 | Optimizing policy...
2025-04-02 19:34:32 | [rl2_trainer] epoch #108 | Fitting baseline...
2025-04-02 19:34:32 | [rl2_trainer] epoch #108 | Computing loss before
2025-04-02 19:34:33 | [rl2_trainer] epoch #108 | Computing KL before
2025-04-02 19:34:34 | [rl2_trainer] epoch #108 | Optimizing
2025-04-02 19:35:10 | [rl2_trainer] epoch #108 | Computing KL after
2025-04-02 19:35:10 | [rl2_trainer] epoch #108 | Computing loss after
2025-04-02 19:35:11 | [rl2_trainer] epoch #108 | Saving snapshot...
2025-04-02 19:35:11 | [rl2_trainer] epoch #108 | Saved
2025-04-02 19:35:11 | [rl2_trainer] epoch #108 | Time 20592.39 s
2025-04-02 19:35:11 | [rl2_trainer] epoch #108 | EpochTime 252.96 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -18.5309
Average/AverageReturn                     -29.0445
Average/Iteration                         108
Average/MaxReturn                          -3.43923
Average/MinReturn                         -67.3349
Average/NumEpisodes                       100
Average/StdReturn                           8.04534
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.440406
TotalEnvSteps                               1.09e+06
__unnamed_task__/AverageDiscountedReturn  -18.5309
__unnamed_task__/AverageReturn            -29.0445
__unnamed_task__/Iteration                108
__unnamed_task__/MaxReturn                 -3.43923
__unnamed_task__/MinReturn                -67.3349
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.04534
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.57806
policy/KL                                   0.0114923
policy/KLBefore                             0
policy/LossAfter                           -0.0287019
policy/LossBefore                          -0.0109479
policy/dLoss                                0.0177541
----------------------------------------  -----------
2025-04-02 19:37:44 | [rl2_trainer] epoch #109 | Optimizing policy...
2025-04-02 19:37:45 | [rl2_trainer] epoch #109 | Fitting baseline...
2025-04-02 19:37:45 | [rl2_trainer] epoch #109 | Computing loss before
2025-04-02 19:37:45 | [rl2_trainer] epoch #109 | Computing KL before
2025-04-02 19:37:46 | [rl2_trainer] epoch #109 | Optimizing
2025-04-02 19:38:22 | [rl2_trainer] epoch #109 | Computing KL after
2025-04-02 19:38:23 | [rl2_trainer] epoch #109 | Computing loss after
2025-04-02 19:38:24 | [rl2_trainer] epoch #109 | Saving snapshot...
2025-04-02 19:38:24 | [rl2_trainer] epoch #109 | Saved
2025-04-02 19:38:24 | [rl2_trainer] epoch #109 | Time 20785.03 s
2025-04-02 19:38:24 | [rl2_trainer] epoch #109 | EpochTime 192.63 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -16.0181
Average/AverageReturn                      -24.9143
Average/Iteration                          109
Average/MaxReturn                           -7.77257
Average/MinReturn                         -107.374
Average/NumEpisodes                        100
Average/StdReturn                           10.836
Average/TerminationRate                      0
LinearFeatureBaseline/ExplainedVariance      0.445741
TotalEnvSteps                                1.1e+06
__unnamed_task__/AverageDiscountedReturn   -16.0181
__unnamed_task__/AverageReturn             -24.9143
__unnamed_task__/Iteration                 109
__unnamed_task__/MaxReturn                  -7.77257
__unnamed_task__/MinReturn                -107.374
__unnamed_task__/NumEpisodes               100
__unnamed_task__/StdReturn                  10.836
__unnamed_task__/TerminationRate             0
policy/Entropy                               7.55098
policy/KL                                    0.0110781
policy/KLBefore                              0
policy/LossAfter                            -0.0688803
policy/LossBefore                           -0.019239
policy/dLoss                                 0.0496413
----------------------------------------  ------------
2025-04-02 19:40:34 | [rl2_trainer] epoch #110 | Optimizing policy...
2025-04-02 19:40:34 | [rl2_trainer] epoch #110 | Fitting baseline...
2025-04-02 19:40:34 | [rl2_trainer] epoch #110 | Computing loss before
2025-04-02 19:40:35 | [rl2_trainer] epoch #110 | Computing KL before
2025-04-02 19:40:35 | [rl2_trainer] epoch #110 | Optimizing
2025-04-02 19:41:11 | [rl2_trainer] epoch #110 | Computing KL after
2025-04-02 19:41:11 | [rl2_trainer] epoch #110 | Computing loss after
2025-04-02 19:41:12 | [rl2_trainer] epoch #110 | Saving snapshot...
2025-04-02 19:41:12 | [rl2_trainer] epoch #110 | Saved
2025-04-02 19:41:12 | [rl2_trainer] epoch #110 | Time 20953.24 s
2025-04-02 19:41:12 | [rl2_trainer] epoch #110 | EpochTime 168.21 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.9499
Average/AverageReturn                     -26.5943
Average/Iteration                         110
Average/MaxReturn                          -6.60843
Average/MinReturn                         -50.3904
Average/NumEpisodes                       100
Average/StdReturn                           8.34299
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.813711
TotalEnvSteps                               1.11e+06
__unnamed_task__/AverageDiscountedReturn  -16.9499
__unnamed_task__/AverageReturn            -26.5943
__unnamed_task__/Iteration                110
__unnamed_task__/MaxReturn                 -6.60843
__unnamed_task__/MinReturn                -50.3904
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.34299
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.53166
policy/KL                                   0.00901029
policy/KLBefore                             0
policy/LossAfter                           -0.018526
policy/LossBefore                          -0.00454785
policy/dLoss                                0.0139781
----------------------------------------  ------------
2025-04-02 19:43:19 | [rl2_trainer] epoch #111 | Optimizing policy...
2025-04-02 19:43:20 | [rl2_trainer] epoch #111 | Fitting baseline...
2025-04-02 19:43:20 | [rl2_trainer] epoch #111 | Computing loss before
2025-04-02 19:43:20 | [rl2_trainer] epoch #111 | Computing KL before
2025-04-02 19:43:21 | [rl2_trainer] epoch #111 | Optimizing
2025-04-02 19:43:55 | [rl2_trainer] epoch #111 | Computing KL after
2025-04-02 19:43:56 | [rl2_trainer] epoch #111 | Computing loss after
2025-04-02 19:43:57 | [rl2_trainer] epoch #111 | Saving snapshot...
2025-04-02 19:43:57 | [rl2_trainer] epoch #111 | Saved
2025-04-02 19:43:57 | [rl2_trainer] epoch #111 | Time 21117.95 s
2025-04-02 19:43:57 | [rl2_trainer] epoch #111 | EpochTime 164.72 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.5929
Average/AverageReturn                     -26.0825
Average/Iteration                         111
Average/MaxReturn                           2.93668
Average/MinReturn                         -55.3788
Average/NumEpisodes                       100
Average/StdReturn                           8.15172
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.805461
TotalEnvSteps                               1.12e+06
__unnamed_task__/AverageDiscountedReturn  -16.5929
__unnamed_task__/AverageReturn            -26.0825
__unnamed_task__/Iteration                111
__unnamed_task__/MaxReturn                  2.93668
__unnamed_task__/MinReturn                -55.3788
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.15172
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.5116
policy/KL                                   0.00853559
policy/KLBefore                             0
policy/LossAfter                           -0.0128445
policy/LossBefore                          -0.0024843
policy/dLoss                                0.0103602
----------------------------------------  ------------
2025-04-02 19:46:50 | [rl2_trainer] epoch #112 | Optimizing policy...
2025-04-02 19:46:51 | [rl2_trainer] epoch #112 | Fitting baseline...
2025-04-02 19:46:51 | [rl2_trainer] epoch #112 | Computing loss before
2025-04-02 19:46:51 | [rl2_trainer] epoch #112 | Computing KL before
2025-04-02 19:46:52 | [rl2_trainer] epoch #112 | Optimizing
2025-04-02 19:47:28 | [rl2_trainer] epoch #112 | Computing KL after
2025-04-02 19:47:28 | [rl2_trainer] epoch #112 | Computing loss after
2025-04-02 19:47:29 | [rl2_trainer] epoch #112 | Saving snapshot...
2025-04-02 19:47:29 | [rl2_trainer] epoch #112 | Saved
2025-04-02 19:47:29 | [rl2_trainer] epoch #112 | Time 21330.22 s
2025-04-02 19:47:29 | [rl2_trainer] epoch #112 | EpochTime 212.26 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.0137
Average/AverageReturn                     -25.0446
Average/Iteration                         112
Average/MaxReturn                           5.9522
Average/MinReturn                         -37.836
Average/NumEpisodes                       100
Average/StdReturn                           6.52705
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.636823
TotalEnvSteps                               1.13e+06
__unnamed_task__/AverageDiscountedReturn  -16.0137
__unnamed_task__/AverageReturn            -25.0446
__unnamed_task__/Iteration                112
__unnamed_task__/MaxReturn                  5.9522
__unnamed_task__/MinReturn                -37.836
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.52705
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.48407
policy/KL                                   0.00759347
policy/KLBefore                             0
policy/LossAfter                           -0.0160036
policy/LossBefore                          -0.00412343
policy/dLoss                                0.0118801
----------------------------------------  ------------
2025-04-02 19:50:37 | [rl2_trainer] epoch #113 | Optimizing policy...
2025-04-02 19:50:37 | [rl2_trainer] epoch #113 | Fitting baseline...
2025-04-02 19:50:37 | [rl2_trainer] epoch #113 | Computing loss before
2025-04-02 19:50:37 | [rl2_trainer] epoch #113 | Computing KL before
2025-04-02 19:50:38 | [rl2_trainer] epoch #113 | Optimizing
2025-04-02 19:51:14 | [rl2_trainer] epoch #113 | Computing KL after
2025-04-02 19:51:14 | [rl2_trainer] epoch #113 | Computing loss after
2025-04-02 19:51:15 | [rl2_trainer] epoch #113 | Saving snapshot...
2025-04-02 19:51:15 | [rl2_trainer] epoch #113 | Saved
2025-04-02 19:51:15 | [rl2_trainer] epoch #113 | Time 21556.44 s
2025-04-02 19:51:15 | [rl2_trainer] epoch #113 | EpochTime 226.22 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -17.5425
Average/AverageReturn                     -27.8808
Average/Iteration                         113
Average/MaxReturn                         -10.4593
Average/MinReturn                         -62.6878
Average/NumEpisodes                       100
Average/StdReturn                           7.1513
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.597796
TotalEnvSteps                               1.14e+06
__unnamed_task__/AverageDiscountedReturn  -17.5425
__unnamed_task__/AverageReturn            -27.8808
__unnamed_task__/Iteration                113
__unnamed_task__/MaxReturn                -10.4593
__unnamed_task__/MinReturn                -62.6878
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.1513
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.4571
policy/KL                                   0.0130838
policy/KLBefore                             0
policy/LossAfter                           -0.016799
policy/LossBefore                          -0.00392556
policy/dLoss                                0.0128734
----------------------------------------  ------------
2025-04-02 19:53:42 | [rl2_trainer] epoch #114 | Optimizing policy...
2025-04-02 19:53:42 | [rl2_trainer] epoch #114 | Fitting baseline...
2025-04-02 19:53:42 | [rl2_trainer] epoch #114 | Computing loss before
2025-04-02 19:53:43 | [rl2_trainer] epoch #114 | Computing KL before
2025-04-02 19:53:44 | [rl2_trainer] epoch #114 | Optimizing
2025-04-02 19:54:21 | [rl2_trainer] epoch #114 | Computing KL after
2025-04-02 19:54:21 | [rl2_trainer] epoch #114 | Computing loss after
2025-04-02 19:54:22 | [rl2_trainer] epoch #114 | Saving snapshot...
2025-04-02 19:54:22 | [rl2_trainer] epoch #114 | Saved
2025-04-02 19:54:22 | [rl2_trainer] epoch #114 | Time 21743.21 s
2025-04-02 19:54:22 | [rl2_trainer] epoch #114 | EpochTime 186.76 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.7728
Average/AverageReturn                     -21.6416
Average/Iteration                         114
Average/MaxReturn                          -4.65397
Average/MinReturn                         -39.3355
Average/NumEpisodes                       100
Average/StdReturn                           4.70143
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.363901
TotalEnvSteps                               1.15e+06
__unnamed_task__/AverageDiscountedReturn  -13.7728
__unnamed_task__/AverageReturn            -21.6416
__unnamed_task__/Iteration                114
__unnamed_task__/MaxReturn                 -4.65397
__unnamed_task__/MinReturn                -39.3355
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.70143
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.42203
policy/KL                                   0.0104305
policy/KLBefore                             0
policy/LossAfter                           -0.00914409
policy/LossBefore                          -0.00030774
policy/dLoss                                0.00883636
----------------------------------------  ------------
2025-04-02 19:56:23 | [rl2_trainer] epoch #115 | Optimizing policy...
2025-04-02 19:56:23 | [rl2_trainer] epoch #115 | Fitting baseline...
2025-04-02 19:56:23 | [rl2_trainer] epoch #115 | Computing loss before
2025-04-02 19:56:24 | [rl2_trainer] epoch #115 | Computing KL before
2025-04-02 19:56:24 | [rl2_trainer] epoch #115 | Optimizing
2025-04-02 19:57:01 | [rl2_trainer] epoch #115 | Computing KL after
2025-04-02 19:57:01 | [rl2_trainer] epoch #115 | Computing loss after
2025-04-02 19:57:02 | [rl2_trainer] epoch #115 | Saving snapshot...
2025-04-02 19:57:02 | [rl2_trainer] epoch #115 | Saved
2025-04-02 19:57:02 | [rl2_trainer] epoch #115 | Time 21903.12 s
2025-04-02 19:57:02 | [rl2_trainer] epoch #115 | EpochTime 159.91 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -18.2947
Average/AverageReturn                     -28.4012
Average/Iteration                         115
Average/MaxReturn                         -10.6628
Average/MinReturn                         -40.9774
Average/NumEpisodes                       100
Average/StdReturn                           6.25304
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.616678
TotalEnvSteps                               1.16e+06
__unnamed_task__/AverageDiscountedReturn  -18.2947
__unnamed_task__/AverageReturn            -28.4012
__unnamed_task__/Iteration                115
__unnamed_task__/MaxReturn                -10.6628
__unnamed_task__/MinReturn                -40.9774
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.25304
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.40337
policy/KL                                   0.0100329
policy/KLBefore                             0
policy/LossAfter                           -0.0123566
policy/LossBefore                           0.00131714
policy/dLoss                                0.0136737
----------------------------------------  ------------
2025-04-02 20:00:05 | [rl2_trainer] epoch #116 | Optimizing policy...
2025-04-02 20:00:06 | [rl2_trainer] epoch #116 | Fitting baseline...
2025-04-02 20:00:06 | [rl2_trainer] epoch #116 | Computing loss before
2025-04-02 20:00:06 | [rl2_trainer] epoch #116 | Computing KL before
2025-04-02 20:00:07 | [rl2_trainer] epoch #116 | Optimizing
2025-04-02 20:00:39 | [rl2_trainer] epoch #116 | Computing KL after
2025-04-02 20:00:40 | [rl2_trainer] epoch #116 | Computing loss after
2025-04-02 20:00:41 | [rl2_trainer] epoch #116 | Saving snapshot...
2025-04-02 20:00:41 | [rl2_trainer] epoch #116 | Saved
2025-04-02 20:00:41 | [rl2_trainer] epoch #116 | Time 22121.75 s
2025-04-02 20:00:41 | [rl2_trainer] epoch #116 | EpochTime 218.62 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.1932
Average/AverageReturn                     -23.6002
Average/Iteration                         116
Average/MaxReturn                          15.0004
Average/MinReturn                         -42.8137
Average/NumEpisodes                       100
Average/StdReturn                           6.52258
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.473746
TotalEnvSteps                               1.17e+06
__unnamed_task__/AverageDiscountedReturn  -15.1932
__unnamed_task__/AverageReturn            -23.6002
__unnamed_task__/Iteration                116
__unnamed_task__/MaxReturn                 15.0004
__unnamed_task__/MinReturn                -42.8137
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.52258
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.38077
policy/KL                                   0.00808259
policy/KLBefore                             0
policy/LossAfter                           -0.00581318
policy/LossBefore                           0.00600898
policy/dLoss                                0.0118222
----------------------------------------  ------------
2025-04-02 20:04:31 | [rl2_trainer] epoch #117 | Optimizing policy...
2025-04-02 20:04:32 | [rl2_trainer] epoch #117 | Fitting baseline...
2025-04-02 20:04:32 | [rl2_trainer] epoch #117 | Computing loss before
2025-04-02 20:04:32 | [rl2_trainer] epoch #117 | Computing KL before
2025-04-02 20:04:33 | [rl2_trainer] epoch #117 | Optimizing
2025-04-02 20:05:09 | [rl2_trainer] epoch #117 | Computing KL after
2025-04-02 20:05:10 | [rl2_trainer] epoch #117 | Computing loss after
2025-04-02 20:05:11 | [rl2_trainer] epoch #117 | Saving snapshot...
2025-04-02 20:05:11 | [rl2_trainer] epoch #117 | Saved
2025-04-02 20:05:11 | [rl2_trainer] epoch #117 | Time 22391.80 s
2025-04-02 20:05:11 | [rl2_trainer] epoch #117 | EpochTime 270.05 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.71
Average/AverageReturn                     -26.2288
Average/Iteration                         117
Average/MaxReturn                          17.2115
Average/MinReturn                         -62.3998
Average/NumEpisodes                       100
Average/StdReturn                          10.0464
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.308918
TotalEnvSteps                               1.18e+06
__unnamed_task__/AverageDiscountedReturn  -16.71
__unnamed_task__/AverageReturn            -26.2288
__unnamed_task__/Iteration                117
__unnamed_task__/MaxReturn                 17.2115
__unnamed_task__/MinReturn                -62.3998
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.0464
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.36192
policy/KL                                   0.0118832
policy/KLBefore                             0
policy/LossAfter                           -0.0423513
policy/LossBefore                           0.00074169
policy/dLoss                                0.043093
----------------------------------------  ------------
2025-04-02 20:08:11 | [rl2_trainer] epoch #118 | Optimizing policy...
2025-04-02 20:08:11 | [rl2_trainer] epoch #118 | Fitting baseline...
2025-04-02 20:08:11 | [rl2_trainer] epoch #118 | Computing loss before
2025-04-02 20:08:12 | [rl2_trainer] epoch #118 | Computing KL before
2025-04-02 20:08:12 | [rl2_trainer] epoch #118 | Optimizing
2025-04-02 20:08:48 | [rl2_trainer] epoch #118 | Computing KL after
2025-04-02 20:08:49 | [rl2_trainer] epoch #118 | Computing loss after
2025-04-02 20:08:50 | [rl2_trainer] epoch #118 | Saving snapshot...
2025-04-02 20:08:50 | [rl2_trainer] epoch #118 | Saved
2025-04-02 20:08:50 | [rl2_trainer] epoch #118 | Time 22610.85 s
2025-04-02 20:08:50 | [rl2_trainer] epoch #118 | EpochTime 219.05 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -15.7698
Average/AverageReturn                     -24.7468
Average/Iteration                         118
Average/MaxReturn                           3.53947
Average/MinReturn                         -56.814
Average/NumEpisodes                       100
Average/StdReturn                           8.39611
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance    -0.557819
TotalEnvSteps                               1.19e+06
__unnamed_task__/AverageDiscountedReturn  -15.7698
__unnamed_task__/AverageReturn            -24.7468
__unnamed_task__/Iteration                118
__unnamed_task__/MaxReturn                  3.53947
__unnamed_task__/MinReturn                -56.814
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.39611
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.33507
policy/KL                                   0.0145354
policy/KLBefore                             0
policy/LossAfter                           -0.0647009
policy/LossBefore                          -0.000766303
policy/dLoss                                0.0639346
----------------------------------------  -------------
2025-04-02 20:11:09 | [rl2_trainer] epoch #119 | Optimizing policy...
2025-04-02 20:11:10 | [rl2_trainer] epoch #119 | Fitting baseline...
2025-04-02 20:11:10 | [rl2_trainer] epoch #119 | Computing loss before
2025-04-02 20:11:10 | [rl2_trainer] epoch #119 | Computing KL before
2025-04-02 20:11:11 | [rl2_trainer] epoch #119 | Optimizing
2025-04-02 20:11:46 | [rl2_trainer] epoch #119 | Computing KL after
2025-04-02 20:11:46 | [rl2_trainer] epoch #119 | Computing loss after
2025-04-02 20:11:47 | [rl2_trainer] epoch #119 | Saving snapshot...
2025-04-02 20:11:47 | [rl2_trainer] epoch #119 | Saved
2025-04-02 20:11:47 | [rl2_trainer] epoch #119 | Time 22788.11 s
2025-04-02 20:11:47 | [rl2_trainer] epoch #119 | EpochTime 177.25 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.5433
Average/AverageReturn                     -25.7551
Average/Iteration                         119
Average/MaxReturn                          -4.60226
Average/MinReturn                         -38.9226
Average/NumEpisodes                       100
Average/StdReturn                           5.46197
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.653934
TotalEnvSteps                               1.2e+06
__unnamed_task__/AverageDiscountedReturn  -16.5433
__unnamed_task__/AverageReturn            -25.7551
__unnamed_task__/Iteration                119
__unnamed_task__/MaxReturn                 -4.60226
__unnamed_task__/MinReturn                -38.9226
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.46197
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.30796
policy/KL                                   0.0138711
policy/KLBefore                             0
policy/LossAfter                           -0.00914424
policy/LossBefore                          -0.00307605
policy/dLoss                                0.00606819
----------------------------------------  ------------
2025-04-02 20:14:41 | [rl2_trainer] epoch #120 | Optimizing policy...
2025-04-02 20:14:41 | [rl2_trainer] epoch #120 | Fitting baseline...
2025-04-02 20:14:41 | [rl2_trainer] epoch #120 | Computing loss before
2025-04-02 20:14:41 | [rl2_trainer] epoch #120 | Computing KL before
2025-04-02 20:14:42 | [rl2_trainer] epoch #120 | Optimizing
2025-04-02 20:15:14 | [rl2_trainer] epoch #120 | Computing KL after
2025-04-02 20:15:15 | [rl2_trainer] epoch #120 | Computing loss after
2025-04-02 20:15:16 | [rl2_trainer] epoch #120 | Saving snapshot...
2025-04-02 20:15:16 | [rl2_trainer] epoch #120 | Saved
2025-04-02 20:15:16 | [rl2_trainer] epoch #120 | Time 22997.01 s
2025-04-02 20:15:16 | [rl2_trainer] epoch #120 | EpochTime 208.90 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.3446
Average/AverageReturn                     -25.7474
Average/Iteration                         120
Average/MaxReturn                           1.10075
Average/MinReturn                         -55.2088
Average/NumEpisodes                       100
Average/StdReturn                           8.40131
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.0687835
TotalEnvSteps                               1.21e+06
__unnamed_task__/AverageDiscountedReturn  -16.3446
__unnamed_task__/AverageReturn            -25.7474
__unnamed_task__/Iteration                120
__unnamed_task__/MaxReturn                  1.10075
__unnamed_task__/MinReturn                -55.2088
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.40131
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.28162
policy/KL                                   0.0145202
policy/KLBefore                             0
policy/LossAfter                           -0.0503328
policy/LossBefore                           0.00494951
policy/dLoss                                0.0552823
----------------------------------------  ------------
2025-04-02 20:18:29 | [rl2_trainer] epoch #121 | Optimizing policy...
2025-04-02 20:18:30 | [rl2_trainer] epoch #121 | Fitting baseline...
2025-04-02 20:18:30 | [rl2_trainer] epoch #121 | Computing loss before
2025-04-02 20:18:30 | [rl2_trainer] epoch #121 | Computing KL before
2025-04-02 20:18:31 | [rl2_trainer] epoch #121 | Optimizing
2025-04-02 20:19:08 | [rl2_trainer] epoch #121 | Computing KL after
2025-04-02 20:19:09 | [rl2_trainer] epoch #121 | Computing loss after
2025-04-02 20:19:10 | [rl2_trainer] epoch #121 | Saving snapshot...
2025-04-02 20:19:10 | [rl2_trainer] epoch #121 | Saved
2025-04-02 20:19:10 | [rl2_trainer] epoch #121 | Time 23230.74 s
2025-04-02 20:19:10 | [rl2_trainer] epoch #121 | EpochTime 233.73 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -18.193
Average/AverageReturn                     -29.0349
Average/Iteration                         121
Average/MaxReturn                         -15.0442
Average/MinReturn                         -73.821
Average/NumEpisodes                       100
Average/StdReturn                          10.0368
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.512339
TotalEnvSteps                               1.22e+06
__unnamed_task__/AverageDiscountedReturn  -18.193
__unnamed_task__/AverageReturn            -29.0349
__unnamed_task__/Iteration                121
__unnamed_task__/MaxReturn                -15.0442
__unnamed_task__/MinReturn                -73.821
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.0368
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.26553
policy/KL                                   0.0116465
policy/KLBefore                             0
policy/LossAfter                           -0.0334585
policy/LossBefore                           0.00108235
policy/dLoss                                0.0345409
----------------------------------------  ------------
2025-04-02 20:20:36 | [rl2_trainer] epoch #122 | Optimizing policy...
2025-04-02 20:20:37 | [rl2_trainer] epoch #122 | Fitting baseline...
2025-04-02 20:20:37 | [rl2_trainer] epoch #122 | Computing loss before
2025-04-02 20:20:37 | [rl2_trainer] epoch #122 | Computing KL before
2025-04-02 20:20:38 | [rl2_trainer] epoch #122 | Optimizing
2025-04-02 20:21:13 | [rl2_trainer] epoch #122 | Computing KL after
2025-04-02 20:21:14 | [rl2_trainer] epoch #122 | Computing loss after
2025-04-02 20:21:15 | [rl2_trainer] epoch #122 | Saving snapshot...
2025-04-02 20:21:15 | [rl2_trainer] epoch #122 | Saved
2025-04-02 20:21:15 | [rl2_trainer] epoch #122 | Time 23356.10 s
2025-04-02 20:21:15 | [rl2_trainer] epoch #122 | EpochTime 125.35 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.3588
Average/AverageReturn                     -23.7301
Average/Iteration                         122
Average/MaxReturn                           2.23713
Average/MinReturn                         -38.1226
Average/NumEpisodes                       100
Average/StdReturn                           6.37273
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.699989
TotalEnvSteps                               1.23e+06
__unnamed_task__/AverageDiscountedReturn  -15.3588
__unnamed_task__/AverageReturn            -23.7301
__unnamed_task__/Iteration                122
__unnamed_task__/MaxReturn                  2.23713
__unnamed_task__/MinReturn                -38.1226
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.37273
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.26374
policy/KL                                   0.00963202
policy/KLBefore                             0
policy/LossAfter                           -0.0270947
policy/LossBefore                          -0.00945664
policy/dLoss                                0.0176381
----------------------------------------  ------------
2025-04-02 20:22:44 | [rl2_trainer] epoch #123 | Optimizing policy...
2025-04-02 20:22:44 | [rl2_trainer] epoch #123 | Fitting baseline...
2025-04-02 20:22:44 | [rl2_trainer] epoch #123 | Computing loss before
2025-04-02 20:22:45 | [rl2_trainer] epoch #123 | Computing KL before
2025-04-02 20:22:46 | [rl2_trainer] epoch #123 | Optimizing
2025-04-02 20:23:21 | [rl2_trainer] epoch #123 | Computing KL after
2025-04-02 20:23:21 | [rl2_trainer] epoch #123 | Computing loss after
2025-04-02 20:23:22 | [rl2_trainer] epoch #123 | Saving snapshot...
2025-04-02 20:23:22 | [rl2_trainer] epoch #123 | Saved
2025-04-02 20:23:22 | [rl2_trainer] epoch #123 | Time 23483.08 s
2025-04-02 20:23:22 | [rl2_trainer] epoch #123 | EpochTime 126.99 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -15.5625
Average/AverageReturn                     -24.133
Average/Iteration                         123
Average/MaxReturn                          -4.54811
Average/MinReturn                         -37.687
Average/NumEpisodes                       100
Average/StdReturn                           5.82351
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.719313
TotalEnvSteps                               1.24e+06
__unnamed_task__/AverageDiscountedReturn  -15.5625
__unnamed_task__/AverageReturn            -24.133
__unnamed_task__/Iteration                123
__unnamed_task__/MaxReturn                 -4.54811
__unnamed_task__/MinReturn                -37.687
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.82351
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.25437
policy/KL                                   0.0104516
policy/KLBefore                             0
policy/LossAfter                           -0.0146336
policy/LossBefore                          -0.0015748
policy/dLoss                                0.0130588
----------------------------------------  -----------
2025-04-02 20:26:20 | [rl2_trainer] epoch #124 | Optimizing policy...
2025-04-02 20:26:20 | [rl2_trainer] epoch #124 | Fitting baseline...
2025-04-02 20:26:20 | [rl2_trainer] epoch #124 | Computing loss before
2025-04-02 20:26:20 | [rl2_trainer] epoch #124 | Computing KL before
2025-04-02 20:26:21 | [rl2_trainer] epoch #124 | Optimizing
2025-04-02 20:26:55 | [rl2_trainer] epoch #124 | Computing KL after
2025-04-02 20:26:56 | [rl2_trainer] epoch #124 | Computing loss after
2025-04-02 20:26:57 | [rl2_trainer] epoch #124 | Saving snapshot...
2025-04-02 20:26:57 | [rl2_trainer] epoch #124 | Saved
2025-04-02 20:26:57 | [rl2_trainer] epoch #124 | Time 23697.61 s
2025-04-02 20:26:57 | [rl2_trainer] epoch #124 | EpochTime 214.52 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.309
Average/AverageReturn                     -23.9812
Average/Iteration                         124
Average/MaxReturn                           5.66316
Average/MinReturn                         -63.7877
Average/NumEpisodes                       100
Average/StdReturn                           8.87889
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.576236
TotalEnvSteps                               1.25e+06
__unnamed_task__/AverageDiscountedReturn  -15.309
__unnamed_task__/AverageReturn            -23.9812
__unnamed_task__/Iteration                124
__unnamed_task__/MaxReturn                  5.66316
__unnamed_task__/MinReturn                -63.7877
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.87889
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.23202
policy/KL                                   0.0111383
policy/KLBefore                             0
policy/LossAfter                           -0.0248302
policy/LossBefore                          -0.00255135
policy/dLoss                                0.0222788
----------------------------------------  ------------
2025-04-02 20:28:51 | [rl2_trainer] epoch #125 | Optimizing policy...
2025-04-02 20:28:52 | [rl2_trainer] epoch #125 | Fitting baseline...
2025-04-02 20:28:52 | [rl2_trainer] epoch #125 | Computing loss before
2025-04-02 20:28:52 | [rl2_trainer] epoch #125 | Computing KL before
2025-04-02 20:28:53 | [rl2_trainer] epoch #125 | Optimizing
2025-04-02 20:29:27 | [rl2_trainer] epoch #125 | Computing KL after
2025-04-02 20:29:27 | [rl2_trainer] epoch #125 | Computing loss after
2025-04-02 20:29:28 | [rl2_trainer] epoch #125 | Saving snapshot...
2025-04-02 20:29:28 | [rl2_trainer] epoch #125 | Saved
2025-04-02 20:29:28 | [rl2_trainer] epoch #125 | Time 23849.21 s
2025-04-02 20:29:28 | [rl2_trainer] epoch #125 | EpochTime 151.60 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -18.0394
Average/AverageReturn                     -28.1246
Average/Iteration                         125
Average/MaxReturn                         -16.0437
Average/MinReturn                         -50.9756
Average/NumEpisodes                       100
Average/StdReturn                           5.84741
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.524924
TotalEnvSteps                               1.26e+06
__unnamed_task__/AverageDiscountedReturn  -18.0394
__unnamed_task__/AverageReturn            -28.1246
__unnamed_task__/Iteration                125
__unnamed_task__/MaxReturn                -16.0437
__unnamed_task__/MinReturn                -50.9756
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.84741
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.21567
policy/KL                                   0.0109792
policy/KLBefore                             0
policy/LossAfter                           -0.0154429
policy/LossBefore                           0.000799324
policy/dLoss                                0.0162422
----------------------------------------  -------------
2025-04-02 20:32:21 | [rl2_trainer] epoch #126 | Optimizing policy...
2025-04-02 20:32:22 | [rl2_trainer] epoch #126 | Fitting baseline...
2025-04-02 20:32:22 | [rl2_trainer] epoch #126 | Computing loss before
2025-04-02 20:32:22 | [rl2_trainer] epoch #126 | Computing KL before
2025-04-02 20:32:23 | [rl2_trainer] epoch #126 | Optimizing
2025-04-02 20:32:56 | [rl2_trainer] epoch #126 | Computing KL after
2025-04-02 20:32:57 | [rl2_trainer] epoch #126 | Computing loss after
2025-04-02 20:32:57 | [rl2_trainer] epoch #126 | Saving snapshot...
2025-04-02 20:32:57 | [rl2_trainer] epoch #126 | Saved
2025-04-02 20:32:57 | [rl2_trainer] epoch #126 | Time 24058.45 s
2025-04-02 20:32:57 | [rl2_trainer] epoch #126 | EpochTime 209.24 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -18.4284
Average/AverageReturn                     -29.2003
Average/Iteration                         126
Average/MaxReturn                         -13.1371
Average/MinReturn                         -79.4277
Average/NumEpisodes                       100
Average/StdReturn                          11.0898
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.571433
TotalEnvSteps                               1.27e+06
__unnamed_task__/AverageDiscountedReturn  -18.4284
__unnamed_task__/AverageReturn            -29.2003
__unnamed_task__/Iteration                126
__unnamed_task__/MaxReturn                -13.1371
__unnamed_task__/MinReturn                -79.4277
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.0898
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.2106
policy/KL                                   0.0110208
policy/KLBefore                             0
policy/LossAfter                           -0.032824
policy/LossBefore                           0.00397563
policy/dLoss                                0.0367997
----------------------------------------  ------------
2025-04-02 20:35:26 | [rl2_trainer] epoch #127 | Optimizing policy...
2025-04-02 20:35:26 | [rl2_trainer] epoch #127 | Fitting baseline...
2025-04-02 20:35:26 | [rl2_trainer] epoch #127 | Computing loss before
2025-04-02 20:35:27 | [rl2_trainer] epoch #127 | Computing KL before
2025-04-02 20:35:27 | [rl2_trainer] epoch #127 | Optimizing
2025-04-02 20:36:04 | [rl2_trainer] epoch #127 | Computing KL after
2025-04-02 20:36:05 | [rl2_trainer] epoch #127 | Computing loss after
2025-04-02 20:36:06 | [rl2_trainer] epoch #127 | Saving snapshot...
2025-04-02 20:36:06 | [rl2_trainer] epoch #127 | Saved
2025-04-02 20:36:06 | [rl2_trainer] epoch #127 | Time 24246.85 s
2025-04-02 20:36:06 | [rl2_trainer] epoch #127 | EpochTime 188.39 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.1475
Average/AverageReturn                     -21.7279
Average/Iteration                         127
Average/MaxReturn                          -7.1038
Average/MinReturn                         -33.1458
Average/NumEpisodes                       100
Average/StdReturn                           4.51307
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.586887
TotalEnvSteps                               1.28e+06
__unnamed_task__/AverageDiscountedReturn  -14.1475
__unnamed_task__/AverageReturn            -21.7279
__unnamed_task__/Iteration                127
__unnamed_task__/MaxReturn                 -7.1038
__unnamed_task__/MinReturn                -33.1458
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.51307
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.19846
policy/KL                                   0.00934099
policy/KLBefore                             0
policy/LossAfter                           -0.014151
policy/LossBefore                          -0.00207928
policy/dLoss                                0.0120718
----------------------------------------  ------------
2025-04-02 20:38:18 | [rl2_trainer] epoch #128 | Optimizing policy...
2025-04-02 20:38:18 | [rl2_trainer] epoch #128 | Fitting baseline...
2025-04-02 20:38:18 | [rl2_trainer] epoch #128 | Computing loss before
2025-04-02 20:38:19 | [rl2_trainer] epoch #128 | Computing KL before
2025-04-02 20:38:19 | [rl2_trainer] epoch #128 | Optimizing
2025-04-02 20:38:56 | [rl2_trainer] epoch #128 | Computing KL after
2025-04-02 20:38:56 | [rl2_trainer] epoch #128 | Computing loss after
2025-04-02 20:38:57 | [rl2_trainer] epoch #128 | Saving snapshot...
2025-04-02 20:38:57 | [rl2_trainer] epoch #128 | Saved
2025-04-02 20:38:57 | [rl2_trainer] epoch #128 | Time 24418.07 s
2025-04-02 20:38:57 | [rl2_trainer] epoch #128 | EpochTime 171.22 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -15.7881
Average/AverageReturn                     -24.3861
Average/Iteration                         128
Average/MaxReturn                         -11.0474
Average/MinReturn                         -89.144
Average/NumEpisodes                       100
Average/StdReturn                           8.96147
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.560581
TotalEnvSteps                               1.29e+06
__unnamed_task__/AverageDiscountedReturn  -15.7881
__unnamed_task__/AverageReturn            -24.3861
__unnamed_task__/Iteration                128
__unnamed_task__/MaxReturn                -11.0474
__unnamed_task__/MinReturn                -89.144
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.96147
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.17104
policy/KL                                   0.0106066
policy/KLBefore                             0
policy/LossAfter                           -0.0148348
policy/LossBefore                          -0.000216226
policy/dLoss                                0.0146186
----------------------------------------  -------------
2025-04-02 20:40:53 | [rl2_trainer] epoch #129 | Optimizing policy...
2025-04-02 20:40:53 | [rl2_trainer] epoch #129 | Fitting baseline...
2025-04-02 20:40:53 | [rl2_trainer] epoch #129 | Computing loss before
2025-04-02 20:40:54 | [rl2_trainer] epoch #129 | Computing KL before
2025-04-02 20:40:55 | [rl2_trainer] epoch #129 | Optimizing
2025-04-02 20:41:31 | [rl2_trainer] epoch #129 | Computing KL after
2025-04-02 20:41:32 | [rl2_trainer] epoch #129 | Computing loss after
2025-04-02 20:41:33 | [rl2_trainer] epoch #129 | Saving snapshot...
2025-04-02 20:41:33 | [rl2_trainer] epoch #129 | Saved
2025-04-02 20:41:33 | [rl2_trainer] epoch #129 | Time 24573.97 s
2025-04-02 20:41:33 | [rl2_trainer] epoch #129 | EpochTime 155.90 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -17.5404
Average/AverageReturn                     -27.1728
Average/Iteration                         129
Average/MaxReturn                           0.559833
Average/MinReturn                         -52.7879
Average/NumEpisodes                       100
Average/StdReturn                           6.62181
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.517958
TotalEnvSteps                               1.3e+06
__unnamed_task__/AverageDiscountedReturn  -17.5404
__unnamed_task__/AverageReturn            -27.1728
__unnamed_task__/Iteration                129
__unnamed_task__/MaxReturn                  0.559833
__unnamed_task__/MinReturn                -52.7879
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.62181
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.1459
policy/KL                                   0.00884506
policy/KLBefore                             0
policy/LossAfter                           -0.00617694
policy/LossBefore                           0.000790179
policy/dLoss                                0.00696711
----------------------------------------  -------------
2025-04-02 20:44:57 | [rl2_trainer] epoch #130 | Optimizing policy...
2025-04-02 20:44:58 | [rl2_trainer] epoch #130 | Fitting baseline...
2025-04-02 20:44:58 | [rl2_trainer] epoch #130 | Computing loss before
2025-04-02 20:44:58 | [rl2_trainer] epoch #130 | Computing KL before
2025-04-02 20:44:59 | [rl2_trainer] epoch #130 | Optimizing
2025-04-02 20:45:34 | [rl2_trainer] epoch #130 | Computing KL after
2025-04-02 20:45:35 | [rl2_trainer] epoch #130 | Computing loss after
2025-04-02 20:45:36 | [rl2_trainer] epoch #130 | Saving snapshot...
2025-04-02 20:45:36 | [rl2_trainer] epoch #130 | Saved
2025-04-02 20:45:36 | [rl2_trainer] epoch #130 | Time 24816.63 s
2025-04-02 20:45:36 | [rl2_trainer] epoch #130 | EpochTime 242.66 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.6823
Average/AverageReturn                     -26.6189
Average/Iteration                         130
Average/MaxReturn                           4.63873
Average/MinReturn                         -70.0582
Average/NumEpisodes                       100
Average/StdReturn                          11.6473
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.677613
TotalEnvSteps                               1.31e+06
__unnamed_task__/AverageDiscountedReturn  -16.6823
__unnamed_task__/AverageReturn            -26.6189
__unnamed_task__/Iteration                130
__unnamed_task__/MaxReturn                  4.63873
__unnamed_task__/MinReturn                -70.0582
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.6473
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.1429
policy/KL                                   0.0135149
policy/KLBefore                             0
policy/LossAfter                           -0.0457814
policy/LossBefore                          -0.00673262
policy/dLoss                                0.0390488
----------------------------------------  ------------
2025-04-02 20:48:40 | [rl2_trainer] epoch #131 | Optimizing policy...
2025-04-02 20:48:40 | [rl2_trainer] epoch #131 | Fitting baseline...
2025-04-02 20:48:40 | [rl2_trainer] epoch #131 | Computing loss before
2025-04-02 20:48:41 | [rl2_trainer] epoch #131 | Computing KL before
2025-04-02 20:48:41 | [rl2_trainer] epoch #131 | Optimizing
2025-04-02 20:49:17 | [rl2_trainer] epoch #131 | Computing KL after
2025-04-02 20:49:18 | [rl2_trainer] epoch #131 | Computing loss after
2025-04-02 20:49:18 | [rl2_trainer] epoch #131 | Saving snapshot...
2025-04-02 20:49:18 | [rl2_trainer] epoch #131 | Saved
2025-04-02 20:49:18 | [rl2_trainer] epoch #131 | Time 25039.44 s
2025-04-02 20:49:18 | [rl2_trainer] epoch #131 | EpochTime 222.81 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.3825
Average/AverageReturn                     -23.9443
Average/Iteration                         131
Average/MaxReturn                          -1.39639
Average/MinReturn                         -63.8172
Average/NumEpisodes                       100
Average/StdReturn                           7.29028
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.640824
TotalEnvSteps                               1.32e+06
__unnamed_task__/AverageDiscountedReturn  -15.3825
__unnamed_task__/AverageReturn            -23.9443
__unnamed_task__/Iteration                131
__unnamed_task__/MaxReturn                 -1.39639
__unnamed_task__/MinReturn                -63.8172
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.29028
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.13086
policy/KL                                   0.00918889
policy/KLBefore                             0
policy/LossAfter                           -0.0121096
policy/LossBefore                           0.00438955
policy/dLoss                                0.0164991
----------------------------------------  ------------
2025-04-02 20:52:00 | [rl2_trainer] epoch #132 | Optimizing policy...
2025-04-02 20:52:00 | [rl2_trainer] epoch #132 | Fitting baseline...
2025-04-02 20:52:00 | [rl2_trainer] epoch #132 | Computing loss before
2025-04-02 20:52:01 | [rl2_trainer] epoch #132 | Computing KL before
2025-04-02 20:52:01 | [rl2_trainer] epoch #132 | Optimizing
2025-04-02 20:52:34 | [rl2_trainer] epoch #132 | Computing KL after
2025-04-02 20:52:35 | [rl2_trainer] epoch #132 | Computing loss after
2025-04-02 20:52:35 | [rl2_trainer] epoch #132 | Saving snapshot...
2025-04-02 20:52:35 | [rl2_trainer] epoch #132 | Saved
2025-04-02 20:52:35 | [rl2_trainer] epoch #132 | Time 25236.43 s
2025-04-02 20:52:35 | [rl2_trainer] epoch #132 | EpochTime 196.99 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -17.2967
Average/AverageReturn                     -27.5268
Average/Iteration                         132
Average/MaxReturn                          -2.43233
Average/MinReturn                         -67.7127
Average/NumEpisodes                       100
Average/StdReturn                          12.8638
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.702356
TotalEnvSteps                               1.33e+06
__unnamed_task__/AverageDiscountedReturn  -17.2967
__unnamed_task__/AverageReturn            -27.5268
__unnamed_task__/Iteration                132
__unnamed_task__/MaxReturn                 -2.43233
__unnamed_task__/MinReturn                -67.7127
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.8638
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.121
policy/KL                                   0.0143323
policy/KLBefore                             0
policy/LossAfter                           -0.0436772
policy/LossBefore                           0.00365718
policy/dLoss                                0.0473344
----------------------------------------  ------------
2025-04-02 20:54:45 | [rl2_trainer] epoch #133 | Optimizing policy...
2025-04-02 20:54:45 | [rl2_trainer] epoch #133 | Fitting baseline...
2025-04-02 20:54:45 | [rl2_trainer] epoch #133 | Computing loss before
2025-04-02 20:54:46 | [rl2_trainer] epoch #133 | Computing KL before
2025-04-02 20:54:46 | [rl2_trainer] epoch #133 | Optimizing
2025-04-02 20:55:23 | [rl2_trainer] epoch #133 | Computing KL after
2025-04-02 20:55:24 | [rl2_trainer] epoch #133 | Computing loss after
2025-04-02 20:55:25 | [rl2_trainer] epoch #133 | Saving snapshot...
2025-04-02 20:55:25 | [rl2_trainer] epoch #133 | Saved
2025-04-02 20:55:25 | [rl2_trainer] epoch #133 | Time 25406.08 s
2025-04-02 20:55:25 | [rl2_trainer] epoch #133 | EpochTime 169.65 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -14.828
Average/AverageReturn                     -23.0369
Average/Iteration                         133
Average/MaxReturn                           6.10349
Average/MinReturn                         -60.9251
Average/NumEpisodes                       100
Average/StdReturn                           8.81674
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.780476
TotalEnvSteps                               1.34e+06
__unnamed_task__/AverageDiscountedReturn  -14.828
__unnamed_task__/AverageReturn            -23.0369
__unnamed_task__/Iteration                133
__unnamed_task__/MaxReturn                  6.10349
__unnamed_task__/MinReturn                -60.9251
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.81674
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.10116
policy/KL                                   0.0127045
policy/KLBefore                             0
policy/LossAfter                           -0.0199293
policy/LossBefore                          -0.0024252
policy/dLoss                                0.0175041
----------------------------------------  -----------
2025-04-02 20:59:05 | [rl2_trainer] epoch #134 | Optimizing policy...
2025-04-02 20:59:05 | [rl2_trainer] epoch #134 | Fitting baseline...
2025-04-02 20:59:05 | [rl2_trainer] epoch #134 | Computing loss before
2025-04-02 20:59:06 | [rl2_trainer] epoch #134 | Computing KL before
2025-04-02 20:59:06 | [rl2_trainer] epoch #134 | Optimizing
2025-04-02 20:59:40 | [rl2_trainer] epoch #134 | Computing KL after
2025-04-02 20:59:41 | [rl2_trainer] epoch #134 | Computing loss after
2025-04-02 20:59:42 | [rl2_trainer] epoch #134 | Saving snapshot...
2025-04-02 20:59:42 | [rl2_trainer] epoch #134 | Saved
2025-04-02 20:59:42 | [rl2_trainer] epoch #134 | Time 25662.55 s
2025-04-02 20:59:42 | [rl2_trainer] epoch #134 | EpochTime 256.46 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -17.981
Average/AverageReturn                     -28.6155
Average/Iteration                         134
Average/MaxReturn                          -3.50766
Average/MinReturn                         -57.5357
Average/NumEpisodes                       100
Average/StdReturn                           9.26224
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.587701
TotalEnvSteps                               1.35e+06
__unnamed_task__/AverageDiscountedReturn  -17.981
__unnamed_task__/AverageReturn            -28.6155
__unnamed_task__/Iteration                134
__unnamed_task__/MaxReturn                 -3.50766
__unnamed_task__/MinReturn                -57.5357
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.26224
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.08937
policy/KL                                   0.0132228
policy/KLBefore                             0
policy/LossAfter                           -0.0318085
policy/LossBefore                           0.00249149
policy/dLoss                                0.0343
----------------------------------------  ------------
2025-04-02 21:03:39 | [rl2_trainer] epoch #135 | Optimizing policy...
2025-04-02 21:03:39 | [rl2_trainer] epoch #135 | Fitting baseline...
2025-04-02 21:03:39 | [rl2_trainer] epoch #135 | Computing loss before
2025-04-02 21:03:40 | [rl2_trainer] epoch #135 | Computing KL before
2025-04-02 21:03:41 | [rl2_trainer] epoch #135 | Optimizing
2025-04-02 21:04:16 | [rl2_trainer] epoch #135 | Computing KL after
2025-04-02 21:04:16 | [rl2_trainer] epoch #135 | Computing loss after
2025-04-02 21:04:17 | [rl2_trainer] epoch #135 | Saving snapshot...
2025-04-02 21:04:17 | [rl2_trainer] epoch #135 | Saved
2025-04-02 21:04:17 | [rl2_trainer] epoch #135 | Time 25938.26 s
2025-04-02 21:04:17 | [rl2_trainer] epoch #135 | EpochTime 275.71 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -18.2863
Average/AverageReturn                     -29.0662
Average/Iteration                         135
Average/MaxReturn                         -12.3476
Average/MinReturn                         -65.4995
Average/NumEpisodes                       100
Average/StdReturn                           9.84594
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.656285
TotalEnvSteps                               1.36e+06
__unnamed_task__/AverageDiscountedReturn  -18.2863
__unnamed_task__/AverageReturn            -29.0662
__unnamed_task__/Iteration                135
__unnamed_task__/MaxReturn                -12.3476
__unnamed_task__/MinReturn                -65.4995
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.84594
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.08482
policy/KL                                   0.0124862
policy/KLBefore                             0
policy/LossAfter                           -0.0340126
policy/LossBefore                          -0.00272663
policy/dLoss                                0.031286
----------------------------------------  ------------
2025-04-02 21:06:47 | [rl2_trainer] epoch #136 | Optimizing policy...
2025-04-02 21:06:47 | [rl2_trainer] epoch #136 | Fitting baseline...
2025-04-02 21:06:47 | [rl2_trainer] epoch #136 | Computing loss before
2025-04-02 21:06:48 | [rl2_trainer] epoch #136 | Computing KL before
2025-04-02 21:06:48 | [rl2_trainer] epoch #136 | Optimizing
2025-04-02 21:07:24 | [rl2_trainer] epoch #136 | Computing KL after
2025-04-02 21:07:25 | [rl2_trainer] epoch #136 | Computing loss after
2025-04-02 21:07:26 | [rl2_trainer] epoch #136 | Saving snapshot...
2025-04-02 21:07:26 | [rl2_trainer] epoch #136 | Saved
2025-04-02 21:07:26 | [rl2_trainer] epoch #136 | Time 26126.63 s
2025-04-02 21:07:26 | [rl2_trainer] epoch #136 | EpochTime 188.37 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.718
Average/AverageReturn                     -26.3692
Average/Iteration                         136
Average/MaxReturn                           6.30832
Average/MinReturn                         -54.497
Average/NumEpisodes                       100
Average/StdReturn                           9.1294
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.433632
TotalEnvSteps                               1.37e+06
__unnamed_task__/AverageDiscountedReturn  -16.718
__unnamed_task__/AverageReturn            -26.3692
__unnamed_task__/Iteration                136
__unnamed_task__/MaxReturn                  6.30832
__unnamed_task__/MinReturn                -54.497
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.1294
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.07232
policy/KL                                   0.0132864
policy/KLBefore                             0
policy/LossAfter                           -0.0289048
policy/LossBefore                           0.00665172
policy/dLoss                                0.0355566
----------------------------------------  ------------
2025-04-02 21:08:52 | [rl2_trainer] epoch #137 | Optimizing policy...
2025-04-02 21:08:52 | [rl2_trainer] epoch #137 | Fitting baseline...
2025-04-02 21:08:52 | [rl2_trainer] epoch #137 | Computing loss before
2025-04-02 21:08:53 | [rl2_trainer] epoch #137 | Computing KL before
2025-04-02 21:08:53 | [rl2_trainer] epoch #137 | Optimizing
2025-04-02 21:09:27 | [rl2_trainer] epoch #137 | Computing KL after
2025-04-02 21:09:28 | [rl2_trainer] epoch #137 | Computing loss after
2025-04-02 21:09:28 | [rl2_trainer] epoch #137 | Saving snapshot...
2025-04-02 21:09:28 | [rl2_trainer] epoch #137 | Saved
2025-04-02 21:09:28 | [rl2_trainer] epoch #137 | Time 26249.51 s
2025-04-02 21:09:28 | [rl2_trainer] epoch #137 | EpochTime 122.88 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.4566
Average/AverageReturn                     -23.6711
Average/Iteration                         137
Average/MaxReturn                          -5.07184
Average/MinReturn                         -40.0613
Average/NumEpisodes                       100
Average/StdReturn                           6.73441
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.591747
TotalEnvSteps                               1.38e+06
__unnamed_task__/AverageDiscountedReturn  -15.4566
__unnamed_task__/AverageReturn            -23.6711
__unnamed_task__/Iteration                137
__unnamed_task__/MaxReturn                 -5.07184
__unnamed_task__/MinReturn                -40.0613
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.73441
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.0545
policy/KL                                   0.0109158
policy/KLBefore                             0
policy/LossAfter                           -0.00792106
policy/LossBefore                           0.00678676
policy/dLoss                                0.0147078
----------------------------------------  ------------
2025-04-02 21:11:28 | [rl2_trainer] epoch #138 | Optimizing policy...
2025-04-02 21:11:28 | [rl2_trainer] epoch #138 | Fitting baseline...
2025-04-02 21:11:28 | [rl2_trainer] epoch #138 | Computing loss before
2025-04-02 21:11:29 | [rl2_trainer] epoch #138 | Computing KL before
2025-04-02 21:11:29 | [rl2_trainer] epoch #138 | Optimizing
2025-04-02 21:12:06 | [rl2_trainer] epoch #138 | Computing KL after
2025-04-02 21:12:06 | [rl2_trainer] epoch #138 | Computing loss after
2025-04-02 21:12:07 | [rl2_trainer] epoch #138 | Saving snapshot...
2025-04-02 21:12:07 | [rl2_trainer] epoch #138 | Saved
2025-04-02 21:12:07 | [rl2_trainer] epoch #138 | Time 26408.08 s
2025-04-02 21:12:07 | [rl2_trainer] epoch #138 | EpochTime 158.57 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.822
Average/AverageReturn                     -25.8734
Average/Iteration                         138
Average/MaxReturn                          -8.93172
Average/MinReturn                         -48.4874
Average/NumEpisodes                       100
Average/StdReturn                           6.67383
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.42806
TotalEnvSteps                               1.39e+06
__unnamed_task__/AverageDiscountedReturn  -16.822
__unnamed_task__/AverageReturn            -25.8734
__unnamed_task__/Iteration                138
__unnamed_task__/MaxReturn                 -8.93172
__unnamed_task__/MinReturn                -48.4874
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.67383
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.04124
policy/KL                                   0.0087196
policy/KLBefore                             0
policy/LossAfter                           -0.00972331
policy/LossBefore                           0.00636574
policy/dLoss                                0.016089
----------------------------------------  ------------
2025-04-02 21:14:27 | [rl2_trainer] epoch #139 | Optimizing policy...
2025-04-02 21:14:27 | [rl2_trainer] epoch #139 | Fitting baseline...
2025-04-02 21:14:27 | [rl2_trainer] epoch #139 | Computing loss before
2025-04-02 21:14:28 | [rl2_trainer] epoch #139 | Computing KL before
2025-04-02 21:14:28 | [rl2_trainer] epoch #139 | Optimizing
2025-04-02 21:15:05 | [rl2_trainer] epoch #139 | Computing KL after
2025-04-02 21:15:05 | [rl2_trainer] epoch #139 | Computing loss after
2025-04-02 21:15:06 | [rl2_trainer] epoch #139 | Saving snapshot...
2025-04-02 21:15:06 | [rl2_trainer] epoch #139 | Saved
2025-04-02 21:15:06 | [rl2_trainer] epoch #139 | Time 26587.31 s
2025-04-02 21:15:06 | [rl2_trainer] epoch #139 | EpochTime 179.23 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.9046
Average/AverageReturn                     -23.2209
Average/Iteration                         139
Average/MaxReturn                          10.2107
Average/MinReturn                         -38.0162
Average/NumEpisodes                       100
Average/StdReturn                           7.50498
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.473856
TotalEnvSteps                               1.4e+06
__unnamed_task__/AverageDiscountedReturn  -14.9046
__unnamed_task__/AverageReturn            -23.2209
__unnamed_task__/Iteration                139
__unnamed_task__/MaxReturn                 10.2107
__unnamed_task__/MinReturn                -38.0162
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.50498
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.03512
policy/KL                                   0.00933831
policy/KLBefore                             0
policy/LossAfter                           -0.0299987
policy/LossBefore                          -0.00498974
policy/dLoss                                0.0250089
----------------------------------------  ------------
2025-04-02 21:18:04 | [rl2_trainer] epoch #140 | Optimizing policy...
2025-04-02 21:18:05 | [rl2_trainer] epoch #140 | Fitting baseline...
2025-04-02 21:18:05 | [rl2_trainer] epoch #140 | Computing loss before
2025-04-02 21:18:05 | [rl2_trainer] epoch #140 | Computing KL before
2025-04-02 21:18:06 | [rl2_trainer] epoch #140 | Optimizing
2025-04-02 21:18:42 | [rl2_trainer] epoch #140 | Computing KL after
2025-04-02 21:18:43 | [rl2_trainer] epoch #140 | Computing loss after
2025-04-02 21:18:44 | [rl2_trainer] epoch #140 | Saving snapshot...
2025-04-02 21:18:44 | [rl2_trainer] epoch #140 | Saved
2025-04-02 21:18:44 | [rl2_trainer] epoch #140 | Time 26804.79 s
2025-04-02 21:18:44 | [rl2_trainer] epoch #140 | EpochTime 217.48 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.5225
Average/AverageReturn                     -22.1448
Average/Iteration                         140
Average/MaxReturn                           3.12261
Average/MinReturn                         -57.7684
Average/NumEpisodes                       100
Average/StdReturn                           6.28005
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.515413
TotalEnvSteps                               1.41e+06
__unnamed_task__/AverageDiscountedReturn  -14.5225
__unnamed_task__/AverageReturn            -22.1448
__unnamed_task__/Iteration                140
__unnamed_task__/MaxReturn                  3.12261
__unnamed_task__/MinReturn                -57.7684
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.28005
__unnamed_task__/TerminationRate            0
policy/Entropy                              7.02321
policy/KL                                   0.00743167
policy/KLBefore                             0
policy/LossAfter                           -0.00162558
policy/LossBefore                           0.00987108
policy/dLoss                                0.0114967
----------------------------------------  ------------
2025-04-02 21:21:37 | [rl2_trainer] epoch #141 | Optimizing policy...
2025-04-02 21:21:38 | [rl2_trainer] epoch #141 | Fitting baseline...
2025-04-02 21:21:38 | [rl2_trainer] epoch #141 | Computing loss before
2025-04-02 21:21:38 | [rl2_trainer] epoch #141 | Computing KL before
2025-04-02 21:21:39 | [rl2_trainer] epoch #141 | Optimizing
2025-04-02 21:22:14 | [rl2_trainer] epoch #141 | Computing KL after
2025-04-02 21:22:15 | [rl2_trainer] epoch #141 | Computing loss after
2025-04-02 21:22:16 | [rl2_trainer] epoch #141 | Saving snapshot...
2025-04-02 21:22:16 | [rl2_trainer] epoch #141 | Saved
2025-04-02 21:22:16 | [rl2_trainer] epoch #141 | Time 27017.01 s
2025-04-02 21:22:16 | [rl2_trainer] epoch #141 | EpochTime 212.22 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.2083
Average/AverageReturn                     -22.2029
Average/Iteration                         141
Average/MaxReturn                           4.22794
Average/MinReturn                         -50.8229
Average/NumEpisodes                       100
Average/StdReturn                           8.19609
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.542036
TotalEnvSteps                               1.42e+06
__unnamed_task__/AverageDiscountedReturn  -14.2083
__unnamed_task__/AverageReturn            -22.2029
__unnamed_task__/Iteration                141
__unnamed_task__/MaxReturn                  4.22794
__unnamed_task__/MinReturn                -50.8229
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.19609
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.99931
policy/KL                                   0.0114676
policy/KLBefore                             0
policy/LossAfter                           -0.0240528
policy/LossBefore                          -0.00121947
policy/dLoss                                0.0228334
----------------------------------------  ------------
2025-04-02 21:25:16 | [rl2_trainer] epoch #142 | Optimizing policy...
2025-04-02 21:25:16 | [rl2_trainer] epoch #142 | Fitting baseline...
2025-04-02 21:25:16 | [rl2_trainer] epoch #142 | Computing loss before
2025-04-02 21:25:16 | [rl2_trainer] epoch #142 | Computing KL before
2025-04-02 21:25:17 | [rl2_trainer] epoch #142 | Optimizing
2025-04-02 21:25:53 | [rl2_trainer] epoch #142 | Computing KL after
2025-04-02 21:25:54 | [rl2_trainer] epoch #142 | Computing loss after
2025-04-02 21:25:55 | [rl2_trainer] epoch #142 | Saving snapshot...
2025-04-02 21:25:55 | [rl2_trainer] epoch #142 | Saved
2025-04-02 21:25:55 | [rl2_trainer] epoch #142 | Time 27235.74 s
2025-04-02 21:25:55 | [rl2_trainer] epoch #142 | EpochTime 218.72 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -15.3699
Average/AverageReturn                     -24.5356
Average/Iteration                         142
Average/MaxReturn                           0.456681
Average/MinReturn                         -64.6754
Average/NumEpisodes                       100
Average/StdReturn                           9.9661
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.66859
TotalEnvSteps                               1.43e+06
__unnamed_task__/AverageDiscountedReturn  -15.3699
__unnamed_task__/AverageReturn            -24.5356
__unnamed_task__/Iteration                142
__unnamed_task__/MaxReturn                  0.456681
__unnamed_task__/MinReturn                -64.6754
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.9661
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.96594
policy/KL                                   0.0108593
policy/KLBefore                             0
policy/LossAfter                           -0.0176932
policy/LossBefore                           0.000462085
policy/dLoss                                0.0181552
----------------------------------------  -------------
2025-04-02 21:27:55 | [rl2_trainer] epoch #143 | Optimizing policy...
2025-04-02 21:27:56 | [rl2_trainer] epoch #143 | Fitting baseline...
2025-04-02 21:27:56 | [rl2_trainer] epoch #143 | Computing loss before
2025-04-02 21:27:56 | [rl2_trainer] epoch #143 | Computing KL before
2025-04-02 21:27:57 | [rl2_trainer] epoch #143 | Optimizing
2025-04-02 21:28:32 | [rl2_trainer] epoch #143 | Computing KL after
2025-04-02 21:28:33 | [rl2_trainer] epoch #143 | Computing loss after
2025-04-02 21:28:34 | [rl2_trainer] epoch #143 | Saving snapshot...
2025-04-02 21:28:34 | [rl2_trainer] epoch #143 | Saved
2025-04-02 21:28:34 | [rl2_trainer] epoch #143 | Time 27394.95 s
2025-04-02 21:28:34 | [rl2_trainer] epoch #143 | EpochTime 159.21 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.0905
Average/AverageReturn                     -24.6631
Average/Iteration                         143
Average/MaxReturn                           3.47225
Average/MinReturn                         -44.3446
Average/NumEpisodes                       100
Average/StdReturn                           8.03704
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.658908
TotalEnvSteps                               1.44e+06
__unnamed_task__/AverageDiscountedReturn  -16.0905
__unnamed_task__/AverageReturn            -24.6631
__unnamed_task__/Iteration                143
__unnamed_task__/MaxReturn                  3.47225
__unnamed_task__/MinReturn                -44.3446
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.03704
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.95355
policy/KL                                   0.00891887
policy/KLBefore                             0
policy/LossAfter                           -0.0295673
policy/LossBefore                          -0.00800341
policy/dLoss                                0.0215639
----------------------------------------  ------------
2025-04-02 21:31:38 | [rl2_trainer] epoch #144 | Optimizing policy...
2025-04-02 21:31:39 | [rl2_trainer] epoch #144 | Fitting baseline...
2025-04-02 21:31:39 | [rl2_trainer] epoch #144 | Computing loss before
2025-04-02 21:31:39 | [rl2_trainer] epoch #144 | Computing KL before
2025-04-02 21:31:40 | [rl2_trainer] epoch #144 | Optimizing
2025-04-02 21:32:14 | [rl2_trainer] epoch #144 | Computing KL after
2025-04-02 21:32:14 | [rl2_trainer] epoch #144 | Computing loss after
2025-04-02 21:32:15 | [rl2_trainer] epoch #144 | Saving snapshot...
2025-04-02 21:32:15 | [rl2_trainer] epoch #144 | Saved
2025-04-02 21:32:15 | [rl2_trainer] epoch #144 | Time 27616.21 s
2025-04-02 21:32:15 | [rl2_trainer] epoch #144 | EpochTime 221.26 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -16.8936
Average/AverageReturn                     -26.4602
Average/Iteration                         144
Average/MaxReturn                          -1.80125
Average/MinReturn                         -57.2823
Average/NumEpisodes                       100
Average/StdReturn                           8.39297
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.5367
TotalEnvSteps                               1.45e+06
__unnamed_task__/AverageDiscountedReturn  -16.8936
__unnamed_task__/AverageReturn            -26.4602
__unnamed_task__/Iteration                144
__unnamed_task__/MaxReturn                 -1.80125
__unnamed_task__/MinReturn                -57.2823
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.39297
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.94963
policy/KL                                   0.0113582
policy/KLBefore                             0
policy/LossAfter                           -0.017847
policy/LossBefore                           0.0102502
policy/dLoss                                0.0280972
----------------------------------------  -----------
2025-04-02 21:35:11 | [rl2_trainer] epoch #145 | Optimizing policy...
2025-04-02 21:35:12 | [rl2_trainer] epoch #145 | Fitting baseline...
2025-04-02 21:35:12 | [rl2_trainer] epoch #145 | Computing loss before
2025-04-02 21:35:12 | [rl2_trainer] epoch #145 | Computing KL before
2025-04-02 21:35:13 | [rl2_trainer] epoch #145 | Optimizing
2025-04-02 21:35:47 | [rl2_trainer] epoch #145 | Computing KL after
2025-04-02 21:35:48 | [rl2_trainer] epoch #145 | Computing loss after
2025-04-02 21:35:48 | [rl2_trainer] epoch #145 | Saving snapshot...
2025-04-02 21:35:48 | [rl2_trainer] epoch #145 | Saved
2025-04-02 21:35:48 | [rl2_trainer] epoch #145 | Time 27829.36 s
2025-04-02 21:35:48 | [rl2_trainer] epoch #145 | EpochTime 213.15 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.8949
Average/AverageReturn                     -22.9742
Average/Iteration                         145
Average/MaxReturn                           0.780455
Average/MinReturn                         -36.9897
Average/NumEpisodes                       100
Average/StdReturn                           5.41227
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.507322
TotalEnvSteps                               1.46e+06
__unnamed_task__/AverageDiscountedReturn  -14.8949
__unnamed_task__/AverageReturn            -22.9742
__unnamed_task__/Iteration                145
__unnamed_task__/MaxReturn                  0.780455
__unnamed_task__/MinReturn                -36.9897
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.41227
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.93448
policy/KL                                   0.00594864
policy/KLBefore                             0
policy/LossAfter                           -0.019023
policy/LossBefore                          -0.00821026
policy/dLoss                                0.0108128
----------------------------------------  ------------
2025-04-02 21:38:15 | [rl2_trainer] epoch #146 | Optimizing policy...
2025-04-02 21:38:15 | [rl2_trainer] epoch #146 | Fitting baseline...
2025-04-02 21:38:15 | [rl2_trainer] epoch #146 | Computing loss before
2025-04-02 21:38:16 | [rl2_trainer] epoch #146 | Computing KL before
2025-04-02 21:38:16 | [rl2_trainer] epoch #146 | Optimizing
2025-04-02 21:38:49 | [rl2_trainer] epoch #146 | Computing KL after
2025-04-02 21:38:50 | [rl2_trainer] epoch #146 | Computing loss after
2025-04-02 21:38:51 | [rl2_trainer] epoch #146 | Saving snapshot...
2025-04-02 21:38:51 | [rl2_trainer] epoch #146 | Saved
2025-04-02 21:38:51 | [rl2_trainer] epoch #146 | Time 28011.65 s
2025-04-02 21:38:51 | [rl2_trainer] epoch #146 | EpochTime 182.28 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.4673
Average/AverageReturn                     -22.5682
Average/Iteration                         146
Average/MaxReturn                           4.559
Average/MinReturn                         -37.1129
Average/NumEpisodes                       100
Average/StdReturn                           7.1211
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.645418
TotalEnvSteps                               1.47e+06
__unnamed_task__/AverageDiscountedReturn  -14.4673
__unnamed_task__/AverageReturn            -22.5682
__unnamed_task__/Iteration                146
__unnamed_task__/MaxReturn                  4.559
__unnamed_task__/MinReturn                -37.1129
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.1211
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.91845
policy/KL                                   0.00952178
policy/KLBefore                             0
policy/LossAfter                           -0.0097334
policy/LossBefore                           0.00871468
policy/dLoss                                0.0184481
----------------------------------------  ------------
2025-04-02 21:40:58 | [rl2_trainer] epoch #147 | Optimizing policy...
2025-04-02 21:40:58 | [rl2_trainer] epoch #147 | Fitting baseline...
2025-04-02 21:40:58 | [rl2_trainer] epoch #147 | Computing loss before
2025-04-02 21:40:59 | [rl2_trainer] epoch #147 | Computing KL before
2025-04-02 21:41:00 | [rl2_trainer] epoch #147 | Optimizing
2025-04-02 21:41:33 | [rl2_trainer] epoch #147 | Computing KL after
2025-04-02 21:41:34 | [rl2_trainer] epoch #147 | Computing loss after
2025-04-02 21:41:35 | [rl2_trainer] epoch #147 | Saving snapshot...
2025-04-02 21:41:35 | [rl2_trainer] epoch #147 | Saved
2025-04-02 21:41:35 | [rl2_trainer] epoch #147 | Time 28175.80 s
2025-04-02 21:41:35 | [rl2_trainer] epoch #147 | EpochTime 164.15 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -17.1819
Average/AverageReturn                     -26.4172
Average/Iteration                         147
Average/MaxReturn                         -17.4322
Average/MinReturn                         -41.1414
Average/NumEpisodes                       100
Average/StdReturn                           5.6133
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.219821
TotalEnvSteps                               1.48e+06
__unnamed_task__/AverageDiscountedReturn  -17.1819
__unnamed_task__/AverageReturn            -26.4172
__unnamed_task__/Iteration                147
__unnamed_task__/MaxReturn                -17.4322
__unnamed_task__/MinReturn                -41.1414
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.6133
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.89545
policy/KL                                   0.0108079
policy/KLBefore                             0
policy/LossAfter                           -0.0114932
policy/LossBefore                           0.00416604
policy/dLoss                                0.0156592
----------------------------------------  ------------
2025-04-02 21:43:02 | [rl2_trainer] epoch #148 | Optimizing policy...
2025-04-02 21:43:02 | [rl2_trainer] epoch #148 | Fitting baseline...
2025-04-02 21:43:02 | [rl2_trainer] epoch #148 | Computing loss before
2025-04-02 21:43:03 | [rl2_trainer] epoch #148 | Computing KL before
2025-04-02 21:43:03 | [rl2_trainer] epoch #148 | Optimizing
2025-04-02 21:43:37 | [rl2_trainer] epoch #148 | Computing KL after
2025-04-02 21:43:38 | [rl2_trainer] epoch #148 | Computing loss after
2025-04-02 21:43:39 | [rl2_trainer] epoch #148 | Saving snapshot...
2025-04-02 21:43:39 | [rl2_trainer] epoch #148 | Saved
2025-04-02 21:43:39 | [rl2_trainer] epoch #148 | Time 28299.73 s
2025-04-02 21:43:39 | [rl2_trainer] epoch #148 | EpochTime 123.93 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -14.264
Average/AverageReturn                     -21.9451
Average/Iteration                         148
Average/MaxReturn                          20.2879
Average/MinReturn                         -37.6534
Average/NumEpisodes                       100
Average/StdReturn                           6.69559
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.563702
TotalEnvSteps                               1.49e+06
__unnamed_task__/AverageDiscountedReturn  -14.264
__unnamed_task__/AverageReturn            -21.9451
__unnamed_task__/Iteration                148
__unnamed_task__/MaxReturn                 20.2879
__unnamed_task__/MinReturn                -37.6534
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.69559
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.8632
policy/KL                                   0.0105587
policy/KLBefore                             0
policy/LossAfter                           -0.0191883
policy/LossBefore                          -0.000545752
policy/dLoss                                0.0186426
----------------------------------------  -------------
2025-04-02 21:45:37 | [rl2_trainer] epoch #149 | Optimizing policy...
2025-04-02 21:45:37 | [rl2_trainer] epoch #149 | Fitting baseline...
2025-04-02 21:45:37 | [rl2_trainer] epoch #149 | Computing loss before
2025-04-02 21:45:38 | [rl2_trainer] epoch #149 | Computing KL before
2025-04-02 21:45:38 | [rl2_trainer] epoch #149 | Optimizing
2025-04-02 21:46:13 | [rl2_trainer] epoch #149 | Computing KL after
2025-04-02 21:46:13 | [rl2_trainer] epoch #149 | Computing loss after
2025-04-02 21:46:14 | [rl2_trainer] epoch #149 | Saving snapshot...
2025-04-02 21:46:14 | [rl2_trainer] epoch #149 | Saved
2025-04-02 21:46:14 | [rl2_trainer] epoch #149 | Time 28455.09 s
2025-04-02 21:46:14 | [rl2_trainer] epoch #149 | EpochTime 155.36 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -16.8534
Average/AverageReturn                     -25.9791
Average/Iteration                         149
Average/MaxReturn                          -9.30411
Average/MinReturn                         -44.5067
Average/NumEpisodes                       100
Average/StdReturn                           5.56173
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.57233
TotalEnvSteps                               1.5e+06
__unnamed_task__/AverageDiscountedReturn  -16.8534
__unnamed_task__/AverageReturn            -25.9791
__unnamed_task__/Iteration                149
__unnamed_task__/MaxReturn                 -9.30411
__unnamed_task__/MinReturn                -44.5067
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.56173
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.8476
policy/KL                                   0.0103815
policy/KLBefore                             0
policy/LossAfter                           -0.0108049
policy/LossBefore                           0.000924839
policy/dLoss                                0.0117297
----------------------------------------  -------------
2025-04-02 21:48:09 | [rl2_trainer] epoch #150 | Optimizing policy...
2025-04-02 21:48:09 | [rl2_trainer] epoch #150 | Fitting baseline...
2025-04-02 21:48:09 | [rl2_trainer] epoch #150 | Computing loss before
2025-04-02 21:48:09 | [rl2_trainer] epoch #150 | Computing KL before
2025-04-02 21:48:10 | [rl2_trainer] epoch #150 | Optimizing
2025-04-02 21:48:43 | [rl2_trainer] epoch #150 | Computing KL after
2025-04-02 21:48:44 | [rl2_trainer] epoch #150 | Computing loss after
2025-04-02 21:48:44 | [rl2_trainer] epoch #150 | Saving snapshot...
2025-04-02 21:48:44 | [rl2_trainer] epoch #150 | Saved
2025-04-02 21:48:44 | [rl2_trainer] epoch #150 | Time 28605.52 s
2025-04-02 21:48:44 | [rl2_trainer] epoch #150 | EpochTime 150.42 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -16.4767
Average/AverageReturn                     -26.0886
Average/Iteration                         150
Average/MaxReturn                          -0.162843
Average/MinReturn                         -50.6158
Average/NumEpisodes                       100
Average/StdReturn                           8.2786
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.497239
TotalEnvSteps                               1.51e+06
__unnamed_task__/AverageDiscountedReturn  -16.4767
__unnamed_task__/AverageReturn            -26.0886
__unnamed_task__/Iteration                150
__unnamed_task__/MaxReturn                 -0.162843
__unnamed_task__/MinReturn                -50.6158
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.2786
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.848
policy/KL                                   0.012837
policy/KLBefore                             0
policy/LossAfter                           -0.0472008
policy/LossBefore                          -0.0109925
policy/dLoss                                0.0362083
----------------------------------------  -----------
2025-04-02 21:50:50 | [rl2_trainer] epoch #151 | Optimizing policy...
2025-04-02 21:50:50 | [rl2_trainer] epoch #151 | Fitting baseline...
2025-04-02 21:50:50 | [rl2_trainer] epoch #151 | Computing loss before
2025-04-02 21:50:51 | [rl2_trainer] epoch #151 | Computing KL before
2025-04-02 21:50:52 | [rl2_trainer] epoch #151 | Optimizing
2025-04-02 21:51:26 | [rl2_trainer] epoch #151 | Computing KL after
2025-04-02 21:51:26 | [rl2_trainer] epoch #151 | Computing loss after
2025-04-02 21:51:27 | [rl2_trainer] epoch #151 | Saving snapshot...
2025-04-02 21:51:27 | [rl2_trainer] epoch #151 | Saved
2025-04-02 21:51:27 | [rl2_trainer] epoch #151 | Time 28768.10 s
2025-04-02 21:51:27 | [rl2_trainer] epoch #151 | EpochTime 162.57 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -15.2527
Average/AverageReturn                     -23.2684
Average/Iteration                         151
Average/MaxReturn                          15.4374
Average/MinReturn                         -36.2817
Average/NumEpisodes                       100
Average/StdReturn                           6.145
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.58177
TotalEnvSteps                               1.52e+06
__unnamed_task__/AverageDiscountedReturn  -15.2527
__unnamed_task__/AverageReturn            -23.2684
__unnamed_task__/Iteration                151
__unnamed_task__/MaxReturn                 15.4374
__unnamed_task__/MinReturn                -36.2817
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.145
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.82891
policy/KL                                   0.0110725
policy/KLBefore                             0
policy/LossAfter                           -0.0155637
policy/LossBefore                           0.000614169
policy/dLoss                                0.0161779
----------------------------------------  -------------
2025-04-02 21:53:34 | [rl2_trainer] epoch #152 | Optimizing policy...
2025-04-02 21:53:34 | [rl2_trainer] epoch #152 | Fitting baseline...
2025-04-02 21:53:34 | [rl2_trainer] epoch #152 | Computing loss before
2025-04-02 21:53:35 | [rl2_trainer] epoch #152 | Computing KL before
2025-04-02 21:53:35 | [rl2_trainer] epoch #152 | Optimizing
2025-04-02 21:54:08 | [rl2_trainer] epoch #152 | Computing KL after
2025-04-02 21:54:08 | [rl2_trainer] epoch #152 | Computing loss after
2025-04-02 21:54:09 | [rl2_trainer] epoch #152 | Saving snapshot...
2025-04-02 21:54:09 | [rl2_trainer] epoch #152 | Saved
2025-04-02 21:54:09 | [rl2_trainer] epoch #152 | Time 28930.19 s
2025-04-02 21:54:09 | [rl2_trainer] epoch #152 | EpochTime 162.09 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.1387
Average/AverageReturn                     -23.1956
Average/Iteration                         152
Average/MaxReturn                          16.719
Average/MinReturn                         -33.8113
Average/NumEpisodes                       100
Average/StdReturn                           6.32109
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.556776
TotalEnvSteps                               1.53e+06
__unnamed_task__/AverageDiscountedReturn  -15.1387
__unnamed_task__/AverageReturn            -23.1956
__unnamed_task__/Iteration                152
__unnamed_task__/MaxReturn                 16.719
__unnamed_task__/MinReturn                -33.8113
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.32109
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.78733
policy/KL                                   0.0177705
policy/KLBefore                             0
policy/LossAfter                           -0.00860973
policy/LossBefore                           0.00163811
policy/dLoss                                0.0102478
----------------------------------------  ------------
2025-04-02 21:56:03 | [rl2_trainer] epoch #153 | Optimizing policy...
2025-04-02 21:56:04 | [rl2_trainer] epoch #153 | Fitting baseline...
2025-04-02 21:56:04 | [rl2_trainer] epoch #153 | Computing loss before
2025-04-02 21:56:04 | [rl2_trainer] epoch #153 | Computing KL before
2025-04-02 21:56:05 | [rl2_trainer] epoch #153 | Optimizing
2025-04-02 21:56:37 | [rl2_trainer] epoch #153 | Computing KL after
2025-04-02 21:56:37 | [rl2_trainer] epoch #153 | Computing loss after
2025-04-02 21:56:38 | [rl2_trainer] epoch #153 | Saving snapshot...
2025-04-02 21:56:38 | [rl2_trainer] epoch #153 | Saved
2025-04-02 21:56:38 | [rl2_trainer] epoch #153 | Time 29078.96 s
2025-04-02 21:56:38 | [rl2_trainer] epoch #153 | EpochTime 148.77 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.468
Average/AverageReturn                     -23.6122
Average/Iteration                         153
Average/MaxReturn                           9.10202
Average/MinReturn                         -39.9701
Average/NumEpisodes                       100
Average/StdReturn                           6.44343
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.398211
TotalEnvSteps                               1.54e+06
__unnamed_task__/AverageDiscountedReturn  -15.468
__unnamed_task__/AverageReturn            -23.6122
__unnamed_task__/Iteration                153
__unnamed_task__/MaxReturn                  9.10202
__unnamed_task__/MinReturn                -39.9701
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.44343
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.76663
policy/KL                                   0.00788699
policy/KLBefore                             0
policy/LossAfter                           -0.0145013
policy/LossBefore                          -0.00176373
policy/dLoss                                0.0127376
----------------------------------------  ------------
2025-04-02 21:59:00 | [rl2_trainer] epoch #154 | Optimizing policy...
2025-04-02 21:59:00 | [rl2_trainer] epoch #154 | Fitting baseline...
2025-04-02 21:59:01 | [rl2_trainer] epoch #154 | Computing loss before
2025-04-02 21:59:01 | [rl2_trainer] epoch #154 | Computing KL before
2025-04-02 21:59:02 | [rl2_trainer] epoch #154 | Optimizing
2025-04-02 21:59:35 | [rl2_trainer] epoch #154 | Computing KL after
2025-04-02 21:59:36 | [rl2_trainer] epoch #154 | Computing loss after
2025-04-02 21:59:36 | [rl2_trainer] epoch #154 | Saving snapshot...
2025-04-02 21:59:36 | [rl2_trainer] epoch #154 | Saved
2025-04-02 21:59:36 | [rl2_trainer] epoch #154 | Time 29257.50 s
2025-04-02 21:59:36 | [rl2_trainer] epoch #154 | EpochTime 178.53 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.1845
Average/AverageReturn                     -20.6717
Average/Iteration                         154
Average/MaxReturn                          -1.43183
Average/MinReturn                         -31.5369
Average/NumEpisodes                       100
Average/StdReturn                           4.66136
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.333464
TotalEnvSteps                               1.55e+06
__unnamed_task__/AverageDiscountedReturn  -13.1845
__unnamed_task__/AverageReturn            -20.6717
__unnamed_task__/Iteration                154
__unnamed_task__/MaxReturn                 -1.43183
__unnamed_task__/MinReturn                -31.5369
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.66136
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.74882
policy/KL                                   0.0121513
policy/KLBefore                             0
policy/LossAfter                           -0.00726459
policy/LossBefore                           0.00358746
policy/dLoss                                0.010852
----------------------------------------  ------------
2025-04-02 22:01:44 | [rl2_trainer] epoch #155 | Optimizing policy...
2025-04-02 22:01:44 | [rl2_trainer] epoch #155 | Fitting baseline...
2025-04-02 22:01:44 | [rl2_trainer] epoch #155 | Computing loss before
2025-04-02 22:01:45 | [rl2_trainer] epoch #155 | Computing KL before
2025-04-02 22:01:45 | [rl2_trainer] epoch #155 | Optimizing
2025-04-02 22:02:18 | [rl2_trainer] epoch #155 | Computing KL after
2025-04-02 22:02:19 | [rl2_trainer] epoch #155 | Computing loss after
2025-04-02 22:02:19 | [rl2_trainer] epoch #155 | Saving snapshot...
2025-04-02 22:02:19 | [rl2_trainer] epoch #155 | Saved
2025-04-02 22:02:19 | [rl2_trainer] epoch #155 | Time 29420.51 s
2025-04-02 22:02:19 | [rl2_trainer] epoch #155 | EpochTime 163.01 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.1242
Average/AverageReturn                     -23.373
Average/Iteration                         155
Average/MaxReturn                          -4.97553
Average/MinReturn                         -34.7314
Average/NumEpisodes                       100
Average/StdReturn                           5.14384
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.541286
TotalEnvSteps                               1.56e+06
__unnamed_task__/AverageDiscountedReturn  -15.1242
__unnamed_task__/AverageReturn            -23.373
__unnamed_task__/Iteration                155
__unnamed_task__/MaxReturn                 -4.97553
__unnamed_task__/MinReturn                -34.7314
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.14384
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.71921
policy/KL                                   0.00925028
policy/KLBefore                             0
policy/LossAfter                           -0.0125239
policy/LossBefore                          -0.00245012
policy/dLoss                                0.0100738
----------------------------------------  ------------
2025-04-02 22:04:18 | [rl2_trainer] epoch #156 | Optimizing policy...
2025-04-02 22:04:19 | [rl2_trainer] epoch #156 | Fitting baseline...
2025-04-02 22:04:19 | [rl2_trainer] epoch #156 | Computing loss before
2025-04-02 22:04:20 | [rl2_trainer] epoch #156 | Computing KL before
2025-04-02 22:04:20 | [rl2_trainer] epoch #156 | Optimizing
2025-04-02 22:05:07 | [rl2_trainer] epoch #156 | Computing KL after
2025-04-02 22:05:08 | [rl2_trainer] epoch #156 | Computing loss after
2025-04-02 22:05:09 | [rl2_trainer] epoch #156 | Saving snapshot...
2025-04-02 22:05:09 | [rl2_trainer] epoch #156 | Saved
2025-04-02 22:05:09 | [rl2_trainer] epoch #156 | Time 29590.37 s
2025-04-02 22:05:09 | [rl2_trainer] epoch #156 | EpochTime 169.86 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.4094
Average/AverageReturn                     -25.5185
Average/Iteration                         156
Average/MaxReturn                          -5.16892
Average/MinReturn                         -39.842
Average/NumEpisodes                       100
Average/StdReturn                           5.87972
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.466421
TotalEnvSteps                               1.57e+06
__unnamed_task__/AverageDiscountedReturn  -16.4094
__unnamed_task__/AverageReturn            -25.5185
__unnamed_task__/Iteration                156
__unnamed_task__/MaxReturn                 -5.16892
__unnamed_task__/MinReturn                -39.842
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.87972
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.69263
policy/KL                                   0.0100702
policy/KLBefore                             0
policy/LossAfter                           -0.0164885
policy/LossBefore                          -0.00252617
policy/dLoss                                0.0139623
----------------------------------------  ------------
2025-04-02 22:07:40 | [rl2_trainer] epoch #157 | Optimizing policy...
2025-04-02 22:07:40 | [rl2_trainer] epoch #157 | Fitting baseline...
2025-04-02 22:07:40 | [rl2_trainer] epoch #157 | Computing loss before
2025-04-02 22:07:41 | [rl2_trainer] epoch #157 | Computing KL before
2025-04-02 22:07:41 | [rl2_trainer] epoch #157 | Optimizing
2025-04-02 22:08:15 | [rl2_trainer] epoch #157 | Computing KL after
2025-04-02 22:08:16 | [rl2_trainer] epoch #157 | Computing loss after
2025-04-02 22:08:17 | [rl2_trainer] epoch #157 | Saving snapshot...
2025-04-02 22:08:17 | [rl2_trainer] epoch #157 | Saved
2025-04-02 22:08:17 | [rl2_trainer] epoch #157 | Time 29777.54 s
2025-04-02 22:08:17 | [rl2_trainer] epoch #157 | EpochTime 187.16 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.8384
Average/AverageReturn                     -22.4288
Average/Iteration                         157
Average/MaxReturn                          -4.26095
Average/MinReturn                         -33.8907
Average/NumEpisodes                       100
Average/StdReturn                           5.29423
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.730412
TotalEnvSteps                               1.58e+06
__unnamed_task__/AverageDiscountedReturn  -14.8384
__unnamed_task__/AverageReturn            -22.4288
__unnamed_task__/Iteration                157
__unnamed_task__/MaxReturn                 -4.26095
__unnamed_task__/MinReturn                -33.8907
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.29423
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.66156
policy/KL                                   0.0125774
policy/KLBefore                             0
policy/LossAfter                           -0.00639741
policy/LossBefore                          -0.00300017
policy/dLoss                                0.00339725
----------------------------------------  ------------
2025-04-02 22:09:46 | [rl2_trainer] epoch #158 | Optimizing policy...
2025-04-02 22:09:46 | [rl2_trainer] epoch #158 | Fitting baseline...
2025-04-02 22:09:46 | [rl2_trainer] epoch #158 | Computing loss before
2025-04-02 22:09:47 | [rl2_trainer] epoch #158 | Computing KL before
2025-04-02 22:09:47 | [rl2_trainer] epoch #158 | Optimizing
2025-04-02 22:10:20 | [rl2_trainer] epoch #158 | Computing KL after
2025-04-02 22:10:21 | [rl2_trainer] epoch #158 | Computing loss after
2025-04-02 22:10:22 | [rl2_trainer] epoch #158 | Saving snapshot...
2025-04-02 22:10:22 | [rl2_trainer] epoch #158 | Saved
2025-04-02 22:10:22 | [rl2_trainer] epoch #158 | Time 29902.73 s
2025-04-02 22:10:22 | [rl2_trainer] epoch #158 | EpochTime 125.19 s
----------------------------------------  -------------
Average/AverageDiscountedReturn            -14.3225
Average/AverageReturn                      -21.9037
Average/Iteration                          158
Average/MaxReturn                            8.73406
Average/MinReturn                         -100.624
Average/NumEpisodes                        100
Average/StdReturn                           11.333
Average/TerminationRate                      0
LinearFeatureBaseline/ExplainedVariance      0.599836
TotalEnvSteps                                1.59e+06
__unnamed_task__/AverageDiscountedReturn   -14.3225
__unnamed_task__/AverageReturn             -21.9037
__unnamed_task__/Iteration                 158
__unnamed_task__/MaxReturn                   8.73406
__unnamed_task__/MinReturn                -100.624
__unnamed_task__/NumEpisodes               100
__unnamed_task__/StdReturn                  11.333
__unnamed_task__/TerminationRate             0
policy/Entropy                               6.63983
policy/KL                                    0.0117624
policy/KLBefore                              0
policy/LossAfter                            -0.0317316
policy/LossBefore                            0.00595837
policy/dLoss                                 0.03769
----------------------------------------  -------------
2025-04-02 22:12:17 | [rl2_trainer] epoch #159 | Optimizing policy...
2025-04-02 22:12:17 | [rl2_trainer] epoch #159 | Fitting baseline...
2025-04-02 22:12:17 | [rl2_trainer] epoch #159 | Computing loss before
2025-04-02 22:12:18 | [rl2_trainer] epoch #159 | Computing KL before
2025-04-02 22:12:18 | [rl2_trainer] epoch #159 | Optimizing
2025-04-02 22:12:52 | [rl2_trainer] epoch #159 | Computing KL after
2025-04-02 22:12:52 | [rl2_trainer] epoch #159 | Computing loss after
2025-04-02 22:12:53 | [rl2_trainer] epoch #159 | Saving snapshot...
2025-04-02 22:12:53 | [rl2_trainer] epoch #159 | Saved
2025-04-02 22:12:53 | [rl2_trainer] epoch #159 | Time 30054.40 s
2025-04-02 22:12:53 | [rl2_trainer] epoch #159 | EpochTime 151.67 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.7951
Average/AverageReturn                     -24.3572
Average/Iteration                         159
Average/MaxReturn                          -3.07116
Average/MinReturn                         -38.1678
Average/NumEpisodes                       100
Average/StdReturn                           5.44352
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.473764
TotalEnvSteps                               1.6e+06
__unnamed_task__/AverageDiscountedReturn  -15.7951
__unnamed_task__/AverageReturn            -24.3572
__unnamed_task__/Iteration                159
__unnamed_task__/MaxReturn                 -3.07116
__unnamed_task__/MinReturn                -38.1678
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.44352
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.62169
policy/KL                                   0.0108456
policy/KLBefore                             0
policy/LossAfter                           -0.0067713
policy/LossBefore                           0.00277
policy/dLoss                                0.00954129
----------------------------------------  ------------
2025-04-02 22:14:50 | [rl2_trainer] epoch #160 | Optimizing policy...
2025-04-02 22:14:51 | [rl2_trainer] epoch #160 | Fitting baseline...
2025-04-02 22:14:51 | [rl2_trainer] epoch #160 | Computing loss before
2025-04-02 22:14:51 | [rl2_trainer] epoch #160 | Computing KL before
2025-04-02 22:14:52 | [rl2_trainer] epoch #160 | Optimizing
2025-04-02 22:15:27 | [rl2_trainer] epoch #160 | Computing KL after
2025-04-02 22:15:28 | [rl2_trainer] epoch #160 | Computing loss after
2025-04-02 22:15:29 | [rl2_trainer] epoch #160 | Saving snapshot...
2025-04-02 22:15:29 | [rl2_trainer] epoch #160 | Saved
2025-04-02 22:15:29 | [rl2_trainer] epoch #160 | Time 30209.94 s
2025-04-02 22:15:29 | [rl2_trainer] epoch #160 | EpochTime 155.53 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.5506
Average/AverageReturn                     -23.8845
Average/Iteration                         160
Average/MaxReturn                          -1.69025
Average/MinReturn                         -37.5854
Average/NumEpisodes                       100
Average/StdReturn                           5.03243
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.594508
TotalEnvSteps                               1.61e+06
__unnamed_task__/AverageDiscountedReturn  -15.5506
__unnamed_task__/AverageReturn            -23.8845
__unnamed_task__/Iteration                160
__unnamed_task__/MaxReturn                 -1.69025
__unnamed_task__/MinReturn                -37.5854
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.03243
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.60459
policy/KL                                   0.0118321
policy/KLBefore                             0
policy/LossAfter                           -0.00497221
policy/LossBefore                           0.00380841
policy/dLoss                                0.00878062
----------------------------------------  ------------
2025-04-02 22:18:22 | [rl2_trainer] epoch #161 | Optimizing policy...
2025-04-02 22:18:22 | [rl2_trainer] epoch #161 | Fitting baseline...
2025-04-02 22:18:22 | [rl2_trainer] epoch #161 | Computing loss before
2025-04-02 22:18:22 | [rl2_trainer] epoch #161 | Computing KL before
2025-04-02 22:18:23 | [rl2_trainer] epoch #161 | Optimizing
2025-04-02 22:18:57 | [rl2_trainer] epoch #161 | Computing KL after
2025-04-02 22:18:57 | [rl2_trainer] epoch #161 | Computing loss after
2025-04-02 22:18:58 | [rl2_trainer] epoch #161 | Saving snapshot...
2025-04-02 22:18:58 | [rl2_trainer] epoch #161 | Saved
2025-04-02 22:18:58 | [rl2_trainer] epoch #161 | Time 30418.94 s
2025-04-02 22:18:58 | [rl2_trainer] epoch #161 | EpochTime 209.00 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.0479
Average/AverageReturn                     -21.5829
Average/Iteration                         161
Average/MaxReturn                          -7.53723
Average/MinReturn                         -33.192
Average/NumEpisodes                       100
Average/StdReturn                           4.91731
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.436371
TotalEnvSteps                               1.62e+06
__unnamed_task__/AverageDiscountedReturn  -14.0479
__unnamed_task__/AverageReturn            -21.5829
__unnamed_task__/Iteration                161
__unnamed_task__/MaxReturn                 -7.53723
__unnamed_task__/MinReturn                -33.192
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.91731
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.58894
policy/KL                                   0.00751433
policy/KLBefore                             0
policy/LossAfter                           -0.0133743
policy/LossBefore                           0.00159324
policy/dLoss                                0.0149676
----------------------------------------  ------------
2025-04-02 22:21:51 | [rl2_trainer] epoch #162 | Optimizing policy...
2025-04-02 22:21:51 | [rl2_trainer] epoch #162 | Fitting baseline...
2025-04-02 22:21:51 | [rl2_trainer] epoch #162 | Computing loss before
2025-04-02 22:21:52 | [rl2_trainer] epoch #162 | Computing KL before
2025-04-02 22:21:52 | [rl2_trainer] epoch #162 | Optimizing
2025-04-02 22:22:27 | [rl2_trainer] epoch #162 | Computing KL after
2025-04-02 22:22:28 | [rl2_trainer] epoch #162 | Computing loss after
2025-04-02 22:22:29 | [rl2_trainer] epoch #162 | Saving snapshot...
2025-04-02 22:22:29 | [rl2_trainer] epoch #162 | Saved
2025-04-02 22:22:29 | [rl2_trainer] epoch #162 | Time 30629.98 s
2025-04-02 22:22:29 | [rl2_trainer] epoch #162 | EpochTime 211.03 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.6125
Average/AverageReturn                     -22.4611
Average/Iteration                         162
Average/MaxReturn                           2.73002
Average/MinReturn                         -34.6647
Average/NumEpisodes                       100
Average/StdReturn                           5.47083
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.419506
TotalEnvSteps                               1.63e+06
__unnamed_task__/AverageDiscountedReturn  -14.6125
__unnamed_task__/AverageReturn            -22.4611
__unnamed_task__/Iteration                162
__unnamed_task__/MaxReturn                  2.73002
__unnamed_task__/MinReturn                -34.6647
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.47083
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.55758
policy/KL                                   0.0139515
policy/KLBefore                             0
policy/LossAfter                           -0.0136862
policy/LossBefore                          -0.00124723
policy/dLoss                                0.012439
----------------------------------------  ------------
2025-04-02 22:24:42 | [rl2_trainer] epoch #163 | Optimizing policy...
2025-04-02 22:24:43 | [rl2_trainer] epoch #163 | Fitting baseline...
2025-04-02 22:24:43 | [rl2_trainer] epoch #163 | Computing loss before
2025-04-02 22:24:43 | [rl2_trainer] epoch #163 | Computing KL before
2025-04-02 22:24:44 | [rl2_trainer] epoch #163 | Optimizing
2025-04-02 22:25:17 | [rl2_trainer] epoch #163 | Computing KL after
2025-04-02 22:25:18 | [rl2_trainer] epoch #163 | Computing loss after
2025-04-02 22:25:19 | [rl2_trainer] epoch #163 | Saving snapshot...
2025-04-02 22:25:19 | [rl2_trainer] epoch #163 | Saved
2025-04-02 22:25:19 | [rl2_trainer] epoch #163 | Time 30799.87 s
2025-04-02 22:25:19 | [rl2_trainer] epoch #163 | EpochTime 169.89 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -18.0282
Average/AverageReturn                     -28.9846
Average/Iteration                         163
Average/MaxReturn                         -11.5831
Average/MinReturn                         -63.8741
Average/NumEpisodes                       100
Average/StdReturn                           9.89643
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.675171
TotalEnvSteps                               1.64e+06
__unnamed_task__/AverageDiscountedReturn  -18.0282
__unnamed_task__/AverageReturn            -28.9846
__unnamed_task__/Iteration                163
__unnamed_task__/MaxReturn                -11.5831
__unnamed_task__/MinReturn                -63.8741
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.89643
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.52149
policy/KL                                   0.0117727
policy/KLBefore                             0
policy/LossAfter                           -0.0428413
policy/LossBefore                          -0.0117901
policy/dLoss                                0.0310512
----------------------------------------  -----------
2025-04-02 22:26:46 | [rl2_trainer] epoch #164 | Optimizing policy...
2025-04-02 22:26:46 | [rl2_trainer] epoch #164 | Fitting baseline...
2025-04-02 22:26:46 | [rl2_trainer] epoch #164 | Computing loss before
2025-04-02 22:26:47 | [rl2_trainer] epoch #164 | Computing KL before
2025-04-02 22:26:48 | [rl2_trainer] epoch #164 | Optimizing
2025-04-02 22:27:23 | [rl2_trainer] epoch #164 | Computing KL after
2025-04-02 22:27:24 | [rl2_trainer] epoch #164 | Computing loss after
2025-04-02 22:27:25 | [rl2_trainer] epoch #164 | Saving snapshot...
2025-04-02 22:27:25 | [rl2_trainer] epoch #164 | Saved
2025-04-02 22:27:25 | [rl2_trainer] epoch #164 | Time 30925.89 s
2025-04-02 22:27:25 | [rl2_trainer] epoch #164 | EpochTime 126.01 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -13.5191
Average/AverageReturn                     -20.9683
Average/Iteration                         164
Average/MaxReturn                           7.65859
Average/MinReturn                         -33.7306
Average/NumEpisodes                       100
Average/StdReturn                           6.91047
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.39918
TotalEnvSteps                               1.65e+06
__unnamed_task__/AverageDiscountedReturn  -13.5191
__unnamed_task__/AverageReturn            -20.9683
__unnamed_task__/Iteration                164
__unnamed_task__/MaxReturn                  7.65859
__unnamed_task__/MinReturn                -33.7306
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.91047
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.49749
policy/KL                                   0.01151
policy/KLBefore                             0
policy/LossAfter                           -0.0358266
policy/LossBefore                          -0.0106014
policy/dLoss                                0.0252252
----------------------------------------  -----------
2025-04-02 22:30:24 | [rl2_trainer] epoch #165 | Optimizing policy...
2025-04-02 22:30:24 | [rl2_trainer] epoch #165 | Fitting baseline...
2025-04-02 22:30:24 | [rl2_trainer] epoch #165 | Computing loss before
2025-04-02 22:30:25 | [rl2_trainer] epoch #165 | Computing KL before
2025-04-02 22:30:25 | [rl2_trainer] epoch #165 | Optimizing
2025-04-02 22:31:00 | [rl2_trainer] epoch #165 | Computing KL after
2025-04-02 22:31:01 | [rl2_trainer] epoch #165 | Computing loss after
2025-04-02 22:31:02 | [rl2_trainer] epoch #165 | Saving snapshot...
2025-04-02 22:31:02 | [rl2_trainer] epoch #165 | Saved
2025-04-02 22:31:02 | [rl2_trainer] epoch #165 | Time 31142.95 s
2025-04-02 22:31:02 | [rl2_trainer] epoch #165 | EpochTime 217.06 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.5052
Average/AverageReturn                     -20.5928
Average/Iteration                         165
Average/MaxReturn                          -6.97224
Average/MinReturn                         -33.522
Average/NumEpisodes                       100
Average/StdReturn                           4.9553
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.428387
TotalEnvSteps                               1.66e+06
__unnamed_task__/AverageDiscountedReturn  -13.5052
__unnamed_task__/AverageReturn            -20.5928
__unnamed_task__/Iteration                165
__unnamed_task__/MaxReturn                 -6.97224
__unnamed_task__/MinReturn                -33.522
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.9553
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.47757
policy/KL                                   0.0111303
policy/KLBefore                             0
policy/LossAfter                           -0.0129599
policy/LossBefore                          -0.00217221
policy/dLoss                                0.0107877
----------------------------------------  ------------
2025-04-02 22:33:29 | [rl2_trainer] epoch #166 | Optimizing policy...
2025-04-02 22:33:29 | [rl2_trainer] epoch #166 | Fitting baseline...
2025-04-02 22:33:29 | [rl2_trainer] epoch #166 | Computing loss before
2025-04-02 22:33:30 | [rl2_trainer] epoch #166 | Computing KL before
2025-04-02 22:33:30 | [rl2_trainer] epoch #166 | Optimizing
2025-04-02 22:34:06 | [rl2_trainer] epoch #166 | Computing KL after
2025-04-02 22:34:07 | [rl2_trainer] epoch #166 | Computing loss after
2025-04-02 22:34:08 | [rl2_trainer] epoch #166 | Saving snapshot...
2025-04-02 22:34:08 | [rl2_trainer] epoch #166 | Saved
2025-04-02 22:34:08 | [rl2_trainer] epoch #166 | Time 31328.55 s
2025-04-02 22:34:08 | [rl2_trainer] epoch #166 | EpochTime 185.60 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -11.7994
Average/AverageReturn                     -18.2339
Average/Iteration                         166
Average/MaxReturn                           9.94788
Average/MinReturn                         -28.4003
Average/NumEpisodes                       100
Average/StdReturn                           4.81984
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.277707
TotalEnvSteps                               1.67e+06
__unnamed_task__/AverageDiscountedReturn  -11.7994
__unnamed_task__/AverageReturn            -18.2339
__unnamed_task__/Iteration                166
__unnamed_task__/MaxReturn                  9.94788
__unnamed_task__/MinReturn                -28.4003
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.81984
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.43897
policy/KL                                   0.00860806
policy/KLBefore                             0
policy/LossAfter                            0.000970511
policy/LossBefore                           0.00734663
policy/dLoss                                0.00637612
----------------------------------------  -------------
2025-04-02 22:37:15 | [rl2_trainer] epoch #167 | Optimizing policy...
2025-04-02 22:37:16 | [rl2_trainer] epoch #167 | Fitting baseline...
2025-04-02 22:37:16 | [rl2_trainer] epoch #167 | Computing loss before
2025-04-02 22:37:16 | [rl2_trainer] epoch #167 | Computing KL before
2025-04-02 22:37:17 | [rl2_trainer] epoch #167 | Optimizing
2025-04-02 22:37:50 | [rl2_trainer] epoch #167 | Computing KL after
2025-04-02 22:37:51 | [rl2_trainer] epoch #167 | Computing loss after
2025-04-02 22:37:51 | [rl2_trainer] epoch #167 | Saving snapshot...
2025-04-02 22:37:51 | [rl2_trainer] epoch #167 | Saved
2025-04-02 22:37:51 | [rl2_trainer] epoch #167 | Time 31552.44 s
2025-04-02 22:37:51 | [rl2_trainer] epoch #167 | EpochTime 223.89 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.0029
Average/AverageReturn                     -24.1136
Average/Iteration                         167
Average/MaxReturn                           2.93674
Average/MinReturn                         -60.2654
Average/NumEpisodes                       100
Average/StdReturn                          12.0042
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.696941
TotalEnvSteps                               1.68e+06
__unnamed_task__/AverageDiscountedReturn  -15.0029
__unnamed_task__/AverageReturn            -24.1136
__unnamed_task__/Iteration                167
__unnamed_task__/MaxReturn                  2.93674
__unnamed_task__/MinReturn                -60.2654
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.0042
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.3966
policy/KL                                   0.0122142
policy/KLBefore                             0
policy/LossAfter                           -0.0442119
policy/LossBefore                           0.00259683
policy/dLoss                                0.0468087
----------------------------------------  ------------
2025-04-02 22:42:18 | [rl2_trainer] epoch #168 | Optimizing policy...
2025-04-02 22:42:19 | [rl2_trainer] epoch #168 | Fitting baseline...
2025-04-02 22:42:19 | [rl2_trainer] epoch #168 | Computing loss before
2025-04-02 22:42:19 | [rl2_trainer] epoch #168 | Computing KL before
2025-04-02 22:42:20 | [rl2_trainer] epoch #168 | Optimizing
2025-04-02 22:42:54 | [rl2_trainer] epoch #168 | Computing KL after
2025-04-02 22:42:55 | [rl2_trainer] epoch #168 | Computing loss after
2025-04-02 22:42:55 | [rl2_trainer] epoch #168 | Saving snapshot...
2025-04-02 22:42:55 | [rl2_trainer] epoch #168 | Saved
2025-04-02 22:42:55 | [rl2_trainer] epoch #168 | Time 31856.36 s
2025-04-02 22:42:55 | [rl2_trainer] epoch #168 | EpochTime 303.91 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -14.4811
Average/AverageReturn                     -23.4813
Average/Iteration                         168
Average/MaxReturn                           5.7549
Average/MinReturn                         -54.4215
Average/NumEpisodes                       100
Average/StdReturn                           9.56864
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.691004
TotalEnvSteps                               1.69e+06
__unnamed_task__/AverageDiscountedReturn  -14.4811
__unnamed_task__/AverageReturn            -23.4813
__unnamed_task__/Iteration                168
__unnamed_task__/MaxReturn                  5.7549
__unnamed_task__/MinReturn                -54.4215
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.56864
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.36114
policy/KL                                   0.0147712
policy/KLBefore                             0
policy/LossAfter                           -0.04358
policy/LossBefore                          -0.0148212
policy/dLoss                                0.0287588
----------------------------------------  -----------
2025-04-02 22:45:01 | [rl2_trainer] epoch #169 | Optimizing policy...
2025-04-02 22:45:01 | [rl2_trainer] epoch #169 | Fitting baseline...
2025-04-02 22:45:01 | [rl2_trainer] epoch #169 | Computing loss before
2025-04-02 22:45:02 | [rl2_trainer] epoch #169 | Computing KL before
2025-04-02 22:45:02 | [rl2_trainer] epoch #169 | Optimizing
2025-04-02 22:45:36 | [rl2_trainer] epoch #169 | Computing KL after
2025-04-02 22:45:36 | [rl2_trainer] epoch #169 | Computing loss after
2025-04-02 22:45:37 | [rl2_trainer] epoch #169 | Saving snapshot...
2025-04-02 22:45:37 | [rl2_trainer] epoch #169 | Saved
2025-04-02 22:45:37 | [rl2_trainer] epoch #169 | Time 32018.20 s
2025-04-02 22:45:37 | [rl2_trainer] epoch #169 | EpochTime 161.84 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.3033
Average/AverageReturn                     -19.832
Average/Iteration                         169
Average/MaxReturn                          -0.871448
Average/MinReturn                         -37.9352
Average/NumEpisodes                       100
Average/StdReturn                           6.43924
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.683627
TotalEnvSteps                               1.7e+06
__unnamed_task__/AverageDiscountedReturn  -13.3033
__unnamed_task__/AverageReturn            -19.832
__unnamed_task__/Iteration                169
__unnamed_task__/MaxReturn                 -0.871448
__unnamed_task__/MinReturn                -37.9352
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.43924
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.33128
policy/KL                                   0.00882052
policy/KLBefore                             0
policy/LossAfter                           -0.00566459
policy/LossBefore                           0.00060695
policy/dLoss                                0.00627154
----------------------------------------  ------------
2025-04-02 22:47:49 | [rl2_trainer] epoch #170 | Optimizing policy...
2025-04-02 22:47:50 | [rl2_trainer] epoch #170 | Fitting baseline...
2025-04-02 22:47:50 | [rl2_trainer] epoch #170 | Computing loss before
2025-04-02 22:47:50 | [rl2_trainer] epoch #170 | Computing KL before
2025-04-02 22:47:51 | [rl2_trainer] epoch #170 | Optimizing
2025-04-02 22:48:25 | [rl2_trainer] epoch #170 | Computing KL after
2025-04-02 22:48:26 | [rl2_trainer] epoch #170 | Computing loss after
2025-04-02 22:48:27 | [rl2_trainer] epoch #170 | Saving snapshot...
2025-04-02 22:48:27 | [rl2_trainer] epoch #170 | Saved
2025-04-02 22:48:27 | [rl2_trainer] epoch #170 | Time 32187.90 s
2025-04-02 22:48:27 | [rl2_trainer] epoch #170 | EpochTime 169.70 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.1175
Average/AverageReturn                     -21.8678
Average/Iteration                         170
Average/MaxReturn                         -11.1493
Average/MinReturn                         -36.0558
Average/NumEpisodes                       100
Average/StdReturn                           5.12405
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.6588
TotalEnvSteps                               1.71e+06
__unnamed_task__/AverageDiscountedReturn  -14.1175
__unnamed_task__/AverageReturn            -21.8678
__unnamed_task__/Iteration                170
__unnamed_task__/MaxReturn                -11.1493
__unnamed_task__/MinReturn                -36.0558
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.12405
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.3186
policy/KL                                   0.010206
policy/KLBefore                             0
policy/LossAfter                           -0.00701617
policy/LossBefore                           0.00433613
policy/dLoss                                0.0113523
----------------------------------------  ------------
2025-04-02 22:50:55 | [rl2_trainer] epoch #171 | Optimizing policy...
2025-04-02 22:50:55 | [rl2_trainer] epoch #171 | Fitting baseline...
2025-04-02 22:50:55 | [rl2_trainer] epoch #171 | Computing loss before
2025-04-02 22:50:56 | [rl2_trainer] epoch #171 | Computing KL before
2025-04-02 22:50:56 | [rl2_trainer] epoch #171 | Optimizing
2025-04-02 22:51:32 | [rl2_trainer] epoch #171 | Computing KL after
2025-04-02 22:51:33 | [rl2_trainer] epoch #171 | Computing loss after
2025-04-02 22:51:34 | [rl2_trainer] epoch #171 | Saving snapshot...
2025-04-02 22:51:34 | [rl2_trainer] epoch #171 | Saved
2025-04-02 22:51:34 | [rl2_trainer] epoch #171 | Time 32374.66 s
2025-04-02 22:51:34 | [rl2_trainer] epoch #171 | EpochTime 186.76 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.1593
Average/AverageReturn                     -21.9429
Average/Iteration                         171
Average/MaxReturn                          -3.51255
Average/MinReturn                         -34.1653
Average/NumEpisodes                       100
Average/StdReturn                           5.73461
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.614972
TotalEnvSteps                               1.72e+06
__unnamed_task__/AverageDiscountedReturn  -14.1593
__unnamed_task__/AverageReturn            -21.9429
__unnamed_task__/Iteration                171
__unnamed_task__/MaxReturn                 -3.51255
__unnamed_task__/MinReturn                -34.1653
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.73461
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.31385
policy/KL                                   0.0122985
policy/KLBefore                             0
policy/LossAfter                           -0.0087124
policy/LossBefore                           0.00672863
policy/dLoss                                0.015441
----------------------------------------  ------------
2025-04-02 22:54:41 | [rl2_trainer] epoch #172 | Optimizing policy...
2025-04-02 22:54:41 | [rl2_trainer] epoch #172 | Fitting baseline...
2025-04-02 22:54:41 | [rl2_trainer] epoch #172 | Computing loss before
2025-04-02 22:54:42 | [rl2_trainer] epoch #172 | Computing KL before
2025-04-02 22:54:42 | [rl2_trainer] epoch #172 | Optimizing
2025-04-02 22:55:17 | [rl2_trainer] epoch #172 | Computing KL after
2025-04-02 22:55:17 | [rl2_trainer] epoch #172 | Computing loss after
2025-04-02 22:55:18 | [rl2_trainer] epoch #172 | Saving snapshot...
2025-04-02 22:55:18 | [rl2_trainer] epoch #172 | Saved
2025-04-02 22:55:18 | [rl2_trainer] epoch #172 | Time 32599.41 s
2025-04-02 22:55:18 | [rl2_trainer] epoch #172 | EpochTime 224.74 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.4053
Average/AverageReturn                     -21.4323
Average/Iteration                         172
Average/MaxReturn                           6.76933
Average/MinReturn                         -57.4492
Average/NumEpisodes                       100
Average/StdReturn                           9.55426
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.611498
TotalEnvSteps                               1.73e+06
__unnamed_task__/AverageDiscountedReturn  -13.4053
__unnamed_task__/AverageReturn            -21.4323
__unnamed_task__/Iteration                172
__unnamed_task__/MaxReturn                  6.76933
__unnamed_task__/MinReturn                -57.4492
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.55426
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.31895
policy/KL                                   0.0125884
policy/KLBefore                             0
policy/LossAfter                           -0.0353606
policy/LossBefore                           0.00585131
policy/dLoss                                0.0412119
----------------------------------------  ------------
2025-04-02 22:58:08 | [rl2_trainer] epoch #173 | Optimizing policy...
2025-04-02 22:58:09 | [rl2_trainer] epoch #173 | Fitting baseline...
2025-04-02 22:58:09 | [rl2_trainer] epoch #173 | Computing loss before
2025-04-02 22:58:09 | [rl2_trainer] epoch #173 | Computing KL before
2025-04-02 22:58:10 | [rl2_trainer] epoch #173 | Optimizing
2025-04-02 22:58:44 | [rl2_trainer] epoch #173 | Computing KL after
2025-04-02 22:58:45 | [rl2_trainer] epoch #173 | Computing loss after
2025-04-02 22:58:46 | [rl2_trainer] epoch #173 | Saving snapshot...
2025-04-02 22:58:46 | [rl2_trainer] epoch #173 | Saved
2025-04-02 22:58:46 | [rl2_trainer] epoch #173 | Time 32806.88 s
2025-04-02 22:58:46 | [rl2_trainer] epoch #173 | EpochTime 207.48 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.386
Average/AverageReturn                     -22.9112
Average/Iteration                         173
Average/MaxReturn                           4.47805
Average/MinReturn                         -54.279
Average/NumEpisodes                       100
Average/StdReturn                           8.67069
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.780945
TotalEnvSteps                               1.74e+06
__unnamed_task__/AverageDiscountedReturn  -14.386
__unnamed_task__/AverageReturn            -22.9112
__unnamed_task__/Iteration                173
__unnamed_task__/MaxReturn                  4.47805
__unnamed_task__/MinReturn                -54.279
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.67069
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.31478
policy/KL                                   0.0112802
policy/KLBefore                             0
policy/LossAfter                           -0.0206334
policy/LossBefore                           0.00705699
policy/dLoss                                0.0276904
----------------------------------------  ------------
2025-04-02 23:01:28 | [rl2_trainer] epoch #174 | Optimizing policy...
2025-04-02 23:01:28 | [rl2_trainer] epoch #174 | Fitting baseline...
2025-04-02 23:01:28 | [rl2_trainer] epoch #174 | Computing loss before
2025-04-02 23:01:29 | [rl2_trainer] epoch #174 | Computing KL before
2025-04-02 23:01:30 | [rl2_trainer] epoch #174 | Optimizing
2025-04-02 23:02:03 | [rl2_trainer] epoch #174 | Computing KL after
2025-04-02 23:02:04 | [rl2_trainer] epoch #174 | Computing loss after
2025-04-02 23:02:05 | [rl2_trainer] epoch #174 | Saving snapshot...
2025-04-02 23:02:05 | [rl2_trainer] epoch #174 | Saved
2025-04-02 23:02:05 | [rl2_trainer] epoch #174 | Time 33005.60 s
2025-04-02 23:02:05 | [rl2_trainer] epoch #174 | EpochTime 198.71 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -17.5257
Average/AverageReturn                     -27.7603
Average/Iteration                         174
Average/MaxReturn                         -10.0792
Average/MinReturn                         -50.3924
Average/NumEpisodes                       100
Average/StdReturn                           7.75478
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.508119
TotalEnvSteps                               1.75e+06
__unnamed_task__/AverageDiscountedReturn  -17.5257
__unnamed_task__/AverageReturn            -27.7603
__unnamed_task__/Iteration                174
__unnamed_task__/MaxReturn                -10.0792
__unnamed_task__/MinReturn                -50.3924
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.75478
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.31215
policy/KL                                   0.0111257
policy/KLBefore                             0
policy/LossAfter                           -0.0249044
policy/LossBefore                           0.00654143
policy/dLoss                                0.0314458
----------------------------------------  ------------
2025-04-02 23:04:00 | [rl2_trainer] epoch #175 | Optimizing policy...
2025-04-02 23:04:00 | [rl2_trainer] epoch #175 | Fitting baseline...
2025-04-02 23:04:00 | [rl2_trainer] epoch #175 | Computing loss before
2025-04-02 23:04:01 | [rl2_trainer] epoch #175 | Computing KL before
2025-04-02 23:04:01 | [rl2_trainer] epoch #175 | Optimizing
2025-04-02 23:04:36 | [rl2_trainer] epoch #175 | Computing KL after
2025-04-02 23:04:37 | [rl2_trainer] epoch #175 | Computing loss after
2025-04-02 23:04:38 | [rl2_trainer] epoch #175 | Saving snapshot...
2025-04-02 23:04:38 | [rl2_trainer] epoch #175 | Saved
2025-04-02 23:04:38 | [rl2_trainer] epoch #175 | Time 33158.54 s
2025-04-02 23:04:38 | [rl2_trainer] epoch #175 | EpochTime 152.94 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.5801
Average/AverageReturn                     -24.012
Average/Iteration                         175
Average/MaxReturn                          -1.65193
Average/MinReturn                         -34.9112
Average/NumEpisodes                       100
Average/StdReturn                           5.22193
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.547156
TotalEnvSteps                               1.76e+06
__unnamed_task__/AverageDiscountedReturn  -15.5801
__unnamed_task__/AverageReturn            -24.012
__unnamed_task__/Iteration                175
__unnamed_task__/MaxReturn                 -1.65193
__unnamed_task__/MinReturn                -34.9112
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.22193
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.30849
policy/KL                                   0.00814855
policy/KLBefore                             0
policy/LossAfter                           -0.0196307
policy/LossBefore                          -0.00554777
policy/dLoss                                0.014083
----------------------------------------  ------------
2025-04-02 23:08:33 | [rl2_trainer] epoch #176 | Optimizing policy...
2025-04-02 23:08:33 | [rl2_trainer] epoch #176 | Fitting baseline...
2025-04-02 23:08:33 | [rl2_trainer] epoch #176 | Computing loss before
2025-04-02 23:08:34 | [rl2_trainer] epoch #176 | Computing KL before
2025-04-02 23:08:34 | [rl2_trainer] epoch #176 | Optimizing
2025-04-02 23:09:10 | [rl2_trainer] epoch #176 | Computing KL after
2025-04-02 23:09:11 | [rl2_trainer] epoch #176 | Computing loss after
2025-04-02 23:09:11 | [rl2_trainer] epoch #176 | Saving snapshot...
2025-04-02 23:09:11 | [rl2_trainer] epoch #176 | Saved
2025-04-02 23:09:11 | [rl2_trainer] epoch #176 | Time 33432.51 s
2025-04-02 23:09:11 | [rl2_trainer] epoch #176 | EpochTime 273.97 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.3263
Average/AverageReturn                     -24.4288
Average/Iteration                         176
Average/MaxReturn                           0.956715
Average/MinReturn                         -65.3274
Average/NumEpisodes                       100
Average/StdReturn                          10.6376
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.659967
TotalEnvSteps                               1.77e+06
__unnamed_task__/AverageDiscountedReturn  -15.3263
__unnamed_task__/AverageReturn            -24.4288
__unnamed_task__/Iteration                176
__unnamed_task__/MaxReturn                  0.956715
__unnamed_task__/MinReturn                -65.3274
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.6376
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.28513
policy/KL                                   0.0124446
policy/KLBefore                             0
policy/LossAfter                           -0.0496878
policy/LossBefore                          -0.00344041
policy/dLoss                                0.0462474
----------------------------------------  ------------
2025-04-02 23:11:10 | [rl2_trainer] epoch #177 | Optimizing policy...
2025-04-02 23:11:10 | [rl2_trainer] epoch #177 | Fitting baseline...
2025-04-02 23:11:10 | [rl2_trainer] epoch #177 | Computing loss before
2025-04-02 23:11:11 | [rl2_trainer] epoch #177 | Computing KL before
2025-04-02 23:11:12 | [rl2_trainer] epoch #177 | Optimizing
2025-04-02 23:11:46 | [rl2_trainer] epoch #177 | Computing KL after
2025-04-02 23:11:46 | [rl2_trainer] epoch #177 | Computing loss after
2025-04-02 23:11:47 | [rl2_trainer] epoch #177 | Saving snapshot...
2025-04-02 23:11:47 | [rl2_trainer] epoch #177 | Saved
2025-04-02 23:11:47 | [rl2_trainer] epoch #177 | Time 33588.31 s
2025-04-02 23:11:47 | [rl2_trainer] epoch #177 | EpochTime 155.80 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.085
Average/AverageReturn                     -24.9529
Average/Iteration                         177
Average/MaxReturn                          -3.58136
Average/MinReturn                         -41.659
Average/NumEpisodes                       100
Average/StdReturn                           6.2497
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.665008
TotalEnvSteps                               1.78e+06
__unnamed_task__/AverageDiscountedReturn  -16.085
__unnamed_task__/AverageReturn            -24.9529
__unnamed_task__/Iteration                177
__unnamed_task__/MaxReturn                 -3.58136
__unnamed_task__/MinReturn                -41.659
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.2497
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.25784
policy/KL                                   0.00866885
policy/KLBefore                             0
policy/LossAfter                           -0.0160555
policy/LossBefore                          -0.00436556
policy/dLoss                                0.0116899
----------------------------------------  ------------
2025-04-02 23:14:23 | [rl2_trainer] epoch #178 | Optimizing policy...
2025-04-02 23:14:23 | [rl2_trainer] epoch #178 | Fitting baseline...
2025-04-02 23:14:23 | [rl2_trainer] epoch #178 | Computing loss before
2025-04-02 23:14:24 | [rl2_trainer] epoch #178 | Computing KL before
2025-04-02 23:14:25 | [rl2_trainer] epoch #178 | Optimizing
2025-04-02 23:14:58 | [rl2_trainer] epoch #178 | Computing KL after
2025-04-02 23:14:58 | [rl2_trainer] epoch #178 | Computing loss after
2025-04-02 23:14:59 | [rl2_trainer] epoch #178 | Saving snapshot...
2025-04-02 23:14:59 | [rl2_trainer] epoch #178 | Saved
2025-04-02 23:14:59 | [rl2_trainer] epoch #178 | Time 33779.96 s
2025-04-02 23:14:59 | [rl2_trainer] epoch #178 | EpochTime 191.65 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.2693
Average/AverageReturn                     -24.0137
Average/Iteration                         178
Average/MaxReturn                           7.4379
Average/MinReturn                         -62.3541
Average/NumEpisodes                       100
Average/StdReturn                          10.2149
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.42905
TotalEnvSteps                               1.79e+06
__unnamed_task__/AverageDiscountedReturn  -15.2693
__unnamed_task__/AverageReturn            -24.0137
__unnamed_task__/Iteration                178
__unnamed_task__/MaxReturn                  7.4379
__unnamed_task__/MinReturn                -62.3541
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.2149
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.23638
policy/KL                                   0.011699
policy/KLBefore                             0
policy/LossAfter                           -0.0479517
policy/LossBefore                          -0.00481606
policy/dLoss                                0.0431356
----------------------------------------  ------------
2025-04-02 23:18:52 | [rl2_trainer] epoch #179 | Optimizing policy...
2025-04-02 23:18:52 | [rl2_trainer] epoch #179 | Fitting baseline...
2025-04-02 23:18:52 | [rl2_trainer] epoch #179 | Computing loss before
2025-04-02 23:18:53 | [rl2_trainer] epoch #179 | Computing KL before
2025-04-02 23:18:53 | [rl2_trainer] epoch #179 | Optimizing
2025-04-02 23:19:28 | [rl2_trainer] epoch #179 | Computing KL after
2025-04-02 23:19:29 | [rl2_trainer] epoch #179 | Computing loss after
2025-04-02 23:19:29 | [rl2_trainer] epoch #179 | Saving snapshot...
2025-04-02 23:19:29 | [rl2_trainer] epoch #179 | Saved
2025-04-02 23:19:29 | [rl2_trainer] epoch #179 | Time 34050.45 s
2025-04-02 23:19:29 | [rl2_trainer] epoch #179 | EpochTime 270.49 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.4237
Average/AverageReturn                     -22.7988
Average/Iteration                         179
Average/MaxReturn                           4.48665
Average/MinReturn                         -55.5408
Average/NumEpisodes                       100
Average/StdReturn                           9.39343
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.699023
TotalEnvSteps                               1.8e+06
__unnamed_task__/AverageDiscountedReturn  -14.4237
__unnamed_task__/AverageReturn            -22.7988
__unnamed_task__/Iteration                179
__unnamed_task__/MaxReturn                  4.48665
__unnamed_task__/MinReturn                -55.5408
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.39343
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.20806
policy/KL                                   0.0139753
policy/KLBefore                             0
policy/LossAfter                           -0.0339095
policy/LossBefore                          -0.00737877
policy/dLoss                                0.0265308
----------------------------------------  ------------
2025-04-02 23:21:44 | [rl2_trainer] epoch #180 | Optimizing policy...
2025-04-02 23:21:45 | [rl2_trainer] epoch #180 | Fitting baseline...
2025-04-02 23:21:45 | [rl2_trainer] epoch #180 | Computing loss before
2025-04-02 23:21:45 | [rl2_trainer] epoch #180 | Computing KL before
2025-04-02 23:21:46 | [rl2_trainer] epoch #180 | Optimizing
2025-04-02 23:22:20 | [rl2_trainer] epoch #180 | Computing KL after
2025-04-02 23:22:20 | [rl2_trainer] epoch #180 | Computing loss after
2025-04-02 23:22:21 | [rl2_trainer] epoch #180 | Saving snapshot...
2025-04-02 23:22:21 | [rl2_trainer] epoch #180 | Saved
2025-04-02 23:22:21 | [rl2_trainer] epoch #180 | Time 34222.01 s
2025-04-02 23:22:21 | [rl2_trainer] epoch #180 | EpochTime 171.56 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.3658
Average/AverageReturn                     -24.2948
Average/Iteration                         180
Average/MaxReturn                         -13.5995
Average/MinReturn                         -48.8346
Average/NumEpisodes                       100
Average/StdReturn                           6.60185
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.450567
TotalEnvSteps                               1.81e+06
__unnamed_task__/AverageDiscountedReturn  -15.3658
__unnamed_task__/AverageReturn            -24.2948
__unnamed_task__/Iteration                180
__unnamed_task__/MaxReturn                -13.5995
__unnamed_task__/MinReturn                -48.8346
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.60185
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.18794
policy/KL                                   0.0121468
policy/KLBefore                             0
policy/LossAfter                           -0.0261222
policy/LossBefore                          -0.00850994
policy/dLoss                                0.0176123
----------------------------------------  ------------
2025-04-02 23:23:49 | [rl2_trainer] epoch #181 | Optimizing policy...
2025-04-02 23:23:49 | [rl2_trainer] epoch #181 | Fitting baseline...
2025-04-02 23:23:49 | [rl2_trainer] epoch #181 | Computing loss before
2025-04-02 23:23:50 | [rl2_trainer] epoch #181 | Computing KL before
2025-04-02 23:23:51 | [rl2_trainer] epoch #181 | Optimizing
2025-04-02 23:24:27 | [rl2_trainer] epoch #181 | Computing KL after
2025-04-02 23:24:28 | [rl2_trainer] epoch #181 | Computing loss after
2025-04-02 23:24:28 | [rl2_trainer] epoch #181 | Saving snapshot...
2025-04-02 23:24:28 | [rl2_trainer] epoch #181 | Saved
2025-04-02 23:24:28 | [rl2_trainer] epoch #181 | Time 34349.46 s
2025-04-02 23:24:28 | [rl2_trainer] epoch #181 | EpochTime 127.45 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.0399
Average/AverageReturn                     -21.484
Average/Iteration                         181
Average/MaxReturn                          -1.31227
Average/MinReturn                         -34.9475
Average/NumEpisodes                       100
Average/StdReturn                           5.13854
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.552429
TotalEnvSteps                               1.82e+06
__unnamed_task__/AverageDiscountedReturn  -14.0399
__unnamed_task__/AverageReturn            -21.484
__unnamed_task__/Iteration                181
__unnamed_task__/MaxReturn                 -1.31227
__unnamed_task__/MinReturn                -34.9475
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.13854
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.18084
policy/KL                                   0.00783199
policy/KLBefore                             0
policy/LossAfter                           -0.0174227
policy/LossBefore                          -0.00175756
policy/dLoss                                0.0156651
----------------------------------------  ------------
2025-04-02 23:26:11 | [rl2_trainer] epoch #182 | Optimizing policy...
2025-04-02 23:26:11 | [rl2_trainer] epoch #182 | Fitting baseline...
2025-04-02 23:26:11 | [rl2_trainer] epoch #182 | Computing loss before
2025-04-02 23:26:12 | [rl2_trainer] epoch #182 | Computing KL before
2025-04-02 23:26:13 | [rl2_trainer] epoch #182 | Optimizing
2025-04-02 23:26:49 | [rl2_trainer] epoch #182 | Computing KL after
2025-04-02 23:26:49 | [rl2_trainer] epoch #182 | Computing loss after
2025-04-02 23:26:50 | [rl2_trainer] epoch #182 | Saving snapshot...
2025-04-02 23:26:50 | [rl2_trainer] epoch #182 | Saved
2025-04-02 23:26:50 | [rl2_trainer] epoch #182 | Time 34491.50 s
2025-04-02 23:26:50 | [rl2_trainer] epoch #182 | EpochTime 142.04 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.8973
Average/AverageReturn                     -22.9231
Average/Iteration                         182
Average/MaxReturn                          -8.64624
Average/MinReturn                         -84.6908
Average/NumEpisodes                       100
Average/StdReturn                           9.79335
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.549815
TotalEnvSteps                               1.83e+06
__unnamed_task__/AverageDiscountedReturn  -14.8973
__unnamed_task__/AverageReturn            -22.9231
__unnamed_task__/Iteration                182
__unnamed_task__/MaxReturn                 -8.64624
__unnamed_task__/MinReturn                -84.6908
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.79335
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.1701
policy/KL                                   0.0123534
policy/KLBefore                             0
policy/LossAfter                           -0.0368878
policy/LossBefore                           0.00155336
policy/dLoss                                0.0384411
----------------------------------------  ------------
2025-04-02 23:28:19 | [rl2_trainer] epoch #183 | Optimizing policy...
2025-04-02 23:28:19 | [rl2_trainer] epoch #183 | Fitting baseline...
2025-04-02 23:28:19 | [rl2_trainer] epoch #183 | Computing loss before
2025-04-02 23:28:20 | [rl2_trainer] epoch #183 | Computing KL before
2025-04-02 23:28:20 | [rl2_trainer] epoch #183 | Optimizing
2025-04-02 23:28:55 | [rl2_trainer] epoch #183 | Computing KL after
2025-04-02 23:28:56 | [rl2_trainer] epoch #183 | Computing loss after
2025-04-02 23:28:57 | [rl2_trainer] epoch #183 | Saving snapshot...
2025-04-02 23:28:57 | [rl2_trainer] epoch #183 | Saved
2025-04-02 23:28:57 | [rl2_trainer] epoch #183 | Time 34617.79 s
2025-04-02 23:28:57 | [rl2_trainer] epoch #183 | EpochTime 126.28 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.09
Average/AverageReturn                     -21.503
Average/Iteration                         183
Average/MaxReturn                           5.03232
Average/MinReturn                         -33.6511
Average/NumEpisodes                       100
Average/StdReturn                           4.71656
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.425724
TotalEnvSteps                               1.84e+06
__unnamed_task__/AverageDiscountedReturn  -14.09
__unnamed_task__/AverageReturn            -21.503
__unnamed_task__/Iteration                183
__unnamed_task__/MaxReturn                  5.03232
__unnamed_task__/MinReturn                -33.6511
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.71656
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.14999
policy/KL                                   0.012453
policy/KLBefore                             0
policy/LossAfter                           -0.0121756
policy/LossBefore                          -0.00350574
policy/dLoss                                0.00866988
----------------------------------------  ------------
2025-04-02 23:30:55 | [rl2_trainer] epoch #184 | Optimizing policy...
2025-04-02 23:30:55 | [rl2_trainer] epoch #184 | Fitting baseline...
2025-04-02 23:30:55 | [rl2_trainer] epoch #184 | Computing loss before
2025-04-02 23:30:56 | [rl2_trainer] epoch #184 | Computing KL before
2025-04-02 23:30:56 | [rl2_trainer] epoch #184 | Optimizing
2025-04-02 23:31:31 | [rl2_trainer] epoch #184 | Computing KL after
2025-04-02 23:31:31 | [rl2_trainer] epoch #184 | Computing loss after
2025-04-02 23:31:32 | [rl2_trainer] epoch #184 | Saving snapshot...
2025-04-02 23:31:32 | [rl2_trainer] epoch #184 | Saved
2025-04-02 23:31:32 | [rl2_trainer] epoch #184 | Time 34773.37 s
2025-04-02 23:31:32 | [rl2_trainer] epoch #184 | EpochTime 155.58 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -15.767
Average/AverageReturn                     -24.2872
Average/Iteration                         184
Average/MaxReturn                           5.42652
Average/MinReturn                         -42.2935
Average/NumEpisodes                       100
Average/StdReturn                           8.58123
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.575175
TotalEnvSteps                               1.85e+06
__unnamed_task__/AverageDiscountedReturn  -15.767
__unnamed_task__/AverageReturn            -24.2872
__unnamed_task__/Iteration                184
__unnamed_task__/MaxReturn                  5.42652
__unnamed_task__/MinReturn                -42.2935
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.58123
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.1248
policy/KL                                   0.0136821
policy/KLBefore                             0
policy/LossAfter                           -0.0248326
policy/LossBefore                           0.000387531
policy/dLoss                                0.0252201
----------------------------------------  -------------
2025-04-02 23:33:34 | [rl2_trainer] epoch #185 | Optimizing policy...
2025-04-02 23:33:34 | [rl2_trainer] epoch #185 | Fitting baseline...
2025-04-02 23:33:34 | [rl2_trainer] epoch #185 | Computing loss before
2025-04-02 23:33:35 | [rl2_trainer] epoch #185 | Computing KL before
2025-04-02 23:33:35 | [rl2_trainer] epoch #185 | Optimizing
2025-04-02 23:34:10 | [rl2_trainer] epoch #185 | Computing KL after
2025-04-02 23:34:10 | [rl2_trainer] epoch #185 | Computing loss after
2025-04-02 23:34:11 | [rl2_trainer] epoch #185 | Saving snapshot...
2025-04-02 23:34:11 | [rl2_trainer] epoch #185 | Saved
2025-04-02 23:34:11 | [rl2_trainer] epoch #185 | Time 34932.28 s
2025-04-02 23:34:11 | [rl2_trainer] epoch #185 | EpochTime 158.91 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.1033
Average/AverageReturn                     -23.3696
Average/Iteration                         185
Average/MaxReturn                           1.3226
Average/MinReturn                         -43.8365
Average/NumEpisodes                       100
Average/StdReturn                           6.02946
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.588772
TotalEnvSteps                               1.86e+06
__unnamed_task__/AverageDiscountedReturn  -15.1033
__unnamed_task__/AverageReturn            -23.3696
__unnamed_task__/Iteration                185
__unnamed_task__/MaxReturn                  1.3226
__unnamed_task__/MinReturn                -43.8365
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.02946
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.11201
policy/KL                                   0.0105881
policy/KLBefore                             0
policy/LossAfter                           -0.0154911
policy/LossBefore                          -0.00251462
policy/dLoss                                0.0129765
----------------------------------------  ------------
2025-04-02 23:37:53 | [rl2_trainer] epoch #186 | Optimizing policy...
2025-04-02 23:37:54 | [rl2_trainer] epoch #186 | Fitting baseline...
2025-04-02 23:37:54 | [rl2_trainer] epoch #186 | Computing loss before
2025-04-02 23:37:54 | [rl2_trainer] epoch #186 | Computing KL before
2025-04-02 23:37:55 | [rl2_trainer] epoch #186 | Optimizing
2025-04-02 23:38:29 | [rl2_trainer] epoch #186 | Computing KL after
2025-04-02 23:38:30 | [rl2_trainer] epoch #186 | Computing loss after
2025-04-02 23:38:31 | [rl2_trainer] epoch #186 | Saving snapshot...
2025-04-02 23:38:31 | [rl2_trainer] epoch #186 | Saved
2025-04-02 23:38:31 | [rl2_trainer] epoch #186 | Time 35191.80 s
2025-04-02 23:38:31 | [rl2_trainer] epoch #186 | EpochTime 259.52 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -16.9703
Average/AverageReturn                     -26.9363
Average/Iteration                         186
Average/MaxReturn                           5.41528
Average/MinReturn                         -54.5057
Average/NumEpisodes                       100
Average/StdReturn                          11.9312
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.752923
TotalEnvSteps                               1.87e+06
__unnamed_task__/AverageDiscountedReturn  -16.9703
__unnamed_task__/AverageReturn            -26.9363
__unnamed_task__/Iteration                186
__unnamed_task__/MaxReturn                  5.41528
__unnamed_task__/MinReturn                -54.5057
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.9312
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.11437
policy/KL                                   0.0100779
policy/KLBefore                             0
policy/LossAfter                           -0.0692158
policy/LossBefore                          -0.0218691
policy/dLoss                                0.0473467
----------------------------------------  -----------
2025-04-02 23:39:59 | [rl2_trainer] epoch #187 | Optimizing policy...
2025-04-02 23:39:59 | [rl2_trainer] epoch #187 | Fitting baseline...
2025-04-02 23:39:59 | [rl2_trainer] epoch #187 | Computing loss before
2025-04-02 23:39:59 | [rl2_trainer] epoch #187 | Computing KL before
2025-04-02 23:40:00 | [rl2_trainer] epoch #187 | Optimizing
2025-04-02 23:40:35 | [rl2_trainer] epoch #187 | Computing KL after
2025-04-02 23:40:36 | [rl2_trainer] epoch #187 | Computing loss after
2025-04-02 23:40:37 | [rl2_trainer] epoch #187 | Saving snapshot...
2025-04-02 23:40:37 | [rl2_trainer] epoch #187 | Saved
2025-04-02 23:40:37 | [rl2_trainer] epoch #187 | Time 35317.84 s
2025-04-02 23:40:37 | [rl2_trainer] epoch #187 | EpochTime 126.04 s
----------------------------------------  -------------
Average/AverageDiscountedReturn            -14.5179
Average/AverageReturn                      -22.1007
Average/Iteration                          187
Average/MaxReturn                            9.1671
Average/MinReturn                         -120.341
Average/NumEpisodes                        100
Average/StdReturn                           12.1363
Average/TerminationRate                      0
LinearFeatureBaseline/ExplainedVariance      0.503894
TotalEnvSteps                                1.88e+06
__unnamed_task__/AverageDiscountedReturn   -14.5179
__unnamed_task__/AverageReturn             -22.1007
__unnamed_task__/Iteration                 187
__unnamed_task__/MaxReturn                   9.1671
__unnamed_task__/MinReturn                -120.341
__unnamed_task__/NumEpisodes               100
__unnamed_task__/StdReturn                  12.1363
__unnamed_task__/TerminationRate             0
policy/Entropy                               6.09277
policy/KL                                    0.0126543
policy/KLBefore                              0
policy/LossAfter                            -0.0388835
policy/LossBefore                            0.00218372
policy/dLoss                                 0.0410673
----------------------------------------  -------------
2025-04-02 23:44:28 | [rl2_trainer] epoch #188 | Optimizing policy...
2025-04-02 23:44:29 | [rl2_trainer] epoch #188 | Fitting baseline...
2025-04-02 23:44:29 | [rl2_trainer] epoch #188 | Computing loss before
2025-04-02 23:44:29 | [rl2_trainer] epoch #188 | Computing KL before
2025-04-02 23:44:30 | [rl2_trainer] epoch #188 | Optimizing
2025-04-02 23:45:03 | [rl2_trainer] epoch #188 | Computing KL after
2025-04-02 23:45:04 | [rl2_trainer] epoch #188 | Computing loss after
2025-04-02 23:45:05 | [rl2_trainer] epoch #188 | Saving snapshot...
2025-04-02 23:45:05 | [rl2_trainer] epoch #188 | Saved
2025-04-02 23:45:05 | [rl2_trainer] epoch #188 | Time 35585.86 s
2025-04-02 23:45:05 | [rl2_trainer] epoch #188 | EpochTime 268.02 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.0973
Average/AverageReturn                     -23.8596
Average/Iteration                         188
Average/MaxReturn                          -4.12526
Average/MinReturn                         -64.9467
Average/NumEpisodes                       100
Average/StdReturn                          11.6338
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.760052
TotalEnvSteps                               1.89e+06
__unnamed_task__/AverageDiscountedReturn  -15.0973
__unnamed_task__/AverageReturn            -23.8596
__unnamed_task__/Iteration                188
__unnamed_task__/MaxReturn                 -4.12526
__unnamed_task__/MinReturn                -64.9467
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.6338
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.05727
policy/KL                                   0.0127406
policy/KLBefore                             0
policy/LossAfter                           -0.0262304
policy/LossBefore                          -0.00133266
policy/dLoss                                0.0248977
----------------------------------------  ------------
2025-04-02 23:47:18 | [rl2_trainer] epoch #189 | Optimizing policy...
2025-04-02 23:47:18 | [rl2_trainer] epoch #189 | Fitting baseline...
2025-04-02 23:47:18 | [rl2_trainer] epoch #189 | Computing loss before
2025-04-02 23:47:19 | [rl2_trainer] epoch #189 | Computing KL before
2025-04-02 23:47:20 | [rl2_trainer] epoch #189 | Optimizing
2025-04-02 23:47:55 | [rl2_trainer] epoch #189 | Computing KL after
2025-04-02 23:47:55 | [rl2_trainer] epoch #189 | Computing loss after
2025-04-02 23:47:56 | [rl2_trainer] epoch #189 | Saving snapshot...
2025-04-02 23:47:56 | [rl2_trainer] epoch #189 | Saved
2025-04-02 23:47:56 | [rl2_trainer] epoch #189 | Time 35757.30 s
2025-04-02 23:47:56 | [rl2_trainer] epoch #189 | EpochTime 171.43 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.7045
Average/AverageReturn                     -19.2809
Average/Iteration                         189
Average/MaxReturn                           6.98168
Average/MinReturn                         -32.5603
Average/NumEpisodes                       100
Average/StdReturn                           5.86379
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.529671
TotalEnvSteps                               1.9e+06
__unnamed_task__/AverageDiscountedReturn  -12.7045
__unnamed_task__/AverageReturn            -19.2809
__unnamed_task__/Iteration                189
__unnamed_task__/MaxReturn                  6.98168
__unnamed_task__/MinReturn                -32.5603
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.86379
__unnamed_task__/TerminationRate            0
policy/Entropy                              6.03102
policy/KL                                   0.0109886
policy/KLBefore                             0
policy/LossAfter                           -0.0161232
policy/LossBefore                          -0.00288016
policy/dLoss                                0.013243
----------------------------------------  ------------
2025-04-02 23:50:11 | [rl2_trainer] epoch #190 | Optimizing policy...
2025-04-02 23:50:12 | [rl2_trainer] epoch #190 | Fitting baseline...
2025-04-02 23:50:12 | [rl2_trainer] epoch #190 | Computing loss before
2025-04-02 23:50:12 | [rl2_trainer] epoch #190 | Computing KL before
2025-04-02 23:50:13 | [rl2_trainer] epoch #190 | Optimizing
2025-04-02 23:50:48 | [rl2_trainer] epoch #190 | Computing KL after
2025-04-02 23:50:49 | [rl2_trainer] epoch #190 | Computing loss after
2025-04-02 23:50:50 | [rl2_trainer] epoch #190 | Saving snapshot...
2025-04-02 23:50:50 | [rl2_trainer] epoch #190 | Saved
2025-04-02 23:50:50 | [rl2_trainer] epoch #190 | Time 35930.75 s
2025-04-02 23:50:50 | [rl2_trainer] epoch #190 | EpochTime 173.45 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.9925
Average/AverageReturn                     -19.7494
Average/Iteration                         190
Average/MaxReturn                           5.01642
Average/MinReturn                         -32.5048
Average/NumEpisodes                       100
Average/StdReturn                           5.79016
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.395371
TotalEnvSteps                               1.91e+06
__unnamed_task__/AverageDiscountedReturn  -12.9925
__unnamed_task__/AverageReturn            -19.7494
__unnamed_task__/Iteration                190
__unnamed_task__/MaxReturn                  5.01642
__unnamed_task__/MinReturn                -32.5048
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.79016
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.99156
policy/KL                                   0.00831622
policy/KLBefore                             0
policy/LossAfter                           -0.0230497
policy/LossBefore                          -0.00814872
policy/dLoss                                0.014901
----------------------------------------  ------------
2025-04-02 23:53:15 | [rl2_trainer] epoch #191 | Optimizing policy...
2025-04-02 23:53:16 | [rl2_trainer] epoch #191 | Fitting baseline...
2025-04-02 23:53:16 | [rl2_trainer] epoch #191 | Computing loss before
2025-04-02 23:53:16 | [rl2_trainer] epoch #191 | Computing KL before
2025-04-02 23:53:17 | [rl2_trainer] epoch #191 | Optimizing
2025-04-02 23:53:53 | [rl2_trainer] epoch #191 | Computing KL after
2025-04-02 23:53:53 | [rl2_trainer] epoch #191 | Computing loss after
2025-04-02 23:53:54 | [rl2_trainer] epoch #191 | Saving snapshot...
2025-04-02 23:53:54 | [rl2_trainer] epoch #191 | Saved
2025-04-02 23:53:54 | [rl2_trainer] epoch #191 | Time 36115.16 s
2025-04-02 23:53:54 | [rl2_trainer] epoch #191 | EpochTime 184.40 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.4995
Average/AverageReturn                     -23.6997
Average/Iteration                         191
Average/MaxReturn                         -11.9431
Average/MinReturn                         -39.1894
Average/NumEpisodes                       100
Average/StdReturn                           6.03049
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.767131
TotalEnvSteps                               1.92e+06
__unnamed_task__/AverageDiscountedReturn  -15.4995
__unnamed_task__/AverageReturn            -23.6997
__unnamed_task__/Iteration                191
__unnamed_task__/MaxReturn                -11.9431
__unnamed_task__/MinReturn                -39.1894
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.03049
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.95397
policy/KL                                   0.0101866
policy/KLBefore                             0
policy/LossAfter                           -0.00640935
policy/LossBefore                          -0.00408538
policy/dLoss                                0.00232397
----------------------------------------  ------------
2025-04-02 23:56:00 | [rl2_trainer] epoch #192 | Optimizing policy...
2025-04-02 23:56:01 | [rl2_trainer] epoch #192 | Fitting baseline...
2025-04-02 23:56:01 | [rl2_trainer] epoch #192 | Computing loss before
2025-04-02 23:56:01 | [rl2_trainer] epoch #192 | Computing KL before
2025-04-02 23:56:02 | [rl2_trainer] epoch #192 | Optimizing
2025-04-02 23:56:38 | [rl2_trainer] epoch #192 | Computing KL after
2025-04-02 23:56:39 | [rl2_trainer] epoch #192 | Computing loss after
2025-04-02 23:56:40 | [rl2_trainer] epoch #192 | Saving snapshot...
2025-04-02 23:56:40 | [rl2_trainer] epoch #192 | Saved
2025-04-02 23:56:40 | [rl2_trainer] epoch #192 | Time 36280.60 s
2025-04-02 23:56:40 | [rl2_trainer] epoch #192 | EpochTime 165.44 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.5799
Average/AverageReturn                     -23.8141
Average/Iteration                         192
Average/MaxReturn                          -6.48798
Average/MinReturn                         -40.7879
Average/NumEpisodes                       100
Average/StdReturn                           6.50279
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.691226
TotalEnvSteps                               1.93e+06
__unnamed_task__/AverageDiscountedReturn  -15.5799
__unnamed_task__/AverageReturn            -23.8141
__unnamed_task__/Iteration                192
__unnamed_task__/MaxReturn                 -6.48798
__unnamed_task__/MinReturn                -40.7879
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.50279
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.93025
policy/KL                                   0.0120001
policy/KLBefore                             0
policy/LossAfter                           -0.0223603
policy/LossBefore                          -0.00670703
policy/dLoss                                0.0156533
----------------------------------------  ------------
2025-04-03 00:00:33 | [rl2_trainer] epoch #193 | Optimizing policy...
2025-04-03 00:00:33 | [rl2_trainer] epoch #193 | Fitting baseline...
2025-04-03 00:00:33 | [rl2_trainer] epoch #193 | Computing loss before
2025-04-03 00:00:34 | [rl2_trainer] epoch #193 | Computing KL before
2025-04-03 00:00:34 | [rl2_trainer] epoch #193 | Optimizing
2025-04-03 00:01:10 | [rl2_trainer] epoch #193 | Computing KL after
2025-04-03 00:01:10 | [rl2_trainer] epoch #193 | Computing loss after
2025-04-03 00:01:11 | [rl2_trainer] epoch #193 | Saving snapshot...
2025-04-03 00:01:11 | [rl2_trainer] epoch #193 | Saved
2025-04-03 00:01:11 | [rl2_trainer] epoch #193 | Time 36552.45 s
2025-04-03 00:01:11 | [rl2_trainer] epoch #193 | EpochTime 271.85 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.2526
Average/AverageReturn                     -24.1918
Average/Iteration                         193
Average/MaxReturn                           6.73599
Average/MinReturn                         -66.9009
Average/NumEpisodes                       100
Average/StdReturn                          12.3607
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.736069
TotalEnvSteps                               1.94e+06
__unnamed_task__/AverageDiscountedReturn  -15.2526
__unnamed_task__/AverageReturn            -24.1918
__unnamed_task__/Iteration                193
__unnamed_task__/MaxReturn                  6.73599
__unnamed_task__/MinReturn                -66.9009
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.3607
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.87526
policy/KL                                   0.0151461
policy/KLBefore                             0
policy/LossAfter                           -0.0247137
policy/LossBefore                           0.00447526
policy/dLoss                                0.0291889
----------------------------------------  ------------
2025-04-03 00:04:13 | [rl2_trainer] epoch #194 | Optimizing policy...
2025-04-03 00:04:13 | [rl2_trainer] epoch #194 | Fitting baseline...
2025-04-03 00:04:13 | [rl2_trainer] epoch #194 | Computing loss before
2025-04-03 00:04:13 | [rl2_trainer] epoch #194 | Computing KL before
2025-04-03 00:04:14 | [rl2_trainer] epoch #194 | Optimizing
2025-04-03 00:04:47 | [rl2_trainer] epoch #194 | Computing KL after
2025-04-03 00:04:48 | [rl2_trainer] epoch #194 | Computing loss after
2025-04-03 00:04:49 | [rl2_trainer] epoch #194 | Saving snapshot...
2025-04-03 00:04:49 | [rl2_trainer] epoch #194 | Saved
2025-04-03 00:04:49 | [rl2_trainer] epoch #194 | Time 36769.90 s
2025-04-03 00:04:49 | [rl2_trainer] epoch #194 | EpochTime 217.45 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -16.1638
Average/AverageReturn                     -25.5741
Average/Iteration                         194
Average/MaxReturn                          -5.22742
Average/MinReturn                         -65.2075
Average/NumEpisodes                       100
Average/StdReturn                          12.3872
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.6431
TotalEnvSteps                               1.95e+06
__unnamed_task__/AverageDiscountedReturn  -16.1638
__unnamed_task__/AverageReturn            -25.5741
__unnamed_task__/Iteration                194
__unnamed_task__/MaxReturn                 -5.22742
__unnamed_task__/MinReturn                -65.2075
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.3872
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.84271
policy/KL                                   0.0110146
policy/KLBefore                             0
policy/LossAfter                           -0.0456932
policy/LossBefore                          -0.010518
policy/dLoss                                0.0351752
----------------------------------------  -----------
2025-04-03 00:07:39 | [rl2_trainer] epoch #195 | Optimizing policy...
2025-04-03 00:07:39 | [rl2_trainer] epoch #195 | Fitting baseline...
2025-04-03 00:07:39 | [rl2_trainer] epoch #195 | Computing loss before
2025-04-03 00:07:40 | [rl2_trainer] epoch #195 | Computing KL before
2025-04-03 00:07:41 | [rl2_trainer] epoch #195 | Optimizing
2025-04-03 00:08:17 | [rl2_trainer] epoch #195 | Computing KL after
2025-04-03 00:08:18 | [rl2_trainer] epoch #195 | Computing loss after
2025-04-03 00:08:18 | [rl2_trainer] epoch #195 | Saving snapshot...
2025-04-03 00:08:18 | [rl2_trainer] epoch #195 | Saved
2025-04-03 00:08:18 | [rl2_trainer] epoch #195 | Time 36979.47 s
2025-04-03 00:08:18 | [rl2_trainer] epoch #195 | EpochTime 209.57 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.1696
Average/AverageReturn                     -23.865
Average/Iteration                         195
Average/MaxReturn                          -3.937
Average/MinReturn                         -60.4794
Average/NumEpisodes                       100
Average/StdReturn                           9.52373
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.631025
TotalEnvSteps                               1.96e+06
__unnamed_task__/AverageDiscountedReturn  -15.1696
__unnamed_task__/AverageReturn            -23.865
__unnamed_task__/Iteration                195
__unnamed_task__/MaxReturn                 -3.937
__unnamed_task__/MinReturn                -60.4794
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.52373
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.82585
policy/KL                                   0.00999881
policy/KLBefore                             0
policy/LossAfter                           -0.041317
policy/LossBefore                          -0.00670995
policy/dLoss                                0.034607
----------------------------------------  ------------
2025-04-03 00:10:43 | [rl2_trainer] epoch #196 | Optimizing policy...
2025-04-03 00:10:43 | [rl2_trainer] epoch #196 | Fitting baseline...
2025-04-03 00:10:43 | [rl2_trainer] epoch #196 | Computing loss before
2025-04-03 00:10:44 | [rl2_trainer] epoch #196 | Computing KL before
2025-04-03 00:10:44 | [rl2_trainer] epoch #196 | Optimizing
2025-04-03 00:11:19 | [rl2_trainer] epoch #196 | Computing KL after
2025-04-03 00:11:19 | [rl2_trainer] epoch #196 | Computing loss after
2025-04-03 00:11:20 | [rl2_trainer] epoch #196 | Saving snapshot...
2025-04-03 00:11:20 | [rl2_trainer] epoch #196 | Saved
2025-04-03 00:11:20 | [rl2_trainer] epoch #196 | Time 37161.24 s
2025-04-03 00:11:20 | [rl2_trainer] epoch #196 | EpochTime 181.76 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.4631
Average/AverageReturn                     -18.6761
Average/Iteration                         196
Average/MaxReturn                           8.03319
Average/MinReturn                         -69.3932
Average/NumEpisodes                       100
Average/StdReturn                           7.10566
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.45999
TotalEnvSteps                               1.97e+06
__unnamed_task__/AverageDiscountedReturn  -12.4631
__unnamed_task__/AverageReturn            -18.6761
__unnamed_task__/Iteration                196
__unnamed_task__/MaxReturn                  8.03319
__unnamed_task__/MinReturn                -69.3932
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.10566
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.80302
policy/KL                                   0.00799422
policy/KLBefore                             0
policy/LossAfter                           -0.0230824
policy/LossBefore                          -0.00177503
policy/dLoss                                0.0213074
----------------------------------------  ------------
2025-04-03 00:14:53 | [rl2_trainer] epoch #197 | Optimizing policy...
2025-04-03 00:14:53 | [rl2_trainer] epoch #197 | Fitting baseline...
2025-04-03 00:14:53 | [rl2_trainer] epoch #197 | Computing loss before
2025-04-03 00:14:54 | [rl2_trainer] epoch #197 | Computing KL before
2025-04-03 00:14:55 | [rl2_trainer] epoch #197 | Optimizing
2025-04-03 00:15:32 | [rl2_trainer] epoch #197 | Computing KL after
2025-04-03 00:15:33 | [rl2_trainer] epoch #197 | Computing loss after
2025-04-03 00:15:34 | [rl2_trainer] epoch #197 | Saving snapshot...
2025-04-03 00:15:34 | [rl2_trainer] epoch #197 | Saved
2025-04-03 00:15:34 | [rl2_trainer] epoch #197 | Time 37414.81 s
2025-04-03 00:15:34 | [rl2_trainer] epoch #197 | EpochTime 253.57 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.5338
Average/AverageReturn                     -22.8798
Average/Iteration                         197
Average/MaxReturn                          -0.185914
Average/MinReturn                         -56.902
Average/NumEpisodes                       100
Average/StdReturn                          12.0203
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.696239
TotalEnvSteps                               1.98e+06
__unnamed_task__/AverageDiscountedReturn  -14.5338
__unnamed_task__/AverageReturn            -22.8798
__unnamed_task__/Iteration                197
__unnamed_task__/MaxReturn                 -0.185914
__unnamed_task__/MinReturn                -56.902
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.0203
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.78081
policy/KL                                   0.0157582
policy/KLBefore                             0
policy/LossAfter                           -0.0476577
policy/LossBefore                          -0.00714805
policy/dLoss                                0.0405097
----------------------------------------  ------------
2025-04-03 00:18:35 | [rl2_trainer] epoch #198 | Optimizing policy...
2025-04-03 00:18:35 | [rl2_trainer] epoch #198 | Fitting baseline...
2025-04-03 00:18:35 | [rl2_trainer] epoch #198 | Computing loss before
2025-04-03 00:18:36 | [rl2_trainer] epoch #198 | Computing KL before
2025-04-03 00:18:37 | [rl2_trainer] epoch #198 | Optimizing
2025-04-03 00:19:13 | [rl2_trainer] epoch #198 | Computing KL after
2025-04-03 00:19:14 | [rl2_trainer] epoch #198 | Computing loss after
2025-04-03 00:19:15 | [rl2_trainer] epoch #198 | Saving snapshot...
2025-04-03 00:19:15 | [rl2_trainer] epoch #198 | Saved
2025-04-03 00:19:15 | [rl2_trainer] epoch #198 | Time 37635.55 s
2025-04-03 00:19:15 | [rl2_trainer] epoch #198 | EpochTime 220.73 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -14.5506
Average/AverageReturn                     -22.8726
Average/Iteration                         198
Average/MaxReturn                          -5.57159
Average/MinReturn                         -51.2125
Average/NumEpisodes                       100
Average/StdReturn                           7.99084
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.786267
TotalEnvSteps                               1.99e+06
__unnamed_task__/AverageDiscountedReturn  -14.5506
__unnamed_task__/AverageReturn            -22.8726
__unnamed_task__/Iteration                198
__unnamed_task__/MaxReturn                 -5.57159
__unnamed_task__/MinReturn                -51.2125
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.99084
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.77181
policy/KL                                   0.0104251
policy/KLBefore                             0
policy/LossAfter                           -0.0257272
policy/LossBefore                          -0.0055649
policy/dLoss                                0.0201623
----------------------------------------  -----------
2025-04-03 00:22:19 | [rl2_trainer] epoch #199 | Optimizing policy...
2025-04-03 00:22:19 | [rl2_trainer] epoch #199 | Fitting baseline...
2025-04-03 00:22:19 | [rl2_trainer] epoch #199 | Computing loss before
2025-04-03 00:22:20 | [rl2_trainer] epoch #199 | Computing KL before
2025-04-03 00:22:21 | [rl2_trainer] epoch #199 | Optimizing
2025-04-03 00:22:55 | [rl2_trainer] epoch #199 | Computing KL after
2025-04-03 00:22:56 | [rl2_trainer] epoch #199 | Computing loss after
2025-04-03 00:22:57 | [rl2_trainer] epoch #199 | Saving snapshot...
2025-04-03 00:22:57 | [rl2_trainer] epoch #199 | Saved
2025-04-03 00:22:57 | [rl2_trainer] epoch #199 | Time 37857.78 s
2025-04-03 00:22:57 | [rl2_trainer] epoch #199 | EpochTime 222.23 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.2995
Average/AverageReturn                     -26.0258
Average/Iteration                         199
Average/MaxReturn                           8.64199
Average/MinReturn                         -60.8096
Average/NumEpisodes                       100
Average/StdReturn                          10.0597
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.603589
TotalEnvSteps                               2e+06
__unnamed_task__/AverageDiscountedReturn  -16.2995
__unnamed_task__/AverageReturn            -26.0258
__unnamed_task__/Iteration                199
__unnamed_task__/MaxReturn                  8.64199
__unnamed_task__/MinReturn                -60.8096
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.0597
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.75764
policy/KL                                   0.0116027
policy/KLBefore                             0
policy/LossAfter                           -0.0402596
policy/LossBefore                          -0.00614734
policy/dLoss                                0.0341123
----------------------------------------  ------------
2025-04-03 00:25:58 | [rl2_trainer] epoch #200 | Optimizing policy...
2025-04-03 00:25:58 | [rl2_trainer] epoch #200 | Fitting baseline...
2025-04-03 00:25:58 | [rl2_trainer] epoch #200 | Computing loss before
2025-04-03 00:25:59 | [rl2_trainer] epoch #200 | Computing KL before
2025-04-03 00:26:00 | [rl2_trainer] epoch #200 | Optimizing
2025-04-03 00:26:33 | [rl2_trainer] epoch #200 | Computing KL after
2025-04-03 00:26:34 | [rl2_trainer] epoch #200 | Computing loss after
2025-04-03 00:26:35 | [rl2_trainer] epoch #200 | Saving snapshot...
2025-04-03 00:26:35 | [rl2_trainer] epoch #200 | Saved
2025-04-03 00:26:35 | [rl2_trainer] epoch #200 | Time 38075.67 s
2025-04-03 00:26:35 | [rl2_trainer] epoch #200 | EpochTime 217.89 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.3789
Average/AverageReturn                     -25.9259
Average/Iteration                         200
Average/MaxReturn                          -9.00222
Average/MinReturn                         -50.7708
Average/NumEpisodes                       100
Average/StdReturn                           8.24267
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.687756
TotalEnvSteps                               2.01e+06
__unnamed_task__/AverageDiscountedReturn  -16.3789
__unnamed_task__/AverageReturn            -25.9259
__unnamed_task__/Iteration                200
__unnamed_task__/MaxReturn                 -9.00222
__unnamed_task__/MinReturn                -50.7708
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.24267
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.74978
policy/KL                                   0.0143652
policy/KLBefore                             0
policy/LossAfter                           -0.0353561
policy/LossBefore                          -0.00595884
policy/dLoss                                0.0293973
----------------------------------------  ------------
2025-04-03 00:28:44 | [rl2_trainer] epoch #201 | Optimizing policy...
2025-04-03 00:28:45 | [rl2_trainer] epoch #201 | Fitting baseline...
2025-04-03 00:28:45 | [rl2_trainer] epoch #201 | Computing loss before
2025-04-03 00:28:45 | [rl2_trainer] epoch #201 | Computing KL before
2025-04-03 00:28:46 | [rl2_trainer] epoch #201 | Optimizing
2025-04-03 00:29:21 | [rl2_trainer] epoch #201 | Computing KL after
2025-04-03 00:29:21 | [rl2_trainer] epoch #201 | Computing loss after
2025-04-03 00:29:22 | [rl2_trainer] epoch #201 | Saving snapshot...
2025-04-03 00:29:22 | [rl2_trainer] epoch #201 | Saved
2025-04-03 00:29:22 | [rl2_trainer] epoch #201 | Time 38243.32 s
2025-04-03 00:29:22 | [rl2_trainer] epoch #201 | EpochTime 167.64 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.4826
Average/AverageReturn                     -23.8692
Average/Iteration                         201
Average/MaxReturn                          -7.26762
Average/MinReturn                         -59.3163
Average/NumEpisodes                       100
Average/StdReturn                           6.47319
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.707308
TotalEnvSteps                               2.02e+06
__unnamed_task__/AverageDiscountedReturn  -15.4826
__unnamed_task__/AverageReturn            -23.8692
__unnamed_task__/Iteration                201
__unnamed_task__/MaxReturn                 -7.26762
__unnamed_task__/MinReturn                -59.3163
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.47319
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.74244
policy/KL                                   0.0112884
policy/KLBefore                             0
policy/LossAfter                           -0.0202712
policy/LossBefore                          -0.00146399
policy/dLoss                                0.0188072
----------------------------------------  ------------
2025-04-03 00:32:34 | [rl2_trainer] epoch #202 | Optimizing policy...
2025-04-03 00:32:35 | [rl2_trainer] epoch #202 | Fitting baseline...
2025-04-03 00:32:35 | [rl2_trainer] epoch #202 | Computing loss before
2025-04-03 00:32:35 | [rl2_trainer] epoch #202 | Computing KL before
2025-04-03 00:32:36 | [rl2_trainer] epoch #202 | Optimizing
2025-04-03 00:33:13 | [rl2_trainer] epoch #202 | Computing KL after
2025-04-03 00:33:13 | [rl2_trainer] epoch #202 | Computing loss after
2025-04-03 00:33:14 | [rl2_trainer] epoch #202 | Saving snapshot...
2025-04-03 00:33:14 | [rl2_trainer] epoch #202 | Saved
2025-04-03 00:33:14 | [rl2_trainer] epoch #202 | Time 38475.18 s
2025-04-03 00:33:14 | [rl2_trainer] epoch #202 | EpochTime 231.86 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.1037
Average/AverageReturn                     -25.2905
Average/Iteration                         202
Average/MaxReturn                           0.0974665
Average/MinReturn                         -87.2367
Average/NumEpisodes                       100
Average/StdReturn                          13.2926
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.696521
TotalEnvSteps                               2.03e+06
__unnamed_task__/AverageDiscountedReturn  -16.1037
__unnamed_task__/AverageReturn            -25.2905
__unnamed_task__/Iteration                202
__unnamed_task__/MaxReturn                  0.0974665
__unnamed_task__/MinReturn                -87.2367
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.2926
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.7326
policy/KL                                   0.0129266
policy/KLBefore                             0
policy/LossAfter                           -0.0606175
policy/LossBefore                           0.00190442
policy/dLoss                                0.0625219
----------------------------------------  ------------
2025-04-03 00:36:07 | [rl2_trainer] epoch #203 | Optimizing policy...
2025-04-03 00:36:08 | [rl2_trainer] epoch #203 | Fitting baseline...
2025-04-03 00:36:08 | [rl2_trainer] epoch #203 | Computing loss before
2025-04-03 00:36:08 | [rl2_trainer] epoch #203 | Computing KL before
2025-04-03 00:36:09 | [rl2_trainer] epoch #203 | Optimizing
2025-04-03 00:36:43 | [rl2_trainer] epoch #203 | Computing KL after
2025-04-03 00:36:44 | [rl2_trainer] epoch #203 | Computing loss after
2025-04-03 00:36:44 | [rl2_trainer] epoch #203 | Saving snapshot...
2025-04-03 00:36:44 | [rl2_trainer] epoch #203 | Saved
2025-04-03 00:36:44 | [rl2_trainer] epoch #203 | Time 38685.48 s
2025-04-03 00:36:44 | [rl2_trainer] epoch #203 | EpochTime 210.29 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.5309
Average/AverageReturn                     -22.2186
Average/Iteration                         203
Average/MaxReturn                          -7.97927
Average/MinReturn                         -39.4075
Average/NumEpisodes                       100
Average/StdReturn                           5.94691
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.826533
TotalEnvSteps                               2.04e+06
__unnamed_task__/AverageDiscountedReturn  -14.5309
__unnamed_task__/AverageReturn            -22.2186
__unnamed_task__/Iteration                203
__unnamed_task__/MaxReturn                 -7.97927
__unnamed_task__/MinReturn                -39.4075
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.94691
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.717
policy/KL                                   0.00785757
policy/KLBefore                             0
policy/LossAfter                           -0.0168355
policy/LossBefore                          -0.00807161
policy/dLoss                                0.00876386
----------------------------------------  ------------
2025-04-03 00:38:49 | [rl2_trainer] epoch #204 | Optimizing policy...
2025-04-03 00:38:50 | [rl2_trainer] epoch #204 | Fitting baseline...
2025-04-03 00:38:50 | [rl2_trainer] epoch #204 | Computing loss before
2025-04-03 00:38:50 | [rl2_trainer] epoch #204 | Computing KL before
2025-04-03 00:38:51 | [rl2_trainer] epoch #204 | Optimizing
2025-04-03 00:39:27 | [rl2_trainer] epoch #204 | Computing KL after
2025-04-03 00:39:27 | [rl2_trainer] epoch #204 | Computing loss after
2025-04-03 00:39:28 | [rl2_trainer] epoch #204 | Saving snapshot...
2025-04-03 00:39:28 | [rl2_trainer] epoch #204 | Saved
2025-04-03 00:39:28 | [rl2_trainer] epoch #204 | Time 38849.22 s
2025-04-03 00:39:28 | [rl2_trainer] epoch #204 | EpochTime 163.74 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -16.663
Average/AverageReturn                     -25.4412
Average/Iteration                         204
Average/MaxReturn                         -11.6518
Average/MinReturn                         -82.0086
Average/NumEpisodes                       100
Average/StdReturn                           8.74045
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.271354
TotalEnvSteps                               2.05e+06
__unnamed_task__/AverageDiscountedReturn  -16.663
__unnamed_task__/AverageReturn            -25.4412
__unnamed_task__/Iteration                204
__unnamed_task__/MaxReturn                -11.6518
__unnamed_task__/MinReturn                -82.0086
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.74045
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.71474
policy/KL                                   0.0137058
policy/KLBefore                             0
policy/LossAfter                           -0.0393476
policy/LossBefore                          -0.000101701
policy/dLoss                                0.0392459
----------------------------------------  -------------
2025-04-03 00:42:22 | [rl2_trainer] epoch #205 | Optimizing policy...
2025-04-03 00:42:22 | [rl2_trainer] epoch #205 | Fitting baseline...
2025-04-03 00:42:22 | [rl2_trainer] epoch #205 | Computing loss before
2025-04-03 00:42:23 | [rl2_trainer] epoch #205 | Computing KL before
2025-04-03 00:42:24 | [rl2_trainer] epoch #205 | Optimizing
2025-04-03 00:42:58 | [rl2_trainer] epoch #205 | Computing KL after
2025-04-03 00:42:58 | [rl2_trainer] epoch #205 | Computing loss after
2025-04-03 00:42:59 | [rl2_trainer] epoch #205 | Saving snapshot...
2025-04-03 00:42:59 | [rl2_trainer] epoch #205 | Saved
2025-04-03 00:42:59 | [rl2_trainer] epoch #205 | Time 39060.32 s
2025-04-03 00:42:59 | [rl2_trainer] epoch #205 | EpochTime 211.10 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -14.4154
Average/AverageReturn                     -22.282
Average/Iteration                         205
Average/MaxReturn                          -5.93251
Average/MinReturn                         -65.3227
Average/NumEpisodes                       100
Average/StdReturn                           6.70875
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.479763
TotalEnvSteps                               2.06e+06
__unnamed_task__/AverageDiscountedReturn  -14.4154
__unnamed_task__/AverageReturn            -22.282
__unnamed_task__/Iteration                205
__unnamed_task__/MaxReturn                 -5.93251
__unnamed_task__/MinReturn                -65.3227
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.70875
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.70853
policy/KL                                   0.0114296
policy/KLBefore                             0
policy/LossAfter                           -0.0235902
policy/LossBefore                          -0.0027553
policy/dLoss                                0.0208349
----------------------------------------  -----------
2025-04-03 00:45:53 | [rl2_trainer] epoch #206 | Optimizing policy...
2025-04-03 00:45:54 | [rl2_trainer] epoch #206 | Fitting baseline...
2025-04-03 00:45:54 | [rl2_trainer] epoch #206 | Computing loss before
2025-04-03 00:45:54 | [rl2_trainer] epoch #206 | Computing KL before
2025-04-03 00:45:55 | [rl2_trainer] epoch #206 | Optimizing
2025-04-03 00:46:29 | [rl2_trainer] epoch #206 | Computing KL after
2025-04-03 00:46:30 | [rl2_trainer] epoch #206 | Computing loss after
2025-04-03 00:46:31 | [rl2_trainer] epoch #206 | Saving snapshot...
2025-04-03 00:46:31 | [rl2_trainer] epoch #206 | Saved
2025-04-03 00:46:31 | [rl2_trainer] epoch #206 | Time 39271.69 s
2025-04-03 00:46:31 | [rl2_trainer] epoch #206 | EpochTime 211.37 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.2338
Average/AverageReturn                     -21.8622
Average/Iteration                         206
Average/MaxReturn                           6.58011
Average/MinReturn                         -43.0843
Average/NumEpisodes                       100
Average/StdReturn                           7.4387
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.753108
TotalEnvSteps                               2.07e+06
__unnamed_task__/AverageDiscountedReturn  -14.2338
__unnamed_task__/AverageReturn            -21.8622
__unnamed_task__/Iteration                206
__unnamed_task__/MaxReturn                  6.58011
__unnamed_task__/MinReturn                -43.0843
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.4387
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.67733
policy/KL                                   0.0108618
policy/KLBefore                             0
policy/LossAfter                           -0.00824706
policy/LossBefore                           0.00269555
policy/dLoss                                0.0109426
----------------------------------------  ------------
2025-04-03 00:49:13 | [rl2_trainer] epoch #207 | Optimizing policy...
2025-04-03 00:49:13 | [rl2_trainer] epoch #207 | Fitting baseline...
2025-04-03 00:49:13 | [rl2_trainer] epoch #207 | Computing loss before
2025-04-03 00:49:13 | [rl2_trainer] epoch #207 | Computing KL before
2025-04-03 00:49:14 | [rl2_trainer] epoch #207 | Optimizing
2025-04-03 00:49:50 | [rl2_trainer] epoch #207 | Computing KL after
2025-04-03 00:49:50 | [rl2_trainer] epoch #207 | Computing loss after
2025-04-03 00:49:51 | [rl2_trainer] epoch #207 | Saving snapshot...
2025-04-03 00:49:51 | [rl2_trainer] epoch #207 | Saved
2025-04-03 00:49:51 | [rl2_trainer] epoch #207 | Time 39472.24 s
2025-04-03 00:49:51 | [rl2_trainer] epoch #207 | EpochTime 200.55 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -16.7631
Average/AverageReturn                      -26.1536
Average/Iteration                          207
Average/MaxReturn                           -7.79386
Average/MinReturn                         -151.666
Average/NumEpisodes                        100
Average/StdReturn                           16.0706
Average/TerminationRate                      0
LinearFeatureBaseline/ExplainedVariance      0.644435
TotalEnvSteps                                2.08e+06
__unnamed_task__/AverageDiscountedReturn   -16.7631
__unnamed_task__/AverageReturn             -26.1536
__unnamed_task__/Iteration                 207
__unnamed_task__/MaxReturn                  -7.79386
__unnamed_task__/MinReturn                -151.666
__unnamed_task__/NumEpisodes               100
__unnamed_task__/StdReturn                  16.0706
__unnamed_task__/TerminationRate             0
policy/Entropy                               5.63889
policy/KL                                    0.0138905
policy/KLBefore                              0
policy/LossAfter                            -0.0637067
policy/LossBefore                           -0.0022199
policy/dLoss                                 0.0614868
----------------------------------------  ------------
2025-04-03 00:51:23 | [rl2_trainer] epoch #208 | Optimizing policy...
2025-04-03 00:51:24 | [rl2_trainer] epoch #208 | Fitting baseline...
2025-04-03 00:51:24 | [rl2_trainer] epoch #208 | Computing loss before
2025-04-03 00:51:24 | [rl2_trainer] epoch #208 | Computing KL before
2025-04-03 00:51:25 | [rl2_trainer] epoch #208 | Optimizing
2025-04-03 00:52:01 | [rl2_trainer] epoch #208 | Computing KL after
2025-04-03 00:52:01 | [rl2_trainer] epoch #208 | Computing loss after
2025-04-03 00:52:02 | [rl2_trainer] epoch #208 | Saving snapshot...
2025-04-03 00:52:02 | [rl2_trainer] epoch #208 | Saved
2025-04-03 00:52:02 | [rl2_trainer] epoch #208 | Time 39603.20 s
2025-04-03 00:52:02 | [rl2_trainer] epoch #208 | EpochTime 130.96 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.324
Average/AverageReturn                     -23.7462
Average/Iteration                         208
Average/MaxReturn                         -12.0348
Average/MinReturn                         -49.2572
Average/NumEpisodes                       100
Average/StdReturn                           4.96752
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.631703
TotalEnvSteps                               2.09e+06
__unnamed_task__/AverageDiscountedReturn  -15.324
__unnamed_task__/AverageReturn            -23.7462
__unnamed_task__/Iteration                208
__unnamed_task__/MaxReturn                -12.0348
__unnamed_task__/MinReturn                -49.2572
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.96752
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.61986
policy/KL                                   0.0125825
policy/KLBefore                             0
policy/LossAfter                           -0.0083684
policy/LossBefore                          -0.00353969
policy/dLoss                                0.0048287
----------------------------------------  ------------
2025-04-03 00:54:59 | [rl2_trainer] epoch #209 | Optimizing policy...
2025-04-03 00:55:00 | [rl2_trainer] epoch #209 | Fitting baseline...
2025-04-03 00:55:00 | [rl2_trainer] epoch #209 | Computing loss before
2025-04-03 00:55:00 | [rl2_trainer] epoch #209 | Computing KL before
2025-04-03 00:55:01 | [rl2_trainer] epoch #209 | Optimizing
2025-04-03 00:55:37 | [rl2_trainer] epoch #209 | Computing KL after
2025-04-03 00:55:37 | [rl2_trainer] epoch #209 | Computing loss after
2025-04-03 00:55:38 | [rl2_trainer] epoch #209 | Saving snapshot...
2025-04-03 00:55:38 | [rl2_trainer] epoch #209 | Saved
2025-04-03 00:55:38 | [rl2_trainer] epoch #209 | Time 39819.30 s
2025-04-03 00:55:38 | [rl2_trainer] epoch #209 | EpochTime 216.10 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -14.0955
Average/AverageReturn                     -21.4961
Average/Iteration                         209
Average/MaxReturn                          -2.19123
Average/MinReturn                         -41.5548
Average/NumEpisodes                       100
Average/StdReturn                           7.3068
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.765217
TotalEnvSteps                               2.1e+06
__unnamed_task__/AverageDiscountedReturn  -14.0955
__unnamed_task__/AverageReturn            -21.4961
__unnamed_task__/Iteration                209
__unnamed_task__/MaxReturn                 -2.19123
__unnamed_task__/MinReturn                -41.5548
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.3068
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.61044
policy/KL                                   0.00907715
policy/KLBefore                             0
policy/LossAfter                           -0.0181117
policy/LossBefore                          -0.000940375
policy/dLoss                                0.0171713
----------------------------------------  -------------
2025-04-03 00:57:48 | [rl2_trainer] epoch #210 | Optimizing policy...
2025-04-03 00:57:48 | [rl2_trainer] epoch #210 | Fitting baseline...
2025-04-03 00:57:48 | [rl2_trainer] epoch #210 | Computing loss before
2025-04-03 00:57:48 | [rl2_trainer] epoch #210 | Computing KL before
2025-04-03 00:57:49 | [rl2_trainer] epoch #210 | Optimizing
2025-04-03 00:58:25 | [rl2_trainer] epoch #210 | Computing KL after
2025-04-03 00:58:25 | [rl2_trainer] epoch #210 | Computing loss after
2025-04-03 00:58:26 | [rl2_trainer] epoch #210 | Saving snapshot...
2025-04-03 00:58:26 | [rl2_trainer] epoch #210 | Saved
2025-04-03 00:58:26 | [rl2_trainer] epoch #210 | Time 39987.42 s
2025-04-03 00:58:26 | [rl2_trainer] epoch #210 | EpochTime 168.11 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.4585
Average/AverageReturn                     -22.659
Average/Iteration                         210
Average/MaxReturn                           0.90809
Average/MinReturn                         -68.2491
Average/NumEpisodes                       100
Average/StdReturn                           7.48349
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.514202
TotalEnvSteps                               2.11e+06
__unnamed_task__/AverageDiscountedReturn  -14.4585
__unnamed_task__/AverageReturn            -22.659
__unnamed_task__/Iteration                210
__unnamed_task__/MaxReturn                  0.90809
__unnamed_task__/MinReturn                -68.2491
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.48349
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.604
policy/KL                                   0.0116609
policy/KLBefore                             0
policy/LossAfter                           -0.0261175
policy/LossBefore                           0.00302317
policy/dLoss                                0.0291407
----------------------------------------  ------------
2025-04-03 01:00:53 | [rl2_trainer] epoch #211 | Optimizing policy...
2025-04-03 01:00:53 | [rl2_trainer] epoch #211 | Fitting baseline...
2025-04-03 01:00:53 | [rl2_trainer] epoch #211 | Computing loss before
2025-04-03 01:00:54 | [rl2_trainer] epoch #211 | Computing KL before
2025-04-03 01:00:54 | [rl2_trainer] epoch #211 | Optimizing
2025-04-03 01:01:30 | [rl2_trainer] epoch #211 | Computing KL after
2025-04-03 01:01:31 | [rl2_trainer] epoch #211 | Computing loss after
2025-04-03 01:01:32 | [rl2_trainer] epoch #211 | Saving snapshot...
2025-04-03 01:01:32 | [rl2_trainer] epoch #211 | Saved
2025-04-03 01:01:32 | [rl2_trainer] epoch #211 | Time 40172.65 s
2025-04-03 01:01:32 | [rl2_trainer] epoch #211 | EpochTime 185.23 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.9508
Average/AverageReturn                     -21.381
Average/Iteration                         211
Average/MaxReturn                           6.5656
Average/MinReturn                         -66.3938
Average/NumEpisodes                       100
Average/StdReturn                           7.00418
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.723879
TotalEnvSteps                               2.12e+06
__unnamed_task__/AverageDiscountedReturn  -13.9508
__unnamed_task__/AverageReturn            -21.381
__unnamed_task__/Iteration                211
__unnamed_task__/MaxReturn                  6.5656
__unnamed_task__/MinReturn                -66.3938
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.00418
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.59714
policy/KL                                   0.0110743
policy/KLBefore                             0
policy/LossAfter                           -0.0259945
policy/LossBefore                          -0.00597781
policy/dLoss                                0.0200167
----------------------------------------  ------------
2025-04-03 01:05:09 | [rl2_trainer] epoch #212 | Optimizing policy...
2025-04-03 01:05:10 | [rl2_trainer] epoch #212 | Fitting baseline...
2025-04-03 01:05:10 | [rl2_trainer] epoch #212 | Computing loss before
2025-04-03 01:05:10 | [rl2_trainer] epoch #212 | Computing KL before
2025-04-03 01:05:11 | [rl2_trainer] epoch #212 | Optimizing
2025-04-03 01:05:46 | [rl2_trainer] epoch #212 | Computing KL after
2025-04-03 01:05:47 | [rl2_trainer] epoch #212 | Computing loss after
2025-04-03 01:05:48 | [rl2_trainer] epoch #212 | Saving snapshot...
2025-04-03 01:05:48 | [rl2_trainer] epoch #212 | Saved
2025-04-03 01:05:48 | [rl2_trainer] epoch #212 | Time 40428.68 s
2025-04-03 01:05:48 | [rl2_trainer] epoch #212 | EpochTime 256.03 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.3304
Average/AverageReturn                     -23.6657
Average/Iteration                         212
Average/MaxReturn                          -8.29901
Average/MinReturn                         -46.8015
Average/NumEpisodes                       100
Average/StdReturn                           6.5347
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.648659
TotalEnvSteps                               2.13e+06
__unnamed_task__/AverageDiscountedReturn  -15.3304
__unnamed_task__/AverageReturn            -23.6657
__unnamed_task__/Iteration                212
__unnamed_task__/MaxReturn                 -8.29901
__unnamed_task__/MinReturn                -46.8015
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.5347
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.58437
policy/KL                                   0.0105631
policy/KLBefore                             0
policy/LossAfter                           -0.00514887
policy/LossBefore                           0.00727698
policy/dLoss                                0.0124258
----------------------------------------  ------------
2025-04-03 01:08:45 | [rl2_trainer] epoch #213 | Optimizing policy...
2025-04-03 01:08:45 | [rl2_trainer] epoch #213 | Fitting baseline...
2025-04-03 01:08:45 | [rl2_trainer] epoch #213 | Computing loss before
2025-04-03 01:08:46 | [rl2_trainer] epoch #213 | Computing KL before
2025-04-03 01:08:46 | [rl2_trainer] epoch #213 | Optimizing
2025-04-03 01:09:22 | [rl2_trainer] epoch #213 | Computing KL after
2025-04-03 01:09:23 | [rl2_trainer] epoch #213 | Computing loss after
2025-04-03 01:09:24 | [rl2_trainer] epoch #213 | Saving snapshot...
2025-04-03 01:09:24 | [rl2_trainer] epoch #213 | Saved
2025-04-03 01:09:24 | [rl2_trainer] epoch #213 | Time 40644.79 s
2025-04-03 01:09:24 | [rl2_trainer] epoch #213 | EpochTime 216.10 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.6656
Average/AverageReturn                     -22.3438
Average/Iteration                         213
Average/MaxReturn                          -6.21962
Average/MinReturn                         -37.9297
Average/NumEpisodes                       100
Average/StdReturn                           5.73529
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.777984
TotalEnvSteps                               2.14e+06
__unnamed_task__/AverageDiscountedReturn  -14.6656
__unnamed_task__/AverageReturn            -22.3438
__unnamed_task__/Iteration                213
__unnamed_task__/MaxReturn                 -6.21962
__unnamed_task__/MinReturn                -37.9297
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.73529
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.5594
policy/KL                                   0.00852356
policy/KLBefore                             0
policy/LossAfter                           -0.0032606
policy/LossBefore                           0.00236027
policy/dLoss                                0.00562087
----------------------------------------  ------------
2025-04-03 01:11:39 | [rl2_trainer] epoch #214 | Optimizing policy...
2025-04-03 01:11:39 | [rl2_trainer] epoch #214 | Fitting baseline...
2025-04-03 01:11:39 | [rl2_trainer] epoch #214 | Computing loss before
2025-04-03 01:11:39 | [rl2_trainer] epoch #214 | Computing KL before
2025-04-03 01:11:40 | [rl2_trainer] epoch #214 | Optimizing
2025-04-03 01:12:16 | [rl2_trainer] epoch #214 | Computing KL after
2025-04-03 01:12:16 | [rl2_trainer] epoch #214 | Computing loss after
2025-04-03 01:12:17 | [rl2_trainer] epoch #214 | Saving snapshot...
2025-04-03 01:12:17 | [rl2_trainer] epoch #214 | Saved
2025-04-03 01:12:17 | [rl2_trainer] epoch #214 | Time 40818.23 s
2025-04-03 01:12:17 | [rl2_trainer] epoch #214 | EpochTime 173.43 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.6652
Average/AverageReturn                     -19.2609
Average/Iteration                         214
Average/MaxReturn                          -2.96728
Average/MinReturn                         -33.1992
Average/NumEpisodes                       100
Average/StdReturn                           4.92603
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.518862
TotalEnvSteps                               2.15e+06
__unnamed_task__/AverageDiscountedReturn  -12.6652
__unnamed_task__/AverageReturn            -19.2609
__unnamed_task__/Iteration                214
__unnamed_task__/MaxReturn                 -2.96728
__unnamed_task__/MinReturn                -33.1992
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.92603
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.53621
policy/KL                                   0.0102528
policy/KLBefore                             0
policy/LossAfter                           -0.00767897
policy/LossBefore                           0.00422813
policy/dLoss                                0.0119071
----------------------------------------  ------------
2025-04-03 01:15:02 | [rl2_trainer] epoch #215 | Optimizing policy...
2025-04-03 01:15:02 | [rl2_trainer] epoch #215 | Fitting baseline...
2025-04-03 01:15:02 | [rl2_trainer] epoch #215 | Computing loss before
2025-04-03 01:15:03 | [rl2_trainer] epoch #215 | Computing KL before
2025-04-03 01:15:04 | [rl2_trainer] epoch #215 | Optimizing
2025-04-03 01:15:38 | [rl2_trainer] epoch #215 | Computing KL after
2025-04-03 01:15:38 | [rl2_trainer] epoch #215 | Computing loss after
2025-04-03 01:15:39 | [rl2_trainer] epoch #215 | Saving snapshot...
2025-04-03 01:15:39 | [rl2_trainer] epoch #215 | Saved
2025-04-03 01:15:39 | [rl2_trainer] epoch #215 | Time 41020.15 s
2025-04-03 01:15:39 | [rl2_trainer] epoch #215 | EpochTime 201.92 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.1461
Average/AverageReturn                     -23.53
Average/Iteration                         215
Average/MaxReturn                          -0.406309
Average/MinReturn                         -69.9635
Average/NumEpisodes                       100
Average/StdReturn                           8.47387
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.587805
TotalEnvSteps                               2.16e+06
__unnamed_task__/AverageDiscountedReturn  -15.1461
__unnamed_task__/AverageReturn            -23.53
__unnamed_task__/Iteration                215
__unnamed_task__/MaxReturn                 -0.406309
__unnamed_task__/MinReturn                -69.9635
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.47387
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.51874
policy/KL                                   0.0127146
policy/KLBefore                             0
policy/LossAfter                           -0.0200536
policy/LossBefore                           0.00284265
policy/dLoss                                0.0228963
----------------------------------------  ------------
2025-04-03 01:18:25 | [rl2_trainer] epoch #216 | Optimizing policy...
2025-04-03 01:18:25 | [rl2_trainer] epoch #216 | Fitting baseline...
2025-04-03 01:18:25 | [rl2_trainer] epoch #216 | Computing loss before
2025-04-03 01:18:26 | [rl2_trainer] epoch #216 | Computing KL before
2025-04-03 01:18:26 | [rl2_trainer] epoch #216 | Optimizing
2025-04-03 01:19:02 | [rl2_trainer] epoch #216 | Computing KL after
2025-04-03 01:19:02 | [rl2_trainer] epoch #216 | Computing loss after
2025-04-03 01:19:03 | [rl2_trainer] epoch #216 | Saving snapshot...
2025-04-03 01:19:03 | [rl2_trainer] epoch #216 | Saved
2025-04-03 01:19:03 | [rl2_trainer] epoch #216 | Time 41224.24 s
2025-04-03 01:19:03 | [rl2_trainer] epoch #216 | EpochTime 204.09 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -14.8063
Average/AverageReturn                     -22.8998
Average/Iteration                         216
Average/MaxReturn                          -3.59318
Average/MinReturn                         -58.3351
Average/NumEpisodes                       100
Average/StdReturn                           6.75314
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.631798
TotalEnvSteps                               2.17e+06
__unnamed_task__/AverageDiscountedReturn  -14.8063
__unnamed_task__/AverageReturn            -22.8998
__unnamed_task__/Iteration                216
__unnamed_task__/MaxReturn                 -3.59318
__unnamed_task__/MinReturn                -58.3351
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.75314
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.50324
policy/KL                                   0.0111064
policy/KLBefore                             0
policy/LossAfter                           -0.0215279
policy/LossBefore                          -0.0059135
policy/dLoss                                0.0156144
----------------------------------------  -----------
2025-04-03 01:22:02 | [rl2_trainer] epoch #217 | Optimizing policy...
2025-04-03 01:22:02 | [rl2_trainer] epoch #217 | Fitting baseline...
2025-04-03 01:22:02 | [rl2_trainer] epoch #217 | Computing loss before
2025-04-03 01:22:03 | [rl2_trainer] epoch #217 | Computing KL before
2025-04-03 01:22:03 | [rl2_trainer] epoch #217 | Optimizing
2025-04-03 01:22:40 | [rl2_trainer] epoch #217 | Computing KL after
2025-04-03 01:22:40 | [rl2_trainer] epoch #217 | Computing loss after
2025-04-03 01:22:41 | [rl2_trainer] epoch #217 | Saving snapshot...
2025-04-03 01:22:41 | [rl2_trainer] epoch #217 | Saved
2025-04-03 01:22:41 | [rl2_trainer] epoch #217 | Time 41442.18 s
2025-04-03 01:22:41 | [rl2_trainer] epoch #217 | EpochTime 217.93 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.3722
Average/AverageReturn                     -21.887
Average/Iteration                         217
Average/MaxReturn                          -5.32514
Average/MinReturn                         -35.5951
Average/NumEpisodes                       100
Average/StdReturn                           5.601
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.747858
TotalEnvSteps                               2.18e+06
__unnamed_task__/AverageDiscountedReturn  -14.3722
__unnamed_task__/AverageReturn            -21.887
__unnamed_task__/Iteration                217
__unnamed_task__/MaxReturn                 -5.32514
__unnamed_task__/MinReturn                -35.5951
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.601
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.4828
policy/KL                                   0.00907158
policy/KLBefore                             0
policy/LossAfter                           -0.00990055
policy/LossBefore                          -0.00185183
policy/dLoss                                0.00804872
----------------------------------------  ------------
2025-04-03 01:25:13 | [rl2_trainer] epoch #218 | Optimizing policy...
2025-04-03 01:25:13 | [rl2_trainer] epoch #218 | Fitting baseline...
2025-04-03 01:25:13 | [rl2_trainer] epoch #218 | Computing loss before
2025-04-03 01:25:14 | [rl2_trainer] epoch #218 | Computing KL before
2025-04-03 01:25:15 | [rl2_trainer] epoch #218 | Optimizing
2025-04-03 01:25:50 | [rl2_trainer] epoch #218 | Computing KL after
2025-04-03 01:25:51 | [rl2_trainer] epoch #218 | Computing loss after
2025-04-03 01:25:51 | [rl2_trainer] epoch #218 | Saving snapshot...
2025-04-03 01:25:51 | [rl2_trainer] epoch #218 | Saved
2025-04-03 01:25:51 | [rl2_trainer] epoch #218 | Time 41632.42 s
2025-04-03 01:25:51 | [rl2_trainer] epoch #218 | EpochTime 190.24 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.203
Average/AverageReturn                     -23.6054
Average/Iteration                         218
Average/MaxReturn                         -14.0415
Average/MinReturn                         -65.5437
Average/NumEpisodes                       100
Average/StdReturn                           8.65053
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.673642
TotalEnvSteps                               2.19e+06
__unnamed_task__/AverageDiscountedReturn  -15.203
__unnamed_task__/AverageReturn            -23.6054
__unnamed_task__/Iteration                218
__unnamed_task__/MaxReturn                -14.0415
__unnamed_task__/MinReturn                -65.5437
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.65053
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.46559
policy/KL                                   0.0127724
policy/KLBefore                             0
policy/LossAfter                           -0.0245028
policy/LossBefore                          -0.00930034
policy/dLoss                                0.0152024
----------------------------------------  ------------
2025-04-03 01:27:50 | [rl2_trainer] epoch #219 | Optimizing policy...
2025-04-03 01:27:51 | [rl2_trainer] epoch #219 | Fitting baseline...
2025-04-03 01:27:51 | [rl2_trainer] epoch #219 | Computing loss before
2025-04-03 01:27:51 | [rl2_trainer] epoch #219 | Computing KL before
2025-04-03 01:27:52 | [rl2_trainer] epoch #219 | Optimizing
2025-04-03 01:28:28 | [rl2_trainer] epoch #219 | Computing KL after
2025-04-03 01:28:29 | [rl2_trainer] epoch #219 | Computing loss after
2025-04-03 01:28:30 | [rl2_trainer] epoch #219 | Saving snapshot...
2025-04-03 01:28:30 | [rl2_trainer] epoch #219 | Saved
2025-04-03 01:28:30 | [rl2_trainer] epoch #219 | Time 41790.63 s
2025-04-03 01:28:30 | [rl2_trainer] epoch #219 | EpochTime 158.21 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.158
Average/AverageReturn                     -23.5175
Average/Iteration                         219
Average/MaxReturn                           5.07174
Average/MinReturn                         -36.755
Average/NumEpisodes                       100
Average/StdReturn                           6.07067
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.492462
TotalEnvSteps                               2.2e+06
__unnamed_task__/AverageDiscountedReturn  -15.158
__unnamed_task__/AverageReturn            -23.5175
__unnamed_task__/Iteration                219
__unnamed_task__/MaxReturn                  5.07174
__unnamed_task__/MinReturn                -36.755
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.07067
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.44554
policy/KL                                   0.0112913
policy/KLBefore                             0
policy/LossAfter                           -0.0134808
policy/LossBefore                           0.00176136
policy/dLoss                                0.0152421
----------------------------------------  ------------
2025-04-03 01:31:28 | [rl2_trainer] epoch #220 | Optimizing policy...
2025-04-03 01:31:28 | [rl2_trainer] epoch #220 | Fitting baseline...
2025-04-03 01:31:28 | [rl2_trainer] epoch #220 | Computing loss before
2025-04-03 01:31:29 | [rl2_trainer] epoch #220 | Computing KL before
2025-04-03 01:31:29 | [rl2_trainer] epoch #220 | Optimizing
2025-04-03 01:32:05 | [rl2_trainer] epoch #220 | Computing KL after
2025-04-03 01:32:06 | [rl2_trainer] epoch #220 | Computing loss after
2025-04-03 01:32:07 | [rl2_trainer] epoch #220 | Saving snapshot...
2025-04-03 01:32:07 | [rl2_trainer] epoch #220 | Saved
2025-04-03 01:32:07 | [rl2_trainer] epoch #220 | Time 42007.61 s
2025-04-03 01:32:07 | [rl2_trainer] epoch #220 | EpochTime 216.98 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -14.9323
Average/AverageReturn                     -23.0838
Average/Iteration                         220
Average/MaxReturn                         -12.536
Average/MinReturn                         -78.7241
Average/NumEpisodes                       100
Average/StdReturn                           8.60131
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.659747
TotalEnvSteps                               2.21e+06
__unnamed_task__/AverageDiscountedReturn  -14.9323
__unnamed_task__/AverageReturn            -23.0838
__unnamed_task__/Iteration                220
__unnamed_task__/MaxReturn                -12.536
__unnamed_task__/MinReturn                -78.7241
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.60131
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.43224
policy/KL                                   0.0121982
policy/KLBefore                             0
policy/LossAfter                           -0.0221403
policy/LossBefore                          -0.0048801
policy/dLoss                                0.0172602
----------------------------------------  -----------
2025-04-03 01:35:20 | [rl2_trainer] epoch #221 | Optimizing policy...
2025-04-03 01:35:20 | [rl2_trainer] epoch #221 | Fitting baseline...
2025-04-03 01:35:20 | [rl2_trainer] epoch #221 | Computing loss before
2025-04-03 01:35:21 | [rl2_trainer] epoch #221 | Computing KL before
2025-04-03 01:35:21 | [rl2_trainer] epoch #221 | Optimizing
2025-04-03 01:35:57 | [rl2_trainer] epoch #221 | Computing KL after
2025-04-03 01:35:57 | [rl2_trainer] epoch #221 | Computing loss after
2025-04-03 01:35:58 | [rl2_trainer] epoch #221 | Saving snapshot...
2025-04-03 01:35:58 | [rl2_trainer] epoch #221 | Saved
2025-04-03 01:35:58 | [rl2_trainer] epoch #221 | Time 42239.01 s
2025-04-03 01:35:58 | [rl2_trainer] epoch #221 | EpochTime 231.40 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.9657
Average/AverageReturn                     -20.3392
Average/Iteration                         221
Average/MaxReturn                          -2.01371
Average/MinReturn                         -38.1189
Average/NumEpisodes                       100
Average/StdReturn                           6.41201
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.582603
TotalEnvSteps                               2.22e+06
__unnamed_task__/AverageDiscountedReturn  -12.9657
__unnamed_task__/AverageReturn            -20.3392
__unnamed_task__/Iteration                221
__unnamed_task__/MaxReturn                 -2.01371
__unnamed_task__/MinReturn                -38.1189
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.41201
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.40881
policy/KL                                   0.0127367
policy/KLBefore                             0
policy/LossAfter                           -0.0164055
policy/LossBefore                           0.00137134
policy/dLoss                                0.0177769
----------------------------------------  ------------
2025-04-03 01:38:23 | [rl2_trainer] epoch #222 | Optimizing policy...
2025-04-03 01:38:23 | [rl2_trainer] epoch #222 | Fitting baseline...
2025-04-03 01:38:23 | [rl2_trainer] epoch #222 | Computing loss before
2025-04-03 01:38:24 | [rl2_trainer] epoch #222 | Computing KL before
2025-04-03 01:38:24 | [rl2_trainer] epoch #222 | Optimizing
2025-04-03 01:39:00 | [rl2_trainer] epoch #222 | Computing KL after
2025-04-03 01:39:01 | [rl2_trainer] epoch #222 | Computing loss after
2025-04-03 01:39:01 | [rl2_trainer] epoch #222 | Saving snapshot...
2025-04-03 01:39:01 | [rl2_trainer] epoch #222 | Saved
2025-04-03 01:39:01 | [rl2_trainer] epoch #222 | Time 42422.50 s
2025-04-03 01:39:01 | [rl2_trainer] epoch #222 | EpochTime 183.49 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.6292
Average/AverageReturn                     -23.0032
Average/Iteration                         222
Average/MaxReturn                           7.06527
Average/MinReturn                         -69.7194
Average/NumEpisodes                       100
Average/StdReturn                           9.83674
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.546489
TotalEnvSteps                               2.23e+06
__unnamed_task__/AverageDiscountedReturn  -14.6292
__unnamed_task__/AverageReturn            -23.0032
__unnamed_task__/Iteration                222
__unnamed_task__/MaxReturn                  7.06527
__unnamed_task__/MinReturn                -69.7194
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.83674
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.38675
policy/KL                                   0.0105302
policy/KLBefore                             0
policy/LossAfter                           -0.0398239
policy/LossBefore                          -0.00395833
policy/dLoss                                0.0358655
----------------------------------------  ------------
2025-04-03 01:41:39 | [rl2_trainer] epoch #223 | Optimizing policy...
2025-04-03 01:41:40 | [rl2_trainer] epoch #223 | Fitting baseline...
2025-04-03 01:41:40 | [rl2_trainer] epoch #223 | Computing loss before
2025-04-03 01:41:40 | [rl2_trainer] epoch #223 | Computing KL before
2025-04-03 01:41:41 | [rl2_trainer] epoch #223 | Optimizing
2025-04-03 01:42:17 | [rl2_trainer] epoch #223 | Computing KL after
2025-04-03 01:42:18 | [rl2_trainer] epoch #223 | Computing loss after
2025-04-03 01:42:19 | [rl2_trainer] epoch #223 | Saving snapshot...
2025-04-03 01:42:19 | [rl2_trainer] epoch #223 | Saved
2025-04-03 01:42:19 | [rl2_trainer] epoch #223 | Time 42619.59 s
2025-04-03 01:42:19 | [rl2_trainer] epoch #223 | EpochTime 197.09 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.498
Average/AverageReturn                     -22.7253
Average/Iteration                         223
Average/MaxReturn                           8.43489
Average/MinReturn                         -67.4827
Average/NumEpisodes                       100
Average/StdReturn                          10.0525
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.443927
TotalEnvSteps                               2.24e+06
__unnamed_task__/AverageDiscountedReturn  -14.498
__unnamed_task__/AverageReturn            -22.7253
__unnamed_task__/Iteration                223
__unnamed_task__/MaxReturn                  8.43489
__unnamed_task__/MinReturn                -67.4827
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.0525
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.36274
policy/KL                                   0.0127332
policy/KLBefore                             0
policy/LossAfter                           -0.0452912
policy/LossBefore                          -0.00618987
policy/dLoss                                0.0391013
----------------------------------------  ------------
2025-04-03 01:44:17 | [rl2_trainer] epoch #224 | Optimizing policy...
2025-04-03 01:44:18 | [rl2_trainer] epoch #224 | Fitting baseline...
2025-04-03 01:44:18 | [rl2_trainer] epoch #224 | Computing loss before
2025-04-03 01:44:18 | [rl2_trainer] epoch #224 | Computing KL before
2025-04-03 01:44:19 | [rl2_trainer] epoch #224 | Optimizing
2025-04-03 01:44:55 | [rl2_trainer] epoch #224 | Computing KL after
2025-04-03 01:44:56 | [rl2_trainer] epoch #224 | Computing loss after
2025-04-03 01:44:57 | [rl2_trainer] epoch #224 | Saving snapshot...
2025-04-03 01:44:57 | [rl2_trainer] epoch #224 | Saved
2025-04-03 01:44:57 | [rl2_trainer] epoch #224 | Time 42777.88 s
2025-04-03 01:44:57 | [rl2_trainer] epoch #224 | EpochTime 158.29 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.4996
Average/AverageReturn                     -24.2186
Average/Iteration                         224
Average/MaxReturn                         -14.968
Average/MinReturn                         -41.2927
Average/NumEpisodes                       100
Average/StdReturn                           5.03483
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.54436
TotalEnvSteps                               2.25e+06
__unnamed_task__/AverageDiscountedReturn  -15.4996
__unnamed_task__/AverageReturn            -24.2186
__unnamed_task__/Iteration                224
__unnamed_task__/MaxReturn                -14.968
__unnamed_task__/MinReturn                -41.2927
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.03483
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.33829
policy/KL                                   0.00904455
policy/KLBefore                             0
policy/LossAfter                           -0.0112474
policy/LossBefore                          -0.00354639
policy/dLoss                                0.00770099
----------------------------------------  ------------
2025-04-03 01:46:56 | [rl2_trainer] epoch #225 | Optimizing policy...
2025-04-03 01:46:57 | [rl2_trainer] epoch #225 | Fitting baseline...
2025-04-03 01:46:57 | [rl2_trainer] epoch #225 | Computing loss before
2025-04-03 01:46:57 | [rl2_trainer] epoch #225 | Computing KL before
2025-04-03 01:46:58 | [rl2_trainer] epoch #225 | Optimizing
2025-04-03 01:47:33 | [rl2_trainer] epoch #225 | Computing KL after
2025-04-03 01:47:33 | [rl2_trainer] epoch #225 | Computing loss after
2025-04-03 01:47:34 | [rl2_trainer] epoch #225 | Saving snapshot...
2025-04-03 01:47:34 | [rl2_trainer] epoch #225 | Saved
2025-04-03 01:47:34 | [rl2_trainer] epoch #225 | Time 42935.40 s
2025-04-03 01:47:34 | [rl2_trainer] epoch #225 | EpochTime 157.52 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.1947
Average/AverageReturn                     -23.5505
Average/Iteration                         225
Average/MaxReturn                          -1.51625
Average/MinReturn                         -40.2788
Average/NumEpisodes                       100
Average/StdReturn                           5.53136
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.651344
TotalEnvSteps                               2.26e+06
__unnamed_task__/AverageDiscountedReturn  -15.1947
__unnamed_task__/AverageReturn            -23.5505
__unnamed_task__/Iteration                225
__unnamed_task__/MaxReturn                 -1.51625
__unnamed_task__/MinReturn                -40.2788
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.53136
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.31155
policy/KL                                   0.0103482
policy/KLBefore                             0
policy/LossAfter                           -0.0106718
policy/LossBefore                          -0.00168595
policy/dLoss                                0.00898584
----------------------------------------  ------------
2025-04-03 01:49:44 | [rl2_trainer] epoch #226 | Optimizing policy...
2025-04-03 01:49:45 | [rl2_trainer] epoch #226 | Fitting baseline...
2025-04-03 01:49:45 | [rl2_trainer] epoch #226 | Computing loss before
2025-04-03 01:49:45 | [rl2_trainer] epoch #226 | Computing KL before
2025-04-03 01:49:46 | [rl2_trainer] epoch #226 | Optimizing
2025-04-03 01:50:24 | [rl2_trainer] epoch #226 | Computing KL after
2025-04-03 01:50:25 | [rl2_trainer] epoch #226 | Computing loss after
2025-04-03 01:50:26 | [rl2_trainer] epoch #226 | Saving snapshot...
2025-04-03 01:50:26 | [rl2_trainer] epoch #226 | Saved
2025-04-03 01:50:26 | [rl2_trainer] epoch #226 | Time 43106.88 s
2025-04-03 01:50:26 | [rl2_trainer] epoch #226 | EpochTime 171.48 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.2763
Average/AverageReturn                     -23.3233
Average/Iteration                         226
Average/MaxReturn                         -11.8229
Average/MinReturn                         -72.1208
Average/NumEpisodes                       100
Average/StdReturn                           6.72813
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.53024
TotalEnvSteps                               2.27e+06
__unnamed_task__/AverageDiscountedReturn  -15.2763
__unnamed_task__/AverageReturn            -23.3233
__unnamed_task__/Iteration                226
__unnamed_task__/MaxReturn                -11.8229
__unnamed_task__/MinReturn                -72.1208
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.72813
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.29797
policy/KL                                   0.0107504
policy/KLBefore                             0
policy/LossAfter                           -0.029451
policy/LossBefore                          -0.00453282
policy/dLoss                                0.0249182
----------------------------------------  ------------
2025-04-03 01:52:26 | [rl2_trainer] epoch #227 | Optimizing policy...
2025-04-03 01:52:27 | [rl2_trainer] epoch #227 | Fitting baseline...
2025-04-03 01:52:27 | [rl2_trainer] epoch #227 | Computing loss before
2025-04-03 01:52:27 | [rl2_trainer] epoch #227 | Computing KL before
2025-04-03 01:52:28 | [rl2_trainer] epoch #227 | Optimizing
2025-04-03 01:53:03 | [rl2_trainer] epoch #227 | Computing KL after
2025-04-03 01:53:04 | [rl2_trainer] epoch #227 | Computing loss after
2025-04-03 01:53:05 | [rl2_trainer] epoch #227 | Saving snapshot...
2025-04-03 01:53:05 | [rl2_trainer] epoch #227 | Saved
2025-04-03 01:53:05 | [rl2_trainer] epoch #227 | Time 43265.88 s
2025-04-03 01:53:05 | [rl2_trainer] epoch #227 | EpochTime 159.00 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.6952
Average/AverageReturn                     -22.6594
Average/Iteration                         227
Average/MaxReturn                           8.44478
Average/MinReturn                         -33.4874
Average/NumEpisodes                       100
Average/StdReturn                           5.2341
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.625083
TotalEnvSteps                               2.28e+06
__unnamed_task__/AverageDiscountedReturn  -14.6952
__unnamed_task__/AverageReturn            -22.6594
__unnamed_task__/Iteration                227
__unnamed_task__/MaxReturn                  8.44478
__unnamed_task__/MinReturn                -33.4874
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.2341
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.28673
policy/KL                                   0.0101943
policy/KLBefore                             0
policy/LossAfter                           -0.00935241
policy/LossBefore                           0.00144728
policy/dLoss                                0.0107997
----------------------------------------  ------------
2025-04-03 01:55:24 | [rl2_trainer] epoch #228 | Optimizing policy...
2025-04-03 01:55:25 | [rl2_trainer] epoch #228 | Fitting baseline...
2025-04-03 01:55:25 | [rl2_trainer] epoch #228 | Computing loss before
2025-04-03 01:55:25 | [rl2_trainer] epoch #228 | Computing KL before
2025-04-03 01:55:26 | [rl2_trainer] epoch #228 | Optimizing
2025-04-03 01:55:59 | [rl2_trainer] epoch #228 | Computing KL after
2025-04-03 01:56:00 | [rl2_trainer] epoch #228 | Computing loss after
2025-04-03 01:56:01 | [rl2_trainer] epoch #228 | Saving snapshot...
2025-04-03 01:56:01 | [rl2_trainer] epoch #228 | Saved
2025-04-03 01:56:01 | [rl2_trainer] epoch #228 | Time 43441.90 s
2025-04-03 01:56:01 | [rl2_trainer] epoch #228 | EpochTime 176.01 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.0742
Average/AverageReturn                     -20.3943
Average/Iteration                         228
Average/MaxReturn                          -1.96937
Average/MinReturn                         -33.4322
Average/NumEpisodes                       100
Average/StdReturn                           5.18171
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.353953
TotalEnvSteps                               2.29e+06
__unnamed_task__/AverageDiscountedReturn  -13.0742
__unnamed_task__/AverageReturn            -20.3943
__unnamed_task__/Iteration                228
__unnamed_task__/MaxReturn                 -1.96937
__unnamed_task__/MinReturn                -33.4322
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.18171
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.26506
policy/KL                                   0.00857668
policy/KLBefore                             0
policy/LossAfter                           -0.0104442
policy/LossBefore                           0.00368513
policy/dLoss                                0.0141294
----------------------------------------  ------------
2025-04-03 01:58:23 | [rl2_trainer] epoch #229 | Optimizing policy...
2025-04-03 01:58:24 | [rl2_trainer] epoch #229 | Fitting baseline...
2025-04-03 01:58:24 | [rl2_trainer] epoch #229 | Computing loss before
2025-04-03 01:58:24 | [rl2_trainer] epoch #229 | Computing KL before
2025-04-03 01:58:25 | [rl2_trainer] epoch #229 | Optimizing
2025-04-03 01:59:01 | [rl2_trainer] epoch #229 | Computing KL after
2025-04-03 01:59:02 | [rl2_trainer] epoch #229 | Computing loss after
2025-04-03 01:59:03 | [rl2_trainer] epoch #229 | Saving snapshot...
2025-04-03 01:59:03 | [rl2_trainer] epoch #229 | Saved
2025-04-03 01:59:03 | [rl2_trainer] epoch #229 | Time 43623.71 s
2025-04-03 01:59:03 | [rl2_trainer] epoch #229 | EpochTime 181.81 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.5494
Average/AverageReturn                     -22.7576
Average/Iteration                         229
Average/MaxReturn                          -0.158499
Average/MinReturn                         -58.1974
Average/NumEpisodes                       100
Average/StdReturn                           7.31905
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.517715
TotalEnvSteps                               2.3e+06
__unnamed_task__/AverageDiscountedReturn  -14.5494
__unnamed_task__/AverageReturn            -22.7576
__unnamed_task__/Iteration                229
__unnamed_task__/MaxReturn                 -0.158499
__unnamed_task__/MinReturn                -58.1974
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.31905
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.23967
policy/KL                                   0.00962889
policy/KLBefore                             0
policy/LossAfter                           -0.0292389
policy/LossBefore                          -0.0120778
policy/dLoss                                0.0171611
----------------------------------------  ------------
2025-04-03 02:02:46 | [rl2_trainer] epoch #230 | Optimizing policy...
2025-04-03 02:02:46 | [rl2_trainer] epoch #230 | Fitting baseline...
2025-04-03 02:02:46 | [rl2_trainer] epoch #230 | Computing loss before
2025-04-03 02:02:47 | [rl2_trainer] epoch #230 | Computing KL before
2025-04-03 02:02:47 | [rl2_trainer] epoch #230 | Optimizing
2025-04-03 02:03:23 | [rl2_trainer] epoch #230 | Computing KL after
2025-04-03 02:03:24 | [rl2_trainer] epoch #230 | Computing loss after
2025-04-03 02:03:25 | [rl2_trainer] epoch #230 | Saving snapshot...
2025-04-03 02:03:25 | [rl2_trainer] epoch #230 | Saved
2025-04-03 02:03:25 | [rl2_trainer] epoch #230 | Time 43886.00 s
2025-04-03 02:03:25 | [rl2_trainer] epoch #230 | EpochTime 262.28 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.1466
Average/AverageReturn                     -23.2863
Average/Iteration                         230
Average/MaxReturn                          -9.43619
Average/MinReturn                         -61.5091
Average/NumEpisodes                       100
Average/StdReturn                           7.78021
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.570342
TotalEnvSteps                               2.31e+06
__unnamed_task__/AverageDiscountedReturn  -15.1466
__unnamed_task__/AverageReturn            -23.2863
__unnamed_task__/Iteration                230
__unnamed_task__/MaxReturn                 -9.43619
__unnamed_task__/MinReturn                -61.5091
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.78021
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.22075
policy/KL                                   0.00751726
policy/KLBefore                             0
policy/LossAfter                           -0.0199196
policy/LossBefore                           0.00140917
policy/dLoss                                0.0213288
----------------------------------------  ------------
2025-04-03 02:04:55 | [rl2_trainer] epoch #231 | Optimizing policy...
2025-04-03 02:04:55 | [rl2_trainer] epoch #231 | Fitting baseline...
2025-04-03 02:04:55 | [rl2_trainer] epoch #231 | Computing loss before
2025-04-03 02:04:55 | [rl2_trainer] epoch #231 | Computing KL before
2025-04-03 02:04:56 | [rl2_trainer] epoch #231 | Optimizing
2025-04-03 02:05:29 | [rl2_trainer] epoch #231 | Computing KL after
2025-04-03 02:05:29 | [rl2_trainer] epoch #231 | Computing loss after
2025-04-03 02:05:30 | [rl2_trainer] epoch #231 | Saving snapshot...
2025-04-03 02:05:30 | [rl2_trainer] epoch #231 | Saved
2025-04-03 02:05:30 | [rl2_trainer] epoch #231 | Time 44011.31 s
2025-04-03 02:05:30 | [rl2_trainer] epoch #231 | EpochTime 125.31 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.9975
Average/AverageReturn                     -21.8407
Average/Iteration                         231
Average/MaxReturn                          11.1869
Average/MinReturn                         -38.2145
Average/NumEpisodes                       100
Average/StdReturn                           6.2316
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.599123
TotalEnvSteps                               2.32e+06
__unnamed_task__/AverageDiscountedReturn  -13.9975
__unnamed_task__/AverageReturn            -21.8407
__unnamed_task__/Iteration                231
__unnamed_task__/MaxReturn                 11.1869
__unnamed_task__/MinReturn                -38.2145
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.2316
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.20634
policy/KL                                   0.00854611
policy/KLBefore                             0
policy/LossAfter                           -0.0214309
policy/LossBefore                          -0.00240218
policy/dLoss                                0.0190287
----------------------------------------  ------------
2025-04-03 02:08:31 | [rl2_trainer] epoch #232 | Optimizing policy...
2025-04-03 02:08:31 | [rl2_trainer] epoch #232 | Fitting baseline...
2025-04-03 02:08:31 | [rl2_trainer] epoch #232 | Computing loss before
2025-04-03 02:08:32 | [rl2_trainer] epoch #232 | Computing KL before
2025-04-03 02:08:32 | [rl2_trainer] epoch #232 | Optimizing
2025-04-03 02:09:08 | [rl2_trainer] epoch #232 | Computing KL after
2025-04-03 02:09:08 | [rl2_trainer] epoch #232 | Computing loss after
2025-04-03 02:09:09 | [rl2_trainer] epoch #232 | Saving snapshot...
2025-04-03 02:09:09 | [rl2_trainer] epoch #232 | Saved
2025-04-03 02:09:09 | [rl2_trainer] epoch #232 | Time 44230.15 s
2025-04-03 02:09:09 | [rl2_trainer] epoch #232 | EpochTime 218.84 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.3163
Average/AverageReturn                     -22.0089
Average/Iteration                         232
Average/MaxReturn                          -8.32919
Average/MinReturn                         -56.1136
Average/NumEpisodes                       100
Average/StdReturn                           5.56774
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.442658
TotalEnvSteps                               2.33e+06
__unnamed_task__/AverageDiscountedReturn  -14.3163
__unnamed_task__/AverageReturn            -22.0089
__unnamed_task__/Iteration                232
__unnamed_task__/MaxReturn                 -8.32919
__unnamed_task__/MinReturn                -56.1136
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.56774
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.20155
policy/KL                                   0.0112717
policy/KLBefore                             0
policy/LossAfter                           -0.0184616
policy/LossBefore                           0.00262036
policy/dLoss                                0.021082
----------------------------------------  ------------
2025-04-03 02:12:08 | [rl2_trainer] epoch #233 | Optimizing policy...
2025-04-03 02:12:08 | [rl2_trainer] epoch #233 | Fitting baseline...
2025-04-03 02:12:08 | [rl2_trainer] epoch #233 | Computing loss before
2025-04-03 02:12:09 | [rl2_trainer] epoch #233 | Computing KL before
2025-04-03 02:12:09 | [rl2_trainer] epoch #233 | Optimizing
2025-04-03 02:12:45 | [rl2_trainer] epoch #233 | Computing KL after
2025-04-03 02:12:46 | [rl2_trainer] epoch #233 | Computing loss after
2025-04-03 02:12:47 | [rl2_trainer] epoch #233 | Saving snapshot...
2025-04-03 02:12:47 | [rl2_trainer] epoch #233 | Saved
2025-04-03 02:12:47 | [rl2_trainer] epoch #233 | Time 44447.91 s
2025-04-03 02:12:47 | [rl2_trainer] epoch #233 | EpochTime 217.76 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.4382
Average/AverageReturn                     -20.613
Average/Iteration                         233
Average/MaxReturn                          -3.27973
Average/MinReturn                         -30.1048
Average/NumEpisodes                       100
Average/StdReturn                           4.30659
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.426347
TotalEnvSteps                               2.34e+06
__unnamed_task__/AverageDiscountedReturn  -13.4382
__unnamed_task__/AverageReturn            -20.613
__unnamed_task__/Iteration                233
__unnamed_task__/MaxReturn                 -3.27973
__unnamed_task__/MinReturn                -30.1048
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.30659
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.19334
policy/KL                                   0.0108145
policy/KLBefore                             0
policy/LossAfter                           -0.0200338
policy/LossBefore                          -0.00194642
policy/dLoss                                0.0180874
----------------------------------------  ------------
2025-04-03 02:15:28 | [rl2_trainer] epoch #234 | Optimizing policy...
2025-04-03 02:15:28 | [rl2_trainer] epoch #234 | Fitting baseline...
2025-04-03 02:15:28 | [rl2_trainer] epoch #234 | Computing loss before
2025-04-03 02:15:29 | [rl2_trainer] epoch #234 | Computing KL before
2025-04-03 02:15:29 | [rl2_trainer] epoch #234 | Optimizing
2025-04-03 02:16:05 | [rl2_trainer] epoch #234 | Computing KL after
2025-04-03 02:16:06 | [rl2_trainer] epoch #234 | Computing loss after
2025-04-03 02:16:07 | [rl2_trainer] epoch #234 | Saving snapshot...
2025-04-03 02:16:07 | [rl2_trainer] epoch #234 | Saved
2025-04-03 02:16:07 | [rl2_trainer] epoch #234 | Time 44647.92 s
2025-04-03 02:16:07 | [rl2_trainer] epoch #234 | EpochTime 200.01 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.7882
Average/AverageReturn                     -22.8772
Average/Iteration                         234
Average/MaxReturn                           4.06913
Average/MinReturn                         -70.7266
Average/NumEpisodes                       100
Average/StdReturn                           8.26438
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.573342
TotalEnvSteps                               2.35e+06
__unnamed_task__/AverageDiscountedReturn  -14.7882
__unnamed_task__/AverageReturn            -22.8772
__unnamed_task__/Iteration                234
__unnamed_task__/MaxReturn                  4.06913
__unnamed_task__/MinReturn                -70.7266
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.26438
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.18524
policy/KL                                   0.0116077
policy/KLBefore                             0
policy/LossAfter                           -0.0215346
policy/LossBefore                           0.00779623
policy/dLoss                                0.0293308
----------------------------------------  ------------
2025-04-03 02:19:03 | [rl2_trainer] epoch #235 | Optimizing policy...
2025-04-03 02:19:04 | [rl2_trainer] epoch #235 | Fitting baseline...
2025-04-03 02:19:04 | [rl2_trainer] epoch #235 | Computing loss before
2025-04-03 02:19:04 | [rl2_trainer] epoch #235 | Computing KL before
2025-04-03 02:19:05 | [rl2_trainer] epoch #235 | Optimizing
2025-04-03 02:19:43 | [rl2_trainer] epoch #235 | Computing KL after
2025-04-03 02:19:43 | [rl2_trainer] epoch #235 | Computing loss after
2025-04-03 02:19:44 | [rl2_trainer] epoch #235 | Saving snapshot...
2025-04-03 02:19:44 | [rl2_trainer] epoch #235 | Saved
2025-04-03 02:19:44 | [rl2_trainer] epoch #235 | Time 44865.40 s
2025-04-03 02:19:44 | [rl2_trainer] epoch #235 | EpochTime 217.48 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -13.7658
Average/AverageReturn                     -21.9616
Average/Iteration                         235
Average/MaxReturn                          42.9261
Average/MinReturn                         -81.7731
Average/NumEpisodes                       100
Average/StdReturn                          13.5388
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.588294
TotalEnvSteps                               2.36e+06
__unnamed_task__/AverageDiscountedReturn  -13.7658
__unnamed_task__/AverageReturn            -21.9616
__unnamed_task__/Iteration                235
__unnamed_task__/MaxReturn                 42.9261
__unnamed_task__/MinReturn                -81.7731
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.5388
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.19312
policy/KL                                   0.01439
policy/KLBefore                             0
policy/LossAfter                           -0.0467099
policy/LossBefore                           0.0119498
policy/dLoss                                0.0586597
----------------------------------------  -----------
2025-04-03 02:23:29 | [rl2_trainer] epoch #236 | Optimizing policy...
2025-04-03 02:23:30 | [rl2_trainer] epoch #236 | Fitting baseline...
2025-04-03 02:23:30 | [rl2_trainer] epoch #236 | Computing loss before
2025-04-03 02:23:30 | [rl2_trainer] epoch #236 | Computing KL before
2025-04-03 02:23:31 | [rl2_trainer] epoch #236 | Optimizing
2025-04-03 02:24:07 | [rl2_trainer] epoch #236 | Computing KL after
2025-04-03 02:24:07 | [rl2_trainer] epoch #236 | Computing loss after
2025-04-03 02:24:08 | [rl2_trainer] epoch #236 | Saving snapshot...
2025-04-03 02:24:08 | [rl2_trainer] epoch #236 | Saved
2025-04-03 02:24:08 | [rl2_trainer] epoch #236 | Time 45129.07 s
2025-04-03 02:24:08 | [rl2_trainer] epoch #236 | EpochTime 263.67 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.2268
Average/AverageReturn                     -22.347
Average/Iteration                         236
Average/MaxReturn                           4.11883
Average/MinReturn                         -59.2905
Average/NumEpisodes                       100
Average/StdReturn                           7.79232
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.479557
TotalEnvSteps                               2.37e+06
__unnamed_task__/AverageDiscountedReturn  -14.2268
__unnamed_task__/AverageReturn            -22.347
__unnamed_task__/Iteration                236
__unnamed_task__/MaxReturn                  4.11883
__unnamed_task__/MinReturn                -59.2905
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.79232
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.18645
policy/KL                                   0.0106192
policy/KLBefore                             0
policy/LossAfter                           -0.0277067
policy/LossBefore                           0.00740237
policy/dLoss                                0.0351091
----------------------------------------  ------------
2025-04-03 02:28:32 | [rl2_trainer] epoch #237 | Optimizing policy...
2025-04-03 02:28:33 | [rl2_trainer] epoch #237 | Fitting baseline...
2025-04-03 02:28:33 | [rl2_trainer] epoch #237 | Computing loss before
2025-04-03 02:28:33 | [rl2_trainer] epoch #237 | Computing KL before
2025-04-03 02:28:34 | [rl2_trainer] epoch #237 | Optimizing
2025-04-03 02:29:08 | [rl2_trainer] epoch #237 | Computing KL after
2025-04-03 02:29:09 | [rl2_trainer] epoch #237 | Computing loss after
2025-04-03 02:29:10 | [rl2_trainer] epoch #237 | Saving snapshot...
2025-04-03 02:29:10 | [rl2_trainer] epoch #237 | Saved
2025-04-03 02:29:10 | [rl2_trainer] epoch #237 | Time 45430.93 s
2025-04-03 02:29:10 | [rl2_trainer] epoch #237 | EpochTime 301.85 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.9497
Average/AverageReturn                     -26.8588
Average/Iteration                         237
Average/MaxReturn                         -14.4664
Average/MinReturn                         -92.6481
Average/NumEpisodes                       100
Average/StdReturn                          10.2321
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.62671
TotalEnvSteps                               2.38e+06
__unnamed_task__/AverageDiscountedReturn  -16.9497
__unnamed_task__/AverageReturn            -26.8588
__unnamed_task__/Iteration                237
__unnamed_task__/MaxReturn                -14.4664
__unnamed_task__/MinReturn                -92.6481
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.2321
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.15629
policy/KL                                   0.0177477
policy/KLBefore                             0
policy/LossAfter                           -0.0261059
policy/LossBefore                          -0.00369713
policy/dLoss                                0.0224088
----------------------------------------  ------------
2025-04-03 02:32:46 | [rl2_trainer] epoch #238 | Optimizing policy...
2025-04-03 02:32:47 | [rl2_trainer] epoch #238 | Fitting baseline...
2025-04-03 02:32:47 | [rl2_trainer] epoch #238 | Computing loss before
2025-04-03 02:32:47 | [rl2_trainer] epoch #238 | Computing KL before
2025-04-03 02:32:48 | [rl2_trainer] epoch #238 | Optimizing
2025-04-03 02:33:22 | [rl2_trainer] epoch #238 | Computing KL after
2025-04-03 02:33:23 | [rl2_trainer] epoch #238 | Computing loss after
2025-04-03 02:33:24 | [rl2_trainer] epoch #238 | Saving snapshot...
2025-04-03 02:33:24 | [rl2_trainer] epoch #238 | Saved
2025-04-03 02:33:24 | [rl2_trainer] epoch #238 | Time 45684.92 s
2025-04-03 02:33:24 | [rl2_trainer] epoch #238 | EpochTime 254.00 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -13.1646
Average/AverageReturn                     -20.507
Average/Iteration                         238
Average/MaxReturn                           6.78842
Average/MinReturn                         -76.0829
Average/NumEpisodes                       100
Average/StdReturn                           9.4567
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.639693
TotalEnvSteps                               2.39e+06
__unnamed_task__/AverageDiscountedReturn  -13.1646
__unnamed_task__/AverageReturn            -20.507
__unnamed_task__/Iteration                238
__unnamed_task__/MaxReturn                  6.78842
__unnamed_task__/MinReturn                -76.0829
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.4567
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.13346
policy/KL                                   0.0108143
policy/KLBefore                             0
policy/LossAfter                           -0.0111525
policy/LossBefore                           0.0100608
policy/dLoss                                0.0212133
----------------------------------------  -----------
2025-04-03 02:36:20 | [rl2_trainer] epoch #239 | Optimizing policy...
2025-04-03 02:36:20 | [rl2_trainer] epoch #239 | Fitting baseline...
2025-04-03 02:36:20 | [rl2_trainer] epoch #239 | Computing loss before
2025-04-03 02:36:21 | [rl2_trainer] epoch #239 | Computing KL before
2025-04-03 02:36:22 | [rl2_trainer] epoch #239 | Optimizing
2025-04-03 02:36:57 | [rl2_trainer] epoch #239 | Computing KL after
2025-04-03 02:36:58 | [rl2_trainer] epoch #239 | Computing loss after
2025-04-03 02:36:59 | [rl2_trainer] epoch #239 | Saving snapshot...
2025-04-03 02:36:59 | [rl2_trainer] epoch #239 | Saved
2025-04-03 02:36:59 | [rl2_trainer] epoch #239 | Time 45899.87 s
2025-04-03 02:36:59 | [rl2_trainer] epoch #239 | EpochTime 214.94 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -13.549
Average/AverageReturn                     -20.8255
Average/Iteration                         239
Average/MaxReturn                          -0.215745
Average/MinReturn                         -32.102
Average/NumEpisodes                       100
Average/StdReturn                           5.38238
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.42268
TotalEnvSteps                               2.4e+06
__unnamed_task__/AverageDiscountedReturn  -13.549
__unnamed_task__/AverageReturn            -20.8255
__unnamed_task__/Iteration                239
__unnamed_task__/MaxReturn                 -0.215745
__unnamed_task__/MinReturn                -32.102
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.38238
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.11778
policy/KL                                   0.0114741
policy/KLBefore                             0
policy/LossAfter                           -0.015241
policy/LossBefore                           0.0020579
policy/dLoss                                0.0172989
----------------------------------------  -----------
2025-04-03 02:38:28 | [rl2_trainer] epoch #240 | Optimizing policy...
2025-04-03 02:38:29 | [rl2_trainer] epoch #240 | Fitting baseline...
2025-04-03 02:38:29 | [rl2_trainer] epoch #240 | Computing loss before
2025-04-03 02:38:29 | [rl2_trainer] epoch #240 | Computing KL before
2025-04-03 02:38:30 | [rl2_trainer] epoch #240 | Optimizing
2025-04-03 02:39:05 | [rl2_trainer] epoch #240 | Computing KL after
2025-04-03 02:39:05 | [rl2_trainer] epoch #240 | Computing loss after
2025-04-03 02:39:06 | [rl2_trainer] epoch #240 | Saving snapshot...
2025-04-03 02:39:06 | [rl2_trainer] epoch #240 | Saved
2025-04-03 02:39:06 | [rl2_trainer] epoch #240 | Time 46026.99 s
2025-04-03 02:39:06 | [rl2_trainer] epoch #240 | EpochTime 127.12 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -13.9819
Average/AverageReturn                     -21.5958
Average/Iteration                         240
Average/MaxReturn                           9.22065
Average/MinReturn                         -33.4826
Average/NumEpisodes                       100
Average/StdReturn                           5.54939
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.389266
TotalEnvSteps                               2.41e+06
__unnamed_task__/AverageDiscountedReturn  -13.9819
__unnamed_task__/AverageReturn            -21.5958
__unnamed_task__/Iteration                240
__unnamed_task__/MaxReturn                  9.22065
__unnamed_task__/MinReturn                -33.4826
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.54939
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.1007
policy/KL                                   0.0101785
policy/KLBefore                             0
policy/LossAfter                           -0.0201936
policy/LossBefore                           0.000101503
policy/dLoss                                0.0202951
----------------------------------------  -------------
2025-04-03 02:40:31 | [rl2_trainer] epoch #241 | Optimizing policy...
2025-04-03 02:40:31 | [rl2_trainer] epoch #241 | Fitting baseline...
2025-04-03 02:40:31 | [rl2_trainer] epoch #241 | Computing loss before
2025-04-03 02:40:32 | [rl2_trainer] epoch #241 | Computing KL before
2025-04-03 02:40:32 | [rl2_trainer] epoch #241 | Optimizing
2025-04-03 02:41:08 | [rl2_trainer] epoch #241 | Computing KL after
2025-04-03 02:41:09 | [rl2_trainer] epoch #241 | Computing loss after
2025-04-03 02:41:10 | [rl2_trainer] epoch #241 | Saving snapshot...
2025-04-03 02:41:10 | [rl2_trainer] epoch #241 | Saved
2025-04-03 02:41:10 | [rl2_trainer] epoch #241 | Time 46150.72 s
2025-04-03 02:41:10 | [rl2_trainer] epoch #241 | EpochTime 123.73 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.6352
Average/AverageReturn                     -21.2127
Average/Iteration                         241
Average/MaxReturn                           5.19655
Average/MinReturn                         -43.9428
Average/NumEpisodes                       100
Average/StdReturn                           6.01951
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.471357
TotalEnvSteps                               2.42e+06
__unnamed_task__/AverageDiscountedReturn  -13.6352
__unnamed_task__/AverageReturn            -21.2127
__unnamed_task__/Iteration                241
__unnamed_task__/MaxReturn                  5.19655
__unnamed_task__/MinReturn                -43.9428
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.01951
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.06969
policy/KL                                   0.0135855
policy/KLBefore                             0
policy/LossAfter                           -0.0041217
policy/LossBefore                           0.00704927
policy/dLoss                                0.011171
----------------------------------------  ------------
2025-04-03 02:43:19 | [rl2_trainer] epoch #242 | Optimizing policy...
2025-04-03 02:43:19 | [rl2_trainer] epoch #242 | Fitting baseline...
2025-04-03 02:43:19 | [rl2_trainer] epoch #242 | Computing loss before
2025-04-03 02:43:20 | [rl2_trainer] epoch #242 | Computing KL before
2025-04-03 02:43:20 | [rl2_trainer] epoch #242 | Optimizing
2025-04-03 02:43:55 | [rl2_trainer] epoch #242 | Computing KL after
2025-04-03 02:43:56 | [rl2_trainer] epoch #242 | Computing loss after
2025-04-03 02:43:57 | [rl2_trainer] epoch #242 | Saving snapshot...
2025-04-03 02:43:57 | [rl2_trainer] epoch #242 | Saved
2025-04-03 02:43:57 | [rl2_trainer] epoch #242 | Time 46317.93 s
2025-04-03 02:43:57 | [rl2_trainer] epoch #242 | EpochTime 167.21 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.0255
Average/AverageReturn                     -22.951
Average/Iteration                         242
Average/MaxReturn                         -11.4257
Average/MinReturn                         -38.7787
Average/NumEpisodes                       100
Average/StdReturn                           5.18449
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.487084
TotalEnvSteps                               2.43e+06
__unnamed_task__/AverageDiscountedReturn  -15.0255
__unnamed_task__/AverageReturn            -22.951
__unnamed_task__/Iteration                242
__unnamed_task__/MaxReturn                -11.4257
__unnamed_task__/MinReturn                -38.7787
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.18449
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.04256
policy/KL                                   0.0105909
policy/KLBefore                             0
policy/LossAfter                           -0.00604395
policy/LossBefore                           0.00164595
policy/dLoss                                0.00768989
----------------------------------------  ------------
2025-04-03 02:47:19 | [rl2_trainer] epoch #243 | Optimizing policy...
2025-04-03 02:47:19 | [rl2_trainer] epoch #243 | Fitting baseline...
2025-04-03 02:47:19 | [rl2_trainer] epoch #243 | Computing loss before
2025-04-03 02:47:19 | [rl2_trainer] epoch #243 | Computing KL before
2025-04-03 02:47:20 | [rl2_trainer] epoch #243 | Optimizing
2025-04-03 02:47:55 | [rl2_trainer] epoch #243 | Computing KL after
2025-04-03 02:47:55 | [rl2_trainer] epoch #243 | Computing loss after
2025-04-03 02:47:56 | [rl2_trainer] epoch #243 | Saving snapshot...
2025-04-03 02:47:56 | [rl2_trainer] epoch #243 | Saved
2025-04-03 02:47:56 | [rl2_trainer] epoch #243 | Time 46557.34 s
2025-04-03 02:47:56 | [rl2_trainer] epoch #243 | EpochTime 239.41 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.7342
Average/AverageReturn                     -21.2956
Average/Iteration                         243
Average/MaxReturn                           0.108983
Average/MinReturn                         -73.6807
Average/NumEpisodes                       100
Average/StdReturn                           9.57823
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.637303
TotalEnvSteps                               2.44e+06
__unnamed_task__/AverageDiscountedReturn  -13.7342
__unnamed_task__/AverageReturn            -21.2956
__unnamed_task__/Iteration                243
__unnamed_task__/MaxReturn                  0.108983
__unnamed_task__/MinReturn                -73.6807
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.57823
__unnamed_task__/TerminationRate            0
policy/Entropy                              5.02557
policy/KL                                   0.0126977
policy/KLBefore                             0
policy/LossAfter                           -0.0218603
policy/LossBefore                           0.00394659
policy/dLoss                                0.0258069
----------------------------------------  ------------
2025-04-03 02:50:27 | [rl2_trainer] epoch #244 | Optimizing policy...
2025-04-03 02:50:28 | [rl2_trainer] epoch #244 | Fitting baseline...
2025-04-03 02:50:28 | [rl2_trainer] epoch #244 | Computing loss before
2025-04-03 02:50:28 | [rl2_trainer] epoch #244 | Computing KL before
2025-04-03 02:50:29 | [rl2_trainer] epoch #244 | Optimizing
2025-04-03 02:51:06 | [rl2_trainer] epoch #244 | Computing KL after
2025-04-03 02:51:07 | [rl2_trainer] epoch #244 | Computing loss after
2025-04-03 02:51:08 | [rl2_trainer] epoch #244 | Saving snapshot...
2025-04-03 02:51:08 | [rl2_trainer] epoch #244 | Saved
2025-04-03 02:51:08 | [rl2_trainer] epoch #244 | Time 46748.57 s
2025-04-03 02:51:08 | [rl2_trainer] epoch #244 | EpochTime 191.22 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -13.4747
Average/AverageReturn                     -20.6072
Average/Iteration                         244
Average/MaxReturn                          -8.02213
Average/MinReturn                         -56.907
Average/NumEpisodes                       100
Average/StdReturn                           5.87617
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.349194
TotalEnvSteps                               2.45e+06
__unnamed_task__/AverageDiscountedReturn  -13.4747
__unnamed_task__/AverageReturn            -20.6072
__unnamed_task__/Iteration                244
__unnamed_task__/MaxReturn                 -8.02213
__unnamed_task__/MinReturn                -56.907
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.87617
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.99712
policy/KL                                   0.0129417
policy/KLBefore                             0
policy/LossAfter                           -0.0192625
policy/LossBefore                          -0.0060078
policy/dLoss                                0.0132547
----------------------------------------  -----------
2025-04-03 02:52:35 | [rl2_trainer] epoch #245 | Optimizing policy...
2025-04-03 02:52:35 | [rl2_trainer] epoch #245 | Fitting baseline...
2025-04-03 02:52:35 | [rl2_trainer] epoch #245 | Computing loss before
2025-04-03 02:52:36 | [rl2_trainer] epoch #245 | Computing KL before
2025-04-03 02:52:36 | [rl2_trainer] epoch #245 | Optimizing
2025-04-03 02:53:12 | [rl2_trainer] epoch #245 | Computing KL after
2025-04-03 02:53:12 | [rl2_trainer] epoch #245 | Computing loss after
2025-04-03 02:53:13 | [rl2_trainer] epoch #245 | Saving snapshot...
2025-04-03 02:53:13 | [rl2_trainer] epoch #245 | Saved
2025-04-03 02:53:13 | [rl2_trainer] epoch #245 | Time 46874.23 s
2025-04-03 02:53:13 | [rl2_trainer] epoch #245 | EpochTime 125.66 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.1769
Average/AverageReturn                     -21.6859
Average/Iteration                         245
Average/MaxReturn                          -3.4103
Average/MinReturn                         -66.8779
Average/NumEpisodes                       100
Average/StdReturn                           6.22111
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.557956
TotalEnvSteps                               2.46e+06
__unnamed_task__/AverageDiscountedReturn  -14.1769
__unnamed_task__/AverageReturn            -21.6859
__unnamed_task__/Iteration                245
__unnamed_task__/MaxReturn                 -3.4103
__unnamed_task__/MinReturn                -66.8779
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.22111
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.96773
policy/KL                                   0.0116314
policy/KLBefore                             0
policy/LossAfter                           -0.0152163
policy/LossBefore                          -0.00090188
policy/dLoss                                0.0143144
----------------------------------------  ------------
2025-04-03 02:55:24 | [rl2_trainer] epoch #246 | Optimizing policy...
2025-04-03 02:55:24 | [rl2_trainer] epoch #246 | Fitting baseline...
2025-04-03 02:55:24 | [rl2_trainer] epoch #246 | Computing loss before
2025-04-03 02:55:25 | [rl2_trainer] epoch #246 | Computing KL before
2025-04-03 02:55:26 | [rl2_trainer] epoch #246 | Optimizing
2025-04-03 02:56:02 | [rl2_trainer] epoch #246 | Computing KL after
2025-04-03 02:56:03 | [rl2_trainer] epoch #246 | Computing loss after
2025-04-03 02:56:04 | [rl2_trainer] epoch #246 | Saving snapshot...
2025-04-03 02:56:04 | [rl2_trainer] epoch #246 | Saved
2025-04-03 02:56:04 | [rl2_trainer] epoch #246 | Time 47044.53 s
2025-04-03 02:56:04 | [rl2_trainer] epoch #246 | EpochTime 170.29 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.9993
Average/AverageReturn                     -21.3784
Average/Iteration                         246
Average/MaxReturn                          -1.68943
Average/MinReturn                         -39.2086
Average/NumEpisodes                       100
Average/StdReturn                           5.49995
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.536236
TotalEnvSteps                               2.47e+06
__unnamed_task__/AverageDiscountedReturn  -13.9993
__unnamed_task__/AverageReturn            -21.3784
__unnamed_task__/Iteration                246
__unnamed_task__/MaxReturn                 -1.68943
__unnamed_task__/MinReturn                -39.2086
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.49995
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.9583
policy/KL                                   0.0103288
policy/KLBefore                             0
policy/LossAfter                           -0.0203252
policy/LossBefore                          -0.00381372
policy/dLoss                                0.0165115
----------------------------------------  ------------
2025-04-03 02:58:31 | [rl2_trainer] epoch #247 | Optimizing policy...
2025-04-03 02:58:31 | [rl2_trainer] epoch #247 | Fitting baseline...
2025-04-03 02:58:31 | [rl2_trainer] epoch #247 | Computing loss before
2025-04-03 02:58:32 | [rl2_trainer] epoch #247 | Computing KL before
2025-04-03 02:58:32 | [rl2_trainer] epoch #247 | Optimizing
2025-04-03 02:59:09 | [rl2_trainer] epoch #247 | Computing KL after
2025-04-03 02:59:10 | [rl2_trainer] epoch #247 | Computing loss after
2025-04-03 02:59:11 | [rl2_trainer] epoch #247 | Saving snapshot...
2025-04-03 02:59:11 | [rl2_trainer] epoch #247 | Saved
2025-04-03 02:59:11 | [rl2_trainer] epoch #247 | Time 47231.69 s
2025-04-03 02:59:11 | [rl2_trainer] epoch #247 | EpochTime 187.16 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.1726
Average/AverageReturn                     -18.4313
Average/Iteration                         247
Average/MaxReturn                           6.37819
Average/MinReturn                         -43.145
Average/NumEpisodes                       100
Average/StdReturn                           5.82031
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.338315
TotalEnvSteps                               2.48e+06
__unnamed_task__/AverageDiscountedReturn  -12.1726
__unnamed_task__/AverageReturn            -18.4313
__unnamed_task__/Iteration                247
__unnamed_task__/MaxReturn                  6.37819
__unnamed_task__/MinReturn                -43.145
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.82031
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.96031
policy/KL                                   0.0130356
policy/KLBefore                             0
policy/LossAfter                           -0.0302169
policy/LossBefore                          -0.00502671
policy/dLoss                                0.0251902
----------------------------------------  ------------
2025-04-03 03:00:38 | [rl2_trainer] epoch #248 | Optimizing policy...
2025-04-03 03:00:39 | [rl2_trainer] epoch #248 | Fitting baseline...
2025-04-03 03:00:39 | [rl2_trainer] epoch #248 | Computing loss before
2025-04-03 03:00:39 | [rl2_trainer] epoch #248 | Computing KL before
2025-04-03 03:00:40 | [rl2_trainer] epoch #248 | Optimizing
2025-04-03 03:01:15 | [rl2_trainer] epoch #248 | Computing KL after
2025-04-03 03:01:16 | [rl2_trainer] epoch #248 | Computing loss after
2025-04-03 03:01:17 | [rl2_trainer] epoch #248 | Saving snapshot...
2025-04-03 03:01:17 | [rl2_trainer] epoch #248 | Saved
2025-04-03 03:01:17 | [rl2_trainer] epoch #248 | Time 47357.71 s
2025-04-03 03:01:17 | [rl2_trainer] epoch #248 | EpochTime 126.02 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -12.7402
Average/AverageReturn                     -19.4928
Average/Iteration                         248
Average/MaxReturn                           0.3712
Average/MinReturn                         -31.4182
Average/NumEpisodes                       100
Average/StdReturn                           4.44247
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.460678
TotalEnvSteps                               2.49e+06
__unnamed_task__/AverageDiscountedReturn  -12.7402
__unnamed_task__/AverageReturn            -19.4928
__unnamed_task__/Iteration                248
__unnamed_task__/MaxReturn                  0.3712
__unnamed_task__/MinReturn                -31.4182
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.44247
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.96369
policy/KL                                   0.0125175
policy/KLBefore                             0
policy/LossAfter                           -0.0151985
policy/LossBefore                           0.000372705
policy/dLoss                                0.0155712
----------------------------------------  -------------
2025-04-03 03:03:53 | [rl2_trainer] epoch #249 | Optimizing policy...
2025-04-03 03:03:53 | [rl2_trainer] epoch #249 | Fitting baseline...
2025-04-03 03:03:53 | [rl2_trainer] epoch #249 | Computing loss before
2025-04-03 03:03:53 | [rl2_trainer] epoch #249 | Computing KL before
2025-04-03 03:03:54 | [rl2_trainer] epoch #249 | Optimizing
2025-04-03 03:04:30 | [rl2_trainer] epoch #249 | Computing KL after
2025-04-03 03:04:31 | [rl2_trainer] epoch #249 | Computing loss after
2025-04-03 03:04:32 | [rl2_trainer] epoch #249 | Saving snapshot...
2025-04-03 03:04:32 | [rl2_trainer] epoch #249 | Saved
2025-04-03 03:04:32 | [rl2_trainer] epoch #249 | Time 47552.77 s
2025-04-03 03:04:32 | [rl2_trainer] epoch #249 | EpochTime 195.05 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.9363
Average/AverageReturn                     -23.3613
Average/Iteration                         249
Average/MaxReturn                          -7.54711
Average/MinReturn                         -90.634
Average/NumEpisodes                       100
Average/StdReturn                          12.8953
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.699566
TotalEnvSteps                               2.5e+06
__unnamed_task__/AverageDiscountedReturn  -14.9363
__unnamed_task__/AverageReturn            -23.3613
__unnamed_task__/Iteration                249
__unnamed_task__/MaxReturn                 -7.54711
__unnamed_task__/MinReturn                -90.634
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.8953
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.96783
policy/KL                                   0.0136476
policy/KLBefore                             0
policy/LossAfter                           -0.036276
policy/LossBefore                           0.00339534
policy/dLoss                                0.0396713
----------------------------------------  ------------
2025-04-03 03:06:41 | [rl2_trainer] epoch #250 | Optimizing policy...
2025-04-03 03:06:41 | [rl2_trainer] epoch #250 | Fitting baseline...
2025-04-03 03:06:41 | [rl2_trainer] epoch #250 | Computing loss before
2025-04-03 03:06:42 | [rl2_trainer] epoch #250 | Computing KL before
2025-04-03 03:06:42 | [rl2_trainer] epoch #250 | Optimizing
2025-04-03 03:07:17 | [rl2_trainer] epoch #250 | Computing KL after
2025-04-03 03:07:18 | [rl2_trainer] epoch #250 | Computing loss after
2025-04-03 03:07:19 | [rl2_trainer] epoch #250 | Saving snapshot...
2025-04-03 03:07:19 | [rl2_trainer] epoch #250 | Saved
2025-04-03 03:07:19 | [rl2_trainer] epoch #250 | Time 47719.73 s
2025-04-03 03:07:19 | [rl2_trainer] epoch #250 | EpochTime 166.96 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.2809
Average/AverageReturn                     -21.7292
Average/Iteration                         250
Average/MaxReturn                          -8.34173
Average/MinReturn                         -63.6613
Average/NumEpisodes                       100
Average/StdReturn                           6.48806
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.606818
TotalEnvSteps                               2.51e+06
__unnamed_task__/AverageDiscountedReturn  -14.2809
__unnamed_task__/AverageReturn            -21.7292
__unnamed_task__/Iteration                250
__unnamed_task__/MaxReturn                 -8.34173
__unnamed_task__/MinReturn                -63.6613
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.48806
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.94602
policy/KL                                   0.0134027
policy/KLBefore                             0
policy/LossAfter                           -0.0189548
policy/LossBefore                          -0.00367491
policy/dLoss                                0.0152799
----------------------------------------  ------------
2025-04-03 03:10:19 | [rl2_trainer] epoch #251 | Optimizing policy...
2025-04-03 03:10:19 | [rl2_trainer] epoch #251 | Fitting baseline...
2025-04-03 03:10:19 | [rl2_trainer] epoch #251 | Computing loss before
2025-04-03 03:10:20 | [rl2_trainer] epoch #251 | Computing KL before
2025-04-03 03:10:20 | [rl2_trainer] epoch #251 | Optimizing
2025-04-03 03:10:57 | [rl2_trainer] epoch #251 | Computing KL after
2025-04-03 03:10:57 | [rl2_trainer] epoch #251 | Computing loss after
2025-04-03 03:10:58 | [rl2_trainer] epoch #251 | Saving snapshot...
2025-04-03 03:10:58 | [rl2_trainer] epoch #251 | Saved
2025-04-03 03:10:58 | [rl2_trainer] epoch #251 | Time 47939.31 s
2025-04-03 03:10:58 | [rl2_trainer] epoch #251 | EpochTime 219.58 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -12.6418
Average/AverageReturn                     -19.2091
Average/Iteration                         251
Average/MaxReturn                           7.96462
Average/MinReturn                         -33.17
Average/NumEpisodes                       100
Average/StdReturn                           5.87176
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.59078
TotalEnvSteps                               2.52e+06
__unnamed_task__/AverageDiscountedReturn  -12.6418
__unnamed_task__/AverageReturn            -19.2091
__unnamed_task__/Iteration                251
__unnamed_task__/MaxReturn                  7.96462
__unnamed_task__/MinReturn                -33.17
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.87176
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.9161
policy/KL                                   0.00811247
policy/KLBefore                             0
policy/LossAfter                           -0.0123292
policy/LossBefore                          -0.000611406
policy/dLoss                                0.0117178
----------------------------------------  -------------
2025-04-03 03:13:26 | [rl2_trainer] epoch #252 | Optimizing policy...
2025-04-03 03:13:26 | [rl2_trainer] epoch #252 | Fitting baseline...
2025-04-03 03:13:26 | [rl2_trainer] epoch #252 | Computing loss before
2025-04-03 03:13:27 | [rl2_trainer] epoch #252 | Computing KL before
2025-04-03 03:13:28 | [rl2_trainer] epoch #252 | Optimizing
2025-04-03 03:14:03 | [rl2_trainer] epoch #252 | Computing KL after
2025-04-03 03:14:04 | [rl2_trainer] epoch #252 | Computing loss after
2025-04-03 03:14:05 | [rl2_trainer] epoch #252 | Saving snapshot...
2025-04-03 03:14:05 | [rl2_trainer] epoch #252 | Saved
2025-04-03 03:14:05 | [rl2_trainer] epoch #252 | Time 48126.08 s
2025-04-03 03:14:05 | [rl2_trainer] epoch #252 | EpochTime 186.77 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.0545
Average/AverageReturn                     -18.1691
Average/Iteration                         252
Average/MaxReturn                           3.87294
Average/MinReturn                         -24.631
Average/NumEpisodes                       100
Average/StdReturn                           3.83812
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.13562
TotalEnvSteps                               2.53e+06
__unnamed_task__/AverageDiscountedReturn  -12.0545
__unnamed_task__/AverageReturn            -18.1691
__unnamed_task__/Iteration                252
__unnamed_task__/MaxReturn                  3.87294
__unnamed_task__/MinReturn                -24.631
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  3.83812
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.87666
policy/KL                                   0.0121329
policy/KLBefore                             0
policy/LossAfter                           -0.0144015
policy/LossBefore                          -0.00548184
policy/dLoss                                0.0089197
----------------------------------------  ------------
2025-04-03 03:17:38 | [rl2_trainer] epoch #253 | Optimizing policy...
2025-04-03 03:17:39 | [rl2_trainer] epoch #253 | Fitting baseline...
2025-04-03 03:17:39 | [rl2_trainer] epoch #253 | Computing loss before
2025-04-03 03:17:39 | [rl2_trainer] epoch #253 | Computing KL before
2025-04-03 03:17:40 | [rl2_trainer] epoch #253 | Optimizing
2025-04-03 03:18:17 | [rl2_trainer] epoch #253 | Computing KL after
2025-04-03 03:18:17 | [rl2_trainer] epoch #253 | Computing loss after
2025-04-03 03:18:19 | [rl2_trainer] epoch #253 | Saving snapshot...
2025-04-03 03:18:19 | [rl2_trainer] epoch #253 | Saved
2025-04-03 03:18:19 | [rl2_trainer] epoch #253 | Time 48379.63 s
2025-04-03 03:18:19 | [rl2_trainer] epoch #253 | EpochTime 253.55 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.6505
Average/AverageReturn                     -21.536
Average/Iteration                         253
Average/MaxReturn                          -3.6787
Average/MinReturn                         -64.0722
Average/NumEpisodes                       100
Average/StdReturn                           9.63284
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.751978
TotalEnvSteps                               2.54e+06
__unnamed_task__/AverageDiscountedReturn  -13.6505
__unnamed_task__/AverageReturn            -21.536
__unnamed_task__/Iteration                253
__unnamed_task__/MaxReturn                 -3.6787
__unnamed_task__/MinReturn                -64.0722
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.63284
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.85804
policy/KL                                   0.0111008
policy/KLBefore                             0
policy/LossAfter                           -0.0228841
policy/LossBefore                           0.00236413
policy/dLoss                                0.0252482
----------------------------------------  ------------
2025-04-03 03:20:43 | [rl2_trainer] epoch #254 | Optimizing policy...
2025-04-03 03:20:44 | [rl2_trainer] epoch #254 | Fitting baseline...
2025-04-03 03:20:44 | [rl2_trainer] epoch #254 | Computing loss before
2025-04-03 03:20:44 | [rl2_trainer] epoch #254 | Computing KL before
2025-04-03 03:20:45 | [rl2_trainer] epoch #254 | Optimizing
2025-04-03 03:21:21 | [rl2_trainer] epoch #254 | Computing KL after
2025-04-03 03:21:22 | [rl2_trainer] epoch #254 | Computing loss after
2025-04-03 03:21:23 | [rl2_trainer] epoch #254 | Saving snapshot...
2025-04-03 03:21:23 | [rl2_trainer] epoch #254 | Saved
2025-04-03 03:21:23 | [rl2_trainer] epoch #254 | Time 48564.11 s
2025-04-03 03:21:23 | [rl2_trainer] epoch #254 | EpochTime 184.48 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.5607
Average/AverageReturn                     -17.6463
Average/Iteration                         254
Average/MaxReturn                          14.8977
Average/MinReturn                         -29.7429
Average/NumEpisodes                       100
Average/StdReturn                           6.95911
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.598677
TotalEnvSteps                               2.55e+06
__unnamed_task__/AverageDiscountedReturn  -11.5607
__unnamed_task__/AverageReturn            -17.6463
__unnamed_task__/Iteration                254
__unnamed_task__/MaxReturn                 14.8977
__unnamed_task__/MinReturn                -29.7429
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.95911
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.82674
policy/KL                                   0.0121244
policy/KLBefore                             0
policy/LossAfter                           -0.0185977
policy/LossBefore                          -0.00090878
policy/dLoss                                0.0176889
----------------------------------------  ------------
2025-04-03 03:22:53 | [rl2_trainer] epoch #255 | Optimizing policy...
2025-04-03 03:22:53 | [rl2_trainer] epoch #255 | Fitting baseline...
2025-04-03 03:22:53 | [rl2_trainer] epoch #255 | Computing loss before
2025-04-03 03:22:54 | [rl2_trainer] epoch #255 | Computing KL before
2025-04-03 03:22:55 | [rl2_trainer] epoch #255 | Optimizing
2025-04-03 03:23:31 | [rl2_trainer] epoch #255 | Computing KL after
2025-04-03 03:23:31 | [rl2_trainer] epoch #255 | Computing loss after
2025-04-03 03:23:32 | [rl2_trainer] epoch #255 | Saving snapshot...
2025-04-03 03:23:32 | [rl2_trainer] epoch #255 | Saved
2025-04-03 03:23:32 | [rl2_trainer] epoch #255 | Time 48693.20 s
2025-04-03 03:23:32 | [rl2_trainer] epoch #255 | EpochTime 129.08 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.9613
Average/AverageReturn                     -19.8833
Average/Iteration                         255
Average/MaxReturn                          -2.90807
Average/MinReturn                         -94.1303
Average/NumEpisodes                       100
Average/StdReturn                           8.72356
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.465477
TotalEnvSteps                               2.56e+06
__unnamed_task__/AverageDiscountedReturn  -12.9613
__unnamed_task__/AverageReturn            -19.8833
__unnamed_task__/Iteration                255
__unnamed_task__/MaxReturn                 -2.90807
__unnamed_task__/MinReturn                -94.1303
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.72356
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.78645
policy/KL                                   0.0129118
policy/KLBefore                             0
policy/LossAfter                           -0.016143
policy/LossBefore                           0.00316049
policy/dLoss                                0.0193034
----------------------------------------  ------------
2025-04-03 03:24:59 | [rl2_trainer] epoch #256 | Optimizing policy...
2025-04-03 03:25:00 | [rl2_trainer] epoch #256 | Fitting baseline...
2025-04-03 03:25:00 | [rl2_trainer] epoch #256 | Computing loss before
2025-04-03 03:25:00 | [rl2_trainer] epoch #256 | Computing KL before
2025-04-03 03:25:01 | [rl2_trainer] epoch #256 | Optimizing
2025-04-03 03:25:36 | [rl2_trainer] epoch #256 | Computing KL after
2025-04-03 03:25:36 | [rl2_trainer] epoch #256 | Computing loss after
2025-04-03 03:25:37 | [rl2_trainer] epoch #256 | Saving snapshot...
2025-04-03 03:25:37 | [rl2_trainer] epoch #256 | Saved
2025-04-03 03:25:37 | [rl2_trainer] epoch #256 | Time 48818.41 s
2025-04-03 03:25:37 | [rl2_trainer] epoch #256 | EpochTime 125.22 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -12.6839
Average/AverageReturn                     -19.413
Average/Iteration                         256
Average/MaxReturn                         -13.7399
Average/MinReturn                         -28.3826
Average/NumEpisodes                       100
Average/StdReturn                           3.22095
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.421732
TotalEnvSteps                               2.57e+06
__unnamed_task__/AverageDiscountedReturn  -12.6839
__unnamed_task__/AverageReturn            -19.413
__unnamed_task__/Iteration                256
__unnamed_task__/MaxReturn                -13.7399
__unnamed_task__/MinReturn                -28.3826
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  3.22095
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.76297
policy/KL                                   0.0129975
policy/KLBefore                             0
policy/LossAfter                            0.00126531
policy/LossBefore                           0.00171387
policy/dLoss                                0.000448557
----------------------------------------  -------------
2025-04-03 03:28:36 | [rl2_trainer] epoch #257 | Optimizing policy...
2025-04-03 03:28:36 | [rl2_trainer] epoch #257 | Fitting baseline...
2025-04-03 03:28:36 | [rl2_trainer] epoch #257 | Computing loss before
2025-04-03 03:28:37 | [rl2_trainer] epoch #257 | Computing KL before
2025-04-03 03:28:38 | [rl2_trainer] epoch #257 | Optimizing
2025-04-03 03:29:11 | [rl2_trainer] epoch #257 | Computing KL after
2025-04-03 03:29:12 | [rl2_trainer] epoch #257 | Computing loss after
2025-04-03 03:29:13 | [rl2_trainer] epoch #257 | Saving snapshot...
2025-04-03 03:29:13 | [rl2_trainer] epoch #257 | Saved
2025-04-03 03:29:13 | [rl2_trainer] epoch #257 | Time 49034.03 s
2025-04-03 03:29:13 | [rl2_trainer] epoch #257 | EpochTime 215.62 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.3316
Average/AverageReturn                     -18.5344
Average/Iteration                         257
Average/MaxReturn                          -2.69614
Average/MinReturn                         -35.0961
Average/NumEpisodes                       100
Average/StdReturn                           5.33609
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.384719
TotalEnvSteps                               2.58e+06
__unnamed_task__/AverageDiscountedReturn  -12.3316
__unnamed_task__/AverageReturn            -18.5344
__unnamed_task__/Iteration                257
__unnamed_task__/MaxReturn                 -2.69614
__unnamed_task__/MinReturn                -35.0961
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.33609
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.74625
policy/KL                                   0.00979021
policy/KLBefore                             0
policy/LossAfter                           -0.0234731
policy/LossBefore                          -0.00742402
policy/dLoss                                0.0160491
----------------------------------------  ------------
2025-04-03 03:31:33 | [rl2_trainer] epoch #258 | Optimizing policy...
2025-04-03 03:31:33 | [rl2_trainer] epoch #258 | Fitting baseline...
2025-04-03 03:31:33 | [rl2_trainer] epoch #258 | Computing loss before
2025-04-03 03:31:34 | [rl2_trainer] epoch #258 | Computing KL before
2025-04-03 03:31:34 | [rl2_trainer] epoch #258 | Optimizing
2025-04-03 03:32:11 | [rl2_trainer] epoch #258 | Computing KL after
2025-04-03 03:32:11 | [rl2_trainer] epoch #258 | Computing loss after
2025-04-03 03:32:12 | [rl2_trainer] epoch #258 | Saving snapshot...
2025-04-03 03:32:12 | [rl2_trainer] epoch #258 | Saved
2025-04-03 03:32:12 | [rl2_trainer] epoch #258 | Time 49213.16 s
2025-04-03 03:32:12 | [rl2_trainer] epoch #258 | EpochTime 179.13 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.9529
Average/AverageReturn                     -18.1416
Average/Iteration                         258
Average/MaxReturn                           3.88601
Average/MinReturn                         -33.1772
Average/NumEpisodes                       100
Average/StdReturn                           6.58767
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.53886
TotalEnvSteps                               2.59e+06
__unnamed_task__/AverageDiscountedReturn  -11.9529
__unnamed_task__/AverageReturn            -18.1416
__unnamed_task__/Iteration                258
__unnamed_task__/MaxReturn                  3.88601
__unnamed_task__/MinReturn                -33.1772
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.58767
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.71519
policy/KL                                   0.0128684
policy/KLBefore                             0
policy/LossAfter                           -0.0209785
policy/LossBefore                          -0.00715002
policy/dLoss                                0.0138285
----------------------------------------  ------------
2025-04-03 03:34:20 | [rl2_trainer] epoch #259 | Optimizing policy...
2025-04-03 03:34:21 | [rl2_trainer] epoch #259 | Fitting baseline...
2025-04-03 03:34:21 | [rl2_trainer] epoch #259 | Computing loss before
2025-04-03 03:34:21 | [rl2_trainer] epoch #259 | Computing KL before
2025-04-03 03:34:22 | [rl2_trainer] epoch #259 | Optimizing
2025-04-03 03:34:57 | [rl2_trainer] epoch #259 | Computing KL after
2025-04-03 03:34:58 | [rl2_trainer] epoch #259 | Computing loss after
2025-04-03 03:34:59 | [rl2_trainer] epoch #259 | Saving snapshot...
2025-04-03 03:34:59 | [rl2_trainer] epoch #259 | Saved
2025-04-03 03:34:59 | [rl2_trainer] epoch #259 | Time 49379.69 s
2025-04-03 03:34:59 | [rl2_trainer] epoch #259 | EpochTime 166.52 s
----------------------------------------  -------------
Average/AverageDiscountedReturn            -13.9732
Average/AverageReturn                      -21.1771
Average/Iteration                          259
Average/MaxReturn                           -2.79886
Average/MinReturn                         -119.273
Average/NumEpisodes                        100
Average/StdReturn                           14.2922
Average/TerminationRate                      0
LinearFeatureBaseline/ExplainedVariance      0.359538
TotalEnvSteps                                2.6e+06
__unnamed_task__/AverageDiscountedReturn   -13.9732
__unnamed_task__/AverageReturn             -21.1771
__unnamed_task__/Iteration                 259
__unnamed_task__/MaxReturn                  -2.79886
__unnamed_task__/MinReturn                -119.273
__unnamed_task__/NumEpisodes               100
__unnamed_task__/StdReturn                  14.2922
__unnamed_task__/TerminationRate             0
policy/Entropy                               4.68398
policy/KL                                    0.0271259
policy/KLBefore                              0
policy/LossAfter                            -0.00717272
policy/LossBefore                            0.0109804
policy/dLoss                                 0.0181531
----------------------------------------  -------------
2025-04-03 03:36:57 | [rl2_trainer] epoch #260 | Optimizing policy...
2025-04-03 03:36:57 | [rl2_trainer] epoch #260 | Fitting baseline...
2025-04-03 03:36:57 | [rl2_trainer] epoch #260 | Computing loss before
2025-04-03 03:36:57 | [rl2_trainer] epoch #260 | Computing KL before
2025-04-03 03:36:58 | [rl2_trainer] epoch #260 | Optimizing
2025-04-03 03:37:34 | [rl2_trainer] epoch #260 | Computing KL after
2025-04-03 03:37:34 | [rl2_trainer] epoch #260 | Computing loss after
2025-04-03 03:37:35 | [rl2_trainer] epoch #260 | Saving snapshot...
2025-04-03 03:37:35 | [rl2_trainer] epoch #260 | Saved
2025-04-03 03:37:35 | [rl2_trainer] epoch #260 | Time 49536.25 s
2025-04-03 03:37:35 | [rl2_trainer] epoch #260 | EpochTime 156.56 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.6734
Average/AverageReturn                     -21.0327
Average/Iteration                         260
Average/MaxReturn                          -6.59652
Average/MinReturn                         -36.6566
Average/NumEpisodes                       100
Average/StdReturn                           4.99818
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.516189
TotalEnvSteps                               2.61e+06
__unnamed_task__/AverageDiscountedReturn  -13.6734
__unnamed_task__/AverageReturn            -21.0327
__unnamed_task__/Iteration                260
__unnamed_task__/MaxReturn                 -6.59652
__unnamed_task__/MinReturn                -36.6566
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.99818
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.66645
policy/KL                                   0.0147851
policy/KLBefore                             0
policy/LossAfter                           -0.00802927
policy/LossBefore                          -0.00474507
policy/dLoss                                0.0032842
----------------------------------------  ------------
2025-04-03 03:40:33 | [rl2_trainer] epoch #261 | Optimizing policy...
2025-04-03 03:40:34 | [rl2_trainer] epoch #261 | Fitting baseline...
2025-04-03 03:40:34 | [rl2_trainer] epoch #261 | Computing loss before
2025-04-03 03:40:34 | [rl2_trainer] epoch #261 | Computing KL before
2025-04-03 03:40:35 | [rl2_trainer] epoch #261 | Optimizing
2025-04-03 03:41:10 | [rl2_trainer] epoch #261 | Computing KL after
2025-04-03 03:41:11 | [rl2_trainer] epoch #261 | Computing loss after
2025-04-03 03:41:11 | [rl2_trainer] epoch #261 | Saving snapshot...
2025-04-03 03:41:11 | [rl2_trainer] epoch #261 | Saved
2025-04-03 03:41:11 | [rl2_trainer] epoch #261 | Time 49752.48 s
2025-04-03 03:41:11 | [rl2_trainer] epoch #261 | EpochTime 216.23 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -12.4314
Average/AverageReturn                     -19.1498
Average/Iteration                         261
Average/MaxReturn                           0.465381
Average/MinReturn                         -31.6092
Average/NumEpisodes                       100
Average/StdReturn                           5.51715
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.594719
TotalEnvSteps                               2.62e+06
__unnamed_task__/AverageDiscountedReturn  -12.4314
__unnamed_task__/AverageReturn            -19.1498
__unnamed_task__/Iteration                261
__unnamed_task__/MaxReturn                  0.465381
__unnamed_task__/MinReturn                -31.6092
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.51715
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.64028
policy/KL                                   0.0100263
policy/KLBefore                             0
policy/LossAfter                           -0.0127625
policy/LossBefore                          -0.000951683
policy/dLoss                                0.0118108
----------------------------------------  -------------
2025-04-03 03:43:20 | [rl2_trainer] epoch #262 | Optimizing policy...
2025-04-03 03:43:21 | [rl2_trainer] epoch #262 | Fitting baseline...
2025-04-03 03:43:21 | [rl2_trainer] epoch #262 | Computing loss before
2025-04-03 03:43:21 | [rl2_trainer] epoch #262 | Computing KL before
2025-04-03 03:43:22 | [rl2_trainer] epoch #262 | Optimizing
2025-04-03 03:43:58 | [rl2_trainer] epoch #262 | Computing KL after
2025-04-03 03:43:58 | [rl2_trainer] epoch #262 | Computing loss after
2025-04-03 03:43:59 | [rl2_trainer] epoch #262 | Saving snapshot...
2025-04-03 03:43:59 | [rl2_trainer] epoch #262 | Saved
2025-04-03 03:43:59 | [rl2_trainer] epoch #262 | Time 49920.07 s
2025-04-03 03:43:59 | [rl2_trainer] epoch #262 | EpochTime 167.59 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.1129
Average/AverageReturn                     -19.8671
Average/Iteration                         262
Average/MaxReturn                           5.0481
Average/MinReturn                         -40.4285
Average/NumEpisodes                       100
Average/StdReturn                           5.348
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.418325
TotalEnvSteps                               2.63e+06
__unnamed_task__/AverageDiscountedReturn  -13.1129
__unnamed_task__/AverageReturn            -19.8671
__unnamed_task__/Iteration                262
__unnamed_task__/MaxReturn                  5.0481
__unnamed_task__/MinReturn                -40.4285
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.348
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.61845
policy/KL                                   0.0104906
policy/KLBefore                             0
policy/LossAfter                           -0.0218929
policy/LossBefore                          -0.00686109
policy/dLoss                                0.0150318
----------------------------------------  ------------
2025-04-03 03:46:16 | [rl2_trainer] epoch #263 | Optimizing policy...
2025-04-03 03:46:16 | [rl2_trainer] epoch #263 | Fitting baseline...
2025-04-03 03:46:16 | [rl2_trainer] epoch #263 | Computing loss before
2025-04-03 03:46:17 | [rl2_trainer] epoch #263 | Computing KL before
2025-04-03 03:46:18 | [rl2_trainer] epoch #263 | Optimizing
2025-04-03 03:46:54 | [rl2_trainer] epoch #263 | Computing KL after
2025-04-03 03:46:54 | [rl2_trainer] epoch #263 | Computing loss after
2025-04-03 03:46:55 | [rl2_trainer] epoch #263 | Saving snapshot...
2025-04-03 03:46:55 | [rl2_trainer] epoch #263 | Saved
2025-04-03 03:46:55 | [rl2_trainer] epoch #263 | Time 50096.40 s
2025-04-03 03:46:55 | [rl2_trainer] epoch #263 | EpochTime 176.33 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.1652
Average/AverageReturn                     -19.0865
Average/Iteration                         263
Average/MaxReturn                           0.720777
Average/MinReturn                         -30.7934
Average/NumEpisodes                       100
Average/StdReturn                           5.7018
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.569617
TotalEnvSteps                               2.64e+06
__unnamed_task__/AverageDiscountedReturn  -12.1652
__unnamed_task__/AverageReturn            -19.0865
__unnamed_task__/Iteration                263
__unnamed_task__/MaxReturn                  0.720777
__unnamed_task__/MinReturn                -30.7934
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.7018
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.59136
policy/KL                                   0.00807992
policy/KLBefore                             0
policy/LossAfter                           -0.0095732
policy/LossBefore                           0.00153416
policy/dLoss                                0.0111074
----------------------------------------  ------------
2025-04-03 03:48:23 | [rl2_trainer] epoch #264 | Optimizing policy...
2025-04-03 03:48:23 | [rl2_trainer] epoch #264 | Fitting baseline...
2025-04-03 03:48:23 | [rl2_trainer] epoch #264 | Computing loss before
2025-04-03 03:48:24 | [rl2_trainer] epoch #264 | Computing KL before
2025-04-03 03:48:24 | [rl2_trainer] epoch #264 | Optimizing
2025-04-03 03:49:00 | [rl2_trainer] epoch #264 | Computing KL after
2025-04-03 03:49:01 | [rl2_trainer] epoch #264 | Computing loss after
2025-04-03 03:49:02 | [rl2_trainer] epoch #264 | Saving snapshot...
2025-04-03 03:49:02 | [rl2_trainer] epoch #264 | Saved
2025-04-03 03:49:02 | [rl2_trainer] epoch #264 | Time 50222.94 s
2025-04-03 03:49:02 | [rl2_trainer] epoch #264 | EpochTime 126.54 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.9114
Average/AverageReturn                     -18.425
Average/Iteration                         264
Average/MaxReturn                           6.0458
Average/MinReturn                         -34.0431
Average/NumEpisodes                       100
Average/StdReturn                           5.86043
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.257333
TotalEnvSteps                               2.65e+06
__unnamed_task__/AverageDiscountedReturn  -11.9114
__unnamed_task__/AverageReturn            -18.425
__unnamed_task__/Iteration                264
__unnamed_task__/MaxReturn                  6.0458
__unnamed_task__/MinReturn                -34.0431
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.86043
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.5577
policy/KL                                   0.0118539
policy/KLBefore                             0
policy/LossAfter                           -0.0102941
policy/LossBefore                           0.00373122
policy/dLoss                                0.0140254
----------------------------------------  ------------
2025-04-03 03:51:25 | [rl2_trainer] epoch #265 | Optimizing policy...
2025-04-03 03:51:25 | [rl2_trainer] epoch #265 | Fitting baseline...
2025-04-03 03:51:25 | [rl2_trainer] epoch #265 | Computing loss before
2025-04-03 03:51:26 | [rl2_trainer] epoch #265 | Computing KL before
2025-04-03 03:51:27 | [rl2_trainer] epoch #265 | Optimizing
2025-04-03 03:52:02 | [rl2_trainer] epoch #265 | Computing KL after
2025-04-03 03:52:02 | [rl2_trainer] epoch #265 | Computing loss after
2025-04-03 03:52:03 | [rl2_trainer] epoch #265 | Saving snapshot...
2025-04-03 03:52:03 | [rl2_trainer] epoch #265 | Saved
2025-04-03 03:52:03 | [rl2_trainer] epoch #265 | Time 50404.24 s
2025-04-03 03:52:03 | [rl2_trainer] epoch #265 | EpochTime 181.30 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.4857
Average/AverageReturn                     -17.7321
Average/Iteration                         265
Average/MaxReturn                          -0.499633
Average/MinReturn                         -28.8048
Average/NumEpisodes                       100
Average/StdReturn                           5.48882
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.598993
TotalEnvSteps                               2.66e+06
__unnamed_task__/AverageDiscountedReturn  -11.4857
__unnamed_task__/AverageReturn            -17.7321
__unnamed_task__/Iteration                265
__unnamed_task__/MaxReturn                 -0.499633
__unnamed_task__/MinReturn                -28.8048
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.48882
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.54223
policy/KL                                   0.00899946
policy/KLBefore                             0
policy/LossAfter                           -0.021668
policy/LossBefore                          -0.00612284
policy/dLoss                                0.0155452
----------------------------------------  ------------
2025-04-03 03:55:58 | [rl2_trainer] epoch #266 | Optimizing policy...
2025-04-03 03:55:58 | [rl2_trainer] epoch #266 | Fitting baseline...
2025-04-03 03:55:58 | [rl2_trainer] epoch #266 | Computing loss before
2025-04-03 03:55:59 | [rl2_trainer] epoch #266 | Computing KL before
2025-04-03 03:55:59 | [rl2_trainer] epoch #266 | Optimizing
2025-04-03 03:56:35 | [rl2_trainer] epoch #266 | Computing KL after
2025-04-03 03:56:35 | [rl2_trainer] epoch #266 | Computing loss after
2025-04-03 03:56:36 | [rl2_trainer] epoch #266 | Saving snapshot...
2025-04-03 03:56:36 | [rl2_trainer] epoch #266 | Saved
2025-04-03 03:56:36 | [rl2_trainer] epoch #266 | Time 50677.22 s
2025-04-03 03:56:36 | [rl2_trainer] epoch #266 | EpochTime 272.98 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.9866
Average/AverageReturn                     -26.8433
Average/Iteration                         266
Average/MaxReturn                         -11.8367
Average/MinReturn                         -55.0437
Average/NumEpisodes                       100
Average/StdReturn                           8.73391
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.816
TotalEnvSteps                               2.67e+06
__unnamed_task__/AverageDiscountedReturn  -16.9866
__unnamed_task__/AverageReturn            -26.8433
__unnamed_task__/Iteration                266
__unnamed_task__/MaxReturn                -11.8367
__unnamed_task__/MinReturn                -55.0437
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.73391
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.54214
policy/KL                                   0.0112884
policy/KLBefore                             0
policy/LossAfter                           -0.0325854
policy/LossBefore                          -0.00650079
policy/dLoss                                0.0260847
----------------------------------------  ------------
2025-04-03 03:58:17 | [rl2_trainer] epoch #267 | Optimizing policy...
2025-04-03 03:58:17 | [rl2_trainer] epoch #267 | Fitting baseline...
2025-04-03 03:58:17 | [rl2_trainer] epoch #267 | Computing loss before
2025-04-03 03:58:18 | [rl2_trainer] epoch #267 | Computing KL before
2025-04-03 03:58:18 | [rl2_trainer] epoch #267 | Optimizing
2025-04-03 03:58:53 | [rl2_trainer] epoch #267 | Computing KL after
2025-04-03 03:58:54 | [rl2_trainer] epoch #267 | Computing loss after
2025-04-03 03:58:55 | [rl2_trainer] epoch #267 | Saving snapshot...
2025-04-03 03:58:55 | [rl2_trainer] epoch #267 | Saved
2025-04-03 03:58:55 | [rl2_trainer] epoch #267 | Time 50816.13 s
2025-04-03 03:58:55 | [rl2_trainer] epoch #267 | EpochTime 138.91 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.4992
Average/AverageReturn                     -19.1796
Average/Iteration                         267
Average/MaxReturn                          -0.942722
Average/MinReturn                         -29.6172
Average/NumEpisodes                       100
Average/StdReturn                           4.05971
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.461193
TotalEnvSteps                               2.68e+06
__unnamed_task__/AverageDiscountedReturn  -12.4992
__unnamed_task__/AverageReturn            -19.1796
__unnamed_task__/Iteration                267
__unnamed_task__/MaxReturn                 -0.942722
__unnamed_task__/MinReturn                -29.6172
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.05971
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.53205
policy/KL                                   0.00960769
policy/KLBefore                             0
policy/LossAfter                           -0.0169734
policy/LossBefore                          -0.00442086
policy/dLoss                                0.0125526
----------------------------------------  ------------
2025-04-03 04:01:03 | [rl2_trainer] epoch #268 | Optimizing policy...
2025-04-03 04:01:03 | [rl2_trainer] epoch #268 | Fitting baseline...
2025-04-03 04:01:03 | [rl2_trainer] epoch #268 | Computing loss before
2025-04-03 04:01:04 | [rl2_trainer] epoch #268 | Computing KL before
2025-04-03 04:01:04 | [rl2_trainer] epoch #268 | Optimizing
2025-04-03 04:01:39 | [rl2_trainer] epoch #268 | Computing KL after
2025-04-03 04:01:39 | [rl2_trainer] epoch #268 | Computing loss after
2025-04-03 04:01:40 | [rl2_trainer] epoch #268 | Saving snapshot...
2025-04-03 04:01:40 | [rl2_trainer] epoch #268 | Saved
2025-04-03 04:01:40 | [rl2_trainer] epoch #268 | Time 50981.27 s
2025-04-03 04:01:40 | [rl2_trainer] epoch #268 | EpochTime 165.15 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.5459
Average/AverageReturn                     -19.1244
Average/Iteration                         268
Average/MaxReturn                           7.50896
Average/MinReturn                         -31.9457
Average/NumEpisodes                       100
Average/StdReturn                           5.7237
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.681404
TotalEnvSteps                               2.69e+06
__unnamed_task__/AverageDiscountedReturn  -12.5459
__unnamed_task__/AverageReturn            -19.1244
__unnamed_task__/Iteration                268
__unnamed_task__/MaxReturn                  7.50896
__unnamed_task__/MinReturn                -31.9457
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.7237
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.51639
policy/KL                                   0.00733659
policy/KLBefore                             0
policy/LossAfter                           -0.0220934
policy/LossBefore                          -0.00955774
policy/dLoss                                0.0125356
----------------------------------------  ------------
2025-04-03 04:03:40 | [rl2_trainer] epoch #269 | Optimizing policy...
2025-04-03 04:03:41 | [rl2_trainer] epoch #269 | Fitting baseline...
2025-04-03 04:03:41 | [rl2_trainer] epoch #269 | Computing loss before
2025-04-03 04:03:41 | [rl2_trainer] epoch #269 | Computing KL before
2025-04-03 04:03:42 | [rl2_trainer] epoch #269 | Optimizing
2025-04-03 04:04:14 | [rl2_trainer] epoch #269 | Computing KL after
2025-04-03 04:04:14 | [rl2_trainer] epoch #269 | Computing loss after
2025-04-03 04:04:15 | [rl2_trainer] epoch #269 | Saving snapshot...
2025-04-03 04:04:15 | [rl2_trainer] epoch #269 | Saved
2025-04-03 04:04:15 | [rl2_trainer] epoch #269 | Time 51136.24 s
2025-04-03 04:04:15 | [rl2_trainer] epoch #269 | EpochTime 154.96 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.6863
Average/AverageReturn                     -21.0807
Average/Iteration                         269
Average/MaxReturn                          -8.80672
Average/MinReturn                         -34.3342
Average/NumEpisodes                       100
Average/StdReturn                           4.63992
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.544426
TotalEnvSteps                               2.7e+06
__unnamed_task__/AverageDiscountedReturn  -13.6863
__unnamed_task__/AverageReturn            -21.0807
__unnamed_task__/Iteration                269
__unnamed_task__/MaxReturn                 -8.80672
__unnamed_task__/MinReturn                -34.3342
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.63992
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.50266
policy/KL                                   0.00821178
policy/KLBefore                             0
policy/LossAfter                           -0.0120117
policy/LossBefore                          -0.00326091
policy/dLoss                                0.00875075
----------------------------------------  ------------
2025-04-03 04:07:15 | [rl2_trainer] epoch #270 | Optimizing policy...
2025-04-03 04:07:16 | [rl2_trainer] epoch #270 | Fitting baseline...
2025-04-03 04:07:16 | [rl2_trainer] epoch #270 | Computing loss before
2025-04-03 04:07:16 | [rl2_trainer] epoch #270 | Computing KL before
2025-04-03 04:07:17 | [rl2_trainer] epoch #270 | Optimizing
2025-04-03 04:07:52 | [rl2_trainer] epoch #270 | Computing KL after
2025-04-03 04:07:52 | [rl2_trainer] epoch #270 | Computing loss after
2025-04-03 04:07:53 | [rl2_trainer] epoch #270 | Saving snapshot...
2025-04-03 04:07:53 | [rl2_trainer] epoch #270 | Saved
2025-04-03 04:07:53 | [rl2_trainer] epoch #270 | Time 51354.34 s
2025-04-03 04:07:53 | [rl2_trainer] epoch #270 | EpochTime 218.10 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -12.3752
Average/AverageReturn                     -18.7877
Average/Iteration                         270
Average/MaxReturn                          15.8361
Average/MinReturn                         -45.1832
Average/NumEpisodes                       100
Average/StdReturn                           7.60137
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.7394
TotalEnvSteps                               2.71e+06
__unnamed_task__/AverageDiscountedReturn  -12.3752
__unnamed_task__/AverageReturn            -18.7877
__unnamed_task__/Iteration                270
__unnamed_task__/MaxReturn                 15.8361
__unnamed_task__/MinReturn                -45.1832
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.60137
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.4719
policy/KL                                   0.0092911
policy/KLBefore                             0
policy/LossAfter                           -0.0158536
policy/LossBefore                           0.000831949
policy/dLoss                                0.0166856
----------------------------------------  -------------
2025-04-03 04:09:19 | [rl2_trainer] epoch #271 | Optimizing policy...
2025-04-03 04:09:19 | [rl2_trainer] epoch #271 | Fitting baseline...
2025-04-03 04:09:19 | [rl2_trainer] epoch #271 | Computing loss before
2025-04-03 04:09:20 | [rl2_trainer] epoch #271 | Computing KL before
2025-04-03 04:09:20 | [rl2_trainer] epoch #271 | Optimizing
2025-04-03 04:09:56 | [rl2_trainer] epoch #271 | Computing KL after
2025-04-03 04:09:57 | [rl2_trainer] epoch #271 | Computing loss after
2025-04-03 04:09:58 | [rl2_trainer] epoch #271 | Saving snapshot...
2025-04-03 04:09:58 | [rl2_trainer] epoch #271 | Saved
2025-04-03 04:09:58 | [rl2_trainer] epoch #271 | Time 51478.86 s
2025-04-03 04:09:58 | [rl2_trainer] epoch #271 | EpochTime 124.52 s
----------------------------------------  -------------
Average/AverageDiscountedReturn            -12.9753
Average/AverageReturn                      -20.0089
Average/Iteration                          271
Average/MaxReturn                           -3.90282
Average/MinReturn                         -100.532
Average/NumEpisodes                        100
Average/StdReturn                            9.77208
Average/TerminationRate                      0
LinearFeatureBaseline/ExplainedVariance      0.524567
TotalEnvSteps                                2.72e+06
__unnamed_task__/AverageDiscountedReturn   -12.9753
__unnamed_task__/AverageReturn             -20.0089
__unnamed_task__/Iteration                 271
__unnamed_task__/MaxReturn                  -3.90282
__unnamed_task__/MinReturn                -100.532
__unnamed_task__/NumEpisodes               100
__unnamed_task__/StdReturn                   9.77208
__unnamed_task__/TerminationRate             0
policy/Entropy                               4.43838
policy/KL                                    0.0121416
policy/KLBefore                              0
policy/LossAfter                            -0.0266582
policy/LossBefore                            0.00130305
policy/dLoss                                 0.0279613
----------------------------------------  -------------
2025-04-03 04:12:56 | [rl2_trainer] epoch #272 | Optimizing policy...
2025-04-03 04:12:56 | [rl2_trainer] epoch #272 | Fitting baseline...
2025-04-03 04:12:56 | [rl2_trainer] epoch #272 | Computing loss before
2025-04-03 04:12:57 | [rl2_trainer] epoch #272 | Computing KL before
2025-04-03 04:12:57 | [rl2_trainer] epoch #272 | Optimizing
2025-04-03 04:13:34 | [rl2_trainer] epoch #272 | Computing KL after
2025-04-03 04:13:34 | [rl2_trainer] epoch #272 | Computing loss after
2025-04-03 04:13:35 | [rl2_trainer] epoch #272 | Saving snapshot...
2025-04-03 04:13:35 | [rl2_trainer] epoch #272 | Saved
2025-04-03 04:13:35 | [rl2_trainer] epoch #272 | Time 51696.28 s
2025-04-03 04:13:35 | [rl2_trainer] epoch #272 | EpochTime 217.41 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.0814
Average/AverageReturn                     -18.1382
Average/Iteration                         272
Average/MaxReturn                           0.0894818
Average/MinReturn                         -32.0966
Average/NumEpisodes                       100
Average/StdReturn                           5.3646
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.626535
TotalEnvSteps                               2.73e+06
__unnamed_task__/AverageDiscountedReturn  -12.0814
__unnamed_task__/AverageReturn            -18.1382
__unnamed_task__/Iteration                272
__unnamed_task__/MaxReturn                  0.0894818
__unnamed_task__/MinReturn                -32.0966
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.3646
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.42318
policy/KL                                   0.00921083
policy/KLBefore                             0
policy/LossAfter                           -0.0127565
policy/LossBefore                          -0.00170573
policy/dLoss                                0.0110508
----------------------------------------  ------------
2025-04-03 04:15:31 | [rl2_trainer] epoch #273 | Optimizing policy...
2025-04-03 04:15:32 | [rl2_trainer] epoch #273 | Fitting baseline...
2025-04-03 04:15:32 | [rl2_trainer] epoch #273 | Computing loss before
2025-04-03 04:15:32 | [rl2_trainer] epoch #273 | Computing KL before
2025-04-03 04:15:33 | [rl2_trainer] epoch #273 | Optimizing
2025-04-03 04:16:08 | [rl2_trainer] epoch #273 | Computing KL after
2025-04-03 04:16:08 | [rl2_trainer] epoch #273 | Computing loss after
2025-04-03 04:16:09 | [rl2_trainer] epoch #273 | Saving snapshot...
2025-04-03 04:16:09 | [rl2_trainer] epoch #273 | Saved
2025-04-03 04:16:09 | [rl2_trainer] epoch #273 | Time 51850.07 s
2025-04-03 04:16:09 | [rl2_trainer] epoch #273 | EpochTime 153.79 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.2165
Average/AverageReturn                     -18.7864
Average/Iteration                         273
Average/MaxReturn                           3.0222
Average/MinReturn                         -31.6089
Average/NumEpisodes                       100
Average/StdReturn                           4.88864
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.627209
TotalEnvSteps                               2.74e+06
__unnamed_task__/AverageDiscountedReturn  -12.2165
__unnamed_task__/AverageReturn            -18.7864
__unnamed_task__/Iteration                273
__unnamed_task__/MaxReturn                  3.0222
__unnamed_task__/MinReturn                -31.6089
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.88864
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.40757
policy/KL                                   0.0110818
policy/KLBefore                             0
policy/LossAfter                           -0.0148538
policy/LossBefore                          -0.00363322
policy/dLoss                                0.0112206
----------------------------------------  ------------
2025-04-03 04:19:11 | [rl2_trainer] epoch #274 | Optimizing policy...
2025-04-03 04:19:11 | [rl2_trainer] epoch #274 | Fitting baseline...
2025-04-03 04:19:11 | [rl2_trainer] epoch #274 | Computing loss before
2025-04-03 04:19:12 | [rl2_trainer] epoch #274 | Computing KL before
2025-04-03 04:19:12 | [rl2_trainer] epoch #274 | Optimizing
2025-04-03 04:19:48 | [rl2_trainer] epoch #274 | Computing KL after
2025-04-03 04:19:48 | [rl2_trainer] epoch #274 | Computing loss after
2025-04-03 04:19:49 | [rl2_trainer] epoch #274 | Saving snapshot...
2025-04-03 04:19:49 | [rl2_trainer] epoch #274 | Saved
2025-04-03 04:19:49 | [rl2_trainer] epoch #274 | Time 52070.35 s
2025-04-03 04:19:49 | [rl2_trainer] epoch #274 | EpochTime 220.28 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -11.3778
Average/AverageReturn                     -17.4708
Average/Iteration                         274
Average/MaxReturn                          -1.57062
Average/MinReturn                         -32.6554
Average/NumEpisodes                       100
Average/StdReturn                           4.87793
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.554996
TotalEnvSteps                               2.75e+06
__unnamed_task__/AverageDiscountedReturn  -11.3778
__unnamed_task__/AverageReturn            -17.4708
__unnamed_task__/Iteration                274
__unnamed_task__/MaxReturn                 -1.57062
__unnamed_task__/MinReturn                -32.6554
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.87793
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.38677
policy/KL                                   0.00931518
policy/KLBefore                             0
policy/LossAfter                           -0.00929668
policy/LossBefore                           0.000562379
policy/dLoss                                0.00985906
----------------------------------------  -------------
2025-04-03 04:24:02 | [rl2_trainer] epoch #275 | Optimizing policy...
2025-04-03 04:24:03 | [rl2_trainer] epoch #275 | Fitting baseline...
2025-04-03 04:24:03 | [rl2_trainer] epoch #275 | Computing loss before
2025-04-03 04:24:03 | [rl2_trainer] epoch #275 | Computing KL before
2025-04-03 04:24:04 | [rl2_trainer] epoch #275 | Optimizing
2025-04-03 04:24:40 | [rl2_trainer] epoch #275 | Computing KL after
2025-04-03 04:24:41 | [rl2_trainer] epoch #275 | Computing loss after
2025-04-03 04:24:42 | [rl2_trainer] epoch #275 | Saving snapshot...
2025-04-03 04:24:42 | [rl2_trainer] epoch #275 | Saved
2025-04-03 04:24:42 | [rl2_trainer] epoch #275 | Time 52362.79 s
2025-04-03 04:24:42 | [rl2_trainer] epoch #275 | EpochTime 292.43 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.4485
Average/AverageReturn                     -21.2088
Average/Iteration                         275
Average/MaxReturn                          12.5862
Average/MinReturn                         -62.0273
Average/NumEpisodes                       100
Average/StdReturn                          12.5919
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.805413
TotalEnvSteps                               2.76e+06
__unnamed_task__/AverageDiscountedReturn  -13.4485
__unnamed_task__/AverageReturn            -21.2088
__unnamed_task__/Iteration                275
__unnamed_task__/MaxReturn                 12.5862
__unnamed_task__/MinReturn                -62.0273
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.5919
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.36637
policy/KL                                   0.0149999
policy/KLBefore                             0
policy/LossAfter                           -0.0388677
policy/LossBefore                          -0.00674991
policy/dLoss                                0.0321177
----------------------------------------  ------------
2025-04-03 04:27:13 | [rl2_trainer] epoch #276 | Optimizing policy...
2025-04-03 04:27:13 | [rl2_trainer] epoch #276 | Fitting baseline...
2025-04-03 04:27:13 | [rl2_trainer] epoch #276 | Computing loss before
2025-04-03 04:27:14 | [rl2_trainer] epoch #276 | Computing KL before
2025-04-03 04:27:14 | [rl2_trainer] epoch #276 | Optimizing
2025-04-03 04:27:50 | [rl2_trainer] epoch #276 | Computing KL after
2025-04-03 04:27:51 | [rl2_trainer] epoch #276 | Computing loss after
2025-04-03 04:27:52 | [rl2_trainer] epoch #276 | Saving snapshot...
2025-04-03 04:27:52 | [rl2_trainer] epoch #276 | Saved
2025-04-03 04:27:52 | [rl2_trainer] epoch #276 | Time 52552.91 s
2025-04-03 04:27:52 | [rl2_trainer] epoch #276 | EpochTime 190.12 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.1489
Average/AverageReturn                     -15.612
Average/Iteration                         276
Average/MaxReturn                           5.35715
Average/MinReturn                         -28.3817
Average/NumEpisodes                       100
Average/StdReturn                           5.39606
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.403534
TotalEnvSteps                               2.77e+06
__unnamed_task__/AverageDiscountedReturn  -10.1489
__unnamed_task__/AverageReturn            -15.612
__unnamed_task__/Iteration                276
__unnamed_task__/MaxReturn                  5.35715
__unnamed_task__/MinReturn                -28.3817
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.39606
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.35947
policy/KL                                   0.0131636
policy/KLBefore                             0
policy/LossAfter                           -0.0219249
policy/LossBefore                          -0.00437714
policy/dLoss                                0.0175478
----------------------------------------  ------------
2025-04-03 04:32:11 | [rl2_trainer] epoch #277 | Optimizing policy...
2025-04-03 04:32:12 | [rl2_trainer] epoch #277 | Fitting baseline...
2025-04-03 04:32:12 | [rl2_trainer] epoch #277 | Computing loss before
2025-04-03 04:32:12 | [rl2_trainer] epoch #277 | Computing KL before
2025-04-03 04:32:13 | [rl2_trainer] epoch #277 | Optimizing
2025-04-03 04:32:49 | [rl2_trainer] epoch #277 | Computing KL after
2025-04-03 04:32:50 | [rl2_trainer] epoch #277 | Computing loss after
2025-04-03 04:32:51 | [rl2_trainer] epoch #277 | Saving snapshot...
2025-04-03 04:32:51 | [rl2_trainer] epoch #277 | Saved
2025-04-03 04:32:51 | [rl2_trainer] epoch #277 | Time 52851.56 s
2025-04-03 04:32:51 | [rl2_trainer] epoch #277 | EpochTime 298.65 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.6096
Average/AverageReturn                     -21.6235
Average/Iteration                         277
Average/MaxReturn                          23.4637
Average/MinReturn                         -60.1246
Average/NumEpisodes                       100
Average/StdReturn                          12.3402
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.802978
TotalEnvSteps                               2.78e+06
__unnamed_task__/AverageDiscountedReturn  -13.6096
__unnamed_task__/AverageReturn            -21.6235
__unnamed_task__/Iteration                277
__unnamed_task__/MaxReturn                 23.4637
__unnamed_task__/MinReturn                -60.1246
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.3402
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.34984
policy/KL                                   0.0119892
policy/KLBefore                             0
policy/LossAfter                           -0.0538291
policy/LossBefore                          -0.00641887
policy/dLoss                                0.0474102
----------------------------------------  ------------
2025-04-03 04:35:52 | [rl2_trainer] epoch #278 | Optimizing policy...
2025-04-03 04:35:53 | [rl2_trainer] epoch #278 | Fitting baseline...
2025-04-03 04:35:53 | [rl2_trainer] epoch #278 | Computing loss before
2025-04-03 04:35:53 | [rl2_trainer] epoch #278 | Computing KL before
2025-04-03 04:35:54 | [rl2_trainer] epoch #278 | Optimizing
2025-04-03 04:36:30 | [rl2_trainer] epoch #278 | Computing KL after
2025-04-03 04:36:31 | [rl2_trainer] epoch #278 | Computing loss after
2025-04-03 04:36:32 | [rl2_trainer] epoch #278 | Saving snapshot...
2025-04-03 04:36:32 | [rl2_trainer] epoch #278 | Saved
2025-04-03 04:36:32 | [rl2_trainer] epoch #278 | Time 53072.85 s
2025-04-03 04:36:32 | [rl2_trainer] epoch #278 | EpochTime 221.28 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.8599
Average/AverageReturn                     -16.3064
Average/Iteration                         278
Average/MaxReturn                          10.3163
Average/MinReturn                         -37.2996
Average/NumEpisodes                       100
Average/StdReturn                           5.69902
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.484039
TotalEnvSteps                               2.79e+06
__unnamed_task__/AverageDiscountedReturn  -10.8599
__unnamed_task__/AverageReturn            -16.3064
__unnamed_task__/Iteration                278
__unnamed_task__/MaxReturn                 10.3163
__unnamed_task__/MinReturn                -37.2996
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.69902
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.32378
policy/KL                                   0.00964138
policy/KLBefore                             0
policy/LossAfter                           -0.00627281
policy/LossBefore                           0.0050497
policy/dLoss                                0.0113225
----------------------------------------  ------------
2025-04-03 04:38:57 | [rl2_trainer] epoch #279 | Optimizing policy...
2025-04-03 04:38:58 | [rl2_trainer] epoch #279 | Fitting baseline...
2025-04-03 04:38:58 | [rl2_trainer] epoch #279 | Computing loss before
2025-04-03 04:38:58 | [rl2_trainer] epoch #279 | Computing KL before
2025-04-03 04:38:59 | [rl2_trainer] epoch #279 | Optimizing
2025-04-03 04:39:35 | [rl2_trainer] epoch #279 | Computing KL after
2025-04-03 04:39:36 | [rl2_trainer] epoch #279 | Computing loss after
2025-04-03 04:39:36 | [rl2_trainer] epoch #279 | Saving snapshot...
2025-04-03 04:39:36 | [rl2_trainer] epoch #279 | Saved
2025-04-03 04:39:36 | [rl2_trainer] epoch #279 | Time 53257.43 s
2025-04-03 04:39:36 | [rl2_trainer] epoch #279 | EpochTime 184.58 s
----------------------------------------  -------------
Average/AverageDiscountedReturn            -15.2397
Average/AverageReturn                      -23.8388
Average/Iteration                          279
Average/MaxReturn                            3.35848
Average/MinReturn                         -100.473
Average/NumEpisodes                        100
Average/StdReturn                           13.9577
Average/TerminationRate                      0
LinearFeatureBaseline/ExplainedVariance      0.774561
TotalEnvSteps                                2.8e+06
__unnamed_task__/AverageDiscountedReturn   -15.2397
__unnamed_task__/AverageReturn             -23.8388
__unnamed_task__/Iteration                 279
__unnamed_task__/MaxReturn                   3.35848
__unnamed_task__/MinReturn                -100.473
__unnamed_task__/NumEpisodes               100
__unnamed_task__/StdReturn                  13.9577
__unnamed_task__/TerminationRate             0
policy/Entropy                               4.32598
policy/KL                                    0.0142345
policy/KLBefore                              0
policy/LossAfter                            -0.0465131
policy/LossBefore                            0.00236031
policy/dLoss                                 0.0488734
----------------------------------------  -------------
2025-04-03 04:42:30 | [rl2_trainer] epoch #280 | Optimizing policy...
2025-04-03 04:42:30 | [rl2_trainer] epoch #280 | Fitting baseline...
2025-04-03 04:42:30 | [rl2_trainer] epoch #280 | Computing loss before
2025-04-03 04:42:31 | [rl2_trainer] epoch #280 | Computing KL before
2025-04-03 04:42:31 | [rl2_trainer] epoch #280 | Optimizing
2025-04-03 04:43:08 | [rl2_trainer] epoch #280 | Computing KL after
2025-04-03 04:43:08 | [rl2_trainer] epoch #280 | Computing loss after
2025-04-03 04:43:09 | [rl2_trainer] epoch #280 | Saving snapshot...
2025-04-03 04:43:09 | [rl2_trainer] epoch #280 | Saved
2025-04-03 04:43:09 | [rl2_trainer] epoch #280 | Time 53470.36 s
2025-04-03 04:43:09 | [rl2_trainer] epoch #280 | EpochTime 212.92 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.6451
Average/AverageReturn                     -26.5955
Average/Iteration                         280
Average/MaxReturn                         -14.8369
Average/MinReturn                         -60.865
Average/NumEpisodes                       100
Average/StdReturn                           7.8333
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.771622
TotalEnvSteps                               2.81e+06
__unnamed_task__/AverageDiscountedReturn  -16.6451
__unnamed_task__/AverageReturn            -26.5955
__unnamed_task__/Iteration                280
__unnamed_task__/MaxReturn                -14.8369
__unnamed_task__/MinReturn                -60.865
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.8333
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.3342
policy/KL                                   0.0124622
policy/KLBefore                             0
policy/LossAfter                           -0.025292
policy/LossBefore                           0.00584109
policy/dLoss                                0.0311331
----------------------------------------  ------------
2025-04-03 04:45:06 | [rl2_trainer] epoch #281 | Optimizing policy...
2025-04-03 04:45:07 | [rl2_trainer] epoch #281 | Fitting baseline...
2025-04-03 04:45:07 | [rl2_trainer] epoch #281 | Computing loss before
2025-04-03 04:45:07 | [rl2_trainer] epoch #281 | Computing KL before
2025-04-03 04:45:08 | [rl2_trainer] epoch #281 | Optimizing
2025-04-03 04:45:43 | [rl2_trainer] epoch #281 | Computing KL after
2025-04-03 04:45:44 | [rl2_trainer] epoch #281 | Computing loss after
2025-04-03 04:45:45 | [rl2_trainer] epoch #281 | Saving snapshot...
2025-04-03 04:45:45 | [rl2_trainer] epoch #281 | Saved
2025-04-03 04:45:45 | [rl2_trainer] epoch #281 | Time 53625.82 s
2025-04-03 04:45:45 | [rl2_trainer] epoch #281 | EpochTime 155.45 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.2314
Average/AverageReturn                     -18.6378
Average/Iteration                         281
Average/MaxReturn                           9.64734
Average/MinReturn                         -32.5916
Average/NumEpisodes                       100
Average/StdReturn                           6.0151
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.544703
TotalEnvSteps                               2.82e+06
__unnamed_task__/AverageDiscountedReturn  -12.2314
__unnamed_task__/AverageReturn            -18.6378
__unnamed_task__/Iteration                281
__unnamed_task__/MaxReturn                  9.64734
__unnamed_task__/MinReturn                -32.5916
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.0151
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.32539
policy/KL                                   0.0107281
policy/KLBefore                             0
policy/LossAfter                           -0.0216688
policy/LossBefore                          -0.00473996
policy/dLoss                                0.0169289
----------------------------------------  ------------
2025-04-03 04:48:41 | [rl2_trainer] epoch #282 | Optimizing policy...
2025-04-03 04:48:41 | [rl2_trainer] epoch #282 | Fitting baseline...
2025-04-03 04:48:41 | [rl2_trainer] epoch #282 | Computing loss before
2025-04-03 04:48:42 | [rl2_trainer] epoch #282 | Computing KL before
2025-04-03 04:48:42 | [rl2_trainer] epoch #282 | Optimizing
2025-04-03 04:49:17 | [rl2_trainer] epoch #282 | Computing KL after
2025-04-03 04:49:18 | [rl2_trainer] epoch #282 | Computing loss after
2025-04-03 04:49:19 | [rl2_trainer] epoch #282 | Saving snapshot...
2025-04-03 04:49:19 | [rl2_trainer] epoch #282 | Saved
2025-04-03 04:49:19 | [rl2_trainer] epoch #282 | Time 53839.64 s
2025-04-03 04:49:19 | [rl2_trainer] epoch #282 | EpochTime 213.82 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.2435
Average/AverageReturn                     -25.9825
Average/Iteration                         282
Average/MaxReturn                          -5.79522
Average/MinReturn                         -46.401
Average/NumEpisodes                       100
Average/StdReturn                           8.43216
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.590484
TotalEnvSteps                               2.83e+06
__unnamed_task__/AverageDiscountedReturn  -16.2435
__unnamed_task__/AverageReturn            -25.9825
__unnamed_task__/Iteration                282
__unnamed_task__/MaxReturn                 -5.79522
__unnamed_task__/MinReturn                -46.401
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.43216
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.32833
policy/KL                                   0.0118602
policy/KLBefore                             0
policy/LossAfter                           -0.0567107
policy/LossBefore                          -0.00343568
policy/dLoss                                0.053275
----------------------------------------  ------------
2025-04-03 04:51:33 | [rl2_trainer] epoch #283 | Optimizing policy...
2025-04-03 04:51:33 | [rl2_trainer] epoch #283 | Fitting baseline...
2025-04-03 04:51:33 | [rl2_trainer] epoch #283 | Computing loss before
2025-04-03 04:51:33 | [rl2_trainer] epoch #283 | Computing KL before
2025-04-03 04:51:34 | [rl2_trainer] epoch #283 | Optimizing
2025-04-03 04:52:11 | [rl2_trainer] epoch #283 | Computing KL after
2025-04-03 04:52:11 | [rl2_trainer] epoch #283 | Computing loss after
2025-04-03 04:52:12 | [rl2_trainer] epoch #283 | Saving snapshot...
2025-04-03 04:52:12 | [rl2_trainer] epoch #283 | Saved
2025-04-03 04:52:12 | [rl2_trainer] epoch #283 | Time 54013.20 s
2025-04-03 04:52:12 | [rl2_trainer] epoch #283 | EpochTime 173.56 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -13.2939
Average/AverageReturn                     -20.1707
Average/Iteration                         283
Average/MaxReturn                          -8.76647
Average/MinReturn                         -34.0971
Average/NumEpisodes                       100
Average/StdReturn                           4.73652
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.550013
TotalEnvSteps                               2.84e+06
__unnamed_task__/AverageDiscountedReturn  -13.2939
__unnamed_task__/AverageReturn            -20.1707
__unnamed_task__/Iteration                283
__unnamed_task__/MaxReturn                 -8.76647
__unnamed_task__/MinReturn                -34.0971
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.73652
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.33045
policy/KL                                   0.0100129
policy/KLBefore                             0
policy/LossAfter                           -0.019563
policy/LossBefore                          -0.0063035
policy/dLoss                                0.0132595
----------------------------------------  -----------
2025-04-03 04:53:41 | [rl2_trainer] epoch #284 | Optimizing policy...
2025-04-03 04:53:41 | [rl2_trainer] epoch #284 | Fitting baseline...
2025-04-03 04:53:41 | [rl2_trainer] epoch #284 | Computing loss before
2025-04-03 04:53:42 | [rl2_trainer] epoch #284 | Computing KL before
2025-04-03 04:53:42 | [rl2_trainer] epoch #284 | Optimizing
2025-04-03 04:54:18 | [rl2_trainer] epoch #284 | Computing KL after
2025-04-03 04:54:19 | [rl2_trainer] epoch #284 | Computing loss after
2025-04-03 04:54:19 | [rl2_trainer] epoch #284 | Saving snapshot...
2025-04-03 04:54:19 | [rl2_trainer] epoch #284 | Saved
2025-04-03 04:54:19 | [rl2_trainer] epoch #284 | Time 54140.47 s
2025-04-03 04:54:19 | [rl2_trainer] epoch #284 | EpochTime 127.27 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -11.2314
Average/AverageReturn                     -17.2004
Average/Iteration                         284
Average/MaxReturn                          20.9645
Average/MinReturn                         -52.7551
Average/NumEpisodes                       100
Average/StdReturn                           8.29792
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.526494
TotalEnvSteps                               2.85e+06
__unnamed_task__/AverageDiscountedReturn  -11.2314
__unnamed_task__/AverageReturn            -17.2004
__unnamed_task__/Iteration                284
__unnamed_task__/MaxReturn                 20.9645
__unnamed_task__/MinReturn                -52.7551
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.29792
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.30814
policy/KL                                   0.013195
policy/KLBefore                             0
policy/LossAfter                           -0.0428409
policy/LossBefore                          -0.0134755
policy/dLoss                                0.0293654
----------------------------------------  -----------
2025-04-03 04:58:03 | [rl2_trainer] epoch #285 | Optimizing policy...
2025-04-03 04:58:03 | [rl2_trainer] epoch #285 | Fitting baseline...
2025-04-03 04:58:03 | [rl2_trainer] epoch #285 | Computing loss before
2025-04-03 04:58:04 | [rl2_trainer] epoch #285 | Computing KL before
2025-04-03 04:58:05 | [rl2_trainer] epoch #285 | Optimizing
2025-04-03 04:58:41 | [rl2_trainer] epoch #285 | Computing KL after
2025-04-03 04:58:42 | [rl2_trainer] epoch #285 | Computing loss after
2025-04-03 04:58:42 | [rl2_trainer] epoch #285 | Saving snapshot...
2025-04-03 04:58:42 | [rl2_trainer] epoch #285 | Saved
2025-04-03 04:58:42 | [rl2_trainer] epoch #285 | Time 54403.50 s
2025-04-03 04:58:42 | [rl2_trainer] epoch #285 | EpochTime 263.03 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.1294
Average/AverageReturn                     -22.0122
Average/Iteration                         285
Average/MaxReturn                           5.20203
Average/MinReturn                         -85.4294
Average/NumEpisodes                       100
Average/StdReturn                          14.0135
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.791212
TotalEnvSteps                               2.86e+06
__unnamed_task__/AverageDiscountedReturn  -14.1294
__unnamed_task__/AverageReturn            -22.0122
__unnamed_task__/Iteration                285
__unnamed_task__/MaxReturn                  5.20203
__unnamed_task__/MinReturn                -85.4294
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 14.0135
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.26473
policy/KL                                   0.0165958
policy/KLBefore                             0
policy/LossAfter                           -0.0418866
policy/LossBefore                          -0.00366367
policy/dLoss                                0.038223
----------------------------------------  ------------
2025-04-03 05:01:41 | [rl2_trainer] epoch #286 | Optimizing policy...
2025-04-03 05:01:41 | [rl2_trainer] epoch #286 | Fitting baseline...
2025-04-03 05:01:41 | [rl2_trainer] epoch #286 | Computing loss before
2025-04-03 05:01:42 | [rl2_trainer] epoch #286 | Computing KL before
2025-04-03 05:01:42 | [rl2_trainer] epoch #286 | Optimizing
2025-04-03 05:02:18 | [rl2_trainer] epoch #286 | Computing KL after
2025-04-03 05:02:19 | [rl2_trainer] epoch #286 | Computing loss after
2025-04-03 05:02:20 | [rl2_trainer] epoch #286 | Saving snapshot...
2025-04-03 05:02:20 | [rl2_trainer] epoch #286 | Saved
2025-04-03 05:02:20 | [rl2_trainer] epoch #286 | Time 54620.55 s
2025-04-03 05:02:20 | [rl2_trainer] epoch #286 | EpochTime 217.05 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.3149
Average/AverageReturn                     -16.8428
Average/Iteration                         286
Average/MaxReturn                           5.94491
Average/MinReturn                         -43.1214
Average/NumEpisodes                       100
Average/StdReturn                           7.11001
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.478504
TotalEnvSteps                               2.87e+06
__unnamed_task__/AverageDiscountedReturn  -11.3149
__unnamed_task__/AverageReturn            -16.8428
__unnamed_task__/Iteration                286
__unnamed_task__/MaxReturn                  5.94491
__unnamed_task__/MinReturn                -43.1214
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.11001
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.221
policy/KL                                   0.0120421
policy/KLBefore                             0
policy/LossAfter                           -0.0269588
policy/LossBefore                          -0.00975812
policy/dLoss                                0.0172007
----------------------------------------  ------------
2025-04-03 05:03:46 | [rl2_trainer] epoch #287 | Optimizing policy...
2025-04-03 05:03:46 | [rl2_trainer] epoch #287 | Fitting baseline...
2025-04-03 05:03:46 | [rl2_trainer] epoch #287 | Computing loss before
2025-04-03 05:03:47 | [rl2_trainer] epoch #287 | Computing KL before
2025-04-03 05:03:47 | [rl2_trainer] epoch #287 | Optimizing
2025-04-03 05:04:22 | [rl2_trainer] epoch #287 | Computing KL after
2025-04-03 05:04:23 | [rl2_trainer] epoch #287 | Computing loss after
2025-04-03 05:04:24 | [rl2_trainer] epoch #287 | Saving snapshot...
2025-04-03 05:04:24 | [rl2_trainer] epoch #287 | Saved
2025-04-03 05:04:24 | [rl2_trainer] epoch #287 | Time 54745.03 s
2025-04-03 05:04:24 | [rl2_trainer] epoch #287 | EpochTime 124.47 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.1588
Average/AverageReturn                     -16.878
Average/Iteration                         287
Average/MaxReturn                           4.13933
Average/MinReturn                         -29.8201
Average/NumEpisodes                       100
Average/StdReturn                           6.02725
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.708028
TotalEnvSteps                               2.88e+06
__unnamed_task__/AverageDiscountedReturn  -11.1588
__unnamed_task__/AverageReturn            -16.878
__unnamed_task__/Iteration                287
__unnamed_task__/MaxReturn                  4.13933
__unnamed_task__/MinReturn                -29.8201
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.02725
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.18539
policy/KL                                   0.0129155
policy/KLBefore                             0
policy/LossAfter                           -0.00767672
policy/LossBefore                          -0.00130688
policy/dLoss                                0.00636984
----------------------------------------  ------------
2025-04-03 05:07:15 | [rl2_trainer] epoch #288 | Optimizing policy...
2025-04-03 05:07:15 | [rl2_trainer] epoch #288 | Fitting baseline...
2025-04-03 05:07:15 | [rl2_trainer] epoch #288 | Computing loss before
2025-04-03 05:07:16 | [rl2_trainer] epoch #288 | Computing KL before
2025-04-03 05:07:16 | [rl2_trainer] epoch #288 | Optimizing
2025-04-03 05:07:49 | [rl2_trainer] epoch #288 | Computing KL after
2025-04-03 05:07:49 | [rl2_trainer] epoch #288 | Computing loss after
2025-04-03 05:07:50 | [rl2_trainer] epoch #288 | Saving snapshot...
2025-04-03 05:07:50 | [rl2_trainer] epoch #288 | Saved
2025-04-03 05:07:50 | [rl2_trainer] epoch #288 | Time 54951.33 s
2025-04-03 05:07:50 | [rl2_trainer] epoch #288 | EpochTime 206.30 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.696
Average/AverageReturn                     -25.035
Average/Iteration                         288
Average/MaxReturn                          17.8321
Average/MinReturn                         -47.6497
Average/NumEpisodes                       100
Average/StdReturn                          10.5419
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.768141
TotalEnvSteps                               2.89e+06
__unnamed_task__/AverageDiscountedReturn  -15.696
__unnamed_task__/AverageReturn            -25.035
__unnamed_task__/Iteration                288
__unnamed_task__/MaxReturn                 17.8321
__unnamed_task__/MinReturn                -47.6497
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.5419
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.14145
policy/KL                                   0.0113981
policy/KLBefore                             0
policy/LossAfter                           -0.0146038
policy/LossBefore                           0.00544518
policy/dLoss                                0.0200489
----------------------------------------  ------------
2025-04-03 05:11:26 | [rl2_trainer] epoch #289 | Optimizing policy...
2025-04-03 05:11:27 | [rl2_trainer] epoch #289 | Fitting baseline...
2025-04-03 05:11:27 | [rl2_trainer] epoch #289 | Computing loss before
2025-04-03 05:11:27 | [rl2_trainer] epoch #289 | Computing KL before
2025-04-03 05:11:28 | [rl2_trainer] epoch #289 | Optimizing
2025-04-03 05:12:04 | [rl2_trainer] epoch #289 | Computing KL after
2025-04-03 05:12:05 | [rl2_trainer] epoch #289 | Computing loss after
2025-04-03 05:12:06 | [rl2_trainer] epoch #289 | Saving snapshot...
2025-04-03 05:12:06 | [rl2_trainer] epoch #289 | Saved
2025-04-03 05:12:06 | [rl2_trainer] epoch #289 | Time 55206.54 s
2025-04-03 05:12:06 | [rl2_trainer] epoch #289 | EpochTime 255.20 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.4918
Average/AverageReturn                     -24.1319
Average/Iteration                         289
Average/MaxReturn                           8.69168
Average/MinReturn                         -70.9132
Average/NumEpisodes                       100
Average/StdReturn                          10.0286
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.793019
TotalEnvSteps                               2.9e+06
__unnamed_task__/AverageDiscountedReturn  -15.4918
__unnamed_task__/AverageReturn            -24.1319
__unnamed_task__/Iteration                289
__unnamed_task__/MaxReturn                  8.69168
__unnamed_task__/MinReturn                -70.9132
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.0286
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.10759
policy/KL                                   0.0119755
policy/KLBefore                             0
policy/LossAfter                           -0.02778
policy/LossBefore                          -0.00407551
policy/dLoss                                0.0237045
----------------------------------------  ------------
2025-04-03 05:14:34 | [rl2_trainer] epoch #290 | Optimizing policy...
2025-04-03 05:14:35 | [rl2_trainer] epoch #290 | Fitting baseline...
2025-04-03 05:14:35 | [rl2_trainer] epoch #290 | Computing loss before
2025-04-03 05:14:35 | [rl2_trainer] epoch #290 | Computing KL before
2025-04-03 05:14:36 | [rl2_trainer] epoch #290 | Optimizing
2025-04-03 05:15:11 | [rl2_trainer] epoch #290 | Computing KL after
2025-04-03 05:15:11 | [rl2_trainer] epoch #290 | Computing loss after
2025-04-03 05:15:12 | [rl2_trainer] epoch #290 | Saving snapshot...
2025-04-03 05:15:12 | [rl2_trainer] epoch #290 | Saved
2025-04-03 05:15:12 | [rl2_trainer] epoch #290 | Time 55393.14 s
2025-04-03 05:15:12 | [rl2_trainer] epoch #290 | EpochTime 186.60 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -9.4202
Average/AverageReturn                     -13.929
Average/Iteration                         290
Average/MaxReturn                          28.562
Average/MinReturn                         -25.9745
Average/NumEpisodes                       100
Average/StdReturn                           7.18746
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.440738
TotalEnvSteps                               2.91e+06
__unnamed_task__/AverageDiscountedReturn   -9.4202
__unnamed_task__/AverageReturn            -13.929
__unnamed_task__/Iteration                290
__unnamed_task__/MaxReturn                 28.562
__unnamed_task__/MinReturn                -25.9745
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.18746
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.07665
policy/KL                                   0.0126477
policy/KLBefore                             0
policy/LossAfter                           -0.01804
policy/LossBefore                           0.00715746
policy/dLoss                                0.0251975
----------------------------------------  ------------
2025-04-03 05:17:40 | [rl2_trainer] epoch #291 | Optimizing policy...
2025-04-03 05:17:40 | [rl2_trainer] epoch #291 | Fitting baseline...
2025-04-03 05:17:40 | [rl2_trainer] epoch #291 | Computing loss before
2025-04-03 05:17:41 | [rl2_trainer] epoch #291 | Computing KL before
2025-04-03 05:17:41 | [rl2_trainer] epoch #291 | Optimizing
2025-04-03 05:18:18 | [rl2_trainer] epoch #291 | Computing KL after
2025-04-03 05:18:18 | [rl2_trainer] epoch #291 | Computing loss after
2025-04-03 05:18:19 | [rl2_trainer] epoch #291 | Saving snapshot...
2025-04-03 05:18:19 | [rl2_trainer] epoch #291 | Saved
2025-04-03 05:18:19 | [rl2_trainer] epoch #291 | Time 55580.10 s
2025-04-03 05:18:19 | [rl2_trainer] epoch #291 | EpochTime 186.95 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.7282
Average/AverageReturn                     -16.3608
Average/Iteration                         291
Average/MaxReturn                           7.60615
Average/MinReturn                         -29.9097
Average/NumEpisodes                       100
Average/StdReturn                           6.18585
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.389977
TotalEnvSteps                               2.92e+06
__unnamed_task__/AverageDiscountedReturn  -10.7282
__unnamed_task__/AverageReturn            -16.3608
__unnamed_task__/Iteration                291
__unnamed_task__/MaxReturn                  7.60615
__unnamed_task__/MinReturn                -29.9097
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.18585
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.06861
policy/KL                                   0.0119049
policy/KLBefore                             0
policy/LossAfter                           -0.0245447
policy/LossBefore                           0.00178886
policy/dLoss                                0.0263336
----------------------------------------  ------------
2025-04-03 05:20:17 | [rl2_trainer] epoch #292 | Optimizing policy...
2025-04-03 05:20:17 | [rl2_trainer] epoch #292 | Fitting baseline...
2025-04-03 05:20:17 | [rl2_trainer] epoch #292 | Computing loss before
2025-04-03 05:20:18 | [rl2_trainer] epoch #292 | Computing KL before
2025-04-03 05:20:18 | [rl2_trainer] epoch #292 | Optimizing
2025-04-03 05:20:53 | [rl2_trainer] epoch #292 | Computing KL after
2025-04-03 05:20:54 | [rl2_trainer] epoch #292 | Computing loss after
2025-04-03 05:20:55 | [rl2_trainer] epoch #292 | Saving snapshot...
2025-04-03 05:20:55 | [rl2_trainer] epoch #292 | Saved
2025-04-03 05:20:55 | [rl2_trainer] epoch #292 | Time 55735.67 s
2025-04-03 05:20:55 | [rl2_trainer] epoch #292 | EpochTime 155.57 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.9666
Average/AverageReturn                     -19.599
Average/Iteration                         292
Average/MaxReturn                          -4.03983
Average/MinReturn                         -39.1045
Average/NumEpisodes                       100
Average/StdReturn                           5.85573
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.49776
TotalEnvSteps                               2.93e+06
__unnamed_task__/AverageDiscountedReturn  -12.9666
__unnamed_task__/AverageReturn            -19.599
__unnamed_task__/Iteration                292
__unnamed_task__/MaxReturn                 -4.03983
__unnamed_task__/MinReturn                -39.1045
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.85573
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.06309
policy/KL                                   0.0135873
policy/KLBefore                             0
policy/LossAfter                           -0.0205301
policy/LossBefore                           0.00192239
policy/dLoss                                0.0224525
----------------------------------------  ------------
2025-04-03 05:23:22 | [rl2_trainer] epoch #293 | Optimizing policy...
2025-04-03 05:23:23 | [rl2_trainer] epoch #293 | Fitting baseline...
2025-04-03 05:23:23 | [rl2_trainer] epoch #293 | Computing loss before
2025-04-03 05:23:23 | [rl2_trainer] epoch #293 | Computing KL before
2025-04-03 05:23:24 | [rl2_trainer] epoch #293 | Optimizing
2025-04-03 05:24:00 | [rl2_trainer] epoch #293 | Computing KL after
2025-04-03 05:24:01 | [rl2_trainer] epoch #293 | Computing loss after
2025-04-03 05:24:02 | [rl2_trainer] epoch #293 | Saving snapshot...
2025-04-03 05:24:02 | [rl2_trainer] epoch #293 | Saved
2025-04-03 05:24:02 | [rl2_trainer] epoch #293 | Time 55922.78 s
2025-04-03 05:24:02 | [rl2_trainer] epoch #293 | EpochTime 187.10 s
----------------------------------------  -------------
Average/AverageDiscountedReturn            -11.2188
Average/AverageReturn                      -16.5006
Average/Iteration                          293
Average/MaxReturn                           10.4997
Average/MinReturn                         -149.451
Average/NumEpisodes                        100
Average/StdReturn                           14.5732
Average/TerminationRate                      0
LinearFeatureBaseline/ExplainedVariance      0.408542
TotalEnvSteps                                2.94e+06
__unnamed_task__/AverageDiscountedReturn   -11.2188
__unnamed_task__/AverageReturn             -16.5006
__unnamed_task__/Iteration                 293
__unnamed_task__/MaxReturn                  10.4997
__unnamed_task__/MinReturn                -149.451
__unnamed_task__/NumEpisodes               100
__unnamed_task__/StdReturn                  14.5732
__unnamed_task__/TerminationRate             0
policy/Entropy                               4.0696
policy/KL                                    0.0250837
policy/KLBefore                              0
policy/LossAfter                            -0.0623918
policy/LossBefore                           -0.00700516
policy/dLoss                                 0.0553866
----------------------------------------  -------------
2025-04-03 05:27:20 | [rl2_trainer] epoch #294 | Optimizing policy...
2025-04-03 05:27:20 | [rl2_trainer] epoch #294 | Fitting baseline...
2025-04-03 05:27:20 | [rl2_trainer] epoch #294 | Computing loss before
2025-04-03 05:27:21 | [rl2_trainer] epoch #294 | Computing KL before
2025-04-03 05:27:21 | [rl2_trainer] epoch #294 | Optimizing
2025-04-03 05:27:58 | [rl2_trainer] epoch #294 | Computing KL after
2025-04-03 05:27:58 | [rl2_trainer] epoch #294 | Computing loss after
2025-04-03 05:27:59 | [rl2_trainer] epoch #294 | Saving snapshot...
2025-04-03 05:27:59 | [rl2_trainer] epoch #294 | Saved
2025-04-03 05:27:59 | [rl2_trainer] epoch #294 | Time 56160.08 s
2025-04-03 05:27:59 | [rl2_trainer] epoch #294 | EpochTime 237.30 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.7447
Average/AverageReturn                     -23.3615
Average/Iteration                         294
Average/MaxReturn                          -5.63188
Average/MinReturn                         -46.7988
Average/NumEpisodes                       100
Average/StdReturn                           8.77412
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.860615
TotalEnvSteps                               2.95e+06
__unnamed_task__/AverageDiscountedReturn  -14.7447
__unnamed_task__/AverageReturn            -23.3615
__unnamed_task__/Iteration                294
__unnamed_task__/MaxReturn                 -5.63188
__unnamed_task__/MinReturn                -46.7988
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.77412
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.06078
policy/KL                                   0.013956
policy/KLBefore                             0
policy/LossAfter                           -0.013484
policy/LossBefore                           0.00320574
policy/dLoss                                0.0166897
----------------------------------------  ------------
2025-04-03 05:30:38 | [rl2_trainer] epoch #295 | Optimizing policy...
2025-04-03 05:30:39 | [rl2_trainer] epoch #295 | Fitting baseline...
2025-04-03 05:30:39 | [rl2_trainer] epoch #295 | Computing loss before
2025-04-03 05:30:39 | [rl2_trainer] epoch #295 | Computing KL before
2025-04-03 05:30:40 | [rl2_trainer] epoch #295 | Optimizing
2025-04-03 05:31:16 | [rl2_trainer] epoch #295 | Computing KL after
2025-04-03 05:31:16 | [rl2_trainer] epoch #295 | Computing loss after
2025-04-03 05:31:17 | [rl2_trainer] epoch #295 | Saving snapshot...
2025-04-03 05:31:17 | [rl2_trainer] epoch #295 | Saved
2025-04-03 05:31:17 | [rl2_trainer] epoch #295 | Time 56358.32 s
2025-04-03 05:31:17 | [rl2_trainer] epoch #295 | EpochTime 198.24 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.8094
Average/AverageReturn                     -23.3121
Average/Iteration                         295
Average/MaxReturn                          -6.04568
Average/MinReturn                         -42.8088
Average/NumEpisodes                       100
Average/StdReturn                           7.61188
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.785388
TotalEnvSteps                               2.96e+06
__unnamed_task__/AverageDiscountedReturn  -14.8094
__unnamed_task__/AverageReturn            -23.3121
__unnamed_task__/Iteration                295
__unnamed_task__/MaxReturn                 -6.04568
__unnamed_task__/MinReturn                -42.8088
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.61188
__unnamed_task__/TerminationRate            0
policy/Entropy                              4.03565
policy/KL                                   0.0102683
policy/KLBefore                             0
policy/LossAfter                           -0.017171
policy/LossBefore                          -0.00436453
policy/dLoss                                0.0128065
----------------------------------------  ------------
2025-04-03 05:33:25 | [rl2_trainer] epoch #296 | Optimizing policy...
2025-04-03 05:33:26 | [rl2_trainer] epoch #296 | Fitting baseline...
2025-04-03 05:33:26 | [rl2_trainer] epoch #296 | Computing loss before
2025-04-03 05:33:26 | [rl2_trainer] epoch #296 | Computing KL before
2025-04-03 05:33:27 | [rl2_trainer] epoch #296 | Optimizing
2025-04-03 05:34:02 | [rl2_trainer] epoch #296 | Computing KL after
2025-04-03 05:34:03 | [rl2_trainer] epoch #296 | Computing loss after
2025-04-03 05:34:04 | [rl2_trainer] epoch #296 | Saving snapshot...
2025-04-03 05:34:04 | [rl2_trainer] epoch #296 | Saved
2025-04-03 05:34:04 | [rl2_trainer] epoch #296 | Time 56524.74 s
2025-04-03 05:34:04 | [rl2_trainer] epoch #296 | EpochTime 166.42 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.016
Average/AverageReturn                     -16.443
Average/Iteration                         296
Average/MaxReturn                          54.0878
Average/MinReturn                         -42.9384
Average/NumEpisodes                       100
Average/StdReturn                           9.20705
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.339028
TotalEnvSteps                               2.97e+06
__unnamed_task__/AverageDiscountedReturn  -11.016
__unnamed_task__/AverageReturn            -16.443
__unnamed_task__/Iteration                296
__unnamed_task__/MaxReturn                 54.0878
__unnamed_task__/MinReturn                -42.9384
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.20705
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.99917
policy/KL                                   0.0117495
policy/KLBefore                             0
policy/LossAfter                           -0.0259498
policy/LossBefore                           0.00137385
policy/dLoss                                0.0273236
----------------------------------------  ------------
2025-04-03 05:36:14 | [rl2_trainer] epoch #297 | Optimizing policy...
2025-04-03 05:36:15 | [rl2_trainer] epoch #297 | Fitting baseline...
2025-04-03 05:36:15 | [rl2_trainer] epoch #297 | Computing loss before
2025-04-03 05:36:15 | [rl2_trainer] epoch #297 | Computing KL before
2025-04-03 05:36:16 | [rl2_trainer] epoch #297 | Optimizing
2025-04-03 05:36:52 | [rl2_trainer] epoch #297 | Computing KL after
2025-04-03 05:36:53 | [rl2_trainer] epoch #297 | Computing loss after
2025-04-03 05:36:53 | [rl2_trainer] epoch #297 | Saving snapshot...
2025-04-03 05:36:53 | [rl2_trainer] epoch #297 | Saved
2025-04-03 05:36:53 | [rl2_trainer] epoch #297 | Time 56694.49 s
2025-04-03 05:36:53 | [rl2_trainer] epoch #297 | EpochTime 169.75 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.4651
Average/AverageReturn                     -17.0417
Average/Iteration                         297
Average/MaxReturn                           7.57285
Average/MinReturn                         -33.9049
Average/NumEpisodes                       100
Average/StdReturn                           5.57231
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.588689
TotalEnvSteps                               2.98e+06
__unnamed_task__/AverageDiscountedReturn  -11.4651
__unnamed_task__/AverageReturn            -17.0417
__unnamed_task__/Iteration                297
__unnamed_task__/MaxReturn                  7.57285
__unnamed_task__/MinReturn                -33.9049
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.57231
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.97345
policy/KL                                   0.0145453
policy/KLBefore                             0
policy/LossAfter                           -0.00955648
policy/LossBefore                           0.00131356
policy/dLoss                                0.01087
----------------------------------------  ------------
2025-04-03 05:38:37 | [rl2_trainer] epoch #298 | Optimizing policy...
2025-04-03 05:38:37 | [rl2_trainer] epoch #298 | Fitting baseline...
2025-04-03 05:38:37 | [rl2_trainer] epoch #298 | Computing loss before
2025-04-03 05:38:38 | [rl2_trainer] epoch #298 | Computing KL before
2025-04-03 05:38:38 | [rl2_trainer] epoch #298 | Optimizing
2025-04-03 05:39:12 | [rl2_trainer] epoch #298 | Computing KL after
2025-04-03 05:39:13 | [rl2_trainer] epoch #298 | Computing loss after
2025-04-03 05:39:14 | [rl2_trainer] epoch #298 | Saving snapshot...
2025-04-03 05:39:14 | [rl2_trainer] epoch #298 | Saved
2025-04-03 05:39:14 | [rl2_trainer] epoch #298 | Time 56834.76 s
2025-04-03 05:39:14 | [rl2_trainer] epoch #298 | EpochTime 140.27 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -11.3672
Average/AverageReturn                     -17.0828
Average/Iteration                         298
Average/MaxReturn                           7.73183
Average/MinReturn                         -29.7329
Average/NumEpisodes                       100
Average/StdReturn                           6.5739
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.472828
TotalEnvSteps                               2.99e+06
__unnamed_task__/AverageDiscountedReturn  -11.3672
__unnamed_task__/AverageReturn            -17.0828
__unnamed_task__/Iteration                298
__unnamed_task__/MaxReturn                  7.73183
__unnamed_task__/MinReturn                -29.7329
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.5739
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.95113
policy/KL                                   0.010771
policy/KLBefore                             0
policy/LossAfter                           -0.0257514
policy/LossBefore                          -0.0024961
policy/dLoss                                0.0232553
----------------------------------------  -----------
2025-04-03 05:42:11 | [rl2_trainer] epoch #299 | Optimizing policy...
2025-04-03 05:42:11 | [rl2_trainer] epoch #299 | Fitting baseline...
2025-04-03 05:42:11 | [rl2_trainer] epoch #299 | Computing loss before
2025-04-03 05:42:12 | [rl2_trainer] epoch #299 | Computing KL before
2025-04-03 05:42:13 | [rl2_trainer] epoch #299 | Optimizing
2025-04-03 05:42:50 | [rl2_trainer] epoch #299 | Computing KL after
2025-04-03 05:42:50 | [rl2_trainer] epoch #299 | Computing loss after
2025-04-03 05:42:51 | [rl2_trainer] epoch #299 | Saving snapshot...
2025-04-03 05:42:51 | [rl2_trainer] epoch #299 | Saved
2025-04-03 05:42:51 | [rl2_trainer] epoch #299 | Time 57052.36 s
2025-04-03 05:42:51 | [rl2_trainer] epoch #299 | EpochTime 217.59 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.368
Average/AverageReturn                     -15.707
Average/Iteration                         299
Average/MaxReturn                           7.25679
Average/MinReturn                         -38.9842
Average/NumEpisodes                       100
Average/StdReturn                           6.18331
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.523392
TotalEnvSteps                               3e+06
__unnamed_task__/AverageDiscountedReturn  -10.368
__unnamed_task__/AverageReturn            -15.707
__unnamed_task__/Iteration                299
__unnamed_task__/MaxReturn                  7.25679
__unnamed_task__/MinReturn                -38.9842
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.18331
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.9311
policy/KL                                   0.010998
policy/KLBefore                             0
policy/LossAfter                           -0.013487
policy/LossBefore                           0.00338786
policy/dLoss                                0.0168748
----------------------------------------  ------------
2025-04-03 05:45:48 | [rl2_trainer] epoch #300 | Optimizing policy...
2025-04-03 05:45:48 | [rl2_trainer] epoch #300 | Fitting baseline...
2025-04-03 05:45:48 | [rl2_trainer] epoch #300 | Computing loss before
2025-04-03 05:45:49 | [rl2_trainer] epoch #300 | Computing KL before
2025-04-03 05:45:49 | [rl2_trainer] epoch #300 | Optimizing
2025-04-03 05:46:24 | [rl2_trainer] epoch #300 | Computing KL after
2025-04-03 05:46:25 | [rl2_trainer] epoch #300 | Computing loss after
2025-04-03 05:46:26 | [rl2_trainer] epoch #300 | Saving snapshot...
2025-04-03 05:46:26 | [rl2_trainer] epoch #300 | Saved
2025-04-03 05:46:26 | [rl2_trainer] epoch #300 | Time 57266.95 s
2025-04-03 05:46:26 | [rl2_trainer] epoch #300 | EpochTime 214.59 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -13.4322
Average/AverageReturn                     -21.2933
Average/Iteration                         300
Average/MaxReturn                          10.3593
Average/MinReturn                         -50.6538
Average/NumEpisodes                       100
Average/StdReturn                          10.284
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.825099
TotalEnvSteps                               3.01e+06
__unnamed_task__/AverageDiscountedReturn  -13.4322
__unnamed_task__/AverageReturn            -21.2933
__unnamed_task__/Iteration                300
__unnamed_task__/MaxReturn                 10.3593
__unnamed_task__/MinReturn                -50.6538
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.284
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.91999
policy/KL                                   0.0127665
policy/KLBefore                             0
policy/LossAfter                           -0.0328714
policy/LossBefore                          -0.000531158
policy/dLoss                                0.0323402
----------------------------------------  -------------
2025-04-03 05:49:27 | [rl2_trainer] epoch #301 | Optimizing policy...
2025-04-03 05:49:27 | [rl2_trainer] epoch #301 | Fitting baseline...
2025-04-03 05:49:27 | [rl2_trainer] epoch #301 | Computing loss before
2025-04-03 05:49:28 | [rl2_trainer] epoch #301 | Computing KL before
2025-04-03 05:49:28 | [rl2_trainer] epoch #301 | Optimizing
2025-04-03 05:50:05 | [rl2_trainer] epoch #301 | Computing KL after
2025-04-03 05:50:06 | [rl2_trainer] epoch #301 | Computing loss after
2025-04-03 05:50:07 | [rl2_trainer] epoch #301 | Saving snapshot...
2025-04-03 05:50:07 | [rl2_trainer] epoch #301 | Saved
2025-04-03 05:50:07 | [rl2_trainer] epoch #301 | Time 57487.88 s
2025-04-03 05:50:07 | [rl2_trainer] epoch #301 | EpochTime 220.93 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.4587
Average/AverageReturn                     -16.9411
Average/Iteration                         301
Average/MaxReturn                          -2.32671
Average/MinReturn                         -31.6885
Average/NumEpisodes                       100
Average/StdReturn                           4.82364
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.598189
TotalEnvSteps                               3.02e+06
__unnamed_task__/AverageDiscountedReturn  -11.4587
__unnamed_task__/AverageReturn            -16.9411
__unnamed_task__/Iteration                301
__unnamed_task__/MaxReturn                 -2.32671
__unnamed_task__/MinReturn                -31.6885
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.82364
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.90435
policy/KL                                   0.00873378
policy/KLBefore                             0
policy/LossAfter                           -0.0190575
policy/LossBefore                          -0.00713703
policy/dLoss                                0.0119205
----------------------------------------  ------------
2025-04-03 05:52:16 | [rl2_trainer] epoch #302 | Optimizing policy...
2025-04-03 05:52:16 | [rl2_trainer] epoch #302 | Fitting baseline...
2025-04-03 05:52:16 | [rl2_trainer] epoch #302 | Computing loss before
2025-04-03 05:52:17 | [rl2_trainer] epoch #302 | Computing KL before
2025-04-03 05:52:17 | [rl2_trainer] epoch #302 | Optimizing
2025-04-03 05:52:54 | [rl2_trainer] epoch #302 | Computing KL after
2025-04-03 05:52:54 | [rl2_trainer] epoch #302 | Computing loss after
2025-04-03 05:52:55 | [rl2_trainer] epoch #302 | Saving snapshot...
2025-04-03 05:52:55 | [rl2_trainer] epoch #302 | Saved
2025-04-03 05:52:55 | [rl2_trainer] epoch #302 | Time 57656.04 s
2025-04-03 05:52:55 | [rl2_trainer] epoch #302 | EpochTime 168.15 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.6438
Average/AverageReturn                     -15.8129
Average/Iteration                         302
Average/MaxReturn                           0.14752
Average/MinReturn                         -30.402
Average/NumEpisodes                       100
Average/StdReturn                           5.92888
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.547921
TotalEnvSteps                               3.03e+06
__unnamed_task__/AverageDiscountedReturn  -10.6438
__unnamed_task__/AverageReturn            -15.8129
__unnamed_task__/Iteration                302
__unnamed_task__/MaxReturn                  0.14752
__unnamed_task__/MinReturn                -30.402
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.92888
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.8972
policy/KL                                   0.0136553
policy/KLBefore                             0
policy/LossAfter                           -0.0313717
policy/LossBefore                          -0.00945823
policy/dLoss                                0.0219135
----------------------------------------  ------------
2025-04-03 05:55:14 | [rl2_trainer] epoch #303 | Optimizing policy...
2025-04-03 05:55:15 | [rl2_trainer] epoch #303 | Fitting baseline...
2025-04-03 05:55:15 | [rl2_trainer] epoch #303 | Computing loss before
2025-04-03 05:55:15 | [rl2_trainer] epoch #303 | Computing KL before
2025-04-03 05:55:16 | [rl2_trainer] epoch #303 | Optimizing
2025-04-03 05:55:50 | [rl2_trainer] epoch #303 | Computing KL after
2025-04-03 05:55:51 | [rl2_trainer] epoch #303 | Computing loss after
2025-04-03 05:55:52 | [rl2_trainer] epoch #303 | Saving snapshot...
2025-04-03 05:55:52 | [rl2_trainer] epoch #303 | Saved
2025-04-03 05:55:52 | [rl2_trainer] epoch #303 | Time 57832.94 s
2025-04-03 05:55:52 | [rl2_trainer] epoch #303 | EpochTime 176.91 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.6716
Average/AverageReturn                     -16.1408
Average/Iteration                         303
Average/MaxReturn                          11.2767
Average/MinReturn                         -27.0283
Average/NumEpisodes                       100
Average/StdReturn                           6.54584
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.249799
TotalEnvSteps                               3.04e+06
__unnamed_task__/AverageDiscountedReturn  -10.6716
__unnamed_task__/AverageReturn            -16.1408
__unnamed_task__/Iteration                303
__unnamed_task__/MaxReturn                 11.2767
__unnamed_task__/MinReturn                -27.0283
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.54584
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.883
policy/KL                                   0.010392
policy/KLBefore                             0
policy/LossAfter                           -0.0370494
policy/LossBefore                          -0.00245091
policy/dLoss                                0.0345984
----------------------------------------  ------------
2025-04-03 05:59:05 | [rl2_trainer] epoch #304 | Optimizing policy...
2025-04-03 05:59:06 | [rl2_trainer] epoch #304 | Fitting baseline...
2025-04-03 05:59:06 | [rl2_trainer] epoch #304 | Computing loss before
2025-04-03 05:59:06 | [rl2_trainer] epoch #304 | Computing KL before
2025-04-03 05:59:07 | [rl2_trainer] epoch #304 | Optimizing
2025-04-03 05:59:43 | [rl2_trainer] epoch #304 | Computing KL after
2025-04-03 05:59:43 | [rl2_trainer] epoch #304 | Computing loss after
2025-04-03 05:59:44 | [rl2_trainer] epoch #304 | Saving snapshot...
2025-04-03 05:59:44 | [rl2_trainer] epoch #304 | Saved
2025-04-03 05:59:44 | [rl2_trainer] epoch #304 | Time 58065.11 s
2025-04-03 05:59:44 | [rl2_trainer] epoch #304 | EpochTime 232.16 s
----------------------------------------  -------------
Average/AverageDiscountedReturn            -14.9214
Average/AverageReturn                      -23.4582
Average/Iteration                          304
Average/MaxReturn                            1.68523
Average/MinReturn                         -103.242
Average/NumEpisodes                        100
Average/StdReturn                           13.2324
Average/TerminationRate                      0
LinearFeatureBaseline/ExplainedVariance      0.775252
TotalEnvSteps                                3.05e+06
__unnamed_task__/AverageDiscountedReturn   -14.9214
__unnamed_task__/AverageReturn             -23.4582
__unnamed_task__/Iteration                 304
__unnamed_task__/MaxReturn                   1.68523
__unnamed_task__/MinReturn                -103.242
__unnamed_task__/NumEpisodes               100
__unnamed_task__/StdReturn                  13.2324
__unnamed_task__/TerminationRate             0
policy/Entropy                               3.86526
policy/KL                                    0.0148927
policy/KLBefore                              0
policy/LossAfter                            -0.0462913
policy/LossBefore                           -0.00850398
policy/dLoss                                 0.0377873
----------------------------------------  -------------
2025-04-03 06:02:58 | [rl2_trainer] epoch #305 | Optimizing policy...
2025-04-03 06:02:58 | [rl2_trainer] epoch #305 | Fitting baseline...
2025-04-03 06:02:58 | [rl2_trainer] epoch #305 | Computing loss before
2025-04-03 06:02:59 | [rl2_trainer] epoch #305 | Computing KL before
2025-04-03 06:03:00 | [rl2_trainer] epoch #305 | Optimizing
2025-04-03 06:03:35 | [rl2_trainer] epoch #305 | Computing KL after
2025-04-03 06:03:36 | [rl2_trainer] epoch #305 | Computing loss after
2025-04-03 06:03:37 | [rl2_trainer] epoch #305 | Saving snapshot...
2025-04-03 06:03:37 | [rl2_trainer] epoch #305 | Saved
2025-04-03 06:03:37 | [rl2_trainer] epoch #305 | Time 58297.58 s
2025-04-03 06:03:37 | [rl2_trainer] epoch #305 | EpochTime 232.46 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -15.1246
Average/AverageReturn                     -23.6128
Average/Iteration                         305
Average/MaxReturn                          -4.60253
Average/MinReturn                         -44.0813
Average/NumEpisodes                       100
Average/StdReturn                           8.09704
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.800287
TotalEnvSteps                               3.06e+06
__unnamed_task__/AverageDiscountedReturn  -15.1246
__unnamed_task__/AverageReturn            -23.6128
__unnamed_task__/Iteration                305
__unnamed_task__/MaxReturn                 -4.60253
__unnamed_task__/MinReturn                -44.0813
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.09704
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.85473
policy/KL                                   0.0100941
policy/KLBefore                             0
policy/LossAfter                           -0.0258332
policy/LossBefore                          -0.003124
policy/dLoss                                0.0227092
----------------------------------------  -----------
2025-04-03 06:06:06 | [rl2_trainer] epoch #306 | Optimizing policy...
2025-04-03 06:06:06 | [rl2_trainer] epoch #306 | Fitting baseline...
2025-04-03 06:06:06 | [rl2_trainer] epoch #306 | Computing loss before
2025-04-03 06:06:07 | [rl2_trainer] epoch #306 | Computing KL before
2025-04-03 06:06:07 | [rl2_trainer] epoch #306 | Optimizing
2025-04-03 06:06:44 | [rl2_trainer] epoch #306 | Computing KL after
2025-04-03 06:06:44 | [rl2_trainer] epoch #306 | Computing loss after
2025-04-03 06:06:45 | [rl2_trainer] epoch #306 | Saving snapshot...
2025-04-03 06:06:45 | [rl2_trainer] epoch #306 | Saved
2025-04-03 06:06:45 | [rl2_trainer] epoch #306 | Time 58486.22 s
2025-04-03 06:06:45 | [rl2_trainer] epoch #306 | EpochTime 188.64 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -9.03467
Average/AverageReturn                     -13.354
Average/Iteration                         306
Average/MaxReturn                          27.4037
Average/MinReturn                         -24.2279
Average/NumEpisodes                       100
Average/StdReturn                           6.95042
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.480694
TotalEnvSteps                               3.07e+06
__unnamed_task__/AverageDiscountedReturn   -9.03467
__unnamed_task__/AverageReturn            -13.354
__unnamed_task__/Iteration                306
__unnamed_task__/MaxReturn                 27.4037
__unnamed_task__/MinReturn                -24.2279
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.95042
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.84966
policy/KL                                   0.0136482
policy/KLBefore                             0
policy/LossAfter                           -0.0325942
policy/LossBefore                          -0.00763791
policy/dLoss                                0.0249563
----------------------------------------  ------------
2025-04-03 06:09:09 | [rl2_trainer] epoch #307 | Optimizing policy...
2025-04-03 06:09:10 | [rl2_trainer] epoch #307 | Fitting baseline...
2025-04-03 06:09:10 | [rl2_trainer] epoch #307 | Computing loss before
2025-04-03 06:09:10 | [rl2_trainer] epoch #307 | Computing KL before
2025-04-03 06:09:11 | [rl2_trainer] epoch #307 | Optimizing
2025-04-03 06:09:47 | [rl2_trainer] epoch #307 | Computing KL after
2025-04-03 06:09:48 | [rl2_trainer] epoch #307 | Computing loss after
2025-04-03 06:09:49 | [rl2_trainer] epoch #307 | Saving snapshot...
2025-04-03 06:09:49 | [rl2_trainer] epoch #307 | Saved
2025-04-03 06:09:49 | [rl2_trainer] epoch #307 | Time 58669.60 s
2025-04-03 06:09:49 | [rl2_trainer] epoch #307 | EpochTime 183.37 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -13.1404
Average/AverageReturn                     -20.772
Average/Iteration                         307
Average/MaxReturn                          12.2612
Average/MinReturn                         -43.143
Average/NumEpisodes                       100
Average/StdReturn                          10.9553
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.839956
TotalEnvSteps                               3.08e+06
__unnamed_task__/AverageDiscountedReturn  -13.1404
__unnamed_task__/AverageReturn            -20.772
__unnamed_task__/Iteration                307
__unnamed_task__/MaxReturn                 12.2612
__unnamed_task__/MinReturn                -43.143
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.9553
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.82181
policy/KL                                   0.0117523
policy/KLBefore                             0
policy/LossAfter                           -0.0232464
policy/LossBefore                           8.79211e-05
policy/dLoss                                0.0233343
----------------------------------------  -------------
2025-04-03 06:12:36 | [rl2_trainer] epoch #308 | Optimizing policy...
2025-04-03 06:12:37 | [rl2_trainer] epoch #308 | Fitting baseline...
2025-04-03 06:12:37 | [rl2_trainer] epoch #308 | Computing loss before
2025-04-03 06:12:37 | [rl2_trainer] epoch #308 | Computing KL before
2025-04-03 06:12:38 | [rl2_trainer] epoch #308 | Optimizing
2025-04-03 06:13:12 | [rl2_trainer] epoch #308 | Computing KL after
2025-04-03 06:13:13 | [rl2_trainer] epoch #308 | Computing loss after
2025-04-03 06:13:13 | [rl2_trainer] epoch #308 | Saving snapshot...
2025-04-03 06:13:13 | [rl2_trainer] epoch #308 | Saved
2025-04-03 06:13:13 | [rl2_trainer] epoch #308 | Time 58874.52 s
2025-04-03 06:13:13 | [rl2_trainer] epoch #308 | EpochTime 204.92 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -15.2316
Average/AverageReturn                     -23.8881
Average/Iteration                         308
Average/MaxReturn                          -1.66513
Average/MinReturn                         -49.5182
Average/NumEpisodes                       100
Average/StdReturn                           9.58612
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.826959
TotalEnvSteps                               3.09e+06
__unnamed_task__/AverageDiscountedReturn  -15.2316
__unnamed_task__/AverageReturn            -23.8881
__unnamed_task__/Iteration                308
__unnamed_task__/MaxReturn                 -1.66513
__unnamed_task__/MinReturn                -49.5182
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.58612
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.80996
policy/KL                                   0.0106085
policy/KLBefore                             0
policy/LossAfter                           -0.0274135
policy/LossBefore                          -0.0024794
policy/dLoss                                0.0249341
----------------------------------------  -----------
2025-04-03 06:16:14 | [rl2_trainer] epoch #309 | Optimizing policy...
2025-04-03 06:16:14 | [rl2_trainer] epoch #309 | Fitting baseline...
2025-04-03 06:16:14 | [rl2_trainer] epoch #309 | Computing loss before
2025-04-03 06:16:15 | [rl2_trainer] epoch #309 | Computing KL before
2025-04-03 06:16:16 | [rl2_trainer] epoch #309 | Optimizing
2025-04-03 06:16:51 | [rl2_trainer] epoch #309 | Computing KL after
2025-04-03 06:16:52 | [rl2_trainer] epoch #309 | Computing loss after
2025-04-03 06:16:53 | [rl2_trainer] epoch #309 | Saving snapshot...
2025-04-03 06:16:53 | [rl2_trainer] epoch #309 | Saved
2025-04-03 06:16:53 | [rl2_trainer] epoch #309 | Time 59093.53 s
2025-04-03 06:16:53 | [rl2_trainer] epoch #309 | EpochTime 219.01 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.5706
Average/AverageReturn                     -17.3354
Average/Iteration                         309
Average/MaxReturn                           2.79171
Average/MinReturn                         -29.2331
Average/NumEpisodes                       100
Average/StdReturn                           4.75921
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.444813
TotalEnvSteps                               3.1e+06
__unnamed_task__/AverageDiscountedReturn  -11.5706
__unnamed_task__/AverageReturn            -17.3354
__unnamed_task__/Iteration                309
__unnamed_task__/MaxReturn                  2.79171
__unnamed_task__/MinReturn                -29.2331
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.75921
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.78847
policy/KL                                   0.00918665
policy/KLBefore                             0
policy/LossAfter                           -0.00914509
policy/LossBefore                          -0.0015125
policy/dLoss                                0.00763259
----------------------------------------  ------------
2025-04-03 06:20:01 | [rl2_trainer] epoch #310 | Optimizing policy...
2025-04-03 06:20:02 | [rl2_trainer] epoch #310 | Fitting baseline...
2025-04-03 06:20:02 | [rl2_trainer] epoch #310 | Computing loss before
2025-04-03 06:20:02 | [rl2_trainer] epoch #310 | Computing KL before
2025-04-03 06:20:03 | [rl2_trainer] epoch #310 | Optimizing
2025-04-03 06:20:39 | [rl2_trainer] epoch #310 | Computing KL after
2025-04-03 06:20:40 | [rl2_trainer] epoch #310 | Computing loss after
2025-04-03 06:20:41 | [rl2_trainer] epoch #310 | Saving snapshot...
2025-04-03 06:20:41 | [rl2_trainer] epoch #310 | Saved
2025-04-03 06:20:41 | [rl2_trainer] epoch #310 | Time 59321.90 s
2025-04-03 06:20:41 | [rl2_trainer] epoch #310 | EpochTime 228.36 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.1653
Average/AverageReturn                     -22.5609
Average/Iteration                         310
Average/MaxReturn                           4.54869
Average/MinReturn                         -46.5496
Average/NumEpisodes                       100
Average/StdReturn                           9.32609
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.853796
TotalEnvSteps                               3.11e+06
__unnamed_task__/AverageDiscountedReturn  -14.1653
__unnamed_task__/AverageReturn            -22.5609
__unnamed_task__/Iteration                310
__unnamed_task__/MaxReturn                  4.54869
__unnamed_task__/MinReturn                -46.5496
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.32609
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.74516
policy/KL                                   0.0117768
policy/KLBefore                             0
policy/LossAfter                           -0.0148758
policy/LossBefore                          -0.00325625
policy/dLoss                                0.0116196
----------------------------------------  ------------
2025-04-03 06:22:09 | [rl2_trainer] epoch #311 | Optimizing policy...
2025-04-03 06:22:09 | [rl2_trainer] epoch #311 | Fitting baseline...
2025-04-03 06:22:09 | [rl2_trainer] epoch #311 | Computing loss before
2025-04-03 06:22:10 | [rl2_trainer] epoch #311 | Computing KL before
2025-04-03 06:22:11 | [rl2_trainer] epoch #311 | Optimizing
2025-04-03 06:22:45 | [rl2_trainer] epoch #311 | Computing KL after
2025-04-03 06:22:46 | [rl2_trainer] epoch #311 | Computing loss after
2025-04-03 06:22:47 | [rl2_trainer] epoch #311 | Saving snapshot...
2025-04-03 06:22:47 | [rl2_trainer] epoch #311 | Saved
2025-04-03 06:22:47 | [rl2_trainer] epoch #311 | Time 59447.95 s
2025-04-03 06:22:47 | [rl2_trainer] epoch #311 | EpochTime 126.05 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -11.665
Average/AverageReturn                     -17.5583
Average/Iteration                         311
Average/MaxReturn                           5.4017
Average/MinReturn                         -64.4707
Average/NumEpisodes                       100
Average/StdReturn                           9.99697
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.544962
TotalEnvSteps                               3.12e+06
__unnamed_task__/AverageDiscountedReturn  -11.665
__unnamed_task__/AverageReturn            -17.5583
__unnamed_task__/Iteration                311
__unnamed_task__/MaxReturn                  5.4017
__unnamed_task__/MinReturn                -64.4707
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.99697
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.69403
policy/KL                                   0.0119738
policy/KLBefore                             0
policy/LossAfter                           -0.0247606
policy/LossBefore                           0.0055724
policy/dLoss                                0.030333
----------------------------------------  -----------
2025-04-03 06:24:14 | [rl2_trainer] epoch #312 | Optimizing policy...
2025-04-03 06:24:15 | [rl2_trainer] epoch #312 | Fitting baseline...
2025-04-03 06:24:15 | [rl2_trainer] epoch #312 | Computing loss before
2025-04-03 06:24:15 | [rl2_trainer] epoch #312 | Computing KL before
2025-04-03 06:24:16 | [rl2_trainer] epoch #312 | Optimizing
2025-04-03 06:24:51 | [rl2_trainer] epoch #312 | Computing KL after
2025-04-03 06:24:51 | [rl2_trainer] epoch #312 | Computing loss after
2025-04-03 06:24:52 | [rl2_trainer] epoch #312 | Saving snapshot...
2025-04-03 06:24:52 | [rl2_trainer] epoch #312 | Saved
2025-04-03 06:24:52 | [rl2_trainer] epoch #312 | Time 59573.05 s
2025-04-03 06:24:52 | [rl2_trainer] epoch #312 | EpochTime 125.10 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -9.80107
Average/AverageReturn                     -14.5985
Average/Iteration                         312
Average/MaxReturn                          11.4986
Average/MinReturn                         -28.5982
Average/NumEpisodes                       100
Average/StdReturn                           7.21033
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.6901
TotalEnvSteps                               3.13e+06
__unnamed_task__/AverageDiscountedReturn   -9.80107
__unnamed_task__/AverageReturn            -14.5985
__unnamed_task__/Iteration                312
__unnamed_task__/MaxReturn                 11.4986
__unnamed_task__/MinReturn                -28.5982
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.21033
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.65809
policy/KL                                   0.0111148
policy/KLBefore                             0
policy/LossAfter                           -0.0206043
policy/LossBefore                          -0.00591301
policy/dLoss                                0.0146913
----------------------------------------  ------------
2025-04-03 06:27:53 | [rl2_trainer] epoch #313 | Optimizing policy...
2025-04-03 06:27:53 | [rl2_trainer] epoch #313 | Fitting baseline...
2025-04-03 06:27:53 | [rl2_trainer] epoch #313 | Computing loss before
2025-04-03 06:27:53 | [rl2_trainer] epoch #313 | Computing KL before
2025-04-03 06:27:54 | [rl2_trainer] epoch #313 | Optimizing
2025-04-03 06:28:30 | [rl2_trainer] epoch #313 | Computing KL after
2025-04-03 06:28:31 | [rl2_trainer] epoch #313 | Computing loss after
2025-04-03 06:28:31 | [rl2_trainer] epoch #313 | Saving snapshot...
2025-04-03 06:28:31 | [rl2_trainer] epoch #313 | Saved
2025-04-03 06:28:31 | [rl2_trainer] epoch #313 | Time 59792.39 s
2025-04-03 06:28:31 | [rl2_trainer] epoch #313 | EpochTime 219.33 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.8833
Average/AverageReturn                     -25.0982
Average/Iteration                         313
Average/MaxReturn                          -1.24341
Average/MinReturn                         -68.2487
Average/NumEpisodes                       100
Average/StdReturn                           9.55689
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.769233
TotalEnvSteps                               3.14e+06
__unnamed_task__/AverageDiscountedReturn  -15.8833
__unnamed_task__/AverageReturn            -25.0982
__unnamed_task__/Iteration                313
__unnamed_task__/MaxReturn                 -1.24341
__unnamed_task__/MinReturn                -68.2487
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.55689
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.63266
policy/KL                                   0.0122365
policy/KLBefore                             0
policy/LossAfter                           -0.0160386
policy/LossBefore                           0.00319758
policy/dLoss                                0.0192362
----------------------------------------  ------------
2025-04-03 06:32:20 | [rl2_trainer] epoch #314 | Optimizing policy...
2025-04-03 06:32:20 | [rl2_trainer] epoch #314 | Fitting baseline...
2025-04-03 06:32:20 | [rl2_trainer] epoch #314 | Computing loss before
2025-04-03 06:32:21 | [rl2_trainer] epoch #314 | Computing KL before
2025-04-03 06:32:22 | [rl2_trainer] epoch #314 | Optimizing
2025-04-03 06:32:58 | [rl2_trainer] epoch #314 | Computing KL after
2025-04-03 06:32:59 | [rl2_trainer] epoch #314 | Computing loss after
2025-04-03 06:33:00 | [rl2_trainer] epoch #314 | Saving snapshot...
2025-04-03 06:33:00 | [rl2_trainer] epoch #314 | Saved
2025-04-03 06:33:00 | [rl2_trainer] epoch #314 | Time 60060.86 s
2025-04-03 06:33:00 | [rl2_trainer] epoch #314 | EpochTime 268.48 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -13.6539
Average/AverageReturn                     -21.7025
Average/Iteration                         314
Average/MaxReturn                          -3.50118
Average/MinReturn                         -50.8907
Average/NumEpisodes                       100
Average/StdReturn                           9.37413
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.871869
TotalEnvSteps                               3.15e+06
__unnamed_task__/AverageDiscountedReturn  -13.6539
__unnamed_task__/AverageReturn            -21.7025
__unnamed_task__/Iteration                314
__unnamed_task__/MaxReturn                 -3.50118
__unnamed_task__/MinReturn                -50.8907
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.37413
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.60446
policy/KL                                   0.0125997
policy/KLBefore                             0
policy/LossAfter                           -0.0196727
policy/LossBefore                          -0.000744662
policy/dLoss                                0.0189281
----------------------------------------  -------------
2025-04-03 06:35:14 | [rl2_trainer] epoch #315 | Optimizing policy...
2025-04-03 06:35:14 | [rl2_trainer] epoch #315 | Fitting baseline...
2025-04-03 06:35:14 | [rl2_trainer] epoch #315 | Computing loss before
2025-04-03 06:35:15 | [rl2_trainer] epoch #315 | Computing KL before
2025-04-03 06:35:15 | [rl2_trainer] epoch #315 | Optimizing
2025-04-03 06:35:50 | [rl2_trainer] epoch #315 | Computing KL after
2025-04-03 06:35:50 | [rl2_trainer] epoch #315 | Computing loss after
2025-04-03 06:35:51 | [rl2_trainer] epoch #315 | Saving snapshot...
2025-04-03 06:35:51 | [rl2_trainer] epoch #315 | Saved
2025-04-03 06:35:51 | [rl2_trainer] epoch #315 | Time 60232.06 s
2025-04-03 06:35:51 | [rl2_trainer] epoch #315 | EpochTime 171.20 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -15.2945
Average/AverageReturn                     -24.272
Average/Iteration                         315
Average/MaxReturn                           6.70423
Average/MinReturn                         -55.1472
Average/NumEpisodes                       100
Average/StdReturn                           8.80271
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.795109
TotalEnvSteps                               3.16e+06
__unnamed_task__/AverageDiscountedReturn  -15.2945
__unnamed_task__/AverageReturn            -24.272
__unnamed_task__/Iteration                315
__unnamed_task__/MaxReturn                  6.70423
__unnamed_task__/MinReturn                -55.1472
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.80271
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.57835
policy/KL                                   0.0110438
policy/KLBefore                             0
policy/LossAfter                           -0.0149562
policy/LossBefore                           0.000674251
policy/dLoss                                0.0156305
----------------------------------------  -------------
2025-04-03 06:37:59 | [rl2_trainer] epoch #316 | Optimizing policy...
2025-04-03 06:37:59 | [rl2_trainer] epoch #316 | Fitting baseline...
2025-04-03 06:37:59 | [rl2_trainer] epoch #316 | Computing loss before
2025-04-03 06:38:00 | [rl2_trainer] epoch #316 | Computing KL before
2025-04-03 06:38:00 | [rl2_trainer] epoch #316 | Optimizing
2025-04-03 06:38:37 | [rl2_trainer] epoch #316 | Computing KL after
2025-04-03 06:38:37 | [rl2_trainer] epoch #316 | Computing loss after
2025-04-03 06:38:38 | [rl2_trainer] epoch #316 | Saving snapshot...
2025-04-03 06:38:38 | [rl2_trainer] epoch #316 | Saved
2025-04-03 06:38:38 | [rl2_trainer] epoch #316 | Time 60399.23 s
2025-04-03 06:38:38 | [rl2_trainer] epoch #316 | EpochTime 167.16 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -11.7081
Average/AverageReturn                     -17.7049
Average/Iteration                         316
Average/MaxReturn                           5.69885
Average/MinReturn                         -31.9126
Average/NumEpisodes                       100
Average/StdReturn                           6.63176
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.439959
TotalEnvSteps                               3.17e+06
__unnamed_task__/AverageDiscountedReturn  -11.7081
__unnamed_task__/AverageReturn            -17.7049
__unnamed_task__/Iteration                316
__unnamed_task__/MaxReturn                  5.69885
__unnamed_task__/MinReturn                -31.9126
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.63176
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.56904
policy/KL                                   0.0263789
policy/KLBefore                             0
policy/LossAfter                           -0.0134474
policy/LossBefore                          -0.0016946
policy/dLoss                                0.0117528
----------------------------------------  -----------
2025-04-03 06:41:46 | [rl2_trainer] epoch #317 | Optimizing policy...
2025-04-03 06:41:46 | [rl2_trainer] epoch #317 | Fitting baseline...
2025-04-03 06:41:46 | [rl2_trainer] epoch #317 | Computing loss before
2025-04-03 06:41:47 | [rl2_trainer] epoch #317 | Computing KL before
2025-04-03 06:41:47 | [rl2_trainer] epoch #317 | Optimizing
2025-04-03 06:42:24 | [rl2_trainer] epoch #317 | Computing KL after
2025-04-03 06:42:25 | [rl2_trainer] epoch #317 | Computing loss after
2025-04-03 06:42:26 | [rl2_trainer] epoch #317 | Saving snapshot...
2025-04-03 06:42:26 | [rl2_trainer] epoch #317 | Saved
2025-04-03 06:42:26 | [rl2_trainer] epoch #317 | Time 60626.88 s
2025-04-03 06:42:26 | [rl2_trainer] epoch #317 | EpochTime 227.64 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.3446
Average/AverageReturn                     -24.2125
Average/Iteration                         317
Average/MaxReturn                          -1.20905
Average/MinReturn                         -49.6356
Average/NumEpisodes                       100
Average/StdReturn                           8.86605
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.734145
TotalEnvSteps                               3.18e+06
__unnamed_task__/AverageDiscountedReturn  -15.3446
__unnamed_task__/AverageReturn            -24.2125
__unnamed_task__/Iteration                317
__unnamed_task__/MaxReturn                 -1.20905
__unnamed_task__/MinReturn                -49.6356
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.86605
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.57321
policy/KL                                   0.0127746
policy/KLBefore                             0
policy/LossAfter                           -0.0348579
policy/LossBefore                          -0.00253091
policy/dLoss                                0.032327
----------------------------------------  ------------
2025-04-03 06:45:30 | [rl2_trainer] epoch #318 | Optimizing policy...
2025-04-03 06:45:30 | [rl2_trainer] epoch #318 | Fitting baseline...
2025-04-03 06:45:30 | [rl2_trainer] epoch #318 | Computing loss before
2025-04-03 06:45:30 | [rl2_trainer] epoch #318 | Computing KL before
2025-04-03 06:45:31 | [rl2_trainer] epoch #318 | Optimizing
2025-04-03 06:46:06 | [rl2_trainer] epoch #318 | Computing KL after
2025-04-03 06:46:06 | [rl2_trainer] epoch #318 | Computing loss after
2025-04-03 06:46:07 | [rl2_trainer] epoch #318 | Saving snapshot...
2025-04-03 06:46:07 | [rl2_trainer] epoch #318 | Saved
2025-04-03 06:46:07 | [rl2_trainer] epoch #318 | Time 60848.42 s
2025-04-03 06:46:07 | [rl2_trainer] epoch #318 | EpochTime 221.54 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.5068
Average/AverageReturn                     -25.9991
Average/Iteration                         318
Average/MaxReturn                         -15.1287
Average/MinReturn                         -43.0159
Average/NumEpisodes                       100
Average/StdReturn                           6.64997
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.79388
TotalEnvSteps                               3.19e+06
__unnamed_task__/AverageDiscountedReturn  -16.5068
__unnamed_task__/AverageReturn            -25.9991
__unnamed_task__/Iteration                318
__unnamed_task__/MaxReturn                -15.1287
__unnamed_task__/MinReturn                -43.0159
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.64997
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.54662
policy/KL                                   0.0113409
policy/KLBefore                             0
policy/LossAfter                           -0.0164593
policy/LossBefore                          -0.00786132
policy/dLoss                                0.00859799
----------------------------------------  ------------
2025-04-03 06:50:00 | [rl2_trainer] epoch #319 | Optimizing policy...
2025-04-03 06:50:00 | [rl2_trainer] epoch #319 | Fitting baseline...
2025-04-03 06:50:00 | [rl2_trainer] epoch #319 | Computing loss before
2025-04-03 06:50:01 | [rl2_trainer] epoch #319 | Computing KL before
2025-04-03 06:50:01 | [rl2_trainer] epoch #319 | Optimizing
2025-04-03 06:50:38 | [rl2_trainer] epoch #319 | Computing KL after
2025-04-03 06:50:39 | [rl2_trainer] epoch #319 | Computing loss after
2025-04-03 06:50:40 | [rl2_trainer] epoch #319 | Saving snapshot...
2025-04-03 06:50:40 | [rl2_trainer] epoch #319 | Saved
2025-04-03 06:50:40 | [rl2_trainer] epoch #319 | Time 61120.68 s
2025-04-03 06:50:40 | [rl2_trainer] epoch #319 | EpochTime 272.26 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.9118
Average/AverageReturn                     -25.3974
Average/Iteration                         319
Average/MaxReturn                          -6.6667
Average/MinReturn                         -54.6085
Average/NumEpisodes                       100
Average/StdReturn                           9.50698
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.686662
TotalEnvSteps                               3.2e+06
__unnamed_task__/AverageDiscountedReturn  -15.9118
__unnamed_task__/AverageReturn            -25.3974
__unnamed_task__/Iteration                319
__unnamed_task__/MaxReturn                 -6.6667
__unnamed_task__/MinReturn                -54.6085
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.50698
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.53786
policy/KL                                   0.012672
policy/KLBefore                             0
policy/LossAfter                           -0.0573645
policy/LossBefore                          -0.00816775
policy/dLoss                                0.0491968
----------------------------------------  ------------
2025-04-03 06:52:49 | [rl2_trainer] epoch #320 | Optimizing policy...
2025-04-03 06:52:50 | [rl2_trainer] epoch #320 | Fitting baseline...
2025-04-03 06:52:50 | [rl2_trainer] epoch #320 | Computing loss before
2025-04-03 06:52:50 | [rl2_trainer] epoch #320 | Computing KL before
2025-04-03 06:52:51 | [rl2_trainer] epoch #320 | Optimizing
2025-04-03 06:53:27 | [rl2_trainer] epoch #320 | Computing KL after
2025-04-03 06:53:27 | [rl2_trainer] epoch #320 | Computing loss after
2025-04-03 06:53:28 | [rl2_trainer] epoch #320 | Saving snapshot...
2025-04-03 06:53:28 | [rl2_trainer] epoch #320 | Saved
2025-04-03 06:53:28 | [rl2_trainer] epoch #320 | Time 61289.38 s
2025-04-03 06:53:28 | [rl2_trainer] epoch #320 | EpochTime 168.69 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.9357
Average/AverageReturn                     -21.0822
Average/Iteration                         320
Average/MaxReturn                          -2.77281
Average/MinReturn                         -36.1659
Average/NumEpisodes                       100
Average/StdReturn                           5.28979
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.713198
TotalEnvSteps                               3.21e+06
__unnamed_task__/AverageDiscountedReturn  -13.9357
__unnamed_task__/AverageReturn            -21.0822
__unnamed_task__/Iteration                320
__unnamed_task__/MaxReturn                 -2.77281
__unnamed_task__/MinReturn                -36.1659
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.28979
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.53107
policy/KL                                   0.010708
policy/KLBefore                             0
policy/LossAfter                           -0.00823793
policy/LossBefore                           0.00190915
policy/dLoss                                0.0101471
----------------------------------------  ------------
2025-04-03 06:55:38 | [rl2_trainer] epoch #321 | Optimizing policy...
2025-04-03 06:55:38 | [rl2_trainer] epoch #321 | Fitting baseline...
2025-04-03 06:55:38 | [rl2_trainer] epoch #321 | Computing loss before
2025-04-03 06:55:39 | [rl2_trainer] epoch #321 | Computing KL before
2025-04-03 06:55:40 | [rl2_trainer] epoch #321 | Optimizing
2025-04-03 06:56:15 | [rl2_trainer] epoch #321 | Computing KL after
2025-04-03 06:56:16 | [rl2_trainer] epoch #321 | Computing loss after
2025-04-03 06:56:17 | [rl2_trainer] epoch #321 | Saving snapshot...
2025-04-03 06:56:17 | [rl2_trainer] epoch #321 | Saved
2025-04-03 06:56:17 | [rl2_trainer] epoch #321 | Time 61457.76 s
2025-04-03 06:56:17 | [rl2_trainer] epoch #321 | EpochTime 168.38 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.6042
Average/AverageReturn                     -20.6925
Average/Iteration                         321
Average/MaxReturn                           7.05919
Average/MinReturn                         -34.9563
Average/NumEpisodes                       100
Average/StdReturn                           5.72618
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.551279
TotalEnvSteps                               3.22e+06
__unnamed_task__/AverageDiscountedReturn  -13.6042
__unnamed_task__/AverageReturn            -20.6925
__unnamed_task__/Iteration                321
__unnamed_task__/MaxReturn                  7.05919
__unnamed_task__/MinReturn                -34.9563
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.72618
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.52125
policy/KL                                   0.01163
policy/KLBefore                             0
policy/LossAfter                           -0.0262061
policy/LossBefore                          -0.00956942
policy/dLoss                                0.0166367
----------------------------------------  ------------
2025-04-03 06:58:26 | [rl2_trainer] epoch #322 | Optimizing policy...
2025-04-03 06:58:26 | [rl2_trainer] epoch #322 | Fitting baseline...
2025-04-03 06:58:26 | [rl2_trainer] epoch #322 | Computing loss before
2025-04-03 06:58:27 | [rl2_trainer] epoch #322 | Computing KL before
2025-04-03 06:58:27 | [rl2_trainer] epoch #322 | Optimizing
2025-04-03 06:59:03 | [rl2_trainer] epoch #322 | Computing KL after
2025-04-03 06:59:03 | [rl2_trainer] epoch #322 | Computing loss after
2025-04-03 06:59:04 | [rl2_trainer] epoch #322 | Saving snapshot...
2025-04-03 06:59:04 | [rl2_trainer] epoch #322 | Saved
2025-04-03 06:59:04 | [rl2_trainer] epoch #322 | Time 61625.12 s
2025-04-03 06:59:04 | [rl2_trainer] epoch #322 | EpochTime 167.35 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -13.2243
Average/AverageReturn                     -19.8898
Average/Iteration                         322
Average/MaxReturn                          -8.37153
Average/MinReturn                         -34.9309
Average/NumEpisodes                       100
Average/StdReturn                           4.59572
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.607513
TotalEnvSteps                               3.23e+06
__unnamed_task__/AverageDiscountedReturn  -13.2243
__unnamed_task__/AverageReturn            -19.8898
__unnamed_task__/Iteration                322
__unnamed_task__/MaxReturn                 -8.37153
__unnamed_task__/MinReturn                -34.9309
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.59572
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.51976
policy/KL                                   0.013366
policy/KLBefore                             0
policy/LossAfter                           -0.015066
policy/LossBefore                          -0.000797681
policy/dLoss                                0.0142683
----------------------------------------  -------------
2025-04-03 07:03:01 | [rl2_trainer] epoch #323 | Optimizing policy...
2025-04-03 07:03:02 | [rl2_trainer] epoch #323 | Fitting baseline...
2025-04-03 07:03:02 | [rl2_trainer] epoch #323 | Computing loss before
2025-04-03 07:03:02 | [rl2_trainer] epoch #323 | Computing KL before
2025-04-03 07:03:03 | [rl2_trainer] epoch #323 | Optimizing
2025-04-03 07:03:40 | [rl2_trainer] epoch #323 | Computing KL after
2025-04-03 07:03:40 | [rl2_trainer] epoch #323 | Computing loss after
2025-04-03 07:03:41 | [rl2_trainer] epoch #323 | Saving snapshot...
2025-04-03 07:03:41 | [rl2_trainer] epoch #323 | Saved
2025-04-03 07:03:41 | [rl2_trainer] epoch #323 | Time 61902.37 s
2025-04-03 07:03:41 | [rl2_trainer] epoch #323 | EpochTime 277.25 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.2389
Average/AverageReturn                     -25.8482
Average/Iteration                         323
Average/MaxReturn                         -13.3558
Average/MinReturn                         -56.1768
Average/NumEpisodes                       100
Average/StdReturn                           8.94234
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.832765
TotalEnvSteps                               3.24e+06
__unnamed_task__/AverageDiscountedReturn  -16.2389
__unnamed_task__/AverageReturn            -25.8482
__unnamed_task__/Iteration                323
__unnamed_task__/MaxReturn                -13.3558
__unnamed_task__/MinReturn                -56.1768
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.94234
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.50577
policy/KL                                   0.00896097
policy/KLBefore                             0
policy/LossAfter                           -0.0102823
policy/LossBefore                           0.00950587
policy/dLoss                                0.0197882
----------------------------------------  ------------
2025-04-03 07:05:39 | [rl2_trainer] epoch #324 | Optimizing policy...
2025-04-03 07:05:40 | [rl2_trainer] epoch #324 | Fitting baseline...
2025-04-03 07:05:40 | [rl2_trainer] epoch #324 | Computing loss before
2025-04-03 07:05:40 | [rl2_trainer] epoch #324 | Computing KL before
2025-04-03 07:05:41 | [rl2_trainer] epoch #324 | Optimizing
2025-04-03 07:06:17 | [rl2_trainer] epoch #324 | Computing KL after
2025-04-03 07:06:17 | [rl2_trainer] epoch #324 | Computing loss after
2025-04-03 07:06:18 | [rl2_trainer] epoch #324 | Saving snapshot...
2025-04-03 07:06:18 | [rl2_trainer] epoch #324 | Saved
2025-04-03 07:06:18 | [rl2_trainer] epoch #324 | Time 62059.29 s
2025-04-03 07:06:18 | [rl2_trainer] epoch #324 | EpochTime 156.91 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.1536
Average/AverageReturn                     -20.0153
Average/Iteration                         324
Average/MaxReturn                          24.2438
Average/MinReturn                         -35.3668
Average/NumEpisodes                       100
Average/StdReturn                           6.85358
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.530151
TotalEnvSteps                               3.25e+06
__unnamed_task__/AverageDiscountedReturn  -13.1536
__unnamed_task__/AverageReturn            -20.0153
__unnamed_task__/Iteration                324
__unnamed_task__/MaxReturn                 24.2438
__unnamed_task__/MinReturn                -35.3668
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.85358
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.48542
policy/KL                                   0.0141361
policy/KLBefore                             0
policy/LossAfter                           -0.0259538
policy/LossBefore                          -0.00596214
policy/dLoss                                0.0199916
----------------------------------------  ------------
2025-04-03 07:09:34 | [rl2_trainer] epoch #325 | Optimizing policy...
2025-04-03 07:09:34 | [rl2_trainer] epoch #325 | Fitting baseline...
2025-04-03 07:09:34 | [rl2_trainer] epoch #325 | Computing loss before
2025-04-03 07:09:34 | [rl2_trainer] epoch #325 | Computing KL before
2025-04-03 07:09:35 | [rl2_trainer] epoch #325 | Optimizing
2025-04-03 07:10:12 | [rl2_trainer] epoch #325 | Computing KL after
2025-04-03 07:10:12 | [rl2_trainer] epoch #325 | Computing loss after
2025-04-03 07:10:13 | [rl2_trainer] epoch #325 | Saving snapshot...
2025-04-03 07:10:13 | [rl2_trainer] epoch #325 | Saved
2025-04-03 07:10:13 | [rl2_trainer] epoch #325 | Time 62294.02 s
2025-04-03 07:10:13 | [rl2_trainer] epoch #325 | EpochTime 234.72 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.6552
Average/AverageReturn                     -26.2685
Average/Iteration                         325
Average/MaxReturn                         -13.6338
Average/MinReturn                         -46.026
Average/NumEpisodes                       100
Average/StdReturn                           8.26598
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.677669
TotalEnvSteps                               3.26e+06
__unnamed_task__/AverageDiscountedReturn  -16.6552
__unnamed_task__/AverageReturn            -26.2685
__unnamed_task__/Iteration                325
__unnamed_task__/MaxReturn                -13.6338
__unnamed_task__/MinReturn                -46.026
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.26598
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.46279
policy/KL                                   0.0145526
policy/KLBefore                             0
policy/LossAfter                           -0.0339889
policy/LossBefore                           0.00152154
policy/dLoss                                0.0355105
----------------------------------------  ------------
2025-04-03 07:12:41 | [rl2_trainer] epoch #326 | Optimizing policy...
2025-04-03 07:12:41 | [rl2_trainer] epoch #326 | Fitting baseline...
2025-04-03 07:12:41 | [rl2_trainer] epoch #326 | Computing loss before
2025-04-03 07:12:41 | [rl2_trainer] epoch #326 | Computing KL before
2025-04-03 07:12:42 | [rl2_trainer] epoch #326 | Optimizing
2025-04-03 07:13:17 | [rl2_trainer] epoch #326 | Computing KL after
2025-04-03 07:13:18 | [rl2_trainer] epoch #326 | Computing loss after
2025-04-03 07:13:19 | [rl2_trainer] epoch #326 | Saving snapshot...
2025-04-03 07:13:19 | [rl2_trainer] epoch #326 | Saved
2025-04-03 07:13:19 | [rl2_trainer] epoch #326 | Time 62479.85 s
2025-04-03 07:13:19 | [rl2_trainer] epoch #326 | EpochTime 185.83 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -11.8175
Average/AverageReturn                     -17.8434
Average/Iteration                         326
Average/MaxReturn                           2.64314
Average/MinReturn                         -41.1271
Average/NumEpisodes                       100
Average/StdReturn                           6.17605
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.571613
TotalEnvSteps                               3.27e+06
__unnamed_task__/AverageDiscountedReturn  -11.8175
__unnamed_task__/AverageReturn            -17.8434
__unnamed_task__/Iteration                326
__unnamed_task__/MaxReturn                  2.64314
__unnamed_task__/MinReturn                -41.1271
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.17605
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.43602
policy/KL                                   0.0108643
policy/KLBefore                             0
policy/LossAfter                           -0.0133238
policy/LossBefore                           0.000174516
policy/dLoss                                0.0134983
----------------------------------------  -------------
2025-04-03 07:16:07 | [rl2_trainer] epoch #327 | Optimizing policy...
2025-04-03 07:16:08 | [rl2_trainer] epoch #327 | Fitting baseline...
2025-04-03 07:16:08 | [rl2_trainer] epoch #327 | Computing loss before
2025-04-03 07:16:08 | [rl2_trainer] epoch #327 | Computing KL before
2025-04-03 07:16:09 | [rl2_trainer] epoch #327 | Optimizing
2025-04-03 07:16:45 | [rl2_trainer] epoch #327 | Computing KL after
2025-04-03 07:16:46 | [rl2_trainer] epoch #327 | Computing loss after
2025-04-03 07:16:47 | [rl2_trainer] epoch #327 | Saving snapshot...
2025-04-03 07:16:47 | [rl2_trainer] epoch #327 | Saved
2025-04-03 07:16:47 | [rl2_trainer] epoch #327 | Time 62687.73 s
2025-04-03 07:16:47 | [rl2_trainer] epoch #327 | EpochTime 207.88 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.2848
Average/AverageReturn                     -22.5208
Average/Iteration                         327
Average/MaxReturn                           6.4208
Average/MinReturn                         -55.9829
Average/NumEpisodes                       100
Average/StdReturn                          11.758
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.873861
TotalEnvSteps                               3.28e+06
__unnamed_task__/AverageDiscountedReturn  -14.2848
__unnamed_task__/AverageReturn            -22.5208
__unnamed_task__/Iteration                327
__unnamed_task__/MaxReturn                  6.4208
__unnamed_task__/MinReturn                -55.9829
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.758
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.42686
policy/KL                                   0.0170574
policy/KLBefore                             0
policy/LossAfter                           -0.0304636
policy/LossBefore                           0.00179663
policy/dLoss                                0.0322602
----------------------------------------  ------------
2025-04-03 07:19:05 | [rl2_trainer] epoch #328 | Optimizing policy...
2025-04-03 07:19:05 | [rl2_trainer] epoch #328 | Fitting baseline...
2025-04-03 07:19:05 | [rl2_trainer] epoch #328 | Computing loss before
2025-04-03 07:19:06 | [rl2_trainer] epoch #328 | Computing KL before
2025-04-03 07:19:07 | [rl2_trainer] epoch #328 | Optimizing
2025-04-03 07:19:42 | [rl2_trainer] epoch #328 | Computing KL after
2025-04-03 07:19:43 | [rl2_trainer] epoch #328 | Computing loss after
2025-04-03 07:19:44 | [rl2_trainer] epoch #328 | Saving snapshot...
2025-04-03 07:19:44 | [rl2_trainer] epoch #328 | Saved
2025-04-03 07:19:44 | [rl2_trainer] epoch #328 | Time 62864.74 s
2025-04-03 07:19:44 | [rl2_trainer] epoch #328 | EpochTime 177.00 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -12.4255
Average/AverageReturn                     -19.2771
Average/Iteration                         328
Average/MaxReturn                          -0.475886
Average/MinReturn                         -28.6361
Average/NumEpisodes                       100
Average/StdReturn                           4.36519
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.442277
TotalEnvSteps                               3.29e+06
__unnamed_task__/AverageDiscountedReturn  -12.4255
__unnamed_task__/AverageReturn            -19.2771
__unnamed_task__/Iteration                328
__unnamed_task__/MaxReturn                 -0.475886
__unnamed_task__/MinReturn                -28.6361
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.36519
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.42284
policy/KL                                   0.0124743
policy/KLBefore                             0
policy/LossAfter                           -0.0173043
policy/LossBefore                           0.000668765
policy/dLoss                                0.017973
----------------------------------------  -------------
2025-04-03 07:22:38 | [rl2_trainer] epoch #329 | Optimizing policy...
2025-04-03 07:22:38 | [rl2_trainer] epoch #329 | Fitting baseline...
2025-04-03 07:22:38 | [rl2_trainer] epoch #329 | Computing loss before
2025-04-03 07:22:39 | [rl2_trainer] epoch #329 | Computing KL before
2025-04-03 07:22:40 | [rl2_trainer] epoch #329 | Optimizing
2025-04-03 07:23:16 | [rl2_trainer] epoch #329 | Computing KL after
2025-04-03 07:23:16 | [rl2_trainer] epoch #329 | Computing loss after
2025-04-03 07:23:17 | [rl2_trainer] epoch #329 | Saving snapshot...
2025-04-03 07:23:17 | [rl2_trainer] epoch #329 | Saved
2025-04-03 07:23:17 | [rl2_trainer] epoch #329 | Time 63078.11 s
2025-04-03 07:23:17 | [rl2_trainer] epoch #329 | EpochTime 213.38 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -14.4878
Average/AverageReturn                     -22.486
Average/Iteration                         329
Average/MaxReturn                           3.14345
Average/MinReturn                         -53.2212
Average/NumEpisodes                       100
Average/StdReturn                          13.2435
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.894282
TotalEnvSteps                               3.3e+06
__unnamed_task__/AverageDiscountedReturn  -14.4878
__unnamed_task__/AverageReturn            -22.486
__unnamed_task__/Iteration                329
__unnamed_task__/MaxReturn                  3.14345
__unnamed_task__/MinReturn                -53.2212
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.2435
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.40694
policy/KL                                   0.0144546
policy/KLBefore                             0
policy/LossAfter                           -0.0410819
policy/LossBefore                          -0.0061281
policy/dLoss                                0.0349538
----------------------------------------  -----------
2025-04-03 07:25:15 | [rl2_trainer] epoch #330 | Optimizing policy...
2025-04-03 07:25:16 | [rl2_trainer] epoch #330 | Fitting baseline...
2025-04-03 07:25:16 | [rl2_trainer] epoch #330 | Computing loss before
2025-04-03 07:25:16 | [rl2_trainer] epoch #330 | Computing KL before
2025-04-03 07:25:17 | [rl2_trainer] epoch #330 | Optimizing
2025-04-03 07:25:53 | [rl2_trainer] epoch #330 | Computing KL after
2025-04-03 07:25:53 | [rl2_trainer] epoch #330 | Computing loss after
2025-04-03 07:25:54 | [rl2_trainer] epoch #330 | Saving snapshot...
2025-04-03 07:25:54 | [rl2_trainer] epoch #330 | Saved
2025-04-03 07:25:54 | [rl2_trainer] epoch #330 | Time 63235.28 s
2025-04-03 07:25:54 | [rl2_trainer] epoch #330 | EpochTime 157.17 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.0011
Average/AverageReturn                     -19.5497
Average/Iteration                         330
Average/MaxReturn                           9.8085
Average/MinReturn                         -42.8158
Average/NumEpisodes                       100
Average/StdReturn                           6.18977
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.554811
TotalEnvSteps                               3.31e+06
__unnamed_task__/AverageDiscountedReturn  -13.0011
__unnamed_task__/AverageReturn            -19.5497
__unnamed_task__/Iteration                330
__unnamed_task__/MaxReturn                  9.8085
__unnamed_task__/MinReturn                -42.8158
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.18977
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.40496
policy/KL                                   0.0122243
policy/KLBefore                             0
policy/LossAfter                           -0.0293152
policy/LossBefore                          -0.00658745
policy/dLoss                                0.0227277
----------------------------------------  ------------
2025-04-03 07:28:07 | [rl2_trainer] epoch #331 | Optimizing policy...
2025-04-03 07:28:07 | [rl2_trainer] epoch #331 | Fitting baseline...
2025-04-03 07:28:07 | [rl2_trainer] epoch #331 | Computing loss before
2025-04-03 07:28:08 | [rl2_trainer] epoch #331 | Computing KL before
2025-04-03 07:28:08 | [rl2_trainer] epoch #331 | Optimizing
2025-04-03 07:28:45 | [rl2_trainer] epoch #331 | Computing KL after
2025-04-03 07:28:45 | [rl2_trainer] epoch #331 | Computing loss after
2025-04-03 07:28:46 | [rl2_trainer] epoch #331 | Saving snapshot...
2025-04-03 07:28:46 | [rl2_trainer] epoch #331 | Saved
2025-04-03 07:28:46 | [rl2_trainer] epoch #331 | Time 63407.18 s
2025-04-03 07:28:46 | [rl2_trainer] epoch #331 | EpochTime 171.89 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.918
Average/AverageReturn                     -15.9197
Average/Iteration                         331
Average/MaxReturn                          28.7653
Average/MinReturn                         -60.1436
Average/NumEpisodes                       100
Average/StdReturn                          10.7122
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.679253
TotalEnvSteps                               3.32e+06
__unnamed_task__/AverageDiscountedReturn  -10.918
__unnamed_task__/AverageReturn            -15.9197
__unnamed_task__/Iteration                331
__unnamed_task__/MaxReturn                 28.7653
__unnamed_task__/MinReturn                -60.1436
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.7122
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.39232
policy/KL                                   0.0147797
policy/KLBefore                             0
policy/LossAfter                           -0.0432352
policy/LossBefore                          -0.00616597
policy/dLoss                                0.0370692
----------------------------------------  ------------
2025-04-03 07:30:13 | [rl2_trainer] epoch #332 | Optimizing policy...
2025-04-03 07:30:13 | [rl2_trainer] epoch #332 | Fitting baseline...
2025-04-03 07:30:13 | [rl2_trainer] epoch #332 | Computing loss before
2025-04-03 07:30:14 | [rl2_trainer] epoch #332 | Computing KL before
2025-04-03 07:30:15 | [rl2_trainer] epoch #332 | Optimizing
2025-04-03 07:30:49 | [rl2_trainer] epoch #332 | Computing KL after
2025-04-03 07:30:50 | [rl2_trainer] epoch #332 | Computing loss after
2025-04-03 07:30:51 | [rl2_trainer] epoch #332 | Saving snapshot...
2025-04-03 07:30:51 | [rl2_trainer] epoch #332 | Saved
2025-04-03 07:30:51 | [rl2_trainer] epoch #332 | Time 63531.97 s
2025-04-03 07:30:51 | [rl2_trainer] epoch #332 | EpochTime 124.79 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.4898
Average/AverageReturn                     -15.2877
Average/Iteration                         332
Average/MaxReturn                           7.7969
Average/MinReturn                         -59.375
Average/NumEpisodes                       100
Average/StdReturn                           8.45892
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.603896
TotalEnvSteps                               3.33e+06
__unnamed_task__/AverageDiscountedReturn  -10.4898
__unnamed_task__/AverageReturn            -15.2877
__unnamed_task__/Iteration                332
__unnamed_task__/MaxReturn                  7.7969
__unnamed_task__/MinReturn                -59.375
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.45892
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.36744
policy/KL                                   0.0136003
policy/KLBefore                             0
policy/LossAfter                           -0.0254091
policy/LossBefore                           0.00183932
policy/dLoss                                0.0272485
----------------------------------------  ------------
2025-04-03 07:34:41 | [rl2_trainer] epoch #333 | Optimizing policy...
2025-04-03 07:34:42 | [rl2_trainer] epoch #333 | Fitting baseline...
2025-04-03 07:34:42 | [rl2_trainer] epoch #333 | Computing loss before
2025-04-03 07:34:42 | [rl2_trainer] epoch #333 | Computing KL before
2025-04-03 07:34:43 | [rl2_trainer] epoch #333 | Optimizing
2025-04-03 07:35:19 | [rl2_trainer] epoch #333 | Computing KL after
2025-04-03 07:35:20 | [rl2_trainer] epoch #333 | Computing loss after
2025-04-03 07:35:21 | [rl2_trainer] epoch #333 | Saving snapshot...
2025-04-03 07:35:21 | [rl2_trainer] epoch #333 | Saved
2025-04-03 07:35:21 | [rl2_trainer] epoch #333 | Time 63801.88 s
2025-04-03 07:35:21 | [rl2_trainer] epoch #333 | EpochTime 269.90 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -15.2641
Average/AverageReturn                     -24.2484
Average/Iteration                         333
Average/MaxReturn                         -11.3974
Average/MinReturn                         -50.7482
Average/NumEpisodes                       100
Average/StdReturn                           8.93411
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.864511
TotalEnvSteps                               3.34e+06
__unnamed_task__/AverageDiscountedReturn  -15.2641
__unnamed_task__/AverageReturn            -24.2484
__unnamed_task__/Iteration                333
__unnamed_task__/MaxReturn                -11.3974
__unnamed_task__/MinReturn                -50.7482
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.93411
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.33887
policy/KL                                   0.0135351
policy/KLBefore                             0
policy/LossAfter                           -0.0134436
policy/LossBefore                           0.000541792
policy/dLoss                                0.0139854
----------------------------------------  -------------
2025-04-03 07:37:45 | [rl2_trainer] epoch #334 | Optimizing policy...
2025-04-03 07:37:45 | [rl2_trainer] epoch #334 | Fitting baseline...
2025-04-03 07:37:45 | [rl2_trainer] epoch #334 | Computing loss before
2025-04-03 07:37:45 | [rl2_trainer] epoch #334 | Computing KL before
2025-04-03 07:37:46 | [rl2_trainer] epoch #334 | Optimizing
2025-04-03 07:38:23 | [rl2_trainer] epoch #334 | Computing KL after
2025-04-03 07:38:23 | [rl2_trainer] epoch #334 | Computing loss after
2025-04-03 07:38:24 | [rl2_trainer] epoch #334 | Saving snapshot...
2025-04-03 07:38:24 | [rl2_trainer] epoch #334 | Saved
2025-04-03 07:38:24 | [rl2_trainer] epoch #334 | Time 63985.30 s
2025-04-03 07:38:24 | [rl2_trainer] epoch #334 | EpochTime 183.41 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -15.0409
Average/AverageReturn                     -23.8316
Average/Iteration                         334
Average/MaxReturn                          -6.57067
Average/MinReturn                         -56.9656
Average/NumEpisodes                       100
Average/StdReturn                           8.27279
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.721016
TotalEnvSteps                               3.35e+06
__unnamed_task__/AverageDiscountedReturn  -15.0409
__unnamed_task__/AverageReturn            -23.8316
__unnamed_task__/Iteration                334
__unnamed_task__/MaxReturn                 -6.57067
__unnamed_task__/MinReturn                -56.9656
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.27279
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.32434
policy/KL                                   0.0114294
policy/KLBefore                             0
policy/LossAfter                           -0.0299382
policy/LossBefore                          -0.000785925
policy/dLoss                                0.0291523
----------------------------------------  -------------
2025-04-03 07:40:52 | [rl2_trainer] epoch #335 | Optimizing policy...
2025-04-03 07:40:52 | [rl2_trainer] epoch #335 | Fitting baseline...
2025-04-03 07:40:52 | [rl2_trainer] epoch #335 | Computing loss before
2025-04-03 07:40:53 | [rl2_trainer] epoch #335 | Computing KL before
2025-04-03 07:40:53 | [rl2_trainer] epoch #335 | Optimizing
2025-04-03 07:41:29 | [rl2_trainer] epoch #335 | Computing KL after
2025-04-03 07:41:30 | [rl2_trainer] epoch #335 | Computing loss after
2025-04-03 07:41:31 | [rl2_trainer] epoch #335 | Saving snapshot...
2025-04-03 07:41:31 | [rl2_trainer] epoch #335 | Saved
2025-04-03 07:41:31 | [rl2_trainer] epoch #335 | Time 64171.62 s
2025-04-03 07:41:31 | [rl2_trainer] epoch #335 | EpochTime 186.32 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -9.07688
Average/AverageReturn                     -13.5124
Average/Iteration                         335
Average/MaxReturn                          10.1921
Average/MinReturn                         -23.5716
Average/NumEpisodes                       100
Average/StdReturn                           7.08953
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.521599
TotalEnvSteps                               3.36e+06
__unnamed_task__/AverageDiscountedReturn   -9.07688
__unnamed_task__/AverageReturn            -13.5124
__unnamed_task__/Iteration                335
__unnamed_task__/MaxReturn                 10.1921
__unnamed_task__/MinReturn                -23.5716
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.08953
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.28937
policy/KL                                   0.0175429
policy/KLBefore                             0
policy/LossAfter                           -0.00300879
policy/LossBefore                           0.00621317
policy/dLoss                                0.00922196
----------------------------------------  ------------
2025-04-03 07:44:33 | [rl2_trainer] epoch #336 | Optimizing policy...
2025-04-03 07:44:33 | [rl2_trainer] epoch #336 | Fitting baseline...
2025-04-03 07:44:33 | [rl2_trainer] epoch #336 | Computing loss before
2025-04-03 07:44:34 | [rl2_trainer] epoch #336 | Computing KL before
2025-04-03 07:44:34 | [rl2_trainer] epoch #336 | Optimizing
2025-04-03 07:45:10 | [rl2_trainer] epoch #336 | Computing KL after
2025-04-03 07:45:10 | [rl2_trainer] epoch #336 | Computing loss after
2025-04-03 07:45:11 | [rl2_trainer] epoch #336 | Saving snapshot...
2025-04-03 07:45:11 | [rl2_trainer] epoch #336 | Saved
2025-04-03 07:45:11 | [rl2_trainer] epoch #336 | Time 64392.09 s
2025-04-03 07:45:11 | [rl2_trainer] epoch #336 | EpochTime 220.47 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.3577
Average/AverageReturn                     -19.4775
Average/Iteration                         336
Average/MaxReturn                           6.30271
Average/MinReturn                         -47.0904
Average/NumEpisodes                       100
Average/StdReturn                          11.3855
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.855003
TotalEnvSteps                               3.37e+06
__unnamed_task__/AverageDiscountedReturn  -12.3577
__unnamed_task__/AverageReturn            -19.4775
__unnamed_task__/Iteration                336
__unnamed_task__/MaxReturn                  6.30271
__unnamed_task__/MinReturn                -47.0904
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.3855
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.25667
policy/KL                                   0.0118552
policy/KLBefore                             0
policy/LossAfter                           -0.0296028
policy/LossBefore                          -0.00844706
policy/dLoss                                0.0211557
----------------------------------------  ------------
2025-04-03 07:48:21 | [rl2_trainer] epoch #337 | Optimizing policy...
2025-04-03 07:48:21 | [rl2_trainer] epoch #337 | Fitting baseline...
2025-04-03 07:48:21 | [rl2_trainer] epoch #337 | Computing loss before
2025-04-03 07:48:22 | [rl2_trainer] epoch #337 | Computing KL before
2025-04-03 07:48:23 | [rl2_trainer] epoch #337 | Optimizing
2025-04-03 07:48:57 | [rl2_trainer] epoch #337 | Computing KL after
2025-04-03 07:48:58 | [rl2_trainer] epoch #337 | Computing loss after
2025-04-03 07:48:59 | [rl2_trainer] epoch #337 | Saving snapshot...
2025-04-03 07:48:59 | [rl2_trainer] epoch #337 | Saved
2025-04-03 07:48:59 | [rl2_trainer] epoch #337 | Time 64619.61 s
2025-04-03 07:48:59 | [rl2_trainer] epoch #337 | EpochTime 227.51 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -14.8769
Average/AverageReturn                     -23.5175
Average/Iteration                         337
Average/MaxReturn                           9.04447
Average/MinReturn                         -52.5139
Average/NumEpisodes                       100
Average/StdReturn                           9.03443
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.764055
TotalEnvSteps                               3.38e+06
__unnamed_task__/AverageDiscountedReturn  -14.8769
__unnamed_task__/AverageReturn            -23.5175
__unnamed_task__/Iteration                337
__unnamed_task__/MaxReturn                  9.04447
__unnamed_task__/MinReturn                -52.5139
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.03443
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.23327
policy/KL                                   0.0131185
policy/KLBefore                             0
policy/LossAfter                           -0.0362824
policy/LossBefore                          -0.0133059
policy/dLoss                                0.0229766
----------------------------------------  -----------
2025-04-03 07:51:45 | [rl2_trainer] epoch #338 | Optimizing policy...
2025-04-03 07:51:46 | [rl2_trainer] epoch #338 | Fitting baseline...
2025-04-03 07:51:46 | [rl2_trainer] epoch #338 | Computing loss before
2025-04-03 07:51:46 | [rl2_trainer] epoch #338 | Computing KL before
2025-04-03 07:51:47 | [rl2_trainer] epoch #338 | Optimizing
2025-04-03 07:52:22 | [rl2_trainer] epoch #338 | Computing KL after
2025-04-03 07:52:23 | [rl2_trainer] epoch #338 | Computing loss after
2025-04-03 07:52:24 | [rl2_trainer] epoch #338 | Saving snapshot...
2025-04-03 07:52:24 | [rl2_trainer] epoch #338 | Saved
2025-04-03 07:52:24 | [rl2_trainer] epoch #338 | Time 64824.96 s
2025-04-03 07:52:24 | [rl2_trainer] epoch #338 | EpochTime 205.35 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.8733
Average/AverageReturn                     -21.8764
Average/Iteration                         338
Average/MaxReturn                           6.29952
Average/MinReturn                         -53.2766
Average/NumEpisodes                       100
Average/StdReturn                          13.1301
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.880649
TotalEnvSteps                               3.39e+06
__unnamed_task__/AverageDiscountedReturn  -13.8733
__unnamed_task__/AverageReturn            -21.8764
__unnamed_task__/Iteration                338
__unnamed_task__/MaxReturn                  6.29952
__unnamed_task__/MinReturn                -53.2766
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.1301
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.19292
policy/KL                                   0.0158232
policy/KLBefore                             0
policy/LossAfter                           -0.0277968
policy/LossBefore                           0.00460162
policy/dLoss                                0.0323984
----------------------------------------  ------------
2025-04-03 07:54:48 | [rl2_trainer] epoch #339 | Optimizing policy...
2025-04-03 07:54:48 | [rl2_trainer] epoch #339 | Fitting baseline...
2025-04-03 07:54:48 | [rl2_trainer] epoch #339 | Computing loss before
2025-04-03 07:54:49 | [rl2_trainer] epoch #339 | Computing KL before
2025-04-03 07:54:49 | [rl2_trainer] epoch #339 | Optimizing
2025-04-03 07:55:24 | [rl2_trainer] epoch #339 | Computing KL after
2025-04-03 07:55:25 | [rl2_trainer] epoch #339 | Computing loss after
2025-04-03 07:55:25 | [rl2_trainer] epoch #339 | Saving snapshot...
2025-04-03 07:55:25 | [rl2_trainer] epoch #339 | Saved
2025-04-03 07:55:25 | [rl2_trainer] epoch #339 | Time 65006.41 s
2025-04-03 07:55:25 | [rl2_trainer] epoch #339 | EpochTime 181.44 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.4246
Average/AverageReturn                     -24.4659
Average/Iteration                         339
Average/MaxReturn                           6.61796
Average/MinReturn                         -59.2023
Average/NumEpisodes                       100
Average/StdReturn                          10.4641
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.784327
TotalEnvSteps                               3.4e+06
__unnamed_task__/AverageDiscountedReturn  -15.4246
__unnamed_task__/AverageReturn            -24.4659
__unnamed_task__/Iteration                339
__unnamed_task__/MaxReturn                  6.61796
__unnamed_task__/MinReturn                -59.2023
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.4641
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.14772
policy/KL                                   0.01194
policy/KLBefore                             0
policy/LossAfter                           -0.0193497
policy/LossBefore                          -0.00083219
policy/dLoss                                0.0185175
----------------------------------------  ------------
2025-04-03 07:57:22 | [rl2_trainer] epoch #340 | Optimizing policy...
2025-04-03 07:57:22 | [rl2_trainer] epoch #340 | Fitting baseline...
2025-04-03 07:57:22 | [rl2_trainer] epoch #340 | Computing loss before
2025-04-03 07:57:23 | [rl2_trainer] epoch #340 | Computing KL before
2025-04-03 07:57:23 | [rl2_trainer] epoch #340 | Optimizing
2025-04-03 07:58:00 | [rl2_trainer] epoch #340 | Computing KL after
2025-04-03 07:58:01 | [rl2_trainer] epoch #340 | Computing loss after
2025-04-03 07:58:02 | [rl2_trainer] epoch #340 | Saving snapshot...
2025-04-03 07:58:02 | [rl2_trainer] epoch #340 | Saved
2025-04-03 07:58:02 | [rl2_trainer] epoch #340 | Time 65162.78 s
2025-04-03 07:58:02 | [rl2_trainer] epoch #340 | EpochTime 156.37 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.6898
Average/AverageReturn                     -20.8341
Average/Iteration                         340
Average/MaxReturn                          -1.01815
Average/MinReturn                         -52.5496
Average/NumEpisodes                       100
Average/StdReturn                           7.2321
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.736894
TotalEnvSteps                               3.41e+06
__unnamed_task__/AverageDiscountedReturn  -13.6898
__unnamed_task__/AverageReturn            -20.8341
__unnamed_task__/Iteration                340
__unnamed_task__/MaxReturn                 -1.01815
__unnamed_task__/MinReturn                -52.5496
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.2321
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.11459
policy/KL                                   0.0105658
policy/KLBefore                             0
policy/LossAfter                           -0.0185708
policy/LossBefore                          -0.00123499
policy/dLoss                                0.0173358
----------------------------------------  ------------
2025-04-03 08:00:55 | [rl2_trainer] epoch #341 | Optimizing policy...
2025-04-03 08:00:56 | [rl2_trainer] epoch #341 | Fitting baseline...
2025-04-03 08:00:56 | [rl2_trainer] epoch #341 | Computing loss before
2025-04-03 08:00:56 | [rl2_trainer] epoch #341 | Computing KL before
2025-04-03 08:00:57 | [rl2_trainer] epoch #341 | Optimizing
2025-04-03 08:01:32 | [rl2_trainer] epoch #341 | Computing KL after
2025-04-03 08:01:33 | [rl2_trainer] epoch #341 | Computing loss after
2025-04-03 08:01:34 | [rl2_trainer] epoch #341 | Saving snapshot...
2025-04-03 08:01:34 | [rl2_trainer] epoch #341 | Saved
2025-04-03 08:01:34 | [rl2_trainer] epoch #341 | Time 65374.56 s
2025-04-03 08:01:34 | [rl2_trainer] epoch #341 | EpochTime 211.77 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.5807
Average/AverageReturn                     -24.5613
Average/Iteration                         341
Average/MaxReturn                          17.1452
Average/MinReturn                         -49.7972
Average/NumEpisodes                       100
Average/StdReturn                          10.8785
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.770452
TotalEnvSteps                               3.42e+06
__unnamed_task__/AverageDiscountedReturn  -15.5807
__unnamed_task__/AverageReturn            -24.5613
__unnamed_task__/Iteration                341
__unnamed_task__/MaxReturn                 17.1452
__unnamed_task__/MinReturn                -49.7972
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.8785
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.07275
policy/KL                                   0.0157511
policy/KLBefore                             0
policy/LossAfter                           -0.0214146
policy/LossBefore                           0.00750662
policy/dLoss                                0.0289212
----------------------------------------  ------------
2025-04-03 08:04:28 | [rl2_trainer] epoch #342 | Optimizing policy...
2025-04-03 08:04:28 | [rl2_trainer] epoch #342 | Fitting baseline...
2025-04-03 08:04:28 | [rl2_trainer] epoch #342 | Computing loss before
2025-04-03 08:04:29 | [rl2_trainer] epoch #342 | Computing KL before
2025-04-03 08:04:29 | [rl2_trainer] epoch #342 | Optimizing
2025-04-03 08:05:04 | [rl2_trainer] epoch #342 | Computing KL after
2025-04-03 08:05:05 | [rl2_trainer] epoch #342 | Computing loss after
2025-04-03 08:05:06 | [rl2_trainer] epoch #342 | Saving snapshot...
2025-04-03 08:05:06 | [rl2_trainer] epoch #342 | Saved
2025-04-03 08:05:06 | [rl2_trainer] epoch #342 | Time 65586.99 s
2025-04-03 08:05:06 | [rl2_trainer] epoch #342 | EpochTime 212.43 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -15.1977
Average/AverageReturn                     -24.1403
Average/Iteration                         342
Average/MaxReturn                           1.46303
Average/MinReturn                         -61.2584
Average/NumEpisodes                       100
Average/StdReturn                           9.188
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.846976
TotalEnvSteps                               3.43e+06
__unnamed_task__/AverageDiscountedReturn  -15.1977
__unnamed_task__/AverageReturn            -24.1403
__unnamed_task__/Iteration                342
__unnamed_task__/MaxReturn                  1.46303
__unnamed_task__/MinReturn                -61.2584
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.188
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.04469
policy/KL                                   0.010527
policy/KLBefore                             0
policy/LossAfter                           -0.0135131
policy/LossBefore                          -0.000732803
policy/dLoss                                0.0127803
----------------------------------------  -------------
2025-04-03 08:07:16 | [rl2_trainer] epoch #343 | Optimizing policy...
2025-04-03 08:07:16 | [rl2_trainer] epoch #343 | Fitting baseline...
2025-04-03 08:07:16 | [rl2_trainer] epoch #343 | Computing loss before
2025-04-03 08:07:17 | [rl2_trainer] epoch #343 | Computing KL before
2025-04-03 08:07:18 | [rl2_trainer] epoch #343 | Optimizing
2025-04-03 08:07:52 | [rl2_trainer] epoch #343 | Computing KL after
2025-04-03 08:07:53 | [rl2_trainer] epoch #343 | Computing loss after
2025-04-03 08:07:54 | [rl2_trainer] epoch #343 | Saving snapshot...
2025-04-03 08:07:54 | [rl2_trainer] epoch #343 | Saved
2025-04-03 08:07:54 | [rl2_trainer] epoch #343 | Time 65754.78 s
2025-04-03 08:07:54 | [rl2_trainer] epoch #343 | EpochTime 167.79 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.1224
Average/AverageReturn                     -17.9984
Average/Iteration                         343
Average/MaxReturn                           6.99453
Average/MinReturn                         -31.4647
Average/NumEpisodes                       100
Average/StdReturn                           7.16026
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.705441
TotalEnvSteps                               3.44e+06
__unnamed_task__/AverageDiscountedReturn  -12.1224
__unnamed_task__/AverageReturn            -17.9984
__unnamed_task__/Iteration                343
__unnamed_task__/MaxReturn                  6.99453
__unnamed_task__/MinReturn                -31.4647
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.16026
__unnamed_task__/TerminationRate            0
policy/Entropy                              3.01742
policy/KL                                   0.0106675
policy/KLBefore                             0
policy/LossAfter                           -0.0147549
policy/LossBefore                          -0.00130536
policy/dLoss                                0.0134496
----------------------------------------  ------------
2025-04-03 08:11:05 | [rl2_trainer] epoch #344 | Optimizing policy...
2025-04-03 08:11:05 | [rl2_trainer] epoch #344 | Fitting baseline...
2025-04-03 08:11:05 | [rl2_trainer] epoch #344 | Computing loss before
2025-04-03 08:11:06 | [rl2_trainer] epoch #344 | Computing KL before
2025-04-03 08:11:06 | [rl2_trainer] epoch #344 | Optimizing
2025-04-03 08:11:43 | [rl2_trainer] epoch #344 | Computing KL after
2025-04-03 08:11:43 | [rl2_trainer] epoch #344 | Computing loss after
2025-04-03 08:11:44 | [rl2_trainer] epoch #344 | Saving snapshot...
2025-04-03 08:11:44 | [rl2_trainer] epoch #344 | Saved
2025-04-03 08:11:44 | [rl2_trainer] epoch #344 | Time 65985.24 s
2025-04-03 08:11:44 | [rl2_trainer] epoch #344 | EpochTime 230.46 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.2349
Average/AverageReturn                     -26.0143
Average/Iteration                         344
Average/MaxReturn                          -0.226343
Average/MinReturn                         -58.7011
Average/NumEpisodes                       100
Average/StdReturn                          10.9205
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.823939
TotalEnvSteps                               3.45e+06
__unnamed_task__/AverageDiscountedReturn  -16.2349
__unnamed_task__/AverageReturn            -26.0143
__unnamed_task__/Iteration                344
__unnamed_task__/MaxReturn                 -0.226343
__unnamed_task__/MinReturn                -58.7011
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.9205
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.99905
policy/KL                                   0.013368
policy/KLBefore                             0
policy/LossAfter                           -0.0300498
policy/LossBefore                           0.00147923
policy/dLoss                                0.0315291
----------------------------------------  ------------
2025-04-03 08:13:43 | [rl2_trainer] epoch #345 | Optimizing policy...
2025-04-03 08:13:43 | [rl2_trainer] epoch #345 | Fitting baseline...
2025-04-03 08:13:43 | [rl2_trainer] epoch #345 | Computing loss before
2025-04-03 08:13:44 | [rl2_trainer] epoch #345 | Computing KL before
2025-04-03 08:13:44 | [rl2_trainer] epoch #345 | Optimizing
2025-04-03 08:14:21 | [rl2_trainer] epoch #345 | Computing KL after
2025-04-03 08:14:22 | [rl2_trainer] epoch #345 | Computing loss after
2025-04-03 08:14:23 | [rl2_trainer] epoch #345 | Saving snapshot...
2025-04-03 08:14:23 | [rl2_trainer] epoch #345 | Saved
2025-04-03 08:14:23 | [rl2_trainer] epoch #345 | Time 66143.76 s
2025-04-03 08:14:23 | [rl2_trainer] epoch #345 | EpochTime 158.51 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.4271
Average/AverageReturn                     -20.4247
Average/Iteration                         345
Average/MaxReturn                           5.04227
Average/MinReturn                         -38.6449
Average/NumEpisodes                       100
Average/StdReturn                           6.22586
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.688578
TotalEnvSteps                               3.46e+06
__unnamed_task__/AverageDiscountedReturn  -13.4271
__unnamed_task__/AverageReturn            -20.4247
__unnamed_task__/Iteration                345
__unnamed_task__/MaxReturn                  5.04227
__unnamed_task__/MinReturn                -38.6449
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.22586
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.97771
policy/KL                                   0.0113254
policy/KLBefore                             0
policy/LossAfter                           -0.00680392
policy/LossBefore                           0.0030472
policy/dLoss                                0.00985112
----------------------------------------  ------------
2025-04-03 08:16:40 | [rl2_trainer] epoch #346 | Optimizing policy...
2025-04-03 08:16:40 | [rl2_trainer] epoch #346 | Fitting baseline...
2025-04-03 08:16:40 | [rl2_trainer] epoch #346 | Computing loss before
2025-04-03 08:16:41 | [rl2_trainer] epoch #346 | Computing KL before
2025-04-03 08:16:41 | [rl2_trainer] epoch #346 | Optimizing
2025-04-03 08:17:15 | [rl2_trainer] epoch #346 | Computing KL after
2025-04-03 08:17:16 | [rl2_trainer] epoch #346 | Computing loss after
2025-04-03 08:17:17 | [rl2_trainer] epoch #346 | Saving snapshot...
2025-04-03 08:17:17 | [rl2_trainer] epoch #346 | Saved
2025-04-03 08:17:17 | [rl2_trainer] epoch #346 | Time 66317.55 s
2025-04-03 08:17:17 | [rl2_trainer] epoch #346 | EpochTime 173.79 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.1044
Average/AverageReturn                     -16.7109
Average/Iteration                         346
Average/MaxReturn                          15.6382
Average/MinReturn                         -26.9688
Average/NumEpisodes                       100
Average/StdReturn                           6.72407
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.478215
TotalEnvSteps                               3.47e+06
__unnamed_task__/AverageDiscountedReturn  -11.1044
__unnamed_task__/AverageReturn            -16.7109
__unnamed_task__/Iteration                346
__unnamed_task__/MaxReturn                 15.6382
__unnamed_task__/MinReturn                -26.9688
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.72407
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.96334
policy/KL                                   0.0092783
policy/KLBefore                             0
policy/LossAfter                           -0.0358574
policy/LossBefore                          -0.00793542
policy/dLoss                                0.027922
----------------------------------------  ------------
2025-04-03 08:19:16 | [rl2_trainer] epoch #347 | Optimizing policy...
2025-04-03 08:19:16 | [rl2_trainer] epoch #347 | Fitting baseline...
2025-04-03 08:19:16 | [rl2_trainer] epoch #347 | Computing loss before
2025-04-03 08:19:17 | [rl2_trainer] epoch #347 | Computing KL before
2025-04-03 08:19:18 | [rl2_trainer] epoch #347 | Optimizing
2025-04-03 08:19:53 | [rl2_trainer] epoch #347 | Computing KL after
2025-04-03 08:19:53 | [rl2_trainer] epoch #347 | Computing loss after
2025-04-03 08:19:54 | [rl2_trainer] epoch #347 | Saving snapshot...
2025-04-03 08:19:54 | [rl2_trainer] epoch #347 | Saved
2025-04-03 08:19:54 | [rl2_trainer] epoch #347 | Time 66475.25 s
2025-04-03 08:19:54 | [rl2_trainer] epoch #347 | EpochTime 157.70 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.9282
Average/AverageReturn                     -19.5351
Average/Iteration                         347
Average/MaxReturn                          -0.0725934
Average/MinReturn                         -42.8864
Average/NumEpisodes                       100
Average/StdReturn                           6.90295
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.60177
TotalEnvSteps                               3.48e+06
__unnamed_task__/AverageDiscountedReturn  -12.9282
__unnamed_task__/AverageReturn            -19.5351
__unnamed_task__/Iteration                347
__unnamed_task__/MaxReturn                 -0.0725934
__unnamed_task__/MinReturn                -42.8864
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.90295
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.94457
policy/KL                                   0.0122189
policy/KLBefore                             0
policy/LossAfter                           -0.016141
policy/LossBefore                          -0.00275099
policy/dLoss                                0.01339
----------------------------------------  ------------
2025-04-03 08:22:44 | [rl2_trainer] epoch #348 | Optimizing policy...
2025-04-03 08:22:45 | [rl2_trainer] epoch #348 | Fitting baseline...
2025-04-03 08:22:45 | [rl2_trainer] epoch #348 | Computing loss before
2025-04-03 08:22:45 | [rl2_trainer] epoch #348 | Computing KL before
2025-04-03 08:22:46 | [rl2_trainer] epoch #348 | Optimizing
2025-04-03 08:23:21 | [rl2_trainer] epoch #348 | Computing KL after
2025-04-03 08:23:21 | [rl2_trainer] epoch #348 | Computing loss after
2025-04-03 08:23:22 | [rl2_trainer] epoch #348 | Saving snapshot...
2025-04-03 08:23:22 | [rl2_trainer] epoch #348 | Saved
2025-04-03 08:23:22 | [rl2_trainer] epoch #348 | Time 66683.17 s
2025-04-03 08:23:22 | [rl2_trainer] epoch #348 | EpochTime 207.92 s
----------------------------------------  -------------
Average/AverageDiscountedReturn            -14.6135
Average/AverageReturn                      -22.8027
Average/Iteration                          348
Average/MaxReturn                            1.40617
Average/MinReturn                         -109.347
Average/NumEpisodes                        100
Average/StdReturn                           15.1103
Average/TerminationRate                      0
LinearFeatureBaseline/ExplainedVariance      0.720212
TotalEnvSteps                                3.49e+06
__unnamed_task__/AverageDiscountedReturn   -14.6135
__unnamed_task__/AverageReturn             -22.8027
__unnamed_task__/Iteration                 348
__unnamed_task__/MaxReturn                   1.40617
__unnamed_task__/MinReturn                -109.347
__unnamed_task__/NumEpisodes               100
__unnamed_task__/StdReturn                  15.1103
__unnamed_task__/TerminationRate             0
policy/Entropy                               2.90941
policy/KL                                    0.0170743
policy/KLBefore                              0
policy/LossAfter                            -0.044609
policy/LossBefore                            0.00789438
policy/dLoss                                 0.0525034
----------------------------------------  -------------
2025-04-03 08:25:49 | [rl2_trainer] epoch #349 | Optimizing policy...
2025-04-03 08:25:50 | [rl2_trainer] epoch #349 | Fitting baseline...
2025-04-03 08:25:50 | [rl2_trainer] epoch #349 | Computing loss before
2025-04-03 08:25:50 | [rl2_trainer] epoch #349 | Computing KL before
2025-04-03 08:25:51 | [rl2_trainer] epoch #349 | Optimizing
2025-04-03 08:26:26 | [rl2_trainer] epoch #349 | Computing KL after
2025-04-03 08:26:26 | [rl2_trainer] epoch #349 | Computing loss after
2025-04-03 08:26:27 | [rl2_trainer] epoch #349 | Saving snapshot...
2025-04-03 08:26:27 | [rl2_trainer] epoch #349 | Saved
2025-04-03 08:26:27 | [rl2_trainer] epoch #349 | Time 66868.18 s
2025-04-03 08:26:27 | [rl2_trainer] epoch #349 | EpochTime 185.00 s
----------------------------------------  -------------
Average/AverageDiscountedReturn            -9.43192
Average/AverageReturn                     -13.8272
Average/Iteration                         349
Average/MaxReturn                          12.5426
Average/MinReturn                         -25.4256
Average/NumEpisodes                       100
Average/StdReturn                           8.29461
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.594822
TotalEnvSteps                               3.5e+06
__unnamed_task__/AverageDiscountedReturn   -9.43192
__unnamed_task__/AverageReturn            -13.8272
__unnamed_task__/Iteration                349
__unnamed_task__/MaxReturn                 12.5426
__unnamed_task__/MinReturn                -25.4256
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.29461
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.86593
policy/KL                                   0.0156763
policy/KLBefore                             0
policy/LossAfter                           -0.0230002
policy/LossBefore                           0.000813357
policy/dLoss                                0.0238135
----------------------------------------  -------------
2025-04-03 08:29:23 | [rl2_trainer] epoch #350 | Optimizing policy...
2025-04-03 08:29:23 | [rl2_trainer] epoch #350 | Fitting baseline...
2025-04-03 08:29:23 | [rl2_trainer] epoch #350 | Computing loss before
2025-04-03 08:29:24 | [rl2_trainer] epoch #350 | Computing KL before
2025-04-03 08:29:25 | [rl2_trainer] epoch #350 | Optimizing
2025-04-03 08:30:01 | [rl2_trainer] epoch #350 | Computing KL after
2025-04-03 08:30:02 | [rl2_trainer] epoch #350 | Computing loss after
2025-04-03 08:30:03 | [rl2_trainer] epoch #350 | Saving snapshot...
2025-04-03 08:30:03 | [rl2_trainer] epoch #350 | Saved
2025-04-03 08:30:03 | [rl2_trainer] epoch #350 | Time 67083.92 s
2025-04-03 08:30:03 | [rl2_trainer] epoch #350 | EpochTime 215.74 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.1716
Average/AverageReturn                     -21.852
Average/Iteration                         350
Average/MaxReturn                          18.0754
Average/MinReturn                         -50.5464
Average/NumEpisodes                       100
Average/StdReturn                          12.8073
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.830232
TotalEnvSteps                               3.51e+06
__unnamed_task__/AverageDiscountedReturn  -14.1716
__unnamed_task__/AverageReturn            -21.852
__unnamed_task__/Iteration                350
__unnamed_task__/MaxReturn                 18.0754
__unnamed_task__/MinReturn                -50.5464
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.8073
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.83661
policy/KL                                   0.0142912
policy/KLBefore                             0
policy/LossAfter                           -0.0293297
policy/LossBefore                           0.00224423
policy/dLoss                                0.031574
----------------------------------------  ------------
2025-04-03 08:34:08 | [rl2_trainer] epoch #351 | Optimizing policy...
2025-04-03 08:34:08 | [rl2_trainer] epoch #351 | Fitting baseline...
2025-04-03 08:34:08 | [rl2_trainer] epoch #351 | Computing loss before
2025-04-03 08:34:09 | [rl2_trainer] epoch #351 | Computing KL before
2025-04-03 08:34:09 | [rl2_trainer] epoch #351 | Optimizing
2025-04-03 08:34:44 | [rl2_trainer] epoch #351 | Computing KL after
2025-04-03 08:34:45 | [rl2_trainer] epoch #351 | Computing loss after
2025-04-03 08:34:46 | [rl2_trainer] epoch #351 | Saving snapshot...
2025-04-03 08:34:46 | [rl2_trainer] epoch #351 | Saved
2025-04-03 08:34:46 | [rl2_trainer] epoch #351 | Time 67366.55 s
2025-04-03 08:34:46 | [rl2_trainer] epoch #351 | EpochTime 282.62 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -17.2327
Average/AverageReturn                     -27.1621
Average/Iteration                         351
Average/MaxReturn                         -10.8496
Average/MinReturn                         -63.4702
Average/NumEpisodes                       100
Average/StdReturn                          10.1354
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.800084
TotalEnvSteps                               3.52e+06
__unnamed_task__/AverageDiscountedReturn  -17.2327
__unnamed_task__/AverageReturn            -27.1621
__unnamed_task__/Iteration                351
__unnamed_task__/MaxReturn                -10.8496
__unnamed_task__/MinReturn                -63.4702
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.1354
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.80281
policy/KL                                   0.0165474
policy/KLBefore                             0
policy/LossAfter                           -0.037162
policy/LossBefore                          -0.0111369
policy/dLoss                                0.0260251
----------------------------------------  -----------
2025-04-03 08:37:20 | [rl2_trainer] epoch #352 | Optimizing policy...
2025-04-03 08:37:20 | [rl2_trainer] epoch #352 | Fitting baseline...
2025-04-03 08:37:20 | [rl2_trainer] epoch #352 | Computing loss before
2025-04-03 08:37:20 | [rl2_trainer] epoch #352 | Computing KL before
2025-04-03 08:37:21 | [rl2_trainer] epoch #352 | Optimizing
2025-04-03 08:37:57 | [rl2_trainer] epoch #352 | Computing KL after
2025-04-03 08:37:57 | [rl2_trainer] epoch #352 | Computing loss after
2025-04-03 08:37:58 | [rl2_trainer] epoch #352 | Saving snapshot...
2025-04-03 08:37:58 | [rl2_trainer] epoch #352 | Saved
2025-04-03 08:37:58 | [rl2_trainer] epoch #352 | Time 67559.28 s
2025-04-03 08:37:58 | [rl2_trainer] epoch #352 | EpochTime 192.73 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -16.693
Average/AverageReturn                     -26.3011
Average/Iteration                         352
Average/MaxReturn                         -13.2106
Average/MinReturn                         -55.5715
Average/NumEpisodes                       100
Average/StdReturn                           8.95852
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.763499
TotalEnvSteps                               3.53e+06
__unnamed_task__/AverageDiscountedReturn  -16.693
__unnamed_task__/AverageReturn            -26.3011
__unnamed_task__/Iteration                352
__unnamed_task__/MaxReturn                -13.2106
__unnamed_task__/MinReturn                -55.5715
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.95852
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.78063
policy/KL                                   0.0138015
policy/KLBefore                             0
policy/LossAfter                           -0.0230218
policy/LossBefore                           0.0023777
policy/dLoss                                0.0253995
----------------------------------------  -----------
2025-04-03 08:40:59 | [rl2_trainer] epoch #353 | Optimizing policy...
2025-04-03 08:40:59 | [rl2_trainer] epoch #353 | Fitting baseline...
2025-04-03 08:40:59 | [rl2_trainer] epoch #353 | Computing loss before
2025-04-03 08:41:00 | [rl2_trainer] epoch #353 | Computing KL before
2025-04-03 08:41:00 | [rl2_trainer] epoch #353 | Optimizing
2025-04-03 08:41:36 | [rl2_trainer] epoch #353 | Computing KL after
2025-04-03 08:41:37 | [rl2_trainer] epoch #353 | Computing loss after
2025-04-03 08:41:38 | [rl2_trainer] epoch #353 | Saving snapshot...
2025-04-03 08:41:38 | [rl2_trainer] epoch #353 | Saved
2025-04-03 08:41:38 | [rl2_trainer] epoch #353 | Time 67778.77 s
2025-04-03 08:41:38 | [rl2_trainer] epoch #353 | EpochTime 219.49 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.2234
Average/AverageReturn                     -20.0299
Average/Iteration                         353
Average/MaxReturn                          -8.2022
Average/MinReturn                         -34.0852
Average/NumEpisodes                       100
Average/StdReturn                           4.75327
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.632946
TotalEnvSteps                               3.54e+06
__unnamed_task__/AverageDiscountedReturn  -13.2234
__unnamed_task__/AverageReturn            -20.0299
__unnamed_task__/Iteration                353
__unnamed_task__/MaxReturn                 -8.2022
__unnamed_task__/MinReturn                -34.0852
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.75327
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.76131
policy/KL                                   0.00989511
policy/KLBefore                             0
policy/LossAfter                           -0.00467195
policy/LossBefore                           0.00177578
policy/dLoss                                0.00644773
----------------------------------------  ------------
2025-04-03 08:43:39 | [rl2_trainer] epoch #354 | Optimizing policy...
2025-04-03 08:43:39 | [rl2_trainer] epoch #354 | Fitting baseline...
2025-04-03 08:43:39 | [rl2_trainer] epoch #354 | Computing loss before
2025-04-03 08:43:40 | [rl2_trainer] epoch #354 | Computing KL before
2025-04-03 08:43:41 | [rl2_trainer] epoch #354 | Optimizing
2025-04-03 08:44:17 | [rl2_trainer] epoch #354 | Computing KL after
2025-04-03 08:44:17 | [rl2_trainer] epoch #354 | Computing loss after
2025-04-03 08:44:18 | [rl2_trainer] epoch #354 | Saving snapshot...
2025-04-03 08:44:18 | [rl2_trainer] epoch #354 | Saved
2025-04-03 08:44:18 | [rl2_trainer] epoch #354 | Time 67939.30 s
2025-04-03 08:44:18 | [rl2_trainer] epoch #354 | EpochTime 160.53 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.0145
Average/AverageReturn                     -18.0825
Average/Iteration                         354
Average/MaxReturn                          16.6469
Average/MinReturn                         -35.2808
Average/NumEpisodes                       100
Average/StdReturn                           8.08219
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.56478
TotalEnvSteps                               3.55e+06
__unnamed_task__/AverageDiscountedReturn  -12.0145
__unnamed_task__/AverageReturn            -18.0825
__unnamed_task__/Iteration                354
__unnamed_task__/MaxReturn                 16.6469
__unnamed_task__/MinReturn                -35.2808
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.08219
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.73482
policy/KL                                   0.010997
policy/KLBefore                             0
policy/LossAfter                           -0.0282148
policy/LossBefore                          -0.00232139
policy/dLoss                                0.0258934
----------------------------------------  ------------
2025-04-03 08:48:11 | [rl2_trainer] epoch #355 | Optimizing policy...
2025-04-03 08:48:11 | [rl2_trainer] epoch #355 | Fitting baseline...
2025-04-03 08:48:11 | [rl2_trainer] epoch #355 | Computing loss before
2025-04-03 08:48:12 | [rl2_trainer] epoch #355 | Computing KL before
2025-04-03 08:48:13 | [rl2_trainer] epoch #355 | Optimizing
2025-04-03 08:48:48 | [rl2_trainer] epoch #355 | Computing KL after
2025-04-03 08:48:49 | [rl2_trainer] epoch #355 | Computing loss after
2025-04-03 08:48:50 | [rl2_trainer] epoch #355 | Saving snapshot...
2025-04-03 08:48:50 | [rl2_trainer] epoch #355 | Saved
2025-04-03 08:48:50 | [rl2_trainer] epoch #355 | Time 68210.68 s
2025-04-03 08:48:50 | [rl2_trainer] epoch #355 | EpochTime 271.38 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.1432
Average/AverageReturn                     -24.0392
Average/Iteration                         355
Average/MaxReturn                          -4.17518
Average/MinReturn                         -46.7309
Average/NumEpisodes                       100
Average/StdReturn                           8.52171
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.840084
TotalEnvSteps                               3.56e+06
__unnamed_task__/AverageDiscountedReturn  -15.1432
__unnamed_task__/AverageReturn            -24.0392
__unnamed_task__/Iteration                355
__unnamed_task__/MaxReturn                 -4.17518
__unnamed_task__/MinReturn                -46.7309
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.52171
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.71205
policy/KL                                   0.0125761
policy/KLBefore                             0
policy/LossAfter                           -0.0219872
policy/LossBefore                          -0.00380499
policy/dLoss                                0.0181822
----------------------------------------  ------------
2025-04-03 08:51:18 | [rl2_trainer] epoch #356 | Optimizing policy...
2025-04-03 08:51:19 | [rl2_trainer] epoch #356 | Fitting baseline...
2025-04-03 08:51:19 | [rl2_trainer] epoch #356 | Computing loss before
2025-04-03 08:51:19 | [rl2_trainer] epoch #356 | Computing KL before
2025-04-03 08:51:20 | [rl2_trainer] epoch #356 | Optimizing
2025-04-03 08:51:55 | [rl2_trainer] epoch #356 | Computing KL after
2025-04-03 08:51:56 | [rl2_trainer] epoch #356 | Computing loss after
2025-04-03 08:51:57 | [rl2_trainer] epoch #356 | Saving snapshot...
2025-04-03 08:51:57 | [rl2_trainer] epoch #356 | Saved
2025-04-03 08:51:57 | [rl2_trainer] epoch #356 | Time 68397.86 s
2025-04-03 08:51:57 | [rl2_trainer] epoch #356 | EpochTime 187.17 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.3328
Average/AverageReturn                     -15.1594
Average/Iteration                         356
Average/MaxReturn                          16.4312
Average/MinReturn                         -26.2326
Average/NumEpisodes                       100
Average/StdReturn                           7.34968
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.55478
TotalEnvSteps                               3.57e+06
__unnamed_task__/AverageDiscountedReturn  -10.3328
__unnamed_task__/AverageReturn            -15.1594
__unnamed_task__/Iteration                356
__unnamed_task__/MaxReturn                 16.4312
__unnamed_task__/MinReturn                -26.2326
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.34968
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.7005
policy/KL                                   0.0143138
policy/KLBefore                             0
policy/LossAfter                           -0.0426939
policy/LossBefore                          -0.00618516
policy/dLoss                                0.0365087
----------------------------------------  ------------
2025-04-03 08:54:54 | [rl2_trainer] epoch #357 | Optimizing policy...
2025-04-03 08:54:54 | [rl2_trainer] epoch #357 | Fitting baseline...
2025-04-03 08:54:54 | [rl2_trainer] epoch #357 | Computing loss before
2025-04-03 08:54:55 | [rl2_trainer] epoch #357 | Computing KL before
2025-04-03 08:54:55 | [rl2_trainer] epoch #357 | Optimizing
2025-04-03 08:55:30 | [rl2_trainer] epoch #357 | Computing KL after
2025-04-03 08:55:30 | [rl2_trainer] epoch #357 | Computing loss after
2025-04-03 08:55:31 | [rl2_trainer] epoch #357 | Saving snapshot...
2025-04-03 08:55:31 | [rl2_trainer] epoch #357 | Saved
2025-04-03 08:55:31 | [rl2_trainer] epoch #357 | Time 68612.40 s
2025-04-03 08:55:31 | [rl2_trainer] epoch #357 | EpochTime 214.54 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.4448
Average/AverageReturn                     -24.608
Average/Iteration                         357
Average/MaxReturn                          -1.82066
Average/MinReturn                         -54.1724
Average/NumEpisodes                       100
Average/StdReturn                           9.88447
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.840286
TotalEnvSteps                               3.58e+06
__unnamed_task__/AverageDiscountedReturn  -15.4448
__unnamed_task__/AverageReturn            -24.608
__unnamed_task__/Iteration                357
__unnamed_task__/MaxReturn                 -1.82066
__unnamed_task__/MinReturn                -54.1724
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.88447
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.67846
policy/KL                                   0.0123898
policy/KLBefore                             0
policy/LossAfter                           -0.0310305
policy/LossBefore                          -0.00710476
policy/dLoss                                0.0239257
----------------------------------------  ------------
2025-04-03 08:57:54 | [rl2_trainer] epoch #358 | Optimizing policy...
2025-04-03 08:57:55 | [rl2_trainer] epoch #358 | Fitting baseline...
2025-04-03 08:57:55 | [rl2_trainer] epoch #358 | Computing loss before
2025-04-03 08:57:55 | [rl2_trainer] epoch #358 | Computing KL before
2025-04-03 08:57:56 | [rl2_trainer] epoch #358 | Optimizing
2025-04-03 08:58:30 | [rl2_trainer] epoch #358 | Computing KL after
2025-04-03 08:58:30 | [rl2_trainer] epoch #358 | Computing loss after
2025-04-03 08:58:31 | [rl2_trainer] epoch #358 | Saving snapshot...
2025-04-03 08:58:31 | [rl2_trainer] epoch #358 | Saved
2025-04-03 08:58:31 | [rl2_trainer] epoch #358 | Time 68792.22 s
2025-04-03 08:58:31 | [rl2_trainer] epoch #358 | EpochTime 179.82 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.693
Average/AverageReturn                     -17.3121
Average/Iteration                         358
Average/MaxReturn                           0.125015
Average/MinReturn                         -30.8927
Average/NumEpisodes                       100
Average/StdReturn                           4.11727
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.433406
TotalEnvSteps                               3.59e+06
__unnamed_task__/AverageDiscountedReturn  -11.693
__unnamed_task__/AverageReturn            -17.3121
__unnamed_task__/Iteration                358
__unnamed_task__/MaxReturn                  0.125015
__unnamed_task__/MinReturn                -30.8927
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.11727
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.66436
policy/KL                                   0.00859361
policy/KLBefore                             0
policy/LossAfter                           -0.0225281
policy/LossBefore                          -0.00885345
policy/dLoss                                0.0136747
----------------------------------------  ------------
2025-04-03 09:00:26 | [rl2_trainer] epoch #359 | Optimizing policy...
2025-04-03 09:00:26 | [rl2_trainer] epoch #359 | Fitting baseline...
2025-04-03 09:00:26 | [rl2_trainer] epoch #359 | Computing loss before
2025-04-03 09:00:27 | [rl2_trainer] epoch #359 | Computing KL before
2025-04-03 09:00:27 | [rl2_trainer] epoch #359 | Optimizing
2025-04-03 09:01:01 | [rl2_trainer] epoch #359 | Computing KL after
2025-04-03 09:01:02 | [rl2_trainer] epoch #359 | Computing loss after
2025-04-03 09:01:03 | [rl2_trainer] epoch #359 | Saving snapshot...
2025-04-03 09:01:03 | [rl2_trainer] epoch #359 | Saved
2025-04-03 09:01:03 | [rl2_trainer] epoch #359 | Time 68943.53 s
2025-04-03 09:01:03 | [rl2_trainer] epoch #359 | EpochTime 151.31 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -12.8334
Average/AverageReturn                     -19.309
Average/Iteration                         359
Average/MaxReturn                           8.29644
Average/MinReturn                         -40.2057
Average/NumEpisodes                       100
Average/StdReturn                           6.76247
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.671155
TotalEnvSteps                               3.6e+06
__unnamed_task__/AverageDiscountedReturn  -12.8334
__unnamed_task__/AverageReturn            -19.309
__unnamed_task__/Iteration                359
__unnamed_task__/MaxReturn                  8.29644
__unnamed_task__/MinReturn                -40.2057
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.76247
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.65541
policy/KL                                   0.0135253
policy/KLBefore                             0
policy/LossAfter                           -0.0174934
policy/LossBefore                           0.000300385
policy/dLoss                                0.0177937
----------------------------------------  -------------
2025-04-03 09:03:13 | [rl2_trainer] epoch #360 | Optimizing policy...
2025-04-03 09:03:13 | [rl2_trainer] epoch #360 | Fitting baseline...
2025-04-03 09:03:13 | [rl2_trainer] epoch #360 | Computing loss before
2025-04-03 09:03:14 | [rl2_trainer] epoch #360 | Computing KL before
2025-04-03 09:03:15 | [rl2_trainer] epoch #360 | Optimizing
2025-04-03 09:03:48 | [rl2_trainer] epoch #360 | Computing KL after
2025-04-03 09:03:49 | [rl2_trainer] epoch #360 | Computing loss after
2025-04-03 09:03:49 | [rl2_trainer] epoch #360 | Saving snapshot...
2025-04-03 09:03:49 | [rl2_trainer] epoch #360 | Saved
2025-04-03 09:03:49 | [rl2_trainer] epoch #360 | Time 69110.51 s
2025-04-03 09:03:49 | [rl2_trainer] epoch #360 | EpochTime 166.97 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.2261
Average/AverageReturn                     -23.9758
Average/Iteration                         360
Average/MaxReturn                          10.1502
Average/MinReturn                         -48.356
Average/NumEpisodes                       100
Average/StdReturn                          10.1729
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.814408
TotalEnvSteps                               3.61e+06
__unnamed_task__/AverageDiscountedReturn  -15.2261
__unnamed_task__/AverageReturn            -23.9758
__unnamed_task__/Iteration                360
__unnamed_task__/MaxReturn                 10.1502
__unnamed_task__/MinReturn                -48.356
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.1729
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.64398
policy/KL                                   0.0132177
policy/KLBefore                             0
policy/LossAfter                           -0.0335193
policy/LossBefore                          -0.00316524
policy/dLoss                                0.0303541
----------------------------------------  ------------
2025-04-03 09:07:18 | [rl2_trainer] epoch #361 | Optimizing policy...
2025-04-03 09:07:19 | [rl2_trainer] epoch #361 | Fitting baseline...
2025-04-03 09:07:19 | [rl2_trainer] epoch #361 | Computing loss before
2025-04-03 09:07:19 | [rl2_trainer] epoch #361 | Computing KL before
2025-04-03 09:07:20 | [rl2_trainer] epoch #361 | Optimizing
2025-04-03 09:07:54 | [rl2_trainer] epoch #361 | Computing KL after
2025-04-03 09:07:54 | [rl2_trainer] epoch #361 | Computing loss after
2025-04-03 09:07:55 | [rl2_trainer] epoch #361 | Saving snapshot...
2025-04-03 09:07:55 | [rl2_trainer] epoch #361 | Saved
2025-04-03 09:07:55 | [rl2_trainer] epoch #361 | Time 69355.90 s
2025-04-03 09:07:55 | [rl2_trainer] epoch #361 | EpochTime 245.39 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.8344
Average/AverageReturn                     -23.5637
Average/Iteration                         361
Average/MaxReturn                          -6.80571
Average/MinReturn                         -46.1839
Average/NumEpisodes                       100
Average/StdReturn                           7.37423
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.793047
TotalEnvSteps                               3.62e+06
__unnamed_task__/AverageDiscountedReturn  -14.8344
__unnamed_task__/AverageReturn            -23.5637
__unnamed_task__/Iteration                361
__unnamed_task__/MaxReturn                 -6.80571
__unnamed_task__/MinReturn                -46.1839
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.37423
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.62299
policy/KL                                   0.0128325
policy/KLBefore                             0
policy/LossAfter                           -0.0159374
policy/LossBefore                           0.00168808
policy/dLoss                                0.0176255
----------------------------------------  ------------
2025-04-03 09:10:50 | [rl2_trainer] epoch #362 | Optimizing policy...
2025-04-03 09:10:50 | [rl2_trainer] epoch #362 | Fitting baseline...
2025-04-03 09:10:50 | [rl2_trainer] epoch #362 | Computing loss before
2025-04-03 09:10:51 | [rl2_trainer] epoch #362 | Computing KL before
2025-04-03 09:10:51 | [rl2_trainer] epoch #362 | Optimizing
2025-04-03 09:11:25 | [rl2_trainer] epoch #362 | Computing KL after
2025-04-03 09:11:26 | [rl2_trainer] epoch #362 | Computing loss after
2025-04-03 09:11:27 | [rl2_trainer] epoch #362 | Saving snapshot...
2025-04-03 09:11:27 | [rl2_trainer] epoch #362 | Saved
2025-04-03 09:11:27 | [rl2_trainer] epoch #362 | Time 69567.53 s
2025-04-03 09:11:27 | [rl2_trainer] epoch #362 | EpochTime 211.62 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -13.7102
Average/AverageReturn                     -21.0815
Average/Iteration                         362
Average/MaxReturn                           8.02
Average/MinReturn                         -53.1476
Average/NumEpisodes                       100
Average/StdReturn                          11.2107
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.810647
TotalEnvSteps                               3.63e+06
__unnamed_task__/AverageDiscountedReturn  -13.7102
__unnamed_task__/AverageReturn            -21.0815
__unnamed_task__/Iteration                362
__unnamed_task__/MaxReturn                  8.02
__unnamed_task__/MinReturn                -53.1476
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.2107
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.59396
policy/KL                                   0.0164486
policy/KLBefore                             0
policy/LossAfter                           -0.0327394
policy/LossBefore                          -0.000319684
policy/dLoss                                0.0324198
----------------------------------------  -------------
2025-04-03 09:13:24 | [rl2_trainer] epoch #363 | Optimizing policy...
2025-04-03 09:13:24 | [rl2_trainer] epoch #363 | Fitting baseline...
2025-04-03 09:13:24 | [rl2_trainer] epoch #363 | Computing loss before
2025-04-03 09:13:25 | [rl2_trainer] epoch #363 | Computing KL before
2025-04-03 09:13:25 | [rl2_trainer] epoch #363 | Optimizing
2025-04-03 09:13:59 | [rl2_trainer] epoch #363 | Computing KL after
2025-04-03 09:14:00 | [rl2_trainer] epoch #363 | Computing loss after
2025-04-03 09:14:00 | [rl2_trainer] epoch #363 | Saving snapshot...
2025-04-03 09:14:00 | [rl2_trainer] epoch #363 | Saved
2025-04-03 09:14:00 | [rl2_trainer] epoch #363 | Time 69721.36 s
2025-04-03 09:14:00 | [rl2_trainer] epoch #363 | EpochTime 153.83 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.9689
Average/AverageReturn                     -19.6685
Average/Iteration                         363
Average/MaxReturn                           4.60307
Average/MinReturn                         -36.1921
Average/NumEpisodes                       100
Average/StdReturn                           5.87942
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.491555
TotalEnvSteps                               3.64e+06
__unnamed_task__/AverageDiscountedReturn  -12.9689
__unnamed_task__/AverageReturn            -19.6685
__unnamed_task__/Iteration                363
__unnamed_task__/MaxReturn                  4.60307
__unnamed_task__/MinReturn                -36.1921
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.87942
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.55991
policy/KL                                   0.0120441
policy/KLBefore                             0
policy/LossAfter                           -0.0232914
policy/LossBefore                          -0.00484254
policy/dLoss                                0.0184489
----------------------------------------  ------------
2025-04-03 09:17:25 | [rl2_trainer] epoch #364 | Optimizing policy...
2025-04-03 09:17:26 | [rl2_trainer] epoch #364 | Fitting baseline...
2025-04-03 09:17:26 | [rl2_trainer] epoch #364 | Computing loss before
2025-04-03 09:17:26 | [rl2_trainer] epoch #364 | Computing KL before
2025-04-03 09:17:27 | [rl2_trainer] epoch #364 | Optimizing
2025-04-03 09:18:00 | [rl2_trainer] epoch #364 | Computing KL after
2025-04-03 09:18:01 | [rl2_trainer] epoch #364 | Computing loss after
2025-04-03 09:18:02 | [rl2_trainer] epoch #364 | Saving snapshot...
2025-04-03 09:18:02 | [rl2_trainer] epoch #364 | Saved
2025-04-03 09:18:02 | [rl2_trainer] epoch #364 | Time 69962.83 s
2025-04-03 09:18:02 | [rl2_trainer] epoch #364 | EpochTime 241.47 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.3148
Average/AverageReturn                     -24.3797
Average/Iteration                         364
Average/MaxReturn                         -14.0527
Average/MinReturn                         -69.702
Average/NumEpisodes                       100
Average/StdReturn                           9.02739
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.850166
TotalEnvSteps                               3.65e+06
__unnamed_task__/AverageDiscountedReturn  -15.3148
__unnamed_task__/AverageReturn            -24.3797
__unnamed_task__/Iteration                364
__unnamed_task__/MaxReturn                -14.0527
__unnamed_task__/MinReturn                -69.702
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.02739
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.52219
policy/KL                                   0.0125122
policy/KLBefore                             0
policy/LossAfter                           -0.0204662
policy/LossBefore                          -0.00654091
policy/dLoss                                0.0139253
----------------------------------------  ------------
2025-04-03 09:19:31 | [rl2_trainer] epoch #365 | Optimizing policy...
2025-04-03 09:19:31 | [rl2_trainer] epoch #365 | Fitting baseline...
2025-04-03 09:19:31 | [rl2_trainer] epoch #365 | Computing loss before
2025-04-03 09:19:32 | [rl2_trainer] epoch #365 | Computing KL before
2025-04-03 09:19:33 | [rl2_trainer] epoch #365 | Optimizing
2025-04-03 09:20:07 | [rl2_trainer] epoch #365 | Computing KL after
2025-04-03 09:20:07 | [rl2_trainer] epoch #365 | Computing loss after
2025-04-03 09:20:08 | [rl2_trainer] epoch #365 | Saving snapshot...
2025-04-03 09:20:08 | [rl2_trainer] epoch #365 | Saved
2025-04-03 09:20:08 | [rl2_trainer] epoch #365 | Time 70089.23 s
2025-04-03 09:20:08 | [rl2_trainer] epoch #365 | EpochTime 126.39 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -11.0141
Average/AverageReturn                     -16.2037
Average/Iteration                         365
Average/MaxReturn                          36.6086
Average/MinReturn                         -25.2139
Average/NumEpisodes                       100
Average/StdReturn                           7.72722
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.27563
TotalEnvSteps                               3.66e+06
__unnamed_task__/AverageDiscountedReturn  -11.0141
__unnamed_task__/AverageReturn            -16.2037
__unnamed_task__/Iteration                365
__unnamed_task__/MaxReturn                 36.6086
__unnamed_task__/MinReturn                -25.2139
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.72722
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.47624
policy/KL                                   0.013212
policy/KLBefore                             0
policy/LossAfter                           -0.0309144
policy/LossBefore                          -0.0103479
policy/dLoss                                0.0205665
----------------------------------------  -----------
2025-04-03 09:22:05 | [rl2_trainer] epoch #366 | Optimizing policy...
2025-04-03 09:22:06 | [rl2_trainer] epoch #366 | Fitting baseline...
2025-04-03 09:22:06 | [rl2_trainer] epoch #366 | Computing loss before
2025-04-03 09:22:06 | [rl2_trainer] epoch #366 | Computing KL before
2025-04-03 09:22:07 | [rl2_trainer] epoch #366 | Optimizing
2025-04-03 09:22:41 | [rl2_trainer] epoch #366 | Computing KL after
2025-04-03 09:22:41 | [rl2_trainer] epoch #366 | Computing loss after
2025-04-03 09:22:42 | [rl2_trainer] epoch #366 | Saving snapshot...
2025-04-03 09:22:42 | [rl2_trainer] epoch #366 | Saved
2025-04-03 09:22:42 | [rl2_trainer] epoch #366 | Time 70243.19 s
2025-04-03 09:22:42 | [rl2_trainer] epoch #366 | EpochTime 153.97 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -13.8847
Average/AverageReturn                     -21.3366
Average/Iteration                         366
Average/MaxReturn                           9.56671
Average/MinReturn                         -51.0343
Average/NumEpisodes                       100
Average/StdReturn                           8.18481
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.798406
TotalEnvSteps                               3.67e+06
__unnamed_task__/AverageDiscountedReturn  -13.8847
__unnamed_task__/AverageReturn            -21.3366
__unnamed_task__/Iteration                366
__unnamed_task__/MaxReturn                  9.56671
__unnamed_task__/MinReturn                -51.0343
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.18481
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.45719
policy/KL                                   0.016105
policy/KLBefore                             0
policy/LossAfter                           -0.0301087
policy/LossBefore                          -0.0123886
policy/dLoss                                0.0177201
----------------------------------------  -----------
2025-04-03 09:25:34 | [rl2_trainer] epoch #367 | Optimizing policy...
2025-04-03 09:25:35 | [rl2_trainer] epoch #367 | Fitting baseline...
2025-04-03 09:25:35 | [rl2_trainer] epoch #367 | Computing loss before
2025-04-03 09:25:35 | [rl2_trainer] epoch #367 | Computing KL before
2025-04-03 09:25:36 | [rl2_trainer] epoch #367 | Optimizing
2025-04-03 09:26:11 | [rl2_trainer] epoch #367 | Computing KL after
2025-04-03 09:26:11 | [rl2_trainer] epoch #367 | Computing loss after
2025-04-03 09:26:12 | [rl2_trainer] epoch #367 | Saving snapshot...
2025-04-03 09:26:12 | [rl2_trainer] epoch #367 | Saved
2025-04-03 09:26:12 | [rl2_trainer] epoch #367 | Time 70453.07 s
2025-04-03 09:26:12 | [rl2_trainer] epoch #367 | EpochTime 209.87 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.3437
Average/AverageReturn                     -22.0333
Average/Iteration                         367
Average/MaxReturn                         -11.0531
Average/MinReturn                         -63.2844
Average/NumEpisodes                       100
Average/StdReturn                           6.30402
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.737258
TotalEnvSteps                               3.68e+06
__unnamed_task__/AverageDiscountedReturn  -14.3437
__unnamed_task__/AverageReturn            -22.0333
__unnamed_task__/Iteration                367
__unnamed_task__/MaxReturn                -11.0531
__unnamed_task__/MinReturn                -63.2844
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.30402
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.4498
policy/KL                                   0.0102295
policy/KLBefore                             0
policy/LossAfter                           -0.0175067
policy/LossBefore                          -0.00197767
policy/dLoss                                0.015529
----------------------------------------  ------------
2025-04-03 09:28:27 | [rl2_trainer] epoch #368 | Optimizing policy...
2025-04-03 09:28:27 | [rl2_trainer] epoch #368 | Fitting baseline...
2025-04-03 09:28:27 | [rl2_trainer] epoch #368 | Computing loss before
2025-04-03 09:28:28 | [rl2_trainer] epoch #368 | Computing KL before
2025-04-03 09:28:28 | [rl2_trainer] epoch #368 | Optimizing
2025-04-03 09:29:02 | [rl2_trainer] epoch #368 | Computing KL after
2025-04-03 09:29:03 | [rl2_trainer] epoch #368 | Computing loss after
2025-04-03 09:29:04 | [rl2_trainer] epoch #368 | Saving snapshot...
2025-04-03 09:29:04 | [rl2_trainer] epoch #368 | Saved
2025-04-03 09:29:04 | [rl2_trainer] epoch #368 | Time 70624.79 s
2025-04-03 09:29:04 | [rl2_trainer] epoch #368 | EpochTime 171.71 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -11.9573
Average/AverageReturn                     -18.2666
Average/Iteration                         368
Average/MaxReturn                          -6.04645
Average/MinReturn                         -32.8803
Average/NumEpisodes                       100
Average/StdReturn                           4.22547
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.582059
TotalEnvSteps                               3.69e+06
__unnamed_task__/AverageDiscountedReturn  -11.9573
__unnamed_task__/AverageReturn            -18.2666
__unnamed_task__/Iteration                368
__unnamed_task__/MaxReturn                 -6.04645
__unnamed_task__/MinReturn                -32.8803
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.22547
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.44238
policy/KL                                   0.00946655
policy/KLBefore                             0
policy/LossAfter                           -0.0148191
policy/LossBefore                          -0.000749455
policy/dLoss                                0.0140697
----------------------------------------  -------------
2025-04-03 09:31:58 | [rl2_trainer] epoch #369 | Optimizing policy...
2025-04-03 09:31:58 | [rl2_trainer] epoch #369 | Fitting baseline...
2025-04-03 09:31:58 | [rl2_trainer] epoch #369 | Computing loss before
2025-04-03 09:31:58 | [rl2_trainer] epoch #369 | Computing KL before
2025-04-03 09:31:59 | [rl2_trainer] epoch #369 | Optimizing
2025-04-03 09:32:33 | [rl2_trainer] epoch #369 | Computing KL after
2025-04-03 09:32:33 | [rl2_trainer] epoch #369 | Computing loss after
2025-04-03 09:32:34 | [rl2_trainer] epoch #369 | Saving snapshot...
2025-04-03 09:32:34 | [rl2_trainer] epoch #369 | Saved
2025-04-03 09:32:34 | [rl2_trainer] epoch #369 | Time 70835.20 s
2025-04-03 09:32:34 | [rl2_trainer] epoch #369 | EpochTime 210.41 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.0569
Average/AverageReturn                     -21.5574
Average/Iteration                         369
Average/MaxReturn                          -1.01546
Average/MinReturn                         -47.6985
Average/NumEpisodes                       100
Average/StdReturn                           6.66008
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.754291
TotalEnvSteps                               3.7e+06
__unnamed_task__/AverageDiscountedReturn  -14.0569
__unnamed_task__/AverageReturn            -21.5574
__unnamed_task__/Iteration                369
__unnamed_task__/MaxReturn                 -1.01546
__unnamed_task__/MinReturn                -47.6985
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.66008
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.42489
policy/KL                                   0.0125537
policy/KLBefore                             0
policy/LossAfter                           -0.0231894
policy/LossBefore                          -0.00784003
policy/dLoss                                0.0153494
----------------------------------------  ------------
2025-04-03 09:34:30 | [rl2_trainer] epoch #370 | Optimizing policy...
2025-04-03 09:34:30 | [rl2_trainer] epoch #370 | Fitting baseline...
2025-04-03 09:34:30 | [rl2_trainer] epoch #370 | Computing loss before
2025-04-03 09:34:30 | [rl2_trainer] epoch #370 | Computing KL before
2025-04-03 09:34:31 | [rl2_trainer] epoch #370 | Optimizing
2025-04-03 09:35:05 | [rl2_trainer] epoch #370 | Computing KL after
2025-04-03 09:35:05 | [rl2_trainer] epoch #370 | Computing loss after
2025-04-03 09:35:06 | [rl2_trainer] epoch #370 | Saving snapshot...
2025-04-03 09:35:06 | [rl2_trainer] epoch #370 | Saved
2025-04-03 09:35:06 | [rl2_trainer] epoch #370 | Time 70987.14 s
2025-04-03 09:35:06 | [rl2_trainer] epoch #370 | EpochTime 151.94 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -13.2071
Average/AverageReturn                     -20.1409
Average/Iteration                         370
Average/MaxReturn                           0.683935
Average/MinReturn                         -39.2827
Average/NumEpisodes                       100
Average/StdReturn                           6.61292
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.748499
TotalEnvSteps                               3.71e+06
__unnamed_task__/AverageDiscountedReturn  -13.2071
__unnamed_task__/AverageReturn            -20.1409
__unnamed_task__/Iteration                370
__unnamed_task__/MaxReturn                  0.683935
__unnamed_task__/MinReturn                -39.2827
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.61292
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.40708
policy/KL                                   0.0105134
policy/KLBefore                             0
policy/LossAfter                           -0.0217088
policy/LossBefore                          -0.0103561
policy/dLoss                                0.0113528
----------------------------------------  -----------
2025-04-03 09:38:03 | [rl2_trainer] epoch #371 | Optimizing policy...
2025-04-03 09:38:03 | [rl2_trainer] epoch #371 | Fitting baseline...
2025-04-03 09:38:03 | [rl2_trainer] epoch #371 | Computing loss before
2025-04-03 09:38:03 | [rl2_trainer] epoch #371 | Computing KL before
2025-04-03 09:38:04 | [rl2_trainer] epoch #371 | Optimizing
2025-04-03 09:38:37 | [rl2_trainer] epoch #371 | Computing KL after
2025-04-03 09:38:38 | [rl2_trainer] epoch #371 | Computing loss after
2025-04-03 09:38:39 | [rl2_trainer] epoch #371 | Saving snapshot...
2025-04-03 09:38:39 | [rl2_trainer] epoch #371 | Saved
2025-04-03 09:38:39 | [rl2_trainer] epoch #371 | Time 71199.65 s
2025-04-03 09:38:39 | [rl2_trainer] epoch #371 | EpochTime 212.51 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.7507
Average/AverageReturn                     -20.8956
Average/Iteration                         371
Average/MaxReturn                         -14.5248
Average/MinReturn                         -37.4085
Average/NumEpisodes                       100
Average/StdReturn                           4.81584
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.688987
TotalEnvSteps                               3.72e+06
__unnamed_task__/AverageDiscountedReturn  -13.7507
__unnamed_task__/AverageReturn            -20.8956
__unnamed_task__/Iteration                371
__unnamed_task__/MaxReturn                -14.5248
__unnamed_task__/MinReturn                -37.4085
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.81584
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.376
policy/KL                                   0.00964428
policy/KLBefore                             0
policy/LossAfter                           -0.00681148
policy/LossBefore                          -0.00283546
policy/dLoss                                0.00397601
----------------------------------------  ------------
2025-04-03 09:40:44 | [rl2_trainer] epoch #372 | Optimizing policy...
2025-04-03 09:40:44 | [rl2_trainer] epoch #372 | Fitting baseline...
2025-04-03 09:40:44 | [rl2_trainer] epoch #372 | Computing loss before
2025-04-03 09:40:45 | [rl2_trainer] epoch #372 | Computing KL before
2025-04-03 09:40:45 | [rl2_trainer] epoch #372 | Optimizing
2025-04-03 09:41:19 | [rl2_trainer] epoch #372 | Computing KL after
2025-04-03 09:41:20 | [rl2_trainer] epoch #372 | Computing loss after
2025-04-03 09:41:20 | [rl2_trainer] epoch #372 | Saving snapshot...
2025-04-03 09:41:20 | [rl2_trainer] epoch #372 | Saved
2025-04-03 09:41:20 | [rl2_trainer] epoch #372 | Time 71361.43 s
2025-04-03 09:41:20 | [rl2_trainer] epoch #372 | EpochTime 161.78 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.7097
Average/AverageReturn                     -18.8591
Average/Iteration                         372
Average/MaxReturn                           1.87203
Average/MinReturn                         -35.204
Average/NumEpisodes                       100
Average/StdReturn                           6.24576
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.697212
TotalEnvSteps                               3.73e+06
__unnamed_task__/AverageDiscountedReturn  -12.7097
__unnamed_task__/AverageReturn            -18.8591
__unnamed_task__/Iteration                372
__unnamed_task__/MaxReturn                  1.87203
__unnamed_task__/MinReturn                -35.204
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.24576
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.34503
policy/KL                                   0.012865
policy/KLBefore                             0
policy/LossAfter                           -0.0156268
policy/LossBefore                          -0.00581262
policy/dLoss                                0.00981419
----------------------------------------  ------------
2025-04-03 09:44:15 | [rl2_trainer] epoch #373 | Optimizing policy...
2025-04-03 09:44:15 | [rl2_trainer] epoch #373 | Fitting baseline...
2025-04-03 09:44:15 | [rl2_trainer] epoch #373 | Computing loss before
2025-04-03 09:44:16 | [rl2_trainer] epoch #373 | Computing KL before
2025-04-03 09:44:16 | [rl2_trainer] epoch #373 | Optimizing
2025-04-03 09:44:49 | [rl2_trainer] epoch #373 | Computing KL after
2025-04-03 09:44:50 | [rl2_trainer] epoch #373 | Computing loss after
2025-04-03 09:44:51 | [rl2_trainer] epoch #373 | Saving snapshot...
2025-04-03 09:44:51 | [rl2_trainer] epoch #373 | Saved
2025-04-03 09:44:51 | [rl2_trainer] epoch #373 | Time 71571.54 s
2025-04-03 09:44:51 | [rl2_trainer] epoch #373 | EpochTime 210.11 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.439
Average/AverageReturn                     -20.4785
Average/Iteration                         373
Average/MaxReturn                          -9.61547
Average/MinReturn                         -41.4748
Average/NumEpisodes                       100
Average/StdReturn                           5.13097
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.762592
TotalEnvSteps                               3.74e+06
__unnamed_task__/AverageDiscountedReturn  -13.439
__unnamed_task__/AverageReturn            -20.4785
__unnamed_task__/Iteration                373
__unnamed_task__/MaxReturn                 -9.61547
__unnamed_task__/MinReturn                -41.4748
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.13097
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.33599
policy/KL                                   0.00844091
policy/KLBefore                             0
policy/LossAfter                           -0.0110885
policy/LossBefore                          -0.00234891
policy/dLoss                                0.00873958
----------------------------------------  ------------
2025-04-03 09:47:00 | [rl2_trainer] epoch #374 | Optimizing policy...
2025-04-03 09:47:01 | [rl2_trainer] epoch #374 | Fitting baseline...
2025-04-03 09:47:01 | [rl2_trainer] epoch #374 | Computing loss before
2025-04-03 09:47:01 | [rl2_trainer] epoch #374 | Computing KL before
2025-04-03 09:47:02 | [rl2_trainer] epoch #374 | Optimizing
2025-04-03 09:47:36 | [rl2_trainer] epoch #374 | Computing KL after
2025-04-03 09:47:37 | [rl2_trainer] epoch #374 | Computing loss after
2025-04-03 09:47:37 | [rl2_trainer] epoch #374 | Saving snapshot...
2025-04-03 09:47:37 | [rl2_trainer] epoch #374 | Saved
2025-04-03 09:47:37 | [rl2_trainer] epoch #374 | Time 71738.41 s
2025-04-03 09:47:37 | [rl2_trainer] epoch #374 | EpochTime 166.86 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.8286
Average/AverageReturn                     -19.8116
Average/Iteration                         374
Average/MaxReturn                           4.51895
Average/MinReturn                         -38.5504
Average/NumEpisodes                       100
Average/StdReturn                           6.47388
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.688038
TotalEnvSteps                               3.75e+06
__unnamed_task__/AverageDiscountedReturn  -12.8286
__unnamed_task__/AverageReturn            -19.8116
__unnamed_task__/Iteration                374
__unnamed_task__/MaxReturn                  4.51895
__unnamed_task__/MinReturn                -38.5504
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.47388
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.34779
policy/KL                                   0.0122246
policy/KLBefore                             0
policy/LossAfter                           -0.0208597
policy/LossBefore                           0.00451888
policy/dLoss                                0.0253786
----------------------------------------  ------------
2025-04-03 09:49:43 | [rl2_trainer] epoch #375 | Optimizing policy...
2025-04-03 09:49:44 | [rl2_trainer] epoch #375 | Fitting baseline...
2025-04-03 09:49:44 | [rl2_trainer] epoch #375 | Computing loss before
2025-04-03 09:49:44 | [rl2_trainer] epoch #375 | Computing KL before
2025-04-03 09:49:45 | [rl2_trainer] epoch #375 | Optimizing
2025-04-03 09:50:18 | [rl2_trainer] epoch #375 | Computing KL after
2025-04-03 09:50:19 | [rl2_trainer] epoch #375 | Computing loss after
2025-04-03 09:50:20 | [rl2_trainer] epoch #375 | Saving snapshot...
2025-04-03 09:50:20 | [rl2_trainer] epoch #375 | Saved
2025-04-03 09:50:20 | [rl2_trainer] epoch #375 | Time 71900.82 s
2025-04-03 09:50:20 | [rl2_trainer] epoch #375 | EpochTime 162.41 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.1285
Average/AverageReturn                     -16.2998
Average/Iteration                         375
Average/MaxReturn                           8.25147
Average/MinReturn                         -34.907
Average/NumEpisodes                       100
Average/StdReturn                           8.40295
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.752655
TotalEnvSteps                               3.76e+06
__unnamed_task__/AverageDiscountedReturn  -11.1285
__unnamed_task__/AverageReturn            -16.2998
__unnamed_task__/Iteration                375
__unnamed_task__/MaxReturn                  8.25147
__unnamed_task__/MinReturn                -34.907
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.40295
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.33128
policy/KL                                   0.0152761
policy/KLBefore                             0
policy/LossAfter                           -0.0275222
policy/LossBefore                          -0.00420734
policy/dLoss                                0.0233149
----------------------------------------  ------------
2025-04-03 09:52:46 | [rl2_trainer] epoch #376 | Optimizing policy...
2025-04-03 09:52:47 | [rl2_trainer] epoch #376 | Fitting baseline...
2025-04-03 09:52:47 | [rl2_trainer] epoch #376 | Computing loss before
2025-04-03 09:52:47 | [rl2_trainer] epoch #376 | Computing KL before
2025-04-03 09:52:48 | [rl2_trainer] epoch #376 | Optimizing
2025-04-03 09:53:23 | [rl2_trainer] epoch #376 | Computing KL after
2025-04-03 09:53:24 | [rl2_trainer] epoch #376 | Computing loss after
2025-04-03 09:53:25 | [rl2_trainer] epoch #376 | Saving snapshot...
2025-04-03 09:53:25 | [rl2_trainer] epoch #376 | Saved
2025-04-03 09:53:25 | [rl2_trainer] epoch #376 | Time 72085.82 s
2025-04-03 09:53:25 | [rl2_trainer] epoch #376 | EpochTime 185.00 s
----------------------------------------  -----------
Average/AverageDiscountedReturn            -9.72036
Average/AverageReturn                     -14.2123
Average/Iteration                         376
Average/MaxReturn                          12.157
Average/MinReturn                         -25.1561
Average/NumEpisodes                       100
Average/StdReturn                           6.59743
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.649045
TotalEnvSteps                               3.77e+06
__unnamed_task__/AverageDiscountedReturn   -9.72036
__unnamed_task__/AverageReturn            -14.2123
__unnamed_task__/Iteration                376
__unnamed_task__/MaxReturn                 12.157
__unnamed_task__/MinReturn                -25.1561
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.59743
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.28827
policy/KL                                   0.0113566
policy/KLBefore                             0
policy/LossAfter                           -0.0258159
policy/LossBefore                          -0.0130927
policy/dLoss                                0.0127233
----------------------------------------  -----------
2025-04-03 09:56:15 | [rl2_trainer] epoch #377 | Optimizing policy...
2025-04-03 09:56:15 | [rl2_trainer] epoch #377 | Fitting baseline...
2025-04-03 09:56:15 | [rl2_trainer] epoch #377 | Computing loss before
2025-04-03 09:56:16 | [rl2_trainer] epoch #377 | Computing KL before
2025-04-03 09:56:16 | [rl2_trainer] epoch #377 | Optimizing
2025-04-03 09:56:53 | [rl2_trainer] epoch #377 | Computing KL after
2025-04-03 09:56:54 | [rl2_trainer] epoch #377 | Computing loss after
2025-04-03 09:56:55 | [rl2_trainer] epoch #377 | Saving snapshot...
2025-04-03 09:56:55 | [rl2_trainer] epoch #377 | Saved
2025-04-03 09:56:55 | [rl2_trainer] epoch #377 | Time 72295.53 s
2025-04-03 09:56:55 | [rl2_trainer] epoch #377 | EpochTime 209.71 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.8865
Average/AverageReturn                     -26.884
Average/Iteration                         377
Average/MaxReturn                           1.44636
Average/MinReturn                         -62.4023
Average/NumEpisodes                       100
Average/StdReturn                          11.8173
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.836857
TotalEnvSteps                               3.78e+06
__unnamed_task__/AverageDiscountedReturn  -16.8865
__unnamed_task__/AverageReturn            -26.884
__unnamed_task__/Iteration                377
__unnamed_task__/MaxReturn                  1.44636
__unnamed_task__/MinReturn                -62.4023
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.8173
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.24674
policy/KL                                   0.0139795
policy/KLBefore                             0
policy/LossAfter                           -0.0293585
policy/LossBefore                          -0.00345708
policy/dLoss                                0.0259014
----------------------------------------  ------------
2025-04-03 09:59:07 | [rl2_trainer] epoch #378 | Optimizing policy...
2025-04-03 09:59:07 | [rl2_trainer] epoch #378 | Fitting baseline...
2025-04-03 09:59:07 | [rl2_trainer] epoch #378 | Computing loss before
2025-04-03 09:59:08 | [rl2_trainer] epoch #378 | Computing KL before
2025-04-03 09:59:08 | [rl2_trainer] epoch #378 | Optimizing
2025-04-03 09:59:44 | [rl2_trainer] epoch #378 | Computing KL after
2025-04-03 09:59:44 | [rl2_trainer] epoch #378 | Computing loss after
2025-04-03 09:59:45 | [rl2_trainer] epoch #378 | Saving snapshot...
2025-04-03 09:59:45 | [rl2_trainer] epoch #378 | Saved
2025-04-03 09:59:45 | [rl2_trainer] epoch #378 | Time 72466.07 s
2025-04-03 09:59:45 | [rl2_trainer] epoch #378 | EpochTime 170.54 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.2236
Average/AverageReturn                     -20.0317
Average/Iteration                         378
Average/MaxReturn                          32.0803
Average/MinReturn                         -41.2211
Average/NumEpisodes                       100
Average/StdReturn                           7.41419
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.511475
TotalEnvSteps                               3.79e+06
__unnamed_task__/AverageDiscountedReturn  -13.2236
__unnamed_task__/AverageReturn            -20.0317
__unnamed_task__/Iteration                378
__unnamed_task__/MaxReturn                 32.0803
__unnamed_task__/MinReturn                -41.2211
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.41419
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.2173
policy/KL                                   0.0135854
policy/KLBefore                             0
policy/LossAfter                           -0.0282384
policy/LossBefore                          -0.00427514
policy/dLoss                                0.0239633
----------------------------------------  ------------
2025-04-03 10:02:54 | [rl2_trainer] epoch #379 | Optimizing policy...
2025-04-03 10:02:54 | [rl2_trainer] epoch #379 | Fitting baseline...
2025-04-03 10:02:54 | [rl2_trainer] epoch #379 | Computing loss before
2025-04-03 10:02:55 | [rl2_trainer] epoch #379 | Computing KL before
2025-04-03 10:02:55 | [rl2_trainer] epoch #379 | Optimizing
2025-04-03 10:03:31 | [rl2_trainer] epoch #379 | Computing KL after
2025-04-03 10:03:32 | [rl2_trainer] epoch #379 | Computing loss after
2025-04-03 10:03:33 | [rl2_trainer] epoch #379 | Saving snapshot...
2025-04-03 10:03:33 | [rl2_trainer] epoch #379 | Saved
2025-04-03 10:03:33 | [rl2_trainer] epoch #379 | Time 72693.68 s
2025-04-03 10:03:33 | [rl2_trainer] epoch #379 | EpochTime 227.60 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -16.1138
Average/AverageReturn                     -25.8178
Average/Iteration                         379
Average/MaxReturn                           8.86073
Average/MinReturn                         -54.715
Average/NumEpisodes                       100
Average/StdReturn                          11.744
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.877013
TotalEnvSteps                               3.8e+06
__unnamed_task__/AverageDiscountedReturn  -16.1138
__unnamed_task__/AverageReturn            -25.8178
__unnamed_task__/Iteration                379
__unnamed_task__/MaxReturn                  8.86073
__unnamed_task__/MinReturn                -54.715
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.744
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.19866
policy/KL                                   0.0138624
policy/KLBefore                             0
policy/LossAfter                           -0.0260134
policy/LossBefore                          -0.000434824
policy/dLoss                                0.0255786
----------------------------------------  -------------
2025-04-03 10:05:52 | [rl2_trainer] epoch #380 | Optimizing policy...
2025-04-03 10:05:52 | [rl2_trainer] epoch #380 | Fitting baseline...
2025-04-03 10:05:52 | [rl2_trainer] epoch #380 | Computing loss before
2025-04-03 10:05:53 | [rl2_trainer] epoch #380 | Computing KL before
2025-04-03 10:05:53 | [rl2_trainer] epoch #380 | Optimizing
2025-04-03 10:06:28 | [rl2_trainer] epoch #380 | Computing KL after
2025-04-03 10:06:28 | [rl2_trainer] epoch #380 | Computing loss after
2025-04-03 10:06:29 | [rl2_trainer] epoch #380 | Saving snapshot...
2025-04-03 10:06:29 | [rl2_trainer] epoch #380 | Saved
2025-04-03 10:06:29 | [rl2_trainer] epoch #380 | Time 72870.14 s
2025-04-03 10:06:29 | [rl2_trainer] epoch #380 | EpochTime 176.46 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -10.7358
Average/AverageReturn                     -16.3758
Average/Iteration                         380
Average/MaxReturn                          11.3124
Average/MinReturn                         -24.4445
Average/NumEpisodes                       100
Average/StdReturn                           4.36326
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.502577
TotalEnvSteps                               3.81e+06
__unnamed_task__/AverageDiscountedReturn  -10.7358
__unnamed_task__/AverageReturn            -16.3758
__unnamed_task__/Iteration                380
__unnamed_task__/MaxReturn                 11.3124
__unnamed_task__/MinReturn                -24.4445
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.36326
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.18279
policy/KL                                   0.0105938
policy/KLBefore                             0
policy/LossAfter                           -0.0143216
policy/LossBefore                          -0.000325423
policy/dLoss                                0.0139962
----------------------------------------  -------------
2025-04-03 10:09:44 | [rl2_trainer] epoch #381 | Optimizing policy...
2025-04-03 10:09:45 | [rl2_trainer] epoch #381 | Fitting baseline...
2025-04-03 10:09:45 | [rl2_trainer] epoch #381 | Computing loss before
2025-04-03 10:09:45 | [rl2_trainer] epoch #381 | Computing KL before
2025-04-03 10:09:46 | [rl2_trainer] epoch #381 | Optimizing
2025-04-03 10:10:20 | [rl2_trainer] epoch #381 | Computing KL after
2025-04-03 10:10:21 | [rl2_trainer] epoch #381 | Computing loss after
2025-04-03 10:10:22 | [rl2_trainer] epoch #381 | Saving snapshot...
2025-04-03 10:10:22 | [rl2_trainer] epoch #381 | Saved
2025-04-03 10:10:22 | [rl2_trainer] epoch #381 | Time 73102.96 s
2025-04-03 10:10:22 | [rl2_trainer] epoch #381 | EpochTime 232.81 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.7852
Average/AverageReturn                     -26.635
Average/Iteration                         381
Average/MaxReturn                         -11.1482
Average/MinReturn                         -56.1634
Average/NumEpisodes                       100
Average/StdReturn                           9.22785
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.781176
TotalEnvSteps                               3.82e+06
__unnamed_task__/AverageDiscountedReturn  -16.7852
__unnamed_task__/AverageReturn            -26.635
__unnamed_task__/Iteration                381
__unnamed_task__/MaxReturn                -11.1482
__unnamed_task__/MinReturn                -56.1634
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.22785
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.15673
policy/KL                                   0.0151956
policy/KLBefore                             0
policy/LossAfter                           -0.0248081
policy/LossBefore                           0.00129545
policy/dLoss                                0.0261035
----------------------------------------  ------------
2025-04-03 10:12:17 | [rl2_trainer] epoch #382 | Optimizing policy...
2025-04-03 10:12:17 | [rl2_trainer] epoch #382 | Fitting baseline...
2025-04-03 10:12:17 | [rl2_trainer] epoch #382 | Computing loss before
2025-04-03 10:12:18 | [rl2_trainer] epoch #382 | Computing KL before
2025-04-03 10:12:18 | [rl2_trainer] epoch #382 | Optimizing
2025-04-03 10:12:55 | [rl2_trainer] epoch #382 | Computing KL after
2025-04-03 10:12:55 | [rl2_trainer] epoch #382 | Computing loss after
2025-04-03 10:12:56 | [rl2_trainer] epoch #382 | Saving snapshot...
2025-04-03 10:12:56 | [rl2_trainer] epoch #382 | Saved
2025-04-03 10:12:56 | [rl2_trainer] epoch #382 | Time 73257.21 s
2025-04-03 10:12:56 | [rl2_trainer] epoch #382 | EpochTime 154.25 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -11.6489
Average/AverageReturn                     -17.6237
Average/Iteration                         382
Average/MaxReturn                           0.361426
Average/MinReturn                         -43.5319
Average/NumEpisodes                       100
Average/StdReturn                           5.31073
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.533281
TotalEnvSteps                               3.83e+06
__unnamed_task__/AverageDiscountedReturn  -11.6489
__unnamed_task__/AverageReturn            -17.6237
__unnamed_task__/Iteration                382
__unnamed_task__/MaxReturn                  0.361426
__unnamed_task__/MinReturn                -43.5319
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.31073
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.12342
policy/KL                                   0.0149372
policy/KLBefore                             0
policy/LossAfter                           -0.00706459
policy/LossBefore                          -0.000222877
policy/dLoss                                0.00684171
----------------------------------------  -------------
2025-04-03 10:16:44 | [rl2_trainer] epoch #383 | Optimizing policy...
2025-04-03 10:16:44 | [rl2_trainer] epoch #383 | Fitting baseline...
2025-04-03 10:16:44 | [rl2_trainer] epoch #383 | Computing loss before
2025-04-03 10:16:45 | [rl2_trainer] epoch #383 | Computing KL before
2025-04-03 10:16:45 | [rl2_trainer] epoch #383 | Optimizing
2025-04-03 10:17:21 | [rl2_trainer] epoch #383 | Computing KL after
2025-04-03 10:17:22 | [rl2_trainer] epoch #383 | Computing loss after
2025-04-03 10:17:23 | [rl2_trainer] epoch #383 | Saving snapshot...
2025-04-03 10:17:23 | [rl2_trainer] epoch #383 | Saved
2025-04-03 10:17:23 | [rl2_trainer] epoch #383 | Time 73523.90 s
2025-04-03 10:17:23 | [rl2_trainer] epoch #383 | EpochTime 266.69 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.4229
Average/AverageReturn                     -26.0745
Average/Iteration                         383
Average/MaxReturn                           3.64826
Average/MinReturn                         -57.691
Average/NumEpisodes                       100
Average/StdReturn                          11.6843
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.815548
TotalEnvSteps                               3.84e+06
__unnamed_task__/AverageDiscountedReturn  -16.4229
__unnamed_task__/AverageReturn            -26.0745
__unnamed_task__/Iteration                383
__unnamed_task__/MaxReturn                  3.64826
__unnamed_task__/MinReturn                -57.691
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.6843
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.10869
policy/KL                                   0.01639
policy/KLBefore                             0
policy/LossAfter                           -0.043408
policy/LossBefore                          -0.00438814
policy/dLoss                                0.0390198
----------------------------------------  ------------
2025-04-03 10:19:20 | [rl2_trainer] epoch #384 | Optimizing policy...
2025-04-03 10:19:20 | [rl2_trainer] epoch #384 | Fitting baseline...
2025-04-03 10:19:20 | [rl2_trainer] epoch #384 | Computing loss before
2025-04-03 10:19:20 | [rl2_trainer] epoch #384 | Computing KL before
2025-04-03 10:19:21 | [rl2_trainer] epoch #384 | Optimizing
2025-04-03 10:19:56 | [rl2_trainer] epoch #384 | Computing KL after
2025-04-03 10:19:57 | [rl2_trainer] epoch #384 | Computing loss after
2025-04-03 10:19:58 | [rl2_trainer] epoch #384 | Saving snapshot...
2025-04-03 10:19:58 | [rl2_trainer] epoch #384 | Saved
2025-04-03 10:19:58 | [rl2_trainer] epoch #384 | Time 73678.67 s
2025-04-03 10:19:58 | [rl2_trainer] epoch #384 | EpochTime 154.77 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -12.1048
Average/AverageReturn                     -18.2593
Average/Iteration                         384
Average/MaxReturn                           8.60265
Average/MinReturn                         -30.497
Average/NumEpisodes                       100
Average/StdReturn                           5.89936
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.483134
TotalEnvSteps                               3.85e+06
__unnamed_task__/AverageDiscountedReturn  -12.1048
__unnamed_task__/AverageReturn            -18.2593
__unnamed_task__/Iteration                384
__unnamed_task__/MaxReturn                  8.60265
__unnamed_task__/MinReturn                -30.497
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.89936
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.10592
policy/KL                                   0.0138024
policy/KLBefore                             0
policy/LossAfter                           -0.0286999
policy/LossBefore                          -0.00712759
policy/dLoss                                0.0215723
----------------------------------------  ------------
2025-04-03 10:23:32 | [rl2_trainer] epoch #385 | Optimizing policy...
2025-04-03 10:23:32 | [rl2_trainer] epoch #385 | Fitting baseline...
2025-04-03 10:23:33 | [rl2_trainer] epoch #385 | Computing loss before
2025-04-03 10:23:33 | [rl2_trainer] epoch #385 | Computing KL before
2025-04-03 10:23:34 | [rl2_trainer] epoch #385 | Optimizing
2025-04-03 10:24:09 | [rl2_trainer] epoch #385 | Computing KL after
2025-04-03 10:24:10 | [rl2_trainer] epoch #385 | Computing loss after
2025-04-03 10:24:11 | [rl2_trainer] epoch #385 | Saving snapshot...
2025-04-03 10:24:11 | [rl2_trainer] epoch #385 | Saved
2025-04-03 10:24:11 | [rl2_trainer] epoch #385 | Time 73931.60 s
2025-04-03 10:24:11 | [rl2_trainer] epoch #385 | EpochTime 252.93 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.941
Average/AverageReturn                     -25.679
Average/Iteration                         385
Average/MaxReturn                          -0.585049
Average/MinReturn                         -65.9409
Average/NumEpisodes                       100
Average/StdReturn                          12.585
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.848104
TotalEnvSteps                               3.86e+06
__unnamed_task__/AverageDiscountedReturn  -15.941
__unnamed_task__/AverageReturn            -25.679
__unnamed_task__/Iteration                385
__unnamed_task__/MaxReturn                 -0.585049
__unnamed_task__/MinReturn                -65.9409
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.585
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.09007
policy/KL                                   0.0146282
policy/KLBefore                             0
policy/LossAfter                           -0.0375607
policy/LossBefore                          -0.00391136
policy/dLoss                                0.0336494
----------------------------------------  ------------
2025-04-03 10:27:10 | [rl2_trainer] epoch #386 | Optimizing policy...
2025-04-03 10:27:10 | [rl2_trainer] epoch #386 | Fitting baseline...
2025-04-03 10:27:10 | [rl2_trainer] epoch #386 | Computing loss before
2025-04-03 10:27:11 | [rl2_trainer] epoch #386 | Computing KL before
2025-04-03 10:27:11 | [rl2_trainer] epoch #386 | Optimizing
2025-04-03 10:27:47 | [rl2_trainer] epoch #386 | Computing KL after
2025-04-03 10:27:48 | [rl2_trainer] epoch #386 | Computing loss after
2025-04-03 10:27:49 | [rl2_trainer] epoch #386 | Saving snapshot...
2025-04-03 10:27:49 | [rl2_trainer] epoch #386 | Saved
2025-04-03 10:27:49 | [rl2_trainer] epoch #386 | Time 74149.82 s
2025-04-03 10:27:49 | [rl2_trainer] epoch #386 | EpochTime 218.22 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -11.2536
Average/AverageReturn                     -17.0711
Average/Iteration                         386
Average/MaxReturn                          25.1582
Average/MinReturn                         -31.8249
Average/NumEpisodes                       100
Average/StdReturn                           7.42504
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.556162
TotalEnvSteps                               3.87e+06
__unnamed_task__/AverageDiscountedReturn  -11.2536
__unnamed_task__/AverageReturn            -17.0711
__unnamed_task__/Iteration                386
__unnamed_task__/MaxReturn                 25.1582
__unnamed_task__/MinReturn                -31.8249
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.42504
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.05338
policy/KL                                   0.010611
policy/KLBefore                             0
policy/LossAfter                           -0.028051
policy/LossBefore                          -0.01463
policy/dLoss                                0.0134209
----------------------------------------  -----------
2025-04-03 10:32:14 | [rl2_trainer] epoch #387 | Optimizing policy...
2025-04-03 10:32:14 | [rl2_trainer] epoch #387 | Fitting baseline...
2025-04-03 10:32:14 | [rl2_trainer] epoch #387 | Computing loss before
2025-04-03 10:32:15 | [rl2_trainer] epoch #387 | Computing KL before
2025-04-03 10:32:16 | [rl2_trainer] epoch #387 | Optimizing
2025-04-03 10:32:51 | [rl2_trainer] epoch #387 | Computing KL after
2025-04-03 10:32:52 | [rl2_trainer] epoch #387 | Computing loss after
2025-04-03 10:32:53 | [rl2_trainer] epoch #387 | Saving snapshot...
2025-04-03 10:32:53 | [rl2_trainer] epoch #387 | Saved
2025-04-03 10:32:53 | [rl2_trainer] epoch #387 | Time 74453.80 s
2025-04-03 10:32:53 | [rl2_trainer] epoch #387 | EpochTime 303.97 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.1238
Average/AverageReturn                     -24.2126
Average/Iteration                         387
Average/MaxReturn                           3.9374
Average/MinReturn                         -67.9715
Average/NumEpisodes                       100
Average/StdReturn                          12.0154
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.869556
TotalEnvSteps                               3.88e+06
__unnamed_task__/AverageDiscountedReturn  -15.1238
__unnamed_task__/AverageReturn            -24.2126
__unnamed_task__/Iteration                387
__unnamed_task__/MaxReturn                  3.9374
__unnamed_task__/MinReturn                -67.9715
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.0154
__unnamed_task__/TerminationRate            0
policy/Entropy                              2.0106
policy/KL                                   0.0146513
policy/KLBefore                             0
policy/LossAfter                           -0.0249093
policy/LossBefore                          -0.00333443
policy/dLoss                                0.0215749
----------------------------------------  ------------
2025-04-03 10:35:13 | [rl2_trainer] epoch #388 | Optimizing policy...
2025-04-03 10:35:14 | [rl2_trainer] epoch #388 | Fitting baseline...
2025-04-03 10:35:14 | [rl2_trainer] epoch #388 | Computing loss before
2025-04-03 10:35:14 | [rl2_trainer] epoch #388 | Computing KL before
2025-04-03 10:35:15 | [rl2_trainer] epoch #388 | Optimizing
2025-04-03 10:35:49 | [rl2_trainer] epoch #388 | Computing KL after
2025-04-03 10:35:49 | [rl2_trainer] epoch #388 | Computing loss after
2025-04-03 10:35:50 | [rl2_trainer] epoch #388 | Saving snapshot...
2025-04-03 10:35:50 | [rl2_trainer] epoch #388 | Saved
2025-04-03 10:35:50 | [rl2_trainer] epoch #388 | Time 74631.29 s
2025-04-03 10:35:50 | [rl2_trainer] epoch #388 | EpochTime 177.50 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -10.5675
Average/AverageReturn                     -16.0174
Average/Iteration                         388
Average/MaxReturn                          11.2506
Average/MinReturn                         -24.4599
Average/NumEpisodes                       100
Average/StdReturn                           5.35293
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.4157
TotalEnvSteps                               3.89e+06
__unnamed_task__/AverageDiscountedReturn  -10.5675
__unnamed_task__/AverageReturn            -16.0174
__unnamed_task__/Iteration                388
__unnamed_task__/MaxReturn                 11.2506
__unnamed_task__/MinReturn                -24.4599
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.35293
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.9725
policy/KL                                   0.012158
policy/KLBefore                             0
policy/LossAfter                           -0.0155662
policy/LossBefore                           0.000373626
policy/dLoss                                0.0159399
----------------------------------------  -------------
2025-04-03 10:38:20 | [rl2_trainer] epoch #389 | Optimizing policy...
2025-04-03 10:38:20 | [rl2_trainer] epoch #389 | Fitting baseline...
2025-04-03 10:38:20 | [rl2_trainer] epoch #389 | Computing loss before
2025-04-03 10:38:21 | [rl2_trainer] epoch #389 | Computing KL before
2025-04-03 10:38:21 | [rl2_trainer] epoch #389 | Optimizing
2025-04-03 10:38:56 | [rl2_trainer] epoch #389 | Computing KL after
2025-04-03 10:38:57 | [rl2_trainer] epoch #389 | Computing loss after
2025-04-03 10:38:58 | [rl2_trainer] epoch #389 | Saving snapshot...
2025-04-03 10:38:58 | [rl2_trainer] epoch #389 | Saved
2025-04-03 10:38:58 | [rl2_trainer] epoch #389 | Time 74818.62 s
2025-04-03 10:38:58 | [rl2_trainer] epoch #389 | EpochTime 187.32 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -9.0003
Average/AverageReturn                     -12.797
Average/Iteration                         389
Average/MaxReturn                          12.9776
Average/MinReturn                         -53.7092
Average/NumEpisodes                       100
Average/StdReturn                           8.01001
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.361
TotalEnvSteps                               3.9e+06
__unnamed_task__/AverageDiscountedReturn   -9.0003
__unnamed_task__/AverageReturn            -12.797
__unnamed_task__/Iteration                389
__unnamed_task__/MaxReturn                 12.9776
__unnamed_task__/MinReturn                -53.7092
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.01001
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.94282
policy/KL                                   0.0152899
policy/KLBefore                             0
policy/LossAfter                           -0.0191729
policy/LossBefore                           0.00620069
policy/dLoss                                0.0253736
----------------------------------------  ------------
2025-04-03 10:40:26 | [rl2_trainer] epoch #390 | Optimizing policy...
2025-04-03 10:40:26 | [rl2_trainer] epoch #390 | Fitting baseline...
2025-04-03 10:40:26 | [rl2_trainer] epoch #390 | Computing loss before
2025-04-03 10:40:27 | [rl2_trainer] epoch #390 | Computing KL before
2025-04-03 10:40:27 | [rl2_trainer] epoch #390 | Optimizing
2025-04-03 10:41:03 | [rl2_trainer] epoch #390 | Computing KL after
2025-04-03 10:41:04 | [rl2_trainer] epoch #390 | Computing loss after
2025-04-03 10:41:05 | [rl2_trainer] epoch #390 | Saving snapshot...
2025-04-03 10:41:05 | [rl2_trainer] epoch #390 | Saved
2025-04-03 10:41:05 | [rl2_trainer] epoch #390 | Time 74945.71 s
2025-04-03 10:41:05 | [rl2_trainer] epoch #390 | EpochTime 127.09 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -8.90323
Average/AverageReturn                     -13.2596
Average/Iteration                         390
Average/MaxReturn                          18.1914
Average/MinReturn                         -25.1098
Average/NumEpisodes                       100
Average/StdReturn                           8.14611
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.480593
TotalEnvSteps                               3.91e+06
__unnamed_task__/AverageDiscountedReturn   -8.90323
__unnamed_task__/AverageReturn            -13.2596
__unnamed_task__/Iteration                390
__unnamed_task__/MaxReturn                 18.1914
__unnamed_task__/MinReturn                -25.1098
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.14611
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.89369
policy/KL                                   0.0178738
policy/KLBefore                             0
policy/LossAfter                           -0.0277069
policy/LossBefore                           0.00694978
policy/dLoss                                0.0346566
----------------------------------------  ------------
2025-04-03 10:42:32 | [rl2_trainer] epoch #391 | Optimizing policy...
2025-04-03 10:42:32 | [rl2_trainer] epoch #391 | Fitting baseline...
2025-04-03 10:42:32 | [rl2_trainer] epoch #391 | Computing loss before
2025-04-03 10:42:33 | [rl2_trainer] epoch #391 | Computing KL before
2025-04-03 10:42:33 | [rl2_trainer] epoch #391 | Optimizing
2025-04-03 10:43:09 | [rl2_trainer] epoch #391 | Computing KL after
2025-04-03 10:43:09 | [rl2_trainer] epoch #391 | Computing loss after
2025-04-03 10:43:10 | [rl2_trainer] epoch #391 | Saving snapshot...
2025-04-03 10:43:10 | [rl2_trainer] epoch #391 | Saved
2025-04-03 10:43:10 | [rl2_trainer] epoch #391 | Time 75070.97 s
2025-04-03 10:43:10 | [rl2_trainer] epoch #391 | EpochTime 125.25 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -9.49187
Average/AverageReturn                     -13.6558
Average/Iteration                         391
Average/MaxReturn                          22.6705
Average/MinReturn                         -35.9058
Average/NumEpisodes                       100
Average/StdReturn                           9.29893
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.607148
TotalEnvSteps                               3.92e+06
__unnamed_task__/AverageDiscountedReturn   -9.49187
__unnamed_task__/AverageReturn            -13.6558
__unnamed_task__/Iteration                391
__unnamed_task__/MaxReturn                 22.6705
__unnamed_task__/MinReturn                -35.9058
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.29893
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.84981
policy/KL                                   0.0196096
policy/KLBefore                             0
policy/LossAfter                           -0.0438093
policy/LossBefore                          -0.00873435
policy/dLoss                                0.035075
----------------------------------------  ------------
2025-04-03 10:46:10 | [rl2_trainer] epoch #392 | Optimizing policy...
2025-04-03 10:46:10 | [rl2_trainer] epoch #392 | Fitting baseline...
2025-04-03 10:46:10 | [rl2_trainer] epoch #392 | Computing loss before
2025-04-03 10:46:11 | [rl2_trainer] epoch #392 | Computing KL before
2025-04-03 10:46:11 | [rl2_trainer] epoch #392 | Optimizing
2025-04-03 10:46:46 | [rl2_trainer] epoch #392 | Computing KL after
2025-04-03 10:46:47 | [rl2_trainer] epoch #392 | Computing loss after
2025-04-03 10:46:48 | [rl2_trainer] epoch #392 | Saving snapshot...
2025-04-03 10:46:48 | [rl2_trainer] epoch #392 | Saved
2025-04-03 10:46:48 | [rl2_trainer] epoch #392 | Time 75288.67 s
2025-04-03 10:46:48 | [rl2_trainer] epoch #392 | EpochTime 217.69 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.1432
Average/AverageReturn                     -26.07
Average/Iteration                         392
Average/MaxReturn                          -5.38366
Average/MinReturn                         -52.8162
Average/NumEpisodes                       100
Average/StdReturn                          10.6631
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.84911
TotalEnvSteps                               3.93e+06
__unnamed_task__/AverageDiscountedReturn  -16.1432
__unnamed_task__/AverageReturn            -26.07
__unnamed_task__/Iteration                392
__unnamed_task__/MaxReturn                 -5.38366
__unnamed_task__/MinReturn                -52.8162
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.6631
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.83147
policy/KL                                   0.0149537
policy/KLBefore                             0
policy/LossAfter                           -0.0197349
policy/LossBefore                           0.00761649
policy/dLoss                                0.0273514
----------------------------------------  ------------
2025-04-03 10:49:44 | [rl2_trainer] epoch #393 | Optimizing policy...
2025-04-03 10:49:44 | [rl2_trainer] epoch #393 | Fitting baseline...
2025-04-03 10:49:44 | [rl2_trainer] epoch #393 | Computing loss before
2025-04-03 10:49:45 | [rl2_trainer] epoch #393 | Computing KL before
2025-04-03 10:49:45 | [rl2_trainer] epoch #393 | Optimizing
2025-04-03 10:50:20 | [rl2_trainer] epoch #393 | Computing KL after
2025-04-03 10:50:21 | [rl2_trainer] epoch #393 | Computing loss after
2025-04-03 10:50:22 | [rl2_trainer] epoch #393 | Saving snapshot...
2025-04-03 10:50:22 | [rl2_trainer] epoch #393 | Saved
2025-04-03 10:50:22 | [rl2_trainer] epoch #393 | Time 75502.63 s
2025-04-03 10:50:22 | [rl2_trainer] epoch #393 | EpochTime 213.96 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.5404
Average/AverageReturn                     -26.5254
Average/Iteration                         393
Average/MaxReturn                           1.87239
Average/MinReturn                         -94.6691
Average/NumEpisodes                       100
Average/StdReturn                          13.657
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.821788
TotalEnvSteps                               3.94e+06
__unnamed_task__/AverageDiscountedReturn  -16.5404
__unnamed_task__/AverageReturn            -26.5254
__unnamed_task__/Iteration                393
__unnamed_task__/MaxReturn                  1.87239
__unnamed_task__/MinReturn                -94.6691
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.657
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.83089
policy/KL                                   0.0159249
policy/KLBefore                             0
policy/LossAfter                           -0.0562303
policy/LossBefore                          -0.00218244
policy/dLoss                                0.0540479
----------------------------------------  ------------
2025-04-03 10:51:49 | [rl2_trainer] epoch #394 | Optimizing policy...
2025-04-03 10:51:49 | [rl2_trainer] epoch #394 | Fitting baseline...
2025-04-03 10:51:49 | [rl2_trainer] epoch #394 | Computing loss before
2025-04-03 10:51:50 | [rl2_trainer] epoch #394 | Computing KL before
2025-04-03 10:51:51 | [rl2_trainer] epoch #394 | Optimizing
2025-04-03 10:52:25 | [rl2_trainer] epoch #394 | Computing KL after
2025-04-03 10:52:26 | [rl2_trainer] epoch #394 | Computing loss after
2025-04-03 10:52:27 | [rl2_trainer] epoch #394 | Saving snapshot...
2025-04-03 10:52:27 | [rl2_trainer] epoch #394 | Saved
2025-04-03 10:52:27 | [rl2_trainer] epoch #394 | Time 75627.95 s
2025-04-03 10:52:27 | [rl2_trainer] epoch #394 | EpochTime 125.32 s
----------------------------------------  ------------
Average/AverageDiscountedReturn             -7.62268
Average/AverageReturn                      -10.9557
Average/Iteration                          394
Average/MaxReturn                           49.3752
Average/MinReturn                         -110.563
Average/NumEpisodes                        100
Average/StdReturn                           16.9669
Average/TerminationRate                      0
LinearFeatureBaseline/ExplainedVariance      0.550554
TotalEnvSteps                                3.95e+06
__unnamed_task__/AverageDiscountedReturn    -7.62268
__unnamed_task__/AverageReturn             -10.9557
__unnamed_task__/Iteration                 394
__unnamed_task__/MaxReturn                  49.3752
__unnamed_task__/MinReturn                -110.563
__unnamed_task__/NumEpisodes               100
__unnamed_task__/StdReturn                  16.9669
__unnamed_task__/TerminationRate             0
policy/Entropy                               1.81372
policy/KL                                    0.033349
policy/KLBefore                              0
policy/LossAfter                            -0.0603301
policy/LossBefore                           -0.0179039
policy/dLoss                                 0.0424262
----------------------------------------  ------------
2025-04-03 10:55:28 | [rl2_trainer] epoch #395 | Optimizing policy...
2025-04-03 10:55:29 | [rl2_trainer] epoch #395 | Fitting baseline...
2025-04-03 10:55:29 | [rl2_trainer] epoch #395 | Computing loss before
2025-04-03 10:55:29 | [rl2_trainer] epoch #395 | Computing KL before
2025-04-03 10:55:30 | [rl2_trainer] epoch #395 | Optimizing
2025-04-03 10:56:06 | [rl2_trainer] epoch #395 | Computing KL after
2025-04-03 10:56:06 | [rl2_trainer] epoch #395 | Computing loss after
2025-04-03 10:56:07 | [rl2_trainer] epoch #395 | Saving snapshot...
2025-04-03 10:56:07 | [rl2_trainer] epoch #395 | Saved
2025-04-03 10:56:07 | [rl2_trainer] epoch #395 | Time 75848.06 s
2025-04-03 10:56:07 | [rl2_trainer] epoch #395 | EpochTime 220.11 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.6406
Average/AverageReturn                     -17.4282
Average/Iteration                         395
Average/MaxReturn                           2.34576
Average/MinReturn                         -40.2929
Average/NumEpisodes                       100
Average/StdReturn                           5.3829
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.505078
TotalEnvSteps                               3.96e+06
__unnamed_task__/AverageDiscountedReturn  -11.6406
__unnamed_task__/AverageReturn            -17.4282
__unnamed_task__/Iteration                395
__unnamed_task__/MaxReturn                  2.34576
__unnamed_task__/MinReturn                -40.2929
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.3829
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.80563
policy/KL                                   0.0288106
policy/KLBefore                             0
policy/LossAfter                           -0.00255087
policy/LossBefore                          -0.00434414
policy/dLoss                               -0.00179327
----------------------------------------  ------------
2025-04-03 10:59:08 | [rl2_trainer] epoch #396 | Optimizing policy...
2025-04-03 10:59:08 | [rl2_trainer] epoch #396 | Fitting baseline...
2025-04-03 10:59:08 | [rl2_trainer] epoch #396 | Computing loss before
2025-04-03 10:59:09 | [rl2_trainer] epoch #396 | Computing KL before
2025-04-03 10:59:09 | [rl2_trainer] epoch #396 | Optimizing
2025-04-03 10:59:45 | [rl2_trainer] epoch #396 | Computing KL after
2025-04-03 10:59:45 | [rl2_trainer] epoch #396 | Computing loss after
2025-04-03 10:59:46 | [rl2_trainer] epoch #396 | Saving snapshot...
2025-04-03 10:59:46 | [rl2_trainer] epoch #396 | Saved
2025-04-03 10:59:46 | [rl2_trainer] epoch #396 | Time 76067.32 s
2025-04-03 10:59:46 | [rl2_trainer] epoch #396 | EpochTime 219.25 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.5411
Average/AverageReturn                     -17.3328
Average/Iteration                         396
Average/MaxReturn                          -4.59937
Average/MinReturn                         -32.3851
Average/NumEpisodes                       100
Average/StdReturn                           4.91511
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.544723
TotalEnvSteps                               3.97e+06
__unnamed_task__/AverageDiscountedReturn  -11.5411
__unnamed_task__/AverageReturn            -17.3328
__unnamed_task__/Iteration                396
__unnamed_task__/MaxReturn                 -4.59937
__unnamed_task__/MinReturn                -32.3851
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.91511
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.79098
policy/KL                                   0.0112573
policy/KLBefore                             0
policy/LossAfter                           -0.00843922
policy/LossBefore                           0.00140165
policy/dLoss                                0.00984088
----------------------------------------  ------------
2025-04-03 11:02:51 | [rl2_trainer] epoch #397 | Optimizing policy...
2025-04-03 11:02:51 | [rl2_trainer] epoch #397 | Fitting baseline...
2025-04-03 11:02:51 | [rl2_trainer] epoch #397 | Computing loss before
2025-04-03 11:02:52 | [rl2_trainer] epoch #397 | Computing KL before
2025-04-03 11:02:53 | [rl2_trainer] epoch #397 | Optimizing
2025-04-03 11:03:26 | [rl2_trainer] epoch #397 | Computing KL after
2025-04-03 11:03:27 | [rl2_trainer] epoch #397 | Computing loss after
2025-04-03 11:03:28 | [rl2_trainer] epoch #397 | Saving snapshot...
2025-04-03 11:03:28 | [rl2_trainer] epoch #397 | Saved
2025-04-03 11:03:28 | [rl2_trainer] epoch #397 | Time 76289.00 s
2025-04-03 11:03:28 | [rl2_trainer] epoch #397 | EpochTime 221.68 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -10.7667
Average/AverageReturn                     -16.0622
Average/Iteration                         397
Average/MaxReturn                          19.5014
Average/MinReturn                         -32.8047
Average/NumEpisodes                       100
Average/StdReturn                           6.36567
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.570616
TotalEnvSteps                               3.98e+06
__unnamed_task__/AverageDiscountedReturn  -10.7667
__unnamed_task__/AverageReturn            -16.0622
__unnamed_task__/Iteration                397
__unnamed_task__/MaxReturn                 19.5014
__unnamed_task__/MinReturn                -32.8047
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.36567
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.77301
policy/KL                                   0.0100502
policy/KLBefore                             0
policy/LossAfter                           -0.0174616
policy/LossBefore                          -0.000659288
policy/dLoss                                0.0168023
----------------------------------------  -------------
2025-04-03 11:05:43 | [rl2_trainer] epoch #398 | Optimizing policy...
2025-04-03 11:05:43 | [rl2_trainer] epoch #398 | Fitting baseline...
2025-04-03 11:05:43 | [rl2_trainer] epoch #398 | Computing loss before
2025-04-03 11:05:44 | [rl2_trainer] epoch #398 | Computing KL before
2025-04-03 11:05:44 | [rl2_trainer] epoch #398 | Optimizing
2025-04-03 11:06:21 | [rl2_trainer] epoch #398 | Computing KL after
2025-04-03 11:06:21 | [rl2_trainer] epoch #398 | Computing loss after
2025-04-03 11:06:22 | [rl2_trainer] epoch #398 | Saving snapshot...
2025-04-03 11:06:22 | [rl2_trainer] epoch #398 | Saved
2025-04-03 11:06:22 | [rl2_trainer] epoch #398 | Time 76463.05 s
2025-04-03 11:06:22 | [rl2_trainer] epoch #398 | EpochTime 174.04 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -16.8711
Average/AverageReturn                     -26.6649
Average/Iteration                         398
Average/MaxReturn                          -4.14524
Average/MinReturn                         -58.1819
Average/NumEpisodes                       100
Average/StdReturn                          12.2929
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.854715
TotalEnvSteps                               3.99e+06
__unnamed_task__/AverageDiscountedReturn  -16.8711
__unnamed_task__/AverageReturn            -26.6649
__unnamed_task__/Iteration                398
__unnamed_task__/MaxReturn                 -4.14524
__unnamed_task__/MinReturn                -58.1819
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.2929
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.76193
policy/KL                                   0.0176427
policy/KLBefore                             0
policy/LossAfter                           -0.043503
policy/LossBefore                          -0.000803784
policy/dLoss                                0.0426992
----------------------------------------  -------------
2025-04-03 11:09:24 | [rl2_trainer] epoch #399 | Optimizing policy...
2025-04-03 11:09:25 | [rl2_trainer] epoch #399 | Fitting baseline...
2025-04-03 11:09:25 | [rl2_trainer] epoch #399 | Computing loss before
2025-04-03 11:09:25 | [rl2_trainer] epoch #399 | Computing KL before
2025-04-03 11:09:26 | [rl2_trainer] epoch #399 | Optimizing
2025-04-03 11:10:02 | [rl2_trainer] epoch #399 | Computing KL after
2025-04-03 11:10:03 | [rl2_trainer] epoch #399 | Computing loss after
2025-04-03 11:10:04 | [rl2_trainer] epoch #399 | Saving snapshot...
2025-04-03 11:10:04 | [rl2_trainer] epoch #399 | Saved
2025-04-03 11:10:04 | [rl2_trainer] epoch #399 | Time 76684.54 s
2025-04-03 11:10:04 | [rl2_trainer] epoch #399 | EpochTime 221.49 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.5839
Average/AverageReturn                     -15.6138
Average/Iteration                         399
Average/MaxReturn                          16.0281
Average/MinReturn                         -32.7488
Average/NumEpisodes                       100
Average/StdReturn                           7.44593
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.559777
TotalEnvSteps                               4e+06
__unnamed_task__/AverageDiscountedReturn  -10.5839
__unnamed_task__/AverageReturn            -15.6138
__unnamed_task__/Iteration                399
__unnamed_task__/MaxReturn                 16.0281
__unnamed_task__/MinReturn                -32.7488
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.44593
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.74467
policy/KL                                   0.0146333
policy/KLBefore                             0
policy/LossAfter                           -0.0195674
policy/LossBefore                           0.00297692
policy/dLoss                                0.0225443
----------------------------------------  ------------
2025-04-03 11:13:03 | [rl2_trainer] epoch #400 | Optimizing policy...
2025-04-03 11:13:04 | [rl2_trainer] epoch #400 | Fitting baseline...
2025-04-03 11:13:04 | [rl2_trainer] epoch #400 | Computing loss before
2025-04-03 11:13:04 | [rl2_trainer] epoch #400 | Computing KL before
2025-04-03 11:13:05 | [rl2_trainer] epoch #400 | Optimizing
2025-04-03 11:13:40 | [rl2_trainer] epoch #400 | Computing KL after
2025-04-03 11:13:41 | [rl2_trainer] epoch #400 | Computing loss after
2025-04-03 11:13:41 | [rl2_trainer] epoch #400 | Saving snapshot...
2025-04-03 11:13:41 | [rl2_trainer] epoch #400 | Saved
2025-04-03 11:13:41 | [rl2_trainer] epoch #400 | Time 76902.50 s
2025-04-03 11:13:41 | [rl2_trainer] epoch #400 | EpochTime 217.95 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.4912
Average/AverageReturn                     -15.5858
Average/Iteration                         400
Average/MaxReturn                          -0.161631
Average/MinReturn                         -30.48
Average/NumEpisodes                       100
Average/StdReturn                           4.93062
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.559298
TotalEnvSteps                               4.01e+06
__unnamed_task__/AverageDiscountedReturn  -10.4912
__unnamed_task__/AverageReturn            -15.5858
__unnamed_task__/Iteration                400
__unnamed_task__/MaxReturn                 -0.161631
__unnamed_task__/MinReturn                -30.48
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.93062
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.72928
policy/KL                                   0.0109234
policy/KLBefore                             0
policy/LossAfter                           -0.0136506
policy/LossBefore                          -0.00315544
policy/dLoss                                0.0104951
----------------------------------------  ------------
2025-04-03 11:17:42 | [rl2_trainer] epoch #401 | Optimizing policy...
2025-04-03 11:17:42 | [rl2_trainer] epoch #401 | Fitting baseline...
2025-04-03 11:17:42 | [rl2_trainer] epoch #401 | Computing loss before
2025-04-03 11:17:43 | [rl2_trainer] epoch #401 | Computing KL before
2025-04-03 11:17:43 | [rl2_trainer] epoch #401 | Optimizing
2025-04-03 11:18:19 | [rl2_trainer] epoch #401 | Computing KL after
2025-04-03 11:18:19 | [rl2_trainer] epoch #401 | Computing loss after
2025-04-03 11:18:20 | [rl2_trainer] epoch #401 | Saving snapshot...
2025-04-03 11:18:20 | [rl2_trainer] epoch #401 | Saved
2025-04-03 11:18:20 | [rl2_trainer] epoch #401 | Time 77181.31 s
2025-04-03 11:18:20 | [rl2_trainer] epoch #401 | EpochTime 278.81 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.3033
Average/AverageReturn                     -24.4986
Average/Iteration                         401
Average/MaxReturn                          38.7467
Average/MinReturn                         -78.6652
Average/NumEpisodes                       100
Average/StdReturn                          16.1878
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.835796
TotalEnvSteps                               4.02e+06
__unnamed_task__/AverageDiscountedReturn  -15.3033
__unnamed_task__/AverageReturn            -24.4986
__unnamed_task__/Iteration                401
__unnamed_task__/MaxReturn                 38.7467
__unnamed_task__/MinReturn                -78.6652
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 16.1878
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.71025
policy/KL                                   0.0197092
policy/KLBefore                             0
policy/LossAfter                           -0.0491892
policy/LossBefore                           0.00225047
policy/dLoss                                0.0514397
----------------------------------------  ------------
2025-04-03 11:21:35 | [rl2_trainer] epoch #402 | Optimizing policy...
2025-04-03 11:21:35 | [rl2_trainer] epoch #402 | Fitting baseline...
2025-04-03 11:21:35 | [rl2_trainer] epoch #402 | Computing loss before
2025-04-03 11:21:36 | [rl2_trainer] epoch #402 | Computing KL before
2025-04-03 11:21:37 | [rl2_trainer] epoch #402 | Optimizing
2025-04-03 11:22:12 | [rl2_trainer] epoch #402 | Computing KL after
2025-04-03 11:22:13 | [rl2_trainer] epoch #402 | Computing loss after
2025-04-03 11:22:14 | [rl2_trainer] epoch #402 | Saving snapshot...
2025-04-03 11:22:14 | [rl2_trainer] epoch #402 | Saved
2025-04-03 11:22:14 | [rl2_trainer] epoch #402 | Time 77414.81 s
2025-04-03 11:22:14 | [rl2_trainer] epoch #402 | EpochTime 233.50 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -17.4045
Average/AverageReturn                     -27.4185
Average/Iteration                         402
Average/MaxReturn                           4.65033
Average/MinReturn                         -57.9376
Average/NumEpisodes                       100
Average/StdReturn                          13.1561
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.848749
TotalEnvSteps                               4.03e+06
__unnamed_task__/AverageDiscountedReturn  -17.4045
__unnamed_task__/AverageReturn            -27.4185
__unnamed_task__/Iteration                402
__unnamed_task__/MaxReturn                  4.65033
__unnamed_task__/MinReturn                -57.9376
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.1561
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.68372
policy/KL                                   0.017721
policy/KLBefore                             0
policy/LossAfter                           -0.0412278
policy/LossBefore                          -0.0128922
policy/dLoss                                0.0283356
----------------------------------------  -----------
2025-04-03 11:24:43 | [rl2_trainer] epoch #403 | Optimizing policy...
2025-04-03 11:24:44 | [rl2_trainer] epoch #403 | Fitting baseline...
2025-04-03 11:24:44 | [rl2_trainer] epoch #403 | Computing loss before
2025-04-03 11:24:44 | [rl2_trainer] epoch #403 | Computing KL before
2025-04-03 11:24:45 | [rl2_trainer] epoch #403 | Optimizing
2025-04-03 11:25:21 | [rl2_trainer] epoch #403 | Computing KL after
2025-04-03 11:25:21 | [rl2_trainer] epoch #403 | Computing loss after
2025-04-03 11:25:22 | [rl2_trainer] epoch #403 | Saving snapshot...
2025-04-03 11:25:22 | [rl2_trainer] epoch #403 | Saved
2025-04-03 11:25:22 | [rl2_trainer] epoch #403 | Time 77603.45 s
2025-04-03 11:25:22 | [rl2_trainer] epoch #403 | EpochTime 188.63 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.7823
Average/AverageReturn                     -16.1931
Average/Iteration                         403
Average/MaxReturn                           3.07802
Average/MinReturn                         -23.0523
Average/NumEpisodes                       100
Average/StdReturn                           3.69485
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.372903
TotalEnvSteps                               4.04e+06
__unnamed_task__/AverageDiscountedReturn  -10.7823
__unnamed_task__/AverageReturn            -16.1931
__unnamed_task__/Iteration                403
__unnamed_task__/MaxReturn                  3.07802
__unnamed_task__/MinReturn                -23.0523
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  3.69485
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.65569
policy/KL                                   0.0128294
policy/KLBefore                             0
policy/LossAfter                           -0.00885698
policy/LossBefore                           0.00126636
policy/dLoss                                0.0101233
----------------------------------------  ------------
2025-04-03 11:27:26 | [rl2_trainer] epoch #404 | Optimizing policy...
2025-04-03 11:27:26 | [rl2_trainer] epoch #404 | Fitting baseline...
2025-04-03 11:27:26 | [rl2_trainer] epoch #404 | Computing loss before
2025-04-03 11:27:26 | [rl2_trainer] epoch #404 | Computing KL before
2025-04-03 11:27:27 | [rl2_trainer] epoch #404 | Optimizing
2025-04-03 11:28:02 | [rl2_trainer] epoch #404 | Computing KL after
2025-04-03 11:28:03 | [rl2_trainer] epoch #404 | Computing loss after
2025-04-03 11:28:04 | [rl2_trainer] epoch #404 | Saving snapshot...
2025-04-03 11:28:04 | [rl2_trainer] epoch #404 | Saved
2025-04-03 11:28:04 | [rl2_trainer] epoch #404 | Time 77764.84 s
2025-04-03 11:28:04 | [rl2_trainer] epoch #404 | EpochTime 161.39 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.2789
Average/AverageReturn                     -26.1253
Average/Iteration                         404
Average/MaxReturn                           0.616953
Average/MinReturn                         -55.8575
Average/NumEpisodes                       100
Average/StdReturn                          11.4259
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.822114
TotalEnvSteps                               4.05e+06
__unnamed_task__/AverageDiscountedReturn  -16.2789
__unnamed_task__/AverageReturn            -26.1253
__unnamed_task__/Iteration                404
__unnamed_task__/MaxReturn                  0.616953
__unnamed_task__/MinReturn                -55.8575
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.4259
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.63293
policy/KL                                   0.0133077
policy/KLBefore                             0
policy/LossAfter                           -0.0341183
policy/LossBefore                           0.00392036
policy/dLoss                                0.0380386
----------------------------------------  ------------
2025-04-03 11:31:05 | [rl2_trainer] epoch #405 | Optimizing policy...
2025-04-03 11:31:05 | [rl2_trainer] epoch #405 | Fitting baseline...
2025-04-03 11:31:05 | [rl2_trainer] epoch #405 | Computing loss before
2025-04-03 11:31:06 | [rl2_trainer] epoch #405 | Computing KL before
2025-04-03 11:31:06 | [rl2_trainer] epoch #405 | Optimizing
2025-04-03 11:31:42 | [rl2_trainer] epoch #405 | Computing KL after
2025-04-03 11:31:43 | [rl2_trainer] epoch #405 | Computing loss after
2025-04-03 11:31:44 | [rl2_trainer] epoch #405 | Saving snapshot...
2025-04-03 11:31:44 | [rl2_trainer] epoch #405 | Saved
2025-04-03 11:31:44 | [rl2_trainer] epoch #405 | Time 77984.99 s
2025-04-03 11:31:44 | [rl2_trainer] epoch #405 | EpochTime 220.14 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -11.0879
Average/AverageReturn                     -16.4883
Average/Iteration                         405
Average/MaxReturn                           7.66169
Average/MinReturn                         -33.382
Average/NumEpisodes                       100
Average/StdReturn                           6.0137
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.372299
TotalEnvSteps                               4.06e+06
__unnamed_task__/AverageDiscountedReturn  -11.0879
__unnamed_task__/AverageReturn            -16.4883
__unnamed_task__/Iteration                405
__unnamed_task__/MaxReturn                  7.66169
__unnamed_task__/MinReturn                -33.382
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.0137
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.59958
policy/KL                                   0.0177077
policy/KLBefore                             0
policy/LossAfter                           -0.0115009
policy/LossBefore                          -0.000963008
policy/dLoss                                0.0105379
----------------------------------------  -------------
2025-04-03 11:35:33 | [rl2_trainer] epoch #406 | Optimizing policy...
2025-04-03 11:35:33 | [rl2_trainer] epoch #406 | Fitting baseline...
2025-04-03 11:35:33 | [rl2_trainer] epoch #406 | Computing loss before
2025-04-03 11:35:34 | [rl2_trainer] epoch #406 | Computing KL before
2025-04-03 11:35:34 | [rl2_trainer] epoch #406 | Optimizing
2025-04-03 11:36:10 | [rl2_trainer] epoch #406 | Computing KL after
2025-04-03 11:36:10 | [rl2_trainer] epoch #406 | Computing loss after
2025-04-03 11:36:11 | [rl2_trainer] epoch #406 | Saving snapshot...
2025-04-03 11:36:11 | [rl2_trainer] epoch #406 | Saved
2025-04-03 11:36:11 | [rl2_trainer] epoch #406 | Time 78252.40 s
2025-04-03 11:36:11 | [rl2_trainer] epoch #406 | EpochTime 267.41 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.0842
Average/AverageReturn                     -25.8217
Average/Iteration                         406
Average/MaxReturn                           1.75796
Average/MinReturn                         -65.7484
Average/NumEpisodes                       100
Average/StdReturn                          13.4177
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.888758
TotalEnvSteps                               4.07e+06
__unnamed_task__/AverageDiscountedReturn  -16.0842
__unnamed_task__/AverageReturn            -25.8217
__unnamed_task__/Iteration                406
__unnamed_task__/MaxReturn                  1.75796
__unnamed_task__/MinReturn                -65.7484
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.4177
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.57863
policy/KL                                   0.0184415
policy/KLBefore                             0
policy/LossAfter                           -0.0220014
policy/LossBefore                           0.00243566
policy/dLoss                                0.0244371
----------------------------------------  ------------
2025-04-03 11:39:12 | [rl2_trainer] epoch #407 | Optimizing policy...
2025-04-03 11:39:12 | [rl2_trainer] epoch #407 | Fitting baseline...
2025-04-03 11:39:12 | [rl2_trainer] epoch #407 | Computing loss before
2025-04-03 11:39:13 | [rl2_trainer] epoch #407 | Computing KL before
2025-04-03 11:39:14 | [rl2_trainer] epoch #407 | Optimizing
2025-04-03 11:39:49 | [rl2_trainer] epoch #407 | Computing KL after
2025-04-03 11:39:50 | [rl2_trainer] epoch #407 | Computing loss after
2025-04-03 11:39:51 | [rl2_trainer] epoch #407 | Saving snapshot...
2025-04-03 11:39:51 | [rl2_trainer] epoch #407 | Saved
2025-04-03 11:39:51 | [rl2_trainer] epoch #407 | Time 78472.00 s
2025-04-03 11:39:51 | [rl2_trainer] epoch #407 | EpochTime 219.59 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -9.87449
Average/AverageReturn                     -14.3097
Average/Iteration                         407
Average/MaxReturn                           9.86376
Average/MinReturn                         -34.5204
Average/NumEpisodes                       100
Average/StdReturn                           6.3229
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.468297
TotalEnvSteps                               4.08e+06
__unnamed_task__/AverageDiscountedReturn   -9.87449
__unnamed_task__/AverageReturn            -14.3097
__unnamed_task__/Iteration                407
__unnamed_task__/MaxReturn                  9.86376
__unnamed_task__/MinReturn                -34.5204
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.3229
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.5559
policy/KL                                   0.0141749
policy/KLBefore                             0
policy/LossAfter                           -0.0123367
policy/LossBefore                           0.00214543
policy/dLoss                                0.0144822
----------------------------------------  ------------
2025-04-03 11:42:46 | [rl2_trainer] epoch #408 | Optimizing policy...
2025-04-03 11:42:47 | [rl2_trainer] epoch #408 | Fitting baseline...
2025-04-03 11:42:47 | [rl2_trainer] epoch #408 | Computing loss before
2025-04-03 11:42:47 | [rl2_trainer] epoch #408 | Computing KL before
2025-04-03 11:42:48 | [rl2_trainer] epoch #408 | Optimizing
2025-04-03 11:43:23 | [rl2_trainer] epoch #408 | Computing KL after
2025-04-03 11:43:24 | [rl2_trainer] epoch #408 | Computing loss after
2025-04-03 11:43:25 | [rl2_trainer] epoch #408 | Saving snapshot...
2025-04-03 11:43:25 | [rl2_trainer] epoch #408 | Saved
2025-04-03 11:43:25 | [rl2_trainer] epoch #408 | Time 78685.83 s
2025-04-03 11:43:25 | [rl2_trainer] epoch #408 | EpochTime 213.83 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -15.8169
Average/AverageReturn                     -25.4417
Average/Iteration                         408
Average/MaxReturn                           2.59772
Average/MinReturn                         -60.9402
Average/NumEpisodes                       100
Average/StdReturn                          11.34
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.826689
TotalEnvSteps                               4.09e+06
__unnamed_task__/AverageDiscountedReturn  -15.8169
__unnamed_task__/AverageReturn            -25.4417
__unnamed_task__/Iteration                408
__unnamed_task__/MaxReturn                  2.59772
__unnamed_task__/MinReturn                -60.9402
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.34
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.52934
policy/KL                                   0.0130433
policy/KLBefore                             0
policy/LossAfter                           -0.0402629
policy/LossBefore                          -0.006226
policy/dLoss                                0.0340369
----------------------------------------  -----------
2025-04-03 11:45:44 | [rl2_trainer] epoch #409 | Optimizing policy...
2025-04-03 11:45:44 | [rl2_trainer] epoch #409 | Fitting baseline...
2025-04-03 11:45:44 | [rl2_trainer] epoch #409 | Computing loss before
2025-04-03 11:45:45 | [rl2_trainer] epoch #409 | Computing KL before
2025-04-03 11:45:45 | [rl2_trainer] epoch #409 | Optimizing
2025-04-03 11:46:21 | [rl2_trainer] epoch #409 | Computing KL after
2025-04-03 11:46:22 | [rl2_trainer] epoch #409 | Computing loss after
2025-04-03 11:46:23 | [rl2_trainer] epoch #409 | Saving snapshot...
2025-04-03 11:46:23 | [rl2_trainer] epoch #409 | Saved
2025-04-03 11:46:23 | [rl2_trainer] epoch #409 | Time 78863.65 s
2025-04-03 11:46:23 | [rl2_trainer] epoch #409 | EpochTime 177.82 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -17.1841
Average/AverageReturn                     -27.6034
Average/Iteration                         409
Average/MaxReturn                           9.30954
Average/MinReturn                         -55.5549
Average/NumEpisodes                       100
Average/StdReturn                          12.944
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.859247
TotalEnvSteps                               4.1e+06
__unnamed_task__/AverageDiscountedReturn  -17.1841
__unnamed_task__/AverageReturn            -27.6034
__unnamed_task__/Iteration                409
__unnamed_task__/MaxReturn                  9.30954
__unnamed_task__/MinReturn                -55.5549
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.944
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.51034
policy/KL                                   0.0159279
policy/KLBefore                             0
policy/LossAfter                           -0.0468461
policy/LossBefore                          -0.00120651
policy/dLoss                                0.0456396
----------------------------------------  ------------
2025-04-03 11:48:08 | [rl2_trainer] epoch #410 | Optimizing policy...
2025-04-03 11:48:08 | [rl2_trainer] epoch #410 | Fitting baseline...
2025-04-03 11:48:08 | [rl2_trainer] epoch #410 | Computing loss before
2025-04-03 11:48:09 | [rl2_trainer] epoch #410 | Computing KL before
2025-04-03 11:48:09 | [rl2_trainer] epoch #410 | Optimizing
2025-04-03 11:48:44 | [rl2_trainer] epoch #410 | Computing KL after
2025-04-03 11:48:45 | [rl2_trainer] epoch #410 | Computing loss after
2025-04-03 11:48:45 | [rl2_trainer] epoch #410 | Saving snapshot...
2025-04-03 11:48:45 | [rl2_trainer] epoch #410 | Saved
2025-04-03 11:48:45 | [rl2_trainer] epoch #410 | Time 79006.51 s
2025-04-03 11:48:45 | [rl2_trainer] epoch #410 | EpochTime 142.86 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -15.7611
Average/AverageReturn                     -25.1029
Average/Iteration                         410
Average/MaxReturn                          29.8944
Average/MinReturn                         -51.417
Average/NumEpisodes                       100
Average/StdReturn                          12.5225
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.782007
TotalEnvSteps                               4.11e+06
__unnamed_task__/AverageDiscountedReturn  -15.7611
__unnamed_task__/AverageReturn            -25.1029
__unnamed_task__/Iteration                410
__unnamed_task__/MaxReturn                 29.8944
__unnamed_task__/MinReturn                -51.417
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.5225
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.48573
policy/KL                                   0.0175876
policy/KLBefore                             0
policy/LossAfter                           -0.0369278
policy/LossBefore                          -0.000662251
policy/dLoss                                0.0362655
----------------------------------------  -------------
2025-04-03 11:51:51 | [rl2_trainer] epoch #411 | Optimizing policy...
2025-04-03 11:51:51 | [rl2_trainer] epoch #411 | Fitting baseline...
2025-04-03 11:51:51 | [rl2_trainer] epoch #411 | Computing loss before
2025-04-03 11:51:51 | [rl2_trainer] epoch #411 | Computing KL before
2025-04-03 11:51:52 | [rl2_trainer] epoch #411 | Optimizing
2025-04-03 11:52:29 | [rl2_trainer] epoch #411 | Computing KL after
2025-04-03 11:52:29 | [rl2_trainer] epoch #411 | Computing loss after
2025-04-03 11:52:30 | [rl2_trainer] epoch #411 | Saving snapshot...
2025-04-03 11:52:30 | [rl2_trainer] epoch #411 | Saved
2025-04-03 11:52:30 | [rl2_trainer] epoch #411 | Time 79230.97 s
2025-04-03 11:52:30 | [rl2_trainer] epoch #411 | EpochTime 224.46 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.8196
Average/AverageReturn                     -25.2353
Average/Iteration                         411
Average/MaxReturn                          -9.84361
Average/MinReturn                         -55.2464
Average/NumEpisodes                       100
Average/StdReturn                          11.9064
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.89644
TotalEnvSteps                               4.12e+06
__unnamed_task__/AverageDiscountedReturn  -15.8196
__unnamed_task__/AverageReturn            -25.2353
__unnamed_task__/Iteration                411
__unnamed_task__/MaxReturn                 -9.84361
__unnamed_task__/MinReturn                -55.2464
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.9064
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.45953
policy/KL                                   0.0152198
policy/KLBefore                             0
policy/LossAfter                           -0.0286173
policy/LossBefore                          -0.00626997
policy/dLoss                                0.0223474
----------------------------------------  ------------
2025-04-03 11:54:48 | [rl2_trainer] epoch #412 | Optimizing policy...
2025-04-03 11:54:49 | [rl2_trainer] epoch #412 | Fitting baseline...
2025-04-03 11:54:49 | [rl2_trainer] epoch #412 | Computing loss before
2025-04-03 11:54:49 | [rl2_trainer] epoch #412 | Computing KL before
2025-04-03 11:54:50 | [rl2_trainer] epoch #412 | Optimizing
2025-04-03 11:55:24 | [rl2_trainer] epoch #412 | Computing KL after
2025-04-03 11:55:25 | [rl2_trainer] epoch #412 | Computing loss after
2025-04-03 11:55:26 | [rl2_trainer] epoch #412 | Saving snapshot...
2025-04-03 11:55:26 | [rl2_trainer] epoch #412 | Saved
2025-04-03 11:55:26 | [rl2_trainer] epoch #412 | Time 79406.80 s
2025-04-03 11:55:26 | [rl2_trainer] epoch #412 | EpochTime 175.82 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.4486
Average/AverageReturn                     -15.7966
Average/Iteration                         412
Average/MaxReturn                          24.5044
Average/MinReturn                         -29.0993
Average/NumEpisodes                       100
Average/StdReturn                           7.15117
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.357344
TotalEnvSteps                               4.13e+06
__unnamed_task__/AverageDiscountedReturn  -10.4486
__unnamed_task__/AverageReturn            -15.7966
__unnamed_task__/Iteration                412
__unnamed_task__/MaxReturn                 24.5044
__unnamed_task__/MinReturn                -29.0993
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.15117
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.42834
policy/KL                                   0.0133883
policy/KLBefore                             0
policy/LossAfter                           -0.0302439
policy/LossBefore                          -0.00489998
policy/dLoss                                0.0253439
----------------------------------------  ------------
2025-04-03 11:59:09 | [rl2_trainer] epoch #413 | Optimizing policy...
2025-04-03 11:59:09 | [rl2_trainer] epoch #413 | Fitting baseline...
2025-04-03 11:59:09 | [rl2_trainer] epoch #413 | Computing loss before
2025-04-03 11:59:10 | [rl2_trainer] epoch #413 | Computing KL before
2025-04-03 11:59:11 | [rl2_trainer] epoch #413 | Optimizing
2025-04-03 11:59:47 | [rl2_trainer] epoch #413 | Computing KL after
2025-04-03 11:59:47 | [rl2_trainer] epoch #413 | Computing loss after
2025-04-03 11:59:48 | [rl2_trainer] epoch #413 | Saving snapshot...
2025-04-03 11:59:48 | [rl2_trainer] epoch #413 | Saved
2025-04-03 11:59:48 | [rl2_trainer] epoch #413 | Time 79669.21 s
2025-04-03 11:59:48 | [rl2_trainer] epoch #413 | EpochTime 262.41 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -15.0553
Average/AverageReturn                     -23.3348
Average/Iteration                         413
Average/MaxReturn                          21.3605
Average/MinReturn                         -64.3531
Average/NumEpisodes                       100
Average/StdReturn                          13.548
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.783244
TotalEnvSteps                               4.14e+06
__unnamed_task__/AverageDiscountedReturn  -15.0553
__unnamed_task__/AverageReturn            -23.3348
__unnamed_task__/Iteration                413
__unnamed_task__/MaxReturn                 21.3605
__unnamed_task__/MinReturn                -64.3531
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.548
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.42775
policy/KL                                   0.0211517
policy/KLBefore                             0
policy/LossAfter                           -0.0344004
policy/LossBefore                           0.0187157
policy/dLoss                                0.0531161
----------------------------------------  -----------
2025-04-03 12:01:55 | [rl2_trainer] epoch #414 | Optimizing policy...
2025-04-03 12:01:56 | [rl2_trainer] epoch #414 | Fitting baseline...
2025-04-03 12:01:56 | [rl2_trainer] epoch #414 | Computing loss before
2025-04-03 12:01:56 | [rl2_trainer] epoch #414 | Computing KL before
2025-04-03 12:01:57 | [rl2_trainer] epoch #414 | Optimizing
2025-04-03 12:02:33 | [rl2_trainer] epoch #414 | Computing KL after
2025-04-03 12:02:34 | [rl2_trainer] epoch #414 | Computing loss after
2025-04-03 12:02:34 | [rl2_trainer] epoch #414 | Saving snapshot...
2025-04-03 12:02:34 | [rl2_trainer] epoch #414 | Saved
2025-04-03 12:02:34 | [rl2_trainer] epoch #414 | Time 79835.51 s
2025-04-03 12:02:34 | [rl2_trainer] epoch #414 | EpochTime 166.29 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.4301
Average/AverageReturn                     -16.466
Average/Iteration                         414
Average/MaxReturn                          16.0188
Average/MinReturn                         -34.933
Average/NumEpisodes                       100
Average/StdReturn                           5.83532
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.414717
TotalEnvSteps                               4.15e+06
__unnamed_task__/AverageDiscountedReturn  -11.4301
__unnamed_task__/AverageReturn            -16.466
__unnamed_task__/Iteration                414
__unnamed_task__/MaxReturn                 16.0188
__unnamed_task__/MinReturn                -34.933
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.83532
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.42019
policy/KL                                   0.0116794
policy/KLBefore                             0
policy/LossAfter                           -0.026067
policy/LossBefore                          -0.00014689
policy/dLoss                                0.0259201
----------------------------------------  ------------
2025-04-03 12:05:18 | [rl2_trainer] epoch #415 | Optimizing policy...
2025-04-03 12:05:18 | [rl2_trainer] epoch #415 | Fitting baseline...
2025-04-03 12:05:18 | [rl2_trainer] epoch #415 | Computing loss before
2025-04-03 12:05:19 | [rl2_trainer] epoch #415 | Computing KL before
2025-04-03 12:05:19 | [rl2_trainer] epoch #415 | Optimizing
2025-04-03 12:05:55 | [rl2_trainer] epoch #415 | Computing KL after
2025-04-03 12:05:56 | [rl2_trainer] epoch #415 | Computing loss after
2025-04-03 12:05:57 | [rl2_trainer] epoch #415 | Saving snapshot...
2025-04-03 12:05:57 | [rl2_trainer] epoch #415 | Saved
2025-04-03 12:05:57 | [rl2_trainer] epoch #415 | Time 80038.08 s
2025-04-03 12:05:57 | [rl2_trainer] epoch #415 | EpochTime 202.56 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.5868
Average/AverageReturn                     -24.6473
Average/Iteration                         415
Average/MaxReturn                          -7.38227
Average/MinReturn                         -53.9744
Average/NumEpisodes                       100
Average/StdReturn                          10.8449
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.871047
TotalEnvSteps                               4.16e+06
__unnamed_task__/AverageDiscountedReturn  -15.5868
__unnamed_task__/AverageReturn            -24.6473
__unnamed_task__/Iteration                415
__unnamed_task__/MaxReturn                 -7.38227
__unnamed_task__/MinReturn                -53.9744
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.8449
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.40749
policy/KL                                   0.0116247
policy/KLBefore                             0
policy/LossAfter                           -0.0341335
policy/LossBefore                          -0.00304935
policy/dLoss                                0.0310841
----------------------------------------  ------------
2025-04-03 12:07:54 | [rl2_trainer] epoch #416 | Optimizing policy...
2025-04-03 12:07:55 | [rl2_trainer] epoch #416 | Fitting baseline...
2025-04-03 12:07:55 | [rl2_trainer] epoch #416 | Computing loss before
2025-04-03 12:07:55 | [rl2_trainer] epoch #416 | Computing KL before
2025-04-03 12:07:56 | [rl2_trainer] epoch #416 | Optimizing
2025-04-03 12:08:32 | [rl2_trainer] epoch #416 | Computing KL after
2025-04-03 12:08:32 | [rl2_trainer] epoch #416 | Computing loss after
2025-04-03 12:08:33 | [rl2_trainer] epoch #416 | Saving snapshot...
2025-04-03 12:08:33 | [rl2_trainer] epoch #416 | Saved
2025-04-03 12:08:33 | [rl2_trainer] epoch #416 | Time 80194.37 s
2025-04-03 12:08:33 | [rl2_trainer] epoch #416 | EpochTime 156.29 s
----------------------------------------  -----------
Average/AverageDiscountedReturn            -9.6365
Average/AverageReturn                     -13.8894
Average/Iteration                         416
Average/MaxReturn                          31.6493
Average/MinReturn                         -32.7051
Average/NumEpisodes                       100
Average/StdReturn                           9.85396
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.364622
TotalEnvSteps                               4.17e+06
__unnamed_task__/AverageDiscountedReturn   -9.6365
__unnamed_task__/AverageReturn            -13.8894
__unnamed_task__/Iteration                416
__unnamed_task__/MaxReturn                 31.6493
__unnamed_task__/MinReturn                -32.7051
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.85396
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.39898
policy/KL                                   0.0160433
policy/KLBefore                             0
policy/LossAfter                           -0.0248624
policy/LossBefore                           0.0141815
policy/dLoss                                0.0390439
----------------------------------------  -----------
2025-04-03 12:10:00 | [rl2_trainer] epoch #417 | Optimizing policy...
2025-04-03 12:10:00 | [rl2_trainer] epoch #417 | Fitting baseline...
2025-04-03 12:10:00 | [rl2_trainer] epoch #417 | Computing loss before
2025-04-03 12:10:01 | [rl2_trainer] epoch #417 | Computing KL before
2025-04-03 12:10:01 | [rl2_trainer] epoch #417 | Optimizing
2025-04-03 12:10:38 | [rl2_trainer] epoch #417 | Computing KL after
2025-04-03 12:10:39 | [rl2_trainer] epoch #417 | Computing loss after
2025-04-03 12:10:40 | [rl2_trainer] epoch #417 | Saving snapshot...
2025-04-03 12:10:40 | [rl2_trainer] epoch #417 | Saved
2025-04-03 12:10:40 | [rl2_trainer] epoch #417 | Time 80320.64 s
2025-04-03 12:10:40 | [rl2_trainer] epoch #417 | EpochTime 126.27 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.8572
Average/AverageReturn                     -16.2288
Average/Iteration                         417
Average/MaxReturn                           5.76996
Average/MinReturn                         -23.6832
Average/NumEpisodes                       100
Average/StdReturn                           3.96186
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.47856
TotalEnvSteps                               4.18e+06
__unnamed_task__/AverageDiscountedReturn  -10.8572
__unnamed_task__/AverageReturn            -16.2288
__unnamed_task__/Iteration                417
__unnamed_task__/MaxReturn                  5.76996
__unnamed_task__/MinReturn                -23.6832
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  3.96186
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.39061
policy/KL                                   0.0142049
policy/KLBefore                             0
policy/LossAfter                           -0.0161126
policy/LossBefore                          -0.00215207
policy/dLoss                                0.0139606
----------------------------------------  ------------
2025-04-03 12:14:24 | [rl2_trainer] epoch #418 | Optimizing policy...
2025-04-03 12:14:24 | [rl2_trainer] epoch #418 | Fitting baseline...
2025-04-03 12:14:24 | [rl2_trainer] epoch #418 | Computing loss before
2025-04-03 12:14:25 | [rl2_trainer] epoch #418 | Computing KL before
2025-04-03 12:14:25 | [rl2_trainer] epoch #418 | Optimizing
2025-04-03 12:15:01 | [rl2_trainer] epoch #418 | Computing KL after
2025-04-03 12:15:02 | [rl2_trainer] epoch #418 | Computing loss after
2025-04-03 12:15:03 | [rl2_trainer] epoch #418 | Saving snapshot...
2025-04-03 12:15:03 | [rl2_trainer] epoch #418 | Saved
2025-04-03 12:15:03 | [rl2_trainer] epoch #418 | Time 80583.83 s
2025-04-03 12:15:03 | [rl2_trainer] epoch #418 | EpochTime 263.19 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.5481
Average/AverageReturn                     -26.243
Average/Iteration                         418
Average/MaxReturn                         -11.1322
Average/MinReturn                         -55.151
Average/NumEpisodes                       100
Average/StdReturn                          10.8981
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.883193
TotalEnvSteps                               4.19e+06
__unnamed_task__/AverageDiscountedReturn  -16.5481
__unnamed_task__/AverageReturn            -26.243
__unnamed_task__/Iteration                418
__unnamed_task__/MaxReturn                -11.1322
__unnamed_task__/MinReturn                -55.151
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.8981
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.37849
policy/KL                                   0.01345
policy/KLBefore                             0
policy/LossAfter                           -0.0295516
policy/LossBefore                          -0.00613619
policy/dLoss                                0.0234154
----------------------------------------  ------------
2025-04-03 12:18:01 | [rl2_trainer] epoch #419 | Optimizing policy...
2025-04-03 12:18:01 | [rl2_trainer] epoch #419 | Fitting baseline...
2025-04-03 12:18:01 | [rl2_trainer] epoch #419 | Computing loss before
2025-04-03 12:18:02 | [rl2_trainer] epoch #419 | Computing KL before
2025-04-03 12:18:03 | [rl2_trainer] epoch #419 | Optimizing
2025-04-03 12:18:38 | [rl2_trainer] epoch #419 | Computing KL after
2025-04-03 12:18:38 | [rl2_trainer] epoch #419 | Computing loss after
2025-04-03 12:18:39 | [rl2_trainer] epoch #419 | Saving snapshot...
2025-04-03 12:18:39 | [rl2_trainer] epoch #419 | Saved
2025-04-03 12:18:39 | [rl2_trainer] epoch #419 | Time 80800.13 s
2025-04-03 12:18:39 | [rl2_trainer] epoch #419 | EpochTime 216.29 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.9452
Average/AverageReturn                     -16.1116
Average/Iteration                         419
Average/MaxReturn                           5.47186
Average/MinReturn                         -42.2425
Average/NumEpisodes                       100
Average/StdReturn                           5.3772
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.575021
TotalEnvSteps                               4.2e+06
__unnamed_task__/AverageDiscountedReturn  -10.9452
__unnamed_task__/AverageReturn            -16.1116
__unnamed_task__/Iteration                419
__unnamed_task__/MaxReturn                  5.47186
__unnamed_task__/MinReturn                -42.2425
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.3772
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.3539
policy/KL                                   0.0136889
policy/KLBefore                             0
policy/LossAfter                           -0.0088574
policy/LossBefore                           0.00523721
policy/dLoss                                0.0140946
----------------------------------------  ------------
2025-04-03 12:21:57 | [rl2_trainer] epoch #420 | Optimizing policy...
2025-04-03 12:21:58 | [rl2_trainer] epoch #420 | Fitting baseline...
2025-04-03 12:21:58 | [rl2_trainer] epoch #420 | Computing loss before
2025-04-03 12:21:58 | [rl2_trainer] epoch #420 | Computing KL before
2025-04-03 12:21:59 | [rl2_trainer] epoch #420 | Optimizing
2025-04-03 12:22:34 | [rl2_trainer] epoch #420 | Computing KL after
2025-04-03 12:22:35 | [rl2_trainer] epoch #420 | Computing loss after
2025-04-03 12:22:36 | [rl2_trainer] epoch #420 | Saving snapshot...
2025-04-03 12:22:36 | [rl2_trainer] epoch #420 | Saved
2025-04-03 12:22:36 | [rl2_trainer] epoch #420 | Time 81036.75 s
2025-04-03 12:22:36 | [rl2_trainer] epoch #420 | EpochTime 236.62 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -16.4088
Average/AverageReturn                     -25.9621
Average/Iteration                         420
Average/MaxReturn                          -5.04454
Average/MinReturn                         -84.2347
Average/NumEpisodes                       100
Average/StdReturn                          13.1904
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.906338
TotalEnvSteps                               4.21e+06
__unnamed_task__/AverageDiscountedReturn  -16.4088
__unnamed_task__/AverageReturn            -25.9621
__unnamed_task__/Iteration                420
__unnamed_task__/MaxReturn                 -5.04454
__unnamed_task__/MinReturn                -84.2347
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.1904
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.33448
policy/KL                                   0.0152121
policy/KLBefore                             0
policy/LossAfter                           -0.0325064
policy/LossBefore                           0.000305183
policy/dLoss                                0.0328116
----------------------------------------  -------------
2025-04-03 12:25:04 | [rl2_trainer] epoch #421 | Optimizing policy...
2025-04-03 12:25:04 | [rl2_trainer] epoch #421 | Fitting baseline...
2025-04-03 12:25:04 | [rl2_trainer] epoch #421 | Computing loss before
2025-04-03 12:25:05 | [rl2_trainer] epoch #421 | Computing KL before
2025-04-03 12:25:05 | [rl2_trainer] epoch #421 | Optimizing
2025-04-03 12:25:42 | [rl2_trainer] epoch #421 | Computing KL after
2025-04-03 12:25:42 | [rl2_trainer] epoch #421 | Computing loss after
2025-04-03 12:25:43 | [rl2_trainer] epoch #421 | Saving snapshot...
2025-04-03 12:25:43 | [rl2_trainer] epoch #421 | Saved
2025-04-03 12:25:43 | [rl2_trainer] epoch #421 | Time 81224.07 s
2025-04-03 12:25:43 | [rl2_trainer] epoch #421 | EpochTime 187.32 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.3913
Average/AverageReturn                     -15.3377
Average/Iteration                         421
Average/MaxReturn                           5.4778
Average/MinReturn                         -22.4828
Average/NumEpisodes                       100
Average/StdReturn                           4.16018
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.419154
TotalEnvSteps                               4.22e+06
__unnamed_task__/AverageDiscountedReturn  -10.3913
__unnamed_task__/AverageReturn            -15.3377
__unnamed_task__/Iteration                421
__unnamed_task__/MaxReturn                  5.4778
__unnamed_task__/MinReturn                -22.4828
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.16018
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.32552
policy/KL                                   0.0121808
policy/KLBefore                             0
policy/LossAfter                           -0.0188396
policy/LossBefore                          -0.00231292
policy/dLoss                                0.0165266
----------------------------------------  ------------
2025-04-03 12:28:16 | [rl2_trainer] epoch #422 | Optimizing policy...
2025-04-03 12:28:17 | [rl2_trainer] epoch #422 | Fitting baseline...
2025-04-03 12:28:17 | [rl2_trainer] epoch #422 | Computing loss before
2025-04-03 12:28:17 | [rl2_trainer] epoch #422 | Computing KL before
2025-04-03 12:28:18 | [rl2_trainer] epoch #422 | Optimizing
2025-04-03 12:28:54 | [rl2_trainer] epoch #422 | Computing KL after
2025-04-03 12:28:55 | [rl2_trainer] epoch #422 | Computing loss after
2025-04-03 12:28:56 | [rl2_trainer] epoch #422 | Saving snapshot...
2025-04-03 12:28:56 | [rl2_trainer] epoch #422 | Saved
2025-04-03 12:28:56 | [rl2_trainer] epoch #422 | Time 81416.94 s
2025-04-03 12:28:56 | [rl2_trainer] epoch #422 | EpochTime 192.87 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.173
Average/AverageReturn                     -24.2655
Average/Iteration                         422
Average/MaxReturn                           4.74031
Average/MinReturn                         -55.8566
Average/NumEpisodes                       100
Average/StdReturn                          12.081
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.819641
TotalEnvSteps                               4.23e+06
__unnamed_task__/AverageDiscountedReturn  -15.173
__unnamed_task__/AverageReturn            -24.2655
__unnamed_task__/Iteration                422
__unnamed_task__/MaxReturn                  4.74031
__unnamed_task__/MinReturn                -55.8566
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.081
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.33175
policy/KL                                   0.0211495
policy/KLBefore                             0
policy/LossAfter                           -0.0474543
policy/LossBefore                           0.00180556
policy/dLoss                                0.0492599
----------------------------------------  ------------
2025-04-03 12:32:57 | [rl2_trainer] epoch #423 | Optimizing policy...
2025-04-03 12:32:57 | [rl2_trainer] epoch #423 | Fitting baseline...
2025-04-03 12:32:57 | [rl2_trainer] epoch #423 | Computing loss before
2025-04-03 12:32:58 | [rl2_trainer] epoch #423 | Computing KL before
2025-04-03 12:32:59 | [rl2_trainer] epoch #423 | Optimizing
2025-04-03 12:33:33 | [rl2_trainer] epoch #423 | Computing KL after
2025-04-03 12:33:33 | [rl2_trainer] epoch #423 | Computing loss after
2025-04-03 12:33:34 | [rl2_trainer] epoch #423 | Saving snapshot...
2025-04-03 12:33:34 | [rl2_trainer] epoch #423 | Saved
2025-04-03 12:33:34 | [rl2_trainer] epoch #423 | Time 81695.29 s
2025-04-03 12:33:34 | [rl2_trainer] epoch #423 | EpochTime 278.35 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -15.9659
Average/AverageReturn                     -25.4023
Average/Iteration                         423
Average/MaxReturn                          -8.09956
Average/MinReturn                         -59.9942
Average/NumEpisodes                       100
Average/StdReturn                          11.9047
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.874605
TotalEnvSteps                               4.24e+06
__unnamed_task__/AverageDiscountedReturn  -15.9659
__unnamed_task__/AverageReturn            -25.4023
__unnamed_task__/Iteration                423
__unnamed_task__/MaxReturn                 -8.09956
__unnamed_task__/MinReturn                -59.9942
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.9047
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.34315
policy/KL                                   0.0155926
policy/KLBefore                             0
policy/LossAfter                           -0.0433847
policy/LossBefore                          -0.000778847
policy/dLoss                                0.0426058
----------------------------------------  -------------
2025-04-03 12:35:42 | [rl2_trainer] epoch #424 | Optimizing policy...
2025-04-03 12:35:42 | [rl2_trainer] epoch #424 | Fitting baseline...
2025-04-03 12:35:42 | [rl2_trainer] epoch #424 | Computing loss before
2025-04-03 12:35:43 | [rl2_trainer] epoch #424 | Computing KL before
2025-04-03 12:35:43 | [rl2_trainer] epoch #424 | Optimizing
2025-04-03 12:36:19 | [rl2_trainer] epoch #424 | Computing KL after
2025-04-03 12:36:20 | [rl2_trainer] epoch #424 | Computing loss after
2025-04-03 12:36:21 | [rl2_trainer] epoch #424 | Saving snapshot...
2025-04-03 12:36:21 | [rl2_trainer] epoch #424 | Saved
2025-04-03 12:36:21 | [rl2_trainer] epoch #424 | Time 81861.96 s
2025-04-03 12:36:21 | [rl2_trainer] epoch #424 | EpochTime 166.67 s
----------------------------------------  -------------
Average/AverageDiscountedReturn            -9.20549
Average/AverageReturn                     -12.7385
Average/Iteration                         424
Average/MaxReturn                          31.5773
Average/MinReturn                         -72.7726
Average/NumEpisodes                       100
Average/StdReturn                          10.0315
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.418572
TotalEnvSteps                               4.25e+06
__unnamed_task__/AverageDiscountedReturn   -9.20549
__unnamed_task__/AverageReturn            -12.7385
__unnamed_task__/Iteration                424
__unnamed_task__/MaxReturn                 31.5773
__unnamed_task__/MinReturn                -72.7726
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.0315
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.32969
policy/KL                                   0.0181457
policy/KLBefore                             0
policy/LossAfter                           -0.0358359
policy/LossBefore                           0.000851478
policy/dLoss                                0.0366874
----------------------------------------  -------------
2025-04-03 12:40:03 | [rl2_trainer] epoch #425 | Optimizing policy...
2025-04-03 12:40:03 | [rl2_trainer] epoch #425 | Fitting baseline...
2025-04-03 12:40:03 | [rl2_trainer] epoch #425 | Computing loss before
2025-04-03 12:40:04 | [rl2_trainer] epoch #425 | Computing KL before
2025-04-03 12:40:04 | [rl2_trainer] epoch #425 | Optimizing
2025-04-03 12:40:40 | [rl2_trainer] epoch #425 | Computing KL after
2025-04-03 12:40:41 | [rl2_trainer] epoch #425 | Computing loss after
2025-04-03 12:40:42 | [rl2_trainer] epoch #425 | Saving snapshot...
2025-04-03 12:40:42 | [rl2_trainer] epoch #425 | Saved
2025-04-03 12:40:42 | [rl2_trainer] epoch #425 | Time 82122.60 s
2025-04-03 12:40:42 | [rl2_trainer] epoch #425 | EpochTime 260.64 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.6403
Average/AverageReturn                     -24.554
Average/Iteration                         425
Average/MaxReturn                          10.7199
Average/MinReturn                         -67.8633
Average/NumEpisodes                       100
Average/StdReturn                          14.6092
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.896007
TotalEnvSteps                               4.26e+06
__unnamed_task__/AverageDiscountedReturn  -15.6403
__unnamed_task__/AverageReturn            -24.554
__unnamed_task__/Iteration                425
__unnamed_task__/MaxReturn                 10.7199
__unnamed_task__/MinReturn                -67.8633
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 14.6092
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.31722
policy/KL                                   0.0166908
policy/KLBefore                             0
policy/LossAfter                           -0.0455059
policy/LossBefore                          -0.00731333
policy/dLoss                                0.0381926
----------------------------------------  ------------
2025-04-03 12:44:35 | [rl2_trainer] epoch #426 | Optimizing policy...
2025-04-03 12:44:35 | [rl2_trainer] epoch #426 | Fitting baseline...
2025-04-03 12:44:35 | [rl2_trainer] epoch #426 | Computing loss before
2025-04-03 12:44:36 | [rl2_trainer] epoch #426 | Computing KL before
2025-04-03 12:44:37 | [rl2_trainer] epoch #426 | Optimizing
2025-04-03 12:45:11 | [rl2_trainer] epoch #426 | Computing KL after
2025-04-03 12:45:12 | [rl2_trainer] epoch #426 | Computing loss after
2025-04-03 12:45:13 | [rl2_trainer] epoch #426 | Saving snapshot...
2025-04-03 12:45:13 | [rl2_trainer] epoch #426 | Saved
2025-04-03 12:45:13 | [rl2_trainer] epoch #426 | Time 82393.96 s
2025-04-03 12:45:13 | [rl2_trainer] epoch #426 | EpochTime 271.36 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.3177
Average/AverageReturn                     -23.7346
Average/Iteration                         426
Average/MaxReturn                          30.4664
Average/MinReturn                         -59.6743
Average/NumEpisodes                       100
Average/StdReturn                          15.5816
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.858018
TotalEnvSteps                               4.27e+06
__unnamed_task__/AverageDiscountedReturn  -15.3177
__unnamed_task__/AverageReturn            -23.7346
__unnamed_task__/Iteration                426
__unnamed_task__/MaxReturn                 30.4664
__unnamed_task__/MinReturn                -59.6743
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 15.5816
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.31972
policy/KL                                   0.018018
policy/KLBefore                             0
policy/LossAfter                           -0.049209
policy/LossBefore                           0.00844348
policy/dLoss                                0.0576525
----------------------------------------  ------------
2025-04-03 12:47:32 | [rl2_trainer] epoch #427 | Optimizing policy...
2025-04-03 12:47:32 | [rl2_trainer] epoch #427 | Fitting baseline...
2025-04-03 12:47:32 | [rl2_trainer] epoch #427 | Computing loss before
2025-04-03 12:47:32 | [rl2_trainer] epoch #427 | Computing KL before
2025-04-03 12:47:33 | [rl2_trainer] epoch #427 | Optimizing
2025-04-03 12:48:09 | [rl2_trainer] epoch #427 | Computing KL after
2025-04-03 12:48:09 | [rl2_trainer] epoch #427 | Computing loss after
2025-04-03 12:48:10 | [rl2_trainer] epoch #427 | Saving snapshot...
2025-04-03 12:48:10 | [rl2_trainer] epoch #427 | Saved
2025-04-03 12:48:10 | [rl2_trainer] epoch #427 | Time 82571.25 s
2025-04-03 12:48:10 | [rl2_trainer] epoch #427 | EpochTime 177.29 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.844
Average/AverageReturn                     -25.2225
Average/Iteration                         427
Average/MaxReturn                           8.30007
Average/MinReturn                         -54.8584
Average/NumEpisodes                       100
Average/StdReturn                          11.5505
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.848697
TotalEnvSteps                               4.28e+06
__unnamed_task__/AverageDiscountedReturn  -15.844
__unnamed_task__/AverageReturn            -25.2225
__unnamed_task__/Iteration                427
__unnamed_task__/MaxReturn                  8.30007
__unnamed_task__/MinReturn                -54.8584
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.5505
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.3052
policy/KL                                   0.0152721
policy/KLBefore                             0
policy/LossAfter                           -0.046003
policy/LossBefore                          -0.00534883
policy/dLoss                                0.0406542
----------------------------------------  ------------
2025-04-03 12:51:42 | [rl2_trainer] epoch #428 | Optimizing policy...
2025-04-03 12:51:42 | [rl2_trainer] epoch #428 | Fitting baseline...
2025-04-03 12:51:42 | [rl2_trainer] epoch #428 | Computing loss before
2025-04-03 12:51:42 | [rl2_trainer] epoch #428 | Computing KL before
2025-04-03 12:51:43 | [rl2_trainer] epoch #428 | Optimizing
2025-04-03 12:52:18 | [rl2_trainer] epoch #428 | Computing KL after
2025-04-03 12:52:19 | [rl2_trainer] epoch #428 | Computing loss after
2025-04-03 12:52:20 | [rl2_trainer] epoch #428 | Saving snapshot...
2025-04-03 12:52:20 | [rl2_trainer] epoch #428 | Saved
2025-04-03 12:52:20 | [rl2_trainer] epoch #428 | Time 82820.72 s
2025-04-03 12:52:20 | [rl2_trainer] epoch #428 | EpochTime 249.46 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -15.5197
Average/AverageReturn                     -24.4897
Average/Iteration                         428
Average/MaxReturn                          40.5327
Average/MinReturn                         -62.1192
Average/NumEpisodes                       100
Average/StdReturn                          13.3695
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.845184
TotalEnvSteps                               4.29e+06
__unnamed_task__/AverageDiscountedReturn  -15.5197
__unnamed_task__/AverageReturn            -24.4897
__unnamed_task__/Iteration                428
__unnamed_task__/MaxReturn                 40.5327
__unnamed_task__/MinReturn                -62.1192
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.3695
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.2937
policy/KL                                   0.0177771
policy/KLBefore                             0
policy/LossAfter                           -0.0619607
policy/LossBefore                          -0.0102201
policy/dLoss                                0.0517405
----------------------------------------  -----------
2025-04-03 12:54:17 | [rl2_trainer] epoch #429 | Optimizing policy...
2025-04-03 12:54:17 | [rl2_trainer] epoch #429 | Fitting baseline...
2025-04-03 12:54:17 | [rl2_trainer] epoch #429 | Computing loss before
2025-04-03 12:54:18 | [rl2_trainer] epoch #429 | Computing KL before
2025-04-03 12:54:18 | [rl2_trainer] epoch #429 | Optimizing
2025-04-03 12:54:54 | [rl2_trainer] epoch #429 | Computing KL after
2025-04-03 12:54:55 | [rl2_trainer] epoch #429 | Computing loss after
2025-04-03 12:54:56 | [rl2_trainer] epoch #429 | Saving snapshot...
2025-04-03 12:54:56 | [rl2_trainer] epoch #429 | Saved
2025-04-03 12:54:56 | [rl2_trainer] epoch #429 | Time 82976.62 s
2025-04-03 12:54:56 | [rl2_trainer] epoch #429 | EpochTime 155.91 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.055
Average/AverageReturn                     -14.7194
Average/Iteration                         429
Average/MaxReturn                          21.1163
Average/MinReturn                         -30.1032
Average/NumEpisodes                       100
Average/StdReturn                           7.9637
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.433838
TotalEnvSteps                               4.3e+06
__unnamed_task__/AverageDiscountedReturn  -10.055
__unnamed_task__/AverageReturn            -14.7194
__unnamed_task__/Iteration                429
__unnamed_task__/MaxReturn                 21.1163
__unnamed_task__/MinReturn                -30.1032
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.9637
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.2932
policy/KL                                   0.0130618
policy/KLBefore                             0
policy/LossAfter                           -0.0272396
policy/LossBefore                           0.00953324
policy/dLoss                                0.0367728
----------------------------------------  ------------
2025-04-03 12:56:22 | [rl2_trainer] epoch #430 | Optimizing policy...
2025-04-03 12:56:22 | [rl2_trainer] epoch #430 | Fitting baseline...
2025-04-03 12:56:22 | [rl2_trainer] epoch #430 | Computing loss before
2025-04-03 12:56:23 | [rl2_trainer] epoch #430 | Computing KL before
2025-04-03 12:56:23 | [rl2_trainer] epoch #430 | Optimizing
2025-04-03 12:56:59 | [rl2_trainer] epoch #430 | Computing KL after
2025-04-03 12:56:59 | [rl2_trainer] epoch #430 | Computing loss after
2025-04-03 12:57:00 | [rl2_trainer] epoch #430 | Saving snapshot...
2025-04-03 12:57:00 | [rl2_trainer] epoch #430 | Saved
2025-04-03 12:57:00 | [rl2_trainer] epoch #430 | Time 83101.13 s
2025-04-03 12:57:00 | [rl2_trainer] epoch #430 | EpochTime 124.51 s
----------------------------------------  -----------
Average/AverageDiscountedReturn            -8.65512
Average/AverageReturn                     -12.9865
Average/Iteration                         430
Average/MaxReturn                          38.1435
Average/MinReturn                         -25.287
Average/NumEpisodes                       100
Average/StdReturn                          10.3617
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.357415
TotalEnvSteps                               4.31e+06
__unnamed_task__/AverageDiscountedReturn   -8.65512
__unnamed_task__/AverageReturn            -12.9865
__unnamed_task__/Iteration                430
__unnamed_task__/MaxReturn                 38.1435
__unnamed_task__/MinReturn                -25.287
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.3617
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.25315
policy/KL                                   0.0243233
policy/KLBefore                             0
policy/LossAfter                           -0.0587116
policy/LossBefore                          -0.0108696
policy/dLoss                                0.047842
----------------------------------------  -----------
2025-04-03 13:00:01 | [rl2_trainer] epoch #431 | Optimizing policy...
2025-04-03 13:00:01 | [rl2_trainer] epoch #431 | Fitting baseline...
2025-04-03 13:00:01 | [rl2_trainer] epoch #431 | Computing loss before
2025-04-03 13:00:02 | [rl2_trainer] epoch #431 | Computing KL before
2025-04-03 13:00:02 | [rl2_trainer] epoch #431 | Optimizing
2025-04-03 13:00:38 | [rl2_trainer] epoch #431 | Computing KL after
2025-04-03 13:00:38 | [rl2_trainer] epoch #431 | Computing loss after
2025-04-03 13:00:39 | [rl2_trainer] epoch #431 | Saving snapshot...
2025-04-03 13:00:39 | [rl2_trainer] epoch #431 | Saved
2025-04-03 13:00:39 | [rl2_trainer] epoch #431 | Time 83320.11 s
2025-04-03 13:00:39 | [rl2_trainer] epoch #431 | EpochTime 218.98 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -10.8648
Average/AverageReturn                     -16.1776
Average/Iteration                         431
Average/MaxReturn                           7.50893
Average/MinReturn                         -31.9985
Average/NumEpisodes                       100
Average/StdReturn                           4.99765
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.294105
TotalEnvSteps                               4.32e+06
__unnamed_task__/AverageDiscountedReturn  -10.8648
__unnamed_task__/AverageReturn            -16.1776
__unnamed_task__/Iteration                431
__unnamed_task__/MaxReturn                  7.50893
__unnamed_task__/MinReturn                -31.9985
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.99765
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.23042
policy/KL                                   0.0149525
policy/KLBefore                             0
policy/LossAfter                           -0.0187212
policy/LossBefore                          -0.0061084
policy/dLoss                                0.0126128
----------------------------------------  -----------
2025-04-03 13:04:05 | [rl2_trainer] epoch #432 | Optimizing policy...
2025-04-03 13:04:06 | [rl2_trainer] epoch #432 | Fitting baseline...
2025-04-03 13:04:06 | [rl2_trainer] epoch #432 | Computing loss before
2025-04-03 13:04:06 | [rl2_trainer] epoch #432 | Computing KL before
2025-04-03 13:04:07 | [rl2_trainer] epoch #432 | Optimizing
2025-04-03 13:04:41 | [rl2_trainer] epoch #432 | Computing KL after
2025-04-03 13:04:41 | [rl2_trainer] epoch #432 | Computing loss after
2025-04-03 13:04:42 | [rl2_trainer] epoch #432 | Saving snapshot...
2025-04-03 13:04:42 | [rl2_trainer] epoch #432 | Saved
2025-04-03 13:04:42 | [rl2_trainer] epoch #432 | Time 83563.01 s
2025-04-03 13:04:42 | [rl2_trainer] epoch #432 | EpochTime 242.90 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.8459
Average/AverageReturn                     -25.5847
Average/Iteration                         432
Average/MaxReturn                           4.08694
Average/MinReturn                         -60.7323
Average/NumEpisodes                       100
Average/StdReturn                          12.4063
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.864192
TotalEnvSteps                               4.33e+06
__unnamed_task__/AverageDiscountedReturn  -15.8459
__unnamed_task__/AverageReturn            -25.5847
__unnamed_task__/Iteration                432
__unnamed_task__/MaxReturn                  4.08694
__unnamed_task__/MinReturn                -60.7323
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.4063
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.21098
policy/KL                                   0.0154369
policy/KLBefore                             0
policy/LossAfter                           -0.0442628
policy/LossBefore                          -0.00538268
policy/dLoss                                0.0388801
----------------------------------------  ------------
2025-04-03 13:06:59 | [rl2_trainer] epoch #433 | Optimizing policy...
2025-04-03 13:07:00 | [rl2_trainer] epoch #433 | Fitting baseline...
2025-04-03 13:07:00 | [rl2_trainer] epoch #433 | Computing loss before
2025-04-03 13:07:00 | [rl2_trainer] epoch #433 | Computing KL before
2025-04-03 13:07:01 | [rl2_trainer] epoch #433 | Optimizing
2025-04-03 13:07:36 | [rl2_trainer] epoch #433 | Computing KL after
2025-04-03 13:07:37 | [rl2_trainer] epoch #433 | Computing loss after
2025-04-03 13:07:38 | [rl2_trainer] epoch #433 | Saving snapshot...
2025-04-03 13:07:38 | [rl2_trainer] epoch #433 | Saved
2025-04-03 13:07:38 | [rl2_trainer] epoch #433 | Time 83738.55 s
2025-04-03 13:07:38 | [rl2_trainer] epoch #433 | EpochTime 175.53 s
----------------------------------------  -----------
Average/AverageDiscountedReturn            -9.29621
Average/AverageReturn                     -14.202
Average/Iteration                         433
Average/MaxReturn                          21.4886
Average/MinReturn                         -25.4953
Average/NumEpisodes                       100
Average/StdReturn                           8.39646
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.408503
TotalEnvSteps                               4.34e+06
__unnamed_task__/AverageDiscountedReturn   -9.29621
__unnamed_task__/AverageReturn            -14.202
__unnamed_task__/Iteration                433
__unnamed_task__/MaxReturn                 21.4886
__unnamed_task__/MinReturn                -25.4953
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.39646
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.19772
policy/KL                                   0.0168702
policy/KLBefore                             0
policy/LossAfter                           -0.0240076
policy/LossBefore                           0.0126324
policy/dLoss                                0.0366399
----------------------------------------  -----------
2025-04-03 13:11:26 | [rl2_trainer] epoch #434 | Optimizing policy...
2025-04-03 13:11:27 | [rl2_trainer] epoch #434 | Fitting baseline...
2025-04-03 13:11:27 | [rl2_trainer] epoch #434 | Computing loss before
2025-04-03 13:11:27 | [rl2_trainer] epoch #434 | Computing KL before
2025-04-03 13:11:28 | [rl2_trainer] epoch #434 | Optimizing
2025-04-03 13:12:04 | [rl2_trainer] epoch #434 | Computing KL after
2025-04-03 13:12:04 | [rl2_trainer] epoch #434 | Computing loss after
2025-04-03 13:12:05 | [rl2_trainer] epoch #434 | Saving snapshot...
2025-04-03 13:12:05 | [rl2_trainer] epoch #434 | Saved
2025-04-03 13:12:05 | [rl2_trainer] epoch #434 | Time 84006.36 s
2025-04-03 13:12:05 | [rl2_trainer] epoch #434 | EpochTime 267.81 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.891
Average/AverageReturn                     -23.361
Average/Iteration                         434
Average/MaxReturn                           3.75757
Average/MinReturn                         -82.6869
Average/NumEpisodes                       100
Average/StdReturn                          12.0777
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.854286
TotalEnvSteps                               4.35e+06
__unnamed_task__/AverageDiscountedReturn  -14.891
__unnamed_task__/AverageReturn            -23.361
__unnamed_task__/Iteration                434
__unnamed_task__/MaxReturn                  3.75757
__unnamed_task__/MinReturn                -82.6869
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.0777
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.2001
policy/KL                                   0.0148485
policy/KLBefore                             0
policy/LossAfter                           -0.0378268
policy/LossBefore                          -0.00182355
policy/dLoss                                0.0360032
----------------------------------------  ------------
2025-04-03 13:14:01 | [rl2_trainer] epoch #435 | Optimizing policy...
2025-04-03 13:14:02 | [rl2_trainer] epoch #435 | Fitting baseline...
2025-04-03 13:14:02 | [rl2_trainer] epoch #435 | Computing loss before
2025-04-03 13:14:02 | [rl2_trainer] epoch #435 | Computing KL before
2025-04-03 13:14:03 | [rl2_trainer] epoch #435 | Optimizing
2025-04-03 13:14:39 | [rl2_trainer] epoch #435 | Computing KL after
2025-04-03 13:14:40 | [rl2_trainer] epoch #435 | Computing loss after
2025-04-03 13:14:41 | [rl2_trainer] epoch #435 | Saving snapshot...
2025-04-03 13:14:41 | [rl2_trainer] epoch #435 | Saved
2025-04-03 13:14:41 | [rl2_trainer] epoch #435 | Time 84161.95 s
2025-04-03 13:14:41 | [rl2_trainer] epoch #435 | EpochTime 155.59 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.6516
Average/AverageReturn                     -15.4833
Average/Iteration                         435
Average/MaxReturn                          20.706
Average/MinReturn                         -29.019
Average/NumEpisodes                       100
Average/StdReturn                           7.03809
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.481875
TotalEnvSteps                               4.36e+06
__unnamed_task__/AverageDiscountedReturn  -10.6516
__unnamed_task__/AverageReturn            -15.4833
__unnamed_task__/Iteration                435
__unnamed_task__/MaxReturn                 20.706
__unnamed_task__/MinReturn                -29.019
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.03809
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.18855
policy/KL                                   0.0138128
policy/KLBefore                             0
policy/LossAfter                           -0.0367789
policy/LossBefore                          -0.00690446
policy/dLoss                                0.0298745
----------------------------------------  ------------
2025-04-03 13:18:21 | [rl2_trainer] epoch #436 | Optimizing policy...
2025-04-03 13:18:22 | [rl2_trainer] epoch #436 | Fitting baseline...
2025-04-03 13:18:22 | [rl2_trainer] epoch #436 | Computing loss before
2025-04-03 13:18:22 | [rl2_trainer] epoch #436 | Computing KL before
2025-04-03 13:18:23 | [rl2_trainer] epoch #436 | Optimizing
2025-04-03 13:18:59 | [rl2_trainer] epoch #436 | Computing KL after
2025-04-03 13:18:59 | [rl2_trainer] epoch #436 | Computing loss after
2025-04-03 13:19:00 | [rl2_trainer] epoch #436 | Saving snapshot...
2025-04-03 13:19:00 | [rl2_trainer] epoch #436 | Saved
2025-04-03 13:19:00 | [rl2_trainer] epoch #436 | Time 84421.21 s
2025-04-03 13:19:00 | [rl2_trainer] epoch #436 | EpochTime 259.26 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.6807
Average/AverageReturn                     -24.6872
Average/Iteration                         436
Average/MaxReturn                         -10.5491
Average/MinReturn                         -64.4271
Average/NumEpisodes                       100
Average/StdReturn                          11.5977
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.850467
TotalEnvSteps                               4.37e+06
__unnamed_task__/AverageDiscountedReturn  -15.6807
__unnamed_task__/AverageReturn            -24.6872
__unnamed_task__/Iteration                436
__unnamed_task__/MaxReturn                -10.5491
__unnamed_task__/MinReturn                -64.4271
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.5977
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.17382
policy/KL                                   0.0158367
policy/KLBefore                             0
policy/LossAfter                           -0.0405286
policy/LossBefore                          -0.00584642
policy/dLoss                                0.0346822
----------------------------------------  ------------
2025-04-03 13:22:56 | [rl2_trainer] epoch #437 | Optimizing policy...
2025-04-03 13:22:56 | [rl2_trainer] epoch #437 | Fitting baseline...
2025-04-03 13:22:56 | [rl2_trainer] epoch #437 | Computing loss before
2025-04-03 13:22:57 | [rl2_trainer] epoch #437 | Computing KL before
2025-04-03 13:22:58 | [rl2_trainer] epoch #437 | Optimizing
2025-04-03 13:23:34 | [rl2_trainer] epoch #437 | Computing KL after
2025-04-03 13:23:35 | [rl2_trainer] epoch #437 | Computing loss after
2025-04-03 13:23:36 | [rl2_trainer] epoch #437 | Saving snapshot...
2025-04-03 13:23:36 | [rl2_trainer] epoch #437 | Saved
2025-04-03 13:23:36 | [rl2_trainer] epoch #437 | Time 84696.93 s
2025-04-03 13:23:36 | [rl2_trainer] epoch #437 | EpochTime 275.72 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -15.5094
Average/AverageReturn                     -24.9171
Average/Iteration                         437
Average/MaxReturn                          57.0026
Average/MinReturn                         -74.2596
Average/NumEpisodes                       100
Average/StdReturn                          13.1089
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.705625
TotalEnvSteps                               4.38e+06
__unnamed_task__/AverageDiscountedReturn  -15.5094
__unnamed_task__/AverageReturn            -24.9171
__unnamed_task__/Iteration                437
__unnamed_task__/MaxReturn                 57.0026
__unnamed_task__/MinReturn                -74.2596
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.1089
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.15915
policy/KL                                   0.0154966
policy/KLBefore                             0
policy/LossAfter                           -0.0474062
policy/LossBefore                           0.0105275
policy/dLoss                                0.0579338
----------------------------------------  -----------
2025-04-03 13:26:21 | [rl2_trainer] epoch #438 | Optimizing policy...
2025-04-03 13:26:22 | [rl2_trainer] epoch #438 | Fitting baseline...
2025-04-03 13:26:22 | [rl2_trainer] epoch #438 | Computing loss before
2025-04-03 13:26:22 | [rl2_trainer] epoch #438 | Computing KL before
2025-04-03 13:26:23 | [rl2_trainer] epoch #438 | Optimizing
2025-04-03 13:26:57 | [rl2_trainer] epoch #438 | Computing KL after
2025-04-03 13:26:58 | [rl2_trainer] epoch #438 | Computing loss after
2025-04-03 13:26:59 | [rl2_trainer] epoch #438 | Saving snapshot...
2025-04-03 13:26:59 | [rl2_trainer] epoch #438 | Saved
2025-04-03 13:26:59 | [rl2_trainer] epoch #438 | Time 84899.84 s
2025-04-03 13:26:59 | [rl2_trainer] epoch #438 | EpochTime 202.90 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.933
Average/AverageReturn                     -16.4953
Average/Iteration                         438
Average/MaxReturn                          20.0814
Average/MinReturn                         -28.7647
Average/NumEpisodes                       100
Average/StdReturn                           8.1744
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.552442
TotalEnvSteps                               4.39e+06
__unnamed_task__/AverageDiscountedReturn  -10.933
__unnamed_task__/AverageReturn            -16.4953
__unnamed_task__/Iteration                438
__unnamed_task__/MaxReturn                 20.0814
__unnamed_task__/MinReturn                -28.7647
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.1744
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.13566
policy/KL                                   0.0144981
policy/KLBefore                             0
policy/LossAfter                           -0.0278297
policy/LossBefore                           0.00168217
policy/dLoss                                0.0295118
----------------------------------------  ------------
2025-04-03 13:29:18 | [rl2_trainer] epoch #439 | Optimizing policy...
2025-04-03 13:29:18 | [rl2_trainer] epoch #439 | Fitting baseline...
2025-04-03 13:29:18 | [rl2_trainer] epoch #439 | Computing loss before
2025-04-03 13:29:19 | [rl2_trainer] epoch #439 | Computing KL before
2025-04-03 13:29:20 | [rl2_trainer] epoch #439 | Optimizing
2025-04-03 13:29:56 | [rl2_trainer] epoch #439 | Computing KL after
2025-04-03 13:29:56 | [rl2_trainer] epoch #439 | Computing loss after
2025-04-03 13:29:57 | [rl2_trainer] epoch #439 | Saving snapshot...
2025-04-03 13:29:57 | [rl2_trainer] epoch #439 | Saved
2025-04-03 13:29:57 | [rl2_trainer] epoch #439 | Time 85078.19 s
2025-04-03 13:29:57 | [rl2_trainer] epoch #439 | EpochTime 178.36 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -11.5455
Average/AverageReturn                     -17.4444
Average/Iteration                         439
Average/MaxReturn                           4.92784
Average/MinReturn                         -24.6158
Average/NumEpisodes                       100
Average/StdReturn                           4.72573
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.497058
TotalEnvSteps                               4.4e+06
__unnamed_task__/AverageDiscountedReturn  -11.5455
__unnamed_task__/AverageReturn            -17.4444
__unnamed_task__/Iteration                439
__unnamed_task__/MaxReturn                  4.92784
__unnamed_task__/MinReturn                -24.6158
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  4.72573
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.11553
policy/KL                                   0.0120482
policy/KLBefore                             0
policy/LossAfter                           -0.0115872
policy/LossBefore                          -0.000473232
policy/dLoss                                0.011114
----------------------------------------  -------------
2025-04-03 13:33:37 | [rl2_trainer] epoch #440 | Optimizing policy...
2025-04-03 13:33:38 | [rl2_trainer] epoch #440 | Fitting baseline...
2025-04-03 13:33:38 | [rl2_trainer] epoch #440 | Computing loss before
2025-04-03 13:33:38 | [rl2_trainer] epoch #440 | Computing KL before
2025-04-03 13:33:39 | [rl2_trainer] epoch #440 | Optimizing
2025-04-03 13:34:15 | [rl2_trainer] epoch #440 | Computing KL after
2025-04-03 13:34:16 | [rl2_trainer] epoch #440 | Computing loss after
2025-04-03 13:34:17 | [rl2_trainer] epoch #440 | Saving snapshot...
2025-04-03 13:34:17 | [rl2_trainer] epoch #440 | Saved
2025-04-03 13:34:17 | [rl2_trainer] epoch #440 | Time 85338.00 s
2025-04-03 13:34:17 | [rl2_trainer] epoch #440 | EpochTime 259.80 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -15.8469
Average/AverageReturn                     -24.8396
Average/Iteration                         440
Average/MaxReturn                           5.03775
Average/MinReturn                         -76.1
Average/NumEpisodes                       100
Average/StdReturn                          12.8842
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.817883
TotalEnvSteps                               4.41e+06
__unnamed_task__/AverageDiscountedReturn  -15.8469
__unnamed_task__/AverageReturn            -24.8396
__unnamed_task__/Iteration                440
__unnamed_task__/MaxReturn                  5.03775
__unnamed_task__/MinReturn                -76.1
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.8842
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.07794
policy/KL                                   0.0170605
policy/KLBefore                             0
policy/LossAfter                           -0.0456745
policy/LossBefore                          -0.0042038
policy/dLoss                                0.0414707
----------------------------------------  -----------
2025-04-03 13:35:44 | [rl2_trainer] epoch #441 | Optimizing policy...
2025-04-03 13:35:44 | [rl2_trainer] epoch #441 | Fitting baseline...
2025-04-03 13:35:45 | [rl2_trainer] epoch #441 | Computing loss before
2025-04-03 13:35:45 | [rl2_trainer] epoch #441 | Computing KL before
2025-04-03 13:35:46 | [rl2_trainer] epoch #441 | Optimizing
2025-04-03 13:36:23 | [rl2_trainer] epoch #441 | Computing KL after
2025-04-03 13:36:23 | [rl2_trainer] epoch #441 | Computing loss after
2025-04-03 13:36:24 | [rl2_trainer] epoch #441 | Saving snapshot...
2025-04-03 13:36:24 | [rl2_trainer] epoch #441 | Saved
2025-04-03 13:36:24 | [rl2_trainer] epoch #441 | Time 85465.12 s
2025-04-03 13:36:24 | [rl2_trainer] epoch #441 | EpochTime 127.12 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -8.65213
Average/AverageReturn                     -12.7512
Average/Iteration                         441
Average/MaxReturn                          31.3746
Average/MinReturn                         -26.476
Average/NumEpisodes                       100
Average/StdReturn                           9.05635
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.391453
TotalEnvSteps                               4.42e+06
__unnamed_task__/AverageDiscountedReturn   -8.65213
__unnamed_task__/AverageReturn            -12.7512
__unnamed_task__/Iteration                441
__unnamed_task__/MaxReturn                 31.3746
__unnamed_task__/MinReturn                -26.476
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.05635
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.03457
policy/KL                                   0.015834
policy/KLBefore                             0
policy/LossAfter                           -0.0378345
policy/LossBefore                           0.00818983
policy/dLoss                                0.0460243
----------------------------------------  ------------
2025-04-03 13:39:25 | [rl2_trainer] epoch #442 | Optimizing policy...
2025-04-03 13:39:25 | [rl2_trainer] epoch #442 | Fitting baseline...
2025-04-03 13:39:25 | [rl2_trainer] epoch #442 | Computing loss before
2025-04-03 13:39:26 | [rl2_trainer] epoch #442 | Computing KL before
2025-04-03 13:39:26 | [rl2_trainer] epoch #442 | Optimizing
2025-04-03 13:40:02 | [rl2_trainer] epoch #442 | Computing KL after
2025-04-03 13:40:02 | [rl2_trainer] epoch #442 | Computing loss after
2025-04-03 13:40:03 | [rl2_trainer] epoch #442 | Saving snapshot...
2025-04-03 13:40:03 | [rl2_trainer] epoch #442 | Saved
2025-04-03 13:40:03 | [rl2_trainer] epoch #442 | Time 85684.39 s
2025-04-03 13:40:03 | [rl2_trainer] epoch #442 | EpochTime 219.27 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.8024
Average/AverageReturn                     -17.5223
Average/Iteration                         442
Average/MaxReturn                          18.5487
Average/MinReturn                         -50.484
Average/NumEpisodes                       100
Average/StdReturn                           7.44946
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.598902
TotalEnvSteps                               4.43e+06
__unnamed_task__/AverageDiscountedReturn  -11.8024
__unnamed_task__/AverageReturn            -17.5223
__unnamed_task__/Iteration                442
__unnamed_task__/MaxReturn                 18.5487
__unnamed_task__/MinReturn                -50.484
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.44946
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.01488
policy/KL                                   0.0132199
policy/KLBefore                             0
policy/LossAfter                           -0.0294917
policy/LossBefore                          -0.00142553
policy/dLoss                                0.0280662
----------------------------------------  ------------
2025-04-03 13:43:02 | [rl2_trainer] epoch #443 | Optimizing policy...
2025-04-03 13:43:02 | [rl2_trainer] epoch #443 | Fitting baseline...
2025-04-03 13:43:02 | [rl2_trainer] epoch #443 | Computing loss before
2025-04-03 13:43:02 | [rl2_trainer] epoch #443 | Computing KL before
2025-04-03 13:43:03 | [rl2_trainer] epoch #443 | Optimizing
2025-04-03 13:43:39 | [rl2_trainer] epoch #443 | Computing KL after
2025-04-03 13:43:39 | [rl2_trainer] epoch #443 | Computing loss after
2025-04-03 13:43:40 | [rl2_trainer] epoch #443 | Saving snapshot...
2025-04-03 13:43:40 | [rl2_trainer] epoch #443 | Saved
2025-04-03 13:43:40 | [rl2_trainer] epoch #443 | Time 85901.25 s
2025-04-03 13:43:40 | [rl2_trainer] epoch #443 | EpochTime 216.85 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.9999
Average/AverageReturn                     -16.3215
Average/Iteration                         443
Average/MaxReturn                           9.74548
Average/MinReturn                         -26.5989
Average/NumEpisodes                       100
Average/StdReturn                           6.18385
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.547833
TotalEnvSteps                               4.44e+06
__unnamed_task__/AverageDiscountedReturn  -10.9999
__unnamed_task__/AverageReturn            -16.3215
__unnamed_task__/Iteration                443
__unnamed_task__/MaxReturn                  9.74548
__unnamed_task__/MinReturn                -26.5989
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.18385
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.01809
policy/KL                                   0.0130485
policy/KLBefore                             0
policy/LossAfter                           -0.0233815
policy/LossBefore                           0.00298272
policy/dLoss                                0.0263642
----------------------------------------  ------------
2025-04-03 13:47:24 | [rl2_trainer] epoch #444 | Optimizing policy...
2025-04-03 13:47:24 | [rl2_trainer] epoch #444 | Fitting baseline...
2025-04-03 13:47:24 | [rl2_trainer] epoch #444 | Computing loss before
2025-04-03 13:47:25 | [rl2_trainer] epoch #444 | Computing KL before
2025-04-03 13:47:25 | [rl2_trainer] epoch #444 | Optimizing
2025-04-03 13:48:00 | [rl2_trainer] epoch #444 | Computing KL after
2025-04-03 13:48:01 | [rl2_trainer] epoch #444 | Computing loss after
2025-04-03 13:48:01 | [rl2_trainer] epoch #444 | Saving snapshot...
2025-04-03 13:48:01 | [rl2_trainer] epoch #444 | Saved
2025-04-03 13:48:01 | [rl2_trainer] epoch #444 | Time 86162.43 s
2025-04-03 13:48:01 | [rl2_trainer] epoch #444 | EpochTime 261.18 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.4018
Average/AverageReturn                     -26.2678
Average/Iteration                         444
Average/MaxReturn                          -9.69948
Average/MinReturn                         -63.2614
Average/NumEpisodes                       100
Average/StdReturn                          10.7834
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.871888
TotalEnvSteps                               4.45e+06
__unnamed_task__/AverageDiscountedReturn  -16.4018
__unnamed_task__/AverageReturn            -26.2678
__unnamed_task__/Iteration                444
__unnamed_task__/MaxReturn                 -9.69948
__unnamed_task__/MinReturn                -63.2614
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.7834
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.02867
policy/KL                                   0.0122722
policy/KLBefore                             0
policy/LossAfter                           -0.0426671
policy/LossBefore                          -0.00420683
policy/dLoss                                0.0384603
----------------------------------------  ------------
2025-04-03 13:50:50 | [rl2_trainer] epoch #445 | Optimizing policy...
2025-04-03 13:50:51 | [rl2_trainer] epoch #445 | Fitting baseline...
2025-04-03 13:50:51 | [rl2_trainer] epoch #445 | Computing loss before
2025-04-03 13:50:51 | [rl2_trainer] epoch #445 | Computing KL before
2025-04-03 13:50:52 | [rl2_trainer] epoch #445 | Optimizing
2025-04-03 13:51:28 | [rl2_trainer] epoch #445 | Computing KL after
2025-04-03 13:51:29 | [rl2_trainer] epoch #445 | Computing loss after
2025-04-03 13:51:30 | [rl2_trainer] epoch #445 | Saving snapshot...
2025-04-03 13:51:30 | [rl2_trainer] epoch #445 | Saved
2025-04-03 13:51:30 | [rl2_trainer] epoch #445 | Time 86370.61 s
2025-04-03 13:51:30 | [rl2_trainer] epoch #445 | EpochTime 208.17 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -16.1025
Average/AverageReturn                     -25.6618
Average/Iteration                         445
Average/MaxReturn                           6.74944
Average/MinReturn                         -59.4049
Average/NumEpisodes                       100
Average/StdReturn                          12.636
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.863935
TotalEnvSteps                               4.46e+06
__unnamed_task__/AverageDiscountedReturn  -16.1025
__unnamed_task__/AverageReturn            -25.6618
__unnamed_task__/Iteration                445
__unnamed_task__/MaxReturn                  6.74944
__unnamed_task__/MinReturn                -59.4049
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.636
__unnamed_task__/TerminationRate            0
policy/Entropy                              1.01721
policy/KL                                   0.0173802
policy/KLBefore                             0
policy/LossAfter                           -0.0465984
policy/LossBefore                          -0.00329599
policy/dLoss                                0.0433024
----------------------------------------  ------------
2025-04-03 13:53:36 | [rl2_trainer] epoch #446 | Optimizing policy...
2025-04-03 13:53:36 | [rl2_trainer] epoch #446 | Fitting baseline...
2025-04-03 13:53:36 | [rl2_trainer] epoch #446 | Computing loss before
2025-04-03 13:53:37 | [rl2_trainer] epoch #446 | Computing KL before
2025-04-03 13:53:37 | [rl2_trainer] epoch #446 | Optimizing
2025-04-03 13:54:14 | [rl2_trainer] epoch #446 | Computing KL after
2025-04-03 13:54:14 | [rl2_trainer] epoch #446 | Computing loss after
2025-04-03 13:54:15 | [rl2_trainer] epoch #446 | Saving snapshot...
2025-04-03 13:54:15 | [rl2_trainer] epoch #446 | Saved
2025-04-03 13:54:15 | [rl2_trainer] epoch #446 | Time 86536.07 s
2025-04-03 13:54:15 | [rl2_trainer] epoch #446 | EpochTime 165.45 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -9.64346
Average/AverageReturn                     -13.582
Average/Iteration                         446
Average/MaxReturn                          31.9629
Average/MinReturn                         -65.2172
Average/NumEpisodes                       100
Average/StdReturn                          10.7017
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.339737
TotalEnvSteps                               4.47e+06
__unnamed_task__/AverageDiscountedReturn   -9.64346
__unnamed_task__/AverageReturn            -13.582
__unnamed_task__/Iteration                446
__unnamed_task__/MaxReturn                 31.9629
__unnamed_task__/MinReturn                -65.2172
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.7017
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.971899
policy/KL                                   0.0425895
policy/KLBefore                             0
policy/LossAfter                            0.0144877
policy/LossBefore                           0.00768091
policy/dLoss                               -0.00680683
----------------------------------------  ------------
2025-04-03 13:56:11 | [rl2_trainer] epoch #447 | Optimizing policy...
2025-04-03 13:56:11 | [rl2_trainer] epoch #447 | Fitting baseline...
2025-04-03 13:56:11 | [rl2_trainer] epoch #447 | Computing loss before
2025-04-03 13:56:12 | [rl2_trainer] epoch #447 | Computing KL before
2025-04-03 13:56:13 | [rl2_trainer] epoch #447 | Optimizing
2025-04-03 13:56:45 | [rl2_trainer] epoch #447 | Computing KL after
2025-04-03 13:56:46 | [rl2_trainer] epoch #447 | Computing loss after
2025-04-03 13:56:47 | [rl2_trainer] epoch #447 | Saving snapshot...
2025-04-03 13:56:47 | [rl2_trainer] epoch #447 | Saved
2025-04-03 13:56:47 | [rl2_trainer] epoch #447 | Time 86687.64 s
2025-04-03 13:56:47 | [rl2_trainer] epoch #447 | EpochTime 151.58 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -9.90305
Average/AverageReturn                     -14.1537
Average/Iteration                         447
Average/MaxReturn                          24.0608
Average/MinReturn                         -27.728
Average/NumEpisodes                       100
Average/StdReturn                           7.98014
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.49534
TotalEnvSteps                               4.48e+06
__unnamed_task__/AverageDiscountedReturn   -9.90305
__unnamed_task__/AverageReturn            -14.1537
__unnamed_task__/Iteration                447
__unnamed_task__/MaxReturn                 24.0608
__unnamed_task__/MinReturn                -27.728
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.98014
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.943323
policy/KL                                   0.016935
policy/KLBefore                             0
policy/LossAfter                           -0.029086
policy/LossBefore                          -0.00327256
policy/dLoss                                0.0258135
----------------------------------------  ------------
2025-04-03 13:59:15 | [rl2_trainer] epoch #448 | Optimizing policy...
2025-04-03 13:59:15 | [rl2_trainer] epoch #448 | Fitting baseline...
2025-04-03 13:59:15 | [rl2_trainer] epoch #448 | Computing loss before
2025-04-03 13:59:16 | [rl2_trainer] epoch #448 | Computing KL before
2025-04-03 13:59:16 | [rl2_trainer] epoch #448 | Optimizing
2025-04-03 13:59:51 | [rl2_trainer] epoch #448 | Computing KL after
2025-04-03 13:59:52 | [rl2_trainer] epoch #448 | Computing loss after
2025-04-03 13:59:53 | [rl2_trainer] epoch #448 | Saving snapshot...
2025-04-03 13:59:53 | [rl2_trainer] epoch #448 | Saved
2025-04-03 13:59:53 | [rl2_trainer] epoch #448 | Time 86873.92 s
2025-04-03 13:59:53 | [rl2_trainer] epoch #448 | EpochTime 186.27 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.0824
Average/AverageReturn                     -14.8441
Average/Iteration                         448
Average/MaxReturn                          20.0115
Average/MinReturn                         -44.7414
Average/NumEpisodes                       100
Average/StdReturn                          10.4312
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.579941
TotalEnvSteps                               4.49e+06
__unnamed_task__/AverageDiscountedReturn  -10.0824
__unnamed_task__/AverageReturn            -14.8441
__unnamed_task__/Iteration                448
__unnamed_task__/MaxReturn                 20.0115
__unnamed_task__/MinReturn                -44.7414
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.4312
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.901097
policy/KL                                   0.0213884
policy/KLBefore                             0
policy/LossAfter                           -0.0277007
policy/LossBefore                           0.00726528
policy/dLoss                                0.0349659
----------------------------------------  ------------
2025-04-03 14:02:11 | [rl2_trainer] epoch #449 | Optimizing policy...
2025-04-03 14:02:11 | [rl2_trainer] epoch #449 | Fitting baseline...
2025-04-03 14:02:11 | [rl2_trainer] epoch #449 | Computing loss before
2025-04-03 14:02:12 | [rl2_trainer] epoch #449 | Computing KL before
2025-04-03 14:02:13 | [rl2_trainer] epoch #449 | Optimizing
2025-04-03 14:02:48 | [rl2_trainer] epoch #449 | Computing KL after
2025-04-03 14:02:48 | [rl2_trainer] epoch #449 | Computing loss after
2025-04-03 14:02:49 | [rl2_trainer] epoch #449 | Saving snapshot...
2025-04-03 14:02:49 | [rl2_trainer] epoch #449 | Saved
2025-04-03 14:02:49 | [rl2_trainer] epoch #449 | Time 87050.27 s
2025-04-03 14:02:49 | [rl2_trainer] epoch #449 | EpochTime 176.36 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -8.60932
Average/AverageReturn                     -12.694
Average/Iteration                         449
Average/MaxReturn                          43.4843
Average/MinReturn                         -30.19
Average/NumEpisodes                       100
Average/StdReturn                          12.1008
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.470281
TotalEnvSteps                               4.5e+06
__unnamed_task__/AverageDiscountedReturn   -8.60932
__unnamed_task__/AverageReturn            -12.694
__unnamed_task__/Iteration                449
__unnamed_task__/MaxReturn                 43.4843
__unnamed_task__/MinReturn                -30.19
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.1008
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.900639
policy/KL                                   0.0185981
policy/KLBefore                             0
policy/LossAfter                           -0.0509395
policy/LossBefore                           0.00460949
policy/dLoss                                0.0555489
----------------------------------------  ------------
2025-04-03 14:04:48 | [rl2_trainer] epoch #450 | Optimizing policy...
2025-04-03 14:04:49 | [rl2_trainer] epoch #450 | Fitting baseline...
2025-04-03 14:04:49 | [rl2_trainer] epoch #450 | Computing loss before
2025-04-03 14:04:49 | [rl2_trainer] epoch #450 | Computing KL before
2025-04-03 14:04:50 | [rl2_trainer] epoch #450 | Optimizing
2025-04-03 14:05:24 | [rl2_trainer] epoch #450 | Computing KL after
2025-04-03 14:05:25 | [rl2_trainer] epoch #450 | Computing loss after
2025-04-03 14:05:26 | [rl2_trainer] epoch #450 | Saving snapshot...
2025-04-03 14:05:26 | [rl2_trainer] epoch #450 | Saved
2025-04-03 14:05:26 | [rl2_trainer] epoch #450 | Time 87206.95 s
2025-04-03 14:05:26 | [rl2_trainer] epoch #450 | EpochTime 156.67 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -8.61491
Average/AverageReturn                     -12.1393
Average/Iteration                         450
Average/MaxReturn                          30.5701
Average/MinReturn                         -29.6014
Average/NumEpisodes                       100
Average/StdReturn                          11.2494
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.397487
TotalEnvSteps                               4.51e+06
__unnamed_task__/AverageDiscountedReturn   -8.61491
__unnamed_task__/AverageReturn            -12.1393
__unnamed_task__/Iteration                450
__unnamed_task__/MaxReturn                 30.5701
__unnamed_task__/MinReturn                -29.6014
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.2494
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.88006
policy/KL                                   0.0206984
policy/KLBefore                             0
policy/LossAfter                           -0.0404302
policy/LossBefore                           0.00654049
policy/dLoss                                0.0469707
----------------------------------------  ------------
2025-04-03 14:07:36 | [rl2_trainer] epoch #451 | Optimizing policy...
2025-04-03 14:07:36 | [rl2_trainer] epoch #451 | Fitting baseline...
2025-04-03 14:07:36 | [rl2_trainer] epoch #451 | Computing loss before
2025-04-03 14:07:37 | [rl2_trainer] epoch #451 | Computing KL before
2025-04-03 14:07:37 | [rl2_trainer] epoch #451 | Optimizing
2025-04-03 14:08:13 | [rl2_trainer] epoch #451 | Computing KL after
2025-04-03 14:08:14 | [rl2_trainer] epoch #451 | Computing loss after
2025-04-03 14:08:15 | [rl2_trainer] epoch #451 | Saving snapshot...
2025-04-03 14:08:15 | [rl2_trainer] epoch #451 | Saved
2025-04-03 14:08:15 | [rl2_trainer] epoch #451 | Time 87375.85 s
2025-04-03 14:08:15 | [rl2_trainer] epoch #451 | EpochTime 168.90 s
----------------------------------------  -----------
Average/AverageDiscountedReturn            -8.9261
Average/AverageReturn                     -12.687
Average/Iteration                         451
Average/MaxReturn                          29.5784
Average/MinReturn                         -97.7683
Average/NumEpisodes                       100
Average/StdReturn                          13.1007
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.564584
TotalEnvSteps                               4.52e+06
__unnamed_task__/AverageDiscountedReturn   -8.9261
__unnamed_task__/AverageReturn            -12.687
__unnamed_task__/Iteration                451
__unnamed_task__/MaxReturn                 29.5784
__unnamed_task__/MinReturn                -97.7683
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.1007
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.856179
policy/KL                                   0.0229119
policy/KLBefore                             0
policy/LossAfter                           -0.0419301
policy/LossBefore                          -0.0106515
policy/dLoss                                0.0312786
----------------------------------------  -----------
2025-04-03 14:10:12 | [rl2_trainer] epoch #452 | Optimizing policy...
2025-04-03 14:10:12 | [rl2_trainer] epoch #452 | Fitting baseline...
2025-04-03 14:10:12 | [rl2_trainer] epoch #452 | Computing loss before
2025-04-03 14:10:13 | [rl2_trainer] epoch #452 | Computing KL before
2025-04-03 14:10:13 | [rl2_trainer] epoch #452 | Optimizing
2025-04-03 14:10:49 | [rl2_trainer] epoch #452 | Computing KL after
2025-04-03 14:10:50 | [rl2_trainer] epoch #452 | Computing loss after
2025-04-03 14:10:51 | [rl2_trainer] epoch #452 | Saving snapshot...
2025-04-03 14:10:51 | [rl2_trainer] epoch #452 | Saved
2025-04-03 14:10:51 | [rl2_trainer] epoch #452 | Time 87531.57 s
2025-04-03 14:10:51 | [rl2_trainer] epoch #452 | EpochTime 155.72 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -8.92088
Average/AverageReturn                     -12.9065
Average/Iteration                         452
Average/MaxReturn                          32.6207
Average/MinReturn                         -24.7912
Average/NumEpisodes                       100
Average/StdReturn                          10.3548
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.30135
TotalEnvSteps                               4.53e+06
__unnamed_task__/AverageDiscountedReturn   -8.92088
__unnamed_task__/AverageReturn            -12.9065
__unnamed_task__/Iteration                452
__unnamed_task__/MaxReturn                 32.6207
__unnamed_task__/MinReturn                -24.7912
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.3548
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.832579
policy/KL                                   0.0229205
policy/KLBefore                             0
policy/LossAfter                           -0.0306129
policy/LossBefore                           0.00487325
policy/dLoss                                0.0354861
----------------------------------------  ------------
2025-04-03 14:14:08 | [rl2_trainer] epoch #453 | Optimizing policy...
2025-04-03 14:14:08 | [rl2_trainer] epoch #453 | Fitting baseline...
2025-04-03 14:14:08 | [rl2_trainer] epoch #453 | Computing loss before
2025-04-03 14:14:09 | [rl2_trainer] epoch #453 | Computing KL before
2025-04-03 14:14:09 | [rl2_trainer] epoch #453 | Optimizing
2025-04-03 14:14:43 | [rl2_trainer] epoch #453 | Computing KL after
2025-04-03 14:14:44 | [rl2_trainer] epoch #453 | Computing loss after
2025-04-03 14:14:45 | [rl2_trainer] epoch #453 | Saving snapshot...
2025-04-03 14:14:45 | [rl2_trainer] epoch #453 | Saved
2025-04-03 14:14:45 | [rl2_trainer] epoch #453 | Time 87765.58 s
2025-04-03 14:14:45 | [rl2_trainer] epoch #453 | EpochTime 234.01 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -17.1538
Average/AverageReturn                     -26.9355
Average/Iteration                         453
Average/MaxReturn                          24.6159
Average/MinReturn                         -61.3258
Average/NumEpisodes                       100
Average/StdReturn                          15.0739
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.85347
TotalEnvSteps                               4.54e+06
__unnamed_task__/AverageDiscountedReturn  -17.1538
__unnamed_task__/AverageReturn            -26.9355
__unnamed_task__/Iteration                453
__unnamed_task__/MaxReturn                 24.6159
__unnamed_task__/MinReturn                -61.3258
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 15.0739
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.801145
policy/KL                                   0.0223526
policy/KLBefore                             0
policy/LossAfter                           -0.0580881
policy/LossBefore                          -0.00356431
policy/dLoss                                0.0545238
----------------------------------------  ------------
2025-04-03 14:17:22 | [rl2_trainer] epoch #454 | Optimizing policy...
2025-04-03 14:17:23 | [rl2_trainer] epoch #454 | Fitting baseline...
2025-04-03 14:17:23 | [rl2_trainer] epoch #454 | Computing loss before
2025-04-03 14:17:23 | [rl2_trainer] epoch #454 | Computing KL before
2025-04-03 14:17:24 | [rl2_trainer] epoch #454 | Optimizing
2025-04-03 14:18:01 | [rl2_trainer] epoch #454 | Computing KL after
2025-04-03 14:18:01 | [rl2_trainer] epoch #454 | Computing loss after
2025-04-03 14:18:02 | [rl2_trainer] epoch #454 | Saving snapshot...
2025-04-03 14:18:02 | [rl2_trainer] epoch #454 | Saved
2025-04-03 14:18:02 | [rl2_trainer] epoch #454 | Time 87963.08 s
2025-04-03 14:18:02 | [rl2_trainer] epoch #454 | EpochTime 197.49 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.2049
Average/AverageReturn                     -22.4067
Average/Iteration                         454
Average/MaxReturn                          28.7002
Average/MinReturn                         -56.6779
Average/NumEpisodes                       100
Average/StdReturn                          16.7842
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.86508
TotalEnvSteps                               4.55e+06
__unnamed_task__/AverageDiscountedReturn  -14.2049
__unnamed_task__/AverageReturn            -22.4067
__unnamed_task__/Iteration                454
__unnamed_task__/MaxReturn                 28.7002
__unnamed_task__/MinReturn                -56.6779
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 16.7842
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.791002
policy/KL                                   0.0153484
policy/KLBefore                             0
policy/LossAfter                           -0.0678832
policy/LossBefore                          -0.00865588
policy/dLoss                                0.0592273
----------------------------------------  ------------
2025-04-03 14:21:25 | [rl2_trainer] epoch #455 | Optimizing policy...
2025-04-03 14:21:25 | [rl2_trainer] epoch #455 | Fitting baseline...
2025-04-03 14:21:25 | [rl2_trainer] epoch #455 | Computing loss before
2025-04-03 14:21:26 | [rl2_trainer] epoch #455 | Computing KL before
2025-04-03 14:21:26 | [rl2_trainer] epoch #455 | Optimizing
2025-04-03 14:22:02 | [rl2_trainer] epoch #455 | Computing KL after
2025-04-03 14:22:03 | [rl2_trainer] epoch #455 | Computing loss after
2025-04-03 14:22:04 | [rl2_trainer] epoch #455 | Saving snapshot...
2025-04-03 14:22:04 | [rl2_trainer] epoch #455 | Saved
2025-04-03 14:22:04 | [rl2_trainer] epoch #455 | Time 88204.62 s
2025-04-03 14:22:04 | [rl2_trainer] epoch #455 | EpochTime 241.54 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.3534
Average/AverageReturn                     -21.1609
Average/Iteration                         455
Average/MaxReturn                          28.3409
Average/MinReturn                         -62.2221
Average/NumEpisodes                       100
Average/StdReturn                          18.9439
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.799938
TotalEnvSteps                               4.56e+06
__unnamed_task__/AverageDiscountedReturn  -13.3534
__unnamed_task__/AverageReturn            -21.1609
__unnamed_task__/Iteration                455
__unnamed_task__/MaxReturn                 28.3409
__unnamed_task__/MinReturn                -62.2221
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 18.9439
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.780712
policy/KL                                   0.0262701
policy/KLBefore                             0
policy/LossAfter                           -0.101466
policy/LossBefore                           0.00128279
policy/dLoss                                0.102748
----------------------------------------  ------------
2025-04-03 14:25:35 | [rl2_trainer] epoch #456 | Optimizing policy...
2025-04-03 14:25:36 | [rl2_trainer] epoch #456 | Fitting baseline...
2025-04-03 14:25:36 | [rl2_trainer] epoch #456 | Computing loss before
2025-04-03 14:25:36 | [rl2_trainer] epoch #456 | Computing KL before
2025-04-03 14:25:37 | [rl2_trainer] epoch #456 | Optimizing
2025-04-03 14:26:12 | [rl2_trainer] epoch #456 | Computing KL after
2025-04-03 14:26:12 | [rl2_trainer] epoch #456 | Computing loss after
2025-04-03 14:26:13 | [rl2_trainer] epoch #456 | Saving snapshot...
2025-04-03 14:26:13 | [rl2_trainer] epoch #456 | Saved
2025-04-03 14:26:13 | [rl2_trainer] epoch #456 | Time 88454.07 s
2025-04-03 14:26:13 | [rl2_trainer] epoch #456 | EpochTime 249.44 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -13.9042
Average/AverageReturn                     -22.0421
Average/Iteration                         456
Average/MaxReturn                          28.6161
Average/MinReturn                         -83.4162
Average/NumEpisodes                       100
Average/StdReturn                          16.5511
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.827023
TotalEnvSteps                               4.57e+06
__unnamed_task__/AverageDiscountedReturn  -13.9042
__unnamed_task__/AverageReturn            -22.0421
__unnamed_task__/Iteration                456
__unnamed_task__/MaxReturn                 28.6161
__unnamed_task__/MinReturn                -83.4162
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 16.5511
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.758593
policy/KL                                   0.0198591
policy/KLBefore                             0
policy/LossAfter                           -0.0705625
policy/LossBefore                          -0.000352838
policy/dLoss                                0.0702096
----------------------------------------  -------------
2025-04-03 14:28:59 | [rl2_trainer] epoch #457 | Optimizing policy...
2025-04-03 14:28:59 | [rl2_trainer] epoch #457 | Fitting baseline...
2025-04-03 14:28:59 | [rl2_trainer] epoch #457 | Computing loss before
2025-04-03 14:29:00 | [rl2_trainer] epoch #457 | Computing KL before
2025-04-03 14:29:00 | [rl2_trainer] epoch #457 | Optimizing
2025-04-03 14:29:36 | [rl2_trainer] epoch #457 | Computing KL after
2025-04-03 14:29:37 | [rl2_trainer] epoch #457 | Computing loss after
2025-04-03 14:29:38 | [rl2_trainer] epoch #457 | Saving snapshot...
2025-04-03 14:29:38 | [rl2_trainer] epoch #457 | Saved
2025-04-03 14:29:38 | [rl2_trainer] epoch #457 | Time 88658.76 s
2025-04-03 14:29:38 | [rl2_trainer] epoch #457 | EpochTime 204.69 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -16.0903
Average/AverageReturn                     -25.2872
Average/Iteration                         457
Average/MaxReturn                           6.72127
Average/MinReturn                         -54.9086
Average/NumEpisodes                       100
Average/StdReturn                          12.1876
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.795738
TotalEnvSteps                               4.58e+06
__unnamed_task__/AverageDiscountedReturn  -16.0903
__unnamed_task__/AverageReturn            -25.2872
__unnamed_task__/Iteration                457
__unnamed_task__/MaxReturn                  6.72127
__unnamed_task__/MinReturn                -54.9086
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.1876
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.746378
policy/KL                                   0.0181598
policy/KLBefore                             0
policy/LossAfter                           -0.0629402
policy/LossBefore                          -0.0131785
policy/dLoss                                0.0497618
----------------------------------------  -----------
2025-04-03 14:32:04 | [rl2_trainer] epoch #458 | Optimizing policy...
2025-04-03 14:32:05 | [rl2_trainer] epoch #458 | Fitting baseline...
2025-04-03 14:32:05 | [rl2_trainer] epoch #458 | Computing loss before
2025-04-03 14:32:05 | [rl2_trainer] epoch #458 | Computing KL before
2025-04-03 14:32:06 | [rl2_trainer] epoch #458 | Optimizing
2025-04-03 14:32:43 | [rl2_trainer] epoch #458 | Computing KL after
2025-04-03 14:32:43 | [rl2_trainer] epoch #458 | Computing loss after
2025-04-03 14:32:44 | [rl2_trainer] epoch #458 | Saving snapshot...
2025-04-03 14:32:44 | [rl2_trainer] epoch #458 | Saved
2025-04-03 14:32:44 | [rl2_trainer] epoch #458 | Time 88845.45 s
2025-04-03 14:32:44 | [rl2_trainer] epoch #458 | EpochTime 186.69 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -10.2478
Average/AverageReturn                     -15.1024
Average/Iteration                         458
Average/MaxReturn                          27.2903
Average/MinReturn                         -27.1732
Average/NumEpisodes                       100
Average/StdReturn                          10.107
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.684049
TotalEnvSteps                               4.59e+06
__unnamed_task__/AverageDiscountedReturn  -10.2478
__unnamed_task__/AverageReturn            -15.1024
__unnamed_task__/Iteration                458
__unnamed_task__/MaxReturn                 27.2903
__unnamed_task__/MinReturn                -27.1732
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.107
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.71549
policy/KL                                   0.019866
policy/KLBefore                             0
policy/LossAfter                           -0.0395032
policy/LossBefore                          -0.0015268
policy/dLoss                                0.0379764
----------------------------------------  -----------
2025-04-03 14:34:52 | [rl2_trainer] epoch #459 | Optimizing policy...
2025-04-03 14:34:52 | [rl2_trainer] epoch #459 | Fitting baseline...
2025-04-03 14:34:52 | [rl2_trainer] epoch #459 | Computing loss before
2025-04-03 14:34:52 | [rl2_trainer] epoch #459 | Computing KL before
2025-04-03 14:34:53 | [rl2_trainer] epoch #459 | Optimizing
2025-04-03 14:35:28 | [rl2_trainer] epoch #459 | Computing KL after
2025-04-03 14:35:29 | [rl2_trainer] epoch #459 | Computing loss after
2025-04-03 14:35:30 | [rl2_trainer] epoch #459 | Saving snapshot...
2025-04-03 14:35:30 | [rl2_trainer] epoch #459 | Saved
2025-04-03 14:35:30 | [rl2_trainer] epoch #459 | Time 89010.93 s
2025-04-03 14:35:30 | [rl2_trainer] epoch #459 | EpochTime 165.48 s
----------------------------------------  -----------
Average/AverageDiscountedReturn            -8.64634
Average/AverageReturn                     -12.2254
Average/Iteration                         459
Average/MaxReturn                          64.7143
Average/MinReturn                         -79.6642
Average/NumEpisodes                       100
Average/StdReturn                          13.3519
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.470645
TotalEnvSteps                               4.6e+06
__unnamed_task__/AverageDiscountedReturn   -8.64634
__unnamed_task__/AverageReturn            -12.2254
__unnamed_task__/Iteration                459
__unnamed_task__/MaxReturn                 64.7143
__unnamed_task__/MinReturn                -79.6642
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.3519
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.693556
policy/KL                                   0.0177023
policy/KLBefore                             0
policy/LossAfter                           -0.0868211
policy/LossBefore                          -0.040873
policy/dLoss                                0.0459482
----------------------------------------  -----------
2025-04-03 14:37:45 | [rl2_trainer] epoch #460 | Optimizing policy...
2025-04-03 14:37:45 | [rl2_trainer] epoch #460 | Fitting baseline...
2025-04-03 14:37:45 | [rl2_trainer] epoch #460 | Computing loss before
2025-04-03 14:37:46 | [rl2_trainer] epoch #460 | Computing KL before
2025-04-03 14:37:46 | [rl2_trainer] epoch #460 | Optimizing
2025-04-03 14:38:21 | [rl2_trainer] epoch #460 | Computing KL after
2025-04-03 14:38:22 | [rl2_trainer] epoch #460 | Computing loss after
2025-04-03 14:38:23 | [rl2_trainer] epoch #460 | Saving snapshot...
2025-04-03 14:38:23 | [rl2_trainer] epoch #460 | Saved
2025-04-03 14:38:23 | [rl2_trainer] epoch #460 | Time 89183.71 s
2025-04-03 14:38:23 | [rl2_trainer] epoch #460 | EpochTime 172.78 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -15.0465
Average/AverageReturn                     -24.0964
Average/Iteration                         460
Average/MaxReturn                          14.988
Average/MinReturn                         -56.714
Average/NumEpisodes                       100
Average/StdReturn                          14.6069
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.849727
TotalEnvSteps                               4.61e+06
__unnamed_task__/AverageDiscountedReturn  -15.0465
__unnamed_task__/AverageReturn            -24.0964
__unnamed_task__/Iteration                460
__unnamed_task__/MaxReturn                 14.988
__unnamed_task__/MinReturn                -56.714
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 14.6069
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.679792
policy/KL                                   0.0160479
policy/KLBefore                             0
policy/LossAfter                           -0.0453393
policy/LossBefore                          -0.00330938
policy/dLoss                                0.04203
----------------------------------------  ------------
2025-04-03 14:39:50 | [rl2_trainer] epoch #461 | Optimizing policy...
2025-04-03 14:39:50 | [rl2_trainer] epoch #461 | Fitting baseline...
2025-04-03 14:39:50 | [rl2_trainer] epoch #461 | Computing loss before
2025-04-03 14:39:51 | [rl2_trainer] epoch #461 | Computing KL before
2025-04-03 14:39:52 | [rl2_trainer] epoch #461 | Optimizing
2025-04-03 14:40:26 | [rl2_trainer] epoch #461 | Computing KL after
2025-04-03 14:40:26 | [rl2_trainer] epoch #461 | Computing loss after
2025-04-03 14:40:27 | [rl2_trainer] epoch #461 | Saving snapshot...
2025-04-03 14:40:27 | [rl2_trainer] epoch #461 | Saved
2025-04-03 14:40:27 | [rl2_trainer] epoch #461 | Time 89308.23 s
2025-04-03 14:40:27 | [rl2_trainer] epoch #461 | EpochTime 124.52 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -8.14214
Average/AverageReturn                     -11.8251
Average/Iteration                         461
Average/MaxReturn                          21.4114
Average/MinReturn                         -26.261
Average/NumEpisodes                       100
Average/StdReturn                           8.49253
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.473332
TotalEnvSteps                               4.62e+06
__unnamed_task__/AverageDiscountedReturn   -8.14214
__unnamed_task__/AverageReturn            -11.8251
__unnamed_task__/Iteration                461
__unnamed_task__/MaxReturn                 21.4114
__unnamed_task__/MinReturn                -26.261
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.49253
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.650518
policy/KL                                   0.0157182
policy/KLBefore                             0
policy/LossAfter                           -0.0493723
policy/LossBefore                          -0.00967238
policy/dLoss                                0.0396999
----------------------------------------  ------------
2025-04-03 14:42:54 | [rl2_trainer] epoch #462 | Optimizing policy...
2025-04-03 14:42:54 | [rl2_trainer] epoch #462 | Fitting baseline...
2025-04-03 14:42:54 | [rl2_trainer] epoch #462 | Computing loss before
2025-04-03 14:42:55 | [rl2_trainer] epoch #462 | Computing KL before
2025-04-03 14:42:56 | [rl2_trainer] epoch #462 | Optimizing
2025-04-03 14:43:32 | [rl2_trainer] epoch #462 | Computing KL after
2025-04-03 14:43:32 | [rl2_trainer] epoch #462 | Computing loss after
2025-04-03 14:43:33 | [rl2_trainer] epoch #462 | Saving snapshot...
2025-04-03 14:43:33 | [rl2_trainer] epoch #462 | Saved
2025-04-03 14:43:33 | [rl2_trainer] epoch #462 | Time 89494.09 s
2025-04-03 14:43:33 | [rl2_trainer] epoch #462 | EpochTime 185.85 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -9.51229
Average/AverageReturn                     -13.6583
Average/Iteration                         462
Average/MaxReturn                          67.2762
Average/MinReturn                         -83.8753
Average/NumEpisodes                       100
Average/StdReturn                          14.7058
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.571023
TotalEnvSteps                               4.63e+06
__unnamed_task__/AverageDiscountedReturn   -9.51229
__unnamed_task__/AverageReturn            -13.6583
__unnamed_task__/Iteration                462
__unnamed_task__/MaxReturn                 67.2762
__unnamed_task__/MinReturn                -83.8753
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 14.7058
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.603086
policy/KL                                   0.0201104
policy/KLBefore                             0
policy/LossAfter                           -0.0515652
policy/LossBefore                          -0.00838981
policy/dLoss                                0.0431754
----------------------------------------  ------------
2025-04-03 14:44:58 | [rl2_trainer] epoch #463 | Optimizing policy...
2025-04-03 14:44:58 | [rl2_trainer] epoch #463 | Fitting baseline...
2025-04-03 14:44:58 | [rl2_trainer] epoch #463 | Computing loss before
2025-04-03 14:44:59 | [rl2_trainer] epoch #463 | Computing KL before
2025-04-03 14:45:00 | [rl2_trainer] epoch #463 | Optimizing
2025-04-03 14:45:36 | [rl2_trainer] epoch #463 | Computing KL after
2025-04-03 14:45:36 | [rl2_trainer] epoch #463 | Computing loss after
2025-04-03 14:45:37 | [rl2_trainer] epoch #463 | Saving snapshot...
2025-04-03 14:45:37 | [rl2_trainer] epoch #463 | Saved
2025-04-03 14:45:37 | [rl2_trainer] epoch #463 | Time 89618.31 s
2025-04-03 14:45:37 | [rl2_trainer] epoch #463 | EpochTime 124.22 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -8.73667
Average/AverageReturn                     -12.8594
Average/Iteration                         463
Average/MaxReturn                          18.0919
Average/MinReturn                         -39.272
Average/NumEpisodes                       100
Average/StdReturn                           8.3997
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.472768
TotalEnvSteps                               4.64e+06
__unnamed_task__/AverageDiscountedReturn   -8.73667
__unnamed_task__/AverageReturn            -12.8594
__unnamed_task__/Iteration                463
__unnamed_task__/MaxReturn                 18.0919
__unnamed_task__/MinReturn                -39.272
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.3997
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.574764
policy/KL                                   0.0186986
policy/KLBefore                             0
policy/LossAfter                           -0.0387157
policy/LossBefore                           0.00329444
policy/dLoss                                0.0420102
----------------------------------------  ------------
2025-04-03 14:48:05 | [rl2_trainer] epoch #464 | Optimizing policy...
2025-04-03 14:48:05 | [rl2_trainer] epoch #464 | Fitting baseline...
2025-04-03 14:48:05 | [rl2_trainer] epoch #464 | Computing loss before
2025-04-03 14:48:06 | [rl2_trainer] epoch #464 | Computing KL before
2025-04-03 14:48:07 | [rl2_trainer] epoch #464 | Optimizing
2025-04-03 14:48:43 | [rl2_trainer] epoch #464 | Computing KL after
2025-04-03 14:48:43 | [rl2_trainer] epoch #464 | Computing loss after
2025-04-03 14:48:44 | [rl2_trainer] epoch #464 | Saving snapshot...
2025-04-03 14:48:44 | [rl2_trainer] epoch #464 | Saved
2025-04-03 14:48:44 | [rl2_trainer] epoch #464 | Time 89805.36 s
2025-04-03 14:48:44 | [rl2_trainer] epoch #464 | EpochTime 187.05 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.8944
Average/AverageReturn                     -16.2355
Average/Iteration                         464
Average/MaxReturn                           8.9552
Average/MinReturn                         -28.826
Average/NumEpisodes                       100
Average/StdReturn                           7.54259
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.786258
TotalEnvSteps                               4.65e+06
__unnamed_task__/AverageDiscountedReturn  -10.8944
__unnamed_task__/AverageReturn            -16.2355
__unnamed_task__/Iteration                464
__unnamed_task__/MaxReturn                  8.9552
__unnamed_task__/MinReturn                -28.826
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.54259
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.557981
policy/KL                                   0.0138638
policy/KLBefore                             0
policy/LossAfter                           -0.0213694
policy/LossBefore                          -0.00172366
policy/dLoss                                0.0196458
----------------------------------------  ------------
2025-04-03 14:52:21 | [rl2_trainer] epoch #465 | Optimizing policy...
2025-04-03 14:52:21 | [rl2_trainer] epoch #465 | Fitting baseline...
2025-04-03 14:52:21 | [rl2_trainer] epoch #465 | Computing loss before
2025-04-03 14:52:21 | [rl2_trainer] epoch #465 | Computing KL before
2025-04-03 14:52:22 | [rl2_trainer] epoch #465 | Optimizing
2025-04-03 14:52:54 | [rl2_trainer] epoch #465 | Computing KL after
2025-04-03 14:52:55 | [rl2_trainer] epoch #465 | Computing loss after
2025-04-03 14:52:56 | [rl2_trainer] epoch #465 | Saving snapshot...
2025-04-03 14:52:56 | [rl2_trainer] epoch #465 | Saved
2025-04-03 14:52:56 | [rl2_trainer] epoch #465 | Time 90056.83 s
2025-04-03 14:52:56 | [rl2_trainer] epoch #465 | EpochTime 251.47 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -18.6695
Average/AverageReturn                     -30.0047
Average/Iteration                         465
Average/MaxReturn                         -16.2106
Average/MinReturn                         -57.0696
Average/NumEpisodes                       100
Average/StdReturn                          11.4024
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.877032
TotalEnvSteps                               4.66e+06
__unnamed_task__/AverageDiscountedReturn  -18.6695
__unnamed_task__/AverageReturn            -30.0047
__unnamed_task__/Iteration                465
__unnamed_task__/MaxReturn                -16.2106
__unnamed_task__/MinReturn                -57.0696
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.4024
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.543291
policy/KL                                   0.0133392
policy/KLBefore                             0
policy/LossAfter                           -0.0334469
policy/LossBefore                          -0.00569571
policy/dLoss                                0.0277512
----------------------------------------  ------------
2025-04-03 14:56:20 | [rl2_trainer] epoch #466 | Optimizing policy...
2025-04-03 14:56:20 | [rl2_trainer] epoch #466 | Fitting baseline...
2025-04-03 14:56:20 | [rl2_trainer] epoch #466 | Computing loss before
2025-04-03 14:56:21 | [rl2_trainer] epoch #466 | Computing KL before
2025-04-03 14:56:21 | [rl2_trainer] epoch #466 | Optimizing
2025-04-03 14:56:55 | [rl2_trainer] epoch #466 | Computing KL after
2025-04-03 14:56:55 | [rl2_trainer] epoch #466 | Computing loss after
2025-04-03 14:56:56 | [rl2_trainer] epoch #466 | Saving snapshot...
2025-04-03 14:56:56 | [rl2_trainer] epoch #466 | Saved
2025-04-03 14:56:56 | [rl2_trainer] epoch #466 | Time 90297.02 s
2025-04-03 14:56:56 | [rl2_trainer] epoch #466 | EpochTime 240.18 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -18.1074
Average/AverageReturn                     -29.0937
Average/Iteration                         466
Average/MaxReturn                         -15.9551
Average/MinReturn                         -71.0741
Average/NumEpisodes                       100
Average/StdReturn                          11.8139
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.873652
TotalEnvSteps                               4.67e+06
__unnamed_task__/AverageDiscountedReturn  -18.1074
__unnamed_task__/AverageReturn            -29.0937
__unnamed_task__/Iteration                466
__unnamed_task__/MaxReturn                -15.9551
__unnamed_task__/MinReturn                -71.0741
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.8139
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.52657
policy/KL                                   0.0158911
policy/KLBefore                             0
policy/LossAfter                           -0.0334716
policy/LossBefore                           0.00343669
policy/dLoss                                0.0369083
----------------------------------------  ------------
2025-04-03 14:59:05 | [rl2_trainer] epoch #467 | Optimizing policy...
2025-04-03 14:59:05 | [rl2_trainer] epoch #467 | Fitting baseline...
2025-04-03 14:59:05 | [rl2_trainer] epoch #467 | Computing loss before
2025-04-03 14:59:06 | [rl2_trainer] epoch #467 | Computing KL before
2025-04-03 14:59:06 | [rl2_trainer] epoch #467 | Optimizing
2025-04-03 14:59:42 | [rl2_trainer] epoch #467 | Computing KL after
2025-04-03 14:59:42 | [rl2_trainer] epoch #467 | Computing loss after
2025-04-03 14:59:43 | [rl2_trainer] epoch #467 | Saving snapshot...
2025-04-03 14:59:43 | [rl2_trainer] epoch #467 | Saved
2025-04-03 14:59:43 | [rl2_trainer] epoch #467 | Time 90464.37 s
2025-04-03 14:59:43 | [rl2_trainer] epoch #467 | EpochTime 167.36 s
----------------------------------------  -------------
Average/AverageDiscountedReturn            -9.33778
Average/AverageReturn                     -12.9693
Average/Iteration                         467
Average/MaxReturn                          27.3322
Average/MinReturn                         -60.7553
Average/NumEpisodes                       100
Average/StdReturn                          11.5088
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.226417
TotalEnvSteps                               4.68e+06
__unnamed_task__/AverageDiscountedReturn   -9.33778
__unnamed_task__/AverageReturn            -12.9693
__unnamed_task__/Iteration                467
__unnamed_task__/MaxReturn                 27.3322
__unnamed_task__/MinReturn                -60.7553
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.5088
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.527647
policy/KL                                   0.0293443
policy/KLBefore                             0
policy/LossAfter                           -0.0646315
policy/LossBefore                          -0.000633282
policy/dLoss                                0.0639982
----------------------------------------  -------------
2025-04-03 15:01:51 | [rl2_trainer] epoch #468 | Optimizing policy...
2025-04-03 15:01:51 | [rl2_trainer] epoch #468 | Fitting baseline...
2025-04-03 15:01:51 | [rl2_trainer] epoch #468 | Computing loss before
2025-04-03 15:01:52 | [rl2_trainer] epoch #468 | Computing KL before
2025-04-03 15:01:53 | [rl2_trainer] epoch #468 | Optimizing
2025-04-03 15:02:29 | [rl2_trainer] epoch #468 | Computing KL after
2025-04-03 15:02:29 | [rl2_trainer] epoch #468 | Computing loss after
2025-04-03 15:02:30 | [rl2_trainer] epoch #468 | Saving snapshot...
2025-04-03 15:02:30 | [rl2_trainer] epoch #468 | Saved
2025-04-03 15:02:30 | [rl2_trainer] epoch #468 | Time 90631.19 s
2025-04-03 15:02:30 | [rl2_trainer] epoch #468 | EpochTime 166.81 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -9.11647
Average/AverageReturn                     -12.6876
Average/Iteration                         468
Average/MaxReturn                          32.9389
Average/MinReturn                         -91.1579
Average/NumEpisodes                       100
Average/StdReturn                          13.359
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.49734
TotalEnvSteps                               4.69e+06
__unnamed_task__/AverageDiscountedReturn   -9.11647
__unnamed_task__/AverageReturn            -12.6876
__unnamed_task__/Iteration                468
__unnamed_task__/MaxReturn                 32.9389
__unnamed_task__/MinReturn                -91.1579
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.359
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.52409
policy/KL                                   0.0169945
policy/KLBefore                             0
policy/LossAfter                           -0.0593846
policy/LossBefore                          -0.00200397
policy/dLoss                                0.0573807
----------------------------------------  ------------
2025-04-03 15:04:46 | [rl2_trainer] epoch #469 | Optimizing policy...
2025-04-03 15:04:47 | [rl2_trainer] epoch #469 | Fitting baseline...
2025-04-03 15:04:47 | [rl2_trainer] epoch #469 | Computing loss before
2025-04-03 15:04:47 | [rl2_trainer] epoch #469 | Computing KL before
2025-04-03 15:04:48 | [rl2_trainer] epoch #469 | Optimizing
2025-04-03 15:05:23 | [rl2_trainer] epoch #469 | Computing KL after
2025-04-03 15:05:23 | [rl2_trainer] epoch #469 | Computing loss after
2025-04-03 15:05:24 | [rl2_trainer] epoch #469 | Saving snapshot...
2025-04-03 15:05:24 | [rl2_trainer] epoch #469 | Saved
2025-04-03 15:05:24 | [rl2_trainer] epoch #469 | Time 90805.27 s
2025-04-03 15:05:24 | [rl2_trainer] epoch #469 | EpochTime 174.08 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.1428
Average/AverageReturn                     -16.9574
Average/Iteration                         469
Average/MaxReturn                          19.5772
Average/MinReturn                         -31.5022
Average/NumEpisodes                       100
Average/StdReturn                           9.41931
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.574297
TotalEnvSteps                               4.7e+06
__unnamed_task__/AverageDiscountedReturn  -11.1428
__unnamed_task__/AverageReturn            -16.9574
__unnamed_task__/Iteration                469
__unnamed_task__/MaxReturn                 19.5772
__unnamed_task__/MinReturn                -31.5022
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.41931
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.508266
policy/KL                                   0.0121669
policy/KLBefore                             0
policy/LossAfter                           -0.0356815
policy/LossBefore                          -0.00204622
policy/dLoss                                0.0336353
----------------------------------------  ------------
2025-04-03 15:06:51 | [rl2_trainer] epoch #470 | Optimizing policy...
2025-04-03 15:06:51 | [rl2_trainer] epoch #470 | Fitting baseline...
2025-04-03 15:06:51 | [rl2_trainer] epoch #470 | Computing loss before
2025-04-03 15:06:52 | [rl2_trainer] epoch #470 | Computing KL before
2025-04-03 15:06:53 | [rl2_trainer] epoch #470 | Optimizing
2025-04-03 15:07:30 | [rl2_trainer] epoch #470 | Computing KL after
2025-04-03 15:07:31 | [rl2_trainer] epoch #470 | Computing loss after
2025-04-03 15:07:31 | [rl2_trainer] epoch #470 | Saving snapshot...
2025-04-03 15:07:31 | [rl2_trainer] epoch #470 | Saved
2025-04-03 15:07:31 | [rl2_trainer] epoch #470 | Time 90932.44 s
2025-04-03 15:07:31 | [rl2_trainer] epoch #470 | EpochTime 127.17 s
----------------------------------------  -----------
Average/AverageDiscountedReturn            -6.64971
Average/AverageReturn                      -9.37041
Average/Iteration                         470
Average/MaxReturn                          74.1957
Average/MinReturn                         -50.185
Average/NumEpisodes                       100
Average/StdReturn                          15.2362
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.551523
TotalEnvSteps                               4.71e+06
__unnamed_task__/AverageDiscountedReturn   -6.64971
__unnamed_task__/AverageReturn             -9.37041
__unnamed_task__/Iteration                470
__unnamed_task__/MaxReturn                 74.1957
__unnamed_task__/MinReturn                -50.185
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 15.2362
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.501457
policy/KL                                   0.0197557
policy/KLBefore                             0
policy/LossAfter                           -0.116093
policy/LossBefore                          -0.0276406
policy/dLoss                                0.0884524
----------------------------------------  -----------
2025-04-03 15:09:30 | [rl2_trainer] epoch #471 | Optimizing policy...
2025-04-03 15:09:30 | [rl2_trainer] epoch #471 | Fitting baseline...
2025-04-03 15:09:30 | [rl2_trainer] epoch #471 | Computing loss before
2025-04-03 15:09:31 | [rl2_trainer] epoch #471 | Computing KL before
2025-04-03 15:09:32 | [rl2_trainer] epoch #471 | Optimizing
2025-04-03 15:10:07 | [rl2_trainer] epoch #471 | Computing KL after
2025-04-03 15:10:08 | [rl2_trainer] epoch #471 | Computing loss after
2025-04-03 15:10:09 | [rl2_trainer] epoch #471 | Saving snapshot...
2025-04-03 15:10:09 | [rl2_trainer] epoch #471 | Saved
2025-04-03 15:10:09 | [rl2_trainer] epoch #471 | Time 91089.65 s
2025-04-03 15:10:09 | [rl2_trainer] epoch #471 | EpochTime 157.21 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -10.8217
Average/AverageReturn                     -15.8475
Average/Iteration                         471
Average/MaxReturn                           9.03208
Average/MinReturn                         -30.0861
Average/NumEpisodes                       100
Average/StdReturn                           5.89474
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.46939
TotalEnvSteps                               4.72e+06
__unnamed_task__/AverageDiscountedReturn  -10.8217
__unnamed_task__/AverageReturn            -15.8475
__unnamed_task__/Iteration                471
__unnamed_task__/MaxReturn                  9.03208
__unnamed_task__/MinReturn                -30.0861
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  5.89474
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.496937
policy/KL                                   0.0139082
policy/KLBefore                             0
policy/LossAfter                           -0.0207056
policy/LossBefore                          -0.00132485
policy/dLoss                                0.0193807
----------------------------------------  ------------
2025-04-03 15:12:54 | [rl2_trainer] epoch #472 | Optimizing policy...
2025-04-03 15:12:54 | [rl2_trainer] epoch #472 | Fitting baseline...
2025-04-03 15:12:54 | [rl2_trainer] epoch #472 | Computing loss before
2025-04-03 15:12:55 | [rl2_trainer] epoch #472 | Computing KL before
2025-04-03 15:12:55 | [rl2_trainer] epoch #472 | Optimizing
2025-04-03 15:13:32 | [rl2_trainer] epoch #472 | Computing KL after
2025-04-03 15:13:32 | [rl2_trainer] epoch #472 | Computing loss after
2025-04-03 15:13:33 | [rl2_trainer] epoch #472 | Saving snapshot...
2025-04-03 15:13:33 | [rl2_trainer] epoch #472 | Saved
2025-04-03 15:13:33 | [rl2_trainer] epoch #472 | Time 91294.35 s
2025-04-03 15:13:33 | [rl2_trainer] epoch #472 | EpochTime 204.70 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -13.5844
Average/AverageReturn                     -21.384
Average/Iteration                         472
Average/MaxReturn                          27.9309
Average/MinReturn                         -62.1811
Average/NumEpisodes                       100
Average/StdReturn                          18.6214
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.896583
TotalEnvSteps                               4.73e+06
__unnamed_task__/AverageDiscountedReturn  -13.5844
__unnamed_task__/AverageReturn            -21.384
__unnamed_task__/Iteration                472
__unnamed_task__/MaxReturn                 27.9309
__unnamed_task__/MinReturn                -62.1811
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 18.6214
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.487203
policy/KL                                   0.0176711
policy/KLBefore                             0
policy/LossAfter                           -0.0724549
policy/LossBefore                          -0.0099126
policy/dLoss                                0.0625423
----------------------------------------  -----------
2025-04-03 15:17:02 | [rl2_trainer] epoch #473 | Optimizing policy...
2025-04-03 15:17:02 | [rl2_trainer] epoch #473 | Fitting baseline...
2025-04-03 15:17:02 | [rl2_trainer] epoch #473 | Computing loss before
2025-04-03 15:17:03 | [rl2_trainer] epoch #473 | Computing KL before
2025-04-03 15:17:03 | [rl2_trainer] epoch #473 | Optimizing
2025-04-03 15:17:38 | [rl2_trainer] epoch #473 | Computing KL after
2025-04-03 15:17:38 | [rl2_trainer] epoch #473 | Computing loss after
2025-04-03 15:17:39 | [rl2_trainer] epoch #473 | Saving snapshot...
2025-04-03 15:17:39 | [rl2_trainer] epoch #473 | Saved
2025-04-03 15:17:39 | [rl2_trainer] epoch #473 | Time 91540.04 s
2025-04-03 15:17:39 | [rl2_trainer] epoch #473 | EpochTime 245.68 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.0219
Average/AverageReturn                     -20.6125
Average/Iteration                         473
Average/MaxReturn                          32.0359
Average/MinReturn                         -60.3525
Average/NumEpisodes                       100
Average/StdReturn                          16.6307
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.850854
TotalEnvSteps                               4.74e+06
__unnamed_task__/AverageDiscountedReturn  -13.0219
__unnamed_task__/AverageReturn            -20.6125
__unnamed_task__/Iteration                473
__unnamed_task__/MaxReturn                 32.0359
__unnamed_task__/MinReturn                -60.3525
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 16.6307
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.453373
policy/KL                                   0.0196518
policy/KLBefore                             0
policy/LossAfter                           -0.0524054
policy/LossBefore                           0.00694569
policy/dLoss                                0.0593511
----------------------------------------  ------------
2025-04-03 15:19:04 | [rl2_trainer] epoch #474 | Optimizing policy...
2025-04-03 15:19:05 | [rl2_trainer] epoch #474 | Fitting baseline...
2025-04-03 15:19:05 | [rl2_trainer] epoch #474 | Computing loss before
2025-04-03 15:19:05 | [rl2_trainer] epoch #474 | Computing KL before
2025-04-03 15:19:06 | [rl2_trainer] epoch #474 | Optimizing
2025-04-03 15:19:43 | [rl2_trainer] epoch #474 | Computing KL after
2025-04-03 15:19:43 | [rl2_trainer] epoch #474 | Computing loss after
2025-04-03 15:19:44 | [rl2_trainer] epoch #474 | Saving snapshot...
2025-04-03 15:19:44 | [rl2_trainer] epoch #474 | Saved
2025-04-03 15:19:44 | [rl2_trainer] epoch #474 | Time 91665.16 s
2025-04-03 15:19:44 | [rl2_trainer] epoch #474 | EpochTime 125.11 s
----------------------------------------  -----------
Average/AverageDiscountedReturn            -7.09292
Average/AverageReturn                      -9.79849
Average/Iteration                         474
Average/MaxReturn                          38.4679
Average/MinReturn                         -42.4487
Average/NumEpisodes                       100
Average/StdReturn                          13.1441
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.650873
TotalEnvSteps                               4.75e+06
__unnamed_task__/AverageDiscountedReturn   -7.09292
__unnamed_task__/AverageReturn             -9.79849
__unnamed_task__/Iteration                474
__unnamed_task__/MaxReturn                 38.4679
__unnamed_task__/MinReturn                -42.4487
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.1441
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.40906
policy/KL                                   0.0183932
policy/KLBefore                             0
policy/LossAfter                           -0.0738582
policy/LossBefore                          -0.0242922
policy/dLoss                                0.0495659
----------------------------------------  -----------
2025-04-03 15:21:41 | [rl2_trainer] epoch #475 | Optimizing policy...
2025-04-03 15:21:42 | [rl2_trainer] epoch #475 | Fitting baseline...
2025-04-03 15:21:42 | [rl2_trainer] epoch #475 | Computing loss before
2025-04-03 15:21:42 | [rl2_trainer] epoch #475 | Computing KL before
2025-04-03 15:21:43 | [rl2_trainer] epoch #475 | Optimizing
2025-04-03 15:22:18 | [rl2_trainer] epoch #475 | Computing KL after
2025-04-03 15:22:19 | [rl2_trainer] epoch #475 | Computing loss after
2025-04-03 15:22:19 | [rl2_trainer] epoch #475 | Saving snapshot...
2025-04-03 15:22:19 | [rl2_trainer] epoch #475 | Saved
2025-04-03 15:22:19 | [rl2_trainer] epoch #475 | Time 91820.47 s
2025-04-03 15:22:19 | [rl2_trainer] epoch #475 | EpochTime 155.31 s
----------------------------------------  -----------
Average/AverageDiscountedReturn            -9.78834
Average/AverageReturn                     -14.0668
Average/Iteration                         475
Average/MaxReturn                          34.9047
Average/MinReturn                         -31.5773
Average/NumEpisodes                       100
Average/StdReturn                          10.4421
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.465035
TotalEnvSteps                               4.76e+06
__unnamed_task__/AverageDiscountedReturn   -9.78834
__unnamed_task__/AverageReturn            -14.0668
__unnamed_task__/Iteration                475
__unnamed_task__/MaxReturn                 34.9047
__unnamed_task__/MinReturn                -31.5773
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.4421
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.368624
policy/KL                                   0.016597
policy/KLBefore                             0
policy/LossAfter                           -0.0546827
policy/LossBefore                          -0.0144497
policy/dLoss                                0.040233
----------------------------------------  -----------
2025-04-03 15:24:18 | [rl2_trainer] epoch #476 | Optimizing policy...
2025-04-03 15:24:18 | [rl2_trainer] epoch #476 | Fitting baseline...
2025-04-03 15:24:18 | [rl2_trainer] epoch #476 | Computing loss before
2025-04-03 15:24:19 | [rl2_trainer] epoch #476 | Computing KL before
2025-04-03 15:24:20 | [rl2_trainer] epoch #476 | Optimizing
2025-04-03 15:24:55 | [rl2_trainer] epoch #476 | Computing KL after
2025-04-03 15:24:56 | [rl2_trainer] epoch #476 | Computing loss after
2025-04-03 15:24:57 | [rl2_trainer] epoch #476 | Saving snapshot...
2025-04-03 15:24:57 | [rl2_trainer] epoch #476 | Saved
2025-04-03 15:24:57 | [rl2_trainer] epoch #476 | Time 91977.58 s
2025-04-03 15:24:57 | [rl2_trainer] epoch #476 | EpochTime 157.11 s
----------------------------------------  -------------
Average/AverageDiscountedReturn           -10.8661
Average/AverageReturn                     -15.7643
Average/Iteration                         476
Average/MaxReturn                          24.7837
Average/MinReturn                         -33.583
Average/NumEpisodes                       100
Average/StdReturn                           8.11018
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.339319
TotalEnvSteps                               4.77e+06
__unnamed_task__/AverageDiscountedReturn  -10.8661
__unnamed_task__/AverageReturn            -15.7643
__unnamed_task__/Iteration                476
__unnamed_task__/MaxReturn                 24.7837
__unnamed_task__/MinReturn                -33.583
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.11018
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.335124
policy/KL                                   0.0144787
policy/KLBefore                             0
policy/LossAfter                           -0.0291119
policy/LossBefore                          -0.000639203
policy/dLoss                                0.0284727
----------------------------------------  -------------
2025-04-03 15:27:25 | [rl2_trainer] epoch #477 | Optimizing policy...
2025-04-03 15:27:25 | [rl2_trainer] epoch #477 | Fitting baseline...
2025-04-03 15:27:25 | [rl2_trainer] epoch #477 | Computing loss before
2025-04-03 15:27:26 | [rl2_trainer] epoch #477 | Computing KL before
2025-04-03 15:27:26 | [rl2_trainer] epoch #477 | Optimizing
2025-04-03 15:28:03 | [rl2_trainer] epoch #477 | Computing KL after
2025-04-03 15:28:03 | [rl2_trainer] epoch #477 | Computing loss after
2025-04-03 15:28:04 | [rl2_trainer] epoch #477 | Saving snapshot...
2025-04-03 15:28:04 | [rl2_trainer] epoch #477 | Saved
2025-04-03 15:28:04 | [rl2_trainer] epoch #477 | Time 92165.11 s
2025-04-03 15:28:04 | [rl2_trainer] epoch #477 | EpochTime 187.53 s
----------------------------------------  -----------
Average/AverageDiscountedReturn            -8.83731
Average/AverageReturn                     -13.0622
Average/Iteration                         477
Average/MaxReturn                          33.4467
Average/MinReturn                         -25.4723
Average/NumEpisodes                       100
Average/StdReturn                          12.3284
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.69979
TotalEnvSteps                               4.78e+06
__unnamed_task__/AverageDiscountedReturn   -8.83731
__unnamed_task__/AverageReturn            -13.0622
__unnamed_task__/Iteration                477
__unnamed_task__/MaxReturn                 33.4467
__unnamed_task__/MinReturn                -25.4723
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.3284
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.3166
policy/KL                                   0.015744
policy/KLBefore                             0
policy/LossAfter                           -0.0255962
policy/LossBefore                           0.0129715
policy/dLoss                                0.0385677
----------------------------------------  -----------
2025-04-03 15:30:31 | [rl2_trainer] epoch #478 | Optimizing policy...
2025-04-03 15:30:31 | [rl2_trainer] epoch #478 | Fitting baseline...
2025-04-03 15:30:31 | [rl2_trainer] epoch #478 | Computing loss before
2025-04-03 15:30:32 | [rl2_trainer] epoch #478 | Computing KL before
2025-04-03 15:30:32 | [rl2_trainer] epoch #478 | Optimizing
2025-04-03 15:31:07 | [rl2_trainer] epoch #478 | Computing KL after
2025-04-03 15:31:07 | [rl2_trainer] epoch #478 | Computing loss after
2025-04-03 15:31:08 | [rl2_trainer] epoch #478 | Saving snapshot...
2025-04-03 15:31:08 | [rl2_trainer] epoch #478 | Saved
2025-04-03 15:31:08 | [rl2_trainer] epoch #478 | Time 92349.15 s
2025-04-03 15:31:08 | [rl2_trainer] epoch #478 | EpochTime 184.04 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -7.39284
Average/AverageReturn                     -10.4987
Average/Iteration                         478
Average/MaxReturn                          48.3674
Average/MinReturn                         -29.0694
Average/NumEpisodes                       100
Average/StdReturn                          15.2994
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.762508
TotalEnvSteps                               4.79e+06
__unnamed_task__/AverageDiscountedReturn   -7.39284
__unnamed_task__/AverageReturn            -10.4987
__unnamed_task__/Iteration                478
__unnamed_task__/MaxReturn                 48.3674
__unnamed_task__/MinReturn                -29.0694
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 15.2994
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.312658
policy/KL                                   0.0148744
policy/KLBefore                             0
policy/LossAfter                           -0.0673734
policy/LossBefore                           0.00447937
policy/dLoss                                0.0718528
----------------------------------------  ------------
2025-04-03 15:34:08 | [rl2_trainer] epoch #479 | Optimizing policy...
2025-04-03 15:34:08 | [rl2_trainer] epoch #479 | Fitting baseline...
2025-04-03 15:34:08 | [rl2_trainer] epoch #479 | Computing loss before
2025-04-03 15:34:08 | [rl2_trainer] epoch #479 | Computing KL before
2025-04-03 15:34:09 | [rl2_trainer] epoch #479 | Optimizing
2025-04-03 15:34:42 | [rl2_trainer] epoch #479 | Computing KL after
2025-04-03 15:34:43 | [rl2_trainer] epoch #479 | Computing loss after
2025-04-03 15:34:44 | [rl2_trainer] epoch #479 | Saving snapshot...
2025-04-03 15:34:44 | [rl2_trainer] epoch #479 | Saved
2025-04-03 15:34:44 | [rl2_trainer] epoch #479 | Time 92564.64 s
2025-04-03 15:34:44 | [rl2_trainer] epoch #479 | EpochTime 215.49 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.361
Average/AverageReturn                     -16.5894
Average/Iteration                         479
Average/MaxReturn                          19.1229
Average/MinReturn                         -34.9599
Average/NumEpisodes                       100
Average/StdReturn                           8.57327
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.575904
TotalEnvSteps                               4.8e+06
__unnamed_task__/AverageDiscountedReturn  -11.361
__unnamed_task__/AverageReturn            -16.5894
__unnamed_task__/Iteration                479
__unnamed_task__/MaxReturn                 19.1229
__unnamed_task__/MinReturn                -34.9599
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.57327
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.300295
policy/KL                                   0.0157922
policy/KLBefore                             0
policy/LossAfter                           -0.0389757
policy/LossBefore                          -0.00349732
policy/dLoss                                0.0354784
----------------------------------------  ------------
2025-04-03 15:37:09 | [rl2_trainer] epoch #480 | Optimizing policy...
2025-04-03 15:37:10 | [rl2_trainer] epoch #480 | Fitting baseline...
2025-04-03 15:37:10 | [rl2_trainer] epoch #480 | Computing loss before
2025-04-03 15:37:10 | [rl2_trainer] epoch #480 | Computing KL before
2025-04-03 15:37:11 | [rl2_trainer] epoch #480 | Optimizing
2025-04-03 15:37:45 | [rl2_trainer] epoch #480 | Computing KL after
2025-04-03 15:37:46 | [rl2_trainer] epoch #480 | Computing loss after
2025-04-03 15:37:46 | [rl2_trainer] epoch #480 | Saving snapshot...
2025-04-03 15:37:46 | [rl2_trainer] epoch #480 | Saved
2025-04-03 15:37:46 | [rl2_trainer] epoch #480 | Time 92747.42 s
2025-04-03 15:37:46 | [rl2_trainer] epoch #480 | EpochTime 182.77 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.2402
Average/AverageReturn                     -16.4125
Average/Iteration                         480
Average/MaxReturn                           9.95464
Average/MinReturn                         -30.8376
Average/NumEpisodes                       100
Average/StdReturn                           7.4106
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.645172
TotalEnvSteps                               4.81e+06
__unnamed_task__/AverageDiscountedReturn  -11.2402
__unnamed_task__/AverageReturn            -16.4125
__unnamed_task__/Iteration                480
__unnamed_task__/MaxReturn                  9.95464
__unnamed_task__/MinReturn                -30.8376
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.4106
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.284465
policy/KL                                   0.0147417
policy/KLBefore                             0
policy/LossAfter                           -0.0325798
policy/LossBefore                          -0.00696936
policy/dLoss                                0.0256105
----------------------------------------  ------------
2025-04-03 15:39:54 | [rl2_trainer] epoch #481 | Optimizing policy...
2025-04-03 15:39:54 | [rl2_trainer] epoch #481 | Fitting baseline...
2025-04-03 15:39:54 | [rl2_trainer] epoch #481 | Computing loss before
2025-04-03 15:39:55 | [rl2_trainer] epoch #481 | Computing KL before
2025-04-03 15:39:55 | [rl2_trainer] epoch #481 | Optimizing
2025-04-03 15:40:31 | [rl2_trainer] epoch #481 | Computing KL after
2025-04-03 15:40:32 | [rl2_trainer] epoch #481 | Computing loss after
2025-04-03 15:40:33 | [rl2_trainer] epoch #481 | Saving snapshot...
2025-04-03 15:40:33 | [rl2_trainer] epoch #481 | Saved
2025-04-03 15:40:33 | [rl2_trainer] epoch #481 | Time 92913.88 s
2025-04-03 15:40:33 | [rl2_trainer] epoch #481 | EpochTime 166.46 s
----------------------------------------  -----------
Average/AverageDiscountedReturn            -7.27183
Average/AverageReturn                      -9.58932
Average/Iteration                         481
Average/MaxReturn                          48.7884
Average/MinReturn                         -29.0447
Average/NumEpisodes                       100
Average/StdReturn                          12.6443
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.512367
TotalEnvSteps                               4.82e+06
__unnamed_task__/AverageDiscountedReturn   -7.27183
__unnamed_task__/AverageReturn             -9.58932
__unnamed_task__/Iteration                481
__unnamed_task__/MaxReturn                 48.7884
__unnamed_task__/MinReturn                -29.0447
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.6443
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.262653
policy/KL                                   0.0182046
policy/KLBefore                             0
policy/LossAfter                           -0.0391409
policy/LossBefore                           0.0178479
policy/dLoss                                0.0569888
----------------------------------------  -----------
2025-04-03 15:43:30 | [rl2_trainer] epoch #482 | Optimizing policy...
2025-04-03 15:43:30 | [rl2_trainer] epoch #482 | Fitting baseline...
2025-04-03 15:43:30 | [rl2_trainer] epoch #482 | Computing loss before
2025-04-03 15:43:31 | [rl2_trainer] epoch #482 | Computing KL before
2025-04-03 15:43:31 | [rl2_trainer] epoch #482 | Optimizing
2025-04-03 15:44:08 | [rl2_trainer] epoch #482 | Computing KL after
2025-04-03 15:44:09 | [rl2_trainer] epoch #482 | Computing loss after
2025-04-03 15:44:10 | [rl2_trainer] epoch #482 | Saving snapshot...
2025-04-03 15:44:10 | [rl2_trainer] epoch #482 | Saved
2025-04-03 15:44:10 | [rl2_trainer] epoch #482 | Time 93130.57 s
2025-04-03 15:44:10 | [rl2_trainer] epoch #482 | EpochTime 216.69 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -11.5631
Average/AverageReturn                     -17.0756
Average/Iteration                         482
Average/MaxReturn                           8.68553
Average/MinReturn                         -31.1288
Average/NumEpisodes                       100
Average/StdReturn                           6.3976
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.603943
TotalEnvSteps                               4.83e+06
__unnamed_task__/AverageDiscountedReturn  -11.5631
__unnamed_task__/AverageReturn            -17.0756
__unnamed_task__/Iteration                482
__unnamed_task__/MaxReturn                  8.68553
__unnamed_task__/MinReturn                -31.1288
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  6.3976
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.234637
policy/KL                                   0.0122253
policy/KLBefore                             0
policy/LossAfter                           -0.02593
policy/LossBefore                          -0.0121969
policy/dLoss                                0.0137332
----------------------------------------  -----------
2025-04-03 15:47:26 | [rl2_trainer] epoch #483 | Optimizing policy...
2025-04-03 15:47:26 | [rl2_trainer] epoch #483 | Fitting baseline...
2025-04-03 15:47:26 | [rl2_trainer] epoch #483 | Computing loss before
2025-04-03 15:47:27 | [rl2_trainer] epoch #483 | Computing KL before
2025-04-03 15:47:27 | [rl2_trainer] epoch #483 | Optimizing
2025-04-03 15:48:03 | [rl2_trainer] epoch #483 | Computing KL after
2025-04-03 15:48:03 | [rl2_trainer] epoch #483 | Computing loss after
2025-04-03 15:48:04 | [rl2_trainer] epoch #483 | Saving snapshot...
2025-04-03 15:48:04 | [rl2_trainer] epoch #483 | Saved
2025-04-03 15:48:04 | [rl2_trainer] epoch #483 | Time 93365.24 s
2025-04-03 15:48:04 | [rl2_trainer] epoch #483 | EpochTime 234.67 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -17.2305
Average/AverageReturn                     -27.7013
Average/Iteration                         483
Average/MaxReturn                           7.91899
Average/MinReturn                         -57.1773
Average/NumEpisodes                       100
Average/StdReturn                          13.3555
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.812739
TotalEnvSteps                               4.84e+06
__unnamed_task__/AverageDiscountedReturn  -17.2305
__unnamed_task__/AverageReturn            -27.7013
__unnamed_task__/Iteration                483
__unnamed_task__/MaxReturn                  7.91899
__unnamed_task__/MinReturn                -57.1773
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.3555
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.219143
policy/KL                                   0.0217437
policy/KLBefore                             0
policy/LossAfter                           -0.0436236
policy/LossBefore                          -0.00184396
policy/dLoss                                0.0417796
----------------------------------------  ------------
2025-04-03 15:50:42 | [rl2_trainer] epoch #484 | Optimizing policy...
2025-04-03 15:50:43 | [rl2_trainer] epoch #484 | Fitting baseline...
2025-04-03 15:50:43 | [rl2_trainer] epoch #484 | Computing loss before
2025-04-03 15:50:43 | [rl2_trainer] epoch #484 | Computing KL before
2025-04-03 15:50:44 | [rl2_trainer] epoch #484 | Optimizing
2025-04-03 15:51:21 | [rl2_trainer] epoch #484 | Computing KL after
2025-04-03 15:51:21 | [rl2_trainer] epoch #484 | Computing loss after
2025-04-03 15:51:22 | [rl2_trainer] epoch #484 | Saving snapshot...
2025-04-03 15:51:22 | [rl2_trainer] epoch #484 | Saved
2025-04-03 15:51:22 | [rl2_trainer] epoch #484 | Time 93563.11 s
2025-04-03 15:51:22 | [rl2_trainer] epoch #484 | EpochTime 197.87 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -14.2529
Average/AverageReturn                     -22.6002
Average/Iteration                         484
Average/MaxReturn                          38.4137
Average/MinReturn                         -66.2902
Average/NumEpisodes                       100
Average/StdReturn                          24.1733
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.906915
TotalEnvSteps                               4.85e+06
__unnamed_task__/AverageDiscountedReturn  -14.2529
__unnamed_task__/AverageReturn            -22.6002
__unnamed_task__/Iteration                484
__unnamed_task__/MaxReturn                 38.4137
__unnamed_task__/MinReturn                -66.2902
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 24.1733
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.225833
policy/KL                                   0.0194892
policy/KLBefore                             0
policy/LossAfter                           -0.100601
policy/LossBefore                          -0.00441959
policy/dLoss                                0.0961809
----------------------------------------  ------------
2025-04-03 15:55:22 | [rl2_trainer] epoch #485 | Optimizing policy...
2025-04-03 15:55:23 | [rl2_trainer] epoch #485 | Fitting baseline...
2025-04-03 15:55:23 | [rl2_trainer] epoch #485 | Computing loss before
2025-04-03 15:55:23 | [rl2_trainer] epoch #485 | Computing KL before
2025-04-03 15:55:24 | [rl2_trainer] epoch #485 | Optimizing
2025-04-03 15:55:58 | [rl2_trainer] epoch #485 | Computing KL after
2025-04-03 15:55:59 | [rl2_trainer] epoch #485 | Computing loss after
2025-04-03 15:56:00 | [rl2_trainer] epoch #485 | Saving snapshot...
2025-04-03 15:56:00 | [rl2_trainer] epoch #485 | Saved
2025-04-03 15:56:00 | [rl2_trainer] epoch #485 | Time 93840.73 s
2025-04-03 15:56:00 | [rl2_trainer] epoch #485 | EpochTime 277.61 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -18.402
Average/AverageReturn                     -29.6723
Average/Iteration                         485
Average/MaxReturn                         -17.2357
Average/MinReturn                         -72.8097
Average/NumEpisodes                       100
Average/StdReturn                          11.3671
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.852489
TotalEnvSteps                               4.86e+06
__unnamed_task__/AverageDiscountedReturn  -18.402
__unnamed_task__/AverageReturn            -29.6723
__unnamed_task__/Iteration                485
__unnamed_task__/MaxReturn                -17.2357
__unnamed_task__/MinReturn                -72.8097
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.3671
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.229574
policy/KL                                   0.0152173
policy/KLBefore                             0
policy/LossAfter                           -0.0416219
policy/LossBefore                          -0.0105578
policy/dLoss                                0.0310641
----------------------------------------  -----------
2025-04-03 15:59:49 | [rl2_trainer] epoch #486 | Optimizing policy...
2025-04-03 15:59:49 | [rl2_trainer] epoch #486 | Fitting baseline...
2025-04-03 15:59:49 | [rl2_trainer] epoch #486 | Computing loss before
2025-04-03 15:59:50 | [rl2_trainer] epoch #486 | Computing KL before
2025-04-03 15:59:51 | [rl2_trainer] epoch #486 | Optimizing
2025-04-03 16:00:27 | [rl2_trainer] epoch #486 | Computing KL after
2025-04-03 16:00:27 | [rl2_trainer] epoch #486 | Computing loss after
2025-04-03 16:00:28 | [rl2_trainer] epoch #486 | Saving snapshot...
2025-04-03 16:00:28 | [rl2_trainer] epoch #486 | Saved
2025-04-03 16:00:28 | [rl2_trainer] epoch #486 | Time 94109.37 s
2025-04-03 16:00:28 | [rl2_trainer] epoch #486 | EpochTime 268.64 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -18.495
Average/AverageReturn                     -29.7962
Average/Iteration                         486
Average/MaxReturn                         -17.2154
Average/MinReturn                         -71.1731
Average/NumEpisodes                       100
Average/StdReturn                          11.7054
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.853324
TotalEnvSteps                               4.87e+06
__unnamed_task__/AverageDiscountedReturn  -18.495
__unnamed_task__/AverageReturn            -29.7962
__unnamed_task__/Iteration                486
__unnamed_task__/MaxReturn                -17.2154
__unnamed_task__/MinReturn                -71.1731
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 11.7054
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.224794
policy/KL                                   0.0135518
policy/KLBefore                             0
policy/LossAfter                           -0.0528933
policy/LossBefore                          -0.00559243
policy/dLoss                                0.0473009
----------------------------------------  ------------
2025-04-03 16:01:57 | [rl2_trainer] epoch #487 | Optimizing policy...
2025-04-03 16:01:58 | [rl2_trainer] epoch #487 | Fitting baseline...
2025-04-03 16:01:58 | [rl2_trainer] epoch #487 | Computing loss before
2025-04-03 16:01:58 | [rl2_trainer] epoch #487 | Computing KL before
2025-04-03 16:01:59 | [rl2_trainer] epoch #487 | Optimizing
2025-04-03 16:02:32 | [rl2_trainer] epoch #487 | Computing KL after
2025-04-03 16:02:33 | [rl2_trainer] epoch #487 | Computing loss after
2025-04-03 16:02:34 | [rl2_trainer] epoch #487 | Saving snapshot...
2025-04-03 16:02:34 | [rl2_trainer] epoch #487 | Saved
2025-04-03 16:02:34 | [rl2_trainer] epoch #487 | Time 94234.85 s
2025-04-03 16:02:34 | [rl2_trainer] epoch #487 | EpochTime 125.47 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -9.44075
Average/AverageReturn                     -13.6405
Average/Iteration                         487
Average/MaxReturn                          30.1855
Average/MinReturn                         -74.9349
Average/NumEpisodes                       100
Average/StdReturn                          13.2796
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.703316
TotalEnvSteps                               4.88e+06
__unnamed_task__/AverageDiscountedReturn   -9.44075
__unnamed_task__/AverageReturn            -13.6405
__unnamed_task__/Iteration                487
__unnamed_task__/MaxReturn                 30.1855
__unnamed_task__/MinReturn                -74.9349
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.2796
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.198469
policy/KL                                   0.0172292
policy/KLBefore                             0
policy/LossAfter                           -0.0655397
policy/LossBefore                          -0.00158597
policy/dLoss                                0.0639537
----------------------------------------  ------------
2025-04-03 16:04:06 | [rl2_trainer] epoch #488 | Optimizing policy...
2025-04-03 16:04:07 | [rl2_trainer] epoch #488 | Fitting baseline...
2025-04-03 16:04:07 | [rl2_trainer] epoch #488 | Computing loss before
2025-04-03 16:04:07 | [rl2_trainer] epoch #488 | Computing KL before
2025-04-03 16:04:08 | [rl2_trainer] epoch #488 | Optimizing
2025-04-03 16:04:44 | [rl2_trainer] epoch #488 | Computing KL after
2025-04-03 16:04:44 | [rl2_trainer] epoch #488 | Computing loss after
2025-04-03 16:04:45 | [rl2_trainer] epoch #488 | Saving snapshot...
2025-04-03 16:04:45 | [rl2_trainer] epoch #488 | Saved
2025-04-03 16:04:45 | [rl2_trainer] epoch #488 | Time 94366.19 s
2025-04-03 16:04:45 | [rl2_trainer] epoch #488 | EpochTime 131.34 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -8.00258
Average/AverageReturn                     -11.2819
Average/Iteration                         488
Average/MaxReturn                          32.1611
Average/MinReturn                         -38.0946
Average/NumEpisodes                       100
Average/StdReturn                          13.7996
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.742995
TotalEnvSteps                               4.89e+06
__unnamed_task__/AverageDiscountedReturn   -8.00258
__unnamed_task__/AverageReturn            -11.2819
__unnamed_task__/Iteration                488
__unnamed_task__/MaxReturn                 32.1611
__unnamed_task__/MinReturn                -38.0946
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.7996
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.188789
policy/KL                                   0.0195719
policy/KLBefore                             0
policy/LossAfter                           -0.0828933
policy/LossBefore                           0.00209549
policy/dLoss                                0.0849888
----------------------------------------  ------------
2025-04-03 16:08:15 | [rl2_trainer] epoch #489 | Optimizing policy...
2025-04-03 16:08:15 | [rl2_trainer] epoch #489 | Fitting baseline...
2025-04-03 16:08:15 | [rl2_trainer] epoch #489 | Computing loss before
2025-04-03 16:08:16 | [rl2_trainer] epoch #489 | Computing KL before
2025-04-03 16:08:16 | [rl2_trainer] epoch #489 | Optimizing
2025-04-03 16:08:52 | [rl2_trainer] epoch #489 | Computing KL after
2025-04-03 16:08:53 | [rl2_trainer] epoch #489 | Computing loss after
2025-04-03 16:08:54 | [rl2_trainer] epoch #489 | Saving snapshot...
2025-04-03 16:08:54 | [rl2_trainer] epoch #489 | Saved
2025-04-03 16:08:54 | [rl2_trainer] epoch #489 | Time 94614.96 s
2025-04-03 16:08:54 | [rl2_trainer] epoch #489 | EpochTime 248.77 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -18.3532
Average/AverageReturn                     -29.4842
Average/Iteration                         489
Average/MaxReturn                         -15.7377
Average/MinReturn                         -58.9039
Average/NumEpisodes                       100
Average/StdReturn                          10.0953
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.876715
TotalEnvSteps                               4.9e+06
__unnamed_task__/AverageDiscountedReturn  -18.3532
__unnamed_task__/AverageReturn            -29.4842
__unnamed_task__/Iteration                489
__unnamed_task__/MaxReturn                -15.7377
__unnamed_task__/MinReturn                -58.9039
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 10.0953
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.184267
policy/KL                                   0.0145873
policy/KLBefore                             0
policy/LossAfter                           -0.023307
policy/LossBefore                          -0.00400089
policy/dLoss                                0.0193061
----------------------------------------  ------------
2025-04-03 16:10:21 | [rl2_trainer] epoch #490 | Optimizing policy...
2025-04-03 16:10:21 | [rl2_trainer] epoch #490 | Fitting baseline...
2025-04-03 16:10:21 | [rl2_trainer] epoch #490 | Computing loss before
2025-04-03 16:10:22 | [rl2_trainer] epoch #490 | Computing KL before
2025-04-03 16:10:23 | [rl2_trainer] epoch #490 | Optimizing
2025-04-03 16:10:57 | [rl2_trainer] epoch #490 | Computing KL after
2025-04-03 16:10:58 | [rl2_trainer] epoch #490 | Computing loss after
2025-04-03 16:10:58 | [rl2_trainer] epoch #490 | Saving snapshot...
2025-04-03 16:10:58 | [rl2_trainer] epoch #490 | Saved
2025-04-03 16:10:58 | [rl2_trainer] epoch #490 | Time 94739.44 s
2025-04-03 16:10:58 | [rl2_trainer] epoch #490 | EpochTime 124.48 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -9.30157
Average/AverageReturn                     -13.6077
Average/Iteration                         490
Average/MaxReturn                          17.2568
Average/MinReturn                         -29.971
Average/NumEpisodes                       100
Average/StdReturn                           9.33236
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.663181
TotalEnvSteps                               4.91e+06
__unnamed_task__/AverageDiscountedReturn   -9.30157
__unnamed_task__/AverageReturn            -13.6077
__unnamed_task__/Iteration                490
__unnamed_task__/MaxReturn                 17.2568
__unnamed_task__/MinReturn                -29.971
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  9.33236
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.151344
policy/KL                                   0.0140354
policy/KLBefore                             0
policy/LossAfter                           -0.029824
policy/LossBefore                           0.00381513
policy/dLoss                                0.0336392
----------------------------------------  ------------
2025-04-03 16:13:04 | [rl2_trainer] epoch #491 | Optimizing policy...
2025-04-03 16:13:04 | [rl2_trainer] epoch #491 | Fitting baseline...
2025-04-03 16:13:04 | [rl2_trainer] epoch #491 | Computing loss before
2025-04-03 16:13:05 | [rl2_trainer] epoch #491 | Computing KL before
2025-04-03 16:13:05 | [rl2_trainer] epoch #491 | Optimizing
2025-04-03 16:13:41 | [rl2_trainer] epoch #491 | Computing KL after
2025-04-03 16:13:42 | [rl2_trainer] epoch #491 | Computing loss after
2025-04-03 16:13:43 | [rl2_trainer] epoch #491 | Saving snapshot...
2025-04-03 16:13:43 | [rl2_trainer] epoch #491 | Saved
2025-04-03 16:13:43 | [rl2_trainer] epoch #491 | Time 94903.55 s
2025-04-03 16:13:43 | [rl2_trainer] epoch #491 | EpochTime 164.11 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -11.9683
Average/AverageReturn                     -17.8345
Average/Iteration                         491
Average/MaxReturn                          19.1096
Average/MinReturn                         -41.5012
Average/NumEpisodes                       100
Average/StdReturn                           7.68946
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.506248
TotalEnvSteps                               4.92e+06
__unnamed_task__/AverageDiscountedReturn  -11.9683
__unnamed_task__/AverageReturn            -17.8345
__unnamed_task__/Iteration                491
__unnamed_task__/MaxReturn                 19.1096
__unnamed_task__/MinReturn                -41.5012
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.68946
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.128221
policy/KL                                   0.0162671
policy/KLBefore                             0
policy/LossAfter                           -0.0333453
policy/LossBefore                          -0.00469599
policy/dLoss                                0.0286493
----------------------------------------  ------------
2025-04-03 16:16:05 | [rl2_trainer] epoch #492 | Optimizing policy...
2025-04-03 16:16:05 | [rl2_trainer] epoch #492 | Fitting baseline...
2025-04-03 16:16:05 | [rl2_trainer] epoch #492 | Computing loss before
2025-04-03 16:16:06 | [rl2_trainer] epoch #492 | Computing KL before
2025-04-03 16:16:06 | [rl2_trainer] epoch #492 | Optimizing
2025-04-03 16:16:42 | [rl2_trainer] epoch #492 | Computing KL after
2025-04-03 16:16:42 | [rl2_trainer] epoch #492 | Computing loss after
2025-04-03 16:16:43 | [rl2_trainer] epoch #492 | Saving snapshot...
2025-04-03 16:16:43 | [rl2_trainer] epoch #492 | Saved
2025-04-03 16:16:43 | [rl2_trainer] epoch #492 | Time 95084.13 s
2025-04-03 16:16:43 | [rl2_trainer] epoch #492 | EpochTime 180.57 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -15.8368
Average/AverageReturn                     -24.6668
Average/Iteration                         492
Average/MaxReturn                          39.8114
Average/MinReturn                         -64.522
Average/NumEpisodes                       100
Average/StdReturn                          19.6242
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.89308
TotalEnvSteps                               4.93e+06
__unnamed_task__/AverageDiscountedReturn  -15.8368
__unnamed_task__/AverageReturn            -24.6668
__unnamed_task__/Iteration                492
__unnamed_task__/MaxReturn                 39.8114
__unnamed_task__/MinReturn                -64.522
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 19.6242
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.111092
policy/KL                                   0.0194218
policy/KLBefore                             0
policy/LossAfter                           -0.08009
policy/LossBefore                          -0.0148205
policy/dLoss                                0.0652695
----------------------------------------  -----------
2025-04-03 16:19:36 | [rl2_trainer] epoch #493 | Optimizing policy...
2025-04-03 16:19:37 | [rl2_trainer] epoch #493 | Fitting baseline...
2025-04-03 16:19:37 | [rl2_trainer] epoch #493 | Computing loss before
2025-04-03 16:19:37 | [rl2_trainer] epoch #493 | Computing KL before
2025-04-03 16:19:38 | [rl2_trainer] epoch #493 | Optimizing
2025-04-03 16:20:13 | [rl2_trainer] epoch #493 | Computing KL after
2025-04-03 16:20:13 | [rl2_trainer] epoch #493 | Computing loss after
2025-04-03 16:20:14 | [rl2_trainer] epoch #493 | Saving snapshot...
2025-04-03 16:20:14 | [rl2_trainer] epoch #493 | Saved
2025-04-03 16:20:14 | [rl2_trainer] epoch #493 | Time 95295.17 s
2025-04-03 16:20:14 | [rl2_trainer] epoch #493 | EpochTime 211.04 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -17.7592
Average/AverageReturn                     -28.4956
Average/Iteration                         493
Average/MaxReturn                           5.00064
Average/MinReturn                         -57.5411
Average/NumEpisodes                       100
Average/StdReturn                          13.1221
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.804025
TotalEnvSteps                               4.94e+06
__unnamed_task__/AverageDiscountedReturn  -17.7592
__unnamed_task__/AverageReturn            -28.4956
__unnamed_task__/Iteration                493
__unnamed_task__/MaxReturn                  5.00064
__unnamed_task__/MinReturn                -57.5411
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.1221
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.0981007
policy/KL                                   0.0197341
policy/KLBefore                             0
policy/LossAfter                           -0.0647372
policy/LossBefore                          -0.00602634
policy/dLoss                                0.0587108
----------------------------------------  ------------
2025-04-03 16:21:44 | [rl2_trainer] epoch #494 | Optimizing policy...
2025-04-03 16:21:44 | [rl2_trainer] epoch #494 | Fitting baseline...
2025-04-03 16:21:44 | [rl2_trainer] epoch #494 | Computing loss before
2025-04-03 16:21:45 | [rl2_trainer] epoch #494 | Computing KL before
2025-04-03 16:21:45 | [rl2_trainer] epoch #494 | Optimizing
2025-04-03 16:22:21 | [rl2_trainer] epoch #494 | Computing KL after
2025-04-03 16:22:22 | [rl2_trainer] epoch #494 | Computing loss after
2025-04-03 16:22:23 | [rl2_trainer] epoch #494 | Saving snapshot...
2025-04-03 16:22:23 | [rl2_trainer] epoch #494 | Saved
2025-04-03 16:22:23 | [rl2_trainer] epoch #494 | Time 95424.04 s
2025-04-03 16:22:23 | [rl2_trainer] epoch #494 | EpochTime 128.86 s
----------------------------------------  -----------
Average/AverageDiscountedReturn            -8.0085
Average/AverageReturn                     -11.4725
Average/Iteration                         494
Average/MaxReturn                          34.9437
Average/MinReturn                         -37.9521
Average/NumEpisodes                       100
Average/StdReturn                          12.7353
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.709315
TotalEnvSteps                               4.95e+06
__unnamed_task__/AverageDiscountedReturn   -8.0085
__unnamed_task__/AverageReturn            -11.4725
__unnamed_task__/Iteration                494
__unnamed_task__/MaxReturn                 34.9437
__unnamed_task__/MinReturn                -37.9521
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.7353
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.0754328
policy/KL                                   0.0175998
policy/KLBefore                             0
policy/LossAfter                           -0.0791201
policy/LossBefore                          -0.0172026
policy/dLoss                                0.0619174
----------------------------------------  -----------
2025-04-03 16:25:22 | [rl2_trainer] epoch #495 | Optimizing policy...
2025-04-03 16:25:22 | [rl2_trainer] epoch #495 | Fitting baseline...
2025-04-03 16:25:22 | [rl2_trainer] epoch #495 | Computing loss before
2025-04-03 16:25:22 | [rl2_trainer] epoch #495 | Computing KL before
2025-04-03 16:25:23 | [rl2_trainer] epoch #495 | Optimizing
2025-04-03 16:25:58 | [rl2_trainer] epoch #495 | Computing KL after
2025-04-03 16:25:59 | [rl2_trainer] epoch #495 | Computing loss after
2025-04-03 16:26:00 | [rl2_trainer] epoch #495 | Saving snapshot...
2025-04-03 16:26:00 | [rl2_trainer] epoch #495 | Saved
2025-04-03 16:26:00 | [rl2_trainer] epoch #495 | Time 95640.95 s
2025-04-03 16:26:00 | [rl2_trainer] epoch #495 | EpochTime 216.91 s
----------------------------------------  -----------
Average/AverageDiscountedReturn           -12.4672
Average/AverageReturn                     -18.5415
Average/Iteration                         495
Average/MaxReturn                          27.8838
Average/MinReturn                         -33.5217
Average/NumEpisodes                       100
Average/StdReturn                           7.96274
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.660796
TotalEnvSteps                               4.96e+06
__unnamed_task__/AverageDiscountedReturn  -12.4672
__unnamed_task__/AverageReturn            -18.5415
__unnamed_task__/Iteration                495
__unnamed_task__/MaxReturn                 27.8838
__unnamed_task__/MinReturn                -33.5217
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  7.96274
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.0614643
policy/KL                                   0.0121617
policy/KLBefore                             0
policy/LossAfter                           -0.0179054
policy/LossBefore                           0.0068149
policy/dLoss                                0.0247203
----------------------------------------  -----------
2025-04-03 16:28:28 | [rl2_trainer] epoch #496 | Optimizing policy...
2025-04-03 16:28:28 | [rl2_trainer] epoch #496 | Fitting baseline...
2025-04-03 16:28:28 | [rl2_trainer] epoch #496 | Computing loss before
2025-04-03 16:28:28 | [rl2_trainer] epoch #496 | Computing KL before
2025-04-03 16:28:29 | [rl2_trainer] epoch #496 | Optimizing
2025-04-03 16:29:05 | [rl2_trainer] epoch #496 | Computing KL after
2025-04-03 16:29:05 | [rl2_trainer] epoch #496 | Computing loss after
2025-04-03 16:29:06 | [rl2_trainer] epoch #496 | Saving snapshot...
2025-04-03 16:29:06 | [rl2_trainer] epoch #496 | Saved
2025-04-03 16:29:06 | [rl2_trainer] epoch #496 | Time 95827.38 s
2025-04-03 16:29:06 | [rl2_trainer] epoch #496 | EpochTime 186.42 s
----------------------------------------  -----------
Average/AverageDiscountedReturn            -9.77933
Average/AverageReturn                     -14.3749
Average/Iteration                         496
Average/MaxReturn                          30.069
Average/MinReturn                         -36.6658
Average/NumEpisodes                       100
Average/StdReturn                          12.1088
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.703331
TotalEnvSteps                               4.97e+06
__unnamed_task__/AverageDiscountedReturn   -9.77933
__unnamed_task__/AverageReturn            -14.3749
__unnamed_task__/Iteration                496
__unnamed_task__/MaxReturn                 30.069
__unnamed_task__/MinReturn                -36.6658
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 12.1088
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.0547228
policy/KL                                   0.0144121
policy/KLBefore                             0
policy/LossAfter                           -0.0575565
policy/LossBefore                          -0.0102652
policy/dLoss                                0.0472913
----------------------------------------  -----------
2025-04-03 16:30:37 | [rl2_trainer] epoch #497 | Optimizing policy...
2025-04-03 16:30:37 | [rl2_trainer] epoch #497 | Fitting baseline...
2025-04-03 16:30:37 | [rl2_trainer] epoch #497 | Computing loss before
2025-04-03 16:30:38 | [rl2_trainer] epoch #497 | Computing KL before
2025-04-03 16:30:38 | [rl2_trainer] epoch #497 | Optimizing
2025-04-03 16:31:15 | [rl2_trainer] epoch #497 | Computing KL after
2025-04-03 16:31:16 | [rl2_trainer] epoch #497 | Computing loss after
2025-04-03 16:31:16 | [rl2_trainer] epoch #497 | Saving snapshot...
2025-04-03 16:31:16 | [rl2_trainer] epoch #497 | Saved
2025-04-03 16:31:16 | [rl2_trainer] epoch #497 | Time 95957.43 s
2025-04-03 16:31:16 | [rl2_trainer] epoch #497 | EpochTime 130.05 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -7.85239
Average/AverageReturn                     -10.992
Average/Iteration                         497
Average/MaxReturn                          33.9706
Average/MinReturn                         -31.4259
Average/NumEpisodes                       100
Average/StdReturn                          13.3298
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.811664
TotalEnvSteps                               4.98e+06
__unnamed_task__/AverageDiscountedReturn   -7.85239
__unnamed_task__/AverageReturn            -10.992
__unnamed_task__/Iteration                497
__unnamed_task__/MaxReturn                 33.9706
__unnamed_task__/MinReturn                -31.4259
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.3298
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.0282335
policy/KL                                   0.0190111
policy/KLBefore                             0
policy/LossAfter                           -0.0348932
policy/LossBefore                           0.00833141
policy/dLoss                                0.0432247
----------------------------------------  ------------
2025-04-03 16:33:46 | [rl2_trainer] epoch #498 | Optimizing policy...
2025-04-03 16:33:47 | [rl2_trainer] epoch #498 | Fitting baseline...
2025-04-03 16:33:47 | [rl2_trainer] epoch #498 | Computing loss before
2025-04-03 16:33:47 | [rl2_trainer] epoch #498 | Computing KL before
2025-04-03 16:33:48 | [rl2_trainer] epoch #498 | Optimizing
2025-04-03 16:34:24 | [rl2_trainer] epoch #498 | Computing KL after
2025-04-03 16:34:24 | [rl2_trainer] epoch #498 | Computing loss after
2025-04-03 16:34:25 | [rl2_trainer] epoch #498 | Saving snapshot...
2025-04-03 16:34:25 | [rl2_trainer] epoch #498 | Saved
2025-04-03 16:34:25 | [rl2_trainer] epoch #498 | Time 96146.08 s
2025-04-03 16:34:25 | [rl2_trainer] epoch #498 | EpochTime 188.64 s
----------------------------------------  ------------
Average/AverageDiscountedReturn            -9.65494
Average/AverageReturn                     -14.1278
Average/Iteration                         498
Average/MaxReturn                          37.0385
Average/MinReturn                         -34.3282
Average/NumEpisodes                       100
Average/StdReturn                          13.8127
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.726644
TotalEnvSteps                               4.99e+06
__unnamed_task__/AverageDiscountedReturn   -9.65494
__unnamed_task__/AverageReturn            -14.1278
__unnamed_task__/Iteration                498
__unnamed_task__/MaxReturn                 37.0385
__unnamed_task__/MinReturn                -34.3282
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                 13.8127
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.0227718
policy/KL                                   0.0161568
policy/KLBefore                             0
policy/LossAfter                           -0.0621175
policy/LossBefore                           0.00194205
policy/dLoss                                0.0640596
----------------------------------------  ------------
2025-04-03 16:37:24 | [rl2_trainer] epoch #499 | Optimizing policy...
2025-04-03 16:37:25 | [rl2_trainer] epoch #499 | Fitting baseline...
2025-04-03 16:37:25 | [rl2_trainer] epoch #499 | Computing loss before
2025-04-03 16:37:25 | [rl2_trainer] epoch #499 | Computing KL before
2025-04-03 16:37:26 | [rl2_trainer] epoch #499 | Optimizing
2025-04-03 16:38:02 | [rl2_trainer] epoch #499 | Computing KL after
2025-04-03 16:38:03 | [rl2_trainer] epoch #499 | Computing loss after
2025-04-03 16:38:04 | [rl2_trainer] epoch #499 | Saving snapshot...
2025-04-03 16:38:04 | [rl2_trainer] epoch #499 | Saved
2025-04-03 16:38:04 | [rl2_trainer] epoch #499 | Time 96364.83 s
2025-04-03 16:38:04 | [rl2_trainer] epoch #499 | EpochTime 218.74 s
----------------------------------------  ------------
Average/AverageDiscountedReturn           -13.1221
Average/AverageReturn                     -19.8396
Average/Iteration                         499
Average/MaxReturn                          25.6103
Average/MinReturn                         -33.7966
Average/NumEpisodes                       100
Average/StdReturn                           8.31253
Average/TerminationRate                     0
LinearFeatureBaseline/ExplainedVariance     0.671096
TotalEnvSteps                               5e+06
__unnamed_task__/AverageDiscountedReturn  -13.1221
__unnamed_task__/AverageReturn            -19.8396
__unnamed_task__/Iteration                499
__unnamed_task__/MaxReturn                 25.6103
__unnamed_task__/MinReturn                -33.7966
__unnamed_task__/NumEpisodes              100
__unnamed_task__/StdReturn                  8.31253
__unnamed_task__/TerminationRate            0
policy/Entropy                              0.0137997
policy/KL                                   0.0133564
policy/KLBefore                             0
policy/LossAfter                           -0.0267404
policy/LossBefore                          -0.00467234
policy/dLoss                                0.022068
----------------------------------------  ------------