{
  "nbformat": 4,
  "nbformat_minor": 0,
  "metadata": {
    "colab": {
      "provenance": [],
      "gpuType": "T4"
    },
    "kernelspec": {
      "name": "python3",
      "display_name": "Python 3"
    },
    "language_info": {
      "name": "python"
    },
    "accelerator": "GPU",
    "widgets": {
      "application/vnd.jupyter.widget-state+json": {
        "8ff8c13284c14676b06e4745721752ff": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "VBoxModel",
          "model_module_version": "1.5.0",
          "state": {
            "_dom_classes": [],
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "VBoxModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/controls",
            "_view_module_version": "1.5.0",
            "_view_name": "VBoxView",
            "box_style": "",
            "children": [
              "IPY_MODEL_16c9ddf0f69f48a08f2ba7b0767c6e04",
              "IPY_MODEL_15902149c92341eb96bde04388332f92",
              "IPY_MODEL_ef37ebf8ddfa4a54aa6e6ff22a80e1ff",
              "IPY_MODEL_589a3dee05d14f978c816c5e160e3c6d"
            ],
            "layout": "IPY_MODEL_c0ae0beb39ca47d38ce6c970aaa1b61e"
          }
        },
        "0f76ed54c37841919f69e3177fd6d7ec": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "HTMLModel",
          "model_module_version": "1.5.0",
          "state": {
            "_dom_classes": [],
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "HTMLModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/controls",
            "_view_module_version": "1.5.0",
            "_view_name": "HTMLView",
            "description": "",
            "description_tooltip": null,
            "layout": "IPY_MODEL_2bc31dd7c1de48d987ef760bf2d15147",
            "placeholder": "​",
            "style": "IPY_MODEL_12e0ce2415404baaaff00fea8d956d54",
            "value": "<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.svg\nalt='Hugging Face'> <br> Copy a token from <a\nhref=\"https://huggingface.co/settings/tokens\" target=\"_blank\">your Hugging Face\ntokens page</a> and paste it below. <br> Immediately click login after copying\nyour token or it might be stored in plain text in this notebook file. </center>"
          }
        },
        "e4cf51a9ec524655885fa9d07495fb38": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "PasswordModel",
          "model_module_version": "1.5.0",
          "state": {
            "_dom_classes": [],
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "PasswordModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/controls",
            "_view_module_version": "1.5.0",
            "_view_name": "PasswordView",
            "continuous_update": true,
            "description": "Token:",
            "description_tooltip": null,
            "disabled": false,
            "layout": "IPY_MODEL_39949b8863224db28a986fe21017325c",
            "placeholder": "​",
            "style": "IPY_MODEL_aa046de0210e4c449ba575e1c36bacb1",
            "value": ""
          }
        },
        "767318ed9ad944be8f48ad555be1e1ff": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "CheckboxModel",
          "model_module_version": "1.5.0",
          "state": {
            "_dom_classes": [],
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "CheckboxModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/controls",
            "_view_module_version": "1.5.0",
            "_view_name": "CheckboxView",
            "description": "Add token as git credential?",
            "description_tooltip": null,
            "disabled": false,
            "indent": true,
            "layout": "IPY_MODEL_9955e32bd5ae46268f8d9722622d174e",
            "style": "IPY_MODEL_25b7d7c4c9e84d10b9965d53a63546c0",
            "value": true
          }
        },
        "bc645f00ff0f43cf859068ea57352721": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "ButtonModel",
          "model_module_version": "1.5.0",
          "state": {
            "_dom_classes": [],
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "ButtonModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/controls",
            "_view_module_version": "1.5.0",
            "_view_name": "ButtonView",
            "button_style": "",
            "description": "Login",
            "disabled": false,
            "icon": "",
            "layout": "IPY_MODEL_cff0d261124249a68f95b38739010ca5",
            "style": "IPY_MODEL_1839eb1041f546ea8d52cb0d6f8c4c8a",
            "tooltip": ""
          }
        },
        "3e660dd6ce074fd8bdf4a8244dd8b7a9": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "HTMLModel",
          "model_module_version": "1.5.0",
          "state": {
            "_dom_classes": [],
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "HTMLModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/controls",
            "_view_module_version": "1.5.0",
            "_view_name": "HTMLView",
            "description": "",
            "description_tooltip": null,
            "layout": "IPY_MODEL_b96787f8562c4dbc9d56ddcf52a32712",
            "placeholder": "​",
            "style": "IPY_MODEL_e1ba30e7cf0546329471a3f6f5e0b4bc",
            "value": "\n<b>Pro Tip:</b> If you don't already have one, you can create a dedicated\n'notebooks' token with 'write' access, that you can then easily reuse for all\nnotebooks. </center>"
          }
        },
        "c0ae0beb39ca47d38ce6c970aaa1b61e": {
          "model_module": "@jupyter-widgets/base",
          "model_name": "LayoutModel",
          "model_module_version": "1.2.0",
          "state": {
            "_model_module": "@jupyter-widgets/base",
            "_model_module_version": "1.2.0",
            "_model_name": "LayoutModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "LayoutView",
            "align_content": null,
            "align_items": "center",
            "align_self": null,
            "border": null,
            "bottom": null,
            "display": "flex",
            "flex": null,
            "flex_flow": "column",
            "grid_area": null,
            "grid_auto_columns": null,
            "grid_auto_flow": null,
            "grid_auto_rows": null,
            "grid_column": null,
            "grid_gap": null,
            "grid_row": null,
            "grid_template_areas": null,
            "grid_template_columns": null,
            "grid_template_rows": null,
            "height": null,
            "justify_content": null,
            "justify_items": null,
            "left": null,
            "margin": null,
            "max_height": null,
            "max_width": null,
            "min_height": null,
            "min_width": null,
            "object_fit": null,
            "object_position": null,
            "order": null,
            "overflow": null,
            "overflow_x": null,
            "overflow_y": null,
            "padding": null,
            "right": null,
            "top": null,
            "visibility": null,
            "width": "50%"
          }
        },
        "2bc31dd7c1de48d987ef760bf2d15147": {
          "model_module": "@jupyter-widgets/base",
          "model_name": "LayoutModel",
          "model_module_version": "1.2.0",
          "state": {
            "_model_module": "@jupyter-widgets/base",
            "_model_module_version": "1.2.0",
            "_model_name": "LayoutModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "LayoutView",
            "align_content": null,
            "align_items": null,
            "align_self": null,
            "border": null,
            "bottom": null,
            "display": null,
            "flex": null,
            "flex_flow": null,
            "grid_area": null,
            "grid_auto_columns": null,
            "grid_auto_flow": null,
            "grid_auto_rows": null,
            "grid_column": null,
            "grid_gap": null,
            "grid_row": null,
            "grid_template_areas": null,
            "grid_template_columns": null,
            "grid_template_rows": null,
            "height": null,
            "justify_content": null,
            "justify_items": null,
            "left": null,
            "margin": null,
            "max_height": null,
            "max_width": null,
            "min_height": null,
            "min_width": null,
            "object_fit": null,
            "object_position": null,
            "order": null,
            "overflow": null,
            "overflow_x": null,
            "overflow_y": null,
            "padding": null,
            "right": null,
            "top": null,
            "visibility": null,
            "width": null
          }
        },
        "12e0ce2415404baaaff00fea8d956d54": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "DescriptionStyleModel",
          "model_module_version": "1.5.0",
          "state": {
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "DescriptionStyleModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "StyleView",
            "description_width": ""
          }
        },
        "39949b8863224db28a986fe21017325c": {
          "model_module": "@jupyter-widgets/base",
          "model_name": "LayoutModel",
          "model_module_version": "1.2.0",
          "state": {
            "_model_module": "@jupyter-widgets/base",
            "_model_module_version": "1.2.0",
            "_model_name": "LayoutModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "LayoutView",
            "align_content": null,
            "align_items": null,
            "align_self": null,
            "border": null,
            "bottom": null,
            "display": null,
            "flex": null,
            "flex_flow": null,
            "grid_area": null,
            "grid_auto_columns": null,
            "grid_auto_flow": null,
            "grid_auto_rows": null,
            "grid_column": null,
            "grid_gap": null,
            "grid_row": null,
            "grid_template_areas": null,
            "grid_template_columns": null,
            "grid_template_rows": null,
            "height": null,
            "justify_content": null,
            "justify_items": null,
            "left": null,
            "margin": null,
            "max_height": null,
            "max_width": null,
            "min_height": null,
            "min_width": null,
            "object_fit": null,
            "object_position": null,
            "order": null,
            "overflow": null,
            "overflow_x": null,
            "overflow_y": null,
            "padding": null,
            "right": null,
            "top": null,
            "visibility": null,
            "width": null
          }
        },
        "aa046de0210e4c449ba575e1c36bacb1": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "DescriptionStyleModel",
          "model_module_version": "1.5.0",
          "state": {
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "DescriptionStyleModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "StyleView",
            "description_width": ""
          }
        },
        "9955e32bd5ae46268f8d9722622d174e": {
          "model_module": "@jupyter-widgets/base",
          "model_name": "LayoutModel",
          "model_module_version": "1.2.0",
          "state": {
            "_model_module": "@jupyter-widgets/base",
            "_model_module_version": "1.2.0",
            "_model_name": "LayoutModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "LayoutView",
            "align_content": null,
            "align_items": null,
            "align_self": null,
            "border": null,
            "bottom": null,
            "display": null,
            "flex": null,
            "flex_flow": null,
            "grid_area": null,
            "grid_auto_columns": null,
            "grid_auto_flow": null,
            "grid_auto_rows": null,
            "grid_column": null,
            "grid_gap": null,
            "grid_row": null,
            "grid_template_areas": null,
            "grid_template_columns": null,
            "grid_template_rows": null,
            "height": null,
            "justify_content": null,
            "justify_items": null,
            "left": null,
            "margin": null,
            "max_height": null,
            "max_width": null,
            "min_height": null,
            "min_width": null,
            "object_fit": null,
            "object_position": null,
            "order": null,
            "overflow": null,
            "overflow_x": null,
            "overflow_y": null,
            "padding": null,
            "right": null,
            "top": null,
            "visibility": null,
            "width": null
          }
        },
        "25b7d7c4c9e84d10b9965d53a63546c0": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "DescriptionStyleModel",
          "model_module_version": "1.5.0",
          "state": {
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "DescriptionStyleModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "StyleView",
            "description_width": ""
          }
        },
        "cff0d261124249a68f95b38739010ca5": {
          "model_module": "@jupyter-widgets/base",
          "model_name": "LayoutModel",
          "model_module_version": "1.2.0",
          "state": {
            "_model_module": "@jupyter-widgets/base",
            "_model_module_version": "1.2.0",
            "_model_name": "LayoutModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "LayoutView",
            "align_content": null,
            "align_items": null,
            "align_self": null,
            "border": null,
            "bottom": null,
            "display": null,
            "flex": null,
            "flex_flow": null,
            "grid_area": null,
            "grid_auto_columns": null,
            "grid_auto_flow": null,
            "grid_auto_rows": null,
            "grid_column": null,
            "grid_gap": null,
            "grid_row": null,
            "grid_template_areas": null,
            "grid_template_columns": null,
            "grid_template_rows": null,
            "height": null,
            "justify_content": null,
            "justify_items": null,
            "left": null,
            "margin": null,
            "max_height": null,
            "max_width": null,
            "min_height": null,
            "min_width": null,
            "object_fit": null,
            "object_position": null,
            "order": null,
            "overflow": null,
            "overflow_x": null,
            "overflow_y": null,
            "padding": null,
            "right": null,
            "top": null,
            "visibility": null,
            "width": null
          }
        },
        "1839eb1041f546ea8d52cb0d6f8c4c8a": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "ButtonStyleModel",
          "model_module_version": "1.5.0",
          "state": {
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "ButtonStyleModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "StyleView",
            "button_color": null,
            "font_weight": ""
          }
        },
        "b96787f8562c4dbc9d56ddcf52a32712": {
          "model_module": "@jupyter-widgets/base",
          "model_name": "LayoutModel",
          "model_module_version": "1.2.0",
          "state": {
            "_model_module": "@jupyter-widgets/base",
            "_model_module_version": "1.2.0",
            "_model_name": "LayoutModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "LayoutView",
            "align_content": null,
            "align_items": null,
            "align_self": null,
            "border": null,
            "bottom": null,
            "display": null,
            "flex": null,
            "flex_flow": null,
            "grid_area": null,
            "grid_auto_columns": null,
            "grid_auto_flow": null,
            "grid_auto_rows": null,
            "grid_column": null,
            "grid_gap": null,
            "grid_row": null,
            "grid_template_areas": null,
            "grid_template_columns": null,
            "grid_template_rows": null,
            "height": null,
            "justify_content": null,
            "justify_items": null,
            "left": null,
            "margin": null,
            "max_height": null,
            "max_width": null,
            "min_height": null,
            "min_width": null,
            "object_fit": null,
            "object_position": null,
            "order": null,
            "overflow": null,
            "overflow_x": null,
            "overflow_y": null,
            "padding": null,
            "right": null,
            "top": null,
            "visibility": null,
            "width": null
          }
        },
        "e1ba30e7cf0546329471a3f6f5e0b4bc": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "DescriptionStyleModel",
          "model_module_version": "1.5.0",
          "state": {
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "DescriptionStyleModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "StyleView",
            "description_width": ""
          }
        },
        "27216c11c3594a509ba423dd639459b5": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "LabelModel",
          "model_module_version": "1.5.0",
          "state": {
            "_dom_classes": [],
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "LabelModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/controls",
            "_view_module_version": "1.5.0",
            "_view_name": "LabelView",
            "description": "",
            "description_tooltip": null,
            "layout": "IPY_MODEL_a78a804660594c2abf59eca6eca50572",
            "placeholder": "​",
            "style": "IPY_MODEL_ef36b661ee3c4502a5cbe5f7766f154d",
            "value": "Connecting..."
          }
        },
        "a78a804660594c2abf59eca6eca50572": {
          "model_module": "@jupyter-widgets/base",
          "model_name": "LayoutModel",
          "model_module_version": "1.2.0",
          "state": {
            "_model_module": "@jupyter-widgets/base",
            "_model_module_version": "1.2.0",
            "_model_name": "LayoutModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "LayoutView",
            "align_content": null,
            "align_items": null,
            "align_self": null,
            "border": null,
            "bottom": null,
            "display": null,
            "flex": null,
            "flex_flow": null,
            "grid_area": null,
            "grid_auto_columns": null,
            "grid_auto_flow": null,
            "grid_auto_rows": null,
            "grid_column": null,
            "grid_gap": null,
            "grid_row": null,
            "grid_template_areas": null,
            "grid_template_columns": null,
            "grid_template_rows": null,
            "height": null,
            "justify_content": null,
            "justify_items": null,
            "left": null,
            "margin": null,
            "max_height": null,
            "max_width": null,
            "min_height": null,
            "min_width": null,
            "object_fit": null,
            "object_position": null,
            "order": null,
            "overflow": null,
            "overflow_x": null,
            "overflow_y": null,
            "padding": null,
            "right": null,
            "top": null,
            "visibility": null,
            "width": null
          }
        },
        "ef36b661ee3c4502a5cbe5f7766f154d": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "DescriptionStyleModel",
          "model_module_version": "1.5.0",
          "state": {
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "DescriptionStyleModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "StyleView",
            "description_width": ""
          }
        },
        "16c9ddf0f69f48a08f2ba7b0767c6e04": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "LabelModel",
          "model_module_version": "1.5.0",
          "state": {
            "_dom_classes": [],
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "LabelModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/controls",
            "_view_module_version": "1.5.0",
            "_view_name": "LabelView",
            "description": "",
            "description_tooltip": null,
            "layout": "IPY_MODEL_8097ed945e114ed5b87a4972d6f0d859",
            "placeholder": "​",
            "style": "IPY_MODEL_0f5dccb7a8b44ac79b70340cbc5db798",
            "value": "Token is valid (permission: write)."
          }
        },
        "15902149c92341eb96bde04388332f92": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "LabelModel",
          "model_module_version": "1.5.0",
          "state": {
            "_dom_classes": [],
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "LabelModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/controls",
            "_view_module_version": "1.5.0",
            "_view_name": "LabelView",
            "description": "",
            "description_tooltip": null,
            "layout": "IPY_MODEL_8cd6e4522ef44d69b8b723af315e7237",
            "placeholder": "​",
            "style": "IPY_MODEL_1cf3cc18ec1a4fb99655a5fc01bd1b22",
            "value": "Your token has been saved in your configured git credential helpers (store)."
          }
        },
        "ef37ebf8ddfa4a54aa6e6ff22a80e1ff": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "LabelModel",
          "model_module_version": "1.5.0",
          "state": {
            "_dom_classes": [],
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "LabelModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/controls",
            "_view_module_version": "1.5.0",
            "_view_name": "LabelView",
            "description": "",
            "description_tooltip": null,
            "layout": "IPY_MODEL_86587e674adc46748f3246f6db7bd632",
            "placeholder": "​",
            "style": "IPY_MODEL_ba7dea34ec104c019006105901393e76",
            "value": "Your token has been saved to /root/.cache/huggingface/token"
          }
        },
        "589a3dee05d14f978c816c5e160e3c6d": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "LabelModel",
          "model_module_version": "1.5.0",
          "state": {
            "_dom_classes": [],
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "LabelModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/controls",
            "_view_module_version": "1.5.0",
            "_view_name": "LabelView",
            "description": "",
            "description_tooltip": null,
            "layout": "IPY_MODEL_821d176ebe3a4bf5afcc2fe8a731a242",
            "placeholder": "​",
            "style": "IPY_MODEL_d0c0c8758616405786ab2144705b72c8",
            "value": "Login successful"
          }
        },
        "8097ed945e114ed5b87a4972d6f0d859": {
          "model_module": "@jupyter-widgets/base",
          "model_name": "LayoutModel",
          "model_module_version": "1.2.0",
          "state": {
            "_model_module": "@jupyter-widgets/base",
            "_model_module_version": "1.2.0",
            "_model_name": "LayoutModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "LayoutView",
            "align_content": null,
            "align_items": null,
            "align_self": null,
            "border": null,
            "bottom": null,
            "display": null,
            "flex": null,
            "flex_flow": null,
            "grid_area": null,
            "grid_auto_columns": null,
            "grid_auto_flow": null,
            "grid_auto_rows": null,
            "grid_column": null,
            "grid_gap": null,
            "grid_row": null,
            "grid_template_areas": null,
            "grid_template_columns": null,
            "grid_template_rows": null,
            "height": null,
            "justify_content": null,
            "justify_items": null,
            "left": null,
            "margin": null,
            "max_height": null,
            "max_width": null,
            "min_height": null,
            "min_width": null,
            "object_fit": null,
            "object_position": null,
            "order": null,
            "overflow": null,
            "overflow_x": null,
            "overflow_y": null,
            "padding": null,
            "right": null,
            "top": null,
            "visibility": null,
            "width": null
          }
        },
        "0f5dccb7a8b44ac79b70340cbc5db798": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "DescriptionStyleModel",
          "model_module_version": "1.5.0",
          "state": {
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "DescriptionStyleModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "StyleView",
            "description_width": ""
          }
        },
        "8cd6e4522ef44d69b8b723af315e7237": {
          "model_module": "@jupyter-widgets/base",
          "model_name": "LayoutModel",
          "model_module_version": "1.2.0",
          "state": {
            "_model_module": "@jupyter-widgets/base",
            "_model_module_version": "1.2.0",
            "_model_name": "LayoutModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "LayoutView",
            "align_content": null,
            "align_items": null,
            "align_self": null,
            "border": null,
            "bottom": null,
            "display": null,
            "flex": null,
            "flex_flow": null,
            "grid_area": null,
            "grid_auto_columns": null,
            "grid_auto_flow": null,
            "grid_auto_rows": null,
            "grid_column": null,
            "grid_gap": null,
            "grid_row": null,
            "grid_template_areas": null,
            "grid_template_columns": null,
            "grid_template_rows": null,
            "height": null,
            "justify_content": null,
            "justify_items": null,
            "left": null,
            "margin": null,
            "max_height": null,
            "max_width": null,
            "min_height": null,
            "min_width": null,
            "object_fit": null,
            "object_position": null,
            "order": null,
            "overflow": null,
            "overflow_x": null,
            "overflow_y": null,
            "padding": null,
            "right": null,
            "top": null,
            "visibility": null,
            "width": null
          }
        },
        "1cf3cc18ec1a4fb99655a5fc01bd1b22": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "DescriptionStyleModel",
          "model_module_version": "1.5.0",
          "state": {
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "DescriptionStyleModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "StyleView",
            "description_width": ""
          }
        },
        "86587e674adc46748f3246f6db7bd632": {
          "model_module": "@jupyter-widgets/base",
          "model_name": "LayoutModel",
          "model_module_version": "1.2.0",
          "state": {
            "_model_module": "@jupyter-widgets/base",
            "_model_module_version": "1.2.0",
            "_model_name": "LayoutModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "LayoutView",
            "align_content": null,
            "align_items": null,
            "align_self": null,
            "border": null,
            "bottom": null,
            "display": null,
            "flex": null,
            "flex_flow": null,
            "grid_area": null,
            "grid_auto_columns": null,
            "grid_auto_flow": null,
            "grid_auto_rows": null,
            "grid_column": null,
            "grid_gap": null,
            "grid_row": null,
            "grid_template_areas": null,
            "grid_template_columns": null,
            "grid_template_rows": null,
            "height": null,
            "justify_content": null,
            "justify_items": null,
            "left": null,
            "margin": null,
            "max_height": null,
            "max_width": null,
            "min_height": null,
            "min_width": null,
            "object_fit": null,
            "object_position": null,
            "order": null,
            "overflow": null,
            "overflow_x": null,
            "overflow_y": null,
            "padding": null,
            "right": null,
            "top": null,
            "visibility": null,
            "width": null
          }
        },
        "ba7dea34ec104c019006105901393e76": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "DescriptionStyleModel",
          "model_module_version": "1.5.0",
          "state": {
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "DescriptionStyleModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "StyleView",
            "description_width": ""
          }
        },
        "821d176ebe3a4bf5afcc2fe8a731a242": {
          "model_module": "@jupyter-widgets/base",
          "model_name": "LayoutModel",
          "model_module_version": "1.2.0",
          "state": {
            "_model_module": "@jupyter-widgets/base",
            "_model_module_version": "1.2.0",
            "_model_name": "LayoutModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "LayoutView",
            "align_content": null,
            "align_items": null,
            "align_self": null,
            "border": null,
            "bottom": null,
            "display": null,
            "flex": null,
            "flex_flow": null,
            "grid_area": null,
            "grid_auto_columns": null,
            "grid_auto_flow": null,
            "grid_auto_rows": null,
            "grid_column": null,
            "grid_gap": null,
            "grid_row": null,
            "grid_template_areas": null,
            "grid_template_columns": null,
            "grid_template_rows": null,
            "height": null,
            "justify_content": null,
            "justify_items": null,
            "left": null,
            "margin": null,
            "max_height": null,
            "max_width": null,
            "min_height": null,
            "min_width": null,
            "object_fit": null,
            "object_position": null,
            "order": null,
            "overflow": null,
            "overflow_x": null,
            "overflow_y": null,
            "padding": null,
            "right": null,
            "top": null,
            "visibility": null,
            "width": null
          }
        },
        "d0c0c8758616405786ab2144705b72c8": {
          "model_module": "@jupyter-widgets/controls",
          "model_name": "DescriptionStyleModel",
          "model_module_version": "1.5.0",
          "state": {
            "_model_module": "@jupyter-widgets/controls",
            "_model_module_version": "1.5.0",
            "_model_name": "DescriptionStyleModel",
            "_view_count": null,
            "_view_module": "@jupyter-widgets/base",
            "_view_module_version": "1.2.0",
            "_view_name": "StyleView",
            "description_width": ""
          }
        }
      }
    }
  },
  "cells": [
    {
      "cell_type": "markdown",
      "source": [
        "Creating Virtual Display"
      ],
      "metadata": {
        "id": "GjMLnpMo_SVm"
      }
    },
    {
      "cell_type": "code",
      "execution_count": 1,
      "metadata": {
        "id": "TEWKJ84cm6FR"
      },
      "outputs": [],
      "source": [
        "%%capture\n",
        "!apt install python-opengl\n",
        "!apt install ffmpeg\n",
        "!apt install xvfb\n",
        "!pip3 install pyvirtualdisplay"
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "# Virtual display\n",
        "from pyvirtualdisplay import Display\n",
        "\n",
        "virtual_display = Display(visible=0, size=(1500, 1000))\n",
        "virtual_display.start()"
      ],
      "metadata": {
        "id": "fG9T5VcqnRhm",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 0
        },
        "outputId": "bda3fb7b-5b16-44d9-8f9d-dc3f0be7caec"
      },
      "execution_count": 2,
      "outputs": [
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "<pyvirtualdisplay.display.Display at 0x7bb19687f790>"
            ]
          },
          "metadata": {},
          "execution_count": 2
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Installing Dependencies"
      ],
      "metadata": {
        "id": "UArEHR-e_aGL"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "!pip install stable-baselines3[extra]\n",
        "!pip install gymnasium\n",
        "!pip install huggingface_sb3\n",
        "!pip install huggingface_hub\n",
        "!pip install panda_gym"
      ],
      "metadata": {
        "id": "NnfPNIZlnU6f",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 0
        },
        "outputId": "58039115-eeb8-413e-c7b8-c7d4bd5ed0f1"
      },
      "execution_count": 3,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Requirement already satisfied: stable-baselines3[extra] in /usr/local/lib/python3.10/dist-packages (2.3.2)\n",
            "Requirement already satisfied: gymnasium<0.30,>=0.28.1 in /usr/local/lib/python3.10/dist-packages (from stable-baselines3[extra]) (0.29.1)\n",
            "Requirement already satisfied: numpy>=1.20 in /usr/local/lib/python3.10/dist-packages (from stable-baselines3[extra]) (1.25.2)\n",
            "Requirement already satisfied: torch>=1.13 in /usr/local/lib/python3.10/dist-packages (from stable-baselines3[extra]) (2.3.0+cu121)\n",
            "Requirement already satisfied: cloudpickle in /usr/local/lib/python3.10/dist-packages (from stable-baselines3[extra]) (2.2.1)\n",
            "Requirement already satisfied: pandas in /usr/local/lib/python3.10/dist-packages (from stable-baselines3[extra]) (2.0.3)\n",
            "Requirement already satisfied: matplotlib in /usr/local/lib/python3.10/dist-packages (from stable-baselines3[extra]) (3.7.1)\n",
            "Requirement already satisfied: opencv-python in /usr/local/lib/python3.10/dist-packages (from stable-baselines3[extra]) (4.8.0.76)\n",
            "Requirement already satisfied: pygame in /usr/local/lib/python3.10/dist-packages (from stable-baselines3[extra]) (2.5.2)\n",
            "Requirement already satisfied: tensorboard>=2.9.1 in /usr/local/lib/python3.10/dist-packages (from stable-baselines3[extra]) (2.15.2)\n",
            "Requirement already satisfied: psutil in /usr/local/lib/python3.10/dist-packages (from stable-baselines3[extra]) (5.9.5)\n",
            "Requirement already satisfied: tqdm in /usr/local/lib/python3.10/dist-packages (from stable-baselines3[extra]) (4.66.4)\n",
            "Requirement already satisfied: rich in /usr/local/lib/python3.10/dist-packages (from stable-baselines3[extra]) (13.7.1)\n",
            "Requirement already satisfied: shimmy[atari]~=1.3.0 in /usr/local/lib/python3.10/dist-packages (from stable-baselines3[extra]) (1.3.0)\n",
            "Requirement already satisfied: pillow in /usr/local/lib/python3.10/dist-packages (from stable-baselines3[extra]) (9.4.0)\n",
            "Requirement already satisfied: autorom[accept-rom-license]~=0.6.1 in /usr/local/lib/python3.10/dist-packages (from stable-baselines3[extra]) (0.6.1)\n",
            "Requirement already satisfied: click in /usr/local/lib/python3.10/dist-packages (from autorom[accept-rom-license]~=0.6.1->stable-baselines3[extra]) (8.1.7)\n",
            "Requirement already satisfied: requests in /usr/local/lib/python3.10/dist-packages (from autorom[accept-rom-license]~=0.6.1->stable-baselines3[extra]) (2.31.0)\n",
            "Requirement already satisfied: AutoROM.accept-rom-license in /usr/local/lib/python3.10/dist-packages (from autorom[accept-rom-license]~=0.6.1->stable-baselines3[extra]) (0.6.1)\n",
            "Requirement already satisfied: typing-extensions>=4.3.0 in /usr/local/lib/python3.10/dist-packages (from gymnasium<0.30,>=0.28.1->stable-baselines3[extra]) (4.12.1)\n",
            "Requirement already satisfied: farama-notifications>=0.0.1 in /usr/local/lib/python3.10/dist-packages (from gymnasium<0.30,>=0.28.1->stable-baselines3[extra]) (0.0.4)\n",
            "Requirement already satisfied: ale-py~=0.8.1 in /usr/local/lib/python3.10/dist-packages (from shimmy[atari]~=1.3.0->stable-baselines3[extra]) (0.8.1)\n",
            "Requirement already satisfied: absl-py>=0.4 in /usr/local/lib/python3.10/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]) (1.4.0)\n",
            "Requirement already satisfied: grpcio>=1.48.2 in /usr/local/lib/python3.10/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]) (1.64.1)\n",
            "Requirement already satisfied: google-auth<3,>=1.6.3 in /usr/local/lib/python3.10/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]) (2.27.0)\n",
            "Requirement already satisfied: google-auth-oauthlib<2,>=0.5 in /usr/local/lib/python3.10/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]) (1.2.0)\n",
            "Requirement already satisfied: markdown>=2.6.8 in /usr/local/lib/python3.10/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]) (3.6)\n",
            "Requirement already satisfied: protobuf!=4.24.0,>=3.19.6 in /usr/local/lib/python3.10/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]) (3.20.3)\n",
            "Requirement already satisfied: setuptools>=41.0.0 in /usr/local/lib/python3.10/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]) (67.7.2)\n",
            "Requirement already satisfied: six>1.9 in /usr/local/lib/python3.10/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]) (1.16.0)\n",
            "Requirement already satisfied: tensorboard-data-server<0.8.0,>=0.7.0 in /usr/local/lib/python3.10/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]) (0.7.2)\n",
            "Requirement already satisfied: werkzeug>=1.0.1 in /usr/local/lib/python3.10/dist-packages (from tensorboard>=2.9.1->stable-baselines3[extra]) (3.0.3)\n",
            "Requirement already satisfied: filelock in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (3.14.0)\n",
            "Requirement already satisfied: sympy in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (1.12.1)\n",
            "Requirement already satisfied: networkx in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (3.3)\n",
            "Requirement already satisfied: jinja2 in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (3.1.4)\n",
            "Requirement already satisfied: fsspec in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (2023.6.0)\n",
            "Requirement already satisfied: nvidia-cuda-nvrtc-cu12==12.1.105 in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (12.1.105)\n",
            "Requirement already satisfied: nvidia-cuda-runtime-cu12==12.1.105 in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (12.1.105)\n",
            "Requirement already satisfied: nvidia-cuda-cupti-cu12==12.1.105 in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (12.1.105)\n",
            "Requirement already satisfied: nvidia-cudnn-cu12==8.9.2.26 in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (8.9.2.26)\n",
            "Requirement already satisfied: nvidia-cublas-cu12==12.1.3.1 in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (12.1.3.1)\n",
            "Requirement already satisfied: nvidia-cufft-cu12==11.0.2.54 in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (11.0.2.54)\n",
            "Requirement already satisfied: nvidia-curand-cu12==10.3.2.106 in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (10.3.2.106)\n",
            "Requirement already satisfied: nvidia-cusolver-cu12==11.4.5.107 in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (11.4.5.107)\n",
            "Requirement already satisfied: nvidia-cusparse-cu12==12.1.0.106 in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (12.1.0.106)\n",
            "Requirement already satisfied: nvidia-nccl-cu12==2.20.5 in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (2.20.5)\n",
            "Requirement already satisfied: nvidia-nvtx-cu12==12.1.105 in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (12.1.105)\n",
            "Requirement already satisfied: triton==2.3.0 in /usr/local/lib/python3.10/dist-packages (from torch>=1.13->stable-baselines3[extra]) (2.3.0)\n",
            "Requirement already satisfied: nvidia-nvjitlink-cu12 in /usr/local/lib/python3.10/dist-packages (from nvidia-cusolver-cu12==11.4.5.107->torch>=1.13->stable-baselines3[extra]) (12.5.40)\n",
            "Requirement already satisfied: contourpy>=1.0.1 in /usr/local/lib/python3.10/dist-packages (from matplotlib->stable-baselines3[extra]) (1.2.1)\n",
            "Requirement already satisfied: cycler>=0.10 in /usr/local/lib/python3.10/dist-packages (from matplotlib->stable-baselines3[extra]) (0.12.1)\n",
            "Requirement already satisfied: fonttools>=4.22.0 in /usr/local/lib/python3.10/dist-packages (from matplotlib->stable-baselines3[extra]) (4.53.0)\n",
            "Requirement already satisfied: kiwisolver>=1.0.1 in /usr/local/lib/python3.10/dist-packages (from matplotlib->stable-baselines3[extra]) (1.4.5)\n",
            "Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.10/dist-packages (from matplotlib->stable-baselines3[extra]) (24.0)\n",
            "Requirement already satisfied: pyparsing>=2.3.1 in /usr/local/lib/python3.10/dist-packages (from matplotlib->stable-baselines3[extra]) (3.1.2)\n",
            "Requirement already satisfied: python-dateutil>=2.7 in /usr/local/lib/python3.10/dist-packages (from matplotlib->stable-baselines3[extra]) (2.8.2)\n",
            "Requirement already satisfied: pytz>=2020.1 in /usr/local/lib/python3.10/dist-packages (from pandas->stable-baselines3[extra]) (2023.4)\n",
            "Requirement already satisfied: tzdata>=2022.1 in /usr/local/lib/python3.10/dist-packages (from pandas->stable-baselines3[extra]) (2024.1)\n",
            "Requirement already satisfied: markdown-it-py>=2.2.0 in /usr/local/lib/python3.10/dist-packages (from rich->stable-baselines3[extra]) (3.0.0)\n",
            "Requirement already satisfied: pygments<3.0.0,>=2.13.0 in /usr/local/lib/python3.10/dist-packages (from rich->stable-baselines3[extra]) (2.16.1)\n",
            "Requirement already satisfied: importlib-resources in /usr/local/lib/python3.10/dist-packages (from ale-py~=0.8.1->shimmy[atari]~=1.3.0->stable-baselines3[extra]) (6.4.0)\n",
            "Requirement already satisfied: cachetools<6.0,>=2.0.0 in /usr/local/lib/python3.10/dist-packages (from google-auth<3,>=1.6.3->tensorboard>=2.9.1->stable-baselines3[extra]) (5.3.3)\n",
            "Requirement already satisfied: pyasn1-modules>=0.2.1 in /usr/local/lib/python3.10/dist-packages (from google-auth<3,>=1.6.3->tensorboard>=2.9.1->stable-baselines3[extra]) (0.4.0)\n",
            "Requirement already satisfied: rsa<5,>=3.1.4 in /usr/local/lib/python3.10/dist-packages (from google-auth<3,>=1.6.3->tensorboard>=2.9.1->stable-baselines3[extra]) (4.9)\n",
            "Requirement already satisfied: requests-oauthlib>=0.7.0 in /usr/local/lib/python3.10/dist-packages (from google-auth-oauthlib<2,>=0.5->tensorboard>=2.9.1->stable-baselines3[extra]) (1.3.1)\n",
            "Requirement already satisfied: mdurl~=0.1 in /usr/local/lib/python3.10/dist-packages (from markdown-it-py>=2.2.0->rich->stable-baselines3[extra]) (0.1.2)\n",
            "Requirement already satisfied: charset-normalizer<4,>=2 in /usr/local/lib/python3.10/dist-packages (from requests->autorom[accept-rom-license]~=0.6.1->stable-baselines3[extra]) (3.3.2)\n",
            "Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.10/dist-packages (from requests->autorom[accept-rom-license]~=0.6.1->stable-baselines3[extra]) (3.7)\n",
            "Requirement already satisfied: urllib3<3,>=1.21.1 in /usr/local/lib/python3.10/dist-packages (from requests->autorom[accept-rom-license]~=0.6.1->stable-baselines3[extra]) (2.0.7)\n",
            "Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.10/dist-packages (from requests->autorom[accept-rom-license]~=0.6.1->stable-baselines3[extra]) (2024.6.2)\n",
            "Requirement already satisfied: MarkupSafe>=2.1.1 in /usr/local/lib/python3.10/dist-packages (from werkzeug>=1.0.1->tensorboard>=2.9.1->stable-baselines3[extra]) (2.1.5)\n",
            "Requirement already satisfied: mpmath<1.4.0,>=1.1.0 in /usr/local/lib/python3.10/dist-packages (from sympy->torch>=1.13->stable-baselines3[extra]) (1.3.0)\n",
            "Requirement already satisfied: pyasn1<0.7.0,>=0.4.6 in /usr/local/lib/python3.10/dist-packages (from pyasn1-modules>=0.2.1->google-auth<3,>=1.6.3->tensorboard>=2.9.1->stable-baselines3[extra]) (0.6.0)\n",
            "Requirement already satisfied: oauthlib>=3.0.0 in /usr/local/lib/python3.10/dist-packages (from requests-oauthlib>=0.7.0->google-auth-oauthlib<2,>=0.5->tensorboard>=2.9.1->stable-baselines3[extra]) (3.2.2)\n",
            "Requirement already satisfied: gymnasium in /usr/local/lib/python3.10/dist-packages (0.29.1)\n",
            "Requirement already satisfied: numpy>=1.21.0 in /usr/local/lib/python3.10/dist-packages (from gymnasium) (1.25.2)\n",
            "Requirement already satisfied: cloudpickle>=1.2.0 in /usr/local/lib/python3.10/dist-packages (from gymnasium) (2.2.1)\n",
            "Requirement already satisfied: typing-extensions>=4.3.0 in /usr/local/lib/python3.10/dist-packages (from gymnasium) (4.12.1)\n",
            "Requirement already satisfied: farama-notifications>=0.0.1 in /usr/local/lib/python3.10/dist-packages (from gymnasium) (0.0.4)\n",
            "Requirement already satisfied: huggingface_sb3 in /usr/local/lib/python3.10/dist-packages (3.0)\n",
            "Requirement already satisfied: huggingface-hub~=0.8 in /usr/local/lib/python3.10/dist-packages (from huggingface_sb3) (0.23.2)\n",
            "Requirement already satisfied: pyyaml~=6.0 in /usr/local/lib/python3.10/dist-packages (from huggingface_sb3) (6.0.1)\n",
            "Requirement already satisfied: wasabi in /usr/local/lib/python3.10/dist-packages (from huggingface_sb3) (1.1.3)\n",
            "Requirement already satisfied: numpy in /usr/local/lib/python3.10/dist-packages (from huggingface_sb3) (1.25.2)\n",
            "Requirement already satisfied: cloudpickle>=1.6 in /usr/local/lib/python3.10/dist-packages (from huggingface_sb3) (2.2.1)\n",
            "Requirement already satisfied: filelock in /usr/local/lib/python3.10/dist-packages (from huggingface-hub~=0.8->huggingface_sb3) (3.14.0)\n",
            "Requirement already satisfied: fsspec>=2023.5.0 in /usr/local/lib/python3.10/dist-packages (from huggingface-hub~=0.8->huggingface_sb3) (2023.6.0)\n",
            "Requirement already satisfied: packaging>=20.9 in /usr/local/lib/python3.10/dist-packages (from huggingface-hub~=0.8->huggingface_sb3) (24.0)\n",
            "Requirement already satisfied: requests in /usr/local/lib/python3.10/dist-packages (from huggingface-hub~=0.8->huggingface_sb3) (2.31.0)\n",
            "Requirement already satisfied: tqdm>=4.42.1 in /usr/local/lib/python3.10/dist-packages (from huggingface-hub~=0.8->huggingface_sb3) (4.66.4)\n",
            "Requirement already satisfied: typing-extensions>=3.7.4.3 in /usr/local/lib/python3.10/dist-packages (from huggingface-hub~=0.8->huggingface_sb3) (4.12.1)\n",
            "Requirement already satisfied: charset-normalizer<4,>=2 in /usr/local/lib/python3.10/dist-packages (from requests->huggingface-hub~=0.8->huggingface_sb3) (3.3.2)\n",
            "Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.10/dist-packages (from requests->huggingface-hub~=0.8->huggingface_sb3) (3.7)\n",
            "Requirement already satisfied: urllib3<3,>=1.21.1 in /usr/local/lib/python3.10/dist-packages (from requests->huggingface-hub~=0.8->huggingface_sb3) (2.0.7)\n",
            "Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.10/dist-packages (from requests->huggingface-hub~=0.8->huggingface_sb3) (2024.6.2)\n",
            "Requirement already satisfied: huggingface_hub in /usr/local/lib/python3.10/dist-packages (0.23.2)\n",
            "Requirement already satisfied: filelock in /usr/local/lib/python3.10/dist-packages (from huggingface_hub) (3.14.0)\n",
            "Requirement already satisfied: fsspec>=2023.5.0 in /usr/local/lib/python3.10/dist-packages (from huggingface_hub) (2023.6.0)\n",
            "Requirement already satisfied: packaging>=20.9 in /usr/local/lib/python3.10/dist-packages (from huggingface_hub) (24.0)\n",
            "Requirement already satisfied: pyyaml>=5.1 in /usr/local/lib/python3.10/dist-packages (from huggingface_hub) (6.0.1)\n",
            "Requirement already satisfied: requests in /usr/local/lib/python3.10/dist-packages (from huggingface_hub) (2.31.0)\n",
            "Requirement already satisfied: tqdm>=4.42.1 in /usr/local/lib/python3.10/dist-packages (from huggingface_hub) (4.66.4)\n",
            "Requirement already satisfied: typing-extensions>=3.7.4.3 in /usr/local/lib/python3.10/dist-packages (from huggingface_hub) (4.12.1)\n",
            "Requirement already satisfied: charset-normalizer<4,>=2 in /usr/local/lib/python3.10/dist-packages (from requests->huggingface_hub) (3.3.2)\n",
            "Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.10/dist-packages (from requests->huggingface_hub) (3.7)\n",
            "Requirement already satisfied: urllib3<3,>=1.21.1 in /usr/local/lib/python3.10/dist-packages (from requests->huggingface_hub) (2.0.7)\n",
            "Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.10/dist-packages (from requests->huggingface_hub) (2024.6.2)\n",
            "Requirement already satisfied: panda_gym in /usr/local/lib/python3.10/dist-packages (3.0.7)\n",
            "Requirement already satisfied: gymnasium>=0.26 in /usr/local/lib/python3.10/dist-packages (from panda_gym) (0.29.1)\n",
            "Requirement already satisfied: pybullet in /usr/local/lib/python3.10/dist-packages (from panda_gym) (3.2.6)\n",
            "Requirement already satisfied: numpy in /usr/local/lib/python3.10/dist-packages (from panda_gym) (1.25.2)\n",
            "Requirement already satisfied: scipy in /usr/local/lib/python3.10/dist-packages (from panda_gym) (1.11.4)\n",
            "Requirement already satisfied: cloudpickle>=1.2.0 in /usr/local/lib/python3.10/dist-packages (from gymnasium>=0.26->panda_gym) (2.2.1)\n",
            "Requirement already satisfied: typing-extensions>=4.3.0 in /usr/local/lib/python3.10/dist-packages (from gymnasium>=0.26->panda_gym) (4.12.1)\n",
            "Requirement already satisfied: farama-notifications>=0.0.1 in /usr/local/lib/python3.10/dist-packages (from gymnasium>=0.26->panda_gym) (0.0.4)\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Importing the Packages"
      ],
      "metadata": {
        "id": "5q0Nsqyd_i9W"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "import os\n",
        "\n",
        "import gymnasium as gym\n",
        "import panda_gym\n",
        "\n",
        "from huggingface_sb3 import load_from_hub, package_to_hub\n",
        "\n",
        "from stable_baselines3 import A2C\n",
        "from stable_baselines3.common.evaluation import evaluate_policy\n",
        "from stable_baselines3.common.vec_env import DummyVecEnv, VecNormalize\n",
        "from stable_baselines3.common.env_util import make_vec_env\n",
        "\n",
        "from huggingface_hub import notebook_login"
      ],
      "metadata": {
        "id": "Cf9zRbU_nXfU"
      },
      "execution_count": 4,
      "outputs": []
    },
    {
      "cell_type": "markdown",
      "source": [
        "Creating the Environment"
      ],
      "metadata": {
        "id": "ozogIGuHAJ5n"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "env_id = \"PandaReachDense-v3\"\n",
        "\n",
        "# Create the env\n",
        "env = gym.make(env_id)\n",
        "\n",
        "# Get the state space and action space\n",
        "s_size = env.observation_space.shape\n",
        "a_size = env.action_space"
      ],
      "metadata": {
        "id": "V0ZQQtgLna7C",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 0
        },
        "outputId": "dd8c8642-f232-48d7-a074-2ebd98e7afe1"
      },
      "execution_count": 5,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "/usr/local/lib/python3.10/dist-packages/ipykernel/ipkernel.py:283: DeprecationWarning: `should_run_async` will not call `transform_cell` automatically in the future. Please pass the result to `transformed_cell` argument and any exception that happen during thetransform in `preprocessing_exc_tuple` in IPython 7.17 and above.\n",
            "  and should_run_async(code)\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Observation Space"
      ],
      "metadata": {
        "id": "5riYZ7gXAPb7"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "print(\"_____OBSERVATION SPACE_____ \\n\")\n",
        "print(\"The State Space is: \", s_size)\n",
        "print(\"Sample observation\", env.observation_space.sample()) # Get a random observation"
      ],
      "metadata": {
        "id": "QBrnZ01PnjZB",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 0
        },
        "outputId": "89dc28d4-04e8-4397-c7cc-01c9e37a3ef0"
      },
      "execution_count": 6,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "_____OBSERVATION SPACE_____ \n",
            "\n",
            "The State Space is:  None\n",
            "Sample observation OrderedDict([('achieved_goal', array([ 0.78458875, -6.220511  , -9.073549  ], dtype=float32)), ('desired_goal', array([-5.211849 ,  2.830356 , -7.8033385], dtype=float32)), ('observation', array([ 1.9924148, -8.279003 , -4.5922694,  7.5727925, -2.136467 ,\n",
            "       -2.6619885], dtype=float32))])\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Action Space"
      ],
      "metadata": {
        "id": "0h1UIHAHAUUM"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "print(\"\\n _____ACTION SPACE_____ \\n\")\n",
        "print(\"The Action Space is: \", a_size)\n",
        "print(\"Action Space Sample\", env.action_space.sample()) # Take a random action"
      ],
      "metadata": {
        "id": "rWFWF-lInlnz",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 0
        },
        "outputId": "a16d3d0c-b376-4e15-a598-3f8d49e45126"
      },
      "execution_count": 7,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "\n",
            " _____ACTION SPACE_____ \n",
            "\n",
            "The Action Space is:  Box(-1.0, 1.0, (3,), float32)\n",
            "Action Space Sample [-0.07075059 -0.86420137  0.85553956]\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Adding a wrapper to normalise rewards"
      ],
      "metadata": {
        "id": "PoGKpbjuAd5n"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "env = make_vec_env(env_id, n_envs=4)\n",
        "\n",
        "env = VecNormalize(env, norm_obs=True, norm_reward=True, clip_obs=10.)"
      ],
      "metadata": {
        "id": "QrdbSEpcnmY5"
      },
      "execution_count": 8,
      "outputs": []
    },
    {
      "cell_type": "markdown",
      "source": [
        "Creating the A2C model"
      ],
      "metadata": {
        "id": "uKPfx4awAskD"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "model = A2C(policy = \"MultiInputPolicy\",\n",
        "            env = env,\n",
        "            verbose=1)"
      ],
      "metadata": {
        "id": "qANbDpzVnpnG",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 0
        },
        "outputId": "10a05cce-7e1d-45a9-9e14-2ade3240d6bd"
      },
      "execution_count": 9,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Using cpu device\n"
          ]
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Training the A2C agent for 1000000 timesteps"
      ],
      "metadata": {
        "id": "qlcfoqYuAxuH"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "model.learn(1_000_000)"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 0
        },
        "id": "jzrg6nkKrWsQ",
        "outputId": "616cd991-7b25-4bbc-a958-9a74499a3688"
      },
      "execution_count": 10,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "/usr/local/lib/python3.10/dist-packages/ipykernel/ipkernel.py:283: DeprecationWarning: `should_run_async` will not call `transform_cell` automatically in the future. Please pass the result to `transformed_cell` argument and any exception that happen during thetransform in `preprocessing_exc_tuple` in IPython 7.17 and above.\n",
            "  and should_run_async(code)\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "\u001b[1;30;43mStreaming output truncated to the last 5000 lines.\u001b[0m\n",
            "|    std                | 0.302    |\n",
            "|    value_loss         | 0.000388 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.75     |\n",
            "|    ep_rew_mean        | -0.221   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 23800    |\n",
            "|    time_elapsed       | 1560     |\n",
            "|    total_timesteps    | 476000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.604   |\n",
            "|    explained_variance | 0.924    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 23799    |\n",
            "|    policy_loss        | 0.00592  |\n",
            "|    std                | 0.3      |\n",
            "|    value_loss         | 0.000387 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.7      |\n",
            "|    ep_rew_mean        | -0.201   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 304      |\n",
            "|    iterations         | 23900    |\n",
            "|    time_elapsed       | 1567     |\n",
            "|    total_timesteps    | 478000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.587   |\n",
            "|    explained_variance | 0.973    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 23899    |\n",
            "|    policy_loss        | 0.00627  |\n",
            "|    std                | 0.299    |\n",
            "|    value_loss         | 0.00013  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.61     |\n",
            "|    ep_rew_mean        | -0.2     |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 24000    |\n",
            "|    time_elapsed       | 1573     |\n",
            "|    total_timesteps    | 480000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.564   |\n",
            "|    explained_variance | 0.982    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 23999    |\n",
            "|    policy_loss        | 0.0053   |\n",
            "|    std                | 0.297    |\n",
            "|    value_loss         | 0.000114 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.75     |\n",
            "|    ep_rew_mean        | -0.215   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 24100    |\n",
            "|    time_elapsed       | 1580     |\n",
            "|    total_timesteps    | 482000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.575   |\n",
            "|    explained_variance | 0.967    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 24099    |\n",
            "|    policy_loss        | -0.00196 |\n",
            "|    std                | 0.298    |\n",
            "|    value_loss         | 0.00024  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.69     |\n",
            "|    ep_rew_mean        | -0.208   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 24200    |\n",
            "|    time_elapsed       | 1586     |\n",
            "|    total_timesteps    | 484000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.569   |\n",
            "|    explained_variance | 0.983    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 24199    |\n",
            "|    policy_loss        | 0.0031   |\n",
            "|    std                | 0.298    |\n",
            "|    value_loss         | 0.000154 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.85     |\n",
            "|    ep_rew_mean        | -0.222   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 24300    |\n",
            "|    time_elapsed       | 1593     |\n",
            "|    total_timesteps    | 486000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.558   |\n",
            "|    explained_variance | 0.964    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 24299    |\n",
            "|    policy_loss        | 0.000412 |\n",
            "|    std                | 0.296    |\n",
            "|    value_loss         | 0.000434 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.68     |\n",
            "|    ep_rew_mean        | -0.201   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 24400    |\n",
            "|    time_elapsed       | 1599     |\n",
            "|    total_timesteps    | 488000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.555   |\n",
            "|    explained_variance | 0.973    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 24399    |\n",
            "|    policy_loss        | 0.00264  |\n",
            "|    std                | 0.296    |\n",
            "|    value_loss         | 0.000104 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.79     |\n",
            "|    ep_rew_mean        | -0.219   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 304      |\n",
            "|    iterations         | 24500    |\n",
            "|    time_elapsed       | 1607     |\n",
            "|    total_timesteps    | 490000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.535   |\n",
            "|    explained_variance | 0.975    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 24499    |\n",
            "|    policy_loss        | -0.00366 |\n",
            "|    std                | 0.294    |\n",
            "|    value_loss         | 0.000205 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.95     |\n",
            "|    ep_rew_mean        | -0.235   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 24600    |\n",
            "|    time_elapsed       | 1613     |\n",
            "|    total_timesteps    | 492000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.522   |\n",
            "|    explained_variance | 0.978    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 24599    |\n",
            "|    policy_loss        | -0.00626 |\n",
            "|    std                | 0.293    |\n",
            "|    value_loss         | 0.000141 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.65     |\n",
            "|    ep_rew_mean        | -0.208   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 24700    |\n",
            "|    time_elapsed       | 1619     |\n",
            "|    total_timesteps    | 494000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.511   |\n",
            "|    explained_variance | 0.913    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 24699    |\n",
            "|    policy_loss        | -0.0108  |\n",
            "|    std                | 0.291    |\n",
            "|    value_loss         | 0.000323 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.68     |\n",
            "|    ep_rew_mean        | -0.2     |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 24800    |\n",
            "|    time_elapsed       | 1625     |\n",
            "|    total_timesteps    | 496000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.518   |\n",
            "|    explained_variance | 0.956    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 24799    |\n",
            "|    policy_loss        | 0.000693 |\n",
            "|    std                | 0.293    |\n",
            "|    value_loss         | 0.000156 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.8      |\n",
            "|    ep_rew_mean        | -0.212   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 24900    |\n",
            "|    time_elapsed       | 1632     |\n",
            "|    total_timesteps    | 498000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.51    |\n",
            "|    explained_variance | 0.925    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 24899    |\n",
            "|    policy_loss        | -0.00333 |\n",
            "|    std                | 0.292    |\n",
            "|    value_loss         | 0.000244 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.75     |\n",
            "|    ep_rew_mean        | -0.209   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 25000    |\n",
            "|    time_elapsed       | 1638     |\n",
            "|    total_timesteps    | 500000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.498   |\n",
            "|    explained_variance | 0.955    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 24999    |\n",
            "|    policy_loss        | 0.000141 |\n",
            "|    std                | 0.291    |\n",
            "|    value_loss         | 0.000232 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.72     |\n",
            "|    ep_rew_mean        | -0.204   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 25100    |\n",
            "|    time_elapsed       | 1644     |\n",
            "|    total_timesteps    | 502000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.498   |\n",
            "|    explained_variance | 0.97     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 25099    |\n",
            "|    policy_loss        | 0.0171   |\n",
            "|    std                | 0.291    |\n",
            "|    value_loss         | 0.000277 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.88     |\n",
            "|    ep_rew_mean        | -0.227   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 25200    |\n",
            "|    time_elapsed       | 1651     |\n",
            "|    total_timesteps    | 504000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.474   |\n",
            "|    explained_variance | 0.928    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 25199    |\n",
            "|    policy_loss        | 0.00339  |\n",
            "|    std                | 0.289    |\n",
            "|    value_loss         | 0.000273 |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.64      |\n",
            "|    ep_rew_mean        | -0.205    |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 305       |\n",
            "|    iterations         | 25300     |\n",
            "|    time_elapsed       | 1657      |\n",
            "|    total_timesteps    | 506000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | -0.47     |\n",
            "|    explained_variance | 0.971     |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 25299     |\n",
            "|    policy_loss        | -0.000358 |\n",
            "|    std                | 0.288     |\n",
            "|    value_loss         | 0.000236  |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.72     |\n",
            "|    ep_rew_mean        | -0.214   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 25400    |\n",
            "|    time_elapsed       | 1664     |\n",
            "|    total_timesteps    | 508000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.481   |\n",
            "|    explained_variance | 0.987    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 25399    |\n",
            "|    policy_loss        | 0.000577 |\n",
            "|    std                | 0.289    |\n",
            "|    value_loss         | 7.3e-05  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.96     |\n",
            "|    ep_rew_mean        | -0.246   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 25500    |\n",
            "|    time_elapsed       | 1670     |\n",
            "|    total_timesteps    | 510000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.477   |\n",
            "|    explained_variance | 0.991    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 25499    |\n",
            "|    policy_loss        | 0.00195  |\n",
            "|    std                | 0.289    |\n",
            "|    value_loss         | 8.5e-05  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.66     |\n",
            "|    ep_rew_mean        | -0.212   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 25600    |\n",
            "|    time_elapsed       | 1678     |\n",
            "|    total_timesteps    | 512000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.469   |\n",
            "|    explained_variance | 0.987    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 25599    |\n",
            "|    policy_loss        | -0.00508 |\n",
            "|    std                | 0.288    |\n",
            "|    value_loss         | 0.000106 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.65     |\n",
            "|    ep_rew_mean        | -0.203   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 25700    |\n",
            "|    time_elapsed       | 1683     |\n",
            "|    total_timesteps    | 514000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.459   |\n",
            "|    explained_variance | 0.958    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 25699    |\n",
            "|    policy_loss        | -0.0039  |\n",
            "|    std                | 0.287    |\n",
            "|    value_loss         | 0.000203 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.78     |\n",
            "|    ep_rew_mean        | -0.225   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 25800    |\n",
            "|    time_elapsed       | 1690     |\n",
            "|    total_timesteps    | 516000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.459   |\n",
            "|    explained_variance | 0.943    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 25799    |\n",
            "|    policy_loss        | 0.0142   |\n",
            "|    std                | 0.288    |\n",
            "|    value_loss         | 0.000381 |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.75      |\n",
            "|    ep_rew_mean        | -0.206    |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 305       |\n",
            "|    iterations         | 25900     |\n",
            "|    time_elapsed       | 1696      |\n",
            "|    total_timesteps    | 518000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | -0.454    |\n",
            "|    explained_variance | 0.912     |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 25899     |\n",
            "|    policy_loss        | -0.000539 |\n",
            "|    std                | 0.287     |\n",
            "|    value_loss         | 0.00023   |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.79     |\n",
            "|    ep_rew_mean        | -0.221   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 26000    |\n",
            "|    time_elapsed       | 1703     |\n",
            "|    total_timesteps    | 520000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.436   |\n",
            "|    explained_variance | 0.971    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 25999    |\n",
            "|    policy_loss        | 0.00105  |\n",
            "|    std                | 0.286    |\n",
            "|    value_loss         | 0.00014  |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.74      |\n",
            "|    ep_rew_mean        | -0.212    |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 305       |\n",
            "|    iterations         | 26100     |\n",
            "|    time_elapsed       | 1709      |\n",
            "|    total_timesteps    | 522000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | -0.436    |\n",
            "|    explained_variance | 0.995     |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 26099     |\n",
            "|    policy_loss        | -0.000882 |\n",
            "|    std                | 0.286     |\n",
            "|    value_loss         | 2.71e-05  |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.76     |\n",
            "|    ep_rew_mean        | -0.217   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 26200    |\n",
            "|    time_elapsed       | 1716     |\n",
            "|    total_timesteps    | 524000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.419   |\n",
            "|    explained_variance | 0.907    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 26199    |\n",
            "|    policy_loss        | 0.00117  |\n",
            "|    std                | 0.284    |\n",
            "|    value_loss         | 0.000584 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.71     |\n",
            "|    ep_rew_mean        | -0.203   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 26300    |\n",
            "|    time_elapsed       | 1722     |\n",
            "|    total_timesteps    | 526000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.408   |\n",
            "|    explained_variance | 0.925    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 26299    |\n",
            "|    policy_loss        | -0.00444 |\n",
            "|    std                | 0.283    |\n",
            "|    value_loss         | 0.000139 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.66     |\n",
            "|    ep_rew_mean        | -0.205   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 26400    |\n",
            "|    time_elapsed       | 1729     |\n",
            "|    total_timesteps    | 528000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.425   |\n",
            "|    explained_variance | 0.981    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 26399    |\n",
            "|    policy_loss        | 0.00431  |\n",
            "|    std                | 0.285    |\n",
            "|    value_loss         | 0.000151 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.72     |\n",
            "|    ep_rew_mean        | -0.215   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 26500    |\n",
            "|    time_elapsed       | 1735     |\n",
            "|    total_timesteps    | 530000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.415   |\n",
            "|    explained_variance | 0.965    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 26499    |\n",
            "|    policy_loss        | -0.00216 |\n",
            "|    std                | 0.284    |\n",
            "|    value_loss         | 0.000151 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.75     |\n",
            "|    ep_rew_mean        | -0.211   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 26600    |\n",
            "|    time_elapsed       | 1742     |\n",
            "|    total_timesteps    | 532000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.382   |\n",
            "|    explained_variance | 0.965    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 26599    |\n",
            "|    policy_loss        | 0.0106   |\n",
            "|    std                | 0.281    |\n",
            "|    value_loss         | 0.000305 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.69     |\n",
            "|    ep_rew_mean        | -0.209   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 26700    |\n",
            "|    time_elapsed       | 1748     |\n",
            "|    total_timesteps    | 534000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.379   |\n",
            "|    explained_variance | 0.882    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 26699    |\n",
            "|    policy_loss        | 0.00592  |\n",
            "|    std                | 0.281    |\n",
            "|    value_loss         | 0.000727 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.79     |\n",
            "|    ep_rew_mean        | -0.228   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 26800    |\n",
            "|    time_elapsed       | 1754     |\n",
            "|    total_timesteps    | 536000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.373   |\n",
            "|    explained_variance | 0.981    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 26799    |\n",
            "|    policy_loss        | 0.0091   |\n",
            "|    std                | 0.28     |\n",
            "|    value_loss         | 0.000249 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.58     |\n",
            "|    ep_rew_mean        | -0.196   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 26900    |\n",
            "|    time_elapsed       | 1761     |\n",
            "|    total_timesteps    | 538000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.349   |\n",
            "|    explained_variance | 0.973    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 26899    |\n",
            "|    policy_loss        | 0.0015   |\n",
            "|    std                | 0.279    |\n",
            "|    value_loss         | 9.46e-05 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.7      |\n",
            "|    ep_rew_mean        | -0.208   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 27000    |\n",
            "|    time_elapsed       | 1767     |\n",
            "|    total_timesteps    | 540000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.342   |\n",
            "|    explained_variance | 0.982    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 26999    |\n",
            "|    policy_loss        | 0.00197  |\n",
            "|    std                | 0.278    |\n",
            "|    value_loss         | 9.57e-05 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.77     |\n",
            "|    ep_rew_mean        | -0.211   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 27100    |\n",
            "|    time_elapsed       | 1774     |\n",
            "|    total_timesteps    | 542000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.324   |\n",
            "|    explained_variance | 0.808    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 27099    |\n",
            "|    policy_loss        | -0.0056  |\n",
            "|    std                | 0.277    |\n",
            "|    value_loss         | 0.000701 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.83     |\n",
            "|    ep_rew_mean        | -0.221   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 27200    |\n",
            "|    time_elapsed       | 1780     |\n",
            "|    total_timesteps    | 544000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.314   |\n",
            "|    explained_variance | 0.97     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 27199    |\n",
            "|    policy_loss        | 0.000458 |\n",
            "|    std                | 0.276    |\n",
            "|    value_loss         | 0.000201 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.57     |\n",
            "|    ep_rew_mean        | -0.203   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 27300    |\n",
            "|    time_elapsed       | 1787     |\n",
            "|    total_timesteps    | 546000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.315   |\n",
            "|    explained_variance | 0.985    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 27299    |\n",
            "|    policy_loss        | -0.00777 |\n",
            "|    std                | 0.276    |\n",
            "|    value_loss         | 0.00015  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.67     |\n",
            "|    ep_rew_mean        | -0.203   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 27400    |\n",
            "|    time_elapsed       | 1793     |\n",
            "|    total_timesteps    | 548000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.299   |\n",
            "|    explained_variance | 0.962    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 27399    |\n",
            "|    policy_loss        | -0.00159 |\n",
            "|    std                | 0.274    |\n",
            "|    value_loss         | 0.00015  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.85     |\n",
            "|    ep_rew_mean        | -0.229   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 27500    |\n",
            "|    time_elapsed       | 1800     |\n",
            "|    total_timesteps    | 550000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.277   |\n",
            "|    explained_variance | 0.986    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 27499    |\n",
            "|    policy_loss        | -0.00298 |\n",
            "|    std                | 0.272    |\n",
            "|    value_loss         | 0.000202 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.73     |\n",
            "|    ep_rew_mean        | -0.216   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 27600    |\n",
            "|    time_elapsed       | 1806     |\n",
            "|    total_timesteps    | 552000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.26    |\n",
            "|    explained_variance | 0.984    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 27599    |\n",
            "|    policy_loss        | 0.00736  |\n",
            "|    std                | 0.271    |\n",
            "|    value_loss         | 0.000391 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.66     |\n",
            "|    ep_rew_mean        | -0.207   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 27700    |\n",
            "|    time_elapsed       | 1813     |\n",
            "|    total_timesteps    | 554000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.271   |\n",
            "|    explained_variance | 0.923    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 27699    |\n",
            "|    policy_loss        | 0.00112  |\n",
            "|    std                | 0.272    |\n",
            "|    value_loss         | 0.000314 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.65     |\n",
            "|    ep_rew_mean        | -0.199   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 27800    |\n",
            "|    time_elapsed       | 1819     |\n",
            "|    total_timesteps    | 556000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.27    |\n",
            "|    explained_variance | 0.743    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 27799    |\n",
            "|    policy_loss        | -0.0071  |\n",
            "|    std                | 0.272    |\n",
            "|    value_loss         | 0.00126  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.7      |\n",
            "|    ep_rew_mean        | -0.207   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 27900    |\n",
            "|    time_elapsed       | 1825     |\n",
            "|    total_timesteps    | 558000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.253   |\n",
            "|    explained_variance | 0.984    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 27899    |\n",
            "|    policy_loss        | -0.00463 |\n",
            "|    std                | 0.27     |\n",
            "|    value_loss         | 9.94e-05 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.72     |\n",
            "|    ep_rew_mean        | -0.217   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 28000    |\n",
            "|    time_elapsed       | 1831     |\n",
            "|    total_timesteps    | 560000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.254   |\n",
            "|    explained_variance | 0.923    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 27999    |\n",
            "|    policy_loss        | 0.00141  |\n",
            "|    std                | 0.27     |\n",
            "|    value_loss         | 0.000601 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.74     |\n",
            "|    ep_rew_mean        | -0.209   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 28100    |\n",
            "|    time_elapsed       | 1838     |\n",
            "|    total_timesteps    | 562000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.22    |\n",
            "|    explained_variance | 0.969    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 28099    |\n",
            "|    policy_loss        | 0.000165 |\n",
            "|    std                | 0.267    |\n",
            "|    value_loss         | 0.000164 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.78     |\n",
            "|    ep_rew_mean        | -0.223   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 28200    |\n",
            "|    time_elapsed       | 1844     |\n",
            "|    total_timesteps    | 564000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.205   |\n",
            "|    explained_variance | 0.991    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 28199    |\n",
            "|    policy_loss        | -0.00123 |\n",
            "|    std                | 0.266    |\n",
            "|    value_loss         | 0.000105 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.61     |\n",
            "|    ep_rew_mean        | -0.196   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 28300    |\n",
            "|    time_elapsed       | 1851     |\n",
            "|    total_timesteps    | 566000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.203   |\n",
            "|    explained_variance | 0.978    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 28299    |\n",
            "|    policy_loss        | 0.00347  |\n",
            "|    std                | 0.266    |\n",
            "|    value_loss         | 8.82e-05 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.74     |\n",
            "|    ep_rew_mean        | -0.213   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 28400    |\n",
            "|    time_elapsed       | 1857     |\n",
            "|    total_timesteps    | 568000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.18    |\n",
            "|    explained_variance | 0.985    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 28399    |\n",
            "|    policy_loss        | -0.00355 |\n",
            "|    std                | 0.264    |\n",
            "|    value_loss         | 0.00012  |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.84      |\n",
            "|    ep_rew_mean        | -0.226    |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 305       |\n",
            "|    iterations         | 28500     |\n",
            "|    time_elapsed       | 1863      |\n",
            "|    total_timesteps    | 570000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | -0.172    |\n",
            "|    explained_variance | 0.97      |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 28499     |\n",
            "|    policy_loss        | -0.000405 |\n",
            "|    std                | 0.263     |\n",
            "|    value_loss         | 0.000287  |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.77     |\n",
            "|    ep_rew_mean        | -0.222   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 28600    |\n",
            "|    time_elapsed       | 1869     |\n",
            "|    total_timesteps    | 572000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.158   |\n",
            "|    explained_variance | 0.949    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 28599    |\n",
            "|    policy_loss        | 0.00533  |\n",
            "|    std                | 0.262    |\n",
            "|    value_loss         | 0.000354 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.78     |\n",
            "|    ep_rew_mean        | -0.213   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 28700    |\n",
            "|    time_elapsed       | 1876     |\n",
            "|    total_timesteps    | 574000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.146   |\n",
            "|    explained_variance | 0.968    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 28699    |\n",
            "|    policy_loss        | 0.0017   |\n",
            "|    std                | 0.261    |\n",
            "|    value_loss         | 0.000186 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.64     |\n",
            "|    ep_rew_mean        | -0.198   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 28800    |\n",
            "|    time_elapsed       | 1884     |\n",
            "|    total_timesteps    | 576000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.135   |\n",
            "|    explained_variance | 0.985    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 28799    |\n",
            "|    policy_loss        | -0.00245 |\n",
            "|    std                | 0.259    |\n",
            "|    value_loss         | 0.000143 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.61     |\n",
            "|    ep_rew_mean        | -0.2     |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 28900    |\n",
            "|    time_elapsed       | 1890     |\n",
            "|    total_timesteps    | 578000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.109   |\n",
            "|    explained_variance | 0.97     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 28899    |\n",
            "|    policy_loss        | 0.00246  |\n",
            "|    std                | 0.258    |\n",
            "|    value_loss         | 0.000181 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.79     |\n",
            "|    ep_rew_mean        | -0.218   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 29000    |\n",
            "|    time_elapsed       | 1897     |\n",
            "|    total_timesteps    | 580000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.111   |\n",
            "|    explained_variance | 0.993    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 28999    |\n",
            "|    policy_loss        | 0.00504  |\n",
            "|    std                | 0.258    |\n",
            "|    value_loss         | 6.2e-05  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.71     |\n",
            "|    ep_rew_mean        | -0.215   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 29100    |\n",
            "|    time_elapsed       | 1903     |\n",
            "|    total_timesteps    | 582000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.105   |\n",
            "|    explained_variance | 0.978    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 29099    |\n",
            "|    policy_loss        | -0.00418 |\n",
            "|    std                | 0.257    |\n",
            "|    value_loss         | 0.000143 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.57     |\n",
            "|    ep_rew_mean        | -0.192   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 29200    |\n",
            "|    time_elapsed       | 1910     |\n",
            "|    total_timesteps    | 584000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.0944  |\n",
            "|    explained_variance | 0.956    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 29199    |\n",
            "|    policy_loss        | 0.00571  |\n",
            "|    std                | 0.257    |\n",
            "|    value_loss         | 0.000137 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.83     |\n",
            "|    ep_rew_mean        | -0.227   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 29300    |\n",
            "|    time_elapsed       | 1916     |\n",
            "|    total_timesteps    | 586000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.104   |\n",
            "|    explained_variance | 0.991    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 29299    |\n",
            "|    policy_loss        | 0.000974 |\n",
            "|    std                | 0.258    |\n",
            "|    value_loss         | 0.000115 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.64     |\n",
            "|    ep_rew_mean        | -0.206   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 29400    |\n",
            "|    time_elapsed       | 1923     |\n",
            "|    total_timesteps    | 588000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.083   |\n",
            "|    explained_variance | 0.984    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 29399    |\n",
            "|    policy_loss        | 0.00104  |\n",
            "|    std                | 0.256    |\n",
            "|    value_loss         | 0.000154 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.71     |\n",
            "|    ep_rew_mean        | -0.216   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 29500    |\n",
            "|    time_elapsed       | 1929     |\n",
            "|    total_timesteps    | 590000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.0789  |\n",
            "|    explained_variance | 0.976    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 29499    |\n",
            "|    policy_loss        | -0.00463 |\n",
            "|    std                | 0.256    |\n",
            "|    value_loss         | 0.000125 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.68     |\n",
            "|    ep_rew_mean        | -0.211   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 29600    |\n",
            "|    time_elapsed       | 1936     |\n",
            "|    total_timesteps    | 592000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.0721  |\n",
            "|    explained_variance | 0.957    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 29599    |\n",
            "|    policy_loss        | 0.00372  |\n",
            "|    std                | 0.256    |\n",
            "|    value_loss         | 0.000154 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.73     |\n",
            "|    ep_rew_mean        | -0.214   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 29700    |\n",
            "|    time_elapsed       | 1942     |\n",
            "|    total_timesteps    | 594000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.0523  |\n",
            "|    explained_variance | 0.944    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 29699    |\n",
            "|    policy_loss        | -0.0172  |\n",
            "|    std                | 0.254    |\n",
            "|    value_loss         | 0.000583 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.73     |\n",
            "|    ep_rew_mean        | -0.208   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 29800    |\n",
            "|    time_elapsed       | 1949     |\n",
            "|    total_timesteps    | 596000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.0378  |\n",
            "|    explained_variance | 0.978    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 29799    |\n",
            "|    policy_loss        | -0.00199 |\n",
            "|    std                | 0.253    |\n",
            "|    value_loss         | 0.000118 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.81     |\n",
            "|    ep_rew_mean        | -0.222   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 29900    |\n",
            "|    time_elapsed       | 1955     |\n",
            "|    total_timesteps    | 598000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.0337  |\n",
            "|    explained_variance | 0.941    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 29899    |\n",
            "|    policy_loss        | -0.00225 |\n",
            "|    std                | 0.253    |\n",
            "|    value_loss         | 0.000302 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.7      |\n",
            "|    ep_rew_mean        | -0.202   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 30000    |\n",
            "|    time_elapsed       | 1962     |\n",
            "|    total_timesteps    | 600000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.0211  |\n",
            "|    explained_variance | 0.957    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 29999    |\n",
            "|    policy_loss        | 0.00179  |\n",
            "|    std                | 0.252    |\n",
            "|    value_loss         | 0.000195 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.68     |\n",
            "|    ep_rew_mean        | -0.207   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 30100    |\n",
            "|    time_elapsed       | 1968     |\n",
            "|    total_timesteps    | 602000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.0145  |\n",
            "|    explained_variance | 0.967    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 30099    |\n",
            "|    policy_loss        | 0.00233  |\n",
            "|    std                | 0.251    |\n",
            "|    value_loss         | 0.000175 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.68     |\n",
            "|    ep_rew_mean        | -0.221   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 30200    |\n",
            "|    time_elapsed       | 1975     |\n",
            "|    total_timesteps    | 604000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.00944 |\n",
            "|    explained_variance | 0.977    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 30199    |\n",
            "|    policy_loss        | 0.00867  |\n",
            "|    std                | 0.251    |\n",
            "|    value_loss         | 0.000269 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.76     |\n",
            "|    ep_rew_mean        | -0.204   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 30300    |\n",
            "|    time_elapsed       | 1981     |\n",
            "|    total_timesteps    | 606000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.0259  |\n",
            "|    explained_variance | 0.896    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 30299    |\n",
            "|    policy_loss        | 0.00392  |\n",
            "|    std                | 0.253    |\n",
            "|    value_loss         | 0.000621 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.53     |\n",
            "|    ep_rew_mean        | -0.184   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 30400    |\n",
            "|    time_elapsed       | 1987     |\n",
            "|    total_timesteps    | 608000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.0218  |\n",
            "|    explained_variance | 0.954    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 30399    |\n",
            "|    policy_loss        | 0.00193  |\n",
            "|    std                | 0.252    |\n",
            "|    value_loss         | 0.000178 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.71     |\n",
            "|    ep_rew_mean        | -0.221   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 30500    |\n",
            "|    time_elapsed       | 1994     |\n",
            "|    total_timesteps    | 610000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.0179  |\n",
            "|    explained_variance | 0.97     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 30499    |\n",
            "|    policy_loss        | -0.00915 |\n",
            "|    std                | 0.252    |\n",
            "|    value_loss         | 0.000349 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.68     |\n",
            "|    ep_rew_mean        | -0.214   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 30600    |\n",
            "|    time_elapsed       | 2000     |\n",
            "|    total_timesteps    | 612000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | -0.00891 |\n",
            "|    explained_variance | 0.985    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 30599    |\n",
            "|    policy_loss        | 0.00139  |\n",
            "|    std                | 0.251    |\n",
            "|    value_loss         | 0.000114 |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.76      |\n",
            "|    ep_rew_mean        | -0.211    |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 305       |\n",
            "|    iterations         | 30700     |\n",
            "|    time_elapsed       | 2007      |\n",
            "|    total_timesteps    | 614000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | -0.000173 |\n",
            "|    explained_variance | 0.957     |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 30699     |\n",
            "|    policy_loss        | -0.00162  |\n",
            "|    std                | 0.25      |\n",
            "|    value_loss         | 0.00027   |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.69     |\n",
            "|    ep_rew_mean        | -0.203   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 30800    |\n",
            "|    time_elapsed       | 2013     |\n",
            "|    total_timesteps    | 616000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.0335   |\n",
            "|    explained_variance | 0.991    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 30799    |\n",
            "|    policy_loss        | 0.000278 |\n",
            "|    std                | 0.248    |\n",
            "|    value_loss         | 7.28e-05 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 3.6      |\n",
            "|    ep_rew_mean        | -0.282   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 30900    |\n",
            "|    time_elapsed       | 2020     |\n",
            "|    total_timesteps    | 618000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.0436   |\n",
            "|    explained_variance | -0.101   |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 30899    |\n",
            "|    policy_loss        | 0.0141   |\n",
            "|    std                | 0.247    |\n",
            "|    value_loss         | 0.372    |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.74     |\n",
            "|    ep_rew_mean        | -0.197   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 31000    |\n",
            "|    time_elapsed       | 2026     |\n",
            "|    total_timesteps    | 620000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.0668   |\n",
            "|    explained_variance | 0.864    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 30999    |\n",
            "|    policy_loss        | -0.0156  |\n",
            "|    std                | 0.245    |\n",
            "|    value_loss         | 0.000871 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 4.53     |\n",
            "|    ep_rew_mean        | -0.351   |\n",
            "|    success_rate       | 0.97     |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 31100    |\n",
            "|    time_elapsed       | 2033     |\n",
            "|    total_timesteps    | 622000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.0879   |\n",
            "|    explained_variance | 0.968    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 31099    |\n",
            "|    policy_loss        | -0.00268 |\n",
            "|    std                | 0.243    |\n",
            "|    value_loss         | 0.0172   |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 9.92     |\n",
            "|    ep_rew_mean        | -1.14    |\n",
            "|    success_rate       | 0.86     |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 31200    |\n",
            "|    time_elapsed       | 2039     |\n",
            "|    total_timesteps    | 624000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.0789   |\n",
            "|    explained_variance | 0.977    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 31199    |\n",
            "|    policy_loss        | -0.111   |\n",
            "|    std                | 0.243    |\n",
            "|    value_loss         | 0.218    |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 7.09     |\n",
            "|    ep_rew_mean        | -0.661   |\n",
            "|    success_rate       | 0.92     |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 31300    |\n",
            "|    time_elapsed       | 2047     |\n",
            "|    total_timesteps    | 626000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.0698   |\n",
            "|    explained_variance | 0.932    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 31299    |\n",
            "|    policy_loss        | 0.013    |\n",
            "|    std                | 0.244    |\n",
            "|    value_loss         | 0.495    |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 4.32     |\n",
            "|    ep_rew_mean        | -0.383   |\n",
            "|    success_rate       | 0.97     |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 31400    |\n",
            "|    time_elapsed       | 2052     |\n",
            "|    total_timesteps    | 628000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.0893   |\n",
            "|    explained_variance | 0.0255   |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 31399    |\n",
            "|    policy_loss        | -0.0874  |\n",
            "|    std                | 0.243    |\n",
            "|    value_loss         | 0.0304   |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 3.23     |\n",
            "|    ep_rew_mean        | -0.253   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 31500    |\n",
            "|    time_elapsed       | 2059     |\n",
            "|    total_timesteps    | 630000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.103    |\n",
            "|    explained_variance | 0.258    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 31499    |\n",
            "|    policy_loss        | -0.00242 |\n",
            "|    std                | 0.242    |\n",
            "|    value_loss         | 0.0139   |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 4.29     |\n",
            "|    ep_rew_mean        | -0.335   |\n",
            "|    success_rate       | 0.99     |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 31600    |\n",
            "|    time_elapsed       | 2065     |\n",
            "|    total_timesteps    | 632000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.0958   |\n",
            "|    explained_variance | -2.39    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 31599    |\n",
            "|    policy_loss        | -0.0277  |\n",
            "|    std                | 0.243    |\n",
            "|    value_loss         | 0.272    |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.95     |\n",
            "|    ep_rew_mean        | -0.234   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 31700    |\n",
            "|    time_elapsed       | 2072     |\n",
            "|    total_timesteps    | 634000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.108    |\n",
            "|    explained_variance | 0.322    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 31699    |\n",
            "|    policy_loss        | -0.0126  |\n",
            "|    std                | 0.242    |\n",
            "|    value_loss         | 0.0109   |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.78     |\n",
            "|    ep_rew_mean        | -0.213   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 31800    |\n",
            "|    time_elapsed       | 2078     |\n",
            "|    total_timesteps    | 636000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.103    |\n",
            "|    explained_variance | 0.673    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 31799    |\n",
            "|    policy_loss        | -0.0158  |\n",
            "|    std                | 0.242    |\n",
            "|    value_loss         | 0.00189  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.95     |\n",
            "|    ep_rew_mean        | -0.235   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 31900    |\n",
            "|    time_elapsed       | 2085     |\n",
            "|    total_timesteps    | 638000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.118    |\n",
            "|    explained_variance | 0.889    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 31899    |\n",
            "|    policy_loss        | 0.0057   |\n",
            "|    std                | 0.241    |\n",
            "|    value_loss         | 0.000871 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.81     |\n",
            "|    ep_rew_mean        | -0.22    |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 32000    |\n",
            "|    time_elapsed       | 2091     |\n",
            "|    total_timesteps    | 640000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.112    |\n",
            "|    explained_variance | 0.898    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 31999    |\n",
            "|    policy_loss        | -0.0053  |\n",
            "|    std                | 0.242    |\n",
            "|    value_loss         | 0.000577 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.67     |\n",
            "|    ep_rew_mean        | -0.204   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 32100    |\n",
            "|    time_elapsed       | 2097     |\n",
            "|    total_timesteps    | 642000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.138    |\n",
            "|    explained_variance | 0.905    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 32099    |\n",
            "|    policy_loss        | -0.00074 |\n",
            "|    std                | 0.24     |\n",
            "|    value_loss         | 0.000423 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.78     |\n",
            "|    ep_rew_mean        | -0.214   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 32200    |\n",
            "|    time_elapsed       | 2104     |\n",
            "|    total_timesteps    | 644000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.144    |\n",
            "|    explained_variance | 0.952    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 32199    |\n",
            "|    policy_loss        | -0.00775 |\n",
            "|    std                | 0.24     |\n",
            "|    value_loss         | 0.000341 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.79     |\n",
            "|    ep_rew_mean        | -0.222   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 32300    |\n",
            "|    time_elapsed       | 2110     |\n",
            "|    total_timesteps    | 646000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.143    |\n",
            "|    explained_variance | 0.826    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 32299    |\n",
            "|    policy_loss        | -0.0022  |\n",
            "|    std                | 0.239    |\n",
            "|    value_loss         | 0.000872 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.81     |\n",
            "|    ep_rew_mean        | -0.225   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 32400    |\n",
            "|    time_elapsed       | 2117     |\n",
            "|    total_timesteps    | 648000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.139    |\n",
            "|    explained_variance | 0.948    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 32399    |\n",
            "|    policy_loss        | 0.00661  |\n",
            "|    std                | 0.24     |\n",
            "|    value_loss         | 0.00045  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 3.04     |\n",
            "|    ep_rew_mean        | -0.24    |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 32500    |\n",
            "|    time_elapsed       | 2123     |\n",
            "|    total_timesteps    | 650000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.143    |\n",
            "|    explained_variance | 0.535    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 32499    |\n",
            "|    policy_loss        | 0.00974  |\n",
            "|    std                | 0.239    |\n",
            "|    value_loss         | 0.00648  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.9      |\n",
            "|    ep_rew_mean        | -0.228   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 32600    |\n",
            "|    time_elapsed       | 2130     |\n",
            "|    total_timesteps    | 652000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.162    |\n",
            "|    explained_variance | 0.892    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 32599    |\n",
            "|    policy_loss        | -0.035   |\n",
            "|    std                | 0.238    |\n",
            "|    value_loss         | 0.00291  |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.7       |\n",
            "|    ep_rew_mean        | -0.21     |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 306       |\n",
            "|    iterations         | 32700     |\n",
            "|    time_elapsed       | 2136      |\n",
            "|    total_timesteps    | 654000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | 0.163     |\n",
            "|    explained_variance | 0.894     |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 32699     |\n",
            "|    policy_loss        | -0.000635 |\n",
            "|    std                | 0.238     |\n",
            "|    value_loss         | 0.000914  |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.74     |\n",
            "|    ep_rew_mean        | -0.216   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 32800    |\n",
            "|    time_elapsed       | 2143     |\n",
            "|    total_timesteps    | 656000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.173    |\n",
            "|    explained_variance | 0.882    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 32799    |\n",
            "|    policy_loss        | 0.00325  |\n",
            "|    std                | 0.237    |\n",
            "|    value_loss         | 0.00111  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.68     |\n",
            "|    ep_rew_mean        | -0.204   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 32900    |\n",
            "|    time_elapsed       | 2149     |\n",
            "|    total_timesteps    | 658000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.177    |\n",
            "|    explained_variance | 0.948    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 32899    |\n",
            "|    policy_loss        | 0.00785  |\n",
            "|    std                | 0.237    |\n",
            "|    value_loss         | 0.000491 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.75     |\n",
            "|    ep_rew_mean        | -0.221   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 33000    |\n",
            "|    time_elapsed       | 2156     |\n",
            "|    total_timesteps    | 660000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.186    |\n",
            "|    explained_variance | 0.81     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 32999    |\n",
            "|    policy_loss        | 0.00784  |\n",
            "|    std                | 0.236    |\n",
            "|    value_loss         | 0.00147  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.9      |\n",
            "|    ep_rew_mean        | -0.231   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 33100    |\n",
            "|    time_elapsed       | 2163     |\n",
            "|    total_timesteps    | 662000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.202    |\n",
            "|    explained_variance | 0.924    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 33099    |\n",
            "|    policy_loss        | 0.00504  |\n",
            "|    std                | 0.235    |\n",
            "|    value_loss         | 0.000827 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.83     |\n",
            "|    ep_rew_mean        | -0.223   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 33200    |\n",
            "|    time_elapsed       | 2170     |\n",
            "|    total_timesteps    | 664000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.203    |\n",
            "|    explained_variance | 0.938    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 33199    |\n",
            "|    policy_loss        | 0.000531 |\n",
            "|    std                | 0.235    |\n",
            "|    value_loss         | 0.000419 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 3.2      |\n",
            "|    ep_rew_mean        | -0.255   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 33300    |\n",
            "|    time_elapsed       | 2176     |\n",
            "|    total_timesteps    | 666000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.218    |\n",
            "|    explained_variance | 0.651    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 33299    |\n",
            "|    policy_loss        | 0.0165   |\n",
            "|    std                | 0.234    |\n",
            "|    value_loss         | 0.00543  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 3.02     |\n",
            "|    ep_rew_mean        | -0.241   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 33400    |\n",
            "|    time_elapsed       | 2183     |\n",
            "|    total_timesteps    | 668000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.205    |\n",
            "|    explained_variance | 0.905    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 33399    |\n",
            "|    policy_loss        | 0.0066   |\n",
            "|    std                | 0.235    |\n",
            "|    value_loss         | 0.000605 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.73     |\n",
            "|    ep_rew_mean        | -0.215   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 33500    |\n",
            "|    time_elapsed       | 2189     |\n",
            "|    total_timesteps    | 670000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.202    |\n",
            "|    explained_variance | 0.933    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 33499    |\n",
            "|    policy_loss        | 0.0121   |\n",
            "|    std                | 0.235    |\n",
            "|    value_loss         | 0.000487 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.63     |\n",
            "|    ep_rew_mean        | -0.199   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 33600    |\n",
            "|    time_elapsed       | 2196     |\n",
            "|    total_timesteps    | 672000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.219    |\n",
            "|    explained_variance | 0.837    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 33599    |\n",
            "|    policy_loss        | 0.00742  |\n",
            "|    std                | 0.234    |\n",
            "|    value_loss         | 0.000533 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.83     |\n",
            "|    ep_rew_mean        | -0.223   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 33700    |\n",
            "|    time_elapsed       | 2202     |\n",
            "|    total_timesteps    | 674000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.224    |\n",
            "|    explained_variance | 0.936    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 33699    |\n",
            "|    policy_loss        | -0.0106  |\n",
            "|    std                | 0.234    |\n",
            "|    value_loss         | 0.000459 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.66     |\n",
            "|    ep_rew_mean        | -0.199   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 33800    |\n",
            "|    time_elapsed       | 2209     |\n",
            "|    total_timesteps    | 676000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.244    |\n",
            "|    explained_variance | 0.95     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 33799    |\n",
            "|    policy_loss        | -0.0018  |\n",
            "|    std                | 0.233    |\n",
            "|    value_loss         | 0.000868 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.84     |\n",
            "|    ep_rew_mean        | -0.218   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 33900    |\n",
            "|    time_elapsed       | 2215     |\n",
            "|    total_timesteps    | 678000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.262    |\n",
            "|    explained_variance | 0.955    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 33899    |\n",
            "|    policy_loss        | 0.00138  |\n",
            "|    std                | 0.231    |\n",
            "|    value_loss         | 0.000271 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.76     |\n",
            "|    ep_rew_mean        | -0.218   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 34000    |\n",
            "|    time_elapsed       | 2222     |\n",
            "|    total_timesteps    | 680000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.25     |\n",
            "|    explained_variance | 0.985    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 33999    |\n",
            "|    policy_loss        | 0.00578  |\n",
            "|    std                | 0.232    |\n",
            "|    value_loss         | 0.000545 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.81     |\n",
            "|    ep_rew_mean        | -0.226   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 34100    |\n",
            "|    time_elapsed       | 2228     |\n",
            "|    total_timesteps    | 682000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.244    |\n",
            "|    explained_variance | 0.988    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 34099    |\n",
            "|    policy_loss        | -0.00433 |\n",
            "|    std                | 0.232    |\n",
            "|    value_loss         | 0.00021  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.8      |\n",
            "|    ep_rew_mean        | -0.223   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 34200    |\n",
            "|    time_elapsed       | 2235     |\n",
            "|    total_timesteps    | 684000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.26     |\n",
            "|    explained_variance | 0.912    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 34199    |\n",
            "|    policy_loss        | 0.00953  |\n",
            "|    std                | 0.231    |\n",
            "|    value_loss         | 0.000719 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.95     |\n",
            "|    ep_rew_mean        | -0.23    |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 34300    |\n",
            "|    time_elapsed       | 2241     |\n",
            "|    total_timesteps    | 686000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.266    |\n",
            "|    explained_variance | 0.972    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 34299    |\n",
            "|    policy_loss        | -0.009   |\n",
            "|    std                | 0.23     |\n",
            "|    value_loss         | 0.000286 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.82     |\n",
            "|    ep_rew_mean        | -0.22    |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 34400    |\n",
            "|    time_elapsed       | 2248     |\n",
            "|    total_timesteps    | 688000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.254    |\n",
            "|    explained_variance | 0.963    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 34399    |\n",
            "|    policy_loss        | 0.00874  |\n",
            "|    std                | 0.231    |\n",
            "|    value_loss         | 0.000306 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.75     |\n",
            "|    ep_rew_mean        | -0.215   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 34500    |\n",
            "|    time_elapsed       | 2254     |\n",
            "|    total_timesteps    | 690000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.244    |\n",
            "|    explained_variance | 0.967    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 34499    |\n",
            "|    policy_loss        | -0.00688 |\n",
            "|    std                | 0.232    |\n",
            "|    value_loss         | 0.000289 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.96     |\n",
            "|    ep_rew_mean        | -0.243   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 34600    |\n",
            "|    time_elapsed       | 2261     |\n",
            "|    total_timesteps    | 692000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.264    |\n",
            "|    explained_variance | 0.942    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 34599    |\n",
            "|    policy_loss        | -0.0204  |\n",
            "|    std                | 0.23     |\n",
            "|    value_loss         | 0.000579 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.61     |\n",
            "|    ep_rew_mean        | -0.196   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 34700    |\n",
            "|    time_elapsed       | 2268     |\n",
            "|    total_timesteps    | 694000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.278    |\n",
            "|    explained_variance | 0.951    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 34699    |\n",
            "|    policy_loss        | -0.00389 |\n",
            "|    std                | 0.229    |\n",
            "|    value_loss         | 0.000537 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.47     |\n",
            "|    ep_rew_mean        | -0.191   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 34800    |\n",
            "|    time_elapsed       | 2275     |\n",
            "|    total_timesteps    | 696000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.263    |\n",
            "|    explained_variance | 0.97     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 34799    |\n",
            "|    policy_loss        | 0.000191 |\n",
            "|    std                | 0.23     |\n",
            "|    value_loss         | 0.000338 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.76     |\n",
            "|    ep_rew_mean        | -0.208   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 34900    |\n",
            "|    time_elapsed       | 2281     |\n",
            "|    total_timesteps    | 698000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.28     |\n",
            "|    explained_variance | 0.961    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 34899    |\n",
            "|    policy_loss        | 0.00362  |\n",
            "|    std                | 0.229    |\n",
            "|    value_loss         | 0.000877 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.82     |\n",
            "|    ep_rew_mean        | -0.218   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 35000    |\n",
            "|    time_elapsed       | 2288     |\n",
            "|    total_timesteps    | 700000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.289    |\n",
            "|    explained_variance | 0.942    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 34999    |\n",
            "|    policy_loss        | 0.00205  |\n",
            "|    std                | 0.228    |\n",
            "|    value_loss         | 0.00034  |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.68      |\n",
            "|    ep_rew_mean        | -0.197    |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 305       |\n",
            "|    iterations         | 35100     |\n",
            "|    time_elapsed       | 2295      |\n",
            "|    total_timesteps    | 702000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | 0.296     |\n",
            "|    explained_variance | 0.987     |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 35099     |\n",
            "|    policy_loss        | -0.000645 |\n",
            "|    std                | 0.227     |\n",
            "|    value_loss         | 0.000152  |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.8      |\n",
            "|    ep_rew_mean        | -0.22    |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 35200    |\n",
            "|    time_elapsed       | 2303     |\n",
            "|    total_timesteps    | 704000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.279    |\n",
            "|    explained_variance | 0.393    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 35199    |\n",
            "|    policy_loss        | -0.0364  |\n",
            "|    std                | 0.229    |\n",
            "|    value_loss         | 0.00686  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.64     |\n",
            "|    ep_rew_mean        | -0.21    |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 35300    |\n",
            "|    time_elapsed       | 2309     |\n",
            "|    total_timesteps    | 706000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.287    |\n",
            "|    explained_variance | 0.976    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 35299    |\n",
            "|    policy_loss        | -0.0075  |\n",
            "|    std                | 0.228    |\n",
            "|    value_loss         | 0.000388 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.56     |\n",
            "|    ep_rew_mean        | -0.197   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 35400    |\n",
            "|    time_elapsed       | 2317     |\n",
            "|    total_timesteps    | 708000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.294    |\n",
            "|    explained_variance | 0.987    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 35399    |\n",
            "|    policy_loss        | 0.00215  |\n",
            "|    std                | 0.228    |\n",
            "|    value_loss         | 0.000174 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.86     |\n",
            "|    ep_rew_mean        | -0.23    |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 35500    |\n",
            "|    time_elapsed       | 2323     |\n",
            "|    total_timesteps    | 710000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.308    |\n",
            "|    explained_variance | 0.988    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 35499    |\n",
            "|    policy_loss        | -0.00456 |\n",
            "|    std                | 0.227    |\n",
            "|    value_loss         | 0.000256 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.97     |\n",
            "|    ep_rew_mean        | -0.242   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 35600    |\n",
            "|    time_elapsed       | 2329     |\n",
            "|    total_timesteps    | 712000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.327    |\n",
            "|    explained_variance | 0.974    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 35599    |\n",
            "|    policy_loss        | -0.00201 |\n",
            "|    std                | 0.225    |\n",
            "|    value_loss         | 0.000263 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.75     |\n",
            "|    ep_rew_mean        | -0.213   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 35700    |\n",
            "|    time_elapsed       | 2336     |\n",
            "|    total_timesteps    | 714000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.334    |\n",
            "|    explained_variance | 0.832    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 35699    |\n",
            "|    policy_loss        | -0.00775 |\n",
            "|    std                | 0.224    |\n",
            "|    value_loss         | 0.000996 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.86     |\n",
            "|    ep_rew_mean        | -0.232   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 35800    |\n",
            "|    time_elapsed       | 2342     |\n",
            "|    total_timesteps    | 716000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.357    |\n",
            "|    explained_variance | 0.97     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 35799    |\n",
            "|    policy_loss        | 0.00306  |\n",
            "|    std                | 0.223    |\n",
            "|    value_loss         | 0.000389 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.81     |\n",
            "|    ep_rew_mean        | -0.234   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 35900    |\n",
            "|    time_elapsed       | 2349     |\n",
            "|    total_timesteps    | 718000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.368    |\n",
            "|    explained_variance | 0.98     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 35899    |\n",
            "|    policy_loss        | -0.00652 |\n",
            "|    std                | 0.223    |\n",
            "|    value_loss         | 0.000801 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.81     |\n",
            "|    ep_rew_mean        | -0.218   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 36000    |\n",
            "|    time_elapsed       | 2354     |\n",
            "|    total_timesteps    | 720000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.373    |\n",
            "|    explained_variance | 0.663    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 35999    |\n",
            "|    policy_loss        | 0.000492 |\n",
            "|    std                | 0.223    |\n",
            "|    value_loss         | 0.00158  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.53     |\n",
            "|    ep_rew_mean        | -0.185   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 36100    |\n",
            "|    time_elapsed       | 2362     |\n",
            "|    total_timesteps    | 722000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.384    |\n",
            "|    explained_variance | 0.974    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 36099    |\n",
            "|    policy_loss        | -0.00366 |\n",
            "|    std                | 0.222    |\n",
            "|    value_loss         | 0.000187 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.64     |\n",
            "|    ep_rew_mean        | -0.2     |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 36200    |\n",
            "|    time_elapsed       | 2367     |\n",
            "|    total_timesteps    | 724000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.414    |\n",
            "|    explained_variance | 0.96     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 36199    |\n",
            "|    policy_loss        | 0.000915 |\n",
            "|    std                | 0.219    |\n",
            "|    value_loss         | 0.000279 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.59     |\n",
            "|    ep_rew_mean        | -0.188   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 36300    |\n",
            "|    time_elapsed       | 2375     |\n",
            "|    total_timesteps    | 726000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.428    |\n",
            "|    explained_variance | 0.97     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 36299    |\n",
            "|    policy_loss        | -0.00048 |\n",
            "|    std                | 0.218    |\n",
            "|    value_loss         | 0.000291 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.7      |\n",
            "|    ep_rew_mean        | -0.203   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 36400    |\n",
            "|    time_elapsed       | 2380     |\n",
            "|    total_timesteps    | 728000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.425    |\n",
            "|    explained_variance | 0.977    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 36399    |\n",
            "|    policy_loss        | -0.00507 |\n",
            "|    std                | 0.218    |\n",
            "|    value_loss         | 0.000118 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.63     |\n",
            "|    ep_rew_mean        | -0.204   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 36500    |\n",
            "|    time_elapsed       | 2387     |\n",
            "|    total_timesteps    | 730000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.437    |\n",
            "|    explained_variance | 0.988    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 36499    |\n",
            "|    policy_loss        | -0.00125 |\n",
            "|    std                | 0.218    |\n",
            "|    value_loss         | 0.000147 |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.83      |\n",
            "|    ep_rew_mean        | -0.231    |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 305       |\n",
            "|    iterations         | 36600     |\n",
            "|    time_elapsed       | 2393      |\n",
            "|    total_timesteps    | 732000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | 0.452     |\n",
            "|    explained_variance | 0.97      |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 36599     |\n",
            "|    policy_loss        | -0.000152 |\n",
            "|    std                | 0.216     |\n",
            "|    value_loss         | 0.000198  |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.81     |\n",
            "|    ep_rew_mean        | -0.218   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 36700    |\n",
            "|    time_elapsed       | 2400     |\n",
            "|    total_timesteps    | 734000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.455    |\n",
            "|    explained_variance | 0.61     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 36699    |\n",
            "|    policy_loss        | -0.0337  |\n",
            "|    std                | 0.216    |\n",
            "|    value_loss         | 0.00649  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.58     |\n",
            "|    ep_rew_mean        | -0.192   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 36800    |\n",
            "|    time_elapsed       | 2406     |\n",
            "|    total_timesteps    | 736000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.484    |\n",
            "|    explained_variance | 0.996    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 36799    |\n",
            "|    policy_loss        | 0.00167  |\n",
            "|    std                | 0.214    |\n",
            "|    value_loss         | 3.89e-05 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.72     |\n",
            "|    ep_rew_mean        | -0.214   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 36900    |\n",
            "|    time_elapsed       | 2413     |\n",
            "|    total_timesteps    | 738000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.479    |\n",
            "|    explained_variance | 0.969    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 36899    |\n",
            "|    policy_loss        | 0.00877  |\n",
            "|    std                | 0.215    |\n",
            "|    value_loss         | 0.0003   |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.78     |\n",
            "|    ep_rew_mean        | -0.223   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 37000    |\n",
            "|    time_elapsed       | 2419     |\n",
            "|    total_timesteps    | 740000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.476    |\n",
            "|    explained_variance | 0.981    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 36999    |\n",
            "|    policy_loss        | 0.00234  |\n",
            "|    std                | 0.215    |\n",
            "|    value_loss         | 0.00018  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.81     |\n",
            "|    ep_rew_mean        | -0.223   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 37100    |\n",
            "|    time_elapsed       | 2426     |\n",
            "|    total_timesteps    | 742000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.481    |\n",
            "|    explained_variance | 0.948    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 37099    |\n",
            "|    policy_loss        | -0.0076  |\n",
            "|    std                | 0.215    |\n",
            "|    value_loss         | 0.00072  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.67     |\n",
            "|    ep_rew_mean        | -0.195   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 37200    |\n",
            "|    time_elapsed       | 2432     |\n",
            "|    total_timesteps    | 744000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.501    |\n",
            "|    explained_variance | 0.976    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 37199    |\n",
            "|    policy_loss        | -0.0106  |\n",
            "|    std                | 0.214    |\n",
            "|    value_loss         | 0.000162 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.83     |\n",
            "|    ep_rew_mean        | -0.221   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 37300    |\n",
            "|    time_elapsed       | 2439     |\n",
            "|    total_timesteps    | 746000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.516    |\n",
            "|    explained_variance | 0.989    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 37299    |\n",
            "|    policy_loss        | 0.00479  |\n",
            "|    std                | 0.213    |\n",
            "|    value_loss         | 0.000152 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.62     |\n",
            "|    ep_rew_mean        | -0.198   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 37400    |\n",
            "|    time_elapsed       | 2447     |\n",
            "|    total_timesteps    | 748000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.521    |\n",
            "|    explained_variance | 0.957    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 37399    |\n",
            "|    policy_loss        | 0.00017  |\n",
            "|    std                | 0.213    |\n",
            "|    value_loss         | 0.000284 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.73     |\n",
            "|    ep_rew_mean        | -0.204   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 37500    |\n",
            "|    time_elapsed       | 2453     |\n",
            "|    total_timesteps    | 750000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.526    |\n",
            "|    explained_variance | 0.942    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 37499    |\n",
            "|    policy_loss        | -0.012   |\n",
            "|    std                | 0.213    |\n",
            "|    value_loss         | 0.000577 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.81     |\n",
            "|    ep_rew_mean        | -0.225   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 37600    |\n",
            "|    time_elapsed       | 2459     |\n",
            "|    total_timesteps    | 752000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.526    |\n",
            "|    explained_variance | 0.972    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 37599    |\n",
            "|    policy_loss        | 0.00279  |\n",
            "|    std                | 0.213    |\n",
            "|    value_loss         | 0.000409 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.76     |\n",
            "|    ep_rew_mean        | -0.214   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 37700    |\n",
            "|    time_elapsed       | 2465     |\n",
            "|    total_timesteps    | 754000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.522    |\n",
            "|    explained_variance | 0.917    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 37699    |\n",
            "|    policy_loss        | 0.00561  |\n",
            "|    std                | 0.213    |\n",
            "|    value_loss         | 0.000557 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.77     |\n",
            "|    ep_rew_mean        | -0.22    |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 37800    |\n",
            "|    time_elapsed       | 2472     |\n",
            "|    total_timesteps    | 756000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.541    |\n",
            "|    explained_variance | 0.992    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 37799    |\n",
            "|    policy_loss        | 0.00705  |\n",
            "|    std                | 0.211    |\n",
            "|    value_loss         | 0.000112 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.77     |\n",
            "|    ep_rew_mean        | -0.21    |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 37900    |\n",
            "|    time_elapsed       | 2478     |\n",
            "|    total_timesteps    | 758000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.566    |\n",
            "|    explained_variance | 0.961    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 37899    |\n",
            "|    policy_loss        | -0.00871 |\n",
            "|    std                | 0.209    |\n",
            "|    value_loss         | 0.000288 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.71     |\n",
            "|    ep_rew_mean        | -0.207   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 38000    |\n",
            "|    time_elapsed       | 2485     |\n",
            "|    total_timesteps    | 760000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.556    |\n",
            "|    explained_variance | 0.967    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 37999    |\n",
            "|    policy_loss        | -0.0127  |\n",
            "|    std                | 0.21     |\n",
            "|    value_loss         | 0.000409 |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.86      |\n",
            "|    ep_rew_mean        | -0.224    |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 305       |\n",
            "|    iterations         | 38100     |\n",
            "|    time_elapsed       | 2491      |\n",
            "|    total_timesteps    | 762000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | 0.562     |\n",
            "|    explained_variance | 0.964     |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 38099     |\n",
            "|    policy_loss        | -0.000174 |\n",
            "|    std                | 0.21      |\n",
            "|    value_loss         | 0.000168  |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.88     |\n",
            "|    ep_rew_mean        | -0.228   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 38200    |\n",
            "|    time_elapsed       | 2498     |\n",
            "|    total_timesteps    | 764000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.579    |\n",
            "|    explained_variance | 0.979    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 38199    |\n",
            "|    policy_loss        | -0.00283 |\n",
            "|    std                | 0.208    |\n",
            "|    value_loss         | 0.000179 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.85     |\n",
            "|    ep_rew_mean        | -0.228   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 38300    |\n",
            "|    time_elapsed       | 2503     |\n",
            "|    total_timesteps    | 766000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.588    |\n",
            "|    explained_variance | 0.904    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 38299    |\n",
            "|    policy_loss        | 0.00759  |\n",
            "|    std                | 0.208    |\n",
            "|    value_loss         | 0.000826 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.68     |\n",
            "|    ep_rew_mean        | -0.209   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 38400    |\n",
            "|    time_elapsed       | 2510     |\n",
            "|    total_timesteps    | 768000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.6      |\n",
            "|    explained_variance | 0.975    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 38399    |\n",
            "|    policy_loss        | 0.00472  |\n",
            "|    std                | 0.207    |\n",
            "|    value_loss         | 0.000252 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.93     |\n",
            "|    ep_rew_mean        | -0.231   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 38500    |\n",
            "|    time_elapsed       | 2516     |\n",
            "|    total_timesteps    | 770000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.606    |\n",
            "|    explained_variance | 0.964    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 38499    |\n",
            "|    policy_loss        | 0.00314  |\n",
            "|    std                | 0.206    |\n",
            "|    value_loss         | 0.000791 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.48     |\n",
            "|    ep_rew_mean        | -0.179   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 38600    |\n",
            "|    time_elapsed       | 2523     |\n",
            "|    total_timesteps    | 772000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.618    |\n",
            "|    explained_variance | 0.951    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 38599    |\n",
            "|    policy_loss        | 0.00734  |\n",
            "|    std                | 0.206    |\n",
            "|    value_loss         | 0.000312 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.83     |\n",
            "|    ep_rew_mean        | -0.225   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 38700    |\n",
            "|    time_elapsed       | 2529     |\n",
            "|    total_timesteps    | 774000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.601    |\n",
            "|    explained_variance | 0.787    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 38699    |\n",
            "|    policy_loss        | -0.0119  |\n",
            "|    std                | 0.207    |\n",
            "|    value_loss         | 0.000923 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.82     |\n",
            "|    ep_rew_mean        | -0.22    |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 38800    |\n",
            "|    time_elapsed       | 2535     |\n",
            "|    total_timesteps    | 776000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.601    |\n",
            "|    explained_variance | 0.975    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 38799    |\n",
            "|    policy_loss        | 0.00146  |\n",
            "|    std                | 0.207    |\n",
            "|    value_loss         | 0.000233 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.68     |\n",
            "|    ep_rew_mean        | -0.201   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 38900    |\n",
            "|    time_elapsed       | 2541     |\n",
            "|    total_timesteps    | 778000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.582    |\n",
            "|    explained_variance | 0.987    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 38899    |\n",
            "|    policy_loss        | 0.00165  |\n",
            "|    std                | 0.209    |\n",
            "|    value_loss         | 6.08e-05 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.68     |\n",
            "|    ep_rew_mean        | -0.215   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 39000    |\n",
            "|    time_elapsed       | 2548     |\n",
            "|    total_timesteps    | 780000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.585    |\n",
            "|    explained_variance | 0.991    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 38999    |\n",
            "|    policy_loss        | 0.00448  |\n",
            "|    std                | 0.209    |\n",
            "|    value_loss         | 0.000115 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.68     |\n",
            "|    ep_rew_mean        | -0.207   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 39100    |\n",
            "|    time_elapsed       | 2554     |\n",
            "|    total_timesteps    | 782000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.589    |\n",
            "|    explained_variance | 0.969    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 39099    |\n",
            "|    policy_loss        | 0.00197  |\n",
            "|    std                | 0.208    |\n",
            "|    value_loss         | 0.00021  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.75     |\n",
            "|    ep_rew_mean        | -0.214   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 39200    |\n",
            "|    time_elapsed       | 2560     |\n",
            "|    total_timesteps    | 784000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.597    |\n",
            "|    explained_variance | 0.922    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 39199    |\n",
            "|    policy_loss        | 0.0108   |\n",
            "|    std                | 0.208    |\n",
            "|    value_loss         | 0.000328 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.59     |\n",
            "|    ep_rew_mean        | -0.193   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 39300    |\n",
            "|    time_elapsed       | 2567     |\n",
            "|    total_timesteps    | 786000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.601    |\n",
            "|    explained_variance | 0.887    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 39299    |\n",
            "|    policy_loss        | -0.00694 |\n",
            "|    std                | 0.208    |\n",
            "|    value_loss         | 0.000471 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.9      |\n",
            "|    ep_rew_mean        | -0.228   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 39400    |\n",
            "|    time_elapsed       | 2573     |\n",
            "|    total_timesteps    | 788000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.601    |\n",
            "|    explained_variance | 0.98     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 39399    |\n",
            "|    policy_loss        | 0.00564  |\n",
            "|    std                | 0.208    |\n",
            "|    value_loss         | 0.000154 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.73     |\n",
            "|    ep_rew_mean        | -0.218   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 39500    |\n",
            "|    time_elapsed       | 2580     |\n",
            "|    total_timesteps    | 790000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.603    |\n",
            "|    explained_variance | 0.988    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 39499    |\n",
            "|    policy_loss        | 0.00431  |\n",
            "|    std                | 0.208    |\n",
            "|    value_loss         | 0.000161 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.63     |\n",
            "|    ep_rew_mean        | -0.2     |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 39600    |\n",
            "|    time_elapsed       | 2586     |\n",
            "|    total_timesteps    | 792000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.615    |\n",
            "|    explained_variance | 0.981    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 39599    |\n",
            "|    policy_loss        | -0.00309 |\n",
            "|    std                | 0.207    |\n",
            "|    value_loss         | 0.000374 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.65     |\n",
            "|    ep_rew_mean        | -0.202   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 39700    |\n",
            "|    time_elapsed       | 2593     |\n",
            "|    total_timesteps    | 794000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.627    |\n",
            "|    explained_variance | 0.983    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 39699    |\n",
            "|    policy_loss        | 0.00263  |\n",
            "|    std                | 0.206    |\n",
            "|    value_loss         | 0.000176 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.75     |\n",
            "|    ep_rew_mean        | -0.214   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 39800    |\n",
            "|    time_elapsed       | 2599     |\n",
            "|    total_timesteps    | 796000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.649    |\n",
            "|    explained_variance | 0.959    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 39799    |\n",
            "|    policy_loss        | -0.00185 |\n",
            "|    std                | 0.204    |\n",
            "|    value_loss         | 0.000135 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.78     |\n",
            "|    ep_rew_mean        | -0.207   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 39900    |\n",
            "|    time_elapsed       | 2606     |\n",
            "|    total_timesteps    | 798000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.659    |\n",
            "|    explained_variance | 0.99     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 39899    |\n",
            "|    policy_loss        | 0.00274  |\n",
            "|    std                | 0.204    |\n",
            "|    value_loss         | 6.57e-05 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.65     |\n",
            "|    ep_rew_mean        | -0.202   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 40000    |\n",
            "|    time_elapsed       | 2612     |\n",
            "|    total_timesteps    | 800000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.66     |\n",
            "|    explained_variance | 0.96     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 39999    |\n",
            "|    policy_loss        | 0.00813  |\n",
            "|    std                | 0.204    |\n",
            "|    value_loss         | 0.000281 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.69     |\n",
            "|    ep_rew_mean        | -0.212   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 40100    |\n",
            "|    time_elapsed       | 2619     |\n",
            "|    total_timesteps    | 802000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.67     |\n",
            "|    explained_variance | 0.976    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 40099    |\n",
            "|    policy_loss        | -0.00202 |\n",
            "|    std                | 0.203    |\n",
            "|    value_loss         | 0.000195 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.82     |\n",
            "|    ep_rew_mean        | -0.219   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 40200    |\n",
            "|    time_elapsed       | 2626     |\n",
            "|    total_timesteps    | 804000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.691    |\n",
            "|    explained_variance | 0.902    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 40199    |\n",
            "|    policy_loss        | -0.00684 |\n",
            "|    std                | 0.201    |\n",
            "|    value_loss         | 0.000408 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.54     |\n",
            "|    ep_rew_mean        | -0.194   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 40300    |\n",
            "|    time_elapsed       | 2633     |\n",
            "|    total_timesteps    | 806000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.687    |\n",
            "|    explained_variance | 0.982    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 40299    |\n",
            "|    policy_loss        | -0.00118 |\n",
            "|    std                | 0.202    |\n",
            "|    value_loss         | 0.000348 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.7      |\n",
            "|    ep_rew_mean        | -0.205   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 40400    |\n",
            "|    time_elapsed       | 2639     |\n",
            "|    total_timesteps    | 808000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.696    |\n",
            "|    explained_variance | 0.913    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 40399    |\n",
            "|    policy_loss        | 0.0108   |\n",
            "|    std                | 0.202    |\n",
            "|    value_loss         | 0.000923 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.73     |\n",
            "|    ep_rew_mean        | -0.217   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 40500    |\n",
            "|    time_elapsed       | 2646     |\n",
            "|    total_timesteps    | 810000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.717    |\n",
            "|    explained_variance | 0.963    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 40499    |\n",
            "|    policy_loss        | -0.0158  |\n",
            "|    std                | 0.2      |\n",
            "|    value_loss         | 0.000384 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.75     |\n",
            "|    ep_rew_mean        | -0.214   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 40600    |\n",
            "|    time_elapsed       | 2652     |\n",
            "|    total_timesteps    | 812000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.708    |\n",
            "|    explained_variance | 0.976    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 40599    |\n",
            "|    policy_loss        | 0.00278  |\n",
            "|    std                | 0.201    |\n",
            "|    value_loss         | 0.00015  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.81     |\n",
            "|    ep_rew_mean        | -0.219   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 40700    |\n",
            "|    time_elapsed       | 2659     |\n",
            "|    total_timesteps    | 814000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.737    |\n",
            "|    explained_variance | 0.733    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 40699    |\n",
            "|    policy_loss        | 0.0375   |\n",
            "|    std                | 0.199    |\n",
            "|    value_loss         | 0.0027   |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.56     |\n",
            "|    ep_rew_mean        | -0.197   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 40800    |\n",
            "|    time_elapsed       | 2665     |\n",
            "|    total_timesteps    | 816000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.746    |\n",
            "|    explained_variance | 0.973    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 40799    |\n",
            "|    policy_loss        | -0.00953 |\n",
            "|    std                | 0.198    |\n",
            "|    value_loss         | 0.000261 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.62     |\n",
            "|    ep_rew_mean        | -0.201   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 40900    |\n",
            "|    time_elapsed       | 2672     |\n",
            "|    total_timesteps    | 818000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.743    |\n",
            "|    explained_variance | 0.979    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 40899    |\n",
            "|    policy_loss        | 0.00243  |\n",
            "|    std                | 0.199    |\n",
            "|    value_loss         | 0.000338 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.57     |\n",
            "|    ep_rew_mean        | -0.198   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 41000    |\n",
            "|    time_elapsed       | 2677     |\n",
            "|    total_timesteps    | 820000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.744    |\n",
            "|    explained_variance | 0.976    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 40999    |\n",
            "|    policy_loss        | -0.00429 |\n",
            "|    std                | 0.198    |\n",
            "|    value_loss         | 0.000165 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.79     |\n",
            "|    ep_rew_mean        | -0.225   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 41100    |\n",
            "|    time_elapsed       | 2684     |\n",
            "|    total_timesteps    | 822000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.754    |\n",
            "|    explained_variance | 0.979    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 41099    |\n",
            "|    policy_loss        | -0.00115 |\n",
            "|    std                | 0.197    |\n",
            "|    value_loss         | 0.000161 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.67     |\n",
            "|    ep_rew_mean        | -0.207   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 41200    |\n",
            "|    time_elapsed       | 2690     |\n",
            "|    total_timesteps    | 824000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.762    |\n",
            "|    explained_variance | 0.974    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 41199    |\n",
            "|    policy_loss        | 0.00196  |\n",
            "|    std                | 0.197    |\n",
            "|    value_loss         | 0.000124 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.62     |\n",
            "|    ep_rew_mean        | -0.205   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 41300    |\n",
            "|    time_elapsed       | 2697     |\n",
            "|    total_timesteps    | 826000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.781    |\n",
            "|    explained_variance | 0.983    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 41299    |\n",
            "|    policy_loss        | -0.00223 |\n",
            "|    std                | 0.196    |\n",
            "|    value_loss         | 0.00014  |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.83      |\n",
            "|    ep_rew_mean        | -0.216    |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 306       |\n",
            "|    iterations         | 41400     |\n",
            "|    time_elapsed       | 2703      |\n",
            "|    total_timesteps    | 828000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | 0.792     |\n",
            "|    explained_variance | 0.989     |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 41399     |\n",
            "|    policy_loss        | -2.58e-05 |\n",
            "|    std                | 0.195     |\n",
            "|    value_loss         | 9.67e-05  |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.67     |\n",
            "|    ep_rew_mean        | -0.2     |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 41500    |\n",
            "|    time_elapsed       | 2709     |\n",
            "|    total_timesteps    | 830000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.778    |\n",
            "|    explained_variance | 0.959    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 41499    |\n",
            "|    policy_loss        | -0.00308 |\n",
            "|    std                | 0.196    |\n",
            "|    value_loss         | 0.00018  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.84     |\n",
            "|    ep_rew_mean        | -0.225   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 41600    |\n",
            "|    time_elapsed       | 2717     |\n",
            "|    total_timesteps    | 832000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.783    |\n",
            "|    explained_variance | 0.969    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 41599    |\n",
            "|    policy_loss        | -0.00925 |\n",
            "|    std                | 0.195    |\n",
            "|    value_loss         | 0.00023  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.83     |\n",
            "|    ep_rew_mean        | -0.221   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 41700    |\n",
            "|    time_elapsed       | 2724     |\n",
            "|    total_timesteps    | 834000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.79     |\n",
            "|    explained_variance | 0.87     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 41699    |\n",
            "|    policy_loss        | -0.00221 |\n",
            "|    std                | 0.195    |\n",
            "|    value_loss         | 0.000564 |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.65      |\n",
            "|    ep_rew_mean        | -0.204    |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 306       |\n",
            "|    iterations         | 41800     |\n",
            "|    time_elapsed       | 2731      |\n",
            "|    total_timesteps    | 836000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | 0.804     |\n",
            "|    explained_variance | 0.969     |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 41799     |\n",
            "|    policy_loss        | -0.000451 |\n",
            "|    std                | 0.194     |\n",
            "|    value_loss         | 0.000328  |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.81     |\n",
            "|    ep_rew_mean        | -0.222   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 41900    |\n",
            "|    time_elapsed       | 2737     |\n",
            "|    total_timesteps    | 838000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.813    |\n",
            "|    explained_variance | 0.885    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 41899    |\n",
            "|    policy_loss        | -0.00446 |\n",
            "|    std                | 0.194    |\n",
            "|    value_loss         | 0.00103  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.76     |\n",
            "|    ep_rew_mean        | -0.222   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 42000    |\n",
            "|    time_elapsed       | 2744     |\n",
            "|    total_timesteps    | 840000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.817    |\n",
            "|    explained_variance | 0.986    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 41999    |\n",
            "|    policy_loss        | 0.000841 |\n",
            "|    std                | 0.193    |\n",
            "|    value_loss         | 0.000105 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.93     |\n",
            "|    ep_rew_mean        | -0.223   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 42100    |\n",
            "|    time_elapsed       | 2750     |\n",
            "|    total_timesteps    | 842000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.826    |\n",
            "|    explained_variance | 0.974    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 42099    |\n",
            "|    policy_loss        | -0.00738 |\n",
            "|    std                | 0.193    |\n",
            "|    value_loss         | 0.000207 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.62     |\n",
            "|    ep_rew_mean        | -0.2     |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 42200    |\n",
            "|    time_elapsed       | 2757     |\n",
            "|    total_timesteps    | 844000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.829    |\n",
            "|    explained_variance | 0.608    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 42199    |\n",
            "|    policy_loss        | 0.0719   |\n",
            "|    std                | 0.193    |\n",
            "|    value_loss         | 0.0107   |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.61     |\n",
            "|    ep_rew_mean        | -0.199   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 42300    |\n",
            "|    time_elapsed       | 2763     |\n",
            "|    total_timesteps    | 846000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.829    |\n",
            "|    explained_variance | 0.979    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 42299    |\n",
            "|    policy_loss        | 0.00642  |\n",
            "|    std                | 0.192    |\n",
            "|    value_loss         | 0.000259 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.71     |\n",
            "|    ep_rew_mean        | -0.205   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 42400    |\n",
            "|    time_elapsed       | 2770     |\n",
            "|    total_timesteps    | 848000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.834    |\n",
            "|    explained_variance | 0.969    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 42399    |\n",
            "|    policy_loss        | -0.00928 |\n",
            "|    std                | 0.192    |\n",
            "|    value_loss         | 0.000162 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.73     |\n",
            "|    ep_rew_mean        | -0.213   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 42500    |\n",
            "|    time_elapsed       | 2776     |\n",
            "|    total_timesteps    | 850000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.837    |\n",
            "|    explained_variance | 0.975    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 42499    |\n",
            "|    policy_loss        | 0.00355  |\n",
            "|    std                | 0.191    |\n",
            "|    value_loss         | 0.000133 |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.55      |\n",
            "|    ep_rew_mean        | -0.191    |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 306       |\n",
            "|    iterations         | 42600     |\n",
            "|    time_elapsed       | 2783      |\n",
            "|    total_timesteps    | 852000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | 0.853     |\n",
            "|    explained_variance | 0.982     |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 42599     |\n",
            "|    policy_loss        | -0.000159 |\n",
            "|    std                | 0.19      |\n",
            "|    value_loss         | 0.000101  |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.59     |\n",
            "|    ep_rew_mean        | -0.198   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 42700    |\n",
            "|    time_elapsed       | 2789     |\n",
            "|    total_timesteps    | 854000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.871    |\n",
            "|    explained_variance | 0.974    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 42699    |\n",
            "|    policy_loss        | 0.00216  |\n",
            "|    std                | 0.19     |\n",
            "|    value_loss         | 0.000125 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.69     |\n",
            "|    ep_rew_mean        | -0.21    |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 42800    |\n",
            "|    time_elapsed       | 2795     |\n",
            "|    total_timesteps    | 856000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.864    |\n",
            "|    explained_variance | 0.975    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 42799    |\n",
            "|    policy_loss        | 0.0115   |\n",
            "|    std                | 0.19     |\n",
            "|    value_loss         | 0.000346 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.74     |\n",
            "|    ep_rew_mean        | -0.212   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 42900    |\n",
            "|    time_elapsed       | 2801     |\n",
            "|    total_timesteps    | 858000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.869    |\n",
            "|    explained_variance | 0.988    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 42899    |\n",
            "|    policy_loss        | -0.00131 |\n",
            "|    std                | 0.19     |\n",
            "|    value_loss         | 0.000107 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.7      |\n",
            "|    ep_rew_mean        | -0.206   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 43000    |\n",
            "|    time_elapsed       | 2808     |\n",
            "|    total_timesteps    | 860000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.865    |\n",
            "|    explained_variance | 0.986    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 42999    |\n",
            "|    policy_loss        | 0.00381  |\n",
            "|    std                | 0.19     |\n",
            "|    value_loss         | 0.000171 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.81     |\n",
            "|    ep_rew_mean        | -0.224   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 43100    |\n",
            "|    time_elapsed       | 2814     |\n",
            "|    total_timesteps    | 862000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.881    |\n",
            "|    explained_variance | 0.989    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 43099    |\n",
            "|    policy_loss        | -0.002   |\n",
            "|    std                | 0.189    |\n",
            "|    value_loss         | 0.000104 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.77     |\n",
            "|    ep_rew_mean        | -0.218   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 43200    |\n",
            "|    time_elapsed       | 2821     |\n",
            "|    total_timesteps    | 864000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.881    |\n",
            "|    explained_variance | 0.993    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 43199    |\n",
            "|    policy_loss        | -0.00621 |\n",
            "|    std                | 0.189    |\n",
            "|    value_loss         | 7.77e-05 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.69     |\n",
            "|    ep_rew_mean        | -0.208   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 43300    |\n",
            "|    time_elapsed       | 2827     |\n",
            "|    total_timesteps    | 866000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.867    |\n",
            "|    explained_variance | 0.988    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 43299    |\n",
            "|    policy_loss        | 0.00199  |\n",
            "|    std                | 0.19     |\n",
            "|    value_loss         | 0.000125 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.64     |\n",
            "|    ep_rew_mean        | -0.203   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 43400    |\n",
            "|    time_elapsed       | 2834     |\n",
            "|    total_timesteps    | 868000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.868    |\n",
            "|    explained_variance | 0.984    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 43399    |\n",
            "|    policy_loss        | -0.00647 |\n",
            "|    std                | 0.19     |\n",
            "|    value_loss         | 0.000139 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.67     |\n",
            "|    ep_rew_mean        | -0.21    |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 43500    |\n",
            "|    time_elapsed       | 2840     |\n",
            "|    total_timesteps    | 870000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.856    |\n",
            "|    explained_variance | 0.943    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 43499    |\n",
            "|    policy_loss        | -0.004   |\n",
            "|    std                | 0.191    |\n",
            "|    value_loss         | 0.000446 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.64     |\n",
            "|    ep_rew_mean        | -0.203   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 43600    |\n",
            "|    time_elapsed       | 2846     |\n",
            "|    total_timesteps    | 872000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.85     |\n",
            "|    explained_variance | 0.911    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 43599    |\n",
            "|    policy_loss        | 0.00677  |\n",
            "|    std                | 0.191    |\n",
            "|    value_loss         | 0.000232 |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.7       |\n",
            "|    ep_rew_mean        | -0.212    |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 306       |\n",
            "|    iterations         | 43700     |\n",
            "|    time_elapsed       | 2853      |\n",
            "|    total_timesteps    | 874000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | 0.855     |\n",
            "|    explained_variance | 0.984     |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 43699     |\n",
            "|    policy_loss        | -0.000607 |\n",
            "|    std                | 0.191     |\n",
            "|    value_loss         | 0.000181  |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.68     |\n",
            "|    ep_rew_mean        | -0.204   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 43800    |\n",
            "|    time_elapsed       | 2859     |\n",
            "|    total_timesteps    | 876000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.852    |\n",
            "|    explained_variance | 0.933    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 43799    |\n",
            "|    policy_loss        | 0.00514  |\n",
            "|    std                | 0.191    |\n",
            "|    value_loss         | 0.000506 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.58     |\n",
            "|    ep_rew_mean        | -0.192   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 43900    |\n",
            "|    time_elapsed       | 2866     |\n",
            "|    total_timesteps    | 878000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.838    |\n",
            "|    explained_variance | 0.954    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 43899    |\n",
            "|    policy_loss        | -0.00875 |\n",
            "|    std                | 0.192    |\n",
            "|    value_loss         | 0.000284 |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.71      |\n",
            "|    ep_rew_mean        | -0.21     |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 306       |\n",
            "|    iterations         | 44000     |\n",
            "|    time_elapsed       | 2871      |\n",
            "|    total_timesteps    | 880000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | 0.841     |\n",
            "|    explained_variance | 0.987     |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 43999     |\n",
            "|    policy_loss        | -0.000598 |\n",
            "|    std                | 0.192     |\n",
            "|    value_loss         | 0.000108  |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.75     |\n",
            "|    ep_rew_mean        | -0.215   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 44100    |\n",
            "|    time_elapsed       | 2879     |\n",
            "|    total_timesteps    | 882000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.829    |\n",
            "|    explained_variance | 0.975    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 44099    |\n",
            "|    policy_loss        | 0.00538  |\n",
            "|    std                | 0.193    |\n",
            "|    value_loss         | 0.00022  |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.64      |\n",
            "|    ep_rew_mean        | -0.205    |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 306       |\n",
            "|    iterations         | 44200     |\n",
            "|    time_elapsed       | 2884      |\n",
            "|    total_timesteps    | 884000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | 0.848     |\n",
            "|    explained_variance | 0.983     |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 44199     |\n",
            "|    policy_loss        | -0.000168 |\n",
            "|    std                | 0.191     |\n",
            "|    value_loss         | 0.000104  |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.72     |\n",
            "|    ep_rew_mean        | -0.21    |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 44300    |\n",
            "|    time_elapsed       | 2892     |\n",
            "|    total_timesteps    | 886000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.853    |\n",
            "|    explained_variance | 0.994    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 44299    |\n",
            "|    policy_loss        | 0.000868 |\n",
            "|    std                | 0.191    |\n",
            "|    value_loss         | 7.55e-05 |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.63      |\n",
            "|    ep_rew_mean        | -0.199    |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 306       |\n",
            "|    iterations         | 44400     |\n",
            "|    time_elapsed       | 2898      |\n",
            "|    total_timesteps    | 888000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | 0.857     |\n",
            "|    explained_variance | 0.995     |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 44399     |\n",
            "|    policy_loss        | -0.000826 |\n",
            "|    std                | 0.191     |\n",
            "|    value_loss         | 8.98e-05  |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.62     |\n",
            "|    ep_rew_mean        | -0.198   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 44500    |\n",
            "|    time_elapsed       | 2905     |\n",
            "|    total_timesteps    | 890000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.872    |\n",
            "|    explained_variance | 0.994    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 44499    |\n",
            "|    policy_loss        | 0.00331  |\n",
            "|    std                | 0.19     |\n",
            "|    value_loss         | 5.43e-05 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.63     |\n",
            "|    ep_rew_mean        | -0.204   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 44600    |\n",
            "|    time_elapsed       | 2911     |\n",
            "|    total_timesteps    | 892000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.885    |\n",
            "|    explained_variance | 0.971    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 44599    |\n",
            "|    policy_loss        | 0.00155  |\n",
            "|    std                | 0.19     |\n",
            "|    value_loss         | 0.000174 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.7      |\n",
            "|    ep_rew_mean        | -0.204   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 44700    |\n",
            "|    time_elapsed       | 2918     |\n",
            "|    total_timesteps    | 894000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.888    |\n",
            "|    explained_variance | 0.979    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 44699    |\n",
            "|    policy_loss        | 0.00673  |\n",
            "|    std                | 0.189    |\n",
            "|    value_loss         | 0.000173 |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.79      |\n",
            "|    ep_rew_mean        | -0.213    |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 306       |\n",
            "|    iterations         | 44800     |\n",
            "|    time_elapsed       | 2924      |\n",
            "|    total_timesteps    | 896000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | 0.891     |\n",
            "|    explained_variance | 0.989     |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 44799     |\n",
            "|    policy_loss        | -8.09e-05 |\n",
            "|    std                | 0.189     |\n",
            "|    value_loss         | 0.000114  |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.88     |\n",
            "|    ep_rew_mean        | -0.234   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 44900    |\n",
            "|    time_elapsed       | 2931     |\n",
            "|    total_timesteps    | 898000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.872    |\n",
            "|    explained_variance | 0.987    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 44899    |\n",
            "|    policy_loss        | -0.00133 |\n",
            "|    std                | 0.191    |\n",
            "|    value_loss         | 0.000126 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.73     |\n",
            "|    ep_rew_mean        | -0.207   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 45000    |\n",
            "|    time_elapsed       | 2937     |\n",
            "|    total_timesteps    | 900000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.881    |\n",
            "|    explained_variance | 0.992    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 44999    |\n",
            "|    policy_loss        | 0.0064   |\n",
            "|    std                | 0.19     |\n",
            "|    value_loss         | 0.000112 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.73     |\n",
            "|    ep_rew_mean        | -0.212   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 45100    |\n",
            "|    time_elapsed       | 2944     |\n",
            "|    total_timesteps    | 902000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.865    |\n",
            "|    explained_variance | 0.985    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 45099    |\n",
            "|    policy_loss        | -0.00394 |\n",
            "|    std                | 0.191    |\n",
            "|    value_loss         | 0.000103 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.8      |\n",
            "|    ep_rew_mean        | -0.223   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 45200    |\n",
            "|    time_elapsed       | 2950     |\n",
            "|    total_timesteps    | 904000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.914    |\n",
            "|    explained_variance | 0.975    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 45199    |\n",
            "|    policy_loss        | -0.00122 |\n",
            "|    std                | 0.188    |\n",
            "|    value_loss         | 0.000302 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.7      |\n",
            "|    ep_rew_mean        | -0.205   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 45300    |\n",
            "|    time_elapsed       | 2957     |\n",
            "|    total_timesteps    | 906000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.908    |\n",
            "|    explained_variance | 0.995    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 45299    |\n",
            "|    policy_loss        | 0.00591  |\n",
            "|    std                | 0.188    |\n",
            "|    value_loss         | 0.000113 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.6      |\n",
            "|    ep_rew_mean        | -0.199   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 45400    |\n",
            "|    time_elapsed       | 2964     |\n",
            "|    total_timesteps    | 908000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.905    |\n",
            "|    explained_variance | 0.977    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 45399    |\n",
            "|    policy_loss        | -0.00185 |\n",
            "|    std                | 0.189    |\n",
            "|    value_loss         | 0.000156 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.63     |\n",
            "|    ep_rew_mean        | -0.195   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 45500    |\n",
            "|    time_elapsed       | 2970     |\n",
            "|    total_timesteps    | 910000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.893    |\n",
            "|    explained_variance | 0.951    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 45499    |\n",
            "|    policy_loss        | 0.0124   |\n",
            "|    std                | 0.19     |\n",
            "|    value_loss         | 0.000479 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.67     |\n",
            "|    ep_rew_mean        | -0.2     |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 45600    |\n",
            "|    time_elapsed       | 2977     |\n",
            "|    total_timesteps    | 912000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.911    |\n",
            "|    explained_variance | 0.991    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 45599    |\n",
            "|    policy_loss        | -0.00692 |\n",
            "|    std                | 0.188    |\n",
            "|    value_loss         | 0.000114 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.62     |\n",
            "|    ep_rew_mean        | -0.196   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 45700    |\n",
            "|    time_elapsed       | 2983     |\n",
            "|    total_timesteps    | 914000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.944    |\n",
            "|    explained_variance | 0.981    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 45699    |\n",
            "|    policy_loss        | 0.00311  |\n",
            "|    std                | 0.186    |\n",
            "|    value_loss         | 9.87e-05 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.87     |\n",
            "|    ep_rew_mean        | -0.232   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 45800    |\n",
            "|    time_elapsed       | 2990     |\n",
            "|    total_timesteps    | 916000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.962    |\n",
            "|    explained_variance | 0.985    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 45799    |\n",
            "|    policy_loss        | -0.00825 |\n",
            "|    std                | 0.185    |\n",
            "|    value_loss         | 0.000116 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.74     |\n",
            "|    ep_rew_mean        | -0.21    |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 45900    |\n",
            "|    time_elapsed       | 2996     |\n",
            "|    total_timesteps    | 918000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.971    |\n",
            "|    explained_variance | 0.837    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 45899    |\n",
            "|    policy_loss        | -0.00379 |\n",
            "|    std                | 0.184    |\n",
            "|    value_loss         | 0.000819 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.7      |\n",
            "|    ep_rew_mean        | -0.207   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 46000    |\n",
            "|    time_elapsed       | 3005     |\n",
            "|    total_timesteps    | 920000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1        |\n",
            "|    explained_variance | 0.983    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 45999    |\n",
            "|    policy_loss        | -0.00814 |\n",
            "|    std                | 0.183    |\n",
            "|    value_loss         | 0.000103 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.78     |\n",
            "|    ep_rew_mean        | -0.22    |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 46100    |\n",
            "|    time_elapsed       | 3011     |\n",
            "|    total_timesteps    | 922000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1        |\n",
            "|    explained_variance | 0.938    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 46099    |\n",
            "|    policy_loss        | 0.0151   |\n",
            "|    std                | 0.183    |\n",
            "|    value_loss         | 0.000621 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.81     |\n",
            "|    ep_rew_mean        | -0.225   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 46200    |\n",
            "|    time_elapsed       | 3019     |\n",
            "|    total_timesteps    | 924000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 0.999    |\n",
            "|    explained_variance | 0.979    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 46199    |\n",
            "|    policy_loss        | -0.00565 |\n",
            "|    std                | 0.183    |\n",
            "|    value_loss         | 0.000319 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.69     |\n",
            "|    ep_rew_mean        | -0.212   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 46300    |\n",
            "|    time_elapsed       | 3025     |\n",
            "|    total_timesteps    | 926000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.03     |\n",
            "|    explained_variance | 0.963    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 46299    |\n",
            "|    policy_loss        | -0.015   |\n",
            "|    std                | 0.181    |\n",
            "|    value_loss         | 0.000426 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.67     |\n",
            "|    ep_rew_mean        | -0.209   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 46400    |\n",
            "|    time_elapsed       | 3032     |\n",
            "|    total_timesteps    | 928000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.03     |\n",
            "|    explained_variance | 0.992    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 46399    |\n",
            "|    policy_loss        | 0.00804  |\n",
            "|    std                | 0.181    |\n",
            "|    value_loss         | 0.000216 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.82     |\n",
            "|    ep_rew_mean        | -0.224   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 46500    |\n",
            "|    time_elapsed       | 3038     |\n",
            "|    total_timesteps    | 930000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.04     |\n",
            "|    explained_variance | 0.973    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 46499    |\n",
            "|    policy_loss        | 0.00782  |\n",
            "|    std                | 0.18     |\n",
            "|    value_loss         | 0.000223 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.67     |\n",
            "|    ep_rew_mean        | -0.205   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 46600    |\n",
            "|    time_elapsed       | 3046     |\n",
            "|    total_timesteps    | 932000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.06     |\n",
            "|    explained_variance | 0.976    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 46599    |\n",
            "|    policy_loss        | -0.0125  |\n",
            "|    std                | 0.179    |\n",
            "|    value_loss         | 0.000248 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.73     |\n",
            "|    ep_rew_mean        | -0.213   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 46700    |\n",
            "|    time_elapsed       | 3052     |\n",
            "|    total_timesteps    | 934000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.06     |\n",
            "|    explained_variance | 0.976    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 46699    |\n",
            "|    policy_loss        | 0.00171  |\n",
            "|    std                | 0.179    |\n",
            "|    value_loss         | 0.000139 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.54     |\n",
            "|    ep_rew_mean        | -0.196   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 46800    |\n",
            "|    time_elapsed       | 3059     |\n",
            "|    total_timesteps    | 936000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.06     |\n",
            "|    explained_variance | 0.992    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 46799    |\n",
            "|    policy_loss        | 0.00604  |\n",
            "|    std                | 0.179    |\n",
            "|    value_loss         | 0.000146 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.64     |\n",
            "|    ep_rew_mean        | -0.205   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 306      |\n",
            "|    iterations         | 46900    |\n",
            "|    time_elapsed       | 3065     |\n",
            "|    total_timesteps    | 938000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.07     |\n",
            "|    explained_variance | 0.497    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 46899    |\n",
            "|    policy_loss        | -0.0571  |\n",
            "|    std                | 0.179    |\n",
            "|    value_loss         | 0.00679  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.6      |\n",
            "|    ep_rew_mean        | -0.191   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 47000    |\n",
            "|    time_elapsed       | 3072     |\n",
            "|    total_timesteps    | 940000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.08     |\n",
            "|    explained_variance | 0.933    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 46999    |\n",
            "|    policy_loss        | -0.0424  |\n",
            "|    std                | 0.179    |\n",
            "|    value_loss         | 0.00136  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.86     |\n",
            "|    ep_rew_mean        | -0.225   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 47100    |\n",
            "|    time_elapsed       | 3078     |\n",
            "|    total_timesteps    | 942000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.1      |\n",
            "|    explained_variance | 0.969    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 47099    |\n",
            "|    policy_loss        | -0.00619 |\n",
            "|    std                | 0.178    |\n",
            "|    value_loss         | 0.00103  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.81     |\n",
            "|    ep_rew_mean        | -0.223   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 47200    |\n",
            "|    time_elapsed       | 3085     |\n",
            "|    total_timesteps    | 944000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.11     |\n",
            "|    explained_variance | 0.911    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 47199    |\n",
            "|    policy_loss        | 0.0139   |\n",
            "|    std                | 0.177    |\n",
            "|    value_loss         | 0.0015   |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 3.38     |\n",
            "|    ep_rew_mean        | -0.267   |\n",
            "|    success_rate       | 0.99     |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 47300    |\n",
            "|    time_elapsed       | 3092     |\n",
            "|    total_timesteps    | 946000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.11     |\n",
            "|    explained_variance | 0.897    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 47299    |\n",
            "|    policy_loss        | 0.135    |\n",
            "|    std                | 0.177    |\n",
            "|    value_loss         | 0.103    |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.62     |\n",
            "|    ep_rew_mean        | -0.2     |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 47400    |\n",
            "|    time_elapsed       | 3099     |\n",
            "|    total_timesteps    | 948000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.12     |\n",
            "|    explained_variance | 0.408    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 47399    |\n",
            "|    policy_loss        | 0.0339   |\n",
            "|    std                | 0.177    |\n",
            "|    value_loss         | 0.00642  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.63     |\n",
            "|    ep_rew_mean        | -0.197   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 47500    |\n",
            "|    time_elapsed       | 3105     |\n",
            "|    total_timesteps    | 950000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.13     |\n",
            "|    explained_variance | 0.981    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 47499    |\n",
            "|    policy_loss        | 0.00971  |\n",
            "|    std                | 0.176    |\n",
            "|    value_loss         | 0.000172 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.77     |\n",
            "|    ep_rew_mean        | -0.219   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 47600    |\n",
            "|    time_elapsed       | 3112     |\n",
            "|    total_timesteps    | 952000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.12     |\n",
            "|    explained_variance | 0.981    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 47599    |\n",
            "|    policy_loss        | 0.00133  |\n",
            "|    std                | 0.176    |\n",
            "|    value_loss         | 0.000231 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.62     |\n",
            "|    ep_rew_mean        | -0.2     |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 47700    |\n",
            "|    time_elapsed       | 3118     |\n",
            "|    total_timesteps    | 954000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.11     |\n",
            "|    explained_variance | 0.938    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 47699    |\n",
            "|    policy_loss        | -0.0245  |\n",
            "|    std                | 0.177    |\n",
            "|    value_loss         | 0.000652 |\n",
            "------------------------------------\n",
            "-------------------------------------\n",
            "| rollout/              |           |\n",
            "|    ep_len_mean        | 2.64      |\n",
            "|    ep_rew_mean        | -0.199    |\n",
            "|    success_rate       | 1         |\n",
            "| time/                 |           |\n",
            "|    fps                | 305       |\n",
            "|    iterations         | 47800     |\n",
            "|    time_elapsed       | 3125      |\n",
            "|    total_timesteps    | 956000    |\n",
            "| train/                |           |\n",
            "|    entropy_loss       | 1.12      |\n",
            "|    explained_variance | 0.97      |\n",
            "|    learning_rate      | 0.0007    |\n",
            "|    n_updates          | 47799     |\n",
            "|    policy_loss        | -0.000551 |\n",
            "|    std                | 0.177     |\n",
            "|    value_loss         | 0.000333  |\n",
            "-------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.72     |\n",
            "|    ep_rew_mean        | -0.214   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 47900    |\n",
            "|    time_elapsed       | 3132     |\n",
            "|    total_timesteps    | 958000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.12     |\n",
            "|    explained_variance | 0.989    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 47899    |\n",
            "|    policy_loss        | -0.00506 |\n",
            "|    std                | 0.177    |\n",
            "|    value_loss         | 8.59e-05 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.65     |\n",
            "|    ep_rew_mean        | -0.211   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 48000    |\n",
            "|    time_elapsed       | 3138     |\n",
            "|    total_timesteps    | 960000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.14     |\n",
            "|    explained_variance | 0.974    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 47999    |\n",
            "|    policy_loss        | 0.00703  |\n",
            "|    std                | 0.176    |\n",
            "|    value_loss         | 0.000297 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.52     |\n",
            "|    ep_rew_mean        | -0.178   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 48100    |\n",
            "|    time_elapsed       | 3145     |\n",
            "|    total_timesteps    | 962000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.13     |\n",
            "|    explained_variance | 0.908    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 48099    |\n",
            "|    policy_loss        | -0.00607 |\n",
            "|    std                | 0.176    |\n",
            "|    value_loss         | 0.000338 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.64     |\n",
            "|    ep_rew_mean        | -0.2     |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 48200    |\n",
            "|    time_elapsed       | 3152     |\n",
            "|    total_timesteps    | 964000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.11     |\n",
            "|    explained_variance | 0.992    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 48199    |\n",
            "|    policy_loss        | 0.000962 |\n",
            "|    std                | 0.177    |\n",
            "|    value_loss         | 5.99e-05 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.63     |\n",
            "|    ep_rew_mean        | -0.197   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 48300    |\n",
            "|    time_elapsed       | 3158     |\n",
            "|    total_timesteps    | 966000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.12     |\n",
            "|    explained_variance | 0.974    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 48299    |\n",
            "|    policy_loss        | -0.0179  |\n",
            "|    std                | 0.176    |\n",
            "|    value_loss         | 0.000265 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.69     |\n",
            "|    ep_rew_mean        | -0.212   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 48400    |\n",
            "|    time_elapsed       | 3165     |\n",
            "|    total_timesteps    | 968000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.15     |\n",
            "|    explained_variance | 0.975    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 48399    |\n",
            "|    policy_loss        | -0.00674 |\n",
            "|    std                | 0.175    |\n",
            "|    value_loss         | 0.00025  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.88     |\n",
            "|    ep_rew_mean        | -0.244   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 48500    |\n",
            "|    time_elapsed       | 3172     |\n",
            "|    total_timesteps    | 970000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.16     |\n",
            "|    explained_variance | 0.992    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 48499    |\n",
            "|    policy_loss        | 0.00239  |\n",
            "|    std                | 0.175    |\n",
            "|    value_loss         | 0.000114 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.84     |\n",
            "|    ep_rew_mean        | -0.227   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 48600    |\n",
            "|    time_elapsed       | 3178     |\n",
            "|    total_timesteps    | 972000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.18     |\n",
            "|    explained_variance | 0.953    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 48599    |\n",
            "|    policy_loss        | 0.0156   |\n",
            "|    std                | 0.174    |\n",
            "|    value_loss         | 0.000273 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.6      |\n",
            "|    ep_rew_mean        | -0.193   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 48700    |\n",
            "|    time_elapsed       | 3185     |\n",
            "|    total_timesteps    | 974000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.18     |\n",
            "|    explained_variance | 0.969    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 48699    |\n",
            "|    policy_loss        | -0.00403 |\n",
            "|    std                | 0.174    |\n",
            "|    value_loss         | 0.000116 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.7      |\n",
            "|    ep_rew_mean        | -0.208   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 48800    |\n",
            "|    time_elapsed       | 3191     |\n",
            "|    total_timesteps    | 976000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.19     |\n",
            "|    explained_variance | 0.97     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 48799    |\n",
            "|    policy_loss        | 0.0127   |\n",
            "|    std                | 0.173    |\n",
            "|    value_loss         | 0.000284 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.6      |\n",
            "|    ep_rew_mean        | -0.194   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 48900    |\n",
            "|    time_elapsed       | 3199     |\n",
            "|    total_timesteps    | 978000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.19     |\n",
            "|    explained_variance | 0.951    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 48899    |\n",
            "|    policy_loss        | 0.00498  |\n",
            "|    std                | 0.173    |\n",
            "|    value_loss         | 0.000417 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.73     |\n",
            "|    ep_rew_mean        | -0.204   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 49000    |\n",
            "|    time_elapsed       | 3205     |\n",
            "|    total_timesteps    | 980000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.2      |\n",
            "|    explained_variance | 0.96     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 48999    |\n",
            "|    policy_loss        | 0.00689  |\n",
            "|    std                | 0.172    |\n",
            "|    value_loss         | 0.000513 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.65     |\n",
            "|    ep_rew_mean        | -0.207   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 49100    |\n",
            "|    time_elapsed       | 3212     |\n",
            "|    total_timesteps    | 982000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.19     |\n",
            "|    explained_variance | 0.95     |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 49099    |\n",
            "|    policy_loss        | 0.0108   |\n",
            "|    std                | 0.173    |\n",
            "|    value_loss         | 0.000502 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.72     |\n",
            "|    ep_rew_mean        | -0.219   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 49200    |\n",
            "|    time_elapsed       | 3217     |\n",
            "|    total_timesteps    | 984000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.21     |\n",
            "|    explained_variance | 0.974    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 49199    |\n",
            "|    policy_loss        | -0.00175 |\n",
            "|    std                | 0.171    |\n",
            "|    value_loss         | 0.000104 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.8      |\n",
            "|    ep_rew_mean        | -0.217   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 49300    |\n",
            "|    time_elapsed       | 3225     |\n",
            "|    total_timesteps    | 986000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.23     |\n",
            "|    explained_variance | 0.977    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 49299    |\n",
            "|    policy_loss        | -0.0018  |\n",
            "|    std                | 0.17     |\n",
            "|    value_loss         | 0.000198 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.68     |\n",
            "|    ep_rew_mean        | -0.203   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 49400    |\n",
            "|    time_elapsed       | 3230     |\n",
            "|    total_timesteps    | 988000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.21     |\n",
            "|    explained_variance | 0.942    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 49399    |\n",
            "|    policy_loss        | 0.00639  |\n",
            "|    std                | 0.172    |\n",
            "|    value_loss         | 0.000212 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.77     |\n",
            "|    ep_rew_mean        | -0.209   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 49500    |\n",
            "|    time_elapsed       | 3238     |\n",
            "|    total_timesteps    | 990000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.21     |\n",
            "|    explained_variance | 0.981    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 49499    |\n",
            "|    policy_loss        | 0.00873  |\n",
            "|    std                | 0.172    |\n",
            "|    value_loss         | 0.000195 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.7      |\n",
            "|    ep_rew_mean        | -0.207   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 49600    |\n",
            "|    time_elapsed       | 3244     |\n",
            "|    total_timesteps    | 992000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.22     |\n",
            "|    explained_variance | 0.884    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 49599    |\n",
            "|    policy_loss        | 0.0116   |\n",
            "|    std                | 0.171    |\n",
            "|    value_loss         | 0.000657 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.64     |\n",
            "|    ep_rew_mean        | -0.204   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 49700    |\n",
            "|    time_elapsed       | 3251     |\n",
            "|    total_timesteps    | 994000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.21     |\n",
            "|    explained_variance | 0.959    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 49699    |\n",
            "|    policy_loss        | -0.00236 |\n",
            "|    std                | 0.171    |\n",
            "|    value_loss         | 0.00025  |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.71     |\n",
            "|    ep_rew_mean        | -0.203   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 49800    |\n",
            "|    time_elapsed       | 3257     |\n",
            "|    total_timesteps    | 996000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.22     |\n",
            "|    explained_variance | 0.973    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 49799    |\n",
            "|    policy_loss        | 0.000928 |\n",
            "|    std                | 0.171    |\n",
            "|    value_loss         | 0.000305 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.81     |\n",
            "|    ep_rew_mean        | -0.218   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 49900    |\n",
            "|    time_elapsed       | 3264     |\n",
            "|    total_timesteps    | 998000   |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.22     |\n",
            "|    explained_variance | 0.982    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 49899    |\n",
            "|    policy_loss        | 0.0187   |\n",
            "|    std                | 0.171    |\n",
            "|    value_loss         | 0.000211 |\n",
            "------------------------------------\n",
            "------------------------------------\n",
            "| rollout/              |          |\n",
            "|    ep_len_mean        | 2.52     |\n",
            "|    ep_rew_mean        | -0.186   |\n",
            "|    success_rate       | 1        |\n",
            "| time/                 |          |\n",
            "|    fps                | 305      |\n",
            "|    iterations         | 50000    |\n",
            "|    time_elapsed       | 3270     |\n",
            "|    total_timesteps    | 1000000  |\n",
            "| train/                |          |\n",
            "|    entropy_loss       | 1.24     |\n",
            "|    explained_variance | 0.987    |\n",
            "|    learning_rate      | 0.0007   |\n",
            "|    n_updates          | 49999    |\n",
            "|    policy_loss        | 0.00764  |\n",
            "|    std                | 0.169    |\n",
            "|    value_loss         | 0.000173 |\n",
            "------------------------------------\n"
          ]
        },
        {
          "output_type": "execute_result",
          "data": {
            "text/plain": [
              "<stable_baselines3.a2c.a2c.A2C at 0x7bb1968c65c0>"
            ]
          },
          "metadata": {},
          "execution_count": 10
        }
      ]
    },
    {
      "cell_type": "markdown",
      "source": [
        "Saving the modela nd Vecnormalize the statistics when saving the agent"
      ],
      "metadata": {
        "id": "w3xmesRRA_dq"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "# Save the model and  VecNormalize statistics when saving the agent\n",
        "model.save(\"a2c-PandaReachDense-v3\")\n",
        "env.save(\"vec_normalize.pkl\")"
      ],
      "metadata": {
        "id": "zvUkwZ8GrcY7"
      },
      "execution_count": 11,
      "outputs": []
    },
    {
      "cell_type": "markdown",
      "source": [
        "Evaluating the Agent"
      ],
      "metadata": {
        "id": "6Q8RV6HBrk9k"
      }
    },
    {
      "cell_type": "code",
      "source": [
        "from stable_baselines3.common.vec_env import DummyVecEnv, VecNormalize\n",
        "\n",
        "# Load the saved statistics\n",
        "eval_env = DummyVecEnv([lambda: gym.make(\"PandaReachDense-v3\")])\n",
        "eval_env = VecNormalize.load(\"vec_normalize.pkl\", eval_env)\n",
        "\n",
        "# We need to override the render_mode\n",
        "eval_env.render_mode = \"rgb_array\"\n",
        "\n",
        "#  do not update them at test time\n",
        "eval_env.training = False\n",
        "# reward normalization is not needed at test time\n",
        "eval_env.norm_reward = False\n",
        "\n",
        "# Load the agent\n",
        "model = A2C.load(\"a2c-PandaReachDense-v3\")\n",
        "\n",
        "mean_reward, std_reward = evaluate_policy(model, eval_env)\n",
        "\n",
        "print(f\"Mean reward = {mean_reward:.2f} +/- {std_reward:.2f}\")"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 0
        },
        "id": "t7veIVTlrfT_",
        "outputId": "3696d0c3-3f39-460f-fd89-2cfff688901a"
      },
      "execution_count": 12,
      "outputs": [
        {
          "output_type": "stream",
          "name": "stdout",
          "text": [
            "Mean reward = -0.16 +/- 0.08\n"
          ]
        },
        {
          "output_type": "stream",
          "name": "stderr",
          "text": [
            "/usr/local/lib/python3.10/dist-packages/stable_baselines3/common/evaluation.py:67: UserWarning: Evaluation environment is not wrapped with a ``Monitor`` wrapper. This may result in reporting modified episode lengths and rewards, if other wrappers happen to modify these. Consider wrapping environment first with ``Monitor`` wrapper.\n",
            "  warnings.warn(\n"
          ]
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [
        "notebook_login()\n",
        "!git config --global credential.helper store"
      ],
      "metadata": {
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 145,
          "referenced_widgets": [
            "8ff8c13284c14676b06e4745721752ff",
            "0f76ed54c37841919f69e3177fd6d7ec",
            "e4cf51a9ec524655885fa9d07495fb38",
            "767318ed9ad944be8f48ad555be1e1ff",
            "bc645f00ff0f43cf859068ea57352721",
            "3e660dd6ce074fd8bdf4a8244dd8b7a9",
            "c0ae0beb39ca47d38ce6c970aaa1b61e",
            "2bc31dd7c1de48d987ef760bf2d15147",
            "12e0ce2415404baaaff00fea8d956d54",
            "39949b8863224db28a986fe21017325c",
            "aa046de0210e4c449ba575e1c36bacb1",
            "9955e32bd5ae46268f8d9722622d174e",
            "25b7d7c4c9e84d10b9965d53a63546c0",
            "cff0d261124249a68f95b38739010ca5",
            "1839eb1041f546ea8d52cb0d6f8c4c8a",
            "b96787f8562c4dbc9d56ddcf52a32712",
            "e1ba30e7cf0546329471a3f6f5e0b4bc",
            "27216c11c3594a509ba423dd639459b5",
            "a78a804660594c2abf59eca6eca50572",
            "ef36b661ee3c4502a5cbe5f7766f154d",
            "16c9ddf0f69f48a08f2ba7b0767c6e04",
            "15902149c92341eb96bde04388332f92",
            "ef37ebf8ddfa4a54aa6e6ff22a80e1ff",
            "589a3dee05d14f978c816c5e160e3c6d",
            "8097ed945e114ed5b87a4972d6f0d859",
            "0f5dccb7a8b44ac79b70340cbc5db798",
            "8cd6e4522ef44d69b8b723af315e7237",
            "1cf3cc18ec1a4fb99655a5fc01bd1b22",
            "86587e674adc46748f3246f6db7bd632",
            "ba7dea34ec104c019006105901393e76",
            "821d176ebe3a4bf5afcc2fe8a731a242",
            "d0c0c8758616405786ab2144705b72c8"
          ]
        },
        "id": "k0zr35arCK1c",
        "outputId": "d0ceda32-ecf7-4c47-fdd6-679b5b494247"
      },
      "execution_count": 21,
      "outputs": [
        {
          "output_type": "display_data",
          "data": {
            "text/plain": [
              "VBox(children=(HTML(value='<center> <img\\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…"
            ],
            "application/vnd.jupyter.widget-view+json": {
              "version_major": 2,
              "version_minor": 0,
              "model_id": "8ff8c13284c14676b06e4745721752ff"
            }
          },
          "metadata": {}
        }
      ]
    },
    {
      "cell_type": "code",
      "source": [],
      "metadata": {
        "id": "sywne8W5GGeC"
      },
      "execution_count": null,
      "outputs": []
    }
  ]
}