DQN cartpole v1

Browse files

Files changed (5) hide show

.gitignore +2 -0
DQN_v1.ipynb +872 -0
fin_rl_qlearning_v1.ipynb +0 -0
fin_rl_qlearning_v2.ipynb +0 -0
fin_rl_qlearning_v4.ipynb +0 -0

.gitignore CHANGED Viewed

@@ -8,3 +8,5 @@ dist/
 *.egg-info/
 build/
 __pycache__/

 *.egg-info/
 build/
 __pycache__/
+data/
+alt/

DQN_v1.ipynb ADDED Viewed

	@@ -0,0 +1,872 @@

+{
+  "cells": [
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "nwaAZRu1NTiI"
+      },
+      "source": [
+        "# DQN\n",
+        "\n",
+        "#### This version implements DQN with Keras\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "id": "DDf1gLC2NTiK"
+      },
+      "outputs": [],
+      "source": [
+        "# !pip install -r ./requirements.txt\n",
+        "!pip install stable_baselines3[extra]\n",
+        "!pip install huggingface_sb3\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 2,
+      "metadata": {
+        "id": "LNXxxKojNTiL"
+      },
+      "outputs": [
+        {
+          "name": "stderr",
+          "output_type": "stream",
+          "text": [
+            "2022-12-21 23:28:04.436066: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA\n",
+            "To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
+            "\n"
+          ]
+        }
+      ],
+      "source": [
+        "import tensorflow as tf\n",
+        "from tensorflow.keras import layers\n",
+        "from tensorflow.keras.utils import to_categorical\n",
+        "import gym\n",
+        "from gym import spaces\n",
+        "from gym.utils import seeding\n",
+        "from gym import wrappers\n",
+        "\n",
+        "from tqdm.notebook import tqdm\n",
+        "from collections import deque\n",
+        "import numpy as np\n",
+        "import random\n",
+        "from matplotlib import pyplot as plt\n",
+        "\n",
+        "import io\n",
+        "import base64\n",
+        "from IPython.display import HTML, Video\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 16,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "class DQN:\n",
+        "    def __init__(self, env=None, replay_buffer_size=1000, action_size=2):\n",
+        "        self.replay_buffer = deque(maxlen=replay_buffer_size)\n",
+        "\n",
+        "        self.action_size = action_size\n",
+        "\n",
+        "        # Hyperparameters\n",
+        "        self.gamma = 0.95           # Discount rate\n",
+        "        self.epsilon = 1.0          # Exploration rate\n",
+        "        self.epsilon_min = 0.05      # Minimal exploration rate (epsilon-greedy)\n",
+        "        self.epsilon_decay = 0.90    # Decay rate for epsilon\n",
+        "        self.update_rate = 200       # Number of steps until updating the target network\n",
+        "        self.batch_size = 100\n",
+        "        self.learning_rate = 0.001\n",
+        "        \n",
+        "        # Construct DQN models\n",
+        "        self.model = self._build_model()\n",
+        "        self.target_model = self._build_model()\n",
+        "        self.target_model.set_weights(self.model.get_weights())\n",
+        "        self.model.summary()\n",
+        "        self.env = env\n",
+        "        self.action_size = action_size\n",
+        "\n",
+        "    def _build_model(self):\n",
+        "        model = tf.keras.Sequential()\n",
+        "        \n",
+        "        model.add(tf.keras.Input(shape=(4,)))\n",
+        "        # FC Layers\n",
+        "        model.add(layers.Dense(24, activation='relu'))\n",
+        "        model.add(layers.Dense(24, activation='relu'))\n",
+        "        model.add(layers.Dense(self.action_size, activation='linear'))\n",
+        "        \n",
+        "        optimizer = tf.keras.optimizers.Adam(learning_rate=self.learning_rate)\n",
+        "        model.compile(loss='mse', optimizer=optimizer, metrics=['mse'])\n",
+        "        return model\n",
+        "\n",
+        "\n",
+        "    #\n",
+        "    # Trains the model using randomly selected experiences in the replay memory\n",
+        "    #\n",
+        "    def _train(self):\n",
+        "        minibatch = random.sample(self.replay_buffer, self.batch_size)\n",
+        "        \n",
+        "        for state, action, reward, next_state, done in minibatch:\n",
+        "            \n",
+        "            if not done:\n",
+        "                model_predict = self.model.predict(np.array([next_state]), verbose=0)\n",
+        "                max_action = np.argmax(model_predict[0])\n",
+        "                target = (reward + self.gamma * self.target_model.predict(np.array([next_state]), verbose=0)[0][max_action])\n",
+        "            else:\n",
+        "                target = reward\n",
+        "                \n",
+        "            # Construct the target vector as follows:\n",
+        "            # 1. Use the current model to output the Q-value predictions\n",
+        "            target_f = self.model.predict(np.array([state]), verbose=0)\n",
+        "            \n",
+        "            # 2. Rewrite the chosen action value with the computed target\n",
+        "            target_f[0][action] = target\n",
+        "            \n",
+        "            # 3. Use vectors in the objective computation\n",
+        "            history = self.model.fit(np.array([state]), target_f, epochs=1, verbose=0)\n",
+        "            print(f\"Loss: {history.history['loss']}  \")\n",
+        "            \n",
+        "        if self.epsilon > self.epsilon_min:\n",
+        "            self.epsilon *= self.epsilon_decay\n",
+        "    #\n",
+        "    # Trains the model using randomly selected experiences in the replay memory\n",
+        "    #\n",
+        "    def _train_b(self):\n",
+        "        \n",
+        "        # state, action, reward, next_state, done \n",
+        "        # create the targets \n",
+        "        mb_arr = np.array(random.sample(self.replay_buffer, self.batch_size), dtype=object)\n",
+        "\n",
+        "        next_state_arr = np.stack(mb_arr[:,3])\n",
+        "        target_model_predict = self.target_model.predict(next_state_arr, verbose=0)\n",
+        "        max_action_arr = np.argmax(target_model_predict, axis=1)\n",
+        "        q_targets = []\n",
+        "        for idx,val in enumerate(zip(target_model_predict, max_action_arr)):\n",
+        "            row, col = val\n",
+        "            # if done\n",
+        "            if mb_arr[idx,4] == True:\n",
+        "                q_targets.append(mb_arr[idx,2])\n",
+        "            else:\n",
+        "                q_targets.append(row[col])\n",
+        "\n",
+        "        q_targets = np.array(q_targets)\n",
+        "        reward_arr = np.stack(mb_arr[:,2])\n",
+        "        # targets Yj\n",
+        "        target_arr = (reward_arr + self.gamma * q_targets)\n",
+        "\n",
+        "        # Perform gradient step\n",
+        "        state_arr = np.stack(mb_arr[:,0])\n",
+        "        model_predict = self.model.predict(state_arr, verbose=0)\n",
+        "        action_arr = np.stack(mb_arr[:,1])\n",
+        "        f_targets=[]\n",
+        "        for idx, val in enumerate(zip(action_arr, target_arr)):\n",
+        "            act, targ = val\n",
+        "            model_predict[idx][act] = targ\n",
+        "\n",
+        "        history = self.model.fit(state_arr, model_predict, epochs=1, verbose=0)\n",
+        "        print(f\"Loss: {history.history['loss']}  \")\n",
+        "        # update epsilon\n",
+        "        if self.epsilon > self.epsilon_min:\n",
+        "            self.epsilon *= self.epsilon_decay\n",
+        "\n",
+        "    def learn(self, total_steps=None):\n",
+        "\n",
+        "        state = self.env.reset()\n",
+        "        total_reward = 0\n",
+        "        rewards = []\n",
+        "        for current_step in tqdm(range(total_steps)):\n",
+        "\n",
+        "            # e-greedy\n",
+        "            if np.random.rand() <= self.epsilon:\n",
+        "                action = random.randrange(self.action_size)\n",
+        "            else:\n",
+        "                model_predict = self.model.predict(np.array([state]), verbose=0)\n",
+        "                action = np.argmax(model_predict[0])\n",
+        "\n",
+        "            # step\n",
+        "            next_state, reward, done, info = self.env.step(action)\n",
+        "            total_reward += reward\n",
+        "            # add to buffer\n",
+        "            self.replay_buffer.append((state, action, reward, next_state, done))\n",
+        "\n",
+        "            if done:\n",
+        "                rewards.append(total_reward)\n",
+        "                total_reward = 0\n",
+        "                state = self.env.reset()\n",
+        "\n",
+        "            if current_step>10 and current_step % self.update_rate == 0:\n",
+        "                print(f\"epsilon:{self.epsilon} step:{current_step}  mean_reward {np.mean(rewards)} \")\n",
+        "                self._train()\n",
+        "                # update target\n",
+        "                self.target_model.set_weights(self.model.get_weights())\n",
+        "            \n",
+        "    #\n",
+        "    # Loads a saved model\n",
+        "    #\n",
+        "    def load(self, name):\n",
+        "        self.model.load_weights(name)\n",
+        "\n",
+        "    #\n",
+        "    # Saves parameters of a trained model\n",
+        "    #\n",
+        "    def save(self, name):\n",
+        "        self.model.save_weights(name)\n",
+        "\n",
+        "    def play(self, state):\n",
+        "        return np.argmax(self.model.predict(np.array([state]), verbose=0)[0])"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "env = gym.make('CartPole-v1')\n",
+        "\n",
+        "model = DQN(env=env, replay_buffer_size=10_000, action_size=2)\n",
+        "model.learn(total_steps=20_000)\n",
+        "env.close()"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# env = gym.make('CartPole-v1')\n",
+        "\n",
+        "# model = DQN(env=env, replay_buffer_size=10_000, action_size=2)\n",
+        "\n",
+        "# state = model.env.reset()\n",
+        "# for i in range(100):\n",
+        "#     random_action = env.action_space.sample()\n",
+        "#     next_state, reward, done, info = model.env.step(random_action)\n",
+        "#     model.replay_buffer.append((state, random_action, reward, next_state, done))\n",
+        "#     if done:\n",
+        "#         state = model.env.reset()\n",
+        "#     else:\n",
+        "#         state = next_state\n",
+        "\n",
+        "# minibatch = random.sample(model.replay_buffer, 10)\n",
+        "# mb = np.array(minibatch, dtype=object)\n",
+        "# print(mb[:,0])\n",
+        "# np.stack(mb[:,0])\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 6,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "model.save(\"./m1.h5\")"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 7,
+      "metadata": {},
+      "outputs": [
+        {
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "Model: \"sequential_2\"\n",
+            "_________________________________________________________________\n",
+            " Layer (type)                Output Shape              Param #   \n",
+            "=================================================================\n",
+            " dense_6 (Dense)             (None, 128)               640       \n",
+            "                                                                 \n",
+            " dense_7 (Dense)             (None, 64)                8256      \n",
+            "                                                                 \n",
+            " dense_8 (Dense)             (None, 2)                 130       \n",
+            "                                                                 \n",
+            "=================================================================\n",
+            "Total params: 9,026\n",
+            "Trainable params: 9,026\n",
+            "Non-trainable params: 0\n",
+            "_________________________________________________________________\n",
+            "1.0 {}\n"
+          ]
+        }
+      ],
+      "source": [
+        "eval_env = gym.make('CartPole-v1')\n",
+        "model = DQN(env=eval_env, replay_buffer_size=10_000, action_size=2)\n",
+        "model.load(\"./m1.h5\")\n",
+        "eval_env = wrappers.Monitor(eval_env, \"./alt/gym-results\", force=True)\n",
+        "state = eval_env.reset()\n",
+        "for _ in range(1000):\n",
+        "    action = model.play(state)\n",
+        "    observation, reward, done, info = eval_env.step(action)\n",
+        "    # print(info)\n",
+        "    state = observation\n",
+        "    if done: \n",
+        "        print(reward, info)\n",
+        "        break\n",
+        "eval_env.close()"
+      ]
+    }
+  ],
+  "metadata": {
+    "colab": {
+      "provenance": []
+    },
+    "kernelspec": {
+      "display_name": "Python 3.8.13 ('rl2')",
+      "language": "python",
+      "name": "python3"
+    },
+    "language_info": {
+      "codemirror_mode": {
+        "name": "ipython",
+        "version": 3
+      },
+      "file_extension": ".py",
+      "mimetype": "text/x-python",
+      "name": "python",
+      "nbconvert_exporter": "python",
+      "pygments_lexer": "ipython3",
+      "version": "3.8.13"
+    },
+    "orig_nbformat": 4,
+    "vscode": {
+      "interpreter": {
+        "hash": "cd60ab8388a66026f336166410d6a8a46ddf65ece2e85ad2d46c8b98d87580d1"
+      }
+    },
+    "widgets": {
+      "application/vnd.jupyter.widget-state+json": {
+        "01a2dbcb714e40148b41c761fcf43147": {
+          "model_module": "@jupyter-widgets/base",
+          "model_module_version": "1.2.0",
+          "model_name": "LayoutModel",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "20b0f38ec3234ff28a62a286cd57b933": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_module_version": "1.5.0",
+          "model_name": "PasswordModel",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "PasswordModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "PasswordView",
+            "continuous_update": true,
+            "description": "Token:",
+            "description_tooltip": null,
+            "disabled": false,
+            "layout": "IPY_MODEL_01a2dbcb714e40148b41c761fcf43147",
+            "placeholder": "",
+            "style": "IPY_MODEL_90c874e91b304ee1a7ef147767ac00ce",
+            "value": ""
+          }
+        },
+        "270cbb5d6e9c4b1e9e2f39c8b3b0c15f": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_module_version": "1.5.0",
+          "model_name": "VBoxModel",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "VBoxModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "VBoxView",
+            "box_style": "",
+            "children": [
+              "IPY_MODEL_a02224a43d8d4af3bd31d326540d25da",
+              "IPY_MODEL_20b0f38ec3234ff28a62a286cd57b933",
+              "IPY_MODEL_f6c845330d6743c0b35c2c7ad834de77",
+              "IPY_MODEL_f1675c09d16a4251b403f9c56255f168",
+              "IPY_MODEL_c1a82965ae26479a98e4fdbde1e64ec2"
+            ],
+            "layout": "IPY_MODEL_3fa248114ac24656ba74923936a94d2d"
+          }
+        },
+        "2dc5fa9aa3334dfcbdee9c238f2ef60b": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_module_version": "1.5.0",
+          "model_name": "DescriptionStyleModel",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "3e753b0212644990b558c68853ff2041": {
+          "model_module": "@jupyter-widgets/base",
+          "model_module_version": "1.2.0",
+          "model_name": "LayoutModel",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "3fa248114ac24656ba74923936a94d2d": {
+          "model_module": "@jupyter-widgets/base",
+          "model_module_version": "1.2.0",
+          "model_name": "LayoutModel",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": "center",
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": "flex",
+            "flex": null,
+            "flex_flow": "column",
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": "50%"
+          }
+        },
+        "42d140b838b844819bc127afc1b7bc84": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_module_version": "1.5.0",
+          "model_name": "DescriptionStyleModel",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "90c874e91b304ee1a7ef147767ac00ce": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_module_version": "1.5.0",
+          "model_name": "DescriptionStyleModel",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "9d847f9a7d47458d8cd57d9b599e47c6": {
+          "model_module": "@jupyter-widgets/base",
+          "model_module_version": "1.2.0",
+          "model_name": "LayoutModel",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "a02224a43d8d4af3bd31d326540d25da": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_module_version": "1.5.0",
+          "model_name": "HTMLModel",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HTMLModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HTMLView",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_caef095934ec47bbb8b64eab22049284",
+            "placeholder": "",
+            "style": "IPY_MODEL_2dc5fa9aa3334dfcbdee9c238f2ef60b",
+            "value": "<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.svg\nalt='Hugging Face'> <br> Copy a token from <a\nhref=\"https://huggingface.co/settings/tokens\" target=\"_blank\">your Hugging Face\ntokens page</a> and paste it below. <br> Immediately click login after copying\nyour token or it might be stored in plain text in this notebook file. </center>"
+          }
+        },
+        "a2cfb91cf66447d7899292854bd64a07": {
+          "model_module": "@jupyter-widgets/base",
+          "model_module_version": "1.2.0",
+          "model_name": "LayoutModel",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "c1a82965ae26479a98e4fdbde1e64ec2": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_module_version": "1.5.0",
+          "model_name": "HTMLModel",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "HTMLModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "HTMLView",
+            "description": "",
+            "description_tooltip": null,
+            "layout": "IPY_MODEL_9d847f9a7d47458d8cd57d9b599e47c6",
+            "placeholder": "",
+            "style": "IPY_MODEL_42d140b838b844819bc127afc1b7bc84",
+            "value": "\n<b>Pro Tip:</b> If you don't already have one, you can create a dedicated\n'notebooks' token with 'write' access, that you can then easily reuse for all\nnotebooks. </center>"
+          }
+        },
+        "caef095934ec47bbb8b64eab22049284": {
+          "model_module": "@jupyter-widgets/base",
+          "model_module_version": "1.2.0",
+          "model_name": "LayoutModel",
+          "state": {
+            "_model_module": "@jupyter-widgets/base",
+            "_model_module_version": "1.2.0",
+            "_model_name": "LayoutModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "LayoutView",
+            "align_content": null,
+            "align_items": null,
+            "align_self": null,
+            "border": null,
+            "bottom": null,
+            "display": null,
+            "flex": null,
+            "flex_flow": null,
+            "grid_area": null,
+            "grid_auto_columns": null,
+            "grid_auto_flow": null,
+            "grid_auto_rows": null,
+            "grid_column": null,
+            "grid_gap": null,
+            "grid_row": null,
+            "grid_template_areas": null,
+            "grid_template_columns": null,
+            "grid_template_rows": null,
+            "height": null,
+            "justify_content": null,
+            "justify_items": null,
+            "left": null,
+            "margin": null,
+            "max_height": null,
+            "max_width": null,
+            "min_height": null,
+            "min_width": null,
+            "object_fit": null,
+            "object_position": null,
+            "order": null,
+            "overflow": null,
+            "overflow_x": null,
+            "overflow_y": null,
+            "padding": null,
+            "right": null,
+            "top": null,
+            "visibility": null,
+            "width": null
+          }
+        },
+        "eaba3f1de4444aabadfea2a3dadb1d80": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_module_version": "1.5.0",
+          "model_name": "DescriptionStyleModel",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "DescriptionStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "description_width": ""
+          }
+        },
+        "ee4a21bedc504171ad09d205d634b528": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_module_version": "1.5.0",
+          "model_name": "ButtonStyleModel",
+          "state": {
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "ButtonStyleModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/base",
+            "_view_module_version": "1.2.0",
+            "_view_name": "StyleView",
+            "button_color": null,
+            "font_weight": ""
+          }
+        },
+        "f1675c09d16a4251b403f9c56255f168": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_module_version": "1.5.0",
+          "model_name": "ButtonModel",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "ButtonModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "ButtonView",
+            "button_style": "",
+            "description": "Login",
+            "disabled": false,
+            "icon": "",
+            "layout": "IPY_MODEL_a2cfb91cf66447d7899292854bd64a07",
+            "style": "IPY_MODEL_ee4a21bedc504171ad09d205d634b528",
+            "tooltip": ""
+          }
+        },
+        "f6c845330d6743c0b35c2c7ad834de77": {
+          "model_module": "@jupyter-widgets/controls",
+          "model_module_version": "1.5.0",
+          "model_name": "CheckboxModel",
+          "state": {
+            "_dom_classes": [],
+            "_model_module": "@jupyter-widgets/controls",
+            "_model_module_version": "1.5.0",
+            "_model_name": "CheckboxModel",
+            "_view_count": null,
+            "_view_module": "@jupyter-widgets/controls",
+            "_view_module_version": "1.5.0",
+            "_view_name": "CheckboxView",
+            "description": "Add token as git credential?",
+            "description_tooltip": null,
+            "disabled": false,
+            "indent": true,
+            "layout": "IPY_MODEL_3e753b0212644990b558c68853ff2041",
+            "style": "IPY_MODEL_eaba3f1de4444aabadfea2a3dadb1d80",
+            "value": true
+          }
+        }
+      }
+    }
+  },
+  "nbformat": 4,
+  "nbformat_minor": 0
+}

fin_rl_qlearning_v1.ipynb CHANGED Viewed

The diff for this file is too large to render. See raw diff

fin_rl_qlearning_v2.ipynb ADDED Viewed

The diff for this file is too large to render. See raw diff

fin_rl_qlearning_v4.ipynb ADDED Viewed

The diff for this file is too large to render. See raw diff