Upload . with huggingface_hub

Browse files

Files changed (6) hide show

Policy_Gradient_PyTorch.ipynb +1395 -0
README.md +27 -0
hyperparameters.json +1 -0
model.pt +3 -0
replay.mp4 +0 -0
results.json +1 -0

Policy_Gradient_PyTorch.ipynb ADDED Viewed

	@@ -0,0 +1,1395 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "<pyvirtualdisplay.display.Display at 0x7f6b781a3c70>"
+      ]
+     },
+     "execution_count": 1,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "# Virtual display\n",
+    "from pyvirtualdisplay import Display\n",
+    "\n",
+    "virtual_display = Display(visible=0, size=(1400, 900))\n",
+    "virtual_display.start()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import numpy as np\n",
+    "\n",
+    "from collections import deque\n",
+    "\n",
+    "import matplotlib.pyplot as plt\n",
+    "%matplotlib inline\n",
+    "\n",
+    "# PyTorch\n",
+    "import torch\n",
+    "import torch.nn as nn\n",
+    "import torch.nn.functional as F\n",
+    "import torch.optim as optim\n",
+    "from torch.distributions import Categorical\n",
+    "\n",
+    "# Gym\n",
+    "import gym\n",
+    "import gym_pygame\n",
+    "\n",
+    "# Hugging Face Hub\n",
+    "from huggingface_hub import notebook_login # To log to our Hugging Face account to be able to upload models to the Hub.\n",
+    "import imageio\n",
+    "#    imageio: A library that will help us to generate a replay video"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "cuda:0\n"
+     ]
+    }
+   ],
+   "source": [
+    "device = torch.device(\"cuda:0\" if torch.cuda.is_available() else \"cpu\")\n",
+    "print(device)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Cartpole-v1"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "env_id = \"CartPole-v1\"\n",
+    "env = gym.make(env_id)\n",
+    "\n",
+    "# evaluation env\n",
+    "eval_env = gym.make(env_id)\n",
+    "\n",
+    "s_size = env.observation_space.shape[0]\n",
+    "a_size = env.action_space.n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "_____OBSERVATION SPACE_____ \n",
+      "\n",
+      "The State Space is:  4\n",
+      "Sample observation [-2.6818509e+00  2.6710869e+38 -2.7456334e-01  4.6941264e+37]\n"
+     ]
+    }
+   ],
+   "source": [
+    "print(\"_____OBSERVATION SPACE_____ \\n\")\n",
+    "print(\"The State Space is: \", s_size)\n",
+    "print(\"Sample observation\", env.observation_space.sample())  # Get a random observation"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\n",
+      " _____ACTION SPACE_____ \n",
+      "\n",
+      "The Action Space is:  2\n",
+      "Action Space Sample 0\n"
+     ]
+    }
+   ],
+   "source": [
+    "print(\"\\n _____ACTION SPACE_____ \\n\")\n",
+    "print(\"The Action Space is: \", a_size)\n",
+    "print(\"Action Space Sample\", env.action_space.sample())  # Take a random action"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Reinforce Archtecture"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "class Policy(nn.Module):\n",
+    "    def __init__(self, s_size, a_size, h_size):\n",
+    "        super(Policy, self).__init__()\n",
+    "        self.fc1 = nn.Linear(s_size, h_size)\n",
+    "        self.fc2 = nn.Linear(h_size, a_size)\n",
+    "    \n",
+    "    def forward(self, x):\n",
+    "        x = F.relu(self.fc1(x))\n",
+    "        x = self.fc2(x)\n",
+    "        return F.softmax(x, dim=1)\n",
+    "\n",
+    "    def act(self, state):\n",
+    "        state = torch.from_numpy(state).float().unsqueeze(0).to(device)\n",
+    "        probs = self.forward(state).cpu()\n",
+    "        m = Categorical(probs)\n",
+    "        # action = np.argmax(m)\n",
+    "        action = m.sample()\n",
+    "        return action.item(), m.log_prob(action)\n",
+    "    "
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "(1, tensor([-0.7983], grad_fn=<SqueezeBackward1>))"
+      ]
+     },
+     "execution_count": 14,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "debug_policy = Policy(s_size, a_size, 64).to(device)\n",
+    "debug_policy.act(env.reset())"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "<img src=https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit6/pg_pseudocode.png/>"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def reinforce(policy, optimizer, n_training_episodes, max_t, gamma, print_every):\n",
+    "    scores_deque = deque(maxlen=100)\n",
+    "    scores = []\n",
+    "\n",
+    "    # Line 3 of pseudocode\n",
+    "    for i_episodes in range(1, n_training_episodes+1):\n",
+    "        saved_log_probs = []\n",
+    "        rewards = []\n",
+    "        state = env.reset()\n",
+    "\n",
+    "        # Line 4 of pseudocode\n",
+    "        for i_episode in range(1, n_training_episodes):\n",
+    "            action, log_prob = policy.act(state)\n",
+    "            saved_log_probs.append(log_prob)\n",
+    "            state, reward, done, _ = env.step(action)\n",
+    "            rewards.append(reward)\n",
+    "            if done:\n",
+    "                break\n",
+    "        scores_deque.append(sum(rewards))\n",
+    "        scores.append(sum(rewards))\n",
+    "\n",
+    "        # Line 6 of pseudocode\n",
+    "        returns = deque(maxlen=max_t)\n",
+    "        n_steps = len(rewards)\n",
+    "\n",
+    "        for t in range(n_steps)[::-1]:\n",
+    "            disc_return_t = (returns[0] if len(returns)>0 else 0)\n",
+    "            returns.appendleft(gamma * disc_return_t + rewards[t])\n",
+    "\n",
+    "        eps = np.finfo(np.float32).eps.item()\n",
+    "\n",
+    "        returns = torch.tensor(returns)\n",
+    "        returns = (returns - returns.mean()) / (returns.std() + eps)\n",
+    "\n",
+    "        # Line 7\n",
+    "        policy_loss = []\n",
+    "        for log_prob, disc_return in zip(saved_log_probs, returns):\n",
+    "            policy_loss.append(-log_prob * disc_return)\n",
+    "        policy_loss = torch.cat(policy_loss).sum()\n",
+    "\n",
+    "        # Line 8\n",
+    "        optimizer.zero_grad()\n",
+    "        policy_loss.backward()\n",
+    "        optimizer.step()\n",
+    "\n",
+    "        if i_episode % print_every == 0:\n",
+    "            print(\"Episode {}\\tAverage Score: {:.2f}\".format(i_episode, np.mean(scores_deque)))\n",
+    "\n",
+    "    return scores"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "cartpole_hyperparameters = {\n",
+    "    \"h_size\": 16,\n",
+    "    \"n_training_episodes\": 1000,\n",
+    "    \"n_evaluation_episodes\": 10,\n",
+    "    \"max_t\": 1000,\n",
+    "    \"gamma\": 1.0,\n",
+    "    \"lr\": 1e-2,\n",
+    "    \"env_id\": env_id,\n",
+    "    \"state_space\": s_size,\n",
+    "    \"action_space\": a_size,\n",
+    "}"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 17,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "cartpole_policy = Policy(\n",
+    "    cartpole_hyperparameters[\"state_space\"],\n",
+    "    cartpole_hyperparameters[\"action_space\"],\n",
+    "    cartpole_hyperparameters[\"h_size\"],\n",
+    ").to(device)\n",
+    "cartpole_optimizer = optim.Adam(cartpole_policy.parameters(), lr=cartpole_hyperparameters[\"lr\"])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 18,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Episode 500\tAverage Score: 116.93\n",
+      "Episode 500\tAverage Score: 134.13\n",
+      "Episode 500\tAverage Score: 138.92\n",
+      "Episode 500\tAverage Score: 143.73\n",
+      "Episode 500\tAverage Score: 150.68\n",
+      "Episode 500\tAverage Score: 154.91\n",
+      "Episode 500\tAverage Score: 159.05\n",
+      "Episode 500\tAverage Score: 163.41\n",
+      "Episode 500\tAverage Score: 167.91\n",
+      "Episode 500\tAverage Score: 172.49\n",
+      "Episode 500\tAverage Score: 176.90\n",
+      "Episode 500\tAverage Score: 181.63\n",
+      "Episode 500\tAverage Score: 185.66\n",
+      "Episode 500\tAverage Score: 190.18\n",
+      "Episode 500\tAverage Score: 194.90\n",
+      "Episode 500\tAverage Score: 199.15\n",
+      "Episode 500\tAverage Score: 203.89\n",
+      "Episode 500\tAverage Score: 208.33\n",
+      "Episode 500\tAverage Score: 212.64\n",
+      "Episode 500\tAverage Score: 217.48\n",
+      "Episode 500\tAverage Score: 221.51\n",
+      "Episode 500\tAverage Score: 226.20\n",
+      "Episode 500\tAverage Score: 230.63\n",
+      "Episode 500\tAverage Score: 235.21\n",
+      "Episode 500\tAverage Score: 243.17\n",
+      "Episode 500\tAverage Score: 250.87\n",
+      "Episode 500\tAverage Score: 254.48\n",
+      "Episode 500\tAverage Score: 258.01\n",
+      "Episode 500\tAverage Score: 262.76\n",
+      "Episode 500\tAverage Score: 267.27\n",
+      "Episode 500\tAverage Score: 271.85\n",
+      "Episode 500\tAverage Score: 275.57\n",
+      "Episode 500\tAverage Score: 281.62\n",
+      "Episode 500\tAverage Score: 284.87\n",
+      "Episode 500\tAverage Score: 289.12\n",
+      "Episode 500\tAverage Score: 295.51\n",
+      "Episode 500\tAverage Score: 299.59\n",
+      "Episode 500\tAverage Score: 303.39\n",
+      "Episode 500\tAverage Score: 310.17\n",
+      "Episode 500\tAverage Score: 313.95\n",
+      "Episode 500\tAverage Score: 317.26\n",
+      "Episode 500\tAverage Score: 318.30\n",
+      "Episode 500\tAverage Score: 322.61\n",
+      "Episode 500\tAverage Score: 327.74\n",
+      "Episode 500\tAverage Score: 331.85\n",
+      "Episode 500\tAverage Score: 335.04\n",
+      "Episode 500\tAverage Score: 339.34\n",
+      "Episode 500\tAverage Score: 343.40\n",
+      "Episode 500\tAverage Score: 345.81\n",
+      "Episode 500\tAverage Score: 348.98\n",
+      "Episode 500\tAverage Score: 352.50\n",
+      "Episode 500\tAverage Score: 356.47\n",
+      "Episode 500\tAverage Score: 360.60\n",
+      "Episode 500\tAverage Score: 364.78\n",
+      "Episode 500\tAverage Score: 368.87\n",
+      "Episode 500\tAverage Score: 372.04\n",
+      "Episode 500\tAverage Score: 374.21\n",
+      "Episode 500\tAverage Score: 376.52\n",
+      "Episode 500\tAverage Score: 379.97\n",
+      "Episode 500\tAverage Score: 382.65\n",
+      "Episode 500\tAverage Score: 384.00\n",
+      "Episode 500\tAverage Score: 386.29\n",
+      "Episode 500\tAverage Score: 391.30\n",
+      "Episode 500\tAverage Score: 394.40\n",
+      "Episode 500\tAverage Score: 398.01\n",
+      "Episode 500\tAverage Score: 400.75\n",
+      "Episode 500\tAverage Score: 404.74\n",
+      "Episode 500\tAverage Score: 408.86\n",
+      "Episode 500\tAverage Score: 412.89\n",
+      "Episode 500\tAverage Score: 417.54\n",
+      "Episode 500\tAverage Score: 421.40\n",
+      "Episode 500\tAverage Score: 425.71\n",
+      "Episode 500\tAverage Score: 425.96\n",
+      "Episode 500\tAverage Score: 430.19\n",
+      "Episode 500\tAverage Score: 434.20\n",
+      "Episode 500\tAverage Score: 434.40\n",
+      "Episode 500\tAverage Score: 438.51\n",
+      "Episode 500\tAverage Score: 441.44\n",
+      "Episode 500\tAverage Score: 445.65\n",
+      "Episode 500\tAverage Score: 448.57\n",
+      "Episode 500\tAverage Score: 451.66\n",
+      "Episode 500\tAverage Score: 455.92\n",
+      "Episode 500\tAverage Score: 458.06\n",
+      "Episode 500\tAverage Score: 460.77\n",
+      "Episode 500\tAverage Score: 460.77\n",
+      "Episode 500\tAverage Score: 462.53\n",
+      "Episode 500\tAverage Score: 463.35\n",
+      "Episode 500\tAverage Score: 465.71\n",
+      "Episode 500\tAverage Score: 467.43\n",
+      "Episode 500\tAverage Score: 471.61\n",
+      "Episode 500\tAverage Score: 471.61\n",
+      "Episode 500\tAverage Score: 471.61\n",
+      "Episode 500\tAverage Score: 471.61\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 474.02\n",
+      "Episode 500\tAverage Score: 469.92\n",
+      "Episode 500\tAverage Score: 466.39\n",
+      "Episode 500\tAverage Score: 470.74\n",
+      "Episode 500\tAverage Score: 470.74\n",
+      "Episode 500\tAverage Score: 472.07\n",
+      "Episode 500\tAverage Score: 472.07\n",
+      "Episode 500\tAverage Score: 476.40\n",
+      "Episode 500\tAverage Score: 476.40\n",
+      "Episode 500\tAverage Score: 476.40\n",
+      "Episode 500\tAverage Score: 476.40\n",
+      "Episode 500\tAverage Score: 476.40\n",
+      "Episode 500\tAverage Score: 476.40\n",
+      "Episode 500\tAverage Score: 476.40\n",
+      "Episode 500\tAverage Score: 479.20\n",
+      "Episode 500\tAverage Score: 475.32\n",
+      "Episode 500\tAverage Score: 472.31\n",
+      "Episode 500\tAverage Score: 472.31\n",
+      "Episode 500\tAverage Score: 472.31\n",
+      "Episode 500\tAverage Score: 470.49\n",
+      "Episode 500\tAverage Score: 470.49\n",
+      "Episode 500\tAverage Score: 470.49\n",
+      "Episode 500\tAverage Score: 470.49\n",
+      "Episode 500\tAverage Score: 466.40\n",
+      "Episode 500\tAverage Score: 468.61\n",
+      "Episode 500\tAverage Score: 468.61\n",
+      "Episode 500\tAverage Score: 468.61\n",
+      "Episode 500\tAverage Score: 468.61\n",
+      "Episode 500\tAverage Score: 468.61\n",
+      "Episode 500\tAverage Score: 468.61\n",
+      "Episode 500\tAverage Score: 468.61\n",
+      "Episode 500\tAverage Score: 468.61\n",
+      "Episode 500\tAverage Score: 468.61\n",
+      "Episode 500\tAverage Score: 472.51\n",
+      "Episode 500\tAverage Score: 472.51\n",
+      "Episode 500\tAverage Score: 472.51\n",
+      "Episode 500\tAverage Score: 467.72\n",
+      "Episode 500\tAverage Score: 467.72\n",
+      "Episode 500\tAverage Score: 462.94\n",
+      "Episode 500\tAverage Score: 462.94\n",
+      "Episode 500\tAverage Score: 462.94\n",
+      "Episode 500\tAverage Score: 462.94\n",
+      "Episode 500\tAverage Score: 462.94\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 465.15\n",
+      "Episode 500\tAverage Score: 469.25\n",
+      "Episode 500\tAverage Score: 469.25\n",
+      "Episode 500\tAverage Score: 473.97\n",
+      "Episode 500\tAverage Score: 473.97\n",
+      "Episode 500\tAverage Score: 473.97\n",
+      "Episode 500\tAverage Score: 473.97\n",
+      "Episode 500\tAverage Score: 473.97\n",
+      "Episode 500\tAverage Score: 473.97\n",
+      "Episode 500\tAverage Score: 473.97\n",
+      "Episode 500\tAverage Score: 473.97\n",
+      "Episode 500\tAverage Score: 473.97\n",
+      "Episode 500\tAverage Score: 473.97\n",
+      "Episode 500\tAverage Score: 473.97\n",
+      "Episode 500\tAverage Score: 473.97\n",
+      "Episode 500\tAverage Score: 473.97\n",
+      "Episode 500\tAverage Score: 473.97\n",
+      "Episode 500\tAverage Score: 477.85\n",
+      "Episode 500\tAverage Score: 477.85\n",
+      "Episode 500\tAverage Score: 482.59\n",
+      "Episode 500\tAverage Score: 482.59\n",
+      "Episode 500\tAverage Score: 482.59\n",
+      "Episode 500\tAverage Score: 482.59\n",
+      "Episode 500\tAverage Score: 486.34\n",
+      "Episode 500\tAverage Score: 486.34\n",
+      "Episode 500\tAverage Score: 486.34\n",
+      "Episode 500\tAverage Score: 486.34\n",
+      "Episode 500\tAverage Score: 486.34\n",
+      "Episode 500\tAverage Score: 490.43\n",
+      "Episode 500\tAverage Score: 490.43\n",
+      "Episode 500\tAverage Score: 490.43\n",
+      "Episode 500\tAverage Score: 490.43\n",
+      "Episode 500\tAverage Score: 490.43\n",
+      "Episode 500\tAverage Score: 490.43\n",
+      "Episode 500\tAverage Score: 490.43\n",
+      "Episode 500\tAverage Score: 490.43\n",
+      "Episode 500\tAverage Score: 490.43\n",
+      "Episode 500\tAverage Score: 490.43\n",
+      "Episode 500\tAverage Score: 490.43\n",
+      "Episode 500\tAverage Score: 490.43\n",
+      "Episode 500\tAverage Score: 490.43\n",
+      "Episode 500\tAverage Score: 490.43\n",
+      "Episode 500\tAverage Score: 495.22\n",
+      "Episode 500\tAverage Score: 495.22\n",
+      "Episode 500\tAverage Score: 495.22\n",
+      "Episode 500\tAverage Score: 500.00\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.42\n",
+      "Episode 500\tAverage Score: 497.28\n",
+      "Episode 500\tAverage Score: 497.28\n",
+      "Episode 500\tAverage Score: 497.28\n",
+      "Episode 500\tAverage Score: 497.28\n",
+      "Episode 500\tAverage Score: 497.28\n",
+      "Episode 500\tAverage Score: 497.28\n",
+      "Episode 500\tAverage Score: 493.12\n",
+      "Episode 500\tAverage Score: 493.12\n",
+      "Episode 500\tAverage Score: 493.12\n",
+      "Episode 500\tAverage Score: 493.12\n",
+      "Episode 500\tAverage Score: 488.95\n",
+      "Episode 500\tAverage Score: 488.95\n",
+      "Episode 500\tAverage Score: 488.95\n",
+      "Episode 500\tAverage Score: 488.95\n",
+      "Episode 500\tAverage Score: 488.95\n",
+      "Episode 500\tAverage Score: 488.95\n",
+      "Episode 500\tAverage Score: 484.67\n",
+      "Episode 500\tAverage Score: 484.67\n",
+      "Episode 500\tAverage Score: 484.67\n",
+      "Episode 500\tAverage Score: 484.67\n",
+      "Episode 500\tAverage Score: 480.52\n",
+      "Episode 500\tAverage Score: 480.52\n",
+      "Episode 500\tAverage Score: 480.52\n",
+      "Episode 500\tAverage Score: 480.52\n",
+      "Episode 500\tAverage Score: 480.52\n",
+      "Episode 500\tAverage Score: 480.52\n",
+      "Episode 500\tAverage Score: 480.52\n",
+      "Episode 500\tAverage Score: 480.52\n",
+      "Episode 500\tAverage Score: 480.52\n",
+      "Episode 500\tAverage Score: 480.52\n",
+      "Episode 500\tAverage Score: 480.52\n",
+      "Episode 500\tAverage Score: 480.52\n",
+      "Episode 500\tAverage Score: 480.52\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 476.39\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 478.97\n",
+      "Episode 500\tAverage Score: 479.11\n",
+      "Episode 500\tAverage Score: 479.11\n",
+      "Episode 500\tAverage Score: 479.11\n",
+      "Episode 500\tAverage Score: 479.11\n",
+      "Episode 500\tAverage Score: 479.11\n",
+      "Episode 500\tAverage Score: 479.11\n",
+      "Episode 500\tAverage Score: 479.11\n",
+      "Episode 500\tAverage Score: 483.27\n",
+      "Episode 500\tAverage Score: 483.27\n",
+      "Episode 500\tAverage Score: 483.27\n",
+      "Episode 500\tAverage Score: 483.27\n",
+      "Episode 500\tAverage Score: 483.27\n",
+      "Episode 500\tAverage Score: 487.44\n",
+      "Episode 500\tAverage Score: 487.44\n",
+      "Episode 500\tAverage Score: 487.44\n",
+      "Episode 500\tAverage Score: 487.44\n",
+      "Episode 500\tAverage Score: 487.44\n",
+      "Episode 300\tAverage Score: 485.44\n",
+      "Episode 500\tAverage Score: 485.44\n",
+      "Episode 500\tAverage Score: 489.72\n",
+      "Episode 500\tAverage Score: 489.72\n",
+      "Episode 500\tAverage Score: 489.72\n",
+      "Episode 500\tAverage Score: 489.72\n",
+      "Episode 500\tAverage Score: 489.72\n",
+      "Episode 500\tAverage Score: 493.87\n",
+      "Episode 500\tAverage Score: 493.87\n",
+      "Episode 500\tAverage Score: 493.87\n",
+      "Episode 500\tAverage Score: 493.87\n",
+      "Episode 500\tAverage Score: 493.87\n",
+      "Episode 500\tAverage Score: 493.87\n",
+      "Episode 500\tAverage Score: 493.87\n",
+      "Episode 500\tAverage Score: 493.87\n",
+      "Episode 500\tAverage Score: 493.87\n",
+      "Episode 500\tAverage Score: 493.87\n",
+      "Episode 500\tAverage Score: 493.87\n",
+      "Episode 500\tAverage Score: 493.87\n",
+      "Episode 500\tAverage Score: 493.87\n",
+      "Episode 500\tAverage Score: 493.87\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 498.00\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 493.24\n",
+      "Episode 500\tAverage Score: 488.47\n",
+      "Episode 500\tAverage Score: 483.65\n",
+      "Episode 500\tAverage Score: 483.65\n",
+      "Episode 500\tAverage Score: 483.65\n",
+      "Episode 500\tAverage Score: 483.65\n",
+      "Episode 500\tAverage Score: 466.97\n",
+      "Episode 500\tAverage Score: 460.99\n",
+      "Episode 500\tAverage Score: 460.99\n",
+      "Episode 500\tAverage Score: 460.99\n",
+      "Episode 500\tAverage Score: 456.25\n",
+      "Episode 500\tAverage Score: 456.25\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 500\tAverage Score: 451.43\n",
+      "Episode 200\tAverage Score: 148.79\n",
+      "Episode 200\tAverage Score: 157.96\n",
+      "Episode 500\tAverage Score: 190.64\n",
+      "Episode 500\tAverage Score: 194.26\n",
+      "Episode 500\tAverage Score: 197.86\n",
+      "Episode 500\tAverage Score: 201.48\n",
+      "Episode 500\tAverage Score: 205.15\n",
+      "Episode 500\tAverage Score: 208.76\n",
+      "Episode 500\tAverage Score: 212.41\n",
+      "Episode 500\tAverage Score: 216.13\n",
+      "Episode 500\tAverage Score: 219.72\n",
+      "Episode 500\tAverage Score: 223.56\n",
+      "Episode 500\tAverage Score: 227.23\n",
+      "Episode 500\tAverage Score: 230.90\n",
+      "Episode 500\tAverage Score: 234.61\n",
+      "Episode 500\tAverage Score: 238.32\n",
+      "Episode 500\tAverage Score: 241.99\n",
+      "Episode 500\tAverage Score: 245.78\n",
+      "Episode 500\tAverage Score: 249.43\n",
+      "Episode 500\tAverage Score: 253.18\n",
+      "Episode 500\tAverage Score: 256.85\n",
+      "Episode 500\tAverage Score: 260.43\n",
+      "Episode 500\tAverage Score: 263.94\n",
+      "Episode 500\tAverage Score: 267.68\n",
+      "Episode 500\tAverage Score: 271.27\n",
+      "Episode 500\tAverage Score: 274.87\n",
+      "Episode 500\tAverage Score: 278.51\n",
+      "Episode 500\tAverage Score: 282.18\n",
+      "Episode 500\tAverage Score: 285.67\n",
+      "Episode 500\tAverage Score: 289.04\n",
+      "Episode 500\tAverage Score: 292.48\n",
+      "Episode 500\tAverage Score: 295.88\n",
+      "Episode 500\tAverage Score: 299.61\n",
+      "Episode 500\tAverage Score: 302.84\n",
+      "Episode 500\tAverage Score: 305.97\n",
+      "Episode 500\tAverage Score: 309.13\n",
+      "Episode 500\tAverage Score: 312.46\n",
+      "Episode 500\tAverage Score: 315.80\n",
+      "Episode 500\tAverage Score: 319.12\n",
+      "Episode 500\tAverage Score: 321.31\n",
+      "Episode 500\tAverage Score: 324.54\n",
+      "Episode 500\tAverage Score: 327.67\n",
+      "Episode 500\tAverage Score: 330.83\n",
+      "Episode 500\tAverage Score: 333.27\n",
+      "Episode 500\tAverage Score: 336.25\n",
+      "Episode 500\tAverage Score: 339.31\n",
+      "Episode 500\tAverage Score: 342.54\n"
+     ]
+    }
+   ],
+   "source": [
+    "scores = reinforce(\n",
+    "    cartpole_policy,\n",
+    "    cartpole_optimizer,\n",
+    "    cartpole_hyperparameters[\"n_training_episodes\"],\n",
+    "    cartpole_hyperparameters[\"max_t\"],\n",
+    "    cartpole_hyperparameters[\"gamma\"],\n",
+    "    100,\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 19,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def evaluate_agent(env, max_steps, n_eval_episodes, policy):\n",
+    "    \"\"\"\n",
+    "    Evaluate the agent for ``n_eval_episodes`` episodes and returns average reward and std of reward.\n",
+    "    :param env: The evaluation environment\n",
+    "    :param n_eval_episodes: Number of episode to evaluate the agent\n",
+    "    :param policy: The Reinforce agent\n",
+    "    \"\"\"\n",
+    "    episode_rewards = []\n",
+    "    for episode in range(n_eval_episodes):\n",
+    "        state = env.reset()\n",
+    "        step = 0\n",
+    "        done = False\n",
+    "        total_rewards_ep = 0\n",
+    "\n",
+    "        for step in range(max_steps):\n",
+    "            action, _ = policy.act(state)\n",
+    "            new_state, reward, done, info = env.step(action)\n",
+    "            total_rewards_ep += reward\n",
+    "\n",
+    "            if done:\n",
+    "                break\n",
+    "            state = new_state\n",
+    "        episode_rewards.append(total_rewards_ep)\n",
+    "    mean_reward = np.mean(episode_rewards)\n",
+    "    std_reward = np.std(episode_rewards)\n",
+    "\n",
+    "    return mean_reward, std_reward"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 35,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "(448.7, 65.16141496315132)"
+      ]
+     },
+     "execution_count": 35,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "evaluate_agent(\n",
+    "    eval_env, cartpole_hyperparameters[\"max_t\"], cartpole_hyperparameters[\"n_evaluation_episodes\"], cartpole_policy\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from huggingface_hub import HfApi, snapshot_download\n",
+    "from huggingface_hub.repocard import metadata_eval_result, metadata_save\n",
+    "\n",
+    "from pathlib import Path\n",
+    "import datetime\n",
+    "import json\n",
+    "import imageio\n",
+    "\n",
+    "import tempfile\n",
+    "\n",
+    "import os"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 22,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def record_video(env, policy, out_directory, fps=30):\n",
+    "    \"\"\"\n",
+    "    Generate a replay video of the agent\n",
+    "    :param env\n",
+    "    :param Qtable: Qtable of our agent\n",
+    "    :param out_directory\n",
+    "    :param fps: how many frame per seconds (with taxi-v3 and frozenlake-v1 we use 1)\n",
+    "    \"\"\"\n",
+    "    images = []\n",
+    "    done = False\n",
+    "    state = env.reset()\n",
+    "    img = env.render(mode=\"rgb_array\")\n",
+    "    images.append(img)\n",
+    "    while not done:\n",
+    "        # Take the action (index) that have the maximum expected future reward given that state\n",
+    "        action, _ = policy.act(state)\n",
+    "        state, reward, done, info = env.step(action)  # We directly put next_state = state for recording logic\n",
+    "        img = env.render(mode=\"rgb_array\")\n",
+    "        images.append(img)\n",
+    "    imageio.mimsave(out_directory, [np.array(img) for i, img in enumerate(images)], fps=fps)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 23,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from huggingface_hub import HfApi, snapshot_download\n",
+    "from huggingface_hub.repocard import metadata_eval_result, metadata_save\n",
+    "\n",
+    "from pathlib import Path\n",
+    "import datetime\n",
+    "import json\n",
+    "import imageio\n",
+    "\n",
+    "import tempfile\n",
+    "\n",
+    "import os"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 29,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def push_to_hub(repo_id,\n",
+    "                model,\n",
+    "                hyperparameters,\n",
+    "                eval_env,\n",
+    "                video_fps=30\n",
+    "                ):\n",
+    "  \"\"\"\n",
+    "  Evaluate, Generate a video and Upload a model to Hugging Face Hub.\n",
+    "  This method does the complete pipeline:\n",
+    "  - It evaluates the model\n",
+    "  - It generates the model card\n",
+    "  - It generates a replay video of the agent\n",
+    "  - It pushes everything to the Hub\n",
+    "\n",
+    "  :param repo_id: repo_id: id of the model repository from the Hugging Face Hub\n",
+    "  :param model: the pytorch model we want to save\n",
+    "  :param hyperparameters: training hyperparameters\n",
+    "  :param eval_env: evaluation environment\n",
+    "  :param video_fps: how many frame per seconds to record our video replay\n",
+    "  \"\"\"\n",
+    "\n",
+    "  _, repo_name = repo_id.split(\"/\")\n",
+    "  api = HfApi()\n",
+    "\n",
+    "  # Step 1: Create the repo\n",
+    "  repo_url = api.create_repo(\n",
+    "        repo_id=repo_id,\n",
+    "        exist_ok=True,\n",
+    "  )\n",
+    "\n",
+    "  with tempfile.TemporaryDirectory() as tmpdirname:\n",
+    "    local_directory = Path(\"./\")\n",
+    "\n",
+    "    # Step 2: Save the model\n",
+    "    torch.save(model, local_directory / \"model.pt\")\n",
+    "\n",
+    "    # Step 3: Save the hyperparameters to JSON\n",
+    "    with open(local_directory / \"hyperparameters.json\", \"w\") as outfile:\n",
+    "      json.dump(hyperparameters, outfile)\n",
+    "\n",
+    "    # Step 4: Evaluate the model and build JSON\n",
+    "    mean_reward, std_reward = evaluate_agent(eval_env,\n",
+    "                                            hyperparameters[\"max_t\"],\n",
+    "                                            hyperparameters[\"n_evaluation_episodes\"],\n",
+    "                                            model)\n",
+    "    # Get datetime\n",
+    "    eval_datetime = datetime.datetime.now()\n",
+    "    eval_form_datetime = eval_datetime.isoformat()\n",
+    "\n",
+    "    evaluate_data = {\n",
+    "          \"env_id\": hyperparameters[\"env_id\"],\n",
+    "          \"mean_reward\": mean_reward,\n",
+    "          \"n_evaluation_episodes\": hyperparameters[\"n_evaluation_episodes\"],\n",
+    "          \"eval_datetime\": eval_form_datetime,\n",
+    "    }\n",
+    "\n",
+    "    # Write a JSON file\n",
+    "    with open(local_directory / \"results.json\", \"w\") as outfile:\n",
+    "        json.dump(evaluate_data, outfile)\n",
+    "\n",
+    "    # Step 5: Create the model card\n",
+    "    env_name = hyperparameters[\"env_id\"]\n",
+    "\n",
+    "    metadata = {}\n",
+    "    metadata[\"tags\"] = [\n",
+    "          env_name,\n",
+    "          \"reinforce\",\n",
+    "          \"reinforcement-learning\",\n",
+    "          \"custom-implementation\",\n",
+    "          \"deep-rl-class\"\n",
+    "      ]\n",
+    "\n",
+    "    # Add metrics\n",
+    "    eval = metadata_eval_result(\n",
+    "        model_pretty_name=repo_name,\n",
+    "        task_pretty_name=\"reinforcement-learning\",\n",
+    "        task_id=\"reinforcement-learning\",\n",
+    "        metrics_pretty_name=\"mean_reward\",\n",
+    "        metrics_id=\"mean_reward\",\n",
+    "        metrics_value=f\"{mean_reward:.2f} +/- {std_reward:.2f}\",\n",
+    "        dataset_pretty_name=env_name,\n",
+    "        dataset_id=env_name,\n",
+    "      )\n",
+    "\n",
+    "    # Merges both dictionaries\n",
+    "    metadata = {**metadata, **eval}\n",
+    "\n",
+    "    model_card = f\"\"\"\n",
+    "  # **Reinforce** Agent playing **{env_id}**\n",
+    "  This is a trained model of a **Reinforce** agent playing **{env_id}** .\n",
+    "  To learn to use this model and train yours check Unit 4 of the Deep Reinforcement Learning Course: https://huggingface.co/deep-rl-course/unit4/introduction\n",
+    "  \"\"\"\n",
+    "\n",
+    "    readme_path = local_directory / \"README.md\"\n",
+    "    readme = \"\"\n",
+    "    if readme_path.exists():\n",
+    "        with readme_path.open(\"r\", encoding=\"utf8\") as f:\n",
+    "          readme = f.read()\n",
+    "    else:\n",
+    "      readme = model_card\n",
+    "\n",
+    "    with readme_path.open(\"w\", encoding=\"utf-8\") as f:\n",
+    "      f.write(readme)\n",
+    "\n",
+    "    # Save our metrics to Readme metadata\n",
+    "    metadata_save(readme_path, metadata)\n",
+    "\n",
+    "    # Step 6: Record a video\n",
+    "    video_path =  local_directory / \"replay.mp4\"\n",
+    "    record_video(env, model, video_path, video_fps)\n",
+    "\n",
+    "    # Step 7. Push everything to the Hub\n",
+    "    api.upload_folder(\n",
+    "          repo_id=repo_id,\n",
+    "          folder_path=local_directory,\n",
+    "          path_in_repo=\".\",\n",
+    "    )\n",
+    "\n",
+    "    print(f\"Your model is pushed to the Hub. You can view your model here: {repo_url}\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 31,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Token is valid.\n",
+      "Your token has been saved in your configured git credential helpers (store).\n",
+      "Your token has been saved to /home/hanbk/.cache/huggingface/token\n",
+      "Login successful\n"
+     ]
+    }
+   ],
+   "source": [
+    "notebook_login()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 36,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "IMAGEIO FFMPEG_WRITER WARNING: input image is not divisible by macro_block_size=16, resizing from (600, 400) to (608, 400) to ensure video compatibility with most codecs and players. To prevent resizing, make your input image divisible by the macro_block_size or set the macro_block_size to 1 (risking incompatibility).\n",
+      "[swscaler @ 0x7313080] Warning: data is not aligned! This can lead to a speed loss\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Your model is pushed to the Hub. You can view your model here: https://huggingface.co/bkhan2000/Reinforce-CartPole-v1\n"
+     ]
+    }
+   ],
+   "source": [
+    "repo_id = f\"bkhan2000/Reinforce-{env_id}\"  # TODO Define your repo id {username/Reinforce-{model-id}}\n",
+    "push_to_hub(\n",
+    "    repo_id,\n",
+    "    cartpole_policy,  # The model we want to save\n",
+    "    cartpole_hyperparameters,  # Hyperparameters\n",
+    "    eval_env,  # Evaluation environment\n",
+    "    video_fps=30\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### PixelCopter"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 37,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "pygame 2.1.3 (SDL 2.0.22, Python 3.8.10)\n",
+      "Hello from the pygame community. https://www.pygame.org/contribute.html\n",
+      "couldn't import doomish\n",
+      "Couldn't import doom\n"
+     ]
+    }
+   ],
+   "source": [
+    "env_id = \"Pixelcopter-PLE-v0\"\n",
+    "env = gym.make(env_id)\n",
+    "eval_env = gym.make(env_id)\n",
+    "s_size = env.observation_space.shape[0]\n",
+    "a_size = env.action_space.n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 38,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "_____OBSERVATION SPACE_____ \n",
+      "\n",
+      "The State Space is:  7\n",
+      "Sample observation [ 0.9645765  -1.6262507   0.25693664  0.18892749  2.2655454   0.37077877\n",
+      "  1.3749579 ]\n"
+     ]
+    }
+   ],
+   "source": [
+    "print(\"_____OBSERVATION SPACE_____ \\n\")\n",
+    "print(\"The State Space is: \", s_size)\n",
+    "print(\"Sample observation\", env.observation_space.sample())  # Get a random observation"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 39,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\n",
+      " _____ACTION SPACE_____ \n",
+      "\n",
+      "The Action Space is:  2\n",
+      "Action Space Sample 0\n"
+     ]
+    }
+   ],
+   "source": [
+    "print(\"\\n _____ACTION SPACE_____ \\n\")\n",
+    "print(\"The Action Space is: \", a_size)\n",
+    "print(\"Action Space Sample\", env.action_space.sample())  # Take a random action"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 40,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "class Policy(nn.Module):\n",
+    "    def __init__(self, s_size, a_size, h_size):\n",
+    "        super(Policy, self).__init__()\n",
+    "        self.fc1 = nn.Linear(s_size, h_size)\n",
+    "        self.fc2 = nn.Linear(h_size, h_size * 2)\n",
+    "        self.fc3 = nn.Linear(h_size * 2, a_size)\n",
+    "\n",
+    "    def forward(self, x):\n",
+    "        x = F.relu(self.fc1(x))\n",
+    "        x = F.relu(self.fc2(x))\n",
+    "        x = self.fc3(x)\n",
+    "        return F.softmax(x, dim=1)\n",
+    "\n",
+    "    def act(self, state):\n",
+    "        state = torch.from_numpy(state).float().unsqueeze(0).to(device)\n",
+    "        probs = self.forward(state).cpu()\n",
+    "        m = Categorical(probs)\n",
+    "        action = m.sample()\n",
+    "        return action.item(), m.log_prob(action)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 41,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "pixelcopter_hyperparameters = {\n",
+    "    \"h_size\": 64,\n",
+    "    \"n_training_episodes\": 50000,\n",
+    "    \"n_evaluation_episodes\": 10,\n",
+    "    \"max_t\": 10000,\n",
+    "    \"gamma\": 0.99,\n",
+    "    \"lr\": 1e-4,\n",
+    "    \"env_id\": env_id,\n",
+    "    \"state_space\": s_size,\n",
+    "    \"action_space\": a_size,\n",
+    "}"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 42,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "pixelcopter_policy = Policy(\n",
+    "    pixelcopter_hyperparameters[\"state_space\"],\n",
+    "    pixelcopter_hyperparameters[\"action_space\"],\n",
+    "    pixelcopter_hyperparameters[\"h_size\"],\n",
+    ").to(device)\n",
+    "pixelcopter_optimizer = optim.Adam(pixelcopter_policy.parameters(), lr=pixelcopter_hyperparameters[\"lr\"])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 43,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "scores = reinforce(\n",
+    "    pixelcopter_policy,\n",
+    "    pixelcopter_optimizer,\n",
+    "    pixelcopter_hyperparameters[\"n_training_episodes\"],\n",
+    "    pixelcopter_hyperparameters[\"max_t\"],\n",
+    "    pixelcopter_hyperparameters[\"gamma\"],\n",
+    "    1000,\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "repo_id = f\"bkhan2000/Reinforce-{env_id}\"  # TODO Define your repo id {username/Reinforce-{model-id}}\n",
+    "push_to_hub(\n",
+    "    repo_id,\n",
+    "    pixelcopter_policy,  # The model we want to save\n",
+    "    pixelcopter_hyperparameters,  # Hyperparameters\n",
+    "    eval_env,  # Evaluation environment\n",
+    "    video_fps=30\n",
+    ")"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3.8.10 ('torch_venv')",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.10"
+  },
+  "orig_nbformat": 4,
+  "vscode": {
+   "interpreter": {
+    "hash": "745a3b3e3fb7ac09f0ebb6d5eb47d006584e16db5d9df6f9a8b654baa561b29f"
+   }
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}

README.md ADDED Viewed

	@@ -0,0 +1,27 @@

+---
+tags:
+- Pixelcopter-PLE-v0
+- reinforce
+- reinforcement-learning
+- custom-implementation
+- deep-rl-class
+model-index:
+- name: Reinforce-Pixelcopter-PLE-v0
+  results:
+  - task:
+      type: reinforcement-learning
+      name: reinforcement-learning
+    dataset:
+      name: Pixelcopter-PLE-v0
+      type: Pixelcopter-PLE-v0
+    metrics:
+    - type: mean_reward
+      value: 105.50 +/- 80.81
+      name: mean_reward
+      verified: false
+---
+  # **Reinforce** Agent playing **CartPole-v1**
+  This is a trained model of a **Reinforce** agent playing **CartPole-v1** .
+  To learn to use this model and train yours check Unit 4 of the Deep Reinforcement Learning Course: https://huggingface.co/deep-rl-course/unit4/introduction

hyperparameters.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"h_size": 64, "n_training_episodes": 50000, "n_evaluation_episodes": 10, "max_t": 10000, "gamma": 0.99, "lr": 0.0001, "env_id": "Pixelcopter-PLE-v0", "state_space": 7, "action_space": 2}

model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b840e9fd1147ee00e9fa15ea9e02b251f127c981ba5a16ed3f54d332f7146666
+size 38999

replay.mp4 ADDED Viewed

Binary file (29.3 kB). View file

results.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"env_id": "Pixelcopter-PLE-v0", "mean_reward": 105.5, "n_evaluation_episodes": 10, "eval_datetime": "2023-03-06T14:58:27.599581"}