Spaces:

PranavReddy18
/

Email_Spam_Classification

Sleeping

File size: 37,962 Bytes

e2328ed

{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd \n",
    "import numpy as np \n",
    "import seaborn as sns\n",
    "import matplotlib.pyplot as plt"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "df=pd.read_csv(\"C:\\\\Users\\\\saipr\\\\Downloads\\\\spam (1).csv\",encoding='ISO-8859-1')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>v1</th>\n",
       "      <th>v2</th>\n",
       "      <th>Unnamed: 2</th>\n",
       "      <th>Unnamed: 3</th>\n",
       "      <th>Unnamed: 4</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>ham</td>\n",
       "      <td>Go until jurong point, crazy.. Available only ...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>ham</td>\n",
       "      <td>Ok lar... Joking wif u oni...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>spam</td>\n",
       "      <td>Free entry in 2 a wkly comp to win FA Cup fina...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>ham</td>\n",
       "      <td>U dun say so early hor... U c already then say...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>ham</td>\n",
       "      <td>Nah I don't think he goes to usf, he lives aro...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "     v1                                                 v2 Unnamed: 2  \\\n",
       "0   ham  Go until jurong point, crazy.. Available only ...        NaN   \n",
       "1   ham                      Ok lar... Joking wif u oni...        NaN   \n",
       "2  spam  Free entry in 2 a wkly comp to win FA Cup fina...        NaN   \n",
       "3   ham  U dun say so early hor... U c already then say...        NaN   \n",
       "4   ham  Nah I don't think he goes to usf, he lives aro...        NaN   \n",
       "\n",
       "  Unnamed: 3 Unnamed: 4  \n",
       "0        NaN        NaN  \n",
       "1        NaN        NaN  \n",
       "2        NaN        NaN  \n",
       "3        NaN        NaN  \n",
       "4        NaN        NaN  "
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(5572, 5)"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.shape"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [],
   "source": [
    "df=df[['v1','v2']]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>v1</th>\n",
       "      <th>v2</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>ham</td>\n",
       "      <td>Go until jurong point, crazy.. Available only ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>ham</td>\n",
       "      <td>Ok lar... Joking wif u oni...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>spam</td>\n",
       "      <td>Free entry in 2 a wkly comp to win FA Cup fina...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>ham</td>\n",
       "      <td>U dun say so early hor... U c already then say...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>ham</td>\n",
       "      <td>Nah I don't think he goes to usf, he lives aro...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5567</th>\n",
       "      <td>spam</td>\n",
       "      <td>This is the 2nd time we have tried 2 contact u...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5568</th>\n",
       "      <td>ham</td>\n",
       "      <td>Will Ì_ b going to esplanade fr home?</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5569</th>\n",
       "      <td>ham</td>\n",
       "      <td>Pity, * was in mood for that. So...any other s...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5570</th>\n",
       "      <td>ham</td>\n",
       "      <td>The guy did some bitching but I acted like i'd...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5571</th>\n",
       "      <td>ham</td>\n",
       "      <td>Rofl. Its true to its name</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>5572 rows × 2 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "        v1                                                 v2\n",
       "0      ham  Go until jurong point, crazy.. Available only ...\n",
       "1      ham                      Ok lar... Joking wif u oni...\n",
       "2     spam  Free entry in 2 a wkly comp to win FA Cup fina...\n",
       "3      ham  U dun say so early hor... U c already then say...\n",
       "4      ham  Nah I don't think he goes to usf, he lives aro...\n",
       "...    ...                                                ...\n",
       "5567  spam  This is the 2nd time we have tried 2 contact u...\n",
       "5568   ham              Will Ì_ b going to esplanade fr home?\n",
       "5569   ham  Pity, * was in mood for that. So...any other s...\n",
       "5570   ham  The guy did some bitching but I acted like i'd...\n",
       "5571   ham                         Rofl. Its true to its name\n",
       "\n",
       "[5572 rows x 2 columns]"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [],
   "source": [
    "df['v1'] = df['v1'].map({'ham': 0, 'spam': 1})\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "<Axes: xlabel='v1', ylabel='count'>"
      ]
     },
     "execution_count": 14,
     "metadata": {},
     "output_type": "execute_result"
    },
    {
     "data": {
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAkQAAAGxCAYAAACDV6ltAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjcuMCwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy88F64QAAAACXBIWXMAAA9hAAAPYQGoP6dpAAAjV0lEQVR4nO3dfXBU5d2H8e+akBgwORJIdl2NFMdIwSBtoxOWqYICEdqQOnZEGxrpiKCi0C1QKGWs0PFJCo6ANZUC1eILitNafKk0EluJLxDA1IyCSNWmNQxZEnXZAMYNhvP8YTnjsogYkpwN9/WZ2Rn33l8292Em5pqzZzce27ZtAQAAGOwMtzcAAADgNoIIAAAYjyACAADGI4gAAIDxCCIAAGA8gggAABiPIAIAAMYjiAAAgPGS3d5AT3HkyBHt3btX6enp8ng8bm8HAACcBNu2deDAAfn9fp1xxpefByKITtLevXuVk5Pj9jYAAEAHNDQ06LzzzvvSx10NooULF2rRokUxa16vV6FQSNLnVbdo0SKtWrVK4XBYBQUF+t3vfqeLL77YmY9Go5ozZ46eeOIJtba2avTo0XrggQdiDjocDmvmzJl69tlnJUnFxcW6//77dfbZZ5/0XtPT0yV9/g+akZHR0UMGAADdqKWlRTk5Oc7v8S/j+hmiiy++WC+++KJzPykpyfnvJUuWaOnSpVqzZo0uuugi3X333Ro7dqx2797tHFgwGNRzzz2ndevWqV+/fpo9e7aKiopUW1vrPFdJSYn27NmjyspKSdK0adNUWlqq55577qT3efRlsoyMDIIIAIAe5qsud3E9iJKTk+Xz+eLWbdvW8uXLtWDBAl177bWSpIcfflher1ePP/64brnlFkUiET344IN69NFHNWbMGEnSY489ppycHL344ou6+uqrtWvXLlVWVqqmpkYFBQWSpNWrVysQCGj37t0aNGhQ9x0sAABISK6/y+zdd9+V3+/XwIEDdcMNN+jf//63JKm+vl6hUEiFhYXObGpqqkaOHKnNmzdLkmpra3X48OGYGb/fr7y8PGdmy5YtsizLiSFJGj58uCzLcmaOJxqNqqWlJeYGAABOT64GUUFBgR555BG98MILWr16tUKhkEaMGKGPPvrIuY7I6/XGfM0XrzEKhUJKSUlR3759TziTnZ0d972zs7OdmeMpLy+XZVnOjQuqAQA4fbkaROPHj9cPf/hDDR06VGPGjNHzzz8v6fOXxo469jU/27a/8nXAY2eON/9VzzN//nxFIhHn1tDQcFLHBAAAeh7XXzL7oj59+mjo0KF69913neuKjj2L09TU5Jw18vl8amtrUzgcPuHMvn374r5Xc3Nz3NmnL0pNTXUuoOZCagAATm8JFUTRaFS7du3SOeeco4EDB8rn86mqqsp5vK2tTdXV1RoxYoQkKT8/X7169YqZaWxs1I4dO5yZQCCgSCSibdu2OTNbt25VJBJxZgAAgNlcfZfZnDlzNGHCBJ1//vlqamrS3XffrZaWFk2ePFkej0fBYFBlZWXKzc1Vbm6uysrK1Lt3b5WUlEiSLMvSlClTNHv2bPXr10+ZmZmaM2eO8xKcJA0ePFjjxo3T1KlTtXLlSkmfv+2+qKiId5gBAABJLgfRnj179KMf/UgffvihsrKyNHz4cNXU1GjAgAGSpLlz56q1tVXTp093Pphx48aNMR+utGzZMiUnJ2vixInOBzOuWbMm5vOM1q5dq5kzZzrvRisuLlZFRUX3HiwAAEhYHtu2bbc30RO0tLTIsixFIhGuJwIAoIc42d/fCXUNEQAAgBsIIgAAYDyCCAAAGI8gAgAAxiOIAACA8QgiAABgPFc/hwjx8n/+iNtbABJO7T03ur0FAKc5zhABAADjEUQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQAAMB5BBAAAjEcQAQAA4xFEAADAeAQRAAAwHkEEAACMRxABAADjEUQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQAAMB5BBAAAjEcQAQAA4xFEAADAeAQRAAAwHkEEAACMRxABAADjEUQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQAAMB5BBAAAjEcQAQAA4xFEAADAeAQRAAAwHkEEAACMRxABAADjEUQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQAAMB5BBAAAjEcQAQAA4xFEAADAeAQRAAAwHkEEAACMRxABAADjEUQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQAAMF7CBFF5ebk8Ho+CwaCzZtu2Fi5cKL/fr7S0NI0aNUo7d+6M+bpoNKoZM2aof//+6tOnj4qLi7Vnz56YmXA4rNLSUlmWJcuyVFpaqv3793fDUQEAgJ4gIYJo+/btWrVqlS655JKY9SVLlmjp0qWqqKjQ9u3b5fP5NHbsWB04cMCZCQaDWr9+vdatW6dXX31VBw8eVFFRkdrb252ZkpIS1dXVqbKyUpWVlaqrq1NpaWm3HR8AAEhsrgfRwYMHNWnSJK1evVp9+/Z11m3b1vLly7VgwQJde+21ysvL08MPP6xPPvlEjz/+uCQpEonowQcf1L333qsxY8bo29/+th577DG99dZbevHFFyVJu3btUmVlpf7whz8oEAgoEAho9erV+utf/6rdu3e7cswAACCxuB5Et99+u77//e9rzJgxMev19fUKhUIqLCx01lJTUzVy5Eht3rxZklRbW6vDhw/HzPj9fuXl5TkzW7ZskWVZKigocGaGDx8uy7KcmeOJRqNqaWmJuQEAgNNTspvffN26dfrnP/+p7du3xz0WCoUkSV6vN2bd6/Xqv//9rzOTkpISc2bp6MzRrw+FQsrOzo57/uzsbGfmeMrLy7Vo0aKvd0AAAKBHcu0MUUNDg37605/qscce05lnnvmlcx6PJ+a+bdtxa8c6duZ481/1PPPnz1ckEnFuDQ0NJ/yeAACg53ItiGpra9XU1KT8/HwlJycrOTlZ1dXV+u1vf6vk5GTnzNCxZ3Gampqcx3w+n9ra2hQOh084s2/fvrjv39zcHHf26YtSU1OVkZERcwMAAKcn14Jo9OjReuutt1RXV+fcLr30Uk2aNEl1dXW64IIL5PP5VFVV5XxNW1ubqqurNWLECElSfn6+evXqFTPT2NioHTt2ODOBQECRSETbtm1zZrZu3apIJOLMAAAAs7l2DVF6erry8vJi1vr06aN+/fo568FgUGVlZcrNzVVubq7KysrUu3dvlZSUSJIsy9KUKVM0e/Zs9evXT5mZmZozZ46GDh3qXKQ9ePBgjRs3TlOnTtXKlSslSdOmTVNRUZEGDRrUjUcMAAASlasXVX+VuXPnqrW1VdOnT1c4HFZBQYE2btyo9PR0Z2bZsmVKTk7WxIkT1draqtGjR2vNmjVKSkpyZtauXauZM2c670YrLi5WRUVFtx8PAABITB7btm23N9ETtLS0yLIsRSKRLr2eKP/nj3TZcwM9Ve09N7q9BQA91Mn+/nb9c4gAAADcRhABAADjEUQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQAAMB5BBAAAjEcQAQAA4xFEAADAeAQRAAAwHkEEAACMRxABAADjEUQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQAAMB5BBAAAjEcQAQAA4xFEAADAeAQRAAAwHkEEAACMRxABAADjEUQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQAAMB5BBAAAjEcQAQAA4xFEAADAeAQRAAAwHkEEAACMRxABAADjEUQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQAAMB5BBAAAjEcQAQAA4xFEAADAeAQRAAAwHkEEAACMRxABAADjEUQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQAAMB5BBAAAjEcQAQAA4xFEAADAeAQRAAAwHkEEAACMRxABAADjuRpEK1as0CWXXKKMjAxlZGQoEAjob3/7m/O4bdtauHCh/H6/0tLSNGrUKO3cuTPmOaLRqGbMmKH+/furT58+Ki4u1p49e2JmwuGwSktLZVmWLMtSaWmp9u/f3x2HCAAAegBXg+i8887Tb37zG73++ut6/fXXddVVV+kHP/iBEz1LlizR0qVLVVFRoe3bt8vn82ns2LE6cOCA8xzBYFDr16/XunXr9Oqrr+rgwYMqKipSe3u7M1NSUqK6ujpVVlaqsrJSdXV1Ki0t7fbjBQAAiclj27bt9ia+KDMzU/fcc49uuukm+f1+BYNBzZs3T9LnZ4O8Xq8WL16sW265RZFIRFlZWXr00Ud1/fXXS5L27t2rnJwcbdiwQVdffbV27dqlIUOGqKamRgUFBZKkmpoaBQIBvfPOOxo0aNBJ7aulpUWWZSkSiSgjI6NrDl5S/s8f6bLnBnqq2ntudHsLAHqok/39nTDXELW3t2vdunU6dOiQAoGA6uvrFQqFVFhY6MykpqZq5MiR2rx5sySptrZWhw8fjpnx+/3Ky8tzZrZs2SLLspwYkqThw4fLsixn5nii0ahaWlpibgAA4PTkehC99dZbOuuss5Samqpbb71V69ev15AhQxQKhSRJXq83Zt7r9TqPhUIhpaSkqG/fviecyc7Ojvu+2dnZzszxlJeXO9ccWZalnJycUzpOAACQuFwPokGDBqmurk41NTW67bbbNHnyZL399tvO4x6PJ2betu24tWMdO3O8+a96nvnz5ysSiTi3hoaGkz0kAADQw7geRCkpKbrwwgt16aWXqry8XMOGDdN9990nn88nSXFncZqampyzRj6fT21tbQqHwyec2bdvX9z3bW5ujjv79EWpqanOu9+O3gAAwOnJ9SA6lm3bikajGjhwoHw+n6qqqpzH2traVF1drREjRkiS8vPz1atXr5iZxsZG7dixw5kJBAKKRCLatm2bM7N161ZFIhFnBgAAmC3ZzW/+y1/+UuPHj1dOTo4OHDigdevWadOmTaqsrJTH41EwGFRZWZlyc3OVm5ursrIy9e7dWyUlJZIky7I0ZcoUzZ49W/369VNmZqbmzJmjoUOHasyYMZKkwYMHa9y4cZo6dapWrlwpSZo2bZqKiopO+h1mAADg9OZqEO3bt0+lpaVqbGyUZVm65JJLVFlZqbFjx0qS5s6dq9bWVk2fPl3hcFgFBQXauHGj0tPTnedYtmyZkpOTNXHiRLW2tmr06NFas2aNkpKSnJm1a9dq5syZzrvRiouLVVFR0b0HCwAAElbCfQ5RouJziAD38DlEADqqx30OEQAAgFsIIgAAYDyCCAAAGI8gAgAAxiOIAACA8QgiAABgPIIIAAAYjyACAADGI4gAAIDxCCIAAGC8DgXRVVddpf3798ett7S06KqrrjrVPQEAAHSrDgXRpk2b1NbWFrf+6aef6pVXXjnlTQEAAHSnr/XX7t98803nv99++22FQiHnfnt7uyorK3Xuued23u4AAAC6wdcKom9961vyeDzyeDzHfWksLS1N999/f6dtDgAAoDt8rSCqr6+Xbdu64IILtG3bNmVlZTmPpaSkKDs7W0lJSZ2+SQAAgK70tYJowIABkqQjR450yWYAAADc8LWC6Iv+9a9/adOmTWpqaooLpF/96lenvDEAAIDu0qEgWr16tW677Tb1799fPp9PHo/Heczj8RBEAACgR+lQEN199936v//7P82bN6+z9wMAANDtOvQ5ROFwWNddd11n7wUAAMAVHQqi6667Ths3buzsvQAAALiiQy+ZXXjhhbrzzjtVU1OjoUOHqlevXjGPz5w5s1M2BwAA0B06FESrVq3SWWedperqalVXV8c85vF4CCIAANCjdCiI6uvrO3sfAAAArunQNUQAAACnkw6dIbrppptO+PhDDz3Uoc0AAAC4oUNBFA6HY+4fPnxYO3bs0P79+4/7R18BAAASWYeCaP369XFrR44c0fTp03XBBRec8qYAAAC6U6ddQ3TGGWfoZz/7mZYtW9ZZTwkAANAtOvWi6vfff1+fffZZZz4lAABAl+vQS2azZs2KuW/bthobG/X8889r8uTJnbIxAACA7tKhIHrjjTdi7p9xxhnKysrSvffe+5XvQAMAAEg0HQqil156qbP3AQAA4JoOBdFRzc3N2r17tzwejy666CJlZWV11r4AAAC6TYcuqj506JBuuukmnXPOObriiit0+eWXy+/3a8qUKfrkk086e48AAABdqkNBNGvWLFVXV+u5557T/v37tX//fj3zzDOqrq7W7NmzO3uPAAAAXapDL5k99dRT+vOf/6xRo0Y5a9/73veUlpamiRMnasWKFZ21PwAAgC7XoTNEn3zyibxeb9x6dnY2L5kBAIAep0NBFAgEdNddd+nTTz911lpbW7Vo0SIFAoFO2xwAAEB36NBLZsuXL9f48eN13nnnadiwYfJ4PKqrq1Nqaqo2btzY2XsEAADoUh0KoqFDh+rdd9/VY489pnfeeUe2beuGG27QpEmTlJaW1tl7BAAA6FIdCqLy8nJ5vV5NnTo1Zv2hhx5Sc3Oz5s2b1ymbAwAA6A4duoZo5cqV+uY3vxm3fvHFF+v3v//9KW8KAACgO3UoiEKhkM4555y49aysLDU2Np7ypgAAALpTh4IoJydHr732Wtz6a6+9Jr/ff8qbAgAA6E4duobo5ptvVjAY1OHDh3XVVVdJkv7+979r7ty5fFI1AADocToURHPnztXHH3+s6dOnq62tTZJ05plnat68eZo/f36nbhAAAKCrdSiIPB6PFi9erDvvvFO7du1SWlqacnNzlZqa2tn7AwAA6HIdCqKjzjrrLF122WWdtRcAAABXdOiiagAAgNMJQQQAAIxHEAEAAOMRRAAAwHgEEQAAMB5BBAAAjEcQAQAA4xFEAADAeAQRAAAwHkEEAACMRxABAADjEUQAAMB4BBEAADCeq0FUXl6uyy67TOnp6crOztY111yj3bt3x8zYtq2FCxfK7/crLS1No0aN0s6dO2NmotGoZsyYof79+6tPnz4qLi7Wnj17YmbC4bBKS0tlWZYsy1Jpaan279/f1YcIAAB6AFeDqLq6WrfffrtqampUVVWlzz77TIWFhTp06JAzs2TJEi1dulQVFRXavn27fD6fxo4dqwMHDjgzwWBQ69ev17p16/Tqq6/q4MGDKioqUnt7uzNTUlKiuro6VVZWqrKyUnV1dSotLe3W4wUAAInJY9u27fYmjmpublZ2draqq6t1xRVXyLZt+f1+BYNBzZs3T9LnZ4O8Xq8WL16sW265RZFIRFlZWXr00Ud1/fXXS5L27t2rnJwcbdiwQVdffbV27dqlIUOGqKamRgUFBZKkmpoaBQIBvfPOOxo0aNBX7q2lpUWWZSkSiSgjI6PL/g3yf/5Ilz030FPV3nOj21sA0EOd7O/vhLqGKBKJSJIyMzMlSfX19QqFQiosLHRmUlNTNXLkSG3evFmSVFtbq8OHD8fM+P1+5eXlOTNbtmyRZVlODEnS8OHDZVmWM3OsaDSqlpaWmBsAADg9JUwQ2batWbNm6bvf/a7y8vIkSaFQSJLk9XpjZr1er/NYKBRSSkqK+vbte8KZ7OzsuO+ZnZ3tzByrvLzcud7Isizl5OSc2gECAICElTBBdMcdd+jNN9/UE088EfeYx+OJuW/bdtzasY6dOd78iZ5n/vz5ikQizq2hoeFkDgMAAPRACRFEM2bM0LPPPquXXnpJ5513nrPu8/kkKe4sTlNTk3PWyOfzqa2tTeFw+IQz+/bti/u+zc3NcWefjkpNTVVGRkbMDQAAnJ5cDSLbtnXHHXfoL3/5i/7xj39o4MCBMY8PHDhQPp9PVVVVzlpbW5uqq6s1YsQISVJ+fr569eoVM9PY2KgdO3Y4M4FAQJFIRNu2bXNmtm7dqkgk4swAAABzJbv5zW+//XY9/vjjeuaZZ5Senu6cCbIsS2lpafJ4PAoGgyorK1Nubq5yc3NVVlam3r17q6SkxJmdMmWKZs+erX79+ikzM1Nz5szR0KFDNWbMGEnS4MGDNW7cOE2dOlUrV66UJE2bNk1FRUUn9Q4zAABwenM1iFasWCFJGjVqVMz6H//4R/3kJz+RJM2dO1etra2aPn26wuGwCgoKtHHjRqWnpzvzy5YtU3JysiZOnKjW1laNHj1aa9asUVJSkjOzdu1azZw503k3WnFxsSoqKrr2AAEAQI+QUJ9DlMj4HCLAPXwOEYCO6pGfQwQAAOAGgggAABiPIAIAAMYjiAAAgPEIIgAAYDyCCAAAGI8gAgAAxiOIAACA8QgiAABgPIIIAAAYjyACAADGI4gAAIDxCCIAAGA8gggAABiPIAIAAMYjiAAAgPEIIgAAYDyCCAAAGI8gAgAAxiOIAACA8QgiAABgPIIIAAAYjyACAADGI4gAAIDxCCIAAGA8gggAABiPIAIAAMYjiAAAgPEIIgAAYDyCCAAAGI8gAgAAxiOIAACA8QgiAABgPIIIAAAYjyACAADGI4gAAIDxCCIAAGA8gggAABiPIAIAAMYjiAAAgPEIIgAAYDyCCAAAGI8gAgAAxiOIAACA8QgiAABgPIIIAAAYjyACAADGI4gAAIDxCCIAAGA8gggAABiPIAIAAMYjiAAAgPEIIgAAYDyCCAAAGI8gAgAAxiOIAACA8QgiAABgPIIIAAAYjyACAADGI4gAAIDxCCIAAGA8gggAABjP1SB6+eWXNWHCBPn9fnk8Hj399NMxj9u2rYULF8rv9ystLU2jRo3Szp07Y2ai0ahmzJih/v37q0+fPiouLtaePXtiZsLhsEpLS2VZlizLUmlpqfbv39/FRwcAAHoKV4Po0KFDGjZsmCoqKo77+JIlS7R06VJVVFRo+/bt8vl8Gjt2rA4cOODMBINBrV+/XuvWrdOrr76qgwcPqqioSO3t7c5MSUmJ6urqVFlZqcrKStXV1am0tLTLjw8AAPQMHtu2bbc3IUkej0fr16/XNddcI+nzs0N+v1/BYFDz5s2T9PnZIK/Xq8WLF+uWW25RJBJRVlaWHn30UV1//fWSpL179yonJ0cbNmzQ1VdfrV27dmnIkCGqqalRQUGBJKmmpkaBQEDvvPOOBg0adFL7a2lpkWVZikQiysjI6Px/gP/J//kjXfbcQE9Ve8+Nbm8BQA91sr+/E/Yaovr6eoVCIRUWFjprqampGjlypDZv3ixJqq2t1eHDh2Nm/H6/8vLynJktW7bIsiwnhiRp+PDhsizLmTmeaDSqlpaWmBsAADg9JWwQhUIhSZLX641Z93q9zmOhUEgpKSnq27fvCWeys7Pjnj87O9uZOZ7y8nLnmiPLspSTk3NKxwMAABJXwgbRUR6PJ+a+bdtxa8c6duZ481/1PPPnz1ckEnFuDQ0NX3PnAACgp0jYIPL5fJIUdxanqanJOWvk8/nU1tamcDh8wpl9+/bFPX9zc3Pc2acvSk1NVUZGRswNAACcnhI2iAYOHCifz6eqqipnra2tTdXV1RoxYoQkKT8/X7169YqZaWxs1I4dO5yZQCCgSCSibdu2OTNbt25VJBJxZgAAgNmS3fzmBw8e1Hvvvefcr6+vV11dnTIzM3X++ecrGAyqrKxMubm5ys3NVVlZmXr37q2SkhJJkmVZmjJlimbPnq1+/fopMzNTc+bM0dChQzVmzBhJ0uDBgzVu3DhNnTpVK1eulCRNmzZNRUVFJ/0OMwAAcHpzNYhef/11XXnllc79WbNmSZImT56sNWvWaO7cuWptbdX06dMVDodVUFCgjRs3Kj093fmaZcuWKTk5WRMnTlRra6tGjx6tNWvWKCkpyZlZu3atZs6c6bwbrbi4+Es/+wgAAJgnYT6HKNHxOUSAe/gcIgAd1eM/hwgAAKC7EEQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQAAMB5BBAAAjEcQAQAA4xFEAADAeAQRAAAwnqt/3BUATMLfKgTiJcrfKuQMEQAAMB5BBAAAjEcQAQAA4xFEAADAeAQRAAAwHkEEAACMRxABAADjEUQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQAAMB5BBAAAjEcQAQAA4xFEAADAeAQRAAAwHkEEAACMRxABAADjEUQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQAAMB5BBAAAjEcQAQAA4xFEAADAeAQRAAAwHkEEAACMRxABAADjEUQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQAAMB5BBAAAjEcQAQAA4xFEAADAeAQRAAAwHkEEAACMRxABAADjEUQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQAAMB5BBAAAjGdUED3wwAMaOHCgzjzzTOXn5+uVV15xe0sAACABGBNETz75pILBoBYsWKA33nhDl19+ucaPH68PPvjA7a0BAACXGRNES5cu1ZQpU3TzzTdr8ODBWr58uXJycrRixQq3twYAAFyW7PYGukNbW5tqa2v1i1/8Ima9sLBQmzdvPu7XRKNRRaNR534kEpEktbS0dN1GJbVHW7v0+YGeqKt/7roLP99AvK7++T76/LZtn3DOiCD68MMP1d7eLq/XG7Pu9XoVCoWO+zXl5eVatGhR3HpOTk6X7BHAl7Puv9XtLQDoIt31833gwAFZlvWljxsRREd5PJ6Y+7Ztx60dNX/+fM2aNcu5f+TIEX388cfq16/fl34NTh8tLS3KyclRQ0ODMjIy3N4OgE7Ez7dZbNvWgQMH5Pf7TzhnRBD1799fSUlJcWeDmpqa4s4aHZWamqrU1NSYtbPPPrurtogElZGRwf8wgdMUP9/mONGZoaOMuKg6JSVF+fn5qqqqilmvqqrSiBEjXNoVAABIFEacIZKkWbNmqbS0VJdeeqkCgYBWrVqlDz74QLfeyrUJAACYzpgguv766/XRRx/p17/+tRobG5WXl6cNGzZowIABbm8NCSg1NVV33XVX3MumAHo+fr5xPB77q96HBgAAcJoz4hoiAACAEyGIAACA8QgiAABgPIIIAAAYjyACjvHAAw9o4MCBOvPMM5Wfn69XXnnF7S0B6AQvv/yyJkyYIL/fL4/Ho6efftrtLSGBEETAFzz55JMKBoNasGCB3njjDV1++eUaP368PvjgA7e3BuAUHTp0SMOGDVNFRYXbW0EC4m33wBcUFBToO9/5jlasWOGsDR48WNdcc43Ky8td3BmAzuTxeLR+/Xpdc801bm8FCYIzRMD/tLW1qba2VoWFhTHrhYWF2rx5s0u7AgB0B4II+J8PP/xQ7e3tcX/w1+v1xv1hYADA6YUgAo7h8Xhi7tu2HbcGADi9EETA//Tv319JSUlxZ4OamprizhoBAE4vBBHwPykpKcrPz1dVVVXMelVVlUaMGOHSrgAA3cGYv3YPnIxZs2aptLRUl156qQKBgFatWqUPPvhAt956q9tbA3CKDh48qPfee8+5X19fr7q6OmVmZur88893cWdIBLztHjjGAw88oCVLlqixsVF5eXlatmyZrrjiCre3BeAUbdq0SVdeeWXc+uTJk7VmzZru3xASCkEEAACMxzVEAADAeAQRAAAwHkEEAACMRxABAADjEUQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQBIamxsVElJiQYNGqQzzjhDwWDQ7S0B6EYEEQBIikajysrK0oIFCzRs2DC3twOgmxFEAIywcuVKnXvuuTpy5EjMenFxsSZPnqxvfOMbuu+++3TjjTfKsiyXdgnALQQRACNcd911+vDDD/XSSy85a+FwWC+88IImTZrk4s4AJAKCCIARMjMzNW7cOD3++OPO2p/+9CdlZmZq9OjRLu4MQCIgiAAYY9KkSXrqqacUjUYlSWvXrtUNN9ygpKQkl3cGwG0EEQBjTJgwQUeOHNHzzz+vhoYGvfLKK/rxj3/s9rYAJIBktzcAAN0lLS1N1157rdauXav33ntPF110kfLz893eFoAEQBABMMqkSZM0YcIE7dy5M+7sUF1dnSTp4MGDam5uVl1dnVJSUjRkyBAXdgqgO3ls27bd3gQAdJf29nbl5OSosbFR77//vi644ALnMY/HEzc/YMAA/ec//+nGHQJwA0EEAACMx0XVAADAeAQRAAAwHkEEAACMRxABAADjEUQAAMB4BBEAADAeQQQAAIxHEAEAAOMRRAAAwHgEEQAAMB5BBAAAjPf/aqPUYg6cnwwAAAAASUVORK5CYII=",
      "text/plain": [
       "<Figure size 640x480 with 1 Axes>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "sns.countplot(x=df['v1'])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "v1    0\n",
       "v2    0\n",
       "dtype: int64"
      ]
     },
     "execution_count": 15,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.isnull().sum()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [],
   "source": [
    "X=df['v2']\n",
    "y=df['v1']"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {},
   "outputs": [],
   "source": [
    "from sklearn.model_selection import train_test_split\n",
    "X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "metadata": {},
   "outputs": [],
   "source": [
    "import tensorflow as tf\n",
    "from tensorflow.keras.preprocessing.text import Tokenizer\n",
    "from tensorflow.keras.preprocessing.sequence import pad_sequences\n",
    "tokenizer = Tokenizer(oov_token=\"<OOV>\")\n",
    "tokenizer.fit_on_texts(X_train)\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "7466"
      ]
     },
     "execution_count": 19,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "len(tokenizer.word_index)+1"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "metadata": {},
   "outputs": [],
   "source": [
    "voc_size=7466"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Convert text to sequences of integers\n",
    "X_train = tokenizer.texts_to_sequences(X_train)\n",
    "X_test = tokenizer.texts_to_sequences(X_test)\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Max Length: 189\n",
      "Min Length: 0\n",
      "Average Length: 15.866923076923078\n"
     ]
    }
   ],
   "source": [
    "import numpy as np\n",
    "essay_lengths = [len(essay) for essay in X_train]\n",
    "print(f\"Max Length: {max(essay_lengths)}\")\n",
    "print(f\"Min Length: {min(essay_lengths)}\")\n",
    "print(f\"Average Length: {np.mean(essay_lengths)}\")\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 24,
   "metadata": {},
   "outputs": [],
   "source": [
    "max_length = 50 # Set max length (adjust based on your data)\n",
    "X_train = pad_sequences(X_train, maxlen=max_length, padding='post')\n",
    "X_test = pad_sequences(X_test, maxlen=max_length, padding='post')\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "c:\\Users\\saipr\\anaconda3\\keras\\src\\layers\\core\\embedding.py:90: UserWarning: Argument `input_length` is deprecated. Just remove it.\n",
      "  warnings.warn(\n"
     ]
    }
   ],
   "source": [
    "from tensorflow.keras.layers import Embedding,LSTM,GRU,SimpleRNN,Embedding,Dense\n",
    "from tensorflow.keras.models import Sequential\n",
    "from tensorflow.keras.regularizers import l2\n",
    "\n",
    "model=Sequential()\n",
    "model.add(Embedding(input_dim=voc_size, output_dim=128, input_length=600))\n",
    "model.add(LSTM(84, activation='tanh', kernel_regularizer=l2(0.005), return_sequences=True))\n",
    "model.add(LSTM(64,activation='tanh',kernel_regularizer=l2(0.005)))\n",
    "model.add(Dense(6, activation='softmax'))  # Output layer with 1 neuron and sigmoid activation\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 26,
   "metadata": {},
   "outputs": [],
   "source": [
    "model.compile(optimizer='Adam', loss='sparse_categorical_crossentropy',metrics=['accuracy'])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 27,
   "metadata": {},
   "outputs": [],
   "source": [
    "from keras.callbacks import EarlyStopping\n",
    "\n",
    "# Define early stopping\n",
    "early_stopping = EarlyStopping(\n",
    "    monitor='val_loss',      # Metric to monitor\n",
    "    patience=3,              # Number of epochs with no improvement after which training will stop\n",
    "    restore_best_weights=True # Restore model weights from the epoch with the best value of the monitored metric\n",
    ")\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 28,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Epoch 1/10\n",
      "\u001b[1m122/122\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m9s\u001b[0m 43ms/step - accuracy: 0.8430 - loss: 1.5452 - val_accuracy: 0.8684 - val_loss: 0.5334\n",
      "Epoch 2/10\n",
      "\u001b[1m122/122\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m5s\u001b[0m 40ms/step - accuracy: 0.8625 - loss: 0.5024 - val_accuracy: 0.8684 - val_loss: 0.4096\n",
      "Epoch 3/10\n",
      "\u001b[1m122/122\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m5s\u001b[0m 40ms/step - accuracy: 0.8531 - loss: 0.4347 - val_accuracy: 0.8989 - val_loss: 0.4201\n",
      "Epoch 4/10\n",
      "\u001b[1m122/122\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m5s\u001b[0m 39ms/step - accuracy: 0.9168 - loss: 0.3396 - val_accuracy: 0.9671 - val_loss: 0.1950\n",
      "Epoch 5/10\n",
      "\u001b[1m122/122\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m5s\u001b[0m 40ms/step - accuracy: 0.9804 - loss: 0.1364 - val_accuracy: 0.9779 - val_loss: 0.1315\n",
      "Epoch 6/10\n",
      "\u001b[1m122/122\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m5s\u001b[0m 39ms/step - accuracy: 0.9882 - loss: 0.0891 - val_accuracy: 0.9785 - val_loss: 0.1169\n",
      "Epoch 7/10\n",
      "\u001b[1m122/122\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m5s\u001b[0m 40ms/step - accuracy: 0.9161 - loss: 0.3179 - val_accuracy: 0.8684 - val_loss: 0.4311\n",
      "Epoch 8/10\n",
      "\u001b[1m122/122\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m5s\u001b[0m 39ms/step - accuracy: 0.8766 - loss: 0.4133 - val_accuracy: 0.9348 - val_loss: 0.3198\n",
      "Epoch 9/10\n",
      "\u001b[1m122/122\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m5s\u001b[0m 39ms/step - accuracy: 0.9573 - loss: 0.2205 - val_accuracy: 0.9611 - val_loss: 0.1988\n"
     ]
    },
    {
     "data": {
      "text/plain": [
       "<keras.src.callbacks.history.History at 0x1f4af1560e0>"
      ]
     },
     "execution_count": 28,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "model.fit(X_train,y_train,epochs=10,validation_data=(X_test,y_test),callbacks=[early_stopping])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 29,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\u001b[1m53/53\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m1s\u001b[0m 24ms/step - accuracy: 0.9814 - loss: 0.1061\n",
      "Test Loss: 0.11691754311323166\n",
      "Test Accuracy: 0.9784688949584961\n"
     ]
    }
   ],
   "source": [
    "# Evaluate the model on the test data\n",
    "test_loss, test_accuracy = model.evaluate(X_test, y_test)\n",
    "\n",
    "# Print the results\n",
    "print(f'Test Loss: {test_loss}')\n",
    "print(f'Test Accuracy: {test_accuracy}')\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 55,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "WARNING:absl:You are saving your model as an HDF5 file via `model.save()` or `keras.saving.save_model(model)`. This file format is considered legacy. We recommend using instead the native Keras format, e.g. `model.save('my_model.keras')` or `keras.saving.save_model(model, 'my_model.keras')`. \n"
     ]
    }
   ],
   "source": [
    "# Save the trained model\n",
    "model.save('model.h5')\n",
    "\n",
    "# Save the tokenizer\n",
    "import pickle\n",
    "with open('tokenizer.pkl', 'wb') as f:\n",
    "    pickle.dump(tokenizer, f)\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 58,
   "metadata": {},
   "outputs": [],
   "source": [
    "from tensorflow.keras.models import load_model\n",
    "import pickle\n",
    "\n",
    "# Function to load the model and tokenizer\n",
    "def load_model_and_tokenizer(model_path='model.h5', tokenizer_path='tokenizer.pkl'):\n",
    "    model = load_model(model_path)\n",
    "    with open(tokenizer_path, 'rb') as f:\n",
    "        tokenizer = pickle.load(f)\n",
    "    return model, tokenizer\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 61,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "WARNING:absl:Compiled the loaded model, but the compiled metrics have yet to be built. `model.compile_metrics` will be empty until you train or evaluate the model.\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\u001b[1m1/1\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m0s\u001b[0m 243ms/step\n",
      "Text: Congrats! You have won a free ticket to the concert!\n",
      "Predicted Label: ham\n",
      "Prediction Confidence: 0.0243\n",
      "\n",
      "Text: Hey, let's grab coffee tomorrow. What time works for you?\n",
      "Predicted Label: spam\n",
      "Prediction Confidence: 0.9839\n",
      "\n",
      "Text: You have an important meeting with the CEO tomorrow!\n",
      "Predicted Label: spam\n",
      "Prediction Confidence: 0.9839\n",
      "\n",
      "Text: Hey, just checking in. How are you doing?\n",
      "Predicted Label: spam\n",
      "Prediction Confidence: 0.9839\n",
      "\n"
     ]
    }
   ],
   "source": [
    "# Function to make predictions and classify as \"spam\" or \"ham\"\n",
    "def predict_text(model, tokenizer, sample_texts, maxlen=50):\n",
    "    # Preprocess the input text (tokenize and pad sequences)\n",
    "    X_predict = tokenizer.texts_to_sequences(sample_texts)\n",
    "    X_predict = pad_sequences(X_predict, maxlen=maxlen, padding='post')\n",
    "\n",
    "    # Make predictions using the trained model\n",
    "    predictions = model.predict(X_predict)\n",
    "\n",
    "    # Process predictions to classify as 'spam' or 'ham'\n",
    "    results = []\n",
    "    for text, pred in zip(sample_texts, predictions):\n",
    "        label = \"spam\" if pred[0] > 0.5 else \"ham\"  # Threshold of 0.5 for binary classification\n",
    "        results.append({\n",
    "            \"Text\": text,\n",
    "            \"Predicted Label\": label,\n",
    "            \"Prediction Confidence\": f\"{pred[0]:.4f}\"\n",
    "        })\n",
    "    return results\n",
    "\n",
    "# Example usage\n",
    "sample_texts = [\n",
    "    \"Congrats! You have won a free ticket to the concert!\",\n",
    "    \"Hey, let's grab coffee tomorrow. What time works for you?\",\n",
    "    \"You have an important meeting with the CEO tomorrow!\",\n",
    "    \"Hey, just checking in. How are you doing?\"\n",
    "]\n",
    "\n",
    "# Load the saved model and tokenizer\n",
    "model, tokenizer = load_model_and_tokenizer()\n",
    "\n",
    "# Predict on sample texts\n",
    "predictions = predict_text(model, tokenizer, sample_texts)\n",
    "\n",
    "# Print prediction results\n",
    "for result in predictions:\n",
    "    print(f\"Text: {result['Text']}\")\n",
    "    print(f\"Predicted Label: {result['Predicted Label']}\")\n",
    "    print(f\"Prediction Confidence: {result['Prediction Confidence']}\\n\")\n",
    "\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 79,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\u001b[1m53/53\u001b[0m \u001b[32m━━━━━━━━━━━━━━━━━━━━\u001b[0m\u001b[37m\u001b[0m \u001b[1m1s\u001b[0m 14ms/step\n"
     ]
    }
   ],
   "source": [
    "from sklearn.metrics import confusion_matrix\n",
    "import numpy as np\n",
    "\n",
    "# Assuming y_test is already in binary format (0 or 1)\n",
    "# If y_test is already binary (0 or 1), skip np.argmax\n",
    "\n",
    "# Get predictions from the model (output will likely be probabilities)\n",
    "y_pred = model.predict(X_test)\n",
    "\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 80,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Convert the predicted probabilities to binary labels (0 or 1)\n",
    "y_pred_labels = np.argmax(y_pred, axis=1)\n",
    "  # This assumes a binary classification\n",
    "\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 77,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "array([0, 0, 0, ..., 0, 0, 0], dtype=int64)"
      ]
     },
     "execution_count": 77,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "y_pred_labels"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 78,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "4014    1\n",
       "1697    0\n",
       "2374    0\n",
       "2529    0\n",
       "2794    0\n",
       "       ..\n",
       "991     0\n",
       "224     1\n",
       "1233    0\n",
       "1366    0\n",
       "2627    0\n",
       "Name: v1, Length: 1672, dtype: int32"
      ]
     },
     "execution_count": 78,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "y_test"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 81,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Confusion Matrix:\n",
      "[[1441   11]\n",
      " [  25  195]]\n"
     ]
    }
   ],
   "source": [
    "# Compute the confusion matrix using the binary labels\n",
    "cm = confusion_matrix(y_test, y_pred_labels)\n",
    "\n",
    "# Print the confusion matrix\n",
    "print(\"Confusion Matrix:\")\n",
    "print(cm)\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 82,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "TensorFlow version: 2.17.0\n",
      "scikit-learn version: 1.5.1\n",
      "Pandas version: 2.1.4\n",
      "NumPy version: 1.23.5\n",
      "Matplotlib version: 3.7.0\n",
      "Seaborn version: 0.13.2\n",
      "Streamlit version: 1.37.1\n"
     ]
    }
   ],
   "source": [
    "# Check TensorFlow version\n",
    "import tensorflow as tf\n",
    "print(f\"TensorFlow version: {tf.__version__}\")\n",
    "\n",
    "# Check scikit-learn version\n",
    "import sklearn\n",
    "print(f\"scikit-learn version: {sklearn.__version__}\")\n",
    "\n",
    "# Check pandas version\n",
    "import pandas as pd\n",
    "print(f\"Pandas version: {pd.__version__}\")\n",
    "\n",
    "# Check NumPy version\n",
    "import numpy as np\n",
    "print(f\"NumPy version: {np.__version__}\")\n",
    "\n",
    "# Check Matplotlib version\n",
    "import matplotlib\n",
    "print(f\"Matplotlib version: {matplotlib.__version__}\")\n",
    "\n",
    "# Check Seaborn version\n",
    "import seaborn as sns\n",
    "print(f\"Seaborn version: {sns.__version__}\")\n",
    "\n",
    "# Check Streamlit version\n",
    "import streamlit as st\n",
    "print(f\"Streamlit version: {st.__version__}\")\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "base",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.9"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}