Spaces:

goliathaiconsulting
/

ecommerce-platform

Runtime error

File size: 6,311 Bytes

cf172ac

{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "%pip install sentence-transformers==2.0.0"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "1. Load dataset with pandas"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Description</th>\n",
       "      <th>UnitPrice</th>\n",
       "      <th>Country</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>WHITE HANGING HEART T-LIGHT HOLDER</td>\n",
       "      <td>2.55</td>\n",
       "      <td>United Kingdom</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>WHITE METAL LANTERN</td>\n",
       "      <td>3.39</td>\n",
       "      <td>United Kingdom</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>CREAM CUPID HEARTS COAT HANGER</td>\n",
       "      <td>2.75</td>\n",
       "      <td>United Kingdom</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>KNITTED UNION FLAG HOT WATER BOTTLE</td>\n",
       "      <td>3.39</td>\n",
       "      <td>United Kingdom</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>RED WOOLLY HOTTIE WHITE HEART.</td>\n",
       "      <td>3.39</td>\n",
       "      <td>United Kingdom</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>535327</th>\n",
       "      <td>????damages????</td>\n",
       "      <td>0.00</td>\n",
       "      <td>United Kingdom</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>535329</th>\n",
       "      <td>mixed up</td>\n",
       "      <td>0.00</td>\n",
       "      <td>United Kingdom</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>535335</th>\n",
       "      <td>lost</td>\n",
       "      <td>0.00</td>\n",
       "      <td>United Kingdom</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>537621</th>\n",
       "      <td>CREAM HANGING HEART T-LIGHT HOLDER</td>\n",
       "      <td>2.95</td>\n",
       "      <td>United Kingdom</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>540421</th>\n",
       "      <td>PAPER CRAFT , LITTLE BIRDIE</td>\n",
       "      <td>2.08</td>\n",
       "      <td>United Kingdom</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>4223 rows × 3 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                Description  UnitPrice         Country\n",
       "0        WHITE HANGING HEART T-LIGHT HOLDER       2.55  United Kingdom\n",
       "1                       WHITE METAL LANTERN       3.39  United Kingdom\n",
       "2            CREAM CUPID HEARTS COAT HANGER       2.75  United Kingdom\n",
       "3       KNITTED UNION FLAG HOT WATER BOTTLE       3.39  United Kingdom\n",
       "4            RED WOOLLY HOTTIE WHITE HEART.       3.39  United Kingdom\n",
       "...                                     ...        ...             ...\n",
       "535327                      ????damages????       0.00  United Kingdom\n",
       "535329                             mixed up       0.00  United Kingdom\n",
       "535335                                 lost       0.00  United Kingdom\n",
       "537621   CREAM HANGING HEART T-LIGHT HOLDER       2.95  United Kingdom\n",
       "540421          PAPER CRAFT , LITTLE BIRDIE       2.08  United Kingdom\n",
       "\n",
       "[4223 rows x 3 columns]"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import pandas as pd\n",
    "\n",
    "df = pd.read_csv('products.csv')\n",
    "df = df[['Description', 'UnitPrice', 'Country']]\n",
    "df = df.dropna().drop_duplicates(subset=['Description'])\n",
    "df"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "2. Encode 100 samples into vectors (1 column with product text, 1 column with vectors)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "from tqdm import tqdm\n",
    "from sentence_transformers import SentenceTransformer\n",
    "tqdm.pandas()\n",
    "\n",
    "model = SentenceTransformer('all-mpnet-base-v2') #all-MiniLM-L6-v2 #all-mpnet-base-v2\n",
    "\n",
    "#encode df version: for small dataset only\n",
    "df['text_vector_'] = df['Description'].progress_apply(lambda x : model.encode(x).tolist())\n",
    "df"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [],
   "source": [
    "df.to_parquet('df_encoded.parquet', index=None)"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3.9.0 64-bit",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.9.13"
  },
  "orig_nbformat": 4,
  "vscode": {
   "interpreter": {
    "hash": "fdf377d643bc1cb065454f0ad2ceac75d834452ecf289e7ba92c6b3f59a7cee1"
   }
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}