Spaces:

EddyGiusepe
/

Building_a_RAG_ChatBot

No application file

App Files Files Community

EddyGiusepe commited on Dec 1, 2023

Commit

4be09ca

1 Parent(s): ac3a949

ChatBot com Panel e LangChain

Browse files

Files changed (1) hide show

Building_a_Retrieval_Augmented_Generation_Chatbot.ipynb +243 -0

Building_a_Retrieval_Augmented_Generation_Chatbot.ipynb ADDED Viewed

	@@ -0,0 +1,243 @@

+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "<h1 align=\"center\"><font color=\"yellow\">Building a Retrieval Augmented Generation Chatbot</font></h1>"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "<font color=\"yellow\">Data Scientist.: Dr. Eddy Giusepe Chirinos Isidro</font>"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Neste script vamos a estudar o Tutorial da [Sophia Yang, Ph.D](https://sophiamyang.medium.com/building-a-retrieval-augmented-generation-chatbot-d567a24fcd14). Basicamente aprenderemos a construir um ChatBot de Geração Aumentada de Recuperação (RAG), para isso ela usou LangChain e Panel."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# <font color=\"red\">O que é geração aumentada de recuperação (RAG)?</font>"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Você está interessado em fazer um `chatbot` que possa usar suas próprias coleções de dados para responder perguntas? A geração aumentada de recuperação (`RAG`) é uma estrutura de IA que combina os pontos fortes de modelos de linguagem pré-treinados e sistemas de recuperação de informações para gerar respostas em um sistema de IA conversacional ou para criar conteúdo aproveitando o conhecimento externo. Integra a recuperação de informações relevantes de uma fonte de conhecimento e a geração de respostas com base nas informações recuperadas.\n",
+    "\n",
+    "Em uma configuração `RAG` típica:\n",
+    "\n",
+    "\n",
+    "* Recuperação (`Retrieval`): Dada uma `query` ou `prompt do usuário`, o sistema pesquisa em uma fonte de conhecimento (`um armazenamento de vetores com Embeddings de texto`) para encontrar documentos ou trechos de texto relevantes. O componente de recuperação normalmente emprega alguma forma de pontuação de `similaridade` ou `relevância` para determinar quais partes da fonte de conhecimento são mais pertinentes à query de entrada.\n",
+    "\n",
+    "\n",
+    "* `Geração`: Os documentos ou fragmentos recuperados são então fornecidos a um grande modelo de linguagem (`LLM`), que os utiliza como contexto adicional para gerar uma resposta mais detalhada, factual e relevante.\n",
+    "\n",
+    "\n",
+    "O `RAG` pode ser particularmente útil quando o modelo de linguagem pré-treinado por si só pode não ter as informações necessárias para gerar respostas precisas ou suficientemente detalhadas, uma vez que modelos de linguagem padrão como o `GPT-4` não são capazes de acessar diretamente informações externas em tempo real ou pós-treinamento.\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Setup:\n",
+    "\n",
+    "%pip install panel pypdf chromadb tiktoken langchain openai"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from langchain.chains import RetrievalQA\n",
+    "from langchain.document_loaders import PyPDFLoader\n",
+    "from langchain.embeddings import OpenAIEmbeddings\n",
+    "from langchain.llms import OpenAI\n",
+    "from langchain.text_splitter import CharacterTextSplitter\n",
+    "from langchain.vectorstores import Chroma\n",
+    "\n",
+    "\n",
+    "# Substitua sua chave de API OpenAI:\n",
+    "import openai\n",
+    "import os\n",
+    "from dotenv import load_dotenv, find_dotenv\n",
+    "_ = load_dotenv(find_dotenv()) # read local .env file\n",
+    "openai.api_key  = os.environ['OPENAI_API_KEY']\n",
+    "\n",
+    "\n",
+    "# Carregar documentos:\n",
+    "loader = PyPDFLoader(\"./docs/spacy_teste.pdf\")\n",
+    "documents = loader.load()\n",
+    "\n",
+    "# Split dos documentos em chunks:\n",
+    "text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)\n",
+    "texts = text_splitter.split_documents(documents)\n",
+    "\n",
+    "# Selecionamos nossos embeddings (pode ser qualquer outro):\n",
+    "embeddings = OpenAIEmbeddings()\n",
+    "\n",
+    "# Crie o vectorestore para usar como índice:\n",
+    "db = Chroma.from_documents(texts, embeddings)\n",
+    "\n",
+    "# Expor este índice em uma interface de recuperação:\n",
+    "retriever = db.as_retriever(search_type=\"similarity\",\n",
+    "                            search_kwargs={\"k\": 2}\n",
+    "                           )\n",
+    "\n",
+    "# Criamos uma chain para responder perguntas:\n",
+    "qa = RetrievalQA.from_chain_type(llm=OpenAI(),\n",
+    "                                 chain_type=\"map_reduce\",\n",
+    "                                 retriever=retriever,\n",
+    "                                 return_source_documents=True,\n",
+    "                                 verbose=True,\n",
+    "                                )\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\n",
+      "\n",
+      "\u001b[1m> Entering new RetrievalQA chain...\u001b[0m\n",
+      "\n",
+      "\u001b[1m> Finished chain.\u001b[0m\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'query': 'O que é Entropia?',\n",
+       " 'result': ' Entropia é uma medida de incerteza que pode ser usada para medir a granularidade do clustering. Quanto menor a entropia, mais granular será o clustering.',\n",
+       " 'source_documents': [Document(page_content='Em geral, o objetivo do problema de classificação é encontrar a granularidade mais  \\napropriada que permita uma separação eficiente dos dados de ambas as classes.  \\nPara isso, é necessário utilizar técnicas de classificação, como a regressão logística,  \\nárvores de decisão, SVM, redes neurais, entre outras, para encontrar a fronteira de  \\ndecisão ótima entre as classes. A granularidade ideal dependerá da distribuição dos  \\ndados em cada classe e da complexidade da fronteira de decisão.Granular idade b aixa: Nesta granularidade, os dados de amb as as classes  \\nestão muit o próximos um do outr o, e há uma sobr eposição significativ a \\nentre os clust ers de amb as as classes. Isso significa que é difícil sep arar os  \\ndados de amb as as classes com pr ecisão.1.\\nGranular idade média : Nesta granularidade, os clust ers de amb as as classes  \\nsão clarament e distinguív eis, mas ainda pode hav er alguma sobr eposição  \\nentre eles. Isso significa que é possív el sep arar os dados de amb as as  \\nclasses com uma pr ecisão razo ável.2.\\nGranular idade alta : Nesta granularidade,  os clust ers de amb as as classes são  \\nmuit o distint os e não há sobr eposição entr e eles. Isso significa que é  \\npossív el sep arar os dados de amb as as classes com alta pr ecisão.3.', metadata={'page': 4, 'source': './docs/spacy_teste.pdf'}),\n",
+       "  Document(page_content='É importante ressaltar que a escolha da métrica de granularidade depende do  \\nobjetivo da análise e do tipo de dados que está sendo clusterizado. Além disso, é  \\nrecomendável usar mais de uma métrica para avaliar a granularidade de um  \\nclustering de forma mais abrangente e confiável.\\nConsiderando k -means, como posso p ara definir o niv el de granular idade que  \\ndesejo\\nNo k-means, a granularidade pode ser controlada por meio  da escolha do númer o \\nde clust ers desejado . Para definir o nível de granularidade desejado, você pode  \\nseguir estes passos:\\nLembre-se de que o k-means é um algoritmo de clustering sensível à inicialização e  \\npode produzir resultados diferentes com diferentes sementes aleatórias. P ortanto, é  \\nrecomendável executar o algoritmo várias vezes com diferentes sementes aleatórias  \\ne escolher o resultado com melhor qualidade de clustering.\\nPara o caso de fuzzy c-means como posso p ara definir o niv el de granular idade  \\nque desejoEntropia: A entropia é uma medida de incerteza e pode ser usada para medir  \\na granularidade do clustering. Quant o menor a entr opia, mais granular será  \\no clust ering.5.\\nVisualize seus dados : Antes de aplicar o algoritmo k-means, é importante  \\nvisualizar os dados para entender sua estrutura e distribuição. Isso ajudará a  \\nter uma ideia aproximada do número de clusters necessários para representar  \\nos dados de forma significativa.1.\\nExecute o algor itmo com difer entes valores de k : Execute o algoritmo k-\\nmeans com diferentes valores de k e compare os resultados. Se você estiver  \\nbuscando uma granularidade mais fina, tente aumentar o número de clusters.  \\nSe você quiser uma granularidade mais baixa, tente reduzir o número de  \\nclusters.2.\\nAvalie a qualidade dos clust ers: Para avaliar a qualidade dos clusters, você  \\npode usar métricas de validação de clustering, como o índice de silhueta ou o  \\ncoeficiente de variação total. Essas métricas podem ajudá-lo a determinar se o  \\nnúmero de clusters escolhido é apropriado para seus dados.3.\\nConsider e o cont exto: Finalmente, é importante considerar o contexto em  \\nque os dados estão sendo analisados. Dependendo do objetivo da análise, a  \\ngranularidade pode precisar ser ajustada para capturar informações relevantes  \\ne significativas dos dados.4.', metadata={'page': 2, 'source': './docs/spacy_teste.pdf'})]}"
+      ]
+     },
+     "execution_count": 3,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "qa(\"O que é Entropia?\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\n",
+      "\n",
+      "\u001b[1m> Entering new RetrievalQA chain...\u001b[0m\n",
+      "\n",
+      "\u001b[1m> Finished chain.\u001b[0m\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "{'query': 'Como podemos avaliar a qualidade de clusters?',\n",
+       " 'result': ' Para avaliar a qualidade dos clusters, você pode usar métricas de validação de clustering, como o índice de silhueta ou o coeficiente de variação total. Existem várias métricas que podem ser usadas para medir a granularidade de um clustering, dependendo do tipo de algoritmo de clustering e do objetivo da análise, como o número de clusters, o tamanho dos clusters e a densidade dos clusters.',\n",
+       " 'source_documents': [Document(page_content='É importante ressaltar que a escolha da métrica de granularidade depende do  \\nobjetivo da análise e do tipo de dados que está sendo clusterizado. Além disso, é  \\nrecomendável usar mais de uma métrica para avaliar a granularidade de um  \\nclustering de forma mais abrangente e confiável.\\nConsiderando k -means, como posso p ara definir o niv el de granular idade que  \\ndesejo\\nNo k-means, a granularidade pode ser controlada por meio  da escolha do númer o \\nde clust ers desejado . Para definir o nível de granularidade desejado, você pode  \\nseguir estes passos:\\nLembre-se de que o k-means é um algoritmo de clustering sensível à inicialização e  \\npode produzir resultados diferentes com diferentes sementes aleatórias. P ortanto, é  \\nrecomendável executar o algoritmo várias vezes com diferentes sementes aleatórias  \\ne escolher o resultado com melhor qualidade de clustering.\\nPara o caso de fuzzy c-means como posso p ara definir o niv el de granular idade  \\nque desejoEntropia: A entropia é uma medida de incerteza e pode ser usada para medir  \\na granularidade do clustering. Quant o menor a entr opia, mais granular será  \\no clust ering.5.\\nVisualize seus dados : Antes de aplicar o algoritmo k-means, é importante  \\nvisualizar os dados para entender sua estrutura e distribuição. Isso ajudará a  \\nter uma ideia aproximada do número de clusters necessários para representar  \\nos dados de forma significativa.1.\\nExecute o algor itmo com difer entes valores de k : Execute o algoritmo k-\\nmeans com diferentes valores de k e compare os resultados. Se você estiver  \\nbuscando uma granularidade mais fina, tente aumentar o número de clusters.  \\nSe você quiser uma granularidade mais baixa, tente reduzir o número de  \\nclusters.2.\\nAvalie a qualidade dos clust ers: Para avaliar a qualidade dos clusters, você  \\npode usar métricas de validação de clustering, como o índice de silhueta ou o  \\ncoeficiente de variação total. Essas métricas podem ajudá-lo a determinar se o  \\nnúmero de clusters escolhido é apropriado para seus dados.3.\\nConsider e o cont exto: Finalmente, é importante considerar o contexto em  \\nque os dados estão sendo analisados. Dependendo do objetivo da análise, a  \\ngranularidade pode precisar ser ajustada para capturar informações relevantes  \\ne significativas dos dados.4.', metadata={'page': 2, 'source': './docs/spacy_teste.pdf'}),\n",
+       "  Document(page_content='Exemplo 3: Clust ering de dados de r edes sociais\\nImagine que você queira agrupar usuários de redes sociais com base em seus  \\ninteresses e comportamentos.  \\nQue métr icas posso usar p ara medir a granular idade de um clust ering\\nExistem várias métricas que podem ser usadas para medir a granularidade de um  \\nclustering, dependendo do tipo de algoritmo de clustering e do objetivo da análise.  \\nAlgumas das métricas mais comuns incluem:Se a granular idade do clust ering for b aixa, você pode agrupar os pacientes  \\nem grandes grupos, como \"pacientes com doenças crônicas\" e \"pacientes  \\nsaudáveis\".  \\nSe a granular idade do clust ering for alta , você pode agrupar os pacientes  \\nem clusters específicos, como \"pacientes com diabetes tipo 2\", \"pacientes com  \\nhipertensão\" e \"pacientes com doenças cardíacas\".\\nSe a granular idade do clust ering for b aixa, você pode agrupar os usuários  \\nem grandes categorias, como \"usuários que gostam de esportes\" e \"usuários  \\nque gostam de música\".  \\nSe a granular idade do clust ering for alta , você pode agrupar os usuários em  \\nclusters específicos, como \"usuários que gostam de futebol\", \"usuários que  \\ngostam de música clássica\" e \"usuários que gostam de rock alternativo\".\\nNúmer o de clust ers: Uma métrica simples e intuitiva é contar o número de  \\nclusters gerados pelo algoritmo de clustering. Quant o mais clust ers \\nexistir em, mais granular será o clust ering.1.\\nTamanho dos clust ers: A granularidade também pode ser medida pelo  \\ntamanho dos clusters. Se os clust ers for em pequenos e contiv erem apenas  \\nalgumas instâncias, o clust ering será mais granular do que se os clust ers \\nforem grandes e contiv erem muitas instâncias.2.\\nDensidade dos clust ers: A densidade dos clusters também pode ser usada  \\npara medir a granularidade.  Se os clust ers for em densos e bem agr upados,  \\no clust ering será menos granular do que se os clust ers for em menos  \\ndensos e mais disper sos.3.\\nDistância entr e os clust ers: A distância m��dia entre os clusters também pode  \\nser usada como uma métrica de granularidad e. Se a distância média entr e os \\nclust ers for grande, o clust ering será mais granular do que se a distância  \\nmédia entr e os clust ers for pequena.4.', metadata={'page': 1, 'source': './docs/spacy_teste.pdf'})]}"
+      ]
+     },
+     "execution_count": 4,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "qa(\"Como podemos avaliar a qualidade de clusters?\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "venv_ChatBot",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.12"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}