Spaces:

ShawnAI
/

VectorDB-ChatBot

Runtime error

App Files Files Community

ShawnAI commited on May 10, 2023

Commit

32f8fd9

1 Parent(s): 3d73654

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -17

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ import time
 from langchain import PromptTemplate
 from langchain.llms import OpenAI
 from langchain.chat_models import ChatOpenAI
-from langchain.embeddings import HuggingFaceEmbeddings, HuggingFaceInstructEmbeddings
 from langchain.vectorstores import Pinecone
 from langchain.chains import LLMChain
 from langchain.chains.question_answering import load_qa_chain
@@ -28,12 +28,13 @@ PINECONE_LINK  = "[Pinecone](https://www.pinecone.io)"
 LANGCHAIN_LINK = "[LangChain](https://python.langchain.com/en/latest/index.html)"
 EMBEDDING_MODEL = os.environ.get("EMBEDDING_MODEL", "hkunlp/instructor-large")
-EMBEDDING_LOADER = HuggingFaceInstructEmbeddings
 # return top-k text chunks from vector store
-TOP_K_DEFAULT = 10
 TOP_K_MAX = 30
-SCORE_DEFAULT = 0.3
 BUTTON_MIN_WIDTH = 215
@@ -152,7 +153,7 @@ Answer:"""
 #----------------------------------------------------------------------------------------------------------
 #----------------------------------------------------------------------------------------------------------
-def init_model(api_key, emb_name, db_api_key, db_env, db_index):
     try:
         if not (api_key and api_key.startswith("sk-") and len(api_key) > 50):
             return None,MODEL_NULL+DOCS_NULL,None,None,None,None
@@ -173,8 +174,11 @@ def init_model(api_key, emb_name, db_api_key, db_env, db_index):
         if not (emb_name and db_api_key and db_env and db_index):
             return api_key,MODEL_DONE+DOCS_NULL,llm_dict,None,None,None
-        embeddings = EMBEDDING_LOADER(model_name=emb_name)
         pinecone.init(api_key     = db_api_key,
                       environment = db_env)
@@ -208,7 +212,7 @@ def doc_similarity(query, db, top_k, score):
                                            k=top_k)
     #docsearch = db.as_retriever(search_kwargs={'k':top_k})
     #docs = docsearch.get_relevant_documents(query)
-    # print(docs)
     udocs = remove_duplicates(docs, score)
     return udocs
@@ -357,14 +361,24 @@ with gr.Blocks(
     with gr.Tab(TAB_3):
         with gr.Row():
-            emb_textbox = gr.Textbox(
-                label = "Embedding Model",
-                # show_label = False,
-                value = EMBEDDING_MODEL,
-                placeholder = "Paste Your Embedding Model Repo on HuggingFace",
-                lines=1,
-                interactive=True,
-                type='email')
         with gr.Accordion("Pinecone Database for "+DOC_1):
             with gr.Row():
                 db_api_textbox = gr.Textbox(
@@ -393,7 +407,7 @@ with gr.Blocks(
                     interactive=True,
                     type='email')
-    init_input  = [llm_api_textbox, emb_textbox, db_api_textbox, db_env_textbox, db_index_textbox]
     init_output = [llm_api_textbox, model_statusbox,
                    llm, chain_2,
                    vector_db, chatbot]

 from langchain import PromptTemplate
 from langchain.llms import OpenAI
 from langchain.chat_models import ChatOpenAI
+from langchain.embeddings import HuggingFaceEmbeddings, HuggingFaceInstructEmbeddings, OpenAIEmbeddings
 from langchain.vectorstores import Pinecone
 from langchain.chains import LLMChain
 from langchain.chains.question_answering import load_qa_chain
 LANGCHAIN_LINK = "[LangChain](https://python.langchain.com/en/latest/index.html)"
 EMBEDDING_MODEL = os.environ.get("EMBEDDING_MODEL", "hkunlp/instructor-large")
+EMBEDDING_LOADER = os.environ.get("EMBEDDING_LOADER", "HuggingFaceInstructEmbeddings")
+EMBEDDING_LIST = ["HuggingFaceInstructEmbeddings", "HuggingFaceEmbeddings", "OpenAIEmbeddings"]
 # return top-k text chunks from vector store
+TOP_K_DEFAULT = 15
 TOP_K_MAX = 30
+SCORE_DEFAULT = 0.33
 BUTTON_MIN_WIDTH = 215
 #----------------------------------------------------------------------------------------------------------
 #----------------------------------------------------------------------------------------------------------
+def init_model(api_key, emb_name, emb_loader, db_api_key, db_env, db_index):
     try:
         if not (api_key and api_key.startswith("sk-") and len(api_key) > 50):
             return None,MODEL_NULL+DOCS_NULL,None,None,None,None
         if not (emb_name and db_api_key and db_env and db_index):
             return api_key,MODEL_DONE+DOCS_NULL,llm_dict,None,None,None
+        if emb_loader == "OpenAIEmbeddings":
+            embeddings = eval(emb_loader)(openai_api_key=api_key)
+        else:
+            embeddings = eval(emb_loader)(model_name=emb_name)
         pinecone.init(api_key     = db_api_key,
                       environment = db_env)
                                            k=top_k)
     #docsearch = db.as_retriever(search_kwargs={'k':top_k})
     #docs = docsearch.get_relevant_documents(query)
+    print(docs)
     udocs = remove_duplicates(docs, score)
     return udocs
     with gr.Tab(TAB_3):
         with gr.Row():
+            with gr.Column():
+                emb_textbox = gr.Textbox(
+                    label = "Embedding Model",
+                    # show_label = False,
+                    value = EMBEDDING_MODEL,
+                    placeholder = "Paste Your Embedding Model Repo on HuggingFace",
+                    lines=1,
+                    interactive=True,
+                    type='email')
+            with gr.Column():
+                emb_dropdown = gr.Dropdown(
+                    EMBEDDING_LIST,
+                    value=EMBEDDING_LOADER,
+                    multiselect=False,
+                    interactive=True,
+                    label="Embedding Loader")
         with gr.Accordion("Pinecone Database for "+DOC_1):
             with gr.Row():
                 db_api_textbox = gr.Textbox(
                     interactive=True,
                     type='email')
+    init_input  = [llm_api_textbox, emb_textbox, emb_dropdown, db_api_textbox, db_env_textbox, db_index_textbox]
     init_output = [llm_api_textbox, model_statusbox,
                    llm, chain_2,
                    vector_db, chatbot]