Spaces:

ShynBui
/

Vector_db

Runtime error

ShynBui commited on Mar 3, 2024

Commit

7323674

verified ·

1 Parent(s): aab3dcd

Update utils.py

Files changed (1) hide show

utils.py CHANGED Viewed

@@ -4,14 +4,17 @@ from langchain.text_splitter import CharacterTextSplitter, RecursiveCharacterTex
 from langchain_community.vectorstores import Chroma
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.retrievers import BM25Retriever
 import os
 def split_with_source(text, source):
     splitter = CharacterTextSplitter(
         separator = "\n",
-        chunk_size = 512,
-        chunk_overlap  = 172,
         add_start_index = True,
     )
     documents = splitter.create_documents([text])
@@ -83,5 +86,23 @@ def load_the_bm25_retrieve(k = 3):
     return bm25_retriever

 from langchain_community.vectorstores import Chroma
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.retrievers import BM25Retriever
+from langchain.llms import OpenAI
+from langchain_openai import ChatOpenAI
+from langchain.chains import RetrievalQA
 import os
 def split_with_source(text, source):
     splitter = CharacterTextSplitter(
         separator = "\n",
+        chunk_size = 256,
+        chunk_overlap  = 0,
+        length_function = len,
         add_start_index = True,
     )
     documents = splitter.create_documents([text])
     return bm25_retriever
+def get_qachain(llm_name = "gpt-3.5-turbo-0125", chain_type = "stuff", retriever = None, return_source_documents = True):
+    llm = ChatOpenAI(temperature=0,
+                     model_name=llm_name)
+    return RetrievalQA.from_chain_type(llm=llm,
+                                  chain_type=chain_type,
+                                  retriever=retriever,
+                                  return_source_documents=return_source_documents)
+def process_llm_response(llm_response):
+    print(llm_response['result'])
+    print('\n\nSources:')
+    for source in llm_response["source_documents"]:
+        print(source.metadata['source'])