Spaces:

acpotts
/

AIE4midtermTask4

Sleeping

App Files Files Community

acpotts commited on Sep 23, 2024

Commit

31445d8

verified ·

1 Parent(s): ebb5ffc

Upload 2 files

Browse files

Files changed (2) hide show

app.py +52 -23
requirements.txt +8 -4

app.py CHANGED Viewed

@@ -14,6 +14,11 @@ import chainlit as cl
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 # from langchain_experimental.text_splitter import SemanticChunker
 # from langchain_openai.embeddings import OpenAIEmbeddings
 system_template = """\
 Use the following context to answer a users question. If you cannot find the answer in the context, say you don't know the answer."""
@@ -27,27 +32,27 @@ Question:
 """
 user_role_prompt = UserRolePrompt(user_prompt_template)
-class RetrievalAugmentedQAPipeline:
-    def __init__(self, llm: ChatOpenAI(), vector_db_retriever: VectorDatabase) -> None:
-        self.llm = llm
-        self.vector_db_retriever = vector_db_retriever
-    async def arun_pipeline(self, user_query: str):
-        context_list = self.vector_db_retriever.search_by_text(user_query, k=4)
-        context_prompt = ""
-        for context in context_list:
-            context_prompt += context[0] + "\n"
-        formatted_system_prompt = system_role_prompt.create_message()
-        formatted_user_prompt = user_role_prompt.create_message(question=user_query, context=context_prompt)
-        async def generate_response():
-            async for chunk in self.llm.astream([formatted_system_prompt, formatted_user_prompt]):
-                yield chunk
-        return {"response": generate_response(), "context": context_list}
 text_splitter = RecursiveCharacterTextSplitter()
@@ -90,6 +95,7 @@ async def on_chat_start():
             max_files=10
         ).send()
     for file in files:
         msg = cl.Message(
@@ -99,26 +105,49 @@ async def on_chat_start():
         # load the file
         texts = process_text_file(file)
         print(f"Processing {len(texts)} text chunks")
         # Create a dict vector store
-        vector_db = VectorDatabase()
-        vector_db = await vector_db.abuild_from_list(texts)
-    chat_openai = ChatOpenAI()
     # Create a chain
-    retrieval_augmented_qa_pipeline = RetrievalAugmentedQAPipeline(
-        vector_db_retriever=vector_db,
-        llm=chat_openai
     )
     # Let the user know that the system is ready
     msg.content = f"Processing `{file.name}` done. You can now ask questions!"
     await msg.update()
-    cl.user_session.set("chain", retrieval_augmented_qa_pipeline)
 @cl.on_message

 from langchain_text_splitters import RecursiveCharacterTextSplitter
 # from langchain_experimental.text_splitter import SemanticChunker
 # from langchain_openai.embeddings import OpenAIEmbeddings
+from sentence_transformers import SentenceTransformer
+from langchain_huggingface import HuggingFaceEmbeddings
+from langchain_community.vectorstores import FAISS
+from langchain_openai.embeddings import OpenAIEmbeddings
+from langchain_core.documents import Document
 system_template = """\
 Use the following context to answer a users question. If you cannot find the answer in the context, say you don't know the answer."""
 """
 user_role_prompt = UserRolePrompt(user_prompt_template)
+# class RetrievalAugmentedQAPipeline:
+#     def __init__(self, llm: ChatOpenAI(), vector_db_retriever: VectorDatabase) -> None:
+#         self.llm = llm
+#         self.vector_db_retriever = vector_db_retriever
+#     async def arun_pipeline(self, user_query: str):
+#         context_list = self.vector_db_retriever.search_by_text(user_query, k=4)
+#         context_prompt = ""
+#         for context in context_list:
+#             context_prompt += context[0] + "\n"
+#         formatted_system_prompt = system_role_prompt.create_message()
+#         formatted_user_prompt = user_role_prompt.create_message(question=user_query, context=context_prompt)
+#         async def generate_response():
+#             async for chunk in self.llm.astream([formatted_system_prompt, formatted_user_prompt]):
+#                 yield chunk
+#         return {"response": generate_response(), "context": context_list}
 text_splitter = RecursiveCharacterTextSplitter()
             max_files=10
         ).send()
+    processed_documents = []
     for file in files:
         msg = cl.Message(
         # load the file
         texts = process_text_file(file)
+        processed_documents.extend(texts)
         print(f"Processing {len(texts)} text chunks")
         # Create a dict vector store
+        # vector_db = VectorDatabase()
+        # vector_db = await vector_db.abuild_from_list(texts)
+    # chat_openai = ChatOpenAI()
     # Create a chain
+    # retrieval_augmented_qa_pipeline = RetrievalAugmentedQAPipeline(
+    #     vector_db_retriever=vector_db,
+    #     llm=chat_openai
+    # )
+    finetune_embeddings = HuggingFaceEmbeddings(model_name="finetuned_arctic")
+    finetune_vectorstore = FAISS.from_documents(processed_documents, finetune_embeddings)
+    finetune_retriever = finetune_vectorstore.as_retriever(search_kwargs={"k": 6})
+    from operator import itemgetter
+    from langchain_core.output_parsers import StrOutputParser
+    from langchain_core.runnables import RunnablePassthrough, RunnableParallel
+    rag_llm =  ChatOpenAI(
+        model="gpt-4o-mini",
+        temperature=0
+        )
+    finetune_rag_chain = (
+        {"context": itemgetter("question") | finetune_retriever, "question": itemgetter("question")}
+        | RunnablePassthrough.assign(context=itemgetter("context"))
+        | {"response": system_template | rag_llm | StrOutputParser(), "context": itemgetter("context")}
     )
     # Let the user know that the system is ready
     msg.content = f"Processing `{file.name}` done. You can now ask questions!"
     await msg.update()
+    cl.user_session.set("chain", finetune_rag_chain)
 @cl.on_message

requirements.txt CHANGED Viewed

@@ -1,7 +1,11 @@
 numpy
 chainlit==0.7.700
-openai
-langchain_community
-langchain_experimental
-langchain_openai
 pypdf

 numpy
 chainlit==0.7.700
+# openai
+# langchain_community
+# langchain_experimental
+# langchain_openai
+# langchain_huggingface
+langchain-core==0.2.40
+langchain-openai==0.1.25
+langchain-huggingface==0.0.3
 pypdf