Spaces:

microhum
/

ThaiCodex

Sleeping

App Files Files Community

microhum commited on Sep 7, 2024

Commit

d8023d7

1 Parent(s): 7eff878

initial commit

Browse files

Files changed (14) hide show

.gitattributes +1 -0
Dockerfile +18 -0
app.py +55 -60
files/กระบวนการของบริษัทการบินไทย จำกัด (มหาชน) ในการฟื้นฟูกิจการ ภายใต้บริบทการเมืองไทย ในช่วงปี พ.ศ. 2562 - 2566.pdf +3 -0
files/กลยุทธ์การหาเสียงของพรรคการเมืองกับแผนยุทธศาสตร์ชาติ 20 ปี.pdf +3 -0
files/การนำองค์กรของผู้บริหารต่อประสิทธิผลตามพันธกิจของมหาวิทยาลัยเทคโนโลยีราชมงคลรัตนโกสินทร์.pdf +3 -0
files/ความสัมพันธ์ระหว่างการวางแผนภาษีกับราคาหลักทรัพย์ของบริษัทที่จดทะเบียนในตลาดหลักทรัพย์แห่งประเทศไทย กลุ่มเกษตรและอุตสาหกรรมอาหาร.pdf +3 -0
files/ทิศทางความมั่นคงทางอวกาศของไทย.pdf +3 -0
files/บทบาทคณะกรรมการกลางอิสลามแห่งประเทศไทยและอิทธิพลต่อการกำหนดนโยบายทางการเมืองของพรรคการเมือง.pdf +3 -0
files/ผลกระทบจากการเปลี่ยนแปลงทางดิจิทัลในองค์กรต่อกระบวนการสอบบัญชี.pdf +3 -0
main.py +48 -0
rag.py +97 -0
requirements.txt +12 -1
storePDF.py +28 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.pdf filter=lfs diff=lfs merge=lfs -text

Dockerfile ADDED Viewed

	@@ -0,0 +1,18 @@

+FROM ubuntu:22.04
+RUN apt-get -y update && apt-get -y install software-properties-common && apt-get -y install curl && apt-get -y install build-essential \
+&& add-apt-repository -y ppa:deadsnakes/ppa && apt-get -y install python3.10 && apt-get -y install python3-pip
+COPY ./requirements.txt /code/requirements.txt
+RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
+# Set home to the user's home directory
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+    PATH=/home/user/.local/bin:$PATH
+WORKDIR $HOME/app
+COPY --chown=user . $HOME/app
+CMD ["sh", "-c", "python main.py & python app.py"]

app.py CHANGED Viewed

@@ -1,63 +1,58 @@
 import gradio as gr
-from huggingface_hub import InferenceClient
-"""
-For more information on `huggingface_hub` Inference API support, please check the docs: https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
-"""
-client = InferenceClient("HuggingFaceH4/zephyr-7b-beta")
-def respond(
-    message,
-    history: list[tuple[str, str]],
-    system_message,
-    max_tokens,
-    temperature,
-    top_p,
-):
-    messages = [{"role": "system", "content": system_message}]
-    for val in history:
-        if val[0]:
-            messages.append({"role": "user", "content": val[0]})
-        if val[1]:
-            messages.append({"role": "assistant", "content": val[1]})
-    messages.append({"role": "user", "content": message})
-    response = ""
-    for message in client.chat_completion(
-        messages,
-        max_tokens=max_tokens,
-        stream=True,
-        temperature=temperature,
-        top_p=top_p,
-    ):
-        token = message.choices[0].delta.content
-        response += token
-        yield response
-"""
-For information on how to customize the ChatInterface, peruse the gradio docs: https://www.gradio.app/docs/chatinterface
-"""
-demo = gr.ChatInterface(
-    respond,
-    additional_inputs=[
-        gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
-        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
-        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
-        gr.Slider(
-            minimum=0.1,
-            maximum=1.0,
-            value=0.95,
-            step=0.05,
-            label="Top-p (nucleus sampling)",
-        ),
-    ],
-)
 if __name__ == "__main__":
-    demo.launch()

+from langchain_community.document_loaders import PyPDFLoader
+from langchain_core.messages import AIMessage, HumanMessage
+from pydantic import BaseModel
+import rag
+import time
 import gradio as gr
+import requests
+from main import run_server
+class ChatInput(BaseModel):
+    question: str
+chat_history = []
+def generate_response(chat_input: str, bot_message: str) -> str:
+    url = "http://127.0.0.1:8000/generatechat/"
+    payload = {
+        'question': chat_input,
+    }
+    headers = {
+        'Content-Type': 'application/json'
+    }
+    response = requests.post(url, json=payload, headers=headers)
+    if response.status_code == 200:
+        data = response.json()
+        answer = data['response']['answer']
+        print("Success:", response.json())
+        # Get a typewriting animation response
+        partial_response = ""
+        for char in answer:
+            partial_response += char
+            yield partial_response
+            time.sleep(0.005)
+    else:
+        print("Error:", response.status_code, response.text)
+        return f"Error: {response.status_code}, {response.text}"
+with gr.Blocks() as demo:
+    with gr.Column():
+        chatbot = gr.ChatInterface(
+            fn=generate_response,
+            title="ThaiCodex Chat",
+            description="Ask questions based on the content of the uploaded or specified PDF.",
+        )
+        # with gr.Row():
+            # pdf_input = gr.File(label="Upload PDF", file_types=[".pdf"])
+            # upload_button = gr.Button("Load PDF")
+        output_text = gr.Textbox(label="Status")
+        # upload_button.click(, inputs=[pdf_input], outputs=output_text)
 if __name__ == "__main__":
+    demo.launch()
+    run_server() # uvicorn api

files/กระบวนการของบริษัทการบินไทย จำกัด (มหาชน) ในการฟื้นฟูกิจการ ภายใต้บริบทการเมืองไทย ในช่วงปี พ.ศ. 2562 - 2566.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b3e6b772982884be5014c7fb98c0ea21fe7410b5d90d4eb79b05ec926739359
+size 352291

files/กลยุทธ์การหาเสียงของพรรคการเมืองกับแผนยุทธศาสตร์ชาติ 20 ปี.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:190ccc8f2ab2e762e1a56031ce14c182acefbfc0acbf20bd479391328114237d
+size 859822

files/การนำองค์กรของผู้บริหารต่อประสิทธิผลตามพันธกิจของมหาวิทยาลัยเทคโนโลยีราชมงคลรัตนโกสินทร์.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3bbd1699b39aa368d98e6d92f00dd87bd20c0c32a1b244b9ca25d2dd68b6f913
+size 411260

files/ความสัมพันธ์ระหว่างการวางแผนภาษีกับราคาหลักทรัพย์ของบริษัทที่จดทะเบียนในตลาดหลักทรัพย์แห่งประเทศไทย กลุ่มเกษตรและอุตสาหกรรมอาหาร.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78174384ea62e77167261b25dcbc7b1d40091af9caf5309e878fb0062e5e566d
+size 1152292

files/ทิศทางความมั่นคงทางอวกาศของไทย.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97efed2c7c096136832657debf39c108063228b46db86d1008e1d53e7b7f994c
+size 215271

files/บทบาทคณะกรรมการกลางอิสลามแห่งประเทศไทยและอิทธิพลต่อการกำหนดนโยบายทางการเมืองของพรรคการเมือง.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:607ac8847ce3dcc4ca2697c874abae1bf8fde198489b7407eec9b3249375474e
+size 362263

files/ผลกระทบจากการเปลี่ยนแปลงทางดิจิทัลในองค์กรต่อกระบวนการสอบบัญชี.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc504a7468769c1b02ef3566035a1652e06a580ebf7abf3146bbd7545ccef1d0
+size 896227

main.py ADDED Viewed

	@@ -0,0 +1,48 @@

+from langchain_community.document_loaders import PyPDFLoader
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+from langchain_core.messages import AIMessage, HumanMessage
+from fastapi import FastAPI
+from pydantic import BaseModel
+import os
+from rag import Rag
+from storePDF import get_documents_from_path
+folder_path = "files"
+all_documents = get_documents_from_path(folder_path)
+text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200, add_start_index=True)
+texts = text_splitter.split_documents(all_documents)
+rag_llm = Rag();
+rag_llm.createRagChain()
+##Chat API
+chat_history = []
+class ChatInput(BaseModel):
+    question: str
+app = FastAPI()
+@app.get("/")
+async def root():
+    return {"message": "Hello World"}
+@app.post("/generatechat/")
+async def generateResponse(chat_input: ChatInput):
+    ai_msg = rag_llm.generateResponse(chat_input.question, chat_history)
+    chat_history.extend(
+        [
+            HumanMessage(content=chat_input.question),
+            AIMessage(content=ai_msg["answer"]),
+        ]
+    )
+    return {"response": ai_msg}
+def run_server():
+    import uvicorn
+    uvicorn.run(app, host="127.0.0.1", port=8000)
+    print("Server is running")
+if __name__ == "__main__":
+    run_server()

rag.py ADDED Viewed

	@@ -0,0 +1,97 @@

+from langchain.chains import create_retrieval_chain
+from langchain.chains.combine_documents import create_stuff_documents_chain
+from langchain_core.prompts import ChatPromptTemplate
+from langchain_core.prompts import MessagesPlaceholder
+from langchain.chains import create_history_aware_retriever
+from langchain_pinecone import PineconeVectorStore
+from pinecone import Pinecone
+from uuid import uuid4
+import os
+from langchain_huggingface import HuggingFaceEmbeddings
+from langchain_openai import ChatOpenAI
+class Rag:
+    def __init__(self):
+        self.embedding = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
+        self.model = ChatOpenAI(
+            base_url='https://api.opentyphoon.ai/v1',
+            model='typhoon-v1.5-instruct',
+            api_key="sk-clKR9DG6C5K02OeHUBU927gbzXmTCydV9PjFaTBXfRVAJLKC",
+        )
+        self.system_prompt = (
+           """
+            You are a helpful librarian named ThaiCodex. A user has requested book recommendations.
+            We have retrieved {num_docs} document(s) based on the user's request, listed below:
+            {context}
+            Please list ALL and ONLY the books that were found above in the order they were retrieved.
+            For each book, provide:
+            1. The Title.
+            2. A brief Content.
+            3. A reference to locate the book (e.g., a link, university, organization, or other relevant details).
+            Format your response as a numbered list, matching the order in which the documents were retrieved.
+            Results:
+            """
+        )
+        self.contextualize_q_system_prompt = (
+            "Given a chat history and the latest user question "
+            "which might reference context in the chat history, "
+            "formulate a standalone question which can be understood "
+            "without the chat history. Do NOT answer the question, "
+            "just reformulate it if needed and otherwise return it as is."
+        )
+        self.contextualize_q_prompt = ChatPromptTemplate.from_messages(
+            [
+                ("system", self.contextualize_q_system_prompt),
+                MessagesPlaceholder("chat_history"),
+                ("human", "{input}"),
+            ]
+        )
+        self.qa_prompt = ChatPromptTemplate.from_messages(
+            [
+                ("system", self.system_prompt),
+                MessagesPlaceholder("chat_history"),
+                ("human", "{input}"),
+            ]
+        )
+        if not os.getenv("PINECONE_API_KEY"):
+            os.environ["PINECONE_API_KEY"] = "ed681339-2270-4f85-b416-a372e857827b"
+            pinecone_api_key = os.environ.get("PINECONE_API_KEY")
+            pc = Pinecone(api_key=pinecone_api_key)
+        index_name = "thaicodex"
+        index = pc.Index(index_name)
+        self.vectorstore = PineconeVectorStore(index=index, embedding=self.embedding)
+    def storeDocumentsInVectorstore(self, documents):
+        uuids = [str(uuid4()) for _ in range(len(documents))]
+        self.vectorstore.add_documents(documents=documents, ids=uuids)
+    def createRagChain(self):
+        self.question_answer_chain = create_stuff_documents_chain(self.model, self.qa_prompt)
+        self.history_aware_retriever = create_history_aware_retriever(self.model, self.vectorstore.as_retriever(), self.contextualize_q_prompt)
+        self.rag_chain = create_retrieval_chain(self.history_aware_retriever, self.question_answer_chain)
+    def generateResponse(self, question, chat_history):
+        retrieved_docs = self.vectorstore.as_retriever().get_relevant_documents(question)
+        num_docs = len(retrieved_docs)
+        docs = "\n\n".join([
+            f"{i+1}. Title: {doc.metadata.get('source')}\nContent: {doc.page_content}"
+            for i, doc in enumerate(retrieved_docs)
+        ])
+        print(num_docs)
+        print(docs)
+        ai_msg = self.rag_chain.invoke({
+            "context": docs,
+            "num_docs": num_docs,
+            "input": question,
+            "chat_history": chat_history
+        })
+        return ai_msg

requirements.txt CHANGED Viewed

	@@ -1 +1,12 @@
1	- ~~huggingface_hub~~==0.~~22.~~2

+langchain==0.2.14
+langchain_community==0.2.12
+langchain_ollama==0.1.1
+langchain_groq
+langchain-pinecone
+langchain_huggingface
+langchain_openai
+pypdf
+chromadb
+ollama
+fastapi
+gradio

storePDF.py ADDED Viewed

	@@ -0,0 +1,28 @@

+from langchain_community.document_loaders import PyPDFLoader
+from langchain.docstore.document import Document
+import os
+from rag import Rag
+pdf_folder_path = 'files'
+def get_documents_from_path(pdf_folder_path: str = pdf_folder_path) -> list:
+    documents = []
+    for pdf_file in os.listdir(pdf_folder_path):
+        if pdf_file.endswith('.pdf'):
+            loader = PyPDFLoader(os.path.join(pdf_folder_path, pdf_file))
+            pdf_documents = loader.load()
+            file_name_without_extension = os.path.splitext(pdf_file)[0]
+            for doc in pdf_documents:
+                documents.append(Document(page_content=doc.page_content, metadata={"source": file_name_without_extension}))
+    return documents
+if __name__ == "__main__":
+    try:
+        rag_llm = Rag()
+        documents = get_documents_from_path()
+        rag_llm.storeDocumentsInVectorstore(documents)
+        print("Store PDFS Completed")
+    except Exception as e:
+        print(e)