pdf-chatbot-try

Build error

App Files Files Community

kunalchamoli commited on Feb 8, 2024

Commit

4fc9940

verified ·

1 Parent(s): 9082fb5

Update app.py

Browse files

Files changed (1) hide show

app.py +132 -53

app.py CHANGED Viewed

@@ -1,13 +1,16 @@
 import gradio as gr
 import os
 import string
 import random
 import requests
 from bs4 import BeautifulSoup
 from datetime import datetime
 from langchain.document_loaders import PyPDFLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
@@ -30,11 +33,7 @@ import accelerate
 # default_persist_directory = './chroma_HF/'
-list_llm = ["mistralai/Mistral-7B-Instruct-v0.2", "mistralai/Mistral-7B-Instruct-v0.1", \
-    "HuggingFaceH4/zephyr-7b-beta", "NousResearch/Llama-2-7b-chat-hf",  \
-    "TinyLlama/TinyLlama-1.1B-Chat-v1.0", "mosaicml/mpt-7b-instruct", "tiiuae/falcon-7b-instruct", \
-    "google/flan-t5-xxl"
-]
 list_llm_simple = [os.path.basename(llm) for llm in list_llm]
 # Load PDF document and create doc splits
@@ -43,6 +42,7 @@ def load_doc(list_file_path, chunk_size, chunk_overlap):
     pages = []
     for loader in loaders:
         pages.extend(loader.load())
     text_splitter = RecursiveCharacterTextSplitter(
         chunk_size = chunk_size,
         chunk_overlap = chunk_overlap)
@@ -50,10 +50,8 @@ def load_doc(list_file_path, chunk_size, chunk_overlap):
     return doc_splits
 def convert_github_url_to_raw(url):
-    # Ensure the URL is a GitHub blob URL
-    if "github.com" in url and "/blob/" in url:
-        raw_url = url.replace("github.com", "raw.githubusercontent.com").replace("/blob", "")
-        response = requests.get(raw_url)
         html_content = response.text
         # Step 2: Find the GitHub Icon and Extract the Link
         soup = BeautifulSoup(html_content, "html.parser")
@@ -61,24 +59,46 @@ def convert_github_url_to_raw(url):
         for a in soup.find_all('a', href=True):
             if "github.com" in a['href']:  # Assuming the GitHub link contains "github.com"
                 github_icon_link = a['href']
                 break
-        markdown_url = convert_github_url_to_raw(github_icon_link)
-        response = requests.get(markdown_url)
-        return response
-    else:
         return ''
 def load_url(list_url_path, chunk_size, chunk_overlap):
-    texts = [convert_github_url_to_raw(x) for x in list_url_path]
     pages = []
-    for text in texts:
-        pages.extend(text)
     text_splitter = RecursiveCharacterTextSplitter(
         chunk_size = chunk_size,
         chunk_overlap = chunk_overlap)
     doc_splits = text_splitter.split_documents(pages)
     return doc_splits
 # Create vector database
 def create_db(splits, collection_name):
     embedding = HuggingFaceEmbeddings()
@@ -107,17 +127,11 @@ def initialize_llmchain(llm_model, temperature, max_tokens, top_k, vector_db, pr
     progress(0.5, desc="Initializing HF Hub...")
     # Use of trust_remote_code as model_kwargs
     # URL: https://github.com/langchain-ai/langchain/issues/6080
-    if llm_model == "TinyLlama/TinyLlama-1.1B-Chat-v1.0":
-        llm = HuggingFaceHub(
-            repo_id=llm_model,
-            model_kwargs={"temperature": temperature, "max_new_tokens": 250, "top_k": top_k}
-        )
-    else:
-        llm = HuggingFaceHub(
-            repo_id=llm_model,
-            # model_kwargs={"temperature": temperature, "max_new_tokens": max_tokens, "top_k": top_k, "trust_remote_code": True, "torch_dtype": "auto"}
-            model_kwargs={"temperature": temperature, "max_new_tokens": max_tokens, "top_k": top_k}
-        )
     progress(0.75, desc="Defining buffer memory...")
     memory = ConversationBufferMemory(
@@ -144,30 +158,47 @@ def initialize_llmchain(llm_model, temperature, max_tokens, top_k, vector_db, pr
 # Initialize database
 def initialize_database(list_file_obj, input_urls, chunk_size, chunk_overlap, progress=gr.Progress()):
     # Create list of documents (when valid)
-    list_file_path = [x.name for x in list_file_obj if x is not None]
-    list_url = [x for x in input_urls if x is not None]
     # Create collection_name for vector database
     progress(0.1, desc="Creating collection...")
-    # collection_name = Path(list_file_path[0]).stem
-    # # Fix potential issues from naming convention
-    # collection_name = collection_name.replace(" ","-")
-    # collection_name = collection_name[:50]
     res = ''.join(random.choices(string.ascii_letters, k=10))
     collection_name = f"HuggingFace101_{res}"
     print('Collection name: ', collection_name)
     progress(0.25, desc="Loading document...")
     # Load document and create splits
-    doc_splits = load_doc(list_file_path, chunk_size, chunk_overlap)
-    print(type(doc_splits))
     # Create or load vector database
     progress(0.5, desc="Generating vector database...")
     # global vector_db
-    vector_db = create_db(doc_splits, collection_name)
     progress(0.9, desc="Done!")
     return vector_db, collection_name, "Complete!"
@@ -196,8 +227,12 @@ def conversation(qa_chain, message, history):
     response_source1 = response_sources[0].page_content.strip()
     response_source2 = response_sources[1].page_content.strip()
     # Langchain sources are zero-based
-    response_source1_page = response_sources[0].metadata["page"] + 1
-    response_source2_page = response_sources[1].metadata["page"] + 1
     # print ('chat response: ', response_answer)
     # print('DB source', response_sources)
@@ -215,7 +250,6 @@ def upload_file(file_obj):
     # initialize_database(file_path, progress)
     return list_file_path
 def demo():
     with gr.Blocks(theme="base") as demo:
         vector_db = gr.State()
@@ -231,15 +265,38 @@ def demo():
         """)
         with gr.Tab("Step 1 - Document pre-processing"):
             with gr.Row():
-                document = gr.Files(height=100, file_count="multiple", file_types=["pdf"], interactive=True, label="Upload your PDF documents (single or multiple)")
-                input_url = gr.Textbox(label="Or enter a URL", placeholder="https://example.com")
             with gr.Row():
-                db_btn = gr.Radio(["ChromaDB"], label="Vector database type", value = "ChromaDB", type="index", info="Choose your vector database")
             with gr.Accordion("Advanced options - Document text splitter", open=False):
                 with gr.Row():
-                    slider_chunk_size = gr.Slider(minimum = 100, maximum = 1000, value=600, step=20, label="Chunk size", info="Chunk size", interactive=True)
                 with gr.Row():
-                    slider_chunk_overlap = gr.Slider(minimum = 10, maximum = 200, value=40, step=10, label="Chunk overlap", info="Chunk overlap", interactive=True)
             with gr.Row():
                 db_progress = gr.Textbox(label="Vector database initialization", value="None")
             with gr.Row():
@@ -247,15 +304,36 @@ def demo():
         with gr.Tab("Step 2 - QA chain initialization"):
             with gr.Row():
-                llm_btn = gr.Radio(list_llm_simple, \
-                    label="LLM models", value = list_llm_simple[0], type="index", info="Choose your LLM model")
             with gr.Accordion("Advanced options - LLM model", open=False):
                 with gr.Row():
-                    slider_temperature = gr.Slider(minimum = 0.0, maximum = 1.0, value=0.7, step=0.1, label="Temperature", info="Model temperature", interactive=True)
                 with gr.Row():
-                    slider_maxtokens = gr.Slider(minimum = 224, maximum = 4096, value=1024, step=32, label="Max Tokens", info="Model max tokens", interactive=True)
                 with gr.Row():
-                    slider_topk = gr.Slider(minimum = 1, maximum = 10, value=3, step=1, label="top-k samples", info="Model top-k samples", interactive=True)
             with gr.Row():
                 llm_progress = gr.Textbox(value="None",label="QA chain initialization")
             with gr.Row():
@@ -281,6 +359,7 @@ def demo():
         db_btn.click(initialize_database, \
             inputs=[document, input_url, slider_chunk_size, slider_chunk_overlap], \
             outputs=[vector_db, collection_name, db_progress])
         qachain_btn.click(initialize_LLM, \
             inputs=[llm_btn, slider_temperature, slider_maxtokens, slider_topk, vector_db], \
             outputs=[qa_chain, llm_progress]).then(lambda:[None,"",0,"",0], \
@@ -291,11 +370,11 @@ def demo():
         # Chatbot events
         msg.submit(conversation, \
             inputs=[qa_chain, msg, chatbot], \
-            outputs=[qa_chain, msg, chatbot, doc_source1, source1_page, doc_source2, source2_page], \
             queue=False)
         submit_btn.click(conversation, \
             inputs=[qa_chain, msg, chatbot], \
-            outputs=[qa_chain, msg, chatbot, doc_source1, source1_page, doc_source2, source2_page], \
             queue=False)
         clear_btn.click(lambda:[None,"",0,"",0], \
             inputs=None, \

 import gradio as gr
 import os
 import string
 import random
 import requests
 from bs4 import BeautifulSoup
 from datetime import datetime
+import wget
+from langchain_community.document_loaders import UnstructuredMarkdownLoader
+from langchain_community.document_loaders import UnstructuredURLLoader
 from langchain.document_loaders import PyPDFLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 # default_persist_directory = './chroma_HF/'
+list_llm = ["mistralai/Mistral-7B-Instruct-v0.2", "mistralai/Mistral-7B-Instruct-v0.1"]
 list_llm_simple = [os.path.basename(llm) for llm in list_llm]
 # Load PDF document and create doc splits
     pages = []
     for loader in loaders:
         pages.extend(loader.load())
+    print(pages)
     text_splitter = RecursiveCharacterTextSplitter(
         chunk_size = chunk_size,
         chunk_overlap = chunk_overlap)
     return doc_splits
 def convert_github_url_to_raw(url):
+    try:
+        response = requests.get(url)
         html_content = response.text
         # Step 2: Find the GitHub Icon and Extract the Link
         soup = BeautifulSoup(html_content, "html.parser")
         for a in soup.find_all('a', href=True):
             if "github.com" in a['href']:  # Assuming the GitHub link contains "github.com"
                 github_icon_link = a['href']
+                print(github_icon_link)
                 break
+        raw_url = github_icon_link.replace("github.com", "raw.githubusercontent.com").replace("/blob", "")
+        # final_response = requests.get(raw_url)
+        # content = final_response.text
+        return raw_url
+    except Exception as e:
+        print(e)
         return ''
 def load_url(list_url_path, chunk_size, chunk_overlap):
+    urls = [convert_github_url_to_raw(x) for x in list_url_path]
+    files = [wget.download(x) for x in urls]
+    loaders = [UnstructuredMarkdownLoader(f'./{x}') for x in files]
     pages = []
+    for loader in loaders:
+        pages.extend(loader.load())
+    print(pages)
     text_splitter = RecursiveCharacterTextSplitter(
         chunk_size = chunk_size,
         chunk_overlap = chunk_overlap)
     doc_splits = text_splitter.split_documents(pages)
+    _ = [os.remove(f'./{x}') for x in files]
     return doc_splits
+# def load_url(list_url_path, chunk_size, chunk_overlap):
+#     texts = [convert_github_url_to_raw(x) for x in list_url_path]
+#     pages = []
+#     for text in texts:
+#         pages.append(text)
+#     print(f'length of pages is {len(pages)}')
+#     text_splitter = RecursiveCharacterTextSplitter(
+#         chunk_size = chunk_size,
+#         chunk_overlap = chunk_overlap)
+#     total_doc_splits = []
+#     docs_ = text_splitter.create_documents(pages)
+#     print(f"lenth of docs is {len(docs_)}")
+#     return docs_
 # Create vector database
 def create_db(splits, collection_name):
     embedding = HuggingFaceEmbeddings()
     progress(0.5, desc="Initializing HF Hub...")
     # Use of trust_remote_code as model_kwargs
     # URL: https://github.com/langchain-ai/langchain/issues/6080
+    llm = HuggingFaceHub(
+        repo_id=llm_model,
+        # model_kwargs={"temperature": temperature, "max_new_tokens": max_tokens, "top_k": top_k, "trust_remote_code": True, "torch_dtype": "auto"}
+        model_kwargs={"temperature": temperature, "max_new_tokens": max_tokens, "top_k": top_k}
+    )
     progress(0.75, desc="Defining buffer memory...")
     memory = ConversationBufferMemory(
 # Initialize database
 def initialize_database(list_file_obj, input_urls, chunk_size, chunk_overlap, progress=gr.Progress()):
     # Create list of documents (when valid)
+    try:
+        list_file_path = [x.name for x in list_file_obj if x is not None]
+        # print(f'file paths are {list_file_path}')
+    except:
+        list_file_path = None
+    try:
+        list_url = [url.strip() for url in input_urls.split(',') if url.strip()]
+    except:
+        list_url = None
     # Create collection_name for vector database
     progress(0.1, desc="Creating collection...")
     res = ''.join(random.choices(string.ascii_letters, k=10))
     collection_name = f"HuggingFace101_{res}"
     print('Collection name: ', collection_name)
     progress(0.25, desc="Loading document...")
     # Load document and create splits
+    if list_file_path is not None:
+        doc_splits = load_doc(list_file_path, chunk_size, chunk_overlap)
+    else:
+        doc_splits = []
+    if list_url is not None:
+        url_splits = load_url(list_url, chunk_size, chunk_overlap)
+    else:
+        url_splits = []
+    # pdf_data_type = type(doc_splits)
+    # url_data_type = type(url_splits)
+    # print(pdf_data_type)
+    # print(url_data_type)
+    total_splits = []
+    total_splits.extend(doc_splits)
+    total_splits.extend(url_splits)
+    print(total_splits[0].metadata.keys())
     # Create or load vector database
     progress(0.5, desc="Generating vector database...")
     # global vector_db
+    vector_db = create_db(total_splits, collection_name)
     progress(0.9, desc="Done!")
     return vector_db, collection_name, "Complete!"
     response_source1 = response_sources[0].page_content.strip()
     response_source2 = response_sources[1].page_content.strip()
     # Langchain sources are zero-based
+    try:
+        response_source1_page = response_sources[0].metadata["page"] + 1
+        response_source2_page = response_sources[1].metadata["page"] + 1
+    except:
+        response_source1_page = response_sources[0].metadata['source']
+        response_source2_page = response_sources[1].metadata['source']
     # print ('chat response: ', response_answer)
     # print('DB source', response_sources)
     # initialize_database(file_path, progress)
     return list_file_path
 def demo():
     with gr.Blocks(theme="base") as demo:
         vector_db = gr.State()
         """)
         with gr.Tab("Step 1 - Document pre-processing"):
             with gr.Row():
+                document = gr.Files(height=100,
+                                    file_count="multiple",
+                                    file_types=["pdf"],
+                                    interactive=True,
+                                    label="Upload your PDF documents (single or multiple)")
+                input_url = gr.Textbox(label="Or Enter a URL",
+                                       value="https://huggingface.co/blog/segmoe",
+                                       placeholder="Enter URLs separated by commas"
+                                       )
             with gr.Row():
+                db_btn = gr.Radio(["ChromaDB"],
+                                  label="Vector database type",
+                                  value = "ChromaDB",
+                                  type="index",
+                                  info="Choose your vector database")
             with gr.Accordion("Advanced options - Document text splitter", open=False):
                 with gr.Row():
+                    slider_chunk_size = gr.Slider(minimum = 100,
+                                                  maximum = 1000,
+                                                  value=600,
+                                                  step=20,
+                                                  label="Chunk size",
+                                                  info="Chunk size",
+                                                  interactive=True)
                 with gr.Row():
+                    slider_chunk_overlap = gr.Slider(minimum = 10,
+                                                     maximum = 200,
+                                                     value=40,
+                                                     step=10,
+                                                     label="Chunk overlap",
+                                                     info="Chunk overlap",
+                                                     interactive=True)
             with gr.Row():
                 db_progress = gr.Textbox(label="Vector database initialization", value="None")
             with gr.Row():
         with gr.Tab("Step 2 - QA chain initialization"):
             with gr.Row():
+                llm_btn = gr.Radio(list_llm_simple,
+                                    label="LLM models",
+                                    value = list_llm_simple[0],
+                                    type="index",
+                                    info="Choose your LLM model")
             with gr.Accordion("Advanced options - LLM model", open=False):
                 with gr.Row():
+                    slider_temperature = gr.Slider(minimum = 0.0,
+                                                   maximum = 1.0,
+                                                   value=0.7,
+                                                   step=0.1,
+                                                   label="Temperature",
+                                                   info="Model temperature",
+                                                   interactive=True)
                 with gr.Row():
+                    slider_maxtokens = gr.Slider(minimum = 224,
+                                                 maximum = 4096,
+                                                 value=1024,
+                                                 step=32,
+                                                 label="Max Tokens",
+                                                 info="Model max tokens",
+                                                 interactive=True)
                 with gr.Row():
+                    slider_topk = gr.Slider(minimum = 1,
+                                            maximum = 10,
+                                            value=3,
+                                            step=1,
+                                            label="top-k samples",
+                                            info="Model top-k samples",
+                                            interactive=True)
             with gr.Row():
                 llm_progress = gr.Textbox(value="None",label="QA chain initialization")
             with gr.Row():
         db_btn.click(initialize_database, \
             inputs=[document, input_url, slider_chunk_size, slider_chunk_overlap], \
             outputs=[vector_db, collection_name, db_progress])
         qachain_btn.click(initialize_LLM, \
             inputs=[llm_btn, slider_temperature, slider_maxtokens, slider_topk, vector_db], \
             outputs=[qa_chain, llm_progress]).then(lambda:[None,"",0,"",0], \
         # Chatbot events
         msg.submit(conversation, \
             inputs=[qa_chain, msg, chatbot], \
+            outputs=[qa_chain, msg, chatbot], \
             queue=False)
         submit_btn.click(conversation, \
             inputs=[qa_chain, msg, chatbot], \
+            outputs=[qa_chain, msg, chatbot], \
             queue=False)
         clear_btn.click(lambda:[None,"",0,"",0], \
             inputs=None, \