Spaces:

cloud-sean
/

AOAI-Form-Recognizer

Running

App Files Files Community

cloud-sean commited on Feb 20, 2023

Commit

3be2bfb

1 Parent(s): a21259c

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -57

app.py CHANGED Viewed

@@ -1,55 +1,31 @@
 import gradio as gr
-from PyPDF2 import PdfReader
 import tqdm
-import os
-import openai
-import time
-import gradio as gr
-from langchain.embeddings.openai import OpenAIEmbeddings
-from langchain.text_splitter import CharacterTextSplitter, RecursiveCharacterTextSplitter
 from langchain.vectorstores import Chroma
-from langchain.docstore.document import Document
-from langchain.prompts import PromptTemplate
-from langchain.document_loaders import TextLoader
-from langchain.chains.question_answering import load_qa_chain
-from langchain.llms import AzureOpenAI
-from chromadb.utils import embedding_functions
-from langchain.text_splitter import CharacterTextSplitter
 from langchain.embeddings.openai import OpenAIEmbeddings
-from langchain.vectorstores import Chroma
 from langchain import VectorDBQA
 from langchain.llms import AzureOpenAI
-import openai
 os.environ["OPENAI_API_TYPE"] = openai.api_type = "azure"
 os.environ["OPENAI_API_VERSION"] = openai.api_version = "2022-12-01"
 os.environ["OPENAI_API_BASE"] = openai.api_base = "https://openai-endpoint.openai.azure.com/"
 os.environ["OPENAI_API_KEY"] = openai.api_key = "f056ead909e54ea0a2fb570e2febad2b"
-embeddings = []
-def pdf_to_text(file_obj, pdf_text, vectorstore, progress = gr.Progress(track_tqdm=True)):
-    reader = PdfReader(file_obj)
     number_of_pages = len(reader.pages)
     pdf_text = ""
     for page_number in range(number_of_pages):
         page = reader.pages[page_number]
         pdf_text += page.extract_text()
     text_splitter = RecursiveCharacterTextSplitter(
     chunk_size = 1000,
     chunk_overlap  = 200,
     length_function = len,)
     texts = text_splitter.split_text(pdf_text)
     for text in tqdm.tqdm(texts):
         try:
             response = openai.Embedding.create(
             input=text,
@@ -64,46 +40,50 @@ def pdf_to_text(file_obj, pdf_text, vectorstore, progress = gr.Progress(track_tq
             engine="text-embedding-ada-002")
             emb = response['data'][0]['embedding']
             embeddings.append(emb)
     azure_embeddings = OpenAIEmbeddings(document_model_name="text-embedding-ada-002",query_model_name="text-embedding-ada-002")
     vectorstore = Chroma("collection", embedding_function=azure_embeddings)
     vectorstore._collection.add(
-    ids= [f"doc_{i}" for i in range(len(texts))],
-    documents=texts,
-    embeddings=embeddings,
-    metadatas=[{"source": "source"} for text in texts]
-    )
-    return pdf_text, vectorstore
-def add_text(state, query, vectorstore):
-    # state = state + [(text, text + "?")]
-    qa = VectorDBQA.from_chain_type(llm= AzureOpenAI(deployment_name="davinci003", model_name="text-davinci-003"), chain_type="stuff", vectorstore=vectorstore)
-    qa = qa.run(query)
-    # chain.run(input_documents=docs, question=query)
-    state = state + [(query, qa)]
-    return state, state, vectorstore
-with gr.Blocks(title="AOAI") as demo:
-    pdf_text = gr.State([])
-    vectorstore = gr.State([])
-    text_box = gr.TextArea()
-    upload_button = gr.UploadButton("Click to Upload a File", file_types=["pdf"])
-    upload_button.upload(pdf_to_text, inputs=[upload_button, pdf_text, vectorstore], outputs=[pdf_text, vectorstore])
-    with gr.Row():
-        chatbot = gr.Chatbot()
-        state = gr.State([])
-        text = gr.Textbox(show_label=False, placeholder="Enter text and press enter").style(container=False)
-        text.submit(add_text, [state, text, vectorstore], [chatbot, state, vectorstore])
 demo.launch(enable_queue=True)

 import gradio as gr
+import openai, os
 import tqdm
 from langchain.vectorstores import Chroma
+from PyPDF2 import PdfReader
+from langchain.text_splitter import CharacterTextSplitter, RecursiveCharacterTextSplitter
 from langchain.embeddings.openai import OpenAIEmbeddings
 from langchain import VectorDBQA
 from langchain.llms import AzureOpenAI
 os.environ["OPENAI_API_TYPE"] = openai.api_type = "azure"
 os.environ["OPENAI_API_VERSION"] = openai.api_version = "2022-12-01"
 os.environ["OPENAI_API_BASE"] = openai.api_base = "https://openai-endpoint.openai.azure.com/"
 os.environ["OPENAI_API_KEY"] = openai.api_key = "f056ead909e54ea0a2fb570e2febad2b"
+def upload_pdf(file, pdf_text, embeddings, vectorstore, azure_embeddings, qa, progress = gr.Progress(track_tqdm=True)):
+    reader = PdfReader(file)
     number_of_pages = len(reader.pages)
     pdf_text = ""
     for page_number in range(number_of_pages):
         page = reader.pages[page_number]
         pdf_text += page.extract_text()
     text_splitter = RecursiveCharacterTextSplitter(
     chunk_size = 1000,
     chunk_overlap  = 200,
     length_function = len,)
     texts = text_splitter.split_text(pdf_text)
     for text in tqdm.tqdm(texts):
         try:
             response = openai.Embedding.create(
             input=text,
             engine="text-embedding-ada-002")
             emb = response['data'][0]['embedding']
             embeddings.append(emb)
     azure_embeddings = OpenAIEmbeddings(document_model_name="text-embedding-ada-002",query_model_name="text-embedding-ada-002")
     vectorstore = Chroma("collection", embedding_function=azure_embeddings)
     vectorstore._collection.add(
+        ids= [f"doc_{i}" for i in range(len(texts))],
+        documents=texts,
+        embeddings=embeddings,
+        metadatas=[{"source": "source"} for text in texts])
+    qa = VectorDBQA.from_chain_type(llm= AzureOpenAI(deployment_name="davinci003", model_name="text-davinci-003"), chain_type="stuff", vectorstore=vectorstore)
+    return pdf_text, pdf_text, embeddings, vectorstore, azure_embeddings, qa, gr.update(visible=True), gr.update(visible=True), gr.update(visible=False)
+def add_text(chatstate, query, qa):
+    # chain.run(input_documents=docs, question=query)
+    chatstate = chatstate + [(query, qa.run(query))]
+    return chatstate, chatstate, qa
+with gr.Blocks() as demo:
+    qa = pdf_text = embeddings = vectorstore = azure_embeddings = gr.State([])
+    with gr.Row(visible=False) as chat_row:
+        chatbot = gr.Chatbot()
+    with gr.Row(visible=False) as submit_row:
+        text = gr.Textbox(show_label=False, placeholder="Enter text and press enter").style(container=False)
+    chatstate = gr.State([])
+    text.submit(add_text, [chatstate, text, qa], [chatbot, chatstate, qa])
+    # set state
+    with gr.Column() as upload_column:
+        file = gr.File()
+        upload_btn = gr.Button("Upload")
+        output_text = gr.TextArea()
+        upload_btn.click(upload_pdf, inputs=[file, pdf_text, embeddings, vectorstore, azure_embeddings, qa], outputs=[output_text, pdf_text, embeddings, vectorstore, azure_embeddings, qa, chat_row, submit_row, upload_column])
 demo.launch(enable_queue=True)