Spaces:

mikepastor11
/

PennwickFileAnalyzer

Sleeping

App Files Files Community

mikepastor11 commited on Feb 18, 2024

Commit

46158ec

verified ·

1 Parent(s): 5b7b180

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -17

app.py CHANGED Viewed

@@ -4,7 +4,7 @@
 #   HuggingFace Spaces application to anlayze uploaded PDF files
 #           with open-source models ( hkunlp/instructor-xl )
 #
-#   Mike Pastor  February 16, 2024
 import streamlit as st
@@ -25,16 +25,14 @@ from langchain_community.embeddings import HuggingFaceInstructEmbeddings
 # from langchain.vectorstores import FAISS
 from langchain_community.vectorstores import FAISS
 from langchain.text_splitter import CharacterTextSplitter
 from langchain.memory import ConversationBufferMemory
 from langchain.chains import ConversationalRetrievalChain
 #  from langchain.llms import HuggingFaceHub
 from langchain_community.llms import HuggingFaceHub
 def extract_pdf_text(pdf_docs):
     text = ""
     for pdf in pdf_docs:
@@ -43,6 +41,7 @@ def extract_pdf_text(pdf_docs):
             text += page.extract_text()
     return text
 #  Chunk size and overlap must not exceed the models capacity!
 #
 def extract_bitesize_pieces(text):
@@ -55,7 +54,7 @@ def extract_bitesize_pieces(text):
     chunks = text_splitter.split_text(text)
     return chunks
 def prepare_embedding_vectors(text_chunks):
     st.write('Here in vector store....', unsafe_allow_html=True)
@@ -82,7 +81,8 @@ def prepare_embedding_vectors(text_chunks):
     st.write('FAISS succeeds:   ')
     return vectorstore
 def prepare_conversation(vectorstore):
     # llm = ChatOpenAI()
     #  llm = HuggingFaceHub(repo_id="google/flan-t5-xxl", model_kwargs={"temperature":0.5, "max_length":512})
@@ -98,6 +98,7 @@ def prepare_conversation(vectorstore):
     )
     return conversation_chain
 def process_user_question(user_question):
     print('process_user_question called: \n')
@@ -169,19 +170,22 @@ def main():
     # st.set_page_config(page_title="Pennwick PDF Analyzer", page_icon=im )
     # st.set_page_config(page_title="Pennwick PDF Analyzer")
-    import base64
-    from PIL import Image
-    # Open your image
-    image = Image.open("robot_icon.ico")
-    # Convert image to base64 string
-    with open("robot_icon.ico", "rb") as f:
-        encoded_string = base64.b64encode(f.read()).decode()
-    # Set page config with base64 string
-    st.set_page_config(page_title="Pennwick File Analyzer 2", page_icon=f"data:image/ico;base64,{encoded_string}")
     print( 'prepared page...\n')
@@ -194,8 +198,11 @@ def main():
     if "chat_history" not in st.session_state:
         st.session_state.chat_history = None
-    # st.header("Pennwick File Analyzer :books:")
-    st.header("Pennwick File Analyzer 2")
     user_question = None
     user_question = st.text_input("Ask the Open Source - Flan-t5 Model a question about your uploaded documents:")

 #   HuggingFace Spaces application to anlayze uploaded PDF files
 #           with open-source models ( hkunlp/instructor-xl )
 #
+#   Mike Pastor  February 17, 2024
 import streamlit as st
 # from langchain.vectorstores import FAISS
 from langchain_community.vectorstores import FAISS
 from langchain.text_splitter import CharacterTextSplitter
 from langchain.memory import ConversationBufferMemory
 from langchain.chains import ConversationalRetrievalChain
 #  from langchain.llms import HuggingFaceHub
 from langchain_community.llms import HuggingFaceHub
+##################################################################################
 def extract_pdf_text(pdf_docs):
     text = ""
     for pdf in pdf_docs:
             text += page.extract_text()
     return text
+##################################################################################
 #  Chunk size and overlap must not exceed the models capacity!
 #
 def extract_bitesize_pieces(text):
     chunks = text_splitter.split_text(text)
     return chunks
+##################################################################################
 def prepare_embedding_vectors(text_chunks):
     st.write('Here in vector store....', unsafe_allow_html=True)
     st.write('FAISS succeeds:   ')
     return vectorstore
+##################################################################################
 def prepare_conversation(vectorstore):
     # llm = ChatOpenAI()
     #  llm = HuggingFaceHub(repo_id="google/flan-t5-xxl", model_kwargs={"temperature":0.5, "max_length":512})
     )
     return conversation_chain
+##################################################################################
 def process_user_question(user_question):
     print('process_user_question called: \n')
     # st.set_page_config(page_title="Pennwick PDF Analyzer", page_icon=im )
     # st.set_page_config(page_title="Pennwick PDF Analyzer")
+    # import base64
+    # from PIL import Image
+    # # Open your image
+    # image = Image.open("robot_icon.ico")
+    # # Convert image to base64 string
+    # with open("robot_icon.ico", "rb") as f:
+    #     encoded_string = base64.b64encode(f.read()).decode()
+    # # Set page config with base64 string
+    # st.set_page_config(page_title="Pennwick File Analyzer 2", page_icon=f"data:image/ico;base64,{encoded_string}")
+    st.set_page_config(page_title="Pennwick File Analyzer", page_icon="./robot_icon.ico")
     print( 'prepared page...\n')
     if "chat_history" not in st.session_state:
         st.session_state.chat_history = None
+    # st.header("Pennwick File Analyzer :shark:")
+    # st.header("Pennwick File Analyzer 2")
+    st.image("robot_icon.png", width=96 )
+    st.header(f"Pennwick File Analyzer")
     user_question = None
     user_question = st.text_input("Ask the Open Source - Flan-t5 Model a question about your uploaded documents:")