Spaces:

red1xe
/

codeGPT

Runtime error

App Files Files Community

red1xe commited on Aug 10, 2023

Commit

5949a92

1 Parent(s): 4862b9f

some changes has been done

Browse files

Files changed (1) hide show

app.py +28 -24

app.py CHANGED Viewed

@@ -1,40 +1,36 @@
 import os
 import time
 import streamlit as st
-from dotenv import load_dotenv
 from htmlTemplates import css, bot_template, user_template
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.vectorstores import Chroma
 from langchain.memory import ConversationBufferMemory
-from langchain.prompts import PromptTemplate
 from langchain.chains import RetrievalQA
-from langchain.llms import HuggingFaceHub
-from langchain import PromptTemplate
 from pdfminer.high_level import extract_text
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 # Updated Prompt Template
-template = """You are an expert on TeamCenter. Use the following pieces of context to answer the question at the end.
-If you don't know the answer, it's okay to say that you don't know. Please don't try to make up an answer.
-Use two sentences minimum and keep the answer as concise as possible (maximum 200 characters each).
-Always use proper grammar and punctuation. End of the answer always say "End of answer" (without quotes).
-Context:
-{context}
-Question: {question}
-Helpful Answer (Two sentences minimum, maximum 200 characters each):"""
-tokenizer = AutoTokenizer.from_pretrained("red1xe/falcon-7b-codeGPT-3K")
-model = AutoModelForSeq2SeqLM.from_pretrained("red1xe/falcon-7b-codeGPT-3K")
-## QA_CHAIN_PROMPT = PromptTemplate(template=template, input_variables=["question", "context"])
-load_dotenv()
-persist_directory = os.environ.get('PERSIST_DIRECTORY')
-embeddings_model_name = os.environ.get("EMBEDDINGS_MODEL_NAME")
-model_path = os.environ.get('MODEL_PATH')
 def get_vector_store(target_source_chunks):
     embeddings = HuggingFaceEmbeddings(model_name=embeddings_model_name)
@@ -96,10 +92,18 @@ def main():
     if st.button('Start Chain'):
         with st.spinner('Working in progress ...'):
-            vector_store = get_vector_store(target_source_chunks)
-            st.session_state.conversation = get_conversation_chain(
-                retriever=vector_store,
-            )
     if user_question:
         handle_userinput(user_question)

 import os
 import time
 import streamlit as st
 from htmlTemplates import css, bot_template, user_template
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.vectorstores import Chroma
 from langchain.memory import ConversationBufferMemory
 from langchain.chains import RetrievalQA
 from pdfminer.high_level import extract_text
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, AutoModelForCausalLM
 # Updated Prompt Template
+tokenizer = AutoTokenizer.from_pretrained("red1xe/Llama-2-7B-codeGPT")
+model = AutoModelForCausalLM.from_pretrained("red1xe/Llama-2-7B-codeGPT")
+persist_directory = 'db'
+embeddings_model_name = 'sentence-transformers/all-MiniLM-L6-v2'
+def get_pdf_text(pdf_path):
+    return extract_text(pdf_path)
+def get_pdf_text_chunks(pdf_text):
+    text_splitter = RecursiveCharacterTextSplitter()
+    return text_splitter.split_text(text=pdf_text, max_chunk_length=1000, min_chunk_length=100, overlap_length=100)
+def create_vector_store(target_source_chunks):
+    embeddings = HuggingFaceEmbeddings(model_name=embeddings_model_name)
+    db = Chroma(persist_directory=persist_directory, embedding_function=embeddings)
+    db.add(target_source_chunks)
+    return db
 def get_vector_store(target_source_chunks):
     embeddings = HuggingFaceEmbeddings(model_name=embeddings_model_name)
     if st.button('Start Chain'):
         with st.spinner('Working in progress ...'):
+            pdf_file = st.file_uploader("Upload PDF", type=['pdf'])
+            if pdf_file is not None:
+                pdf_text = get_pdf_text(pdf_file)
+                pdf_text_chunks = get_pdf_text_chunks(pdf_text)
+                st.session_state.vector_store = create_vector_store(pdf_text_chunks)
+                st.session_state.conversation = get_conversation_chain(
+                    retriever=st.session_state.vector_store,
+                )
+                st.success('Vectorstore created successfully! You can start chatting now!')
+            else:
+                st.warning('Please upload a PDF file first!')
     if user_question:
         handle_userinput(user_question)