Spaces:

3gg
/

isa

Sleeping

App Files Files Community

3gg commited on May 9, 2023

Commit

5c402d8

1 Parent(s): 804c5c7

Use next tier model for better results; parse document from PDF.

Browse files

Files changed (4) hide show

.gitattributes +1 -34
app.py +16 -6
rdna3-shader-instruction-set-architecture-feb-2023_0.pdf +3 -0
requirements.txt +1 -0

.gitattributes CHANGED Viewed

@@ -1,34 +1 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text


1	+ *.pdf filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -1,19 +1,29 @@
 import gradio as gr
 from langchain import HuggingFaceHub
 from langchain.chains.question_answering import load_qa_chain
-from langchain.document_loaders import TextLoader
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.llms import HuggingFacePipeline
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.vectorstores import FAISS
 print("Loading documents")
-loader = TextLoader("rdna3.txt")
 documents = loader.load()
 print("Creating chunks")
-splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=50)
 chunks = splitter.split_documents(documents)
 print("Creating database")
@@ -22,13 +32,13 @@ db = FAISS.from_documents(chunks, embeddings)
 print("Loading model")
 llm = HuggingFacePipeline.from_model_id(
-    model_id="google/flan-t5-base",
     task="text2text-generation",
-    model_kwargs={"temperature": 0, "max_length": 128})
 chain = load_qa_chain(llm, chain_type="stuff")
 def ask(question):
-    answers = db.similarity_search(question, k=4)
     result = chain.run(input_documents=answers, question=question)
     return result

 import gradio as gr
 from langchain import HuggingFaceHub
 from langchain.chains.question_answering import load_qa_chain
+from langchain.document_loaders import PyMuPDFLoader
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.llms import HuggingFacePipeline
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.vectorstores import FAISS
+# Number of search results to query from the vector database.
+SIMILARITY_SEARCH_COUNT = 2
+# Size of each document chunk in number of characters.
+CHUNK_SIZE = 1000
+# Maximum number of output tokens.
+MODEL_MAX_LENGTH = 300
 print("Loading documents")
+loader = PyMuPDFLoader("rdna3-shader-instruction-set-architecture-feb-2023_0.pdf")
 documents = loader.load()
 print("Creating chunks")
+splitter = RecursiveCharacterTextSplitter(chunk_size=CHUNK_SIZE, chunk_overlap=0)
 chunks = splitter.split_documents(documents)
 print("Creating database")
 print("Loading model")
 llm = HuggingFacePipeline.from_model_id(
+    model_id="google/flan-t5-large",
     task="text2text-generation",
+    model_kwargs={"temperature": 0, "max_length": MODEL_MAX_LENGTH})
 chain = load_qa_chain(llm, chain_type="stuff")
 def ask(question):
+    answers = db.similarity_search(question, k=SIMILARITY_SEARCH_COUNT)
     result = chain.run(input_documents=answers, question=question)
     return result

rdna3-shader-instruction-set-architecture-feb-2023_0.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bff84b0bc818446356e73ba894149b8c810549fa240a9872b46179f412fcd13b
+size 3246429

requirements.txt CHANGED Viewed

@@ -2,3 +2,4 @@ langchain
 faiss-cpu
 sentence_transformers
 protobuf==3.20.1

 faiss-cpu
 sentence_transformers
 protobuf==3.20.1
+pymupdf