Spaces:

mingmingmom888
/

LLMTrainig_Week2_2

Runtime error

App Files Files Community

mingmingmom888 commited on May 29, 2023

Commit

edf5bb0

1 Parent(s): eb3426c

Upload 3 files

Browse files

Files changed (3) hide show

app.py +94 -0
guide1.txt +0 -0
requirements.txt +8 -0

app.py ADDED Viewed

	@@ -0,0 +1,94 @@

+from langchain.embeddings.openai import OpenAIEmbeddings
+from langchain.vectorstores import Chroma
+from langchain.text_splitter import CharacterTextSplitter
+from langchain.chains.question_answering import load_qa_chain
+from langchain.llms import OpenAI
+import os
+from glob import glob
+import shutil
+files = glob("./shakespeare/**/*.html")
+os.mkdir('./data')
+destination_folder = './data/'
+for html_file in files:
+  shutil.move(html_file, destination_folder + html_file.split("/")[-1])
+from langchain.document_loaders import BSHTMLLoader, DirectoryLoader
+bshtml_dir_loader = DirectoryLoader('./data/', loader_cls=BSHTMLLoader)
+data = bshtml_dir_loader.load()
+text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(bloomz_tokenizer, chunk_size=100, chunk_overlap=0, separator="\n")
+documents = text_splitter.split_documents(data)
+from langchain.embeddings import HuggingFaceEmbeddings
+embeddings = HuggingFaceEmbeddings()
+persist_directory = "vector_db"
+vectordb = Chroma.from_documents(documents=documents, embedding=embeddings, persist_directory=persist_directory)
+vectordb = Chroma(persist_directory=persist_directory, embedding_function=embeddings)
+vectordb.persist()
+vectordb = None
+from langchain import HuggingFacePipeline
+llm = HuggingFacePipeline.from_model_id(
+    model_id="bigscience/bloomz-1b7",
+    task="text-generation",
+    model_kwargs={"temperature" : 0, "max_length" : 500})
+doc_retriever = vectordb.as_retriever()
+from langchain.chains import RetrievalQA
+shakespeare_qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=doc_retriever)
+"""
+with open("guide1.txt") as f:
+    hitchhikersguide = f.read()
+text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0, separator = "\n")
+texts = text_splitter.split_text(hitchhikersguide)
+from langchain.embeddings.openai import OpenAIEmbeddings
+#os.environ["OPENAI_API_KEY"] = openai.api_key
+embeddings = OpenAIEmbeddings()
+embeddings = OpenAIEmbeddings()
+docsearch = Chroma.from_texts(texts, embeddings, metadatas=[{"source": str(i)} for i in range(len(texts))]).as_retriever()
+"""
+chain = load_qa_chain(OpenAI(temperature=0), chain_type="stuff")
+def make_inference(query):
+    docs = shakespeare_qa.get_relevant_documents(query)
+    return(chain.run(input_documents=docs, question=query))
+if __name__ == "__main__":
+    # make a gradio interface
+    import gradio as gr
+    gr.Interface(
+        make_inference,
+        [
+            gr.inputs.Textbox(lines=2, label="Query"),
+        ],
+        gr.outputs.Textbox(label="Response"),
+        title="🗣️TalkToMyDoc📄",
+        description="🗣️TalkToMyDoc📄 is a tool that allows you to ask questions about a document. In this case - Hitch Hitchhiker's Guide to the Galaxy.",
+    ).launch()

guide1.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+langchain
+openai
+tiktoken
+beautifulsoup4
+transformers
+huggingface-hub
+sentence_transformers
+chromadb