Spaces:

anasmkh
/

chabi

Sleeping

App Files Files Community

anasmkh commited on Dec 30, 2023

Commit

2416f1c

1 Parent(s): 37ddf11

update main.py

Browse files

Files changed (1) hide show

main.py +11 -30

main.py CHANGED Viewed

@@ -12,43 +12,26 @@ from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from transformers import AutoModelForSequenceClassification, AutoTokenizer
-# model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased-finetuned-mrpc")
-# tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased-finetuned-mrpc")
-#
 tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-base")
 model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-base")
-# model_id = "lamdao/lora-trained-xl-colab"
-# tokenizer = AutoTokenizer.from_pretrained(model_id)
-# model = AutoModelForCausalLM.from_pretrained(model_id)
-pipeline = pipeline(
-    "text-generation",
     model=model,
     tokenizer=tokenizer,
-    max_length=512
 )
-# local_llm = HuggingFacePipeline(pipeline=pipeline)
-# pipe = pipeline(
-#     "text2text-generation",
-#     model=model,
-#     tokenizer=tokenizer,
-#     max_length=512,
-#     temperature=0.5,
-#     top_p=0.95,
-#     repetition_penalty=1.15
-# )
-local_llm = HuggingFacePipeline(pipeline=pipeline)
-# print(local_llm('What is the capital of Syria?'))
 loader = PyPDFLoader('bipolar.pdf')
 # loader = TextLoader('info.txt')
 document = loader.load()
-text_spliter = CharacterTextSplitter(chunk_size=100, chunk_overlap=0)
 texts = text_spliter.split_documents(document)
 embedding = HuggingFaceInstructEmbeddings()
 docsearch = Chroma.from_documents(texts, embedding, persist_directory='db')
@@ -58,15 +41,13 @@ qa_chain = RetrievalQA.from_chain_type(llm=local_llm,
                                        chain_type="stuff",
                                        retriever=retriever,
                                        return_source_documents=True)
-# question = input('prompt: ')
-# result = qa_chain({'query': question})
-# print('result: ', result['result'])
 def gradinterface(query,history):
     result = qa_chain({'query': query})
     return result['result']
-demo = gr.ChatInterface(fn=gradinterface, title='OUR_BOT')
 if __name__ == "__main__":
     demo.launch(share=True)

 from transformers import AutoModelForSequenceClassification, AutoTokenizer
 tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-base")
 model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-base")
+pipe = pipeline(
+    "text2text-generation",
     model=model,
     tokenizer=tokenizer,
+    max_length=200,
+    temperature=0.8,
+    top_p=0.95,
+    repetition_penalty=1.15,
+    do_sample=True
 )
+local_llm = HuggingFacePipeline(pipeline=pipe)
 loader = PyPDFLoader('bipolar.pdf')
 # loader = TextLoader('info.txt')
 document = loader.load()
+text_spliter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
 texts = text_spliter.split_documents(document)
 embedding = HuggingFaceInstructEmbeddings()
 docsearch = Chroma.from_documents(texts, embedding, persist_directory='db')
                                        chain_type="stuff",
                                        retriever=retriever,
                                        return_source_documents=True)
 def gradinterface(query,history):
     result = qa_chain({'query': query})
     return result['result']
+demo = gr.ChatInterface(fn=gradinterface, title='OUR_OWN_BOT')
 if __name__ == "__main__":
     demo.launch(share=True)