qdi0
/

langChain_multiple_pdf

Model card Files Files and versions

xet

Community

qdi0 commited on Apr 14, 2023

Commit

d5275a7

1 Parent(s): b1321ac

init commit

Browse files

Files changed (3) hide show

.gitignore +4 -0
app.py +83 -0
requirements.txt +108 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,4 @@

+.venv
+.env
+.chroma
+.DS_Store

app.py ADDED Viewed

	@@ -0,0 +1,83 @@

+from langchain.vectorstores import Chroma
+from langchain.embeddings import OpenAIEmbeddings
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.llms import OpenAI
+from langchain.chains import VectorDBQA, RetrievalQA
+from langchain.chat_models import ChatOpenAI
+from langchain.document_loaders import TextLoader, PyPDFLoader
+from langchain import PromptTemplate
+from PyPDF2 import PdfFileMerger
+import gradio as gr
+from dotenv import load_dotenv
+import openai
+import glob
+import os
+load_dotenv()
+os.environ["OPENAI_API_KEY"] = os.environ['OPENAI_API_KEY']
+merge_file = 'src/retrieval_qa/pdf/merge.pdf'
+if not os.path.isfile(merge_file):
+    pdf_file_merger = PdfFileMerger()
+    for file_name in glob.glob('src/retrieval_qa/pdf/*.pdf'):
+        pdf_file_merger.append(file_name)
+    pdf_file_merger.write(merge_file)
+    pdf_file_merger.close()
+loader = PyPDFLoader(merge_file)
+documents = loader.load()
+text_splitter = RecursiveCharacterTextSplitter(
+    chunk_size=1000, chunk_overlap=0)
+texts = text_splitter.split_documents(documents)
+embeddings = OpenAIEmbeddings()
+vectordb = Chroma.from_documents(texts, embeddings)
+qa = RetrievalQA.from_chain_type(llm=ChatOpenAI(
+    model_name="gpt-3.5-turbo"), chain_type="stuff", retriever=vectordb.as_retriever())
+# プロンプトの定義
+template = """
+あなたは再生医療・美容医学について学習したAIアシスタントです。下記の質問に具体的で医学的な回答をしてください。
+質問：{question}
+回答：
+"""
+prompt = PromptTemplate(
+    input_variables=["question"],
+    template=template,
+)
+def add_text(history, text):
+    history = history + [(text, None)]
+    return history, ""
+def bot(history):
+    query = history[-1][0]
+    query = prompt.format(question=query)
+    answer = qa.run(query)
+    source = qa._get_docs(query)[0]
+    source_sentence = source.page_content
+    answer_source = source_sentence + "\n"+"source:" + \
+        source.metadata["source"] + ", page:" + str(source.metadata["page"])
+    history[-1][1] = answer  # + "\n\n情報ソースは以下です：\n" + answer_source
+    return history
+with gr.Blocks() as demo:
+    chatbot = gr.Chatbot([], elem_id="chatbot").style(height=400)
+    with gr.Row():
+        with gr.Column(scale=0.6):
+            txt = gr.Textbox(
+                show_label=False,
+                placeholder="Enter text and press enter",
+            ).style(container=False)
+    txt.submit(add_text, [chatbot, txt], [chatbot, txt]).then(
+        bot, chatbot, chatbot
+    )
+demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,108 @@

+aiofiles==23.1.0
+aiohttp==3.8.4
+aiosignal==1.3.1
+altair==4.2.2
+anyio==3.6.2
+async-timeout==4.0.2
+attrs==22.2.0
+backoff==2.2.1
+cachetools==5.3.0
+certifi==2022.12.7
+charset-normalizer==3.1.0
+chromadb==0.3.21
+click==8.1.3
+clickhouse-connect==0.5.20
+contourpy==1.0.7
+cycler==0.11.0
+dataclasses-json==0.5.7
+duckdb==0.7.1
+entrypoints==0.4
+fastapi==0.95.1
+ffmpy==0.3.0
+filelock==3.11.0
+fonttools==4.39.3
+frozenlist==1.3.3
+fsspec==2023.4.0
+gptcache==0.1.10
+gradio==3.26.0
+gradio_client==0.1.2
+h11==0.14.0
+hnswlib==0.7.0
+httpcore==0.17.0
+httptools==0.5.0
+httpx==0.24.0
+huggingface-hub==0.13.4
+idna==3.4
+importlib-resources==5.12.0
+Jinja2==3.1.2
+joblib==1.2.0
+jsonschema==4.17.3
+kiwisolver==1.4.4
+langchain==0.0.139
+linkify-it-py==2.0.0
+lz4==4.3.2
+markdown-it-py==2.2.0
+MarkupSafe==2.1.2
+marshmallow==3.19.0
+marshmallow-enum==1.5.1
+matplotlib==3.7.1
+mdit-py-plugins==0.3.3
+mdurl==0.1.2
+monotonic==1.6
+mpmath==1.3.0
+multidict==6.0.4
+mypy-extensions==1.0.0
+networkx==3.1
+nltk==3.8.1
+numpy==1.24.2
+openai==0.27.4
+openapi-schema-pydantic==1.2.4
+orjson==3.8.10
+packaging==23.1
+pandas==2.0.0
+Pillow==9.5.0
+posthog==2.5.0
+pydantic==1.10.7
+pydub==0.25.1
+pyparsing==3.0.9
+pypdf==3.7.1
+PyPDF2==2.0.0
+pyrsistent==0.19.3
+python-dateutil==2.8.2
+python-dotenv==1.0.0
+python-multipart==0.0.6
+pytz==2023.3
+PyYAML==6.0
+regex==2023.3.23
+requests==2.28.2
+scikit-learn==1.2.2
+scipy==1.10.1
+semantic-version==2.10.0
+sentence-transformers==2.2.2
+sentencepiece==0.1.98
+six==1.16.0
+sniffio==1.3.0
+SQLAlchemy==1.4.47
+starlette==0.26.1
+sympy==1.11.1
+tenacity==8.2.2
+threadpoolctl==3.1.0
+tiktoken==0.3.3
+tokenizers==0.13.3
+toolz==0.12.0
+torch==2.0.0
+torchvision==0.15.1
+tqdm==4.65.0
+transformers==4.28.0
+typing-inspect==0.8.0
+typing_extensions==4.5.0
+tzdata==2023.3
+uc-micro-py==1.0.1
+urllib3==1.26.15
+uvicorn==0.21.1
+uvloop==0.17.0
+watchfiles==0.19.0
+websockets==11.0.1
+yarl==1.8.2
+zipp==3.15.0
+zstandard==0.20.0