FakeQA

Build error

App Files Files Community

Charles Chan commited on Feb 11

Commit

1e06430

1 Parent(s): a6c563b

coding

Browse files

Files changed (1) hide show

app.py +10 -3

app.py CHANGED Viewed

@@ -6,7 +6,7 @@ from langchain_community.vectorstores import FAISS
 from datasets import load_dataset
 # Streamlit 界面
-st.title("假知识库问答系统")
 # 使用 假知识 数据集
 if "data_list" not in st.session_state:
@@ -17,6 +17,9 @@ if not st.session_state.data_list:
     try:
         with st.spinner("正在读取数据库..."):
             dataset = load_dataset("zeerd/fake_knowledge")
             data_list = []
             answer_list = []
             for example in dataset["train"]:
@@ -66,6 +69,10 @@ def get_answer(prompt):
 # 问答函数
 def answer_question(repo_id, temperature, max_length, question):
     # 初始化 Gemma 模型
     if repo_id != st.session_state.repo_id or temperature != st.session_state.temperature or max_length != st.session_state.max_length:
         try:
             with st.spinner("正在初始化 Gemma 模型..."):
@@ -86,9 +93,9 @@ def answer_question(repo_id, temperature, max_length, question):
             st.success("答案生成完毕(基于模型自身)！")
             print("答案生成完毕(基于模型自身)！")
         with st.spinner("正在筛选本地数据集..."):
-            # question_embedding = st.session_state.embeddings.embed_query(question)
             # question_embedding_str = " ".join(map(str, question_embedding))
-            docs_and_scores = st.session_state.db.similarity_search_with_relevance_scores(question)
             context_list = []
             for doc, score in docs_and_scores:

 from datasets import load_dataset
 # Streamlit 界面
+st.title("外挂知识库问答系统")
 # 使用 假知识 数据集
 if "data_list" not in st.session_state:
     try:
         with st.spinner("正在读取数据库..."):
             dataset = load_dataset("zeerd/fake_knowledge")
+            # 输出前五条数据
+            print(dataset["train"][:5])
             data_list = []
             answer_list = []
             for example in dataset["train"]:
 # 问答函数
 def answer_question(repo_id, temperature, max_length, question):
     # 初始化 Gemma 模型
+    print('repo_id: ' + repo_id)
+    print('temperature: ' + str(temperature))
+    print('max_length: ' + str(max_length))
     if repo_id != st.session_state.repo_id or temperature != st.session_state.temperature or max_length != st.session_state.max_length:
         try:
             with st.spinner("正在初始化 Gemma 模型..."):
             st.success("答案生成完毕(基于模型自身)！")
             print("答案生成完毕(基于模型自身)！")
         with st.spinner("正在筛选本地数据集..."):
+            question_embedding = st.session_state.embeddings.embed_query(question)
             # question_embedding_str = " ".join(map(str, question_embedding))
+            docs_and_scores = st.session_state.db.similarity_search_with_relevance_scores(question, 8, question_embedding)
             context_list = []
             for doc, score in docs_and_scores: