Spaces:

musesis
/

oasis-chatbot

Sleeping

App Files Files Community

hallu11 commited on Jun 13, 2025

Commit

2aaccd7

verified ·

1 Parent(s): 429bc8d

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -71

app.py CHANGED Viewed

@@ -1,65 +1,62 @@
 import os
-import gradio as gr
 import fitz  # PyMuPDF
 from langchain_core.documents import Document
-from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.vectorstores import FAISS
 from langchain_community.vectorstores.utils import DistanceStrategy
 from langchain_groq import ChatGroq
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
-API_KEY = os.getenv("GROQ_API_KEY")
-if not API_KEY:
-    raise ValueError("GROQ_API_KEY 환경변수가 설정되어 있지 않습니다.")
-from groq import Groq
-client = Groq(api_key=API_KEY)
-def extract_texts_from_pdfs(files):
     pdf_texts = []
-    for file in files:
-        with fitz.open(file.name) as doc:
-            text = "".join(page.get_text() for page in doc)
-            pdf_texts.append({"filename": file.name, "text": text})
-    return pdf_texts
-def create_langchain_docs(pdf_texts):
-    return [
         Document(page_content=doc["text"], metadata={"source": doc["filename"]})
         for doc in pdf_texts
     ]
 embedding_model = HuggingFaceEmbeddings(
     model_name="jhgan/ko-sbert-nli",
     model_kwargs={"device": "cpu"},
     encode_kwargs={"normalize_embeddings": True}
 )
 def filter_documents_by_keyword(docs, keyword):
     keyword_lower = keyword.lower()
     return [doc for doc in docs if keyword_lower in doc.page_content.lower()]
 def build_qa_chain(filtered_docs):
     if not filtered_docs:
         return None
-    local_vs = FAISS.from_documents(
         documents=filtered_docs,
         embedding=embedding_model,
         distance_strategy=DistanceStrategy.COSINE
     )
-    retriever = local_vs.as_retriever(
-        search_type="mmr",
-        search_kwargs={"k": 5, "lambda_mult": 0.2}
-    )
     llm = ChatGroq(model_name="llama3-8b-8192", temperature=0.1)
     prompt = PromptTemplate(
         input_variables=["context", "question"],
-        template=\"\"\"
 당신은 문화 프로그램에 대해 친절하고 정확하게 설명하는 한국어 도우미입니다.
 문서 내용:
@@ -68,9 +65,9 @@ def build_qa_chain(filtered_docs):
 질문: {question}
 지침:
-- 반드시 한국어로 답변해주세요
-- 문서에 없으면 "죄송하지만 해당 정보는 찾을 수 없습니다"라고 답변하세요
-\"\"\"
     )
     return RetrievalQA.from_chain_type(
@@ -81,63 +78,53 @@ def build_qa_chain(filtered_docs):
         return_source_documents=False
     )
-langchain_docs = []
-current_keyword = None
-current_qa_chain = None
-def chatbot_respond(question, files, keyword, chat_history):
-    global langchain_docs, current_keyword, current_qa_chain
-    if files and not langchain_docs:
-        pdf_texts = extract_texts_from_pdfs(files)
-        langchain_docs = create_langchain_docs(pdf_texts)
-    keyword = keyword.strip()
-    if not keyword:
-        return "", chat_history + [("⚠️ 키워드를 입력해주세요.", "")]
     if keyword != current_keyword:
-        filtered_docs = filter_documents_by_keyword(langchain_docs, keyword)
-        current_qa_chain = build_qa_chain(filtered_docs)
         current_keyword = keyword
-    if current_qa_chain is None:
-        return "", chat_history + [(f"'{keyword}' 관련 문서를 찾을 수 없습니다.", "")]
-    chat_history.append((question, "답변 생성 중..."))
-    try:
-        result = current_qa_chain({"query": question})
-        answer = result["result"]
-    except Exception as e:
-        answer = f"⚠️ 오류 발생: {e}"
-    chat_history[-1] = (question, answer)
     return "", chat_history
-def clear_chat():
-    return []
-with gr.Blocks(title="문화 프로그램 Q&A 챗봇") as demo:
-    gr.Markdown("## 📚 문화 프로그램 문서 기반 챗봇\n\n- PDF 파일을 업로드하고\n- 키워드를 입력 후\n- 질문을 하세요.")
-    chatbot = gr.Chatbot(label="💬 챗봇 응답창", height=400)
-    file_upload = gr.File(file_types=[".pdf"], file_count="multiple", label="📎 PDF 업로드")
-    keyword_input = gr.Textbox(label="키워드 입력", placeholder="예: 발달장애인 교육사업", lines=1)
-    user_input = gr.Textbox(label="질문 입력", placeholder="질문을 입력하세요...", lines=1)
-    send_btn = gr.Button("질문 보내기")
-    clear_btn = gr.Button("대화 초기화")
-    chat_history = gr.State([])
-    send_btn.click(
-        fn=chatbot_respond,
-        inputs=[user_input, file_upload, keyword_input, chat_history],
-        outputs=[user_input, chatbot, chat_history]
-    )
-    user_input.submit(
-        fn=chatbot_respond,
-        inputs=[user_input, file_upload, keyword_input, chat_history],
-        outputs=[user_input, chatbot, chat_history]
-    )
-    clear_btn.click(fn=clear_chat, outputs=chatbot)
 demo.launch()

 import os
 import fitz  # PyMuPDF
+import gradio as gr
+from groq import Groq
 from langchain_core.documents import Document
+from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_community.vectorstores import FAISS
 from langchain_community.vectorstores.utils import DistanceStrategy
 from langchain_groq import ChatGroq
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
+# ✅ GROQ API KEY 환경변수에서 불러오기
+client = Groq(api_key=os.environ.get("GROQ_API_KEY"))
+# ✅ PDF 파싱 및 문서화
+all_documents = []
+def load_and_extract(file_path):
+    global all_documents
     pdf_texts = []
+    with fitz.open(file_path) as doc:
+        text = "".join(page.get_text() for page in doc)
+        pdf_texts.append({"filename": os.path.basename(file_path), "text": text})
+    all_documents = [
         Document(page_content=doc["text"], metadata={"source": doc["filename"]})
         for doc in pdf_texts
     ]
+# ✅ 임베딩 모델
 embedding_model = HuggingFaceEmbeddings(
     model_name="jhgan/ko-sbert-nli",
     model_kwargs={"device": "cpu"},
     encode_kwargs={"normalize_embeddings": True}
 )
+# ✅ 키워드 필터링
 def filter_documents_by_keyword(docs, keyword):
     keyword_lower = keyword.lower()
     return [doc for doc in docs if keyword_lower in doc.page_content.lower()]
+# ✅ QA 체인 생성
 def build_qa_chain(filtered_docs):
     if not filtered_docs:
         return None
+    vectorstore = FAISS.from_documents(
         documents=filtered_docs,
         embedding=embedding_model,
         distance_strategy=DistanceStrategy.COSINE
     )
+    retriever = vectorstore.as_retriever(search_type="mmr", search_kwargs={"k": 5, "lambda_mult": 0.2})
     llm = ChatGroq(model_name="llama3-8b-8192", temperature=0.1)
     prompt = PromptTemplate(
         input_variables=["context", "question"],
+        template="""
 당신은 문화 프로그램에 대해 친절하고 정확하게 설명하는 한국어 도우미입니다.
 문서 내용:
 질문: {question}
 지침:
+- 반드시 한국어로 답변해주세요.
+- 문서에 없으면 "죄송하지만 해당 정보는 찾을 수 없습니다"라고 답변하세요.
+"""
     )
     return RetrievalQA.from_chain_type(
         return_source_documents=False
     )
+# ✅ 챗봇 인터페이스
+chat_history = []
+current_chain = None
+current_keyword = ""
+def handle_chat(message, keyword):
+    global current_chain, current_keyword
+    if not all_documents:
+        return "", [("❗ PDF 파일을 먼저 업로드해주세요.", "")]
+    if not keyword.strip():
+        return "", [("❗ 키워드를 입력해주세요.", "")]
     if keyword != current_keyword:
+        filtered = filter_documents_by_keyword(all_documents, keyword)
+        current_chain = build_qa_chain(filtered)
         current_keyword = keyword
+    if not current_chain:
+        return "", [(f"'{keyword}' 관련 문서를 찾을 수 없습니다.", "")]
+    response = current_chain({"query": message})
+    answer = response["result"]
+    chat_history.append((f"🙋‍♂️ {message}", f"🤖 {answer}"))
     return "", chat_history
+def clear_history():
+    global chat_history
+    chat_history = []
+    return chat_history
+with gr.Blocks(title="오아시스 챗봇 Musesis") as demo:
+    gr.Markdown("### 📚 오아시스 PDF 기반 문화 Q&A 챗봇 (Musesis)")
+    file_upload = gr.File(label="📎 PDF 업로드", file_types=[".pdf"], type="filepath")
+    chatbot = gr.Chatbot(label="대화", height=400)
+    keyword_input = gr.Textbox(label="🔍 키워드", placeholder="예: 단오축제, 문화학교")
+    question_input = gr.Textbox(label="✉️ 질문", placeholder="질문을 입력하세요", lines=2)
+    with gr.Row():
+        submit_btn = gr.Button("질문하기 💬")
+        clear_btn = gr.Button("대화 초기화 🧹")
+    file_upload.change(fn=load_and_extract, inputs=file_upload)
+    submit_btn.click(fn=handle_chat, inputs=[question_input, keyword_input], outputs=[question_input, chatbot])
+    question_input.submit(fn=handle_chat, inputs=[question_input, keyword_input], outputs=[question_input, chatbot])
+    clear_btn.click(fn=clear_history, outputs=chatbot)
 demo.launch()