Spaces:

musesis
/

oasis-chatbot

Sleeping

App Files Files Community

hallu11 commited on Jun 15, 2025

Commit

0b15b8d

verified ·

1 Parent(s): 57b6a63

Update app.py

Browse files

Files changed (1) hide show

app.py +55 -77

app.py CHANGED Viewed

@@ -1,5 +1,3 @@
-# app.py
 import os
 import fitz  # PyMuPDF
 import gradio as gr
@@ -8,78 +6,76 @@ import numpy as np
 from sentence_transformers import SentenceTransformer
 from groq import Groq
-# STEP 1. Groq API 키 설정 (Spaces 환경변수 사용 권장)
-GROQ_API_KEY = os.environ.get("GROQ_API_KEY")
-client = Groq(api_key=GROQ_API_KEY)
-# STEP 2. PDF 경로
 pdf_paths = [
-    "pdfs/의왕단오축제.pdf",
-    "pdfs/성인문화학교.pdf",
     "pdfs/횡성문화원_문화학교.pdf",
-    "pdfs/발달장애인교육사업.pdf",
-    "pdfs/횡성축제소개.pdf",
-    "pdfs/어린이문화학교.pdf"
 ]
-# STEP 3. PDF 텍스트 추출
-def extract_texts_from_pdfs(pdf_paths):
-    chunks = []
-    for path in pdf_paths:
-        try:
-            with fitz.open(path) as doc:
-                for page in doc:
-                    text = page.get_text().strip()
-                    if len(text) > 30:
-                        chunks.append({"text": text, "source": os.path.basename(path)})
-            print(f"✅ 추출 성공: {path}")
-        except Exception as e:
-            print(f"❌ 오류: {path} -> {e}")
-    return chunks
 docs = extract_texts_from_pdfs(pdf_paths)
-# STEP 4. 임베딩 및 FAISS 인덱스
 embed_model = SentenceTransformer("jhgan/ko-sroberta-multitask")
-texts = [doc["text"] for doc in docs]
 embeddings = embed_model.encode(texts, convert_to_numpy=True, show_progress_bar=True)
 index = faiss.IndexFlatL2(embeddings.shape[1])
-index.add(np.array(embeddings))
-# STEP 5. 검색 함수
 def search_similar_docs(query, top_k=3):
-    query_emb = embed_model.encode([query])[0]
-    scores, indices = index.search(np.array([query_emb]), top_k)
-    results = []
-    for idx in indices[0]:
-        results.append(docs[idx]["text"])
-    return "\n\n".join(results)
-# STEP 6. Groq 질의응답
 def ask_with_groq(question, context):
-    response = client.chat.completions.create(
         model="llama3-8b-8192",
         messages=[
-            {"role": "system", "content": "너는 문화 프로그램 관련 문서 기반 한국어 Q&A 챗봇이야."},
-            {"role": "user", "content": f"{question}\n\n[관련 문서 발췌]\n{context[:3000]}"}
         ]
     )
-    return response.choices[0].message.content
-# STEP 7. 챗봇 함수
 chat_history = []
-def chatbot_fn(message, keyword):
     global chat_history
-    message = message.strip()
-    if not message:
         return "", chat_history
     context = search_similar_docs(message)
     if not context:
-        chat_history.append(("🙋‍♂️ " + message, "❌ 관련 문서를 찾지 못했습니다."))
-        return "", chat_history
-    response = ask_with_groq(message, context)
-    chat_history.append(("🙋‍♂️ " + message, "🤖 " + response))
     return "", chat_history
 def clear_chat():
@@ -87,36 +83,18 @@ def clear_chat():
     chat_history = []
     return chat_history
-# STEP 8. Gradio UI
-suggested_questions = [
-    "의왕단오축제는 언제 열리나요?",
-    "성인 문화학교 교육 대상은 누구인가요?",
-    "횡성문화원 문화학교는 어떤 수업이 있나요?",
-    "꿈꾸는 마을 프로그램은 어떤 지원을 하나요?",
-    "어린이 문화학교는 몇 세부터 참여 가능한가요?"
-]
-with gr.Blocks(title="📘 오아시스 문화 챗봇") as demo:
-    gr.Markdown("## 📘 오아시스 문서 기반 문화 프로그램 챗봇 🤖 '뮤지스(Musesis)'")
-    gr.Markdown("질문을 입력하면 유사 문서를 검색해 답변해줍니다. (업로드 없이 사용 가능)")
-    chatbot = gr.Chatbot(label="🤖 챗봇 응답", height=400)
-    with gr.Row():
-        keyword_input = gr.Textbox(label="🔍 키워드 (선택)", placeholder="예: 단오축제, 문화학교")
-        user_input = gr.Textbox(label="✉️ 질문", placeholder="질문을 입력하세요", lines=1)
-    with gr.Row():
-        send_btn = gr.Button("질문하기")
-        clear_btn = gr.Button("대화 초기화")
-    send_btn.click(chatbot_fn, inputs=[user_input, keyword_input], outputs=[user_input, chatbot])
-    user_input.submit(chatbot_fn, inputs=[user_input, keyword_input], outputs=[user_input, chatbot])
-    clear_btn.click(clear_chat, outputs=chatbot)
-    with gr.Accordion("💡 추천 질문", open=False):
-        for q in suggested_questions:
-            q_btn = gr.Button(q)
-            def ask_suggested(q=q):
-                return chatbot_fn(q, "")
-            q_btn.click(ask_suggested, outputs=[user_input, chatbot])
 demo.launch()

 import os
 import fitz  # PyMuPDF
 import gradio as gr
 from sentence_transformers import SentenceTransformer
 from groq import Groq
+# 🌟 환경변수
+os.environ["GROQ_API_KEY"] = os.getenv("GROQ_API_KEY", "YOUR_GROQ_KEY")
+client = Groq(api_key=os.environ["GROQ_API_KEY"])
+# 📚 PDF 파일 위치 (Spaces 에서 "pdfs/" 폴더를 사용)
 pdf_paths = [
+    "pdfs/의왕단오축제 _ 의왕문화원.pdf",
+    "pdfs/성인 문화학교 _ 의왕문화원.pdf",
     "pdfs/횡성문화원_문화학교.pdf",
+    "pdfs/발달장애인 교육사업 _ 꿈꾸는 마을.pdf",
+    "pdfs/횡성의지역축제 - 횡성축제소개.pdf",
+    "pdfs/어린이 문화학교 _ 의왕문화원.pdf"
 ]
+# 📝 PDF에서 페이지별 텍스트 추출
+def extract_texts_from_pdfs(paths):
+    docs = []
+    for path in paths:
+        if not os.path.exists(path):
+            print("⚠️ 파일 없음:", path)
+            continue
+        doc = fitz.open(path)
+        for pg in doc:
+            text = pg.get_text().strip()
+            if len(text) > 30:
+                docs.append({"text": text, "source": os.path.basename(path)})
+    print("👉 총 문서 조각 수:", len(docs))
+    return docs
 docs = extract_texts_from_pdfs(pdf_paths)
+# 🧠 임베딩 및 FAISS 색인
 embed_model = SentenceTransformer("jhgan/ko-sroberta-multitask")
+texts = [d["text"] for d in docs]
 embeddings = embed_model.encode(texts, convert_to_numpy=True, show_progress_bar=True)
 index = faiss.IndexFlatL2(embeddings.shape[1])
+index.add(embeddings)
+print("✅ FAISS 색인 완료:", index.ntotal)
+# 🔎 유사 문서 검색
 def search_similar_docs(query, top_k=3):
+    q_emb = embed_model.encode([query])[0]
+    scores, idxs = index.search(np.array([q_emb]), top_k)
+    return "\n\n".join([texts[i] for i in idxs[0]])
+# 🤖 Groq 기반 응답
 def ask_with_groq(question, context):
+    resp = client.chat.completions.create(
         model="llama3-8b-8192",
         messages=[
+            {"role": "system", "content": "한국어 문화 프로그램 Q&A 챗봇이에요."},
+            {"role": "user", "content": f"{question}\n\n[관련 문서]\n{context[:3000]}"}
         ]
     )
+    return resp.choices[0].message.content
+# 💬 챗봇 함수
 chat_history = []
+def chatbot_fn(message):
     global chat_history
+    if not message.strip():
         return "", chat_history
     context = search_similar_docs(message)
     if not context:
+        chat_history.append((f"🙋‍♂️ {message}", "❌ 관련 문서를 찾지 못했습니다."))
+    else:
+        resp = ask_with_groq(message, context)
+        chat_history.append((f"🙋‍♂️ {message}", f"🤖 {resp}"))
     return "", chat_history
 def clear_chat():
     chat_history = []
     return chat_history
+# 🌟 Gradio UI
+with gr.Blocks(title="🧠 뮤지스 문화챗봇") as demo:
+    gr.Markdown("## 📘 오아시스 문화 프로그램 챗봇")
+    gr.Markdown("> 질문을 입력하면 문서 기반으로 답변을 드립니다.")
+    chat = gr.Chatbot()
+    inp = gr.Textbox(placeholder="질문을 입력하세요", lines=1)
+    send = gr.Button("질문하기")
+    clear = gr.Button("대화 초기화")
+    send.click(chatbot_fn, inputs=[inp], outputs=[inp, chat])
+    inp.submit(chatbot_fn, inputs=[inp], outputs=[inp, chat])
+    clear.click(clear_chat, outputs=[chat])
 demo.launch()