Spaces:

SayknowLab
/

Sayknow_v1

Running

App Files Files Community

SayknowLab commited on 30 days ago

Commit

87409f3

verified ·

1 Parent(s): 03b24e6

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -37

app.py CHANGED Viewed

@@ -1,8 +1,10 @@
 import pandas as pd
 import torch
-from flask import Flask, request, Response
 from transformers import AutoTokenizer, GPT2LMHeadModel
 from dicttoxml import dicttoxml
 app = Flask(__name__)
@@ -13,26 +15,22 @@ print("모델 로딩 중...")
 model = GPT2LMHeadModel.from_pretrained("EleutherAI/polyglot-ko-1.3b", trust_remote_code=True)
 print("모델 로딩 완료!")
-# 2. 데이터셋 로드 (엑셀의 한 컬럼에 지식 데이터가 몰려있는 경우)
 try:
     df = pd.read_excel('dataset.xlsx')
-    knowledge_list = df['데이터셋에 넣을 내용(*)'].tolist() # 데이터셋 문장 리스트화
 except Exception as e:
     print(f"데이터셋 로드 에러: {e}")
     knowledge_list = []
 def find_relevant_context(query, top_n=2):
-    """데이터셋에서 질문과 관련된 문장을 찾아 반환"""
-    # 키워드 기반 필터링 - 공백 제거해서 검색
     query_words = query.replace(" ", "").lower()
     relevant_sentences = []
     for s in knowledge_list:
         s_text = str(s).replace(" ", "").replace("\n", "").lower()
-        # 키워드가 문장에 포함되어 있는지 확인
         if any(word.replace(" ", "") in s_text for word in query.split()):
             relevant_sentences.append(s)
     if relevant_sentences:
         return " ".join(str(s) for s in relevant_sentences[:top_n])
     return ""
@@ -40,18 +38,13 @@ def find_relevant_context(query, top_n=2):
 def ask_sayknow(query):
     try:
         context = find_relevant_context(query)
-        # 자기소개/인사 질문에 대한 명시적 안내 추가
-        # 역할, 예시, 정보/질문 구분, context 없을 때 '정보 없음' 명시
         persona_guide = (
-            "너는 지식 기반 한국어 챗봇 Sayknow야. 자기소개(이름, 정체, 인사 등) 질문엔 '저는 Sayknow입니다.'라고 답해. "
-            "그 외에는 아래 정보를 참고해 질문에 대해 정확하고 자연스러운 한국어 문장으로 80자 이내로 답해.\n"
             "예시: Q: 분수의 덧셈이 뭐야?\nA: 분모가 같을 때 분자끼리 더하면 됩니다.\n"
         )
         info = context if context else "정보 없음"
-        prompt = (
-            f"{persona_guide}---\n[정보]\n{info}\n[질문]\n{query}\n[답변] "
-        )
         input_ids = tokenizer.encode(prompt, return_tensors='pt')
         model.eval()
@@ -69,30 +62,21 @@ def ask_sayknow(query):
                 num_beams=1
             )
         response = tokenizer.decode(gen_ids[0], skip_special_tokens=True)
-        # 답변 부분만 잘라내기
-        if "답변:" in response:
-            answer = response.split("답변:")[-1].strip()
-        else:
-            answer = response.strip()
-        # 1. 의미 없는 수식/영문/특수문자/반복문자 등 필터링
-        import re
-        # 한글, 숫자, 기본 구두점만 허용
         answer = re.sub(r"[^가-힣0-9 .,!?~\n]", "", answer)
-        # 반복되는 특수문자, 숫자, 영문 제거
         answer = re.sub(r"([.,!?~])\1{2,}", r"\1", answer)
         answer = re.sub(r"[a-zA-Z]+", "", answer)
-        # 수식(=, ^, *, / 등) 제거
         answer = re.sub(r"[=^*/\\]+", "", answer)
-        # 연속 공백 정리
         answer = re.sub(r"\s+", " ", answer).strip()
-        # 2. 80자 이내로 자르기 (한글 기준)
         def truncate_korean(text, max_len=80):
             count = 0
             result = ""
             for ch in text:
-                # 한글, 한자, 영문, 숫자, 구두점 모두 1자로 취급
                 result += ch
                 count += 1
                 if count >= max_len:
@@ -100,23 +84,20 @@ def ask_sayknow(query):
             return result
         answer = truncate_korean(answer, 80)
-        # 3. 문장 끝이 자연스럽지 않으면 마침표 추가
         if answer and answer[-1] not in ".!?":
             answer += "."
         return answer
     except Exception as e:
         print(f"ask_sayknow 에러: {e}")
-        import traceback
         traceback.print_exc()
         return f"오류: {str(e)}"
-# 3. REST API 엔드포인트
 @app.route('/chatapi.html', methods=['GET'])
 @app.route('/index.html', methods=['GET'])
-@app.route('/', methods=['GET'])
 def chat_api():
     query = request.args.get('askdata', '')
     if not query:
         result = {"status": "error", "message": "No data"}
     else:
@@ -129,7 +110,6 @@ def chat_api():
             }
         except Exception as e:
             print(f"chat_api 에러: {e}")
-            import traceback
             traceback.print_exc()
             result = {
                 "service": "Sayknow",
@@ -138,9 +118,37 @@ def chat_api():
                 "error": str(e)
             }
-    # XML 변환
     xml_output = dicttoxml(result, custom_root='SayknowAPI', attr_type=False)
     return Response(xml_output, mimetype='text/xml')
 if __name__ == '__main__':
-    app.run(host='0.0.0.0', port=7860)

 import pandas as pd
 import torch
+from flask import Flask, request, Response, render_template_string
 from transformers import AutoTokenizer, GPT2LMHeadModel
 from dicttoxml import dicttoxml
+import re
+import traceback
 app = Flask(__name__)
 model = GPT2LMHeadModel.from_pretrained("EleutherAI/polyglot-ko-1.3b", trust_remote_code=True)
 print("모델 로딩 완료!")
+# 2. 데이터셋 로드 (엑셀 한 컬럼에 지식 데이터 있을 때)
 try:
     df = pd.read_excel('dataset.xlsx')
+    knowledge_list = df['데이터셋에 넣을 내용(*)'].tolist()  # 컬럼명 정확히 맞춰야 해!
 except Exception as e:
     print(f"데이터셋 로드 에러: {e}")
     knowledge_list = []
 def find_relevant_context(query, top_n=2):
+    """질문과 관련된 지식데이터 문장 최대 top_n개 찾아서 반환"""
     query_words = query.replace(" ", "").lower()
     relevant_sentences = []
     for s in knowledge_list:
         s_text = str(s).replace(" ", "").replace("\n", "").lower()
         if any(word.replace(" ", "") in s_text for word in query.split()):
             relevant_sentences.append(s)
     if relevant_sentences:
         return " ".join(str(s) for s in relevant_sentences[:top_n])
     return ""
 def ask_sayknow(query):
     try:
         context = find_relevant_context(query)
         persona_guide = (
+            "너는 지식 기반 한국어 챗봇 Sayknow야. 자기소개(이름, 정체, 인사 등) 질문은 '저는 Sayknow입니다.'라고 답해. "
+            "그 외엔 아래 참고해서 정확하고 자연스러운 한국어 80자 이내로 답해.\n"
             "예시: Q: 분수의 덧셈이 뭐야?\nA: 분모가 같을 때 분자끼리 더하면 됩니다.\n"
         )
         info = context if context else "정보 없음"
+        prompt = f"{persona_guide}---\n[정보]\n{info}\n[질문]\n{query}\n[답변] "
         input_ids = tokenizer.encode(prompt, return_tensors='pt')
         model.eval()
                 num_beams=1
             )
         response = tokenizer.decode(gen_ids[0], skip_special_tokens=True)
+        # 답변만 추출
+        answer = response.split("답변:")[-1].strip() if "답변:" in response else response.strip()
+        # 의미 없는 문자 필터링
         answer = re.sub(r"[^가-힣0-9 .,!?~\n]", "", answer)
         answer = re.sub(r"([.,!?~])\1{2,}", r"\1", answer)
         answer = re.sub(r"[a-zA-Z]+", "", answer)
         answer = re.sub(r"[=^*/\\]+", "", answer)
         answer = re.sub(r"\s+", " ", answer).strip()
+        # 80자 이내 자르기
         def truncate_korean(text, max_len=80):
             count = 0
             result = ""
             for ch in text:
                 result += ch
                 count += 1
                 if count >= max_len:
             return result
         answer = truncate_korean(answer, 80)
+        # 문장 끝 자연스럽게
         if answer and answer[-1] not in ".!?":
             answer += "."
         return answer
     except Exception as e:
         print(f"ask_sayknow 에러: {e}")
         traceback.print_exc()
         return f"오류: {str(e)}"
+# 3. API (XML 응답 유지)
 @app.route('/chatapi.html', methods=['GET'])
 @app.route('/index.html', methods=['GET'])
 def chat_api():
     query = request.args.get('askdata', '')
     if not query:
         result = {"status": "error", "message": "No data"}
     else:
             }
         except Exception as e:
             print(f"chat_api 에러: {e}")
             traceback.print_exc()
             result = {
                 "service": "Sayknow",
                 "error": str(e)
             }
     xml_output = dicttoxml(result, custom_root='SayknowAPI', attr_type=False)
     return Response(xml_output, mimetype='text/xml')
+# 4. 웹 UI (간단한 질문 폼 + 답변)
+@app.route('/', methods=['GET', 'POST'])
+def index():
+    answer = ""
+    question = ""
+    if request.method == "POST":
+        question = request.form.get('question', '')
+        if question:
+            answer = ask_sayknow(question)
+    html = f"""
+    <html>
+    <head>
+        <title>Sayknow 챗봇</title>
+    </head>
+    <body>
+        <h2>Sayknow 한국어 챗봇</h2>
+        <form method="post" action="/">
+            <input type="text" name="question" value="{question}" placeholder="질문을 입력하세요" style="width:300px;" autofocus />
+            <input type="submit" value="질문하기" />
+        </form>
+        <hr>
+        <h3>답변:</h3>
+        <p style="white-space: pre-wrap;">{answer}</p>
+    </body>
+    </html>
+    """
+    return render_template_string(html)
 if __name__ == '__main__':
+    app.run(host='0.0.0.0', port=7860)