Spaces:

tenmenbot
/

interview-chat

Sleeping

App Files Files Community

tenmenbot commited on Jun 8, 2025

Commit

de5cdf3

verified ·

1 Parent(s): d8896e7

Upload app.py

Browse files

Files changed (1) hide show

app.py +33 -9

app.py CHANGED Viewed

@@ -3,30 +3,54 @@ import os
 import numpy as np
 import faiss
 from sentence_transformers import SentenceTransformer
 # 記事フォルダ読み込み
 articles_dir = "articles"
-texts, vectors = [], []
 model = SentenceTransformer("all-MiniLM-L6-v2")
 for fname in os.listdir(articles_dir):
     with open(os.path.join(articles_dir, fname), "r", encoding="utf-8") as f:
-        text = f.read()
-        texts.append(text)
-        vec = model.encode(text)
-        vectors.append(vec)
 index = faiss.IndexFlatL2(384)
 index.add(np.array(vectors))
 # チャットボット関数
 def chat(query):
     vec = model.encode([query])
     _, I = index.search(np.array(vec), k=3)
-    context = "\n---\n".join([texts[i] for i in I[0]])
-    prompt = f"以下の情報を参考に質問に答えてください。\n\n{context}\n\n質問: {query}\n回答:"
-    return prompt
 # Gradio UI
-gr.Interface(fn=chat, inputs="text", outputs="text", title="ブログ記事チャットボット").launch()

 import numpy as np
 import faiss
 from sentence_transformers import SentenceTransformer
+from transformers import pipeline
 # 記事フォルダ読み込み
 articles_dir = "articles"
+texts, titles, urls = [], [], []
 model = SentenceTransformer("all-MiniLM-L6-v2")
+# 記事を読み込む
 for fname in os.listdir(articles_dir):
     with open(os.path.join(articles_dir, fname), "r", encoding="utf-8") as f:
+        content = f.read()
+        title_line = content.splitlines()[0].replace("タイトル：", "").strip()
+        url_line = content.splitlines()[1].replace("URL：", "").strip()
+        body_text = "\n".join(content.splitlines()[3:])
+        titles.append(title_line)
+        urls.append(url_line)
+        texts.append(body_text)
+        vec = model.encode(body_text)
+        if 'vectors' not in locals():
+            vectors = [vec]
+        else:
+            vectors.append(vec)
 index = faiss.IndexFlatL2(384)
 index.add(np.array(vectors))
+# 要約モデルの準備
+summarizer = pipeline("text-generation", model="rinna/japanese-gpt2-medium", tokenizer="rinna/japanese-gpt2-medium")
 # チャットボット関数
 def chat(query):
     vec = model.encode([query])
     _, I = index.search(np.array(vec), k=3)
+    retrieved_texts = [texts[i] for i in I[0]]
+    retrieved_titles = [titles[i] for i in I[0]]
+    retrieved_urls = [urls[i] for i in I[0]]
+    context = "\n\n".join(retrieved_texts)
+    prompt = f"以下の情報を参考にして、質問「{query}」に対する自然でわかりやすい日本語の回答を300文字以内で作成してください。\n\n{context}\n\n回答："
+    generated = summarizer(prompt, max_new_tokens=100, do_sample=True)[0]["generated_text"]
+    answer = generated.split("回答：")[-1].strip()
+    # 関連記事URLを表示
+    links = "\n".join([f"🔗 [{titles[i]}]({urls[i]})" for i in range(len(retrieved_titles))])
+    return f"{answer}\n\n参考記事：\n{links}"
 # Gradio UI
+gr.Interface(fn=chat, inputs="text", outputs="text", title="ブログ記事から回答する転職チャットボット").launch()