Spaces:

Alexend
/

Stust

Sleeping

App Files Files Community

Alexend commited on Jul 26, 2025

Commit

4ce0569

verified ·

1 Parent(s): 2b729ae

Update app.py

Browse files

Files changed (1) hide show

app.py +69 -87

app.py CHANGED Viewed

@@ -1,111 +1,93 @@
 import gradio as gr
 import torch
 import json
 import tempfile
-import faiss
 from gtts import gTTS
-from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
 from sentence_transformers import SentenceTransformer
-import numpy as np
-# 模型
-MODEL_NAME = "openbmb/MiniCPM-2B-sft-bf16"
-tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
-model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, trust_remote_code=True).eval()
-# 語音辨識 Whisper
-asr = pipeline("automatic-speech-recognition", model="openai/whisper-small", device=0 if torch.cuda.is_available() else -1)
-# 向量模型
-encoder = SentenceTransformer("shibing624/text2vec-base-chinese")
-index = faiss.read_index("vector_store.faiss")
-with open("documents.json", "r", encoding="utf-8") as f:
-    documents = json.load(f)
-# QA固定問答（可選）
-try:
-    with open("qa.json", "r", encoding="utf-8") as f:
-        qa_data = json.load(f)
-except:
-    qa_data = []
-# QA match（選擇性）
-def match_qa(user_input):
-    cleaned_input = user_input.replace(" ", "")
-    for item in qa_data:
-        if item["match"] == "OR":
-            if any(k.replace(" ", "") in cleaned_input for k in item["keywords"]):
-                return item["response"]
-        elif item["match"] == "AND":
-            if all(k.replace(" ", "") in cleaned_input for k in item["keywords"]):
-                return item["response"]
-    return None
-# 文字生成
-def generate_answer(text):
-    messages = [{"role": "user", "content": text}]
-    input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt")
-    with torch.no_grad():
-        outputs = model.generate(input_ids, max_new_tokens=200)
-    response = tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True)
     return response.strip()
-# 向量比對
-def search_vector_db(query, top_k=1):
-    q_vec = encoder.encode([query])
-    D, I = index.search(np.array(q_vec), top_k)
-    results = [documents[i] for i in I[0] if i < len(documents)]
-    return results
-# 回答邏輯整合
-def answer(text):
-    # 1. QA 固定資料庫
-    fixed = match_qa(text)
-    if fixed:
-        return fixed
-    # 2. RAG 取資料輔助
-    related_docs = search_vector_db(text)
-    context = "\n".join(related_docs)
-    prompt = f"以下是一些關於南臺科技大學的資料：\n{context}\n\n根據上面的資料，請用中文簡短回答這個問題：{text}"
-    return generate_answer(prompt)
-# TTS
-def text_to_speech(text):
-    tts = gTTS(text, lang='zh')
-    tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
-    tts.save(tmp.name)
-    return tmp.name
-# 主流程
-def voice_assistant(audio_input=None, text_input=None):
     if audio_input:
-        result = asr(audio_input)
-        user_text = result["text"]
     elif text_input:
-        user_text = text_input
     else:
-        return "請輸入語音或文字", None
-    response = answer(user_text)
-    speech_file = text_to_speech(response)
-    return response, speech_file
-# Gradio UI
 with gr.Blocks() as demo:
-    gr.Markdown("## 🎓 南臺科技大學 AI 語音助理（MiniCPM + Whisper + 向量式 RAG）")
     with gr.Row():
-        mic = gr.Audio(source="microphone", type="filepath", label="語音輸入")
-        text_input = gr.Textbox(label="文字輸入", placeholder="請輸入您的問題")
     submit_btn = gr.Button("送出")
-    output_text = gr.Textbox(label="回答")
     output_audio = gr.Audio(label="語音播放", type="filepath")
-    submit_btn.click(fn=voice_assistant, inputs=[mic, text_input], outputs=[output_text, output_audio])
 if __name__ == "__main__":
     demo.launch()

 import gradio as gr
+import os
 import torch
 import json
+import base64
 import tempfile
 from gtts import gTTS
+import whisper
+from transformers import AutoTokenizer, AutoModelForCausalLM
 from sentence_transformers import SentenceTransformer
+import faiss
+# ---------- 模型與資料載入 ---------- #
+# 問答模型（輕量中文 LLM）
+LLM_MODEL = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
+tokenizer = AutoTokenizer.from_pretrained(LLM_MODEL)
+model = AutoModelForCausalLM.from_pretrained(LLM_MODEL).eval()
+# 向量模型 + 向量資料庫
+embedder = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
+index = faiss.read_index("vector_store.index")
+# 讀取文本資料（編號與原始句）
+with open("chunks.json", "r", encoding="utf-8") as f:
+    chunks = json.load(f)
+# 語音辨識模型（Whisper）
+asr_model = whisper.load_model("base")
+# ---------- 問答處理 ---------- #
+def generate_answer(query):
+    embedding = embedder.encode([query])
+    D, I = index.search(embedding, k=3)
+    context = "\n".join([chunks[i] for i in I[0]])
+    prompt = f"你是一位語音問答助手，請根據下方資訊回答問題。\n\n資訊：\n{context}\n\n問題：{query}\n\n回答："
+    inputs = tokenizer(prompt, return_tensors="pt")
+    outputs = model.generate(**inputs, max_new_tokens=128)
+    response = tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True)
     return response.strip()
+# ---------- 語音處理 ---------- #
+def asr(audio_path):
+    result = asr_model.transcribe(audio_path, language="zh")
+    return result["text"]
+def tts(text):
+    tts = gTTS(text, lang="zh")
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as fp:
+        tts.save(fp.name)
+        return fp.name
+# ---------- Pipeline ---------- #
+def chat_pipeline(audio_input=None, text_input=None):
     if audio_input:
+        text = asr(audio_input)
     elif text_input:
+        text = text_input
     else:
+        return "請輸入問題或語音", None
+    answer = generate_answer(text)
+    audio_out = tts(answer)
+    return answer, audio_out
+# ---------- Gradio 介面 ---------- #
 with gr.Blocks() as demo:
+    gr.Markdown("## 🎙️ 南臺科技大學 問答語音助理（TinyLlama + Whisper + RAG）")
     with gr.Row():
+        audio_input = gr.Audio(source="microphone", type="filepath", label="🎤 語音提問")
+        text_input = gr.Textbox(label="或文字輸入", placeholder="請輸入您的問題")
     submit_btn = gr.Button("送出")
+    output_text = gr.Textbox(label="AI 回答")
     output_audio = gr.Audio(label="語音播放", type="filepath")
+    submit_btn.click(
+        fn=chat_pipeline,
+        inputs=[audio_input, text_input],
+        outputs=[output_text, output_audio]
+    )
 if __name__ == "__main__":
     demo.launch()