Spaces:

Marcus719
/

ID2223_Lab2

Sleeping

App Files Files Community

Marcus719 commited on Nov 30, 2025

Commit

5374b45

verified ·

1 Parent(s): 064d52c

Create app.py

Browse files

Files changed (1) hide show

app.py +52 -0

app.py ADDED Viewed

	@@ -0,0 +1,52 @@

+import gradio as gr
+from llama_cpp import Llama
+from huggingface_hub import hf_hub_download
+# --- 配置 ---
+# 替换为你刚才上传成功的仓库 ID
+REPO_ID = "Marcus719/Llama-3.2-3B-Instruct-FineTome-Lab2-GGUF"
+FILENAME = "unsloth.Q4_K_M.gguf"
+# --- 下载并加载模型 (CPU) ---
+print(f"正在下载模型 {FILENAME} ...")
+model_path = hf_hub_download(repo_id=REPO_ID, filename=FILENAME)
+print("正在加载模型到内存...")
+# n_ctx 控制上下文长度，2048 是常用值
+llm = Llama(model_path=model_path, n_ctx=2048)
+# --- 定义回复函数 ---
+def chat_response(message, history):
+    # 构造对话格式 (System Prompt 可以根据你的数据集微调)
+    system_prompt = "You are a helpful assistant trained on the FineTome dataset."
+    messages = [{"role": "system", "content": system_prompt}]
+    # 添加历史上下文
+    for user_msg, assistant_msg in history:
+        messages.append({"role": "user", "content": user_msg})
+        messages.append({"role": "assistant", "content": assistant_msg})
+    # 添加当前用户输入
+    messages.append({"role": "user", "content": message})
+    # 生成回复
+    response = llm.create_chat_completion(
+        messages=messages,
+        max_tokens=256, # 控制生成长度
+        temperature=0.7,
+        top_p=0.9
+    )
+    return response['choices'][0]['message']['content']
+# --- 启动 Gradio ---
+demo = gr.ChatInterface(
+    fn=chat_response,
+    title="Llama 3.2 Lab2 Demo (GGUF)",
+    description="Running on CPU via llama.cpp",
+    examples=["Hello!", "Explain machine learning."],
+)
+if __name__ == "__main__":
+    demo.launch()