Spaces:

caixiaoshun
/

mini-llm

Running

App Files Files Community

mini-llm / app.py

caixiaoshun

Update app.py

d2605bc verified 3 months ago

raw

history blame contribute delete

9.11 kB

	import gradio as gr
	from transformers import AutoTokenizer, AutoModelForCausalLM
	import torch
	from typing import List, Dict, Optional, Tuple
	import time

	# ==========================================
	# Helper: dtype map & loader with simple cache
	# ==========================================
	DTYPE_MAP = {
	"auto": "auto",
	"float32": torch.float32,
	"bfloat16": torch.bfloat16,
	"float16": torch.float16,
	}

	_MODEL_CACHE = {}


	def _dtype_from_name(name: str):
	return DTYPE_MAP.get(name, "auto")


	def load_model_and_tokenizer(repo_id: str, device_map: str = "cpu", dtype_name: str = "auto"):
	"""Load & cache (tokenizer, model) keyed by (repo_id, device_map, dtype). No low_cpu_mem_usage.
	Prefer `dtype=...`; on TypeError fallback to `torch_dtype=` or omit.
	"""
	key = (repo_id, device_map, dtype_name)
	if key in _MODEL_CACHE:
	return _MODEL_CACHE[key]

	tok = AutoTokenizer.from_pretrained(repo_id)
	dtype_val = _dtype_from_name(dtype_name)
	common_kwargs = dict(trust_remote_code=True, device_map=device_map)

	model = None
	try:
	if dtype_name == "auto":
	model = AutoModelForCausalLM.from_pretrained(repo_id, dtype="auto", **common_kwargs)
	else:
	model = AutoModelForCausalLM.from_pretrained(repo_id, dtype=dtype_val, **common_kwargs)
	except TypeError:
	if dtype_name == "auto":
	model = AutoModelForCausalLM.from_pretrained(repo_id, **common_kwargs)
	else:
	model = AutoModelForCausalLM.from_pretrained(repo_id, torch_dtype=dtype_val, **common_kwargs)

	model.eval()
	_MODEL_CACHE[key] = (tok, model)
	return tok, model


	# ==========================================
	# Chat utilities & logging helpers
	# ==========================================

	def messages_to_pairs(messages: List[Dict[str, str]]) -> List[Tuple[str, str]]:
	"""Convert role-based messages into (user, assistant) pairs for Gradio Chatbot."""
	pairs: List[Tuple[str, str]] = []
	i = 0
	while i < len(messages):
	msg = messages[i]
	if msg.get("role") == "user":
	user = msg.get("content", "")
	if i + 1 < len(messages) and messages[i + 1].get("role") == "assistant":
	assistant = messages[i + 1].get("content", "")
	pairs.append((user, assistant))
	i += 2
	else:
	pairs.append((user, ""))
	i += 1
	else:
	# Skip unexpected assistant-first cases
	i += 1
	return pairs


	def _ts() -> str:
	return time.strftime("%H:%M:%S")


	def append_log(logs: str, msg: str) -> str:
	line = f"[{_ts()}] {msg}\n"
	return (logs + line) if logs else line


	# ==========================================
	# Model state helpers (reload only when repo_id changes)
	# ==========================================

	def ensure_model(model_state: Dict, repo_id: str, device_map: str, dtype_name: str, logs: str):

	ms = model_state or {"repo_id": None, "tok": None, "model": None}
	if ms.get("repo_id") != repo_id or ms.get("model") is None:
	logs = append_log(logs, f"加载模型 {repo_id}（触发：repo 变更）…")
	tok, mdl = load_model_and_tokenizer(repo_id, device_map=device_map, dtype_name=dtype_name)
	ms = {"repo_id": repo_id, "tok": tok, "model": mdl}
	logs = append_log(logs, "模型加载完成。")
	else:
	logs = append_log(logs, f"使用已加载模型 {repo_id}（缓存）")
	return ms, ms["tok"], ms["model"], logs


	# ==========================================
	# Predict
	# ==========================================

	def predict(user_text: str,
	messages_state: List[Dict[str, str]],
	repo_id: str, device_map: str, dtype_name: str,
	max_new_token: int, top_k: int,
	logs_state: str,
	model_state: Dict):

	messages_state = messages_state or []
	logs_state = logs_state or ""

	# 1) Ensure model based on repo_id only
	model_state, tokenizer, model, logs_state = ensure_model(model_state, repo_id, device_map, dtype_name, logs_state)

	# 2) Append user & paint
	messages_state.append({"role": "user", "content": user_text or ""})
	logs_state = append_log(logs_state, f"收到输入：{(user_text or '').strip()[:60]}")

	chat_display = messages_to_pairs(messages_state)
	yield chat_display, messages_state, logs_state, logs_state, model_state

	# 3) Inference
	try:
	logs_state = append_log(logs_state, f"开始推理：max_new_token={int(max_new_token)}, top_k={int(top_k)}")
	yield chat_display, messages_state, logs_state, logs_state, model_state
	try:
	output = model.chat(
	messages_state,
	tokenizer,
	max_new_token=int(max_new_token),
	top_k=int(top_k),
	)
	except TypeError:
	output = model.chat(messages_state, tokenizer)

	partial = ""
	for ch in str(output):
	partial += ch
	chat_display[-1] = (chat_display[-1][0], partial)
	yield chat_display, messages_state, logs_state, logs_state, model_state

	messages_state.append({"role": "assistant", "content": str(output)})
	logs_state = append_log(logs_state, f"推理完成，输出长度 {len(str(output))} 字符。")
	yield chat_display, messages_state, logs_state, logs_state, model_state
	except Exception as e:
	err = f"[推理错误] {e}"
	logs_state = append_log(logs_state, err)
	chat_display[-1] = (chat_display[-1][0], err)
	messages_state.append({"role": "assistant", "content": err})
	yield chat_display, messages_state, logs_state, logs_state, model_state


	def clear_chat():
	return [], [] # chatbot pairs, messages_state


	def clear_logs_fn():
	return "", "" # logs_box text, logs_state


	def preload_on_repo_change(repo_id: str, device_map: str, dtype_name: str, logs_state: str, model_state: Dict):
	"""当仓库切换时，预加载模型并写日志。"""
	logs_state = logs_state or ""
	model_state, _, _, logs_state = ensure_model(model_state, repo_id, device_map, dtype_name, logs_state)
	return logs_state, model_state


	# ==========================================
	# Gradio UI
	# ==========================================
	with gr.Blocks(title="mini-moe Chat (Gradio)") as demo:

	messages_state = gr.State([]) # 保存 role/content 历史
	logs_state = gr.State("") # 保存日志文本
	model_state = gr.State({"repo_id": None, "tok": None, "model": None}) # 当前已加载模型

	with gr.Row():
	with gr.Column(scale=2):
	chatbot = gr.Chatbot(label="对话", height=520)
	with gr.Row():
	user_box = gr.Textbox(label="输入", placeholder="请输入你的问题… (Shift+Enter 换行)", lines=3)
	with gr.Row():
	send_btn = gr.Button("发送", variant="primary")
	clear_btn = gr.Button("清空对话")
	with gr.Column(scale=1):
	gr.Markdown("## ⚙️ 设置")
	repo_dd = gr.Dropdown(
	label="模型仓库 (HF repo)",
	choices=["caixiaoshun/mini-moe", "caixiaoshun/mini-llm"],
	value="caixiaoshun/mini-moe",
	)
	device_dd = gr.Dropdown(label="device_map", choices=["cpu", "auto"], value="cpu")
	dtype_dd = gr.Dropdown(label="精度 (dtype/torch_dtype)", choices=["auto", "float32", "bfloat16", "float16"], value="auto")
	max_new_num = gr.Number(label="max_new_token", value=256, precision=0)
	top_k_num = gr.Number(label="top_k", value=5, precision=0)
	with gr.Accordion("📜 日志 (展开查看)", open=False):
	logs_box = gr.Textbox(label="运行日志", lines=12, interactive=False)
	log_clear_btn = gr.Button("清空日志")

	# Events: send / submit
	send_evt_inputs = [
	user_box, messages_state, repo_dd, device_dd, dtype_dd, max_new_num, top_k_num, logs_state, model_state
	]
	send_evt_outputs = [chatbot, messages_state, logs_box, logs_state, model_state]

	send_btn.click(predict, inputs=send_evt_inputs, outputs=send_evt_outputs)
	user_box.submit(predict, inputs=send_evt_inputs, outputs=send_evt_outputs)

	# Clear input after send
	def _clear_text():
	return ""
	send_btn.click(_clear_text, inputs=None, outputs=user_box)
	user_box.submit(_clear_text, inputs=None, outputs=user_box)

	# Clear chat
	clear_btn.click(clear_chat, inputs=None, outputs=[chatbot, messages_state])

	# Clear logs
	log_clear_btn.click(clear_logs_fn, inputs=None, outputs=[logs_box, logs_state])

	# Preload on repo change (only reload on repo change)
	repo_dd.change(preload_on_repo_change,
	inputs=[repo_dd, device_dd, dtype_dd, logs_state, model_state],
	outputs=[logs_box, model_state])


	if __name__ == "__main__":
	demo.queue().launch() # set share=True if you want a public link