Spaces:

Imosu
/

Practise_in_hand

Running on Zero

MSzgy

Add model architecture inspection experiment

0c3c731 13 days ago

19.6 kB

	from functools import lru_cache
	from pathlib import Path
	from time import perf_counter

	import gradio as gr
	import spaces
	import torch
	from transformers import (
	AutoConfig,
	AutoModelForCausalLM,
	AutoTokenizer,
	GenerationConfig,
	)


	DEFAULT_MODEL_ID = "dphn/dolphin-2.9.4-llama3.1-8b"
	ROOT = Path(__file__).parent
	TEXT_DIR = ROOT / "text"
	THEORY_PATH = ROOT / "notes" / "deployment_interview_theory.md"

	LESSONS = {
	"00 pipeline 自动配置": "00_pipeline_auto.py",
	"01 tokenizer + model": "01_auto_tokenizer_model.py",
	"02 模块分开配置": "02_split_configuration.py",
	"03 streaming + stopping": "03_streaming_and_stopping.py",
	"04 forward + logits + KV cache": "04_forward_logits_kv_cache.py",
	"05 架构 + 中间态输出": "05_architecture_and_intermediates.py",
	}

	LESSON_NOTES = {
	"00 pipeline 自动配置": """
	`pipeline("text-generation")` 是最高层封装。它会自动加载 tokenizer、model、generation config，并完成 tokenize、generate、decode。

	面试表达：pipeline 适合快速验证；生产部署通常需要把 tokenizer、model、生成参数、设备和流式输出拆开控制。
	""",
	"01 tokenizer + model": """
	这一层显式拆开 `AutoTokenizer` 和 `AutoModelForCausalLM`。

	关键链路：messages -> chat template -> token ids -> model.generate -> new token ids -> decode。
	""",
	"02 模块分开配置": """
	这一层把架构配置、分词器配置、模型加载配置、生成配置分开。

	面试表达：拆开配置后才能精确控制 dtype、device、max_new_tokens、temperature、top_p、pad/eos token 等部署关键项。
	""",
	"03 streaming + stopping": """
	streaming 不是减少总计算量，而是让用户更早看到输出。

	停止条件通常来自 `eos_token_id`、stop string、`max_new_tokens` 或自定义 `StoppingCriteria`。
	""",
	"04 forward + logits + KV cache": """
	不调用 `generate()`，直接看一次 forward。

	模型输出 logits，解码策略从 logits 中选下一个 token。`past_key_values` 就是 KV cache，是长上下文和高并发部署里的显存大头之一。
	""",
	"05 架构 + 中间态输出": """
	这一层用 `print(model)`、`output_hidden_states=True` 和可选的 `output_attentions=True` 看模型内部。

	`hidden_states` 能看到 embedding 和每层 decoder block 后的表示；`attentions` 能看到每层每个 head 对输入 token 的注意力矩阵，但它的显存开销是 seq_len 平方级，长 prompt 时要谨慎开启。
	""",
	}


	def read_text(path, fallback):
	if path.exists():
	return path.read_text(encoding="utf-8")
	return fallback


	TEXT_README = read_text(TEXT_DIR / "README.md", "文本教程文件还没有生成。")
	THEORY_TEXT = read_text(THEORY_PATH, "理论笔记文件还没有生成。")


	def device_summary():
	if torch.cuda.is_available():
	name = torch.cuda.get_device_name(0)
	return f"cuda:0 ({name})"
	if hasattr(torch.backends, "mps") and torch.backends.mps.is_available():
	return "mps"
	return "cpu"


	def model_load_kwargs():
	if torch.cuda.is_available():
	dtype = torch.bfloat16 if torch.cuda.is_bf16_supported() else torch.float16
	return {"torch_dtype": dtype, "device_map": "auto"}
	return {"torch_dtype": torch.float32}


	@lru_cache(maxsize=1)
	def load_components(model_id):
	tokenizer = AutoTokenizer.from_pretrained(model_id)
	config = AutoConfig.from_pretrained(model_id)

	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token

	model = AutoModelForCausalLM.from_pretrained(
	model_id,
	config=config,
	low_cpu_mem_usage=True,
	**model_load_kwargs(),
	)

	if not hasattr(model, "hf_device_map"):
	if torch.cuda.is_available():
	model = model.to("cuda")
	elif hasattr(torch.backends, "mps") and torch.backends.mps.is_available():
	model = model.to("mps")

	model.eval()
	return tokenizer, model, config


	def model_device(model):
	return next(model.parameters()).device


	def build_messages(system_prompt, user_prompt):
	messages = []
	if system_prompt.strip():
	messages.append({"role": "system", "content": system_prompt.strip()})
	messages.append({"role": "user", "content": user_prompt.strip()})
	return messages


	def build_prompt(tokenizer, messages):
	if tokenizer.chat_template:
	return tokenizer.apply_chat_template(
	messages,
	tokenize=False,
	add_generation_prompt=True,
	)

	rendered = []
	for message in messages:
	rendered.append(f"{message['role']}: {message['content']}")
	rendered.append("assistant:")
	return "\n".join(rendered)


	def generation_config(tokenizer, max_new_tokens, do_sample, temperature, top_p):
	config = {
	"max_new_tokens": int(max_new_tokens),
	"do_sample": bool(do_sample),
	"repetition_penalty": 1.05,
	"pad_token_id": tokenizer.pad_token_id,
	"eos_token_id": tokenizer.eos_token_id,
	}

	if do_sample:
	config["temperature"] = float(temperature)
	config["top_p"] = float(top_p)

	return GenerationConfig(**config)


	def inspect_config(config, tokenizer, model):
	rows = [
	("model_type", getattr(config, "model_type", "unknown")),
	("hidden_size", getattr(config, "hidden_size", "unknown")),
	("num_hidden_layers", getattr(config, "num_hidden_layers", "unknown")),
	("num_attention_heads", getattr(config, "num_attention_heads", "unknown")),
	("num_key_value_heads", getattr(config, "num_key_value_heads", "unknown")),
	("vocab_size", getattr(config, "vocab_size", "unknown")),
	("pad_token_id", tokenizer.pad_token_id),
	("eos_token_id", tokenizer.eos_token_id),
	("runtime_device", str(model_device(model))),
	]
	return "\n".join(f"{key}: {value}" for key, value in rows)


	def tensor_summary(value):
	if value is None:
	return "None"
	if hasattr(value, "shape"):
	return (
	f"shape={tuple(value.shape)}, dtype={value.dtype}, device={value.device}"
	)
	return type(value).__name__


	def architecture_summary(config, model):
	lines = [
	f"model class: {type(model).__name__}",
	f"model_type: {getattr(config, 'model_type', 'unknown')}",
	f"hidden_size: {getattr(config, 'hidden_size', 'unknown')}",
	f"num_hidden_layers: {getattr(config, 'num_hidden_layers', 'unknown')}",
	f"num_attention_heads: {getattr(config, 'num_attention_heads', 'unknown')}",
	f"num_key_value_heads: {getattr(config, 'num_key_value_heads', 'unknown')}",
	f"vocab_size: {getattr(config, 'vocab_size', 'unknown')}",
	"",
	"top-level modules:",
	]

	for name, module in model.named_children():
	lines.append(f"- {name}: {type(module).__name__}")

	if hasattr(model, "model") and hasattr(model.model, "layers"):
	layers = model.model.layers
	lines.extend(["", f"decoder layers: {len(layers)}"])
	if layers:
	first_layer = layers[0]
	lines.append("first decoder layer modules:")
	for name, module in first_layer.named_children():
	lines.append(f"- {name}: {type(module).__name__}")

	lines.extend(["", "full model repr:", str(model)])
	return "\n".join(lines)


	def summarize_tensor_sequence(name, values):
	if values is None:
	return f"{name}: None"

	lines = [f"{name} count: {len(values)}"]
	for index, value in enumerate(values):
	lines.append(f"{name}[{index:02d}]: {tensor_summary(value)}")
	return "\n".join(lines)


	def summarize_cache(cache):
	if cache is None:
	return "KV cache: None"

	lines = [f"KV cache type: {type(cache).__name__}"]

	try:
	lines.append(f"KV cache layers: {len(cache)}")
	except TypeError:
	lines.append("KV cache layers: unknown")

	if hasattr(cache, "get_seq_length"):
	lines.append(f"KV cache sequence length: {cache.get_seq_length()}")

	if hasattr(cache, "key_cache") and getattr(cache, "key_cache"):
	lines.append(
	f"layer0 key: {tensor_summary(cache.key_cache[0])}"
	)
	lines.append(
	f"layer0 value: {tensor_summary(cache.value_cache[0])}"
	)
	elif isinstance(cache, (tuple, list)) and cache:
	first_layer = cache[0]
	if isinstance(first_layer, (tuple, list)) and len(first_layer) >= 2:
	lines.append(f"layer0 key: {tensor_summary(first_layer[0])}")
	lines.append(f"layer0 value: {tensor_summary(first_layer[1])}")

	return "\n".join(lines)


	def explain_tokens(tokenizer, prompt):
	encoded = tokenizer(prompt, return_tensors="pt")
	ids = encoded["input_ids"][0].tolist()
	tokens = tokenizer.convert_ids_to_tokens(ids)
	preview = list(zip(ids[:80], tokens[:80]))
	lines = [f"token_count: {len(ids)}", "", "first_tokens:"]
	lines.extend(f"{token_id:>8} {token}" for token_id, token in preview)
	if len(ids) > 80:
	lines.append(f"... {len(ids) - 80} more tokens")
	return "\n".join(lines)


	@spaces.GPU(duration=120)
	def run_experiment(
	lesson_name,
	model_id,
	system_prompt,
	user_prompt,
	max_new_tokens,
	do_sample,
	temperature,
	top_p,
	output_attentions,
	):
	if not user_prompt.strip():
	raise gr.Error("请输入 user prompt。")

	start = perf_counter()
	tokenizer, model, config = load_components(model_id.strip() or DEFAULT_MODEL_ID)
	messages = build_messages(system_prompt, user_prompt)
	prompt = build_prompt(tokenizer, messages)
	inputs = tokenizer(prompt, return_tensors="pt").to(model_device(model))
	input_len = inputs["input_ids"].shape[-1]

	if lesson_name == "04 forward + logits + KV cache":
	with torch.no_grad():
	outputs = model(**inputs, use_cache=True)

	logits = outputs.logits[:, -1, :]
	next_token_id = logits.argmax(dim=-1)
	next_token = tokenizer.decode(next_token_id)
	cache = outputs.past_key_values

	try:
	cache_layers = len(cache)
	except TypeError:
	cache_layers = "unknown"

	if hasattr(cache, "get_seq_length"):
	cache_seq_len = cache.get_seq_length()
	else:
	cache_seq_len = input_len

	elapsed = perf_counter() - start
	answer = (
	"这是一次 forward 观察，不是完整生成。\n\n"
	f"greedy next token id: {next_token_id.item()}\n"
	f"greedy next token: {next_token!r}\n"
	f"logits shape: {tuple(logits.shape)}\n"
	f"KV cache type: {type(cache).__name__}\n"
	f"KV cache layers: {cache_layers}\n"
	f"KV cache sequence length: {cache_seq_len}"
	)
	metrics = {
	"lesson": lesson_name,
	"input_tokens": input_len,
	"new_tokens": 1,
	"elapsed_seconds": round(elapsed, 3),
	"device": str(model_device(model)),
	}
	return answer, inspect_config(config, tokenizer, model), explain_tokens(tokenizer, prompt), metrics

	if lesson_name == "05 架构 + 中间态输出":
	try:
	with torch.no_grad():
	outputs = model(
	**inputs,
	use_cache=True,
	output_hidden_states=True,
	output_attentions=bool(output_attentions),
	return_dict=True,
	)
	except Exception as exc:
	if output_attentions:
	raise gr.Error(
	"开启 output_attentions 时 forward 失败。attention 矩阵显存开销较大，"
	"可以先关闭 output_attentions 再观察 hidden_states 和 KV cache。"
	) from exc
	raise

	logits = outputs.logits
	last_token_logits = logits[:, -1, :]
	next_token_id = last_token_logits.argmax(dim=-1)
	next_token = tokenizer.decode(next_token_id)
	elapsed = perf_counter() - start

	answer = "\n\n".join(
	[
	"这是一次架构和中间态观察，不是完整生成。",
	"\n".join(
	[
	f"outputs type: {type(outputs).__name__}",
	f"outputs keys: {list(outputs.keys())}",
	f"logits: {tensor_summary(logits)}",
	f"last token logits: {tensor_summary(last_token_logits)}",
	f"greedy next token id: {next_token_id.item()}",
	f"greedy next token: {next_token!r}",
	]
	),
	summarize_tensor_sequence("hidden_states", outputs.hidden_states),
	summarize_tensor_sequence("attentions", outputs.attentions),
	summarize_cache(outputs.past_key_values),
	]
	)

	metrics = {
	"lesson": lesson_name,
	"input_tokens": input_len,
	"elapsed_seconds": round(elapsed, 3),
	"logits_shape": list(logits.shape),
	"hidden_state_count": len(outputs.hidden_states)
	if outputs.hidden_states is not None
	else 0,
	"attention_count": len(outputs.attentions)
	if outputs.attentions is not None
	else 0,
	"output_attentions": bool(output_attentions),
	"device": str(model_device(model)),
	}
	return answer, architecture_summary(config, model), explain_tokens(tokenizer, prompt), metrics

	gen_config = generation_config(
	tokenizer,
	max_new_tokens=max_new_tokens,
	do_sample=do_sample,
	temperature=temperature,
	top_p=top_p,
	)

	with torch.no_grad():
	outputs = model.generate(**inputs, generation_config=gen_config)

	new_token_ids = outputs[0][input_len:]
	answer = tokenizer.decode(new_token_ids, skip_special_tokens=True).strip()
	elapsed = perf_counter() - start

	metrics = {
	"lesson": lesson_name,
	"input_tokens": input_len,
	"new_tokens": int(new_token_ids.shape[-1]),
	"elapsed_seconds": round(elapsed, 3),
	"tokens_per_second": round(float(new_token_ids.shape[-1]) / elapsed, 3)
	if elapsed > 0
	else None,
	"device": str(model_device(model)),
	}
	return answer, inspect_config(config, tokenizer, model), explain_tokens(tokenizer, prompt), metrics


	def lesson_note(lesson_name):
	return LESSON_NOTES.get(lesson_name, "")


	def lesson_code(lesson_name):
	file_name = LESSONS.get(lesson_name)
	if not file_name:
	return ""
	return read_text(TEXT_DIR / file_name, "代码文件不存在。")


	def lesson_file_name(lesson_name):
	return LESSONS.get(lesson_name, "")


	with gr.Blocks(title="大模型文本部署实验台") as demo:
	gr.Markdown(
	"""
	# 大模型文本部署实验台

	从 Hugging Face `pipeline` 自动配置开始，逐步拆到 tokenizer、model、generation config、streaming、logits 和 KV cache。

	默认模型：`dphn/dolphin-2.9.4-llama3.1-8b`。这是一个基于 Llama 3.1 8B 的 Dolphin ChatML 模型，适合在 ZeroGPU 上观察 8B 级别文本模型部署链路。
	"""
	)

	with gr.Tabs():
	with gr.Tab("实验"):
	with gr.Row():
	with gr.Column(scale=4):
	lesson = gr.Dropdown(
	choices=list(LESSONS.keys()),
	value="00 pipeline 自动配置",
	label="实验层级",
	)
	model_id = gr.Textbox(
	value=DEFAULT_MODEL_ID,
	label="模型",
	)
	system_prompt = gr.Textbox(
	value="你是一个讲解大模型部署的老师，回答要清晰、简洁、面试友好。",
	label="system prompt",
	lines=2,
	)
	user_prompt = gr.Textbox(
	value="用三句话解释 tokenizer 在文本大模型部署中的作用。",
	label="user prompt",
	lines=4,
	)

	with gr.Column(scale=3):
	max_new_tokens = gr.Slider(
	minimum=16,
	maximum=256,
	value=120,
	step=8,
	label="max_new_tokens",
	)
	do_sample = gr.Checkbox(value=False, label="do_sample")
	temperature = gr.Slider(
	minimum=0.1,
	maximum=1.5,
	value=0.7,
	step=0.1,
	label="temperature",
	)
	top_p = gr.Slider(
	minimum=0.1,
	maximum=1.0,
	value=0.9,
	step=0.05,
	label="top_p",
	)
	output_attentions = gr.Checkbox(
	value=False,
	label="output_attentions",
	)
	run_btn = gr.Button("运行", variant="primary")

	with gr.Row():
	lesson_summary = gr.Markdown(value=lesson_note("00 pipeline 自动配置"))
	runtime = gr.Textbox(
	value="ZeroGPU 会在点击运行后为 @spaces.GPU 函数临时分配 GPU。",
	label="运行环境",
	interactive=False,
	)

	with gr.Row():
	answer = gr.Textbox(label="模型输出", lines=12)
	metrics = gr.JSON(label="指标")

	with gr.Accordion("token、配置与架构观察", open=False):
	with gr.Row():
	config_view = gr.Textbox(label="模型与配置", lines=10)
	token_view = gr.Textbox(label="token 预览", lines=10)

	with gr.Tab("理论"):
	gr.Markdown(TEXT_README)
	gr.Markdown(THEORY_TEXT)

	with gr.Tab("代码"):
	code_selector = gr.Dropdown(
	choices=list(LESSONS.keys()),
	value="00 pipeline 自动配置",
	label="代码文件",
	)
	code_file = gr.Textbox(
	value=lesson_file_name("00 pipeline 自动配置"),
	label="文件名",
	interactive=False,
	)
	code_view = gr.Code(
	value=lesson_code("00 pipeline 自动配置"),
	language="python",
	label="源码",
	)

	lesson.change(lesson_note, inputs=lesson, outputs=lesson_summary)
	run_btn.click(
	run_experiment,
	inputs=[
	lesson,
	model_id,
	system_prompt,
	user_prompt,
	max_new_tokens,
	do_sample,
	temperature,
	top_p,
	output_attentions,
	],
	outputs=[answer, config_view, token_view, metrics],
	)
	code_selector.change(lesson_file_name, inputs=code_selector, outputs=code_file)
	code_selector.change(lesson_code, inputs=code_selector, outputs=code_view)


	if __name__ == "__main__":
	demo.queue(max_size=16).launch(ssr_mode=False)