Instructions to use deepseek-ai/DeepSeek-R1 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use deepseek-ai/DeepSeek-R1 with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="deepseek-ai/DeepSeek-R1", trust_remote_code=True)
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1", trust_remote_code=True)
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Inference
HuggingChat
Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use deepseek-ai/DeepSeek-R1 with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "deepseek-ai/DeepSeek-R1"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "deepseek-ai/DeepSeek-R1",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/deepseek-ai/DeepSeek-R1

SGLang

How to use deepseek-ai/DeepSeek-R1 with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "deepseek-ai/DeepSeek-R1" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "deepseek-ai/DeepSeek-R1",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "deepseek-ai/DeepSeek-R1" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "deepseek-ai/DeepSeek-R1",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use deepseek-ai/DeepSeek-R1 with Docker Model Runner:
```
docker model run hf.co/deepseek-ai/DeepSeek-R1
```

所以部署一个671B的模型显存需要多少有什么基准的硬件配置？

#118

by cena163 - opened Feb 5, 2025

Discussion

cena163

Feb 5, 2025

所以部署一个671B的模型显存需要多少有什么基准的硬件配置？

ghostplant

Feb 5, 2025

如果不想量化损失 benchmark scores，需要 700GB 以上的显存，或者 700 GB 以上的 CPU 内存。

chtcrack

Feb 5, 2025

现在本地部署满血deepseekR1按精度区分, **FP16（16位浮点数）需要1.342 TB显存, **FP32（32位浮点数)需要 2.684 TB显存,普通人就别想了…

nyyyyy

Feb 5, 2025

看着是混合精度：BF16·F8_E4M3·F32，而且还要预留一部分现存给推理时用

liangxiaofeng

Feb 7, 2025

现在本地部署满血deepseekR1按精度区分, **FP16（16位浮点数）需要1.342 TB显存, **FP32（32位浮点数)需要 2.684 TB显存,普通人就别想了…

如果有设备，如何部署？有方案吗？

Nukepayload2

Feb 7, 2025

•

edited Feb 7, 2025

能跑这个模型的工具我只试过 Ollama。
命令是 ollama run deepseek-r1:671b-q8_0
大概要 713GB 的硬盘存储空间，以及大约768GB的内存或者显存。
参考 https://zhuanlan.zhihu.com/p/20714478546

yeyuH211

Feb 9, 2025

现在我们部署了一套满血版可以给你参考

PEScn

Feb 9, 2025

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

yeyuH211

Feb 9, 2025

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

为什么我们a800 3token/s？
可以交流一下你们做了哪里的限制吗方便的话可以加个v

yeyuH211

Feb 9, 2025

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

为什么我们a800 3token/s？
可以交流一下你们做了哪里的限制吗方便的话可以加个v

jungleHuxj

Feb 10, 2025

请教下，八卡H20部署，使用的Ollama吗？还是其他什么工具

PEScn

Feb 10, 2025

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

为什么我们a800 3token/s？
可以交流一下你们做了哪里的限制吗方便的话可以加个v

@yeyuH211 我们目前只限制了 Token 生成的上下文量；同时手上没有A800，我确实不太清楚A800的部署方面的情况和性能

yeyuH211

Feb 10, 2025

这个限制了能加速吗
具体那个参数？

yeyuH211

Feb 10, 2025

•

edited Feb 10, 2025

请教下，八卡H20部署，使用的Ollama吗？还是其他什么工具

sglang 和vllm都可以

SpinoPi

Feb 10, 2025

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

为什么我们a800 3token/s？
可以交流一下你们做了哪里的限制吗方便的话可以加个v

8卡A800显存够吗？我只部署了一个AWQ量化版本的R1.

yeyuH211

Feb 10, 2025

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

为什么我们a800 3token/s？
可以交流一下你们做了哪里的限制吗方便的话可以加个v

8卡A800显存够吗？我只部署了一个AWQ量化版本的R1.

量化应该可以满血不够

Nashihikari

Feb 11, 2025

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

大佬，是使用的量化到多少的版本

PEScn

Feb 11, 2025

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

大佬，是使用的量化到多少的版本

@Nashihikari 未量化的版本……而且目前速度经过优化能到单请求 20 tokens/s 了（不过并发下降到 20 左右，否则可能出现异常截断或者OOM）

liangxiaofeng

Feb 11, 2025

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

为什么我们a800 3token/s？
可以交流一下你们做了哪里的限制吗方便的话可以加个v

单机8卡A100 AWQ量化就可以部署起来了。已验证

sorasora

Feb 12, 2025

如果不用任何量化方式，想问下是不是至少要16张a 800 80g？

liangxiaofeng

Feb 13, 2025

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

为什么我们a800 3token/s？
可以交流一下你们做了哪里的限制吗方便的话可以加个v

单机8卡A100 AWQ量化就可以部署起来了。已验证

我们生成token挺快的

SpinoPi

Feb 14, 2025

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

为什么我们a800 3token/s？
可以交流一下你们做了哪里的限制吗方便的话可以加个v

单机8卡A100 AWQ量化就可以部署起来了。已验证

我们生成token挺快的

请问这是在什么硬件配置跑出来的？我在A100上跑AWQ量化版本，并发拉到最高也只能跑出～120token/s的TOT。

Charmnut

Feb 14, 2025

•

edited Jul 2, 2025

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

大佬，是使用的量化到多少的版本

@Nashihikari 未量化的版本……而且目前速度经过优化能到单请求 20 tokens/s 了（不过并发下降到 20 左右，否则可能出现异常截断或者OOM）

可以请教一下如何优化的吗，我们打算用H20部署满血版，20tps真不错呀

ghostplant

Feb 16, 2025

bs=1 (单请求) 下 671B 一般能到多少的 TPS 啊？（如果不允许量化、稀疏）

ghostplant

Feb 20, 2025

•

edited Mar 14, 2025

我们目前使用了一台八卡H20进行部署，能保证约50路左右的并发（单路并发约 7 tokens/s），但是在上下文方面我们做了限制

大佬，是使用的量化到多少的版本

@Nashihikari 未量化的版本……而且目前速度经过优化能到单请求 20 tokens/s 了（不过并发下降到 20 左右，否则可能出现异常截断或者OOM）

可以请教一下如何优化的吗，我们打算用H200部署满血版，20tps真不错呀

单机 8卡 MI300 的满血、满精度版的 bs = 1 TPS 可以达到 90+了。
https://github.com/microsoft/Tutel?tab=readme-ov-file#support-full-precision-inference-of-moe-based-deepseek-r1-671b-on-amd-mi300

JZMALi

Feb 24, 2025

八卡H20 使用VLLM 0.7.1部署【cognitivecomputations/DeepSeek-R1-awq】，然后使用Vllm benchmark_serving 随机100个输入，最大10并发，4000Token输入的情况下，能到39.78Token/S，不过首Token输出平均时间特别长，到了25秒

clapton

Feb 27, 2025

h20 141g h200 141g的整机我都有但是部署有点问题有经验的大佬可以相互指教一下。

allenxml

Mar 8, 2025

h20 141g h200 141g的整机我都有但是部署有点问题有经验的大佬可以相互指教一下。

什么问题

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment

所以部署一个671B的模型 显存需要多少 有什么基准的硬件配置？

所以部署一个671B的模型显存需要多少有什么基准的硬件配置？