使用vllm部署DeepSeek（deepchem 环境配置）

off999 2025-07-14 20:44 104 浏览 0 评论

1、基础环境

1.1、基础环境准备

RTX 3090 * 2卡

ubuntu 22.04
python 3.12
cuda 12.4
pytorch 2.5.1

安装依赖包：

pip config set global.index-url <https://pypi.tuna.tsinghua.edu.cn/simple>

pip install openai==1.61.0
pip install tqdm==4.67.1
pip install transformers==4.48.2
pip install vllm==0.7.1

2、下载模型

pip install modelscope

from modelscope import snapshot_download

model_dir = snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-7B', cache_dir='/root/autodl-tmp', revision='master')

3、创建兼容 OpenAI API 接口

DeepSeek-R1-Distill-Qwen 兼容 OpenAI API 协议，所以我们可以直接使用 vLLM 创建 OpenAI API 服务器。vLLM 部署实现 OpenAI API 协议的服务器非常方便。默认会在 http://localhost:8000 启动服务器。服务器当前一次托管一个模型，并实现列表模型、completions 和 chat completions 端口。

completions：是基本的文本生成任务，模型会在给定的提示后生成一段文本。这种类型的任务通常用于生成文章、故事、邮件等。
chat completions：是面向对话的任务，模型需要理解和生成对话。这种类型的任务通常用于构建聊天机器人或者对话系统。

在创建服务器时，我们可以指定模型名称、模型路径、聊天模板等参数。

-host 和 -port 参数指定地址。
-model 参数指定模型名称。
-chat-template 参数指定聊天模板。
-served-model-name 指定服务模型的名称。
-max-model-len 指定模型的最大长度。

python3 -m vllm.entrypoints.openai.api_server \
  --model /root/autodl-tmp/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
  --served-model-name DeepSeek-R1-Distill-Qwen-7B \
  --max-model-len=2048 \
  --tensor-parallel-size=2

o 通过 curl 命令查看当前的模型列表

curl http://localhost:8000/v1/models

o 使用 curl 命令测试 API

curl http://localhost:8000/v1/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "DeepSeek-R1-Distill-Qwen-7B",
        "prompt": "5的阶乘是多少？<think>\n",
        "max_tokens": 1024,
        "temperature": 0
    }'

o 用 Python 脚本请求 API

from openai import OpenAI
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="sk-xxx", # 随便填写，只是为了通过接口参数校验
)

completion = client.chat.completions.create(
  model="DeepSeek-R1-Distill-Qwen-7B",
  messages=[
    {"role": "user", "content": "5的阶乘是多少？<think>\n"}
  ]
)

print(completion.choices[0].message)

ubuntu卸载python