百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Ascend+FastAPI+ Uvicorn 实现推理

off999 2025-02-07 18:44 20 浏览 0 评论

1、FastAPI & Uvicorn

FastAPI

FastAPI 是一个用于构建 API 的现代、快速(高性能)的 Python Web 框架,专为在 Python 中构建 RESTful API 而设计,具有以下特点:

高性能

  • 性能卓越:FastAPI 的性能可与 NodeJS 和 Go 等语言的高性能 Web 框架相媲美,是最快的 Python Web 框架之一。这得益于其底层的 Starlette 框架和异步编程模型,能够充分利用 Python 异步生态系统,提供卓越的性能和吞吐量。
  • 异步支持:FastAPI 支持基于 Python 3.7 及以上版本的异步编程,使得处理 IO 密集型任务更加高效,非常适合高并发的场景。
from fastapi import FastAPI
app = FastAPI()

@app.get("/")
async def read_root():
    return {"Hello": "World"}

@app.get("/items/{item_id}")
async def read_item(item_id: int, q: str = None):
    return {"item_id": item_id, "q": q}

在这个例子中,我们定义了两个路由:一个根路由 / 和一个带参数的路由 /items/{item_id}。通过装饰器 @app.get(),我们指定了 HTTP 方法和路由路径。函数参数将自动从查询参数、路径参数、请求头等中提取,并进行数据验证。

Uvicorn

Uvicorn 是一个基于 ASGI(Asynchronous Server Gateway Interface)的轻量级异步服务器,用于运行 Python Web 应用程序,特别是那些基于 ASGI 的现代异步框架,如 FastAPI、Starlette 等。以下是关于 Uvicorn 的详细介绍:

基本功能

  • 异步支持:Uvicorn 是一个异步服务器,能够充分利用 Python 的异步编程特性。它使用 Python 的 asyncio 库来处理并发请求,使得应用程序能够更高效地处理大量并发连接,特别适合处理 IO 密集型任务,如网络请求、数据库操作等。
  • 高性能:Uvicorn 的性能非常出色,它能够快速地处理请求和响应,提供高吞吐量和低延迟的服务。在许多基准测试中,Uvicorn 的性能表现与一些传统的同步服务器(如 Gunicorn)相比具有显著优势,尤其是在处理大量并发请求时。

FastAPI + Uvicorn 的结合

  • 无缝集成:Uvicorn 与 FastAPI 结合使用非常方便。FastAPI 生成的 ASGI 应用可以直接由 Uvicorn 运行,无需额外的适配。这种组合充分利用了 FastAPI 的开发友好性和 Uvicorn 的高性能,使得开发和部署异步 Web 应用变得非常简单。
  • 生产环境:在生产环境中,Uvicorn 可以与 Nginx 等反向代理服务器配合使用,提供更稳定、更安全的服务。Nginx 可以处理静态文件、负载均衡、SSL/TLS 加密等任务,而 Uvicorn 专注于处理动态请求。

假设有一个简单的 FastAPI 应用 app.py

from fastapi import FastAPI

app = FastAPI()

@app.get("/")
async def read_root():
    return {"Hello": "World"}

可以通过以下命令使用 Uvicorn 启动该应用:

bash复制uvicorn app:app --host 0.0.0.0 --port 8000

访问 http://localhost:8000 即可看到返回的 JSON 响应。

2、Ascend上跑推理

方案设计

具体的模型通过transformers 库的from_pretrained接口从xxx-config配置文章引入。

model = AutoModel.from_pretrained("xxx-config", torch_dtype="auto").to("npu:0"),

引入。然后就是,以FastAPI + Uvicorn启动一个web服务,通过generate_chat_output运行推理,获取推理结果。

整体方案代码参考如下

import torch
import torch_npu
import uvicorn
from typing import List
from fastapi import FastAPI
from contextlib import asynccontextmanager
from transformers import AutoTokenizer, AutoModel
from fastapi.middleware.cors import CORSMiddleware

# 设置卡
torch.npu.set_device("npu:0")

# 配置tokenizer 
tokenizer = AutoTokenizer.from_pretrained("xxx-config")

# 获取模型
model = AutoModel.from_pretrained("xxx-config", torch_dtype="auto").to("npu:0")

@asynccontextmanager
async def lifespan(app: FastAPI):
    yield
    if torch_npu.npu.is_available():
        torch_npu.npu.empty_cache()

# 实例化api服务器
app = FastAPI(lifespan=lifespan)

app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],
)

# 推理实现
@app.post("/llm/chat")
async def generate_chat_output(item: Item):
    try:
        texts = [t.replace("\n", " ") for t in item.sentences]
        encoded_inputs = tokenizer(texts, truncation=True, return_tensors="pt", padding=True, max_length=512).to("npu:0")
        with torch.no_grad():
            model_output = model(**encoded_inputs)
    except Exception as e:
        traceback.print_exc()

    return sequence_embeddings.tolist()

# uvicorn提供服务化
if __name__ == '__main__':
    uvicorn.run(app, host="0.0.0.0", port=8080)

构建测试

测试文件test.py如下:

import httpx
data = {
    "sentences": ["中国GDP为129.43万亿元,GDP增速为5.25%,人均GDP为8.94万元/人,人均GDP增速为5.40%,其中第一产业占6.90%,第二产业占36.80%,第三产业占56.30%"]
}
def request_url():
    with httpx.Client() as client:
        res = client.post("http://127.0.0.1:1025/llm/chat", json=data)
        print(res.json())

运行

python test.py

客户端和服务器均正常。

添加图片注释,不超过 140 字(可选)

上述他图片结果,仅攻参考。

相关推荐

Python变量类型判断方法详解(python怎么判断变量名合不合法)

技术背景在Python编程中,变量类型的判断是一项基础且重要的操作。由于Python是动态类型语言,变量的类型在运行时才能确定,因此在开发过程中,我们常常需要明确变量的类型,以便进行相应的操作。同时,...

如何确定Python变量的类型(python指定变量类型)

技术背景在Python编程中,变量是动态类型的,即变量在使用过程中可以被赋予不同类型的值。这在带来灵活性的同时,也可能导致在某些情况下需要明确变量的具体类型。例如,在进行数据处理、类型转换或错误检查时...

Python 中检查类型的标准方法(python检查函数)

在Python的编程世界里,我们常常会遇到需要检查变量类型的情况。在StackOverflow上有一个热门问题“What'sthecanonicalwaytocheck...

Python中确定对象类型的方法(python中确定对象类型的方法有哪些)

技术背景在Python编程中,有时候需要确定一个变量的类型,例如判断一个变量是列表、字典还是其他类型。了解对象的类型有助于进行条件判断、错误处理以及编写通用的代码。Python提供了多种方法来实现这一...

Python 中的类型检查(python类型检查函数)

Python是一种解释型、交互式和面向对象的编程语言。它支持动态类型,具有非常高级的动态数据类型。动态数据类型使得开发者能够专注于实际程序,而不是在编写代码时花费时间和精力去指定数据类型。Pytho...

Python从入门到放弃-详解列表、元组和字典

什么是列表?列表是在Python中一种常见的数据存储结构,它可以用来存储不同类型的数据。与其他开发语言不同的是Python中的列表中可以存储各种类型的数据,而不是只能用来存储一种类型的数据,如下所示l...

现代化python字典合并的技巧(python字典怎么合并)

现代Python字典合并:使用|运算符在Python3.9之前,有两种常见的合并字典的方法:使用update方法或**运算符。然而,这两种方法都有其缺点。在本文中,我们将探讨Python中合并字典的...

三种常用方法合并 Python 字典,你学会了吗?

在使用Python字典时,你有时需要将多个字典合并成一个,以便后续处理。本教程将介绍三种常见的Python字典合并方法。我们将重点学习以下三种方式:使用update()方法字典解包并集运算...

23-Python-第三方库Json(python第三方库代码大全)

1-json库的使用`json`库是Python标准库的一部分,用于处理JSON数据。它提供了`loads`、`dumps`等方法。安装三方库pipinstalljson1-1-将JSON字符串解...

Python中复制字典并仅修改副本的方法

技术背景在Python编程中,当我们想要复制一个字典并对副本进行修改,而不影响原始字典时,可能会遇到一些问题。直接使用赋值语句dict2=dict1并不能实现真正的复制,而是让dict2和...

Python 中的字典推导式(字典在python)

通过本文,你将了解有关Python字典推导式的所有信息,包括如何创建字典、使用条件语句(if-else语句)访问字典以及如何使用易于实现的步骤嵌套推导式!什么是字典Python中的字典是项目的...

python笔记17:字典推导式(python 字典的字典)

字典推导式'''#如:1,2,……10为键,平方为值dict_shu={}forimteinrange(1,11):dict_shu[imte]=imte**2print...

Python代码使用字典推导式(字典 python)

解释python代码:stoi={ch:ifori,chinenumerate(chars)}这段Python代码使用字典推导式创建了一个字符到索引的映射字典。具体解释如下:stoi=...

Python-中的词典 {_}(python字典用法大全)

字典是键值对的集合,其中每个键都链接到一个值(可以是数字、字符串、列表,甚至是另一个字典)。键和值用冒号分隔,每个键值对用逗号分隔,用大括号{}括起来。访问值:可以通过引用方括号内的键来检索值。a...

Python 开发工程师必会的 5 个文件操作库

在Python开发的世界里,文件操作是一项基础且高频的任务。从日常的数据处理到复杂的项目部署,熟练掌握文件操作库能让我们的开发工作事半功倍。本文和大家聊聊我眼中开发必备的5个文件操作库,它们各...

取消回复欢迎 发表评论: