最近更新时间:2024.05.13 11:24:49
首次发布时间:2022.11.03 20:11:05
本文描述了如何通过边缘智能控制台部署模型服务。您可以在一体机上部署边缘智能的官方模型、您创建的自定义模型。
不同框架的模型对一体机指令集架构、协处理器类型有不同的要求。具体如下表所示。在部署模型服务前,请确保您的一体机与要部署的模型是兼容的。
模型框架 | 一体机指令集架构要求 | 一体机协处理器要求 |
---|---|---|
ONNX | x86/amd64、arm | CPU、GPU |
TensorRT | x86/amd64、arm | GPU |
PyTorch | x86/amd64、arm | CPU、GPU |
TensorFlow | x86/amd64、arm | CPU、GPU |
OpenVINO | x86/amd64 | CPU、GPU |
Bytenn | x86/amd64、arm | CPU、GPU |
PaddlePaddle | x86/amd64 | CPU、GPU |
登录边缘智能控制台。
在左侧导航栏顶部的 我的项目 区域,选择您的项目。
在左侧导航栏,选择 边缘推理 > 模型服务。
单击 部署模型服务。
在 部署模型服务 页面,配置以下参数,然后单击 确认。
区域 | 参数 | 说明 |
---|---|---|
基本信息 | 所属项目 | 固定为当前选择的项目。 |
一体机 | 选择需要部署模型服务的一体机。 | |
服务名称 | 为模型服务设置名称。输入要求如下:
| |
模型信息 | 模型 | 选择要部署的模型。可以选择边缘智能的官方模型,也可以选择您创建的自定义模型。 |
模型版本 | 选择要部署的模型版本。 | |
模型前后处理 | 选择要部署的模型前后处理版本。关于前后处理版本的详细说明,请参见为模型创建版本。 | |
服务配置 | 服务状态类型 | 固定为 无服务状态。 |
最大批处理大小 | 设置最大批处理数量。取值范围:0 ~ 100。 | |
HTTP端口 | 输入 HTTP 服务端口。端口范围:30000 ~ 40000。 | |
GRPC端口 | 输入 GRPC 服务端口。端口范围:30000 ~ 40000。 | |
部署实例 | 为每个子模型分别配置以下参数: 说明 当 模型 是 Ensemble 以外的类型时,子模型有一个;当 模型 是 Ensemble 类型时,有多个子模型。更多信息,请参见创建自定义模型。
| |
资源配置 | 为模型服务分配一体机资源。支持的配置项包括:
注意 如果模型服务在 CPU 或内存方面超过限额,容器将会被终止。 | |
压缩模式 | 选择是否采用输入压缩模式来部署模型服务。 说明 当 模型 是 Ensemble 类型时,无法开启压缩模式。 在模型服务与数据流分开部署的场景(如云边协同)建议开启输入压缩模式。开启输入压缩模式后,模型服务的部署会自动转化为一个 Ensemble 联合模型服务的部署,它包含三部分:Ensemble 模型,Python 前处理模型以及您选择的模型本身。
|
完成上述操作后,您可以在 模型服务 列表查看已经部署的模型服务。
说明
模型服务的部署基于边缘智能提供的 GPU 镜像文件。当您首次在某台一体机上部署模型服务时,该一体机将自动下载必要的 GPU 镜像文件。下载所需的时间长度取决于该一体机的网络环境,过程大约需耗时 5 至 10 分钟。若一体机已开启 GPU 镜像预加载 功能,则部署模型服务的时间将会明显缩短。更多信息,请参见绑定一体机。