You need to enable JavaScript to run this app.
导航

查看并管理推理接入点

最近更新时间2024.05.15 10:44:14

首次发布时间2023.12.13 22:54:10

查看并管理模型推理
  1. 登录火山方舟,单击左侧导航栏中的模型推理进入列表页。列表页展示了每个接入点的名称、状态、创建时间、管理员信息,也提供了开启停止删除等操作。

  1. 模型推理列表页支持按创建时间排序,支持按接入点名称模型名称等条件进行搜索。

  2. 为便于理解,对模型推理接入点状态字段做特别说明:

参数名称参数说明

接入点状态

调度中:后台资源正在调度中,可能处于排队状态也可能已经在资源启动中

健康:接入点状态正常,可以正常调用。但当用户超过限流时依然会报错
已停止:用户触发停止接入的操作
异常:接入的模型异常,您可以提交工单后台将为您处理
查看模型推理接入点详情

点击具体接入点名称进入接入点详情页,可以查看模型推理接入点的概览信息、监控、API调用等信息

概览信息

概览信息中可以查看模型推理接入点接入的基础模型、计费信息。计费信息中可以查看当前模型推理接入点的频率限制、计费方式、付费类型、结算周期、输入价格、输出价格以及账单明细。
点击右上角的 ···,可编辑信息、删除该服务。请注意,当前模型推理接入点支持在相同模型基座的基础上调整不同的模型版本。
模型推理接入点的频率限制可根据具体需求场景评估是否满足,不满足可以参照前端提示提交工单联系客服咨询。

监控配置

模型监控页面可以查看Token消耗速率请求速率、接口延时、错误率、流式首帧延时、流式非首 Token 延时、非流式延迟。查看监控数据需要完成3步配置:开通VMP服务、授权跨服务访问、选择工作区。

第1步:开通VMP服务并完成工作区配置

如您购买VMP的标准版工作空间,方舟采集的监控指标将不会对您收取费用。VMP其他的收费说明见收费详情
VMP 配置参照前端指引,需要完成 创建工作区、部署采集器、产看监控信息、配置告警4个模块。配置完成的工作区状态应显示为正常。
注意:您需要有VMPFullAccess才能完成该配置。

第2步:授权跨服务访问

跨服务访问需要开通托管Prometheus服务

第3步:选择工作区

将第1步配置的工作区与模型推理接入点进行关联

监控告警

火山引擎授权操作指引请参考:https://www.volcengine.com/docs/6257/65058

前提条件

如果子账号需要配置告警规则,需要有当前账号的 VMPFullAccess 权限。如果用户仅有 VMPReadOnlyAccess 权限,需要额外新增以下接口权限来配置告警:

  • VMP:CreateAlertingRuleGroup,通过告警模版创建告警规则组

  • VMP:UpdateAlertingRuleGroup,更新告警规则组

  • VMP:UpgradeAlertingRuleGroups,升级告警规则组到最新的告警模版

  • VMP:DeleteAlertingRuleGroup,删除告警规则组

告警配置

点击监控页面右上角的配置指标告警跳转至告警配置页面。
选择模板分类为 Ark**,** 可以看到平台预制的告警模板,如果已有的告警模板不适用,也可以自己创建告警规则自行配置。完成告警模板选择后,点击下一步,创建告警规则组。创建完成告警规则组后,点击下一步,进行规则配置。配置完成后

告警通知

支持使用邮件、飞书、钉钉、电话几种形式进行告警通知接收,详细配置方式见告警中心