最近更新时间:2024.05.15 10:44:14
首次发布时间:2023.12.13 22:54:10
模型推理列表页支持按创建时间排序,支持按接入点名称 、模型名称等条件进行搜索。
为便于理解,对模型推理接入点状态字段做特别说明:
参数名称 | 参数说明 |
---|---|
接入点状态 | 调度中:后台资源正在调度中,可能处于排队状态也可能已经在资源启动中 |
健康:接入点状态正常,可以正常调用。但当用户超过限流时依然会报错 | |
已停止:用户触发停止接入的操作 | |
异常:接入的模型异常,您可以提交工单后台将为您处理 |
点击具体接入点名称进入接入点详情页,可以查看模型推理接入点的概览信息、监控、API调用等信息
概览信息中可以查看模型推理接入点接入的基础模型、计费信息。计费信息中可以查看当前模型推理接入点的频率限制、计费方式、付费类型、结算周期、输入价格、输出价格以及账单明细。
点击右上角的 ···,可编辑信息、删除该服务。请注意,当前模型推理接入点支持在相同模型基座的基础上调整不同的模型版本。
模型推理接入点的频率限制可根据具体需求场景评估是否满足,不满足可以参照前端提示提交工单联系客服咨询。
模型监控页面可以查看Token消耗速率请求速率、接口延时、错误率、流式首帧延时、流式非首 Token 延时、非流式延迟。查看监控数据需要完成3步配置:开通VMP服务、授权跨服务访问、选择工作区。
如您购买VMP的标准版工作空间,方舟采集的监控指标将不会对您收取费用。VMP其他的收费说明见收费详情
VMP 配置参照前端指引,需要完成 创建工作区、部署采集器、产看监控信息、配置告警4个模块。配置完成的工作区状态应显示为正常。
注意:您需要有VMPFullAccess才能完成该配置。
跨服务访问需要开通托管Prometheus服务。
将第1步配置的工作区与模型推理接入点进行关联
火山引擎授权操作指引请参考:https://www.volcengine.com/docs/6257/65058
如果子账号需要配置告警规则,需要有当前账号的 VMPFullAccess 权限。如果用户仅有 VMPReadOnlyAccess 权限,需要额外新增以下接口权限来配置告警:
VMP:CreateAlertingRuleGroup,通过告警模版创建告警规则组
VMP:UpdateAlertingRuleGroup,更新告警规则组
VMP:UpgradeAlertingRuleGroups,升级告警规则组到最新的告警模版
VMP:DeleteAlertingRuleGroup,删除告警规则组
点击监控页面右上角的配置指标告警跳转至告警配置页面。
选择模板分类为 Ark**,** 可以看到平台预制的告警模板,如果已有的告警模板不适用,也可以自己创建告警规则自行配置。完成告警模板选择后,点击下一步,创建告警规则组。创建完成告警规则组后,点击下一步,进行规则配置。配置完成后
支持使用邮件、飞书、钉钉、电话几种形式进行告警通知接收,详细配置方式见告警中心